當前位置:
首頁 > 最新 > 從數據計算到數據交換:10年數據從業者,看區塊鏈在雲計算、大數據行業的機遇

從數據計算到數據交換:10年數據從業者,看區塊鏈在雲計算、大數據行業的機遇

計算能力是大數據的基礎,計算髮展到一定規模,沉澱的數據就可以對外輸出能力。

我想從自身的數據工作歷程,講述對我數據和平台的看法。總結一些經驗,並且分析在新的熱潮下,數據時代基礎平台的展望。主要體現傳統大數據領域為何探索數據交換,遇到的核心問題,以及在區塊鏈中如何解決這些問題。

初碰大數據

我是從08年開始接觸大數據,當時是替焦點網做一個分析平台,預測廣告主未來投放預算的傾向,為業務決策提供依據。用到了爬蟲、數據挖掘的技術。儘管整體數據量和計算量不算大,但是多樣性方面已經算是是大數據的一類典型應用。

第一次感受計算的震撼

09年朋友推薦加入了阿里雲,當時叫集團研發院,開始負責一些分散式計算業務的落地。那時環境比較簡陋,做一個應用需要把整個飛天代碼checkout,測試環境部署也都需要自己寫一些腳本去自動化。PG文件系統也很慢,速度只有百KB。就是在這樣的環境下,我們搞出了第一個基於飛天的數據渲染項目——地圖。這個項目算是第一次感受到用並行計算改變效率的震撼,在阿里第一次技術嘉年華,馬雲還親自看了演示。

其實當時最大的感慨就是一個集群中同時設計OLTP和OLAP兩種計算框架的價值。前者注重事務性,後者注重批量處理能力。這樣的好處在於將各種計算需求可以在統一的調度體系下管理,使資源利用最大化,未來雲計算的成本才能可控。儘管至今阿里雲仍然為此目標努力,現在看來,這個架構的設計確實奠定了未來在大數據領域持續發展的基礎。

奮戰大數據計算

09年底開始嘗試去替換支付寶和淘寶的數倉體系。這裡要提一下,曾經博士說阿里雲的願景是成為數據分享第一平台,當時我完全不理解。深入淘寶數據業務之後,才逐漸意識到數據交換的意義。

當時為了解決淘寶數據平台計算需求,有個先遣隊先把RAC集群換成了Hadoop集群,而我們的任務就是用飛天的SE_offline替換Hadoop的hive。 SE那時剛起步,連UDF都不支持,這一點就是很大門檻。當時準備很多資源去用C++實現UDF,所有代碼都得進入主幹與飛天一起編譯才能生效。另外還有語法兼容問題,性能問題,功能問題等。這個過程中我們看到數倉業務的複雜性是超出預期的,直接從計算引擎切入遷移可能代價很大。

所以下一回合,我們從DW和計算引擎一起入手,此時SE引擎已升級為DE。DW層面可以去兼容日常的業務生產調度,引擎去支持更多的語法解析和執行計劃,同時將一些兼容性問題可以包裝在DW和DE之間,下游用戶只需考慮作業的遷移,同時可以享受到我們數據模型優化帶來的成本縮減。

2010年底我們發布了一套數據開發套件,囊括業務調度、開發組件、BI工具。不過這是一個很激進的方案,有些脫離業務實際,因此沒有得到應用。

數據交換價值初現

2010年開始投入阿里金融的小額信貸項目,在我看來這是一個證明計算和數據價值的最佳落地機會。金融業務剛起步,信貸模型不難,兩百多個query用DE去支持更可行。同時需要很多用戶、訂單和交易數據,涉及異構平台的抽取、清洗和規格化。

當然這裡邊的挑戰是錘鍊計算引擎,只聚焦在這兩百多個Query作為開發目標,甚至多表Join都延後支持。也凸顯了自主開發計算引擎的難度。所以那是出現了另一個DE方案,基於HIVE的計算,利用hive的語法解析器和執行計劃,通過適配層在飛天跑起來。這個方案可以直接支持HQL語句,而且可以把精力省出來進入執行優化階段,最重要的也許是我們看到了把更大規模的計算淘寶DW遷移過來的希望。

阿里金融用了一年時間跑起來,不但把計算引擎夯實,而且通過數據的融合,支付寶、淘寶數據、外部徵信數據、旺旺數據等等,使得從0起步的阿里金融迅速實現了對千萬商家的高效小額貸款,而且壞賬率極低。收益高、周期短。

淘寶DW遷移,平台的統一,確定了數據交換之路

12年集團CDO成立,淘寶數倉的遷移成為一個BU內部的事情。逐漸成熟的計算引擎和數據業務團隊在一起,共同完成一個目標。

那時淘寶的Hadoop集群已經壯大到一千多台。在13年,DE順應開放戰略已經升級為ODPS,成為一個支持多租戶、資源隔離、安全容器和數據授權的數據PAAS平台。上層開發平台已發展到涵蓋業務調度、開發工具、生產監控、元數據、數據質量管理和數據同步等完備的數據開發和管理體系。即使如此,當時還是先選擇DW中某一個代表項目為遷移目標。半年後,數據魔方的計算作業全部從Hadoop遷移到ODPS。

這個項目的成功奠定了規模化遷移的工作基礎,後續集團各BU大部分項目都陸續成功遷入。而底層飛天單集群規模已達到5k,通過ODPS的跨集群調度可以控制多個集群,上層開發平台統一管理多個ODPS實例和老的Hadoop集群。就這樣數據的使用者就像操作一台計算機一樣使用數萬台伺服器。

基礎設施的完備使得數據業務爆發增長,也帶來了性能和成本的挑戰。平台的統一使得我們可以獲得更多更結構化的元數據,新的數據治理和生產管理體系陸續推出,解決生產優先順序、資源分配、監控、質量、重複計算、冷數據等一系列問題。

計算和數據的統一以及計算能力和治理能力提升,實現了數據的存和通,價值輸出成為可能。13年正式提出了DXP計劃,以我的理解,數據流動起來才能產生價值。但是安全性是交換的很大挑戰,當時並沒有提出數據買賣的概念,而是以數據SAAS應用的形式在應用市場提供服務,使內部數據的價值可以對外輸出,同時外部的應用開發者也會通過發布應用而回傳相應的數據。另一個出口是阿里媽媽的標籤市場,作為一種數據成果的交換,解決數據安全的同時滿足營銷場景的交換需求。

屢試交換,仍然很難商業化落地

我回想起DXP沒有成功的原因:安全性,商業價值,儘管這個生態參與者足夠完整,但是積極性不高,之間不夠互信,價值不能達成共識。數據的提供者總是擔心自己的核心利益受損,因為數據不能追溯和審計;應用提供方擔心自己的核心演算法泄露,無法保障知識產權,所以只提供黑盒程序;平台擔心第三方程序的安全性,層層沙箱和限制策略;等等其他。這些造成了項目效果有限,客戶需要一個個BD,也就很難形成一個高效自運轉的業務體系。

15年在數據賦能的浪潮中,我認為是數據交換的又一輪嘗試。新的平台不但從功能上擴展到了BI、可視化領域,還首次以服務的形式開放數據。這樣形式更靈活,數據使用者可以在不碰到明細情況下,去分析用戶的行為和畫像,甚至可以定製訓練分類演算法模型。這些新的模式我覺得在商家業務落地更好一些,因為有較成熟的電商業務和廣告業務,以及淘寶的開放平台和應用市場。但是在2016年的商業化效果還是沒有達到預期,那時我深刻意識到ODPS的使用成本真的是依賴數據的中小企業或初創業務板塊發展中面臨很大的一個問題。

這裡提到了中小企業,那年我結束阿里的工作,加入另一個公司——樂視,我期望繼續探索數據交換帶來的價值。

中小型互聯網企業對數據交換的需求

雖然那年樂視可以說比肩BAT,但是從數據基礎設施來講,和中小型互聯網企業所處差不多的階段。這裡只談技術相關的內容。內部是計算能力,由於資源不能有效隔離,集群調度性能,以及生產管理的缺乏,為了互不影響,只能拆分集群。這就導致數據孤島現象越來越嚴重。以及數據架構的不統一,內部數據交互都比較困難。有一次我還在評估把一些小的獨立數據業務放在阿里雲上,算了一下,挺貴的。

外部提一下PDB廣告。樂視的流量利用率不高,一方面很多廣告訂單消耗不完,另一方面又需要接入其他ADX去填補剩餘的流量。陷入這種窘境是因為廣告主對流量的偏好,熱點流量不足。有些他們會請第三方監測機構來評價流量,如何不符合偏好需求,廣告主就不會為此付費。由於沒有檢測機構DMP的數據,評價規則成為黑盒。樂視在前端埋點很多監測代碼,流量數據源源不斷外流,但是卻不掌握效果口徑。在我看來,秒針、Admaster這些監測機構成為巨大的數據中介,極端點理解,其實把屬於每個人的行為數據,再加工成畫像數據,賣給媒體和廣告主盈利。難怪當年淘寶商家上雲時,第三方檢測代碼被全面封殺。

那時我們也希望通過對用戶的偏好分析,推薦合適的內容,提高流量。這也需要大量的數據去訓練模型。當時還希望集團建立統一的標籤庫,以及推薦、廣告、搜索共享的標籤庫、標籤服務,以提高用戶偏好的分析能力。但是儘管樂視擁有內容、流量、用戶、終端、交易、商品等多種數據,除了內容相關的,其他都很稀疏。

有段時間阿里媽媽過來談合作,營銷的同事希望把部分廣告全都包給阿里,不但可以共享阿里的標籤,在效果方面也不會被干擾。但是正在推全域營銷的阿里媽媽需要樂視提供明細的流量數據。這顯然不太公平,我當時沒有同意,因為根本無法追溯和審計這些數據的使用。當然最終營銷中心也沒有批准這個合作。

由此看來,中小互聯網公司對數據的依賴有多強。而且這種趨勢一定隨著互聯網+的發展而影響到整個中小企業。他們需要有一個公平的數據交換體系,就像獲取水電油一樣的便利和公平。

從頭再來,區塊鏈能帶來的巨大變革

說了這麼多,總結起來就是計算能力是大數據的基礎,計算髮展到一定規模,沉澱的數據就可以對外輸出能力。中小企業也很需要計算能力和數據能力,但是沒有公平的交換機制,各方沒有積極性主動交換和流轉。因此數據交換一直都沒有行程規模化的市場形態。

17年我看到了改變這一切的機會。8月份我從樂視出來,參與到一個做手機算力的項目中,年底我改為共享計算及數據交換,叫做Gravity。以CDN為例,我想播放一個視頻,如果服務方是路由最近的另一個設備,效率是最高的。數據計算也是一樣,如果計算節點離需求者最近,在節點足夠多的情況下,肯定比集中的計算效率高。而且這些節點不受物理位置的影響,只要有設備的地方都可能互聯。這就是為什麼有個叫星際文件系統的項目,那我們做的就是星際計算框架^^。使得計算的基礎設施成本低很多,而且通過合約共識建立公開受信的網路。

這種模式需要大量的節點,那麼為什麼那麼多人要去分享這些資源呢。這就需要一種互信的激勵機制,大家能共同獲益,又能防止欺詐。區塊鏈就提供了這麼一個新秩序的環境。共享資源的用戶會得到權證並永久記錄在不可篡改的賬本中,這些權證通過流通可以增值,實現了共同獲益。用可驗證的工作證明和共識機制創建自製環境,行程可信的算力共享和數據交換網路。在Gravity中,利用PoT證明確認礦工貢獻的資源,基於可驗證外包計算、VRF、PCP機制以及基於Hypervisor的可信運行環境建立。

再說說數據。現在用戶的數據都集中在互聯網巨頭的體系里,以及各路「數據中介」手中,數據資產的擁有者並沒有成為數據的主人。如果數據接入區塊鏈,數據也會成為權證被唯一標示,並且公開可追溯。通過流通,數據的擁有者會獲益,他們會像對待一個投資渠道一樣主動的參與進來。而互聯網平台可以通過共享演算法和服務以及企業數據來獲取利益。所有這些都可以通過賬本去審計。最近阿里雲在說「堅決不碰用戶數據」是底線,其實當然不能碰,就像沒人承諾自己不違法一樣。就是一些底線是不用通過PR承諾的,而是通過公開的可審計機制去建立可信環境。

最近阿里雲不再提數據分享的願景了,更多去做收入更好的私有雲,但是看著城市大腦的推廣,公有雲和數據交換的夢想還在。而我看到的區塊鏈時代帶來的數據交換機遇,讓每個人都參與進來,建立公開公平的環境,沒有中介,通過共享計算平台,數據像基礎資源一樣高效流動起來。博士說最難的事情都留給年輕人去做了,對於我們這些還算年輕的人來說,就去做些更難的事吧。

待續:在區塊鏈中實現數據計算和數據交換的挑戰。


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 新芽newseed 的精彩文章:

ofo商業化變現又出新招,未來要變身新聞APP?
最會賺錢的許家印要加持賈躍亭!恆大集團正式入主FF

TAG:新芽newseed |