打造「數據金字塔」,小米大數據平台建設之路
提到小米,我們首先想到的這是一家互聯網企業,主要產品除了手機,還有如空氣凈化器,凈水器,小米手環等智能化產品。從某種角度來說,小米已被打上了智能家居和技術創新標籤。其實,小米能有今天的發展,大數據平台在其中扮演了最重要的角色。
提升效率,小米大數據平台構建之初
什麼是大數據平台?對於大數據概念,很多人都能理解,最典型的特徵就是數據量大、數據複雜,需要藉助專業工具才能在合理的時間內幫助企業擷取、管理、處理並整理成為有價值的信息。而大數據平台,需要在大數據基礎上,以一個平台的形式,形成一整套解決方案,比如:數據接入、數據處理、數據存儲、查詢檢索、分析挖掘等、應用介面等,是一個統一體。
當然,不同類型的企業,大數據特色各不相同。小米公司經過8年的發展,積累了海量的日誌和用戶行為數據,已形成全生態,多樣性的數據資產。小米的數據來源於硬體、軟體和大量的互聯網服務,每天有超過萬億級的日誌,數據異構性非常強。如何處理和發揮這些異構數據的價值?是小米大數據團隊最大挑戰!
所以,構建一個全面集成的大數據平台,成為小米技術變革道路上的新征程,也是大數據團隊所有人員的最神聖使命。
小米大數據負責人司馬雲瑞
談到大數據平台建設,小米大數據負責人司馬雲瑞,如數家珍。這可能和他過去的從業經歷,不無關係。2005年畢業後,司馬雲瑞在微軟亞洲工程院、微軟亞太研發集團負責雲服務和大數據相關工作。期間從事過前端、中間件、伺服器、雲計算、數據工程、數據科學、數據產品等不同類型的開發工作。
對司馬雲瑞個人而言,微軟的從業經歷讓他實現了職業生涯中的三個重大跨越。第一,通過對技術深度和廣度的掌握,具備了對技術邊界的判別能力,並能從架構美學角度看待技術問題。第二,是對產品和業務能力的掌握,讓他具備了技術落地能力;第三,重塑技術思維模式,以業務的角度看待問題,更具商業掌握能力。
經過十年的歷練,司馬雲瑞在2014年加入小米,主攻方向是數據平台、用戶畫像和數據應用。數據平台的目的是:把數據管理、治理好,並提供工具幫助業務團隊高效地使用起來;用戶畫像的目的是:把公司關鍵的數據做好;數據應用的目的是:把數據用起來,賦能核心業務領域。
擁抱開源,打造「數據金字塔」
小米的大數據平台構建,始於五年前。在設計之初,小米就大力擁抱開源技術,尤其是Hadoop生態。此外,小米在Hbase,Spark,kudu等關鍵技術領域,也做了大量的投入,並且把自己在開源方面的貢獻反饋給開源社區。
之所以要建大數據平台,最主要的目的是提升效率,實現數據的一致性,並且要滿足數據質量提高和合規方面的要求。通過構建小米的數據治理體系——「數據金字塔」,打造統一的大數據架構,將數據的採集、處理、應用等各個步驟標準化,全面提升數據質量、一致性和開發查詢等應用的效率。數據平台不僅提供強大的技術支撐能力,還要為所有業務賦能。
至於,為什麼要選擇開源技術?是因為小米有自己的大數據分層體系和架構。在做技術選型的時候,首先要看新的技術對需求的滿足程度,然後再看和現有體系的契合度,而開源技術和Hadoop體系,能大大降低小米的改造成本和學習成本。
大數據平台上線後,我們可以看到兩個最重要的價值:一是效率。整體數據治理體系初步成型後,開發效率有大幅地提升,查詢效率有一至兩個數量級的提升,讓公司的業務層更易於使用數據。二是創新。數據平台解決了以往數據孤島問題,把所有數據都匯總起來,並擁有了一致化體驗。其中產生大量的創新機會,比如:互聯網金融基於異構行為數據進行信用風險的判別,就是一個典型的例子。
萬變不離其宗,大數據平台要為業務賦能
為了避免企業在大數據平台構建中「采坑」,司馬雲瑞總結出自己的心得體會。首先,企業內部做數據平台,要有打破數據孤島的意識;其次,要樂於和善於使用開源技術和既有的優秀方案;第三,要有整體的架構方向感和適用的數據治理體系;最後,也是最重要一點,要有業務思維,要明白平台要服務於業務,為業務賦能。每一項工作都應該對業務有可衡量、可評估、可持續改進的效用。
小米的大數據平台在為業務賦能方面,非常具有參考價值。以現在非常火的「小愛」為例,越來越多的交互轉移到用戶自學習、個性化需求實現方面。小米在MIUI上發布了大量的AI能力,比如:為了提高系統性能而研發的App預測。在C端,大數據和AI正在將個性化推向極致;在B端,大數據和AI正在重構商業流程和模式。
雖然數據應用千差萬別,但其實各家實現的方法大同小異。司馬雲瑞希望通過各種行業活動及交流會的方式,把小米的大數據平台建設經驗,分享更多企業。每年的DTCC大會,是他比較喜歡的一種交流形式。從旁觀者,到參與者,再到大會顧問。司馬雲瑞和小米,和業界更多成功企業,一路同行,攜手相伴。
想要了解大數據平台建設的更多信息,請點擊 DTCC2019第十屆中國資料庫技術大會官網:
http://dtcc.it168.com/index.html


※選擇SD-WAN供應商時需要考慮的關鍵問題
※ElasticSearch伺服器泄露 5700萬個人數據外泄
TAG:IT168企業級 |