當前位置:
首頁 > 科技 > 大數據已死

大數據已死

由於關注的重心從我們收集數據的方式轉向實時處理數據,大數據時代即將終結。大數據現在是支持多雲、機器學習和實時分析這幾個新時代的業務資產。

大數據時代生於2006年4月1日,卒於2019年6月5日

大數據時代終結於2019年6月5日,當時Tom Reilly宣布即將從Cloudera辭職,隨後該公司市值應聲下跌。加上MapR前不久宣布將於6月下旬關門大吉——這將取決於MapR能否找到買家來繼續運營,2019年6月表明了這個事實:Hadoop推動的大數據這個早期時代已宣告結束。大數據會因在這幾方面起到的作用而被世人銘記:促使社交媒體開始佔主導地位,從根本上改變企業在處理多出好幾個數量級的數據方面的理念,以及澄清分析數據、數據質量和數據治理的價值,不斷評估作為企業資產的數據。

如果為大數據時代擬寫某種意義上的悼詞時,必須要強調一下:大數據技術實際上並沒「死」,但第一代基於Hadoop的大數據已達到成熟的程度,它已在企業數據界確立了穩固的角色。大數據不再是無限增長的炒作周期的一部分,而是一種老牌技術。

大數據的誕生

大數據時代始於ApacheHadoop在2006年的亮相,開發人員和架構師將此工具視為有助於處理和存儲多結構化數據和半結構化數據。企業在數據方面的理念發生了根本性轉變,並不僅限於傳統企業資料庫的ACID(原子性、一致性、隔離性和持久性),導致數據使用場合發生了變化,許多公司意識到以前丟棄或保存在靜態歸檔中的數據實際上有助於了解客戶行為、採取行動的傾向、風險因素以及複雜的組織、環境和商業行為。Cloudera這款商業發行版推出後,Hadoop的商業價值在2009年開始得到確立,MapR、Hortonworks和EMC Greenplum(現在的Pivotal HD)緊隨其後。雖然分析師們預測大數據這個潛在市場的規模高達500億美元或更多,但Hadoop這種分析工具最終在最近十年受到了質疑。

Hadoop在企業界面臨的挑戰

雖然Hadoop在通過批處理支持大型存儲和ETL(提取、轉換和載入)作業以及支持機器學習任務方面大有價值,但它在支持公司和大型組織用來管理日常運營的較為傳統的分析工作方面並非最佳選擇。Hive、Dremel和Spark等工具在Hadoop上面使用以支持分析,但Hadoop從未變得足夠快,無法真正取代數據倉庫。

Hadoop還面臨這樣的挑戰:NoSQL資料庫和對象存儲提供商在解決Hadoop最初旨在幫助解決的部分存儲和管理難題方面取得了進展。隨著時間的推移,在Hadoop上支持業務連續性面臨挑戰,加上支持實時、地理空間及其他新興的分析使用場合方面缺乏靈活性,這使得Hadoop面對海量數據時很難在批處理之外大有作為。

此外,久而久之,許多公司開始發現大數據難題越來越與此有關:支持一系列廣泛的數據源,並迅速調整數據模式、查詢、定義和上下文,新的應用程序、平台和雲基礎設施供應商就體現了這一點。為了克服這個挑戰,分析、集成和複製就必須變得更敏捷更快速。許多供應商紛紛創辦就體現了這個挑戰,包括:

分析解決方案:比如ClearStory Data、Domo、Incorta、Looker、FineBI、Microsoft Power BI、Qlik、Sisense、Tableau和ThoughtSpot

數據管道供應商:比如Alooma、Attunity、Alteryx、Fivetran和Matillion

數據集成供應商:包括Informatica、MuleSoft、SnapLogic、Talend和TIBCO(後者還憑藉其Spotfire產品組合角逐分析領域)。

如果從收購或融資的角度來看,許多這些公司似乎都備受矚目,這絕非巧合。最近的例子包括但不限於:

ThoughtSpot在2018年5月完成1.45億美元的D輪融資

Sisense在2018年9月完成8000萬美元的E輪融資

Incorta在2018年10月完成1500萬美元的B輪融資

Fivetran在2018年12月完成1500萬美元的A輪融資

Looker在2018年12月完成1.03億美元的E輪融資

TIBCO在2018年12月收購Orchestra Networks

Logi Analytics在2019年2月收購Jinfonet

谷歌在2019年2月收購Alooma

Qlik在2019年2月收購Attunity

Informatica在2019年2月收購AllSight

TIBCO在2019年3月收購SnappyData

Alteryx在2019年4月收購ClearStory Data

Matillion在2019年6月完成3500萬美元的C輪融資

谷歌在2019年6月斥資26億美元收購Looker

Salesforce在2019年6月斥資157億美元收購Tableau

Logi Analytics在2019年6月收購Zoomdata

這些解決方案的成功表明了日益需要分析師、數據和平台靈活性,以便面對諸多雲和數據源改進數據的上下文分析價值。2019年會更鬧猛,因為其中許多公司歸私募股權公司所有,或者已獲得大量的風投資金,需要儘快成功退出,幫助資助未來的風投基金。

隨著大數據的消逝,我們進入到了後大數據時代,包括多雲時代、機器學習時代以及實時和無處不在的上下文時代。

多雲時代恰恰表明日益需要基於現有的各種應用系統跨多雲支持應用軟體和平台,也日益需要支持持續交付和業務連續性。「某項任務有一個應用軟體」這種觀念導致了企業中每個員工平均有一個SaaS應用軟體的業務環境,這意味著每家大企業在為數千個SaaS應用軟體支持數據和流量。後端容器化這個趨勢導致支持按需和峰值使用環境的存儲和工作負載環境日益分散化和專業化。

機器學習時代專註於分析模型、演算法、模型訓練、深度學習以及演算法和深度學習技術的倫理。機器學習需要處理創建乾淨數據供分析所用所需的大量相同工作,但還需要另外的數學、業務和倫理上下文以創建持久的長期價值。

實時和無處不在的上下文恰恰表明,從分析的角度和交互的角度來看,日益需要及時的更新。從分析的角度來看,公司分析處理僅僅每周更新一次或每天更新一次已不夠。員工現在需要近乎實時的更新,否則有可能做出糟糕的公司決策,這些決策在制定的那一刻就已過時或落伍了。有效使用實時分析需要廣泛的業務數據,以提供適當的整體上下文以及供針對數據按需執行的分析所用。無處不在還表明了交互的興起,包括物聯網提供表明環境和機械活動的更多邊緣觀察信息,以及仍在發展中的擴展現實(Extended Reality,包括增強現實和虛擬現實)提供身臨其境的體驗。為了提供這種級別的交互,必須以交互的速度分析數據,可能短至300-500毫秒,以提供有效的行為反饋。

隨著大數據時代走到盡頭,我們現在可以少關注收集大量數據的機制,多關注處理、分析海量數據並與之實時交互方面的無數挑戰。我們邁入大數據驅動的新時代時,請牢記以下幾個概念。

首先,Hadoop在企業數據界仍佔有一席之地。Amalgam Insights預計,MapR最終會被一家以管理IT軟體出名的公司收購,比如BMC、冠群或MicroFocus;並認為Cloudera已採取了措施,不僅限於企業Hadoop,以支持數據的下幾個時代。但技術的步伐不可阻擋,Cloudera的問題在於它的行動是否夠快、隨勢而變。Cloudera在將其企業數據平台完善成下一代洞察力和機器學習平台方面面臨數字化轉型挑戰。過去幾十年,公司能夠為轉型敲定時間表。現在正如我們從亞馬遜、Facebook和微軟等公司看到的那樣,僅僅為了活命,成功的科技公司必須準備好每十年就要轉型,可能甚至犧牲掉自己的部分業務。

其次,對多雲分析和數據可視化的需求比以往任何時候都要大。谷歌和Salesforce剛斥資180億美元收購了Looker和Tableau,那些收購基本上是針對頗具規模和收入增長的公司的市場價值收購。會投入更多的巨額資金,以克服這一挑戰:針對眾多數據源提供分析技術,並支持與多雲有關的日益分散且多樣的存儲、計算和集成需求。這意味著企業需要慎重地搞清楚數據集成、數據建模、分析及/或機器學習/數據科學團隊可以在多大程度上應對這個挑戰,因為處理和分析異構數據變得越來越困難、複雜,但要支持戰略業務需求並將數據用作真正的戰略優勢又勢必需要這麼做。而僅看國內發展,企業對多雲分析和數據可視化的需求也是一樣劇增。2006年成立的國產BI軟體廠商帆軟軟體自2016年300人左右的團隊短短三年內成長到現在的1100餘人,據知為了應對更多的市場需求其團隊還在不斷擴大。這樣的成長速度源自市場需求的增多和帆軟對於市場需求走勢的判斷。

第三,機器學習和數據科學是下一代分析技術,需要各自做好新的數據管理工作。大規模創建測試數據、合成數據和掩蔽數據,以及數據沿襲、治理、參數和超參數定義以及演算法假設,這些都超出了傳統大數據假設的範疇。這裡最重要的考量因素是,使用由於種種原因未能很好地服務於企業的數據:樣本量小、缺乏數據源、數據定義不清晰、數據上下文不明確,或者演算法和分類假設不準確。換句話說,不使用失實的數據。失實的數據會導致有偏見、不合規、不準確的結果,還可能導致諸多問題:比如Nick Leeson在1995年導致巴林銀行(BaringsBank)垮台,或法國興業銀行因Jerome Kerviel精心操縱交易而蒙受70億美元的交易損失。AI現在是新的潛在「流氓交易者」,需要得到適當的治理、管理和支持。

第四,需要將實時和無處不在的上下文既視為協作和技術上的挑戰,又視為數據挑戰。我們正進入這樣一個世界:每個對象、流程和對話都可以用附加的上下文加以標記、標註或增強,可以實時處理數GB的數據,以生成簡單的兩個單詞警報,可能就像「減慢速度」或「立即購買」這麼簡單。我們看到「數字孿生」(digital twin)這個概念方興未艾:在工業界,PTC、GE及其他產品生命周期和製造公司為設備創建數字孿生;而在銷售界,Gong、Tact和Voicera等公司藉助額外的上下文以數字方式記錄、分析和增強模擬對話。

結論

因此,大數據時代已宣告結束。但在此過程中,大數據本身已成為IT的一個核心方面,並引發了一系列新時代,每個時代未來一片光明。投入於大數據的公司應該將這些投入視作未來成為實時、增強和交互型互動公司的重要基礎。隨著大數據時代走到盡頭,我們現在準備將整個大數據用作業務資產,而不僅僅是炒作,從而支持基於作業的上下文、機器學習和實時交互。

關於國內對大數據行業發展的討論也是一直沒有停止,而對於實時、增強和交互型的數據分析,對在大行業背景下小行業的場景化應用,帆軟每年都會組織國內數據分析行業規格的一場聽覺盛宴,近千家企業高管參與討論。針對數據治理和準備、數據挖掘、數據人才培養等多個部分進行深度探討。本次大會以「數據有引力」為主題,以國內現在的大行業發展為背景,真正來落地數據對企業的真實價值,旨在幫助更多的企業對「已死的大數據」重新認識,從以上四個方面來使得數據建設更加落地。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 雲頭條 的精彩文章:

IDC:到2023年全球公共雲服務支出將達到 5000 億美元
華為要求 Verizon 支付 10 億美元專利費:涉及 230 多件核心網路設備、有線基礎設施、物聯網等技術專利

TAG:雲頭條 |