大數據技術真的很牛嗎？大數據到底值錢在什麼地方？

最新 12-07

大數據聽著很牛，實際上也很牛嗎？

就是收集很多用戶數據，用機器進行處理嘛，幹嘛整天吵得這麼high。傳統行業的數據，收集和分析慢，互聯網時代特別是移動互聯網時代，數據收集和分析都變得更快更智能，僅此而已吧。

真的是這樣嗎？今天我們來看看兩位業內人士的深入分析。

大數據的商業價值

大數據是近年來新出熱門辭彙，人們對於大數據的理解還不夠全面，甚至存在一些誤區，認為數據量大就是大數據，或者認為裡面數字大也是大數據，實際上這些只屬於統計的範疇，和大數據是沒有關係的。

所謂大數據，其實是有兩部分組成的。一部分是海量運算存儲能力，一部分是數據建模演算法。

認為大數據是更快更智能的處理技術的人，只是認識到了大數據海量運算儲存能力，而這部分只是量變，卻沒有認識到質變。

如果針對消費者市場，大數據的目標是對每個消費者有清楚的認知和跟蹤。

你的年齡、身高、家庭背景、收入水平、信用水平等等這些表面的客觀的信息自不必說，你此刻在哪裡、喜歡什麼顏色、喜歡什麼風格、想要什麼東西，都能夠收集分析出來。之後便會在你正在看的視頻網站、正刷的APP，所有這些界面上呈現信息，引導你關注。

隨著這項技術的進步，甚至可以提前預知你想要購買的東西，提前一步給你送達。可以想像一下，你想買一個東西下單二十分鐘就到你家門口了，因為早就預測到你什麼時候想要什麼了，所以幾天前預測到就提前發貨到你小區的提貨點了。

這樣的精準的服務，以後對消費者而言當然是習慣了就不再記得它有多偉大。就像過去的工業革命，只有經歷那個時代的當事人那個時代的締造者們才會對那些創造充滿激情，而我們對隨手可得的電和各種電器還會有什麼驚喜嗎？

傳統的數據行業，一沒有足夠強的數據獲取能力，二沒有足夠強的數據加工能力。包括以前靠預測總統大選起家的那家公司，他們的採樣是局限的，比如寄調查問卷，調查問卷這種採樣是難以重現真實的，且基於傳統的小樣本統計方法。另外，數據處理能力也很有限。

與之相反，大數據的採樣是無法說謊的，你點擊、瀏覽、地理信息等等這一切行為都在眼皮底下發生。這是大數據的第一個「大」，維度大。

同時，數據採樣是覆蓋幾億人口全天候的。這是大數據的第二個「大」，數量大。相對傳統的抽樣小樣本集而言，大數據可以稱之為全樣本。正是這兩個「大」，就能夠帶來數據的質變。

再看數據加工。傳統的加工，恐怕多數人靠Excel吧！我們采一天的數據就能撐爆幾萬台你們家裡的電腦硬碟。至於計算，可以想像一下，對這個數量級的數據矩陣做個最簡單的矩陣分解要怎麼實現。這是機器的能力。

人的方面，現在很多傳統的搞這些的統計方向的人經常會說，「唉，現在都搞演算法去了」。沒錯，演算法就是人與機器協作的溝通方式，只有和機器深度合作，才能得到更高的生產力。

這一切，在消費者的眼裡，也許也不是那麼的了不起，不就是一下單馬上就到嘛，不就是各種方便嘛，怎樣還不是一樣的活。但是這對商業而言卻是驚天動地的。

過去你賣衣服的，你的周轉庫存和滯銷庫存恐怕吃掉了你一半的利潤都不止；一旦有了大數據支撐，你的庫存幾乎可以忽略了。過去你搞設計的，你耗盡心力設計出來的作品很可能在市場上得不到認可；有了這個精準大殺器，消費者的數據會告訴你他們要什麼，你設計師錦上添花就好，真正的設計者其實是消費者自己。

過去你搞營銷的，投入一大筆錢搞個營銷方案，結果收效甚微；一旦有了這個精準大殺器，營銷的投入風險就低多了。

大數據帶來的精準對商業的影響是方方面面的。這是新時代對舊時代的淘汰。除了商業，還有大量別的用處，都將深刻地改變世界。比如個人徵信、醫療行業、能源行業、公路交通等等。太多太多，這些都會深刻地改變世界的運作方式。

技術角度分析大數據

我有20個整數，一把全裝進內存，調用個sort，完事了。

我有2GB那麼多的整數，一把全裝進內存……恩恩，如果機器不那麼破，勉強也完事吧。

我有20GB那麼多的整數，對，往你家PC里多插幾條8GB的內存條試試？

那我現在有200GB那麼多的整數……看你丫的怎麼裝內存，哈哈哈哈哈哈！

嚇尿了吧！？寫外排序？你寫啊！It"s ONLY the beginning！很多人可是連內存里的快排都寫不出的哦~

200GB算個啥大數據啊，蒼老師的合集都不止咳咳……

OK，顯然我們已經意識到1台機器裝不下了。咋辦？多找幾台機器唄。多找幾台機器意味著啥啊？分散式計算懂不懂，連分散式都不懂說個毛大數據啊！！！

好，現在有200GB的整數，排個序吧……呃，給你10台機器吧。

1）這200GB的整數，如何分配？

2）這10台機器之間如何通訊？沒錯，我不止坑了你去寫外排序，我還得坑你去玩網路編程。

3）假設每一台機器上的數據都已經完全排好，如何多快好省地把各自排序好的結果merge在一起？

4）如何設計有效的merge邏輯減少10台機器之間的網路IO。

5）別以為10台機器不需要維護，萬一在排序的時候其中一台機器掛了，怎麼辦？具體包括但不限於：他在掛之前有響應其他機器發給他的request嗎？他在掛之前自身的任務完成了多少了？假設這台機器在掛的時候正在跟隔壁的機器互相傳輸數據腫么辦？

6）誰去監聽這10台機器的健康？或者是其他機器怎麼知道某台機器掛了？如果是連接超時，怎麼知道是網路阻塞還是目標機真的掛了？

７）如果某台機器真的掛了無法恢復，又或者由於隔壁的黃大牛要打魔獸了劫走了一台（集群升級，集群中的節點被臨時撤走的事常有哦），如何把那台機器上那20GB的數據分給其餘的9台？

如果數據不是200GB，而是2TB，2PB……

1）這麼大的數據，這麼大的集群，同一時間掛掉的機器數量可能會很多。如果這個集群用來做存儲（例如百度雲），怎麼保證用戶的數據不丟失？

2）如果這個集群用來做離線計算，怎麼設計調度程序提高每台機器的資源利用率，減少集群內的網路IO和儘可能地提高每台機器的響應速度？

3）我希望集群是可擴展的，最好架構能支持我只要簡單地增加機器數目就能擴充集群的計算和存儲能力，這個架構要怎麼設計？

建議題主有空去了解下mapreduce，hadoop，yarn，mpi，vfs等等內容。

「傳統行業的數據，收集和分析慢，互聯網時代特別是移動互聯網時代，數據收集和分析都變得更快更智能，僅此而已吧。」

只所以題主會這麼說，是因為題主作為局外人，能看到的就只有這些表面的最直觀的現象。一句簡單的「數據分析變得智能了更快了」的背後，實際上是無數人付出的勤奮、創造力、勇敢還有艱辛！

馬雲爸爸說，未來是DT時代，大數據是最重要的資產。

未來三至五年，中國需要180萬數據人才，但目前只有約30萬人。到2020年，企業基於大數據計算分析存儲、數據挖掘、數據分析等數據產業的發展，我國需要更多的數據人才。

文章來源：今日頭條獅范課

標星置頂美亞柏科

一秒找到美美

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

請您繼續閱讀更多來自 美亞柏科 的精彩文章:

※再獲喜訊！美亞柏科信息安全研究所通過CMMI3級認證！