大數據是一種思維方式革命

最新 09-29

計算機在解決各種智能問題上的進步幅度並不大，但是十幾年量的積累，最終促成了質變。

這個時代屬於大數據

簡單地講，當時無論是做語音識別、機器翻譯、圖像識別，還是自然語言理解的學者，分成了界限很明確的兩派，一派堅持採用傳統的人工智慧方法解決問題，簡單來講就是模仿人，另一派在倡導數據驅動方法。這兩派在不同的領域力量不一樣，在語音識別和自然語言理解領域，提倡數據驅動的派比較快地佔了上風；而在圖像識別和機器翻譯方面，在較長時間裡，數據驅動這一派處於下風。

這裡面主要的原因是，在圖像識別和機器翻譯領域，過去的數據量非常少，而這種數據的積累非常困難。圖像識別就不用講了，在互聯網出現之前，沒有一個實驗室有上百萬張圖片。在機器翻譯領域，所需要的數據除了一般的文本數據，還需要大量的雙語（甚至是多語種）對照的數據，而在互聯網出現之前，除了《聖經》和少量聯合國文件，再也找不到類似的數據了。

在 20 世紀 90 年代互聯網興起之後，數據的獲取變得非常容易。從 1994 年到 2004 年的 10 年裡，語音識別的錯誤率減少了一半，而機器翻譯的準確性提高了一倍，其中 20% 左右的貢獻來自方法的改進，80% 則來自數據量的提升。雖然在每一年，計算機在解決各種智能問題上的進步幅度並不大，但是十幾年量的積累，最終促成了質變。

數據驅動方法從 20 世紀 70 年代開始起步，在八九十年代得到緩慢但穩步的發展。進入 21 世紀後，由於互聯網的出現，使得可用的數據量劇增，數據驅動方法的優勢越來越明顯，最終完成了從量變到質變的飛躍。如今很多需要類似人類智能才能做的事情，計算機已經可以勝任了，這得益於數據量的增加。

全世界各個領域數據不斷向外擴展，漸漸形成了另外一個特點，那就是很多數據開始出現交叉，各個維度的數據從點和線漸漸連成了網，或者說，數據之間的關聯性極大地增強，在這樣的背景下，就出現了大數據。

智能手機和互聯網將繼續

改變世界

大數據的時效性其實不是必需的，但是有了時效性可以做到很多過去做不到的事情，城市的智能交通管理便是一個例子。在智能手機和智能汽車（特斯拉等）出現之前，世界上的很多大城市雖然都有交通管理（或者控制）中心，但是它們能夠得到的交通路況信息最快也有 20 分鐘滯後。如果沒有能夠跟蹤足夠多的人出行情況的實時信息的工具，一個城市即使部署再多的採樣觀察點，再頻繁地報告各種交通事故和擁堵的情況，整體交通路況信息的實時性也不會比 2007 年有多大改進。

但是，在能夠定位的智能手機出現後，這種情況得到了根本的改變。由於智能手機足夠普及並且大部分用戶開放了他們的實時位置信息（符合大數據的完備性），使得做地圖服務的公司，比如 Google 或者百度，有可能實時地得到任何一個人口密度較大的城市的人員流動信息，並且根據其流動的速度和所在的位置，很容易區分步行的人群和行進的汽車。

由於收集信息的公司和提供地圖服務的公司是一家，因此從數據採集、數據處理，到信息發布中間的延時微乎其微，所提供的交通路況信息要及時得多。使用過 Google 地圖服務或者百度地圖服務的人，對比六七年前，都很明顯地感到了其中的差別。當然，更及時的信息可以通過分析歷史數據來預測。一些科研小組和公司的研發部門，已經開始利用一個城市交通狀況的歷史數據，結合實時數據，預測一段時間以內（比如一個小時）該城市各條道路可能出現的交通狀況，並且幫助出行者規劃最好的出行路線。

仔細推敲英語中 bigdata 這種說法，我們不得不承認這個提法非常準確，它最重要的是傳遞了一種信息——大數據是一種思維方式的改變。現在的數據量相比過去大了很多，量變帶來了質變，思維方式、做事情的方法就應該和以往有所不同。這其實是幫助我們理解大數據概念的一把鑰匙。在有大數據之前，計算機並不擅長解決需要人類智能來解決的問題，但是今天這些問題換個思路就可以解決了，其核心就是變智能問題為數據問題。由此，全世界開始了新的一輪技術革命——智能革命。

大數據更是一種思維方式革命

在方法論的層面，大數據是一種全新的思維方式。按照大數據的思維方式，我們做事情的方式與方法需要從根本上改變。

要說清楚大數據思維的重要性，需要先回顧一下自 17 世紀以來一直指導我們曰常做事行為的先前最重要的一種思維方式一一機械思維。今天說起機械思維，很多人馬上想到的是死板、僵化，覺得非常落伍，甚至「機械」本身都算不上什麼好詞。但是在兩個世紀之前，這可是一個時髦的詞，就如同今天我們說互聯網思維、大數據思維很時髦一樣。可以毫不誇張地汫，在過去的三個多世紀里，機械思維可以算得上是人類總結出的最重要的思維方式，也是現代文明的基礎。今天，很多人的行為方式和思維方式其實依然沒有擺離線械思維，儘管他們嘴上談論的是更時髦的概念。

那麼，機械思維是如何產生的？為什麼它的影響力能夠延伸至今，它和我們將要討論的大數據思維又有什麼關聯和本質區別呢？

不論經濟學家還是之前的托勒密、牛頓等人，他們都遵循著機械思維。如果我們把他們的方法論做一個簡單的概括，其核心思想有如下兩點：首先，需要有一個簡單的元模型，這個模型可能是假設出來的，然後再用這個元模型構建複雜的模型；其次，整個模型要和歷史數據相吻合。這在今天動態規劃管理學上還被廣泛地使用，其核心思想和托勒密的方法論是一致的。

後來人們將牛頓的方法論概括為機械思維，其核心思想可以概括成這樣幾句話：

第一，世界變化的規律是確定的，這一點從托勒密到牛頓大家都認可。

第二，因為有確定性做保障，因此規律不僅是可以被認識的，而且可以用簡單的公式或者語言描述清楚。這一點在牛頓之前，大部分人並不認可，而是簡單地把規律歸結為神的作用。

第三，這些規律應該是放之四海而皆準的，可以應用到各種未知領域指導實踐，這種認識是在牛頓之後才有的。

這些其實是機械思維中積極的部分。機械思維更廣泛的影響力是作為一種準則指導人們的行為，其核心思想可以概括成確定性（或者可預測性）和因果關係。牛頓可以把所有天體運動的規律用幾個定律講清楚，並且應用到任何場合都是正確的，這就是確定性。類似地，當我們給物體施加一個外力時，它就獲得一個加速度，而加速度的大小取決於外力和物體本身的質量，這是一種因果關係。沒有這些確定性和因果關係，我們就無法認識世界。

從牛頓開始，人類社會的進步在很大程度上得益於機械思維，但是到了信息時代，它的局限性也越來越明顯。首先，並非所有的規律都可以用簡單的原理描述；其次，像過去那樣找到因果關係已經變得非常困難，因為簡單的因果關係規律性都被發現了。另外，隨著人類對世界認識得越來越清楚，人們發現世界本身存在著很大的不確定性，並非如過去想像的那樣一切都是可以確定的。因此，在現代社會裡，人們開始考慮在承認不確定性的情況下如何取得科學上的突破，或者把事情做得更好。這也就導致一種新的方法論誕生。

不確定性在我們的世界裡無處不在。我們經常可以看到這樣一種怪現象，很多時候專家們對未來各種趨勢的預測是錯的，這在金融領域尤其常見。如果讀者有心統計一些經濟學家們對未來的看法，就會發現它們基本上是對錯各一半。這並不是因為他們缺乏專業知識，而是由於不確定性是這個世界的重要特徵，以至於我們按照傳統的方法——機械論的方法難以做出準確的預測。

世界的不確定性來自兩方面，首先是當我們對這個世界的方方面面了解得越來越細緻之後，會發現影響世界的變數其實非常多，已經無法通過簡單的辦法或者公式算出結果，因此我們寧願採用一些針對隨機事件的方法來處理它們，人為地把它們歸為不確定的一類。

反映出在信息時代的方法論：誰掌握了信息，誰就能夠獲取財富，這就如同在工業時代，誰掌握了資本誰就能獲取財富一樣。

當然，用不確定性這種眼光看待世界，再用信息消除不確定性，不僅能夠賺錢，而且能夠把很多智能型的問題轉化成信息處理的問題，具體說，就是利用信息來消除不確定性的問題。比如下象棋，每一種情況都有幾種可能，卻難以決定最終的選擇，這就是不確定性的表現。再比如要識別一個人臉的圖像，實際上可以看成是從有限種可能性中挑出一種，因為全世界的人數是有限的，這也就把識別問題變成了消除不確定性的問題。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 微軟南京孵化器 的精彩文章:

※王小萌創投風雲原創小說連載
※創新工場落戶南京開發區，李開復說這些工作將被人工智慧取代

TAG:微軟南京孵化器 |