當前位置:
首頁 > 哲理 > 劫波研究系列之三:大數據

劫波研究系列之三:大數據


劫波研究系列之三:

大數據






文 | 霧滿攔江




(01)




從文字到數字,從天文到藝術,人類跌跌撞撞的演化歷史中處處存在數據的身影。




大數據從絕對精確走向相對精確,從因果聯繫轉向相關性,人類完美世界的理想在萬物數據化中揚帆啟航。




(02)




我們今天處在一個信息爆炸的時代,微信、微博客和視頻網站總能在近乎第一時間為我們帶來各式各樣的資訊;打車、吃飯和購物的時候,支付寶、app和小程序們也會有五花八門的推薦。回到公司,我們需要從大量電子化的文件、合同中翻閱我們希望找到的資料;工廠車間的進度相對慢一些,但我們還是能見到逐步普及的感測器,工程師們會根據控制屏上傳回的代碼操控機器進行工作。




(03)




這一系列事件背後的基本元素就是數據,通過計算機鍵盤、手機和車載藍牙,數據源源不斷地產生和流轉,彷彿一夜之間就佔據了我們的世界。我們早就在佛羅倫薩美第奇家族的財產登記冊,以及第一台計算機繪製的炮彈射擊圖表中見過各種數據,但直到近些年才發現原來它們遠不止是一串冷冰冰的符號。數據不僅僅屬於專業人士和科研機構,它已經和我們每一個人息息相關。它走進了我們生活和工作的方方面面,有時候甚至已經到了和我們形影不離的程度。






(04)




過去由於沒有發達的傳遞和存儲數據的載體,人類能夠獲取的數據非常有限,加上只有在很少的情況下能夠單純依靠數據解決複雜的問題,我們並沒有充分意識到它的價值。伴隨著2000年以來互聯網尤其是移動互聯網的發展,數據量得以快速增長,很多以前沒有辦法解決的問題通過數據的運用得到了解決,媒體上也開始頻繁提及數據的概念。

西方學者用「big」來形容這一時期數據大量出現和被廣泛應用的情形,也被翻譯成漢語「大數據」。


 


如今大數據已經成為了一個非常時髦的概念,從機場廣告到商務會議,我們時不時就可以見到它的身影。原來的數據加上了「大」字以後似乎就變得魅力無窮,一切商業和公共行為只要重新用數據記載,就都可以藉助它實現升級。我們不禁會問,為什麼數據存在了這麼多年卻對我們沒產生什麼大的影響?今天這個所謂大數據究竟又和以往有什麼不同?我們說未來會是一個數字的世界,是不是指的就是這種數據量足夠大,大到一切都是數據的情形呢?


 


故事還得從數字的起源說起。我們的祖先居住在地球上,對於這個陌生的土地充滿了未知,為了更多了解這個世界,迅速學習新鮮事物,人類逐漸發明了語言和文字。至今可考的最早的文字是公元前32世紀左右蘇美爾人(居住在兩河流域,文明的中心在今伊拉克首都巴格達一帶)創造的楔形文字。在人類文明的傳遞過程中,文字起到了至為關鍵的作用。


 


起初,數字和文字是不分的——如果說文字是伴隨記錄信息的需求而誕生的話,數字則僅僅是因為人們存放在山洞裡的財產多到需要數一數才弄得清楚,因而在文字中加入的一種計數工具而已。


 


後來隨著人類開始擁有越來越多的財產,我們開始為這種工具制定了十進位、乘法、加減等一系列規則。

在這一過程中,古代印度人發明了描述一套數字的方法,也就是今天全世界通用的包括0在內的10個阿拉伯數字(因為是藉由阿拉伯人傳入歐洲並得到普及的,因而歐洲普遍認為它們是來自阿拉伯人的創造)。






(05)




這項發明意味著數字和文字的分離,在這之後人類開始用一種獨立的記錄方式承載客觀世界的信息。

這種叫做數字的全新記錄規則的出現,也構成了我們今天所討論的數據的基礎。通過數字元號,我們將過去的所見、所聞,對未來的預測通過石板、紙張以及計算機網路保存了下來。此外還有一些特別的部分,它們是人類通過對事情的抽象提煉,用數字編寫成的具備完整邏輯的理論,諸如勾股定理、麥克斯韋方程和狄拉克公式等等,由此產生了數學這一學科。


 


我們將這些方程和公式的原理應用到人類歷史進程的方方面面,從電氣工程的設計、運載火箭的升空到互聯網搜索網站的誕生,同時也把對很多事情的處理過程編寫成數據。人類一點點地豐富著自己的數據資料,並藉由它向下一代傳遞智慧和思考。


 


很長時間以來,由於記錄規則不夠豐富,尤其是成本較高等原因,數據只是零碎地散布在不同的領域,人類擁有的數據量也長期停留在很小的水平。計算機尤其是互聯網的普及大大改變了這一狀況,藉助該技術,數據的生產門檻被大大降低,大量信息開始被轉換成數據在網路上進行傳遞。在互聯網蓬勃發展的短短十幾年間,我們所創造出的數據就已經超過了人類歷史以往的數據總量。


 


維克托·邁爾在《大數據時代》一書中曾預測,到2013年世界上存儲的數據將達到約1.2ZB。這樣的數據量意味著如果把這些數據全部記在書中,這些書可以覆蓋整個美國52次;如果將之存儲在只讀光碟上,這些光碟可以堆成五堆,每一堆都可以伸到月球。


 


事實上,2013年的全球數據總量達到了4.4ZB,幾乎是維克托·邁爾當時估計值的4倍。在這之後的數據量更是增長驚人,據統計,過去幾年數據存儲信息量的增長速度比世界經濟的增長速度快4倍,而計算機數據處理能力的增長速度比世界經濟的增長速度快9倍。隨著網路連接的深入,人類資料庫的規模仍將保持高速增長,IDC公司就在報告中做出過預測:到2020年全世界的數據總量預計為40ZB,而在2025年更會達到163ZB。按照

這種發展趨勢,人類社會在不久的將來就會被徹底淹沒在數據的海洋之中。




(06)




我們一說到大數據,它給我們的直觀感受就是數據量很大,經常要用一些我們平常使用計算機少有聽說的單位來標示(比如ZB)。我們剛剛也已經談到,早期人類掌握的數據並不多,對其重視程度也不夠,很長時間內,數據並沒有成為我們研究問題時最為核心的考量。轉折開始於20世紀70年代,當時科學界興起一種數據驅動的研究方法,簡單來說就是在解決問題的時候放棄對於精確模型的追求,轉而求助於大量數據的獲取。


 


我們以民意調查為例來說明這種方法的應用。以往為了在調查中得到一個理想的統計結果,我們常常會將精力集中在設計一個更好的統計樣本。由於向全社會每一個人都發放調查問卷既不現實,成本也極高,最大的難度就在於如何挑選具備代表意義的人群組成樣本(抽樣),以便用相對少的數據精確地統計出我們想知道的結論。此外,現實中還會經常遇到問卷回復不完全或者無效的問題。


 


為了解決無法直接獲得全部真實信息的情況,人類發明了概率論和統計學,它幫助我們可以大致估計出類似民意調查問題的結論。現在的疑問是這個估計是否真的可信,因為畢竟根據概率進行的抽樣有很大的隨機性,我們希望能夠從理論上證明當觀察到的數據量足夠多了以後,隨機性和雜訊的影響可以忽略不計。19世紀俄國數學家切比雪夫對此給出了肯定的證明,他提出了這樣一個不等式,也稱作切比雪夫不等式:




P(|X-E(X)|>=?)<?^2/n*?^2




根據該不等式的原理,當調查問卷的樣本數據足夠時,一個隨機變數和它的數學期望值之間的誤差可以任意小(小於不等式右邊的數值),也就是上述偏差可以在數據達到一定量之後被忽略不計。

既然這樣,我們可以不必去追求完美的樣本模型——因為它未必存在,即使存在找到它也非常不容易,而是可以通過獲取更多的數據來提升結果的準確程度。


 


物理學的現象說明,規模持續增加可以導致質變,比如金屬的導電性會隨著溫度的變化而徹底改變。

辯證法同時告訴我們,一方面要關注事物的變化過程,一方面也要根據發展規律,不失時機的促成事物的轉化和飛躍。雖然人類很早就已經掌握了相關的理論和研究方法,但由於數據量仍然比較匱乏,數據驅動能夠解決的問題即使到了80、90年代仍然十分有限。然而,人類並沒有就此停止用數據解決更多問題的嘗試,終於在進入2000年之後,伴隨著數據量的快速積累,我們很快將多年來總結的經驗串聯起來,在短期內取得了多項重大的科學突破。


 


由於相比過去擁有了足夠多的數據,我們的問卷調查結果變得越來越準確。我們已經能夠精確地預測某些疾病的發生,並向駕駛員實時進行路況信息的推送等等——這些在數據量沒有指數級地增長之前都是無法做到的。通過大數據的方式,我們獲得了很多以往沒有的便利,比如互聯網公司有時候會比你更清楚你希望購買的商品,並可以通過數據搜集為你繪製出睡眠質量報告等等。


 


人類總是不滿足於現狀,我們又開始馬不停蹄的思考,既然大數據有如此多的好處,我們何不將一切物理世界的事物都用鏡像表達在虛擬的由數據構成的世界中?甚至是我們以前認為的一些完全和信息、數據不相干的事情比如發動機的振動,房屋裡陽光投射的面積,一個人的行走軌跡等,都應該通過量化的方法記載到數據的世界。


 


在數據大量描述的基礎上,任何發動機的振動和散熱,都可以通過數學模型判斷其狀態,甚至能預測其未來發生故障的幾率。大數據可以消除誤解、增加流動,幫助我們衝破層層阻隔;大數據能夠減少不確定性,大大提升決策的質量。之前人類每一輪生產工具和技術的重大發明都推動了繁榮的演進,這一次的主角將會是數據。在此基礎上,整個人類社會也會邁上一個嶄新的台階。


 


人類憧憬著這樣的美好藍圖,我們每個人同時也需要儘快做一些思維上的轉變,來應對大數據時代出現的新的情況

。由於我們有能力通過不斷獲得數據讓結論更加可信,大數據拋棄了過去數據量較小時期對於精準的苛求,可以容忍一定程度的誤差;另一方面,因為短期數據量的暴增,我們也可以僅僅通過數據回答過去很多無法解釋的問題,這時候大數據會優先將精力集中在問題的相關性上,先藉助數據的堆積回答「是什麼「,這就替代了我們長久以來習慣的對於因果關係的追求,反而有利於推動事情的發展。


 


理想狀態下的大數據社會,就是最終可以將一切物質、規則數據化,然後全部交給智能的計算機去處理——因為人類依靠現有的智慧已經無力面對如此海量的數據。我們在之前的文章中談到,人類一直在探尋完美,終於在尋覓了這麼久之後,在大數據時代觸碰到了它的存在。藉助大數據的威力,我們可以按照自己的意願改造這個世界,將它變成我們希望呈現出的樣子。在這個新的世界,一切規則都是清晰透明的,所有共識均可以通過數字來達成。我們將這個理想中的完美世界總結成一個簡單的模型:




理想模型=萬物數據化+相對精確+相關性




其中第一項主要是指物質層面,二、三項指的是思想上的變化。

萬物數據化既是驅動力,又是最終追尋的結果,而相對精確和相關性這兩個理念,都是為了契合數據化的進程所需要的。

數據化之輪已然啟動,它要求我們不再拘泥一隅,或是執著於預設觀點,而是敞開胸懷,讓數據自己在廣闊的天地發聲。




(07)




為了走到大數據的今天,人類經歷了重重磨難,我們通過將世界一一寫入數據,解決了無數個困擾我們的疑惑和難題。讓我們從宇宙和天文學的例子中領會一下這當中的不易。事情照例從混沌開始,日月星辰斗轉星移,早期的人類看著這些自然現象,會產生一個理所當然的疑問——我們居住的地球在宇宙中處於一個什麼樣的位置?我們是宇宙的中心嗎?


 


最初頗受歡迎的是地心說的言論,它是由古希臘時期的米利都學派形成初步理念,哲學家歐克多索於公元前4世紀提出幾何模型,並經由亞里士多德、托勒密進一步發展而逐漸建立和完善起來的。

該學說認為地球是宇宙的中心,是靜止不動的,其它的星球都是環繞著地球運行,人類是宇宙萬物的主宰。


 


由於地心說契合了古代教會關於上帝造人的宗教理念,自公元2世紀被體系化以來,它就一直被視為能夠揭示宇宙運轉規律的客觀真理。雖然比歐克多索略晚一些出生的阿基米德早在公元前3世紀就建立了日心說(認為太陽是宇宙的中心,地球圍繞太陽運轉)模型的原型。但由於古人很難接受大地是運動的觀點,加之缺乏翔實的觀測數據和長期以來教會的壓制,日心說一直支持者寥寥。


 


在之後漫長的歲月里,地心說一直是西方世界的正統,直至16世紀才有人重拾日心說的科學研究。最早復興日心說理論的是波蘭天文學家哥白尼,在其臨終前出版的《天體運行論》一書中,哥白尼對日心說進行了較為詳細地數學闡述。哥白尼之所以能夠推動進一步的研究,主要是因為近代科學的發展,人類從最初只能通過肉眼和感覺判斷,開始可以藉助更多的觀測工具和計算推理來分析這一問題。


 


然而事情並沒有一下子就完成演化,由於日心說與教會思想之間存在矛盾,在哥白尼之後的支持者布魯諾被宗教裁判所判為「異端」燒死在羅馬鮮花廣場。1609年,伽利略通過自製的望遠鏡觀測到了佐證日心說成立的重要證據並將之公佈於眾,為此他遭受到教會的威脅和迫害,並被軟禁起來逼迫其與哥白尼學說決裂。






(08)




矛盾被集中在「地心」還是「日心」的論戰中久久無法被解決,除了教會的原因,還有一個非常重要的就是日心說遲遲拿不出一個讓所有人心服口服的準確模型

(這裡的模型運算和前面數據驅動的方法不同)。哥白尼和伽利略的研究雖然相比前人有了很大的進步,但是並不能從數據角度完整地證明地心說的錯誤。最終完成使命的是開普勒,通過創造性的提出橢圓狀的行星運動模型,以及開普勒三大定律,徹底戰勝了一千多年來的地心學說。


 


事實上,日心說最終能夠在歐洲被廣泛接受,還存在相應時代背景——15、16世紀的歐洲正是從封建社會向資本主義社會轉型的關鍵時期,新興的資產階級為自己的生存和發展,掀起了一場反對封建制度和教會迷信思想的鬥爭,出現了人文主義的思潮,這就是震撼歐洲的文藝復興運動。與此同時,當時出於對外貿易目的興起的遠洋航行,也迫切需要許多的天文和地理知識。通過在這些航行中的積累,人們也愈發發現「地靜天動「的宇宙學說是值得懷疑的,這些都為後來日心說確立主導地位奠定了基礎。


 


矛盾雙方在長期的論戰過程中,不僅僅是詆毀,它們之間也往往可以相互促進。在很長一段時間內,由於圍繞在地心說周圍的都是一批非常傑出的數學、天文和哲學學者,他們通過長期的深入研究,建立起對天體觀測的一整套詳細的科學方法論。比如地心說主要的支持者托勒密,他繼承了畢達哥拉斯的一些幾何思想,通過發明40-60個小圓套大圓的方法,精確地計算出了所有行星運動的軌跡——今天即使在大型計算機的幫助下,我們也很難解出40個套在一起的圓的方程。


 


後來複興日心說的哥白尼正是採用了這種簡化的圓的方程來進行他理論的闡述。雖然最後開普勒發現行星圍繞太陽的運轉軌道實際上是橢圓形的,但其在數學計算上也多處借鑒了托勒密的研究,而且他本人也不清楚為什麼行星的運動軌跡會是橢圓而不是圓——直到牛頓提出萬有引力定律,人類才最終弄清楚形成橢圓的真正原因。


 


就這樣,演化在人類歷史中跌跌撞撞的發生。它不似詩歌那般激昂,那些曾經的刀劍划過和血肉橫飛的場面也會逐漸模糊。然而它又是那般執著和深邃,不容得我們一絲的狡辯與怯懦。演化永存,它看似悄無聲息,卻如洪流般浩浩湯湯,裹挾著一切向前。


 


在上面的例子中,我們已經能夠時不時看到數據發揮的作用。到了今天,在愛因斯坦、霍金等人的努力下,人類建立起了相對完整的宇宙、天文知識體系,與之伴生的數據量的積累也達到了前所未有的水平。根據統計,在21世紀伊始,位於美國新墨西哥州的望遠鏡在短短几周收集到的數據,就已經比天文學歷史上總共收集的數據還要多。中國在2016年建設的被譽為「天眼」的世界最大的500米口徑球面射電望遠鏡,甚至可以探測到最遠1000光年以外的聲波,每天傳輸數據可達5兆位元組。


 


天文學的的故事讓我們看到了人類探索宇宙的雄心,我們同樣對居住的四周充滿了好奇,而音樂就是表達這一好奇心的重要載體。利用聲音高低、強弱的變化,人類可以模擬大自然的美妙之音,並將我們對世界的感知記錄下來,用來抒發愛慕、喜悅和悲傷之情。

我們今天欣賞各種古典、爵士和流行音樂,通常會將其視為一門頗帶主觀色彩的人文藝術,但事實上,音樂與數字之間的聯繫也頗為密切。


 


文字記載最早發現它們之間聯繫的是前面我們提到的古希臘數學家畢達哥拉斯,他發現音響的和諧與發聲體體積的一定比例有關,並可以用數字記錄,於是編製了早期的音樂記錄規則,這也為後來通行的五線記譜法的出現奠定了基礎。


 


五線譜的發展如日心和地心的爭論一樣,同樣經歷了上千年的演化歷史。

從最初只能進行簡單的記載,五線譜通過不斷完善各種表達符號和規則,逐漸發展到可以精細地標記音量、速度和音色變化,也即將整個音樂作品完整無誤的進行數據化的描述。


 


物極必反,後來由於五線譜太過細緻入微,擠壓了演奏者即興發揮的空間,於是記譜法又發生了方向上的轉變,僅僅會編輯進必要的部分,留出一定的彈性空間。這樣就將音樂的最終解讀權交還到表演者手中,使得每一次演奏都變得獨一無二。


 


相比西方,中國古樂譜沒有形成音高和節奏的精確量化和數字元號轉碼,僅僅會記錄傳統樂曲或唱腔的基本輪廓,它給予演奏和演唱者創作的自由度和不確定性比西方樂譜要大得多,因而又被稱為「框架譜」。這當中體現了東西方對於藝術差異化的理解,同樣的情況也可以在西方的素描和中國的水墨畫中見到。






(09)




回到最初的理想模型,天文只是其中一個頗具代表性的案例,在化學、生物等各個基礎學科的研究和形形色色的商業、生活應用中,一組組數據承載著人類對完美世界探究的理想被挖掘和計算著。我們不知道有一天真的實現萬物數據化後,這個世界會變成什麼樣子?或許到了那一天我們可以藉助數據醫治癌症?又或者現在世界上選舉和議會制度將會消亡——因為一切皆數據的時候,現在任何組織機構運轉的效率都會遠遠比不上依賴數據來做決策。


 


然而在五線譜的發展歷程中可以看到,即使數據真的可以幫助我們精確記錄所有的演奏,甚至有一天所有的音樂和藝術創作都可以用數據和機器替代,但人類真的不需要留一些自己主觀發揮的空間?全部的數據描述就一定意味著美好么,是否不確定本身也是一種美?大數據教會我們要放棄對因果性的執著,讓數據發聲,在事情中「是什麼」比「為什麼」重要——如果所有問題都用這種方式解答,世界是不是又顯得有些索然無味了呢?


 


從另一個角度來看,如果萬物數據化真正降臨,人類是不是可以進化成為先知?因為那時候我們將擁有無窮無盡的資源,可以無限制地將公式推演下去。我們知道各種數學模型的基礎都離不開概率論和統計學,但是很多研究純數學的數學家都不把概率論當做數學,因為他們認為數學的確定性和概率的不確定本質上是存在衝突的。


 


如果樣本本身是沒有限制的,大到可以包含所有的真實信息,那麼這個世界是否就不存在概率,所有的隨機性也會消失?

這樣的話現在我們理解的所謂大數據的核心涵義:相對精確和相關性,是否就顯得不再必要,又是否會消失在文明的長河之中?


 


或許真的有完美世界的存在,只是暫時我們心智不夠,但終有一天會到達?又或許這樣理想的未來僅僅只能存在於我們的想像中?無論如何,人類追尋夢想的腳步不會停止,我們也會用盡全力不斷前行。




為了建設這個理想的世界, 人類又開始思考各種各樣的方法。 在不斷受益於這些數據組成的模型和公式之後, 我們逐漸將願望寄予一種叫做智能的方式——今天對此有很多酷炫的名詞, 人工智慧、機器和深度學習等等, 其實說的都是這種方法, 我們期盼演算法模型足夠強大之後, 人類可以駕馭整個數字世界的運轉。


 


我們認為,數據終將解決所有我們遇到的問題。雖然前面說到的切比雪夫不等式告訴我們在數據無限多後誤差可以忽略不計,但是追求完美的人類總是期望有一天能夠真正找到那個絕對無誤的模型。在擁有了更多數據之後,我們還將創造越來越多漂亮的演算法,並交給智能的機器去自動執行。這樣看來,如果現在暫時還存在某些問題解決不了,那隻不過是模型不夠完善,計算還不夠智能而已。


 


在通往未來理想世界的道路上,除了萬物數據化之外,我們還需要開發出許許多多複雜精確的模型,並搭配上超級的計算能力,幫助我們將一切障礙全部掃除。通過智能的模型演算法加上客觀數據的採集,人類將擁有更高等級的智慧,我們將朝著更為浩瀚的宇宙深入進發,我們有機會讓世界變成我們所期待的完美樣子。


 


數字無界,或許就在眼前!




(10)




*文章為作者李凱龍原創獨立觀點。 未經授權, 禁止擅自轉載。


*李凱龍,劫波科技創始人兼CEO。


李先生就讀於清華大學經濟管理學院和法學院獲得碩士學位,擁有香港中文大學mba及北京外國語大學語言文學學士文憑,並被公派到歐洲多個國家留學。李先生曾供職中美頂級的一/二級市場投資及基金;曾於騰訊從事研究與投資工作,期間在騰訊研究院擔任首席研究員;曾出任中國五百強佳兆業金融控股總裁助理職務,負責戰略業務規劃及金融/科技/消費板塊的投融資和運營管理。李先生還是清華-伯克利深圳學院和香港中文大學博士及研究生課程講授學者,並為清華大學院系校友會之理事。



喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 霧滿攔江 的精彩文章:

別讓黃曉明跑了
霧滿攔江微文故事大賽|謝謝你,給我講這麼好聽的故事

TAG:霧滿攔江 |