當前位置:
首頁 > 知識 > 讓華爾街宮斗,讓歷史穿透迷霧,數據重塑世界

讓華爾街宮斗,讓歷史穿透迷霧,數據重塑世界

本文是《環球科學》總編、社長陳宗周先生撰寫的系列專欄「AI傳奇」的第十一回。在這一回中,陳宗周先生將為我們解密數據科學。數據科學不但能穿透歷史看到過去,也能高屋建瓴,遠望未來。這門年輕的科學,是如何改變世界的?

陳宗周是《環球科學》雜誌社社長,《電腦報》創始人。

2017年3月,全球金融中心華爾街,一場沒有硝煙的大戰打響。交戰雙方爭奪的,是一件沒有任何重量卻價值無窮的虛擬物品——數據。參戰的一方是華爾街金融巨頭們的聯合體,包括摩根大通、花旗、高盛和電子交易商Virtu Financial、KCG Holdings Inc等等,而另一方則是同樣赫赫有名的紐約證券交易所(簡稱紐交所)。

這場被稱為「華爾街數據大爭奪」的宮斗戲上演,是因為金融巨頭要頑強阻擊紐交所進一步控制交易市場的數據。爭議圍繞名為「紐約證券交易所主用戶協議」的新合約展開,爭議焦點是:券商在買賣股票時提交給交易所的數據,到底歸誰所有?新合約規定紐交所享有這些數據的所有權,而券商和大型交易公司則大聲喊冤,認為數據由他們產生,理所當然屬於他們。

紐交所與金融巨頭們圍繞數據所有權已經纏鬥了很久,券商抱怨說,像紐交所這樣的交易所,直到2006年還是一個非營利組織,變成了營利性公司後,在增加數據費用上變得十分激進。紐交所的交易數據由金融公司等交易者的交易活動產生,但紐交所彙集這些數據後,以高價出售,而買家往往正是這些產生交易活動數據的金融公司。近年來,這些數據已成為紐交所收入的重要增長來源。紐交所的擁有者——洲際交易所公司(ICE)2016年44%的凈收入,來自市場數據銷售和相關收入,而在2011年,這一數據僅為9%。所以,華爾街的金融公司們群情激憤,認為紐交所過度收費了。電子交易商Virtu的首席執行官厲聲斥責說:「一個政府掛牌的機構可以這樣肆無忌憚地拿走你的知識財產,再肆意以虛高的價格賣給你。」美國證券業及金融市場協會也尖銳指出,證券交易所正在「濫用其壟斷市場數據的地位」。而享受著數據帶來巨大利益的紐交所,則斷然否定這一切的指控。

華爾街的這場數據爭奪戰現在仍在進行,爭論可能永遠不會平息。爭論的背後,是金融數據的關鍵作用與價值。不僅是在金融領域,隨著AI應用的深入,數據在一切領域都在扮演不可或缺的重要角色。

從解讀歷史到預測未來

歷史研究,一直是歷史學家的專屬花園。現在,AI科學家闖了進來。英國布里斯託大學科學家內羅·克里斯蒂亞尼尼(Nello Cristianini)與歷史學家合作,用AI的數據挖掘技術,從舊報紙堆里發現了可能比歷史書更準確的英國現代史。

沒有一位歷史學家能夠閱讀跨越一個多世紀英國歷史的數千萬份報紙,而AI可以。它積累了1800年至1950年間的3500萬份英國地區新聞報道數據(占該時期英國地區報刊總量的14%),分析了286億個辭彙。不妨對比一下:成年人平均閱讀速度大約為每分鐘300字,按這樣的速度,一個人如果一刻也不休息地晝夜連續閱讀,需要180年來完成上述閱讀;而AI用了大約8周。然後,它給出了自己獨到的分析,讓人們重新認識19世紀到20世紀上半葉150年的英國歷史,發現了歷史學家用傳統方法無法找到的歷史事件。

例如,技術興起這樣的不太明顯的歷史進程,歷史學家往往難以判定準確時間,AI則可以。電力什麼時候超越了蒸汽?AI的回答是1898年。因為在這一年,電在新聞中出現的頻率開始超過蒸汽,電取代了蒸汽。又如,歷史書都記載,火車時代開始於19世紀40年代,那時英國開始發展國家鐵路系統。但AI從新聞報道數據中準確地進一步分析出,火車實際上要在半個多世紀後才變得比馬車更重要。

還有,「經濟」什麼時候成為日常用語?AI發現,在20世紀之前, 「政治經濟」一直是比「經濟」更為常用的術語。直到1900年左右,這兩個詞的用法變得模糊。20世紀頭十年,這兩個術語使用頻率大致相似。之後,「經濟」開始成為更受歡迎的用語,使用頻率開始穩步上升,遠遠把「政治經濟」拋到後面。

這是AI眼中的英國歷史,數據分析穿透歷史迷霧,在紛亂複雜的歷史事件和記錄中理清頭緒,發現了歷史學家都難以發現的歷史現象。

數據科學不但能穿透歷史看到過去,也能高屋建瓴,遠望未來。我們在本專欄第一回看到的連續四次正確預測美國大選結果的MogAI智能系統,依靠的同樣是數據分析。而2009年H1N1甲型流感暴發前幾周,Google通過對用戶網上搜索記錄的分析,作出了比疾控中心更及時的疫情預測,準確性與官方數據相差無幾。這也是數據分析預測的結果。

關於數據的故事還很多。由著名演員布拉德·皮特 (Brad Pitt )主演的好萊塢影片《點球成金》,可以說是一段亦真亦幻的數據傳奇。在美國職業棒球聯盟比賽中,經費捉襟見肘的奧克蘭運動家隊敗給了財大氣粗的紐約揚基隊,賽季前途渺茫。總經理比利焦頭爛額之中,偶然認識了耶魯大學經濟學碩士彼得。彼得用數據分析的方法,挖掘毛病多、評價過低,但上壘率奇高的潛在明星,低價打造出一支棒球強隊,在新賽季取得二十連勝的輝煌戰績……電影根據紀實小說改編,雖然有虛構的成分,但在現實中,深度的數據分析不僅已成為棒球運動中的標準,而且在英超足球聯賽等其他體育項目中早已廣泛使用,成為球隊獲得好成績的技術支撐之一。

電影《點球成金》劇照

這些故事,還只是數據應用案例的九牛一毛。今天,數據技術廣泛應用於大至政治、軍事、經濟、教育、科研、醫療、金融,小至企業市場銷售、個人健康管理等一切領域。數據科學像一支魔杖,指向之處就會出現神奇;數據又像一隻魔方,在數據科學家手裡玩出絢爛多彩的萬千花樣。

大數據浪潮

什麼是數據?數據為什麼有如此魔力?

數據看起來平淡無奇。聲音、圖像、文本、數字……自然界和人類社會的一切信息,都可以看成數據。數據雖然無處不在,普通平凡,但是在AI時代,它已成為虛擬世界的基礎和中心。曾經的經典說法是,真實世界(物質世界)的基礎是原子,虛擬世界(數字世界)的基礎是比特(bit,位)。而今天,可以更精確地說,虛擬世界的基礎是數據,bit和byte(位元組),不過是數據的計量單位。虛擬世界是數字世界,更是數據世界。

數據其實一直都存在,造就神奇的,是數據科學,有了數據科學,數據才變得不平凡。

數據科學(Data Science)是一門年輕但發展非常迅猛的學科。數據、資料庫、數據分析、數據處理這些概念很早就出現了,但直到1996年,在國際分類協會聯盟(IFCS)在日本神戶舉行的雙年會上,數據科學這個術語才首次出現在會議文件的標題中。這一年,被看作是數據科學誕生之年。之後,在統計等學科領域裡從事數據工作的人開始被改稱為數據科學家,數據科學快速發展。

簡單地說,數據科學是研究從數據中獲取知識的科學理論和方法,目標是從數據中提取出有價值的信息。數據科學是融合統計學、機器學習、高性能計算、數據挖掘、數據倉庫、數據可視化等多領域中理論和技術的一門AI新興學科。資料庫大師、1998年圖靈獎得主吉姆·格雷(Jim Gray)把數據喻為科學的「第四範式」,與經驗、理論、計算相提並論,斷言未來任何領域的科學問題都將由數據驅動解決。他雖於2007年因海難意外逝世,但對數據和數據科學重要性的預言,在今天正在變為現實。

雖然數據如此重要,也一直得到廣泛應用,但數據和數據科學真正成為公眾關注熱點,還是要等到2011年——在這一年,大數據(Big Data)熱潮掀起。5月,權威諮詢公司麥肯錫全球研究院發表了一份重要報告《大數據:創新、競爭力和生產力的下一個新領域》。這是專業機構第一次全面介紹和展望大數據。報告指出,大數據已經滲透到當今的每一個行業和業務領域,成為重要的生產因素。

緊接著,在2012年1月的達沃斯論壇上,大數據成了主題之一。會上發布的報告《大數據,大影響》(Big Data, Big Impact)宣稱,數據已經成為一種新的經濟資產,就像貨幣或黃金一樣。

同年3月,奧巴馬政府發布了《大數據研究和發展倡議》,標誌著大數據已經具有重要的時代特徵。奧巴馬政府還將數據定義為「未來的新石油」,甚至還把對數據的佔有和控制,提升到國家數字主權的高度。

數據熱潮的掀起,有一個深刻的背景,那就是,人類社會的數據積累量,已經達到非常驚人的程度,大規模和深度的數據應用,已經成為必需和可能。

隨著互聯網、移動互聯網、物聯網的發展,天羅地網般遍布世界每個角落的信息設備如電腦、手機、感測器、照相機、攝像頭、麥克風、射頻識別(RFID)讀取器、汽車電子設備等等,每時每刻都在產生幾乎是無窮無盡的數據,到2012年,全球每天會產生2.5EB(B,Byte,即位元組)數據。

EB是多少?這先要先溫習和擴展一下數據計量單位的知識。我們熟悉的M、G甚至T,已遠遠不能描述數據的爆炸性增長,更大的計量單位開始使用。數據計量單位代表的數量,從Byte(位元組)開始,從小到大依次增加大約1000倍:Byte、KB(103)、MB(106)、GB(109)、TB(1012)、PB(1015)、EB(1018)、ZB(1021)、YB(1024)。YB之後還有DB、NB、CB。這些天文數字般的計量單位,人類很快也將遇到。

2.5EB的數據,意味著需要250萬塊1TB硬碟來存儲。那還是2012年一天的數據。2016年全球數據總量為10ZB,能想像10ZB數據有多大嗎?會存滿100億塊1TB硬碟!

這還沒完。我國網民數量居世界之首,每天產生的數據量也名列前茅。淘寶網站每天有數千萬筆交易,單日數據產生量超過50TB,存儲量40PB;百度公司目前每天大約要處理60億次搜索請求,產生數十PB的數據。而一個高清攝像頭一小時能產生3.6GB數據,一個城市若有幾十萬個攝像頭,每月產生數據將達到幾十PB……現在,全球數據仍然在以每年40%、兩年翻一番的速度增長,預計到2025年,全球數據將超過160 ZB,之後,就要向YB邁進了。

數據浩如煙海,只是大數據的特徵之一,全面的特徵要用 4V來描述——Volume(大量)、Velocity(高速)、Variety(多樣)、Value(價值)。大數據是人類社會的無盡財富,同時又對數據科學提出無窮挑戰。

從各種數據採集器洶湧而來的數據,首先要經過預處理,將非結構化數據轉化為機器能處理的結構化數據,為數據建模作最重要的準備。所謂數據的結構化,就是要對數據標註出特徵屬性。比如對語音,需要將聲音波形轉化為說話內容、說話人性別、年齡、情緒、周圍雜訊環境等屬性信息。對圖像,需要轉化為人臉五官位置、年齡、情緒等屬性信息。對文本,需要將文字做自然語言理解處理,標註出名詞、主語、分詞等屬性信息。這樣對數據進行結構化預處理、標註出信息屬性的工作,叫數據標註,是數據處理的一項重要的基礎性工作。

數據標註是一項繁重的工作,以前主要靠人工進行,現在開始用機器輔助人工進行。像國外的「亞馬遜土耳其機器人」和國內的「魔方眾標樂」,便是能夠幫助人工進行數據結構化處理的高效眾包處理平台。前者長於圖像數據標註,後者長於語音數據標註。

大數據技術有一個重要的思路,就是不進行數據抽樣,而是進行全數據處理。這樣,對數據結構化工作提出了更高的要求,自動化數據預處理將是打開數據處理效率瓶頸的鑰匙,使數據質量的提升和數據處理的速度最終能夠跟上AI發展的步伐。而一旦數據標註效率的瓶頸打開,手握優質結構化數據的數據科學家,就會用各種各樣精巧的模型和演算法,進行數據挖掘和分析,創造出奇蹟。

讓數據被看見

數據可視化,是數據科學創造的神奇之一,近些年來,數據可視化異軍突起,受到高度關注。

數據可視化(Data Visualization)使人們不再面對枯燥的數據,而是以直觀的、互動式的甚至有美感的方式,從不同的維度看到數據及其結構關係,這樣,極大提升了數據應用的價值。電子地圖,是數據可視化的一個典型例子。資料庫里的地理信息數據,通過可視化技術,在我們面前呈現出一幅直觀生動的地圖。而且,隨著數據不斷增多和更新,電子地圖的功能也不斷豐富,成為我們重要的生活助手。

數據可視化正在高速發展。城市數據可視化、科學可視化、可視化人機交互、可視化分析、高維數據可視化、數據敘事等應用領域不斷開拓。數據可視化還與AR/VR結合,增強數據的表現力和影響力。

數據可視化,常常能達到出人意料的效果。2010年10月,英國《衛報》發布了《維基百科伊拉克戰爭日誌:每一次死亡地圖》的可視化數據新聞。用來自維基解密的數據和谷歌地圖的免費軟體Googlefushion,製作出一幅點圖,將伊拉克戰爭中所有人員傷亡情況標註於地圖之上。地圖上的每一個紅點便代表一次死傷事件,滑鼠點擊紅點後彈出的窗口則有詳細的說明:傷亡人數、時間,造成傷亡的具體原因。學者的評價是,「新聞工作者富於人性的思索,通過精準的數據和適當的技術傳播出來」。這一地圖上遍布血淋林紅點的可視化數據新聞,不僅讓《衛報》一鳴驚人,也因為直觀和交互性地揭示出戰爭的殘酷與血腥,極大震撼和影響了英國公眾,一定程度上推動了英國最終作出從伊拉克撤軍的決定。

硬幣的另一面

數據的魔力正在重塑世界,但硬幣的另一面也顯露出來。數據安全事件頻發,數據泄露往往造成嚴重惡果,已經成為社會一大公害。《紐約時報》曾經有這樣的比喻,與400年前出現的觀察和測量微小事物的顯微鏡相比,我們現在正面對一台「測量數據」的顯微鏡。這台顯微鏡無比巨大而精細,我們的一切行為與隱私,都在這台數據顯微鏡下暴露無遺。問題是,除了合法的觀看者之外,還有大量善意和惡意的非法觀看者,時時刻刻想偷窺這台數據顯微鏡。這就是我們面臨的數據隱私安全的嚴峻問題。為了解決這一難題,掌握數據的政府、企業等機構要負起責任,從法律和管理上發力;我們公眾要提高數據安全意識;數據科學家和數據工程師,則要從技術上貢獻智慧。全社會一起努力,才能構築起堅強的數據安全保護屏障。

由於數據科學任重道遠,數據人才長期熱門而緊俏。麥肯錫公司預測美國到2018年需要深度數據分析人才44萬~49萬,缺口14萬~19萬人;同時,既熟悉本行業務又了解大數據應用的管理者,需求量達到150萬人,缺口更大。數據科學家、數據工程師已經成為AI行業中搶手而高薪的一群人。《哈佛商業評論》稱他們的工作,是21世紀最性感的職業。

中國是經濟高速發展的人口大國,數據應用前景應該更加廣闊,人才也會更加短缺。2017年春天,教育部新批准32所高校開設「數據科學與大數據技術專業」,加上之前批准的三所,開設數據本科專業的高校一下子增加到35所。中國大學數據人才的培養,步伐很快。同樣的,中國也應該加強面向普通人的數據知識普及,提高數據技術應用的意識和能力。

數據魔方在高速轉動,數據洪流滾滾而來,數據弄潮兒應站立潮頭。

點擊展開全文

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 科研圈 的精彩文章:

中國中醫科學院中藥研究所楊偉鵬研究員課題組招聘博士後
中山大學附屬第六醫院袁平課題組招聘博士後和科研人員
中國中醫科學院中藥研究所2017年度第二批博士後研究人員招聘簡章
終於,我還是離開科研投身銀行業

TAG:科研圈 |

您可能感興趣

悅游:柏林 穿越歷史的塵埃
韓國冬奧會黑幕重重,韓國黑歷史更是遍布世界,比你想像的更齷齪
關於千里馬與伯樂,那些厚重的遙遠歷史
歷史悠久的古希臘,美麗景色讓人著迷
穿越歷史,秘方才是一切,細說那些穿到古代顛覆歷史的套路
關於千里馬與伯樂 二,那些厚重的遙遠歷史
抗戰經典照片:重溫歷史不忘國恥,每一張都彌足珍貴!
中國歷史上,那些扣在帝王們的頭上「狗血歷史」,帝王野史
南北朝奇聞:後趙皇帝的歷史就是告密與手足相殘的歷史
韓國冬奧會黑幕重重,韓國黑歷史遍布全世界,比你想像的更齷齪
歷史上嚴重懷疑是否是穿越的皇帝,留下的東西令人費解
漢朝皇帝列表,世界上偉大的一段歷史,首次開闢「絲綢之路」
考古重大發現!海南歷史曾經繁華一時的珠崖郡,可能就在舊州城!
旅行:白牆黛瓦,煙雨長廊,重回歷史西塘!
戴著眼鏡去穿越,眼鏡的歷史
即使黑歷史眾多,章子怡依然是奧斯卡曝光率最高的華語演員!
柏林牆承載著太多的歷史,這些景點則記錄著德國的悠久歷史!
歷史上有很多愛國英雄,漢朝的蘇武,宋的岳飛,文天祥,那麼歷史最偉大的愛國英雄是誰那?
緬甸,穿行在蒲甘佛國的萬千佛塔,感受歷史的輝煌!
十三朝古都,想要領略華夏古都的歷史厚重感,千萬不能錯過洛陽!