大數據,豈止於大
版權聲明
本文首發於微信公眾號
沁機邁可思(zw_life-long_doing)
無需授權即可轉載
轉載時請註明出處
大數據的概念並不新奇,早在2012年,《紐約時報》的一篇專欄已經開始報道:
……「大數據」時代已經降臨,在商業、經濟以及其他領域中,決策將日益基於數據和分析而作出,而並非基於經驗和直覺。
不難看出,這裡面傳達了兩個信息:
大數據時代在2012年已經降臨;
未來對數據的理解和分析將左右決策方向。
但是他對於大數據的闡述,並不完善:
2005年是大數據的元年。這一年,在機器翻譯領域從沒有技術積累的Google,通過一個模型訓練了大量數據並應用在機器翻譯上。結果,在由美國國家標準與技術研究所(NIST)主持的測評和交流會上,以絕對領先的翻譯精確度,打敗了包括IBM在內的全球所有機器翻譯團隊。
對數據的理解和分析,是指導決策,但也僅此而已。而在大數據時代,對大數據的挖掘和分析,可以預測未來。
大膽一點的說:大數據的核心就是預測。它並不是教機器像人一樣思考,而是把數學演算法運用到海量的數據中來預測事情發生的可能性。
預測是大數據的核心
難以置信對不對?畢竟在我們的過往認知中,未來充滿了不確定性。就好比我們在平整的桌子上擲色子,當色子落到桌子上停穩之前,預測出它是哪一面朝上,哪一面朝下?
但事實就是如此。
首先,我們要知道,在大數據的世界裡,沒有絕對兩個字,它通常用概率說話。
誠然,我們的世界充滿了不確定性,但這也並不意味著我們對未來世界的認知,又回到了牛頓之前的不可知狀態。
就拿微觀世界的電子運動來說,雖然我們無法確定電子的準確位置和速度,但是能知道一定時間內它在核外空間各處出現的概率。而後科學家們用一個模型來模擬電子運動。在這個模型里,某個點附近的密度表示電子在該處出現的機會的大小。密度大的地方,表明電子在核外空間單位體積內出現的機會多;反之,則表明電子出現的機會少。由於這個模型很像在原子核外有一層疏密不等的「雲」,所以,也被人們形象地稱之為「電子云」。
在我們生活中也時常有類似的情況發生,即通過概率來認識身邊未知的世界。
但是,魚和熊掌不能兼得,既然攤上了概率,那也就不可能兼顧到精確性。這在大數據時代是不可避免的,它是由大數據全面性和多維度的必要特徵決定的。所以,在大數據時代,如果要試圖擴大數據規模,那我們就必須接受數據的混雜特徵,接受有可能出現的錯誤數據。
你可能會問:既然大數據充斥著不準確,那還怎麼預測未來呢?扯淡的把。
別急,這個時候咱就得說說大數據帶給我們的另一個思維變革:不再探索難以捉摸的因果,轉而關注事物的相關關係。
但這並不是說,在小數據世界裡,相關關係是沒用的。只是在大數據的背景下,對相關關係的分析可以讓我們比以前更容易、更快捷、更清楚的分析事物。
早在20世紀70年代,日本人就利用數據的關聯性,一舉中標大慶油田石油設備的採購訂單。而這背後的關鍵,竟是1964年在《人民畫報》上刊登的王進喜照片。
乍一看,照片中的主人公意氣風發,豪邁至極。但我們可能也就只能看到這種程度。而日本的情報人員,看到的就不僅僅是這些了:
首先,根據王進喜穿的棉襖和戴的大皮帽,斷定油田一定在我國極北地區。日本人估計是在哈爾濱和齊齊哈爾之間;
其次,從背景中井架的密度,大致估算出油田的產量;
最後,從王進喜握手柄的方式,大致推算出油井的直徑。
因此,日本人獲取了大慶油田相對準確的信息,有針對的競標,那中標自然也就毫無懸念。
單從這件事上,就足以看出分析數據的相關性能給我們帶來驚喜的意外收穫。只是在大數據時代,這個效果,被體現的淋漓盡致罷了。
疾病控制中心和預防中心的科學家和Google的工程師從2007年到2008年一起合作研究了流行病傳播和各地區搜索量的關係。他們通過訓練一個回歸模型,將45個重要檢索詞條和55個次重要詞條作為特徵(從4.5億種關鍵詞的組合中挑選出),成功預測了2007年和2008年冬季流感傳播的趨勢和地點。並且事後將這個結果與疾控中心公布的數據進行對比,發現準確率高達97%以上。
話說回來,為什麼在大數據中的相關性分析就能預測未來?而小數據時代就不行。這是因為我們理解世界不再需要建立在假設的基礎上了。注意,這個假設是指針對現象建立的有關其產生機制和內在機理的假設。因此,我們用數據驅動的關於大數據的相關關係分析法,取代了基於假想的易出錯的方法,也就避免了主觀偏見的影響。
而對於大數據的混雜性,不用擔心。因為在大數據的體量里,少部分的異常並不會影響最後的趨勢判斷,量變引起質變嘛。
未來的兩個「趨勢」
近代,美國一位未來學家——丹尼爾·伯勒斯,形象的把未來的發展趨勢歸為硬趨勢和軟趨勢兩大類。
所謂硬趨勢,指的是未來必然發生的事。比如十年之後你會老十歲,比如四季更替、潮起潮落等周期規律。它並不以人的意志為轉移。
所謂軟趨勢,則是指未來可能發生的,充滿變數的事,我們能決定它的變化。
可以說,找到硬趨勢,我們可以發現未來;找到軟趨勢,我們就可以改變未來。
但未來是充滿不確定性的吧,很多時候,我們並不能清晰的,提前的感知到硬趨勢。感受不到,也就沒有用了不是。
從某種意義上來說,這個共識在大數據時代並不準確。
首先,未來的不確定性主要來自兩個方面:
客觀事物自身的不確定性。如我們不能同時準確預測出電子在某一時刻圍繞原子核高速運動時的位置和速度。
影響世界的變數太多。如我們上文提到的擲色子。如果我們能知道運算元準確的形狀和密度分布、出手的力量和旋轉的角速度、空氣流動速度等,那還是有可能極速出色子的哪個點或哪個面接觸桌面的。但這裡面仍有很多細節難以考量,如出手的速度。
到了大數據時代,一切又變得不一樣了。
因為變數太多造成的事物不可認知。我們可以通過概率來認識它,就如同前面說的「電子云」。
客觀事物自身存在不確定性。我們可以通過相關性分析來了解它。就如同找老中醫看病。如果你肺上有毛病,那麼一般情況下,他不會給你開治療肺病的葯,而是給你一些與脾相關的補劑。因為脾土助肺金。脾能益氣,化生氣血,轉輸精微以充肺,促進肺主氣的功能,使之宣肅正常。自然也就達到治療肺病的效果。
發現了么?解決未來不確定的思路,和大數據預測未來的兩個手段,出奇的一致……呵,在未來面前開掛,想想都讓人興奮呢。
最後,總結三個點,讓你更深刻的了解大數據與未來的關係:
建立在相關關係分析法基礎上的預測是大數據的發展核心;
通過對全面的,多維的,混雜的數據進行挖掘和分析,我們能大概率的鎖定未來發展的硬趨勢,而不再通過經驗和直覺;
每個人的未來都充滿了不確定性,每個人都能通過自己的不懈努力,抓住軟趨勢,改變未來。
我是鍾偉,愛折騰的數據分析師,與你同行在路上。


TAG:沁機邁可思 |