大數據預測思維方法,相關性並不意味著因果關係
時至今日,關於西方傳來的一些哲學思想,不斷地佔據人們的思維空間,比如墨菲定律,比如二八定律,還有著名的蝴蝶效應。
蝴蝶效應,通俗淺白形象來說,就是北半球一種蝴蝶展翅飛翔,很可能引起了南半球的一場風暴。
隨著大數據的興起,人們發現有些風馬牛不相及的事情,卻有很強的關聯性,或者叫做相關性。
大數據的意義在於從海量的數據里尋找出一定的相關性,然後推演出行為方式的可能性。在大數據時代,隨著存儲和計算能力在不斷提高,能夠被數據化的東西也越來越多,所以利用統計學研究各種數據之間的相關關係,研究非相關數據之間的相關性就是相關性分析。這最終可以成為我們決策的依據,大大提升我們的管理效率或者處理事情的能力,也極大地顛覆我們原來的思維。
雖然他們沒有因果關係,例如隨著甲的出現,必然會導致乙的出現。
根據引力的計算,月圓月缺和潮起潮落,其實沒有太強的因果關係,月球的引力不足以在地球的海面掀起如此的巨浪,但是他們是緊密相關的。
幾千年都是遵循這樣的相關性。比如月相規律和女性的月經的關係,都不是一種強關聯性,幾乎沒有因果關係。
還有本文起初提到的蝴蝶效應,其實這本質上就是一種相關性,但是並不是因果關係,很顯然從物理學力學都說不通。
還有中醫的脈診,很多人以為這是一個臟腑的反應,其實真的搞錯了,這本質就是一種鏡像反射,中醫把脈所取都在手太陰肺經上,何來直接對應五臟六腑之說?
就是一種取象,取他們的相關性。
有一個很精妙的比喻,相關性就像一個人照鏡子,鏡子里的人和你的動作一模一樣,但是你和鏡子里的人,沒有半毛錢關係,開槍對著鏡子里的人打,你卻毫髮無傷。
相關性,並不意味著因果,但是可以看到一種趨勢,一個結果,就照鏡子,開槍把鏡子打碎了,人也沒事,但是看得清清楚楚,如此而已。
TwitterHealth是紐約羅徹斯特大學發起的一個研究項目,可以通過分析用戶的Twitter微博內容來預測用戶會不會感冒。注意,他們僅僅分析微博內容!
這一項目原來只是給研究人員用作數據挖掘和機器學習系統用的,後來開發出了這一功能。羅徹斯特大學計算機科學系主任Henry Kautz說:「TwitterHealth是一個專門研究分析不同地理位置信息的項目,比如智能手機的GPS信息。」
Kautz說:「我們發現越來越多的社交媒體開始加入地理位置定位這一功能,人們在發Twitter微博的時候就會順帶上自己的地理位置信息。我們的研究小組就從網站上下載並研究此類信息。」
Kautz的學生建立起一個計算機網路,專門用來下載地理位置坐標為大城市的Twitter微博。然後他們開始從海量的大數據資源中挑選可用數據。
「我們發現,人們經常在Twitter微博中提到自己的健康狀況。比如說『我流鼻子了』、『我感冒了』、『我感覺不舒服』等。我們就設想,是否可以根據這些詞句來跟蹤季節性流感?」
於是研究團隊開始拙手寫機器學習演算法,在幾百條實驗微博中挑選「感冒微博」。
最後團隊的演算法在挑選「感冒微博」時已經可以達到99%的準確率,幾乎與人腦分析文本一致,而且「感冒」分析速度要快於美國本土最大的疾病控制中心。
「從大數據中,我們可以發現季節性流感的分布和傳播,我們測量和預測的精度完全不輸疾病控制中心。」Kautz說道。
從這個案例來講,發微博和感冒完全沒有因果關係,但是能夠分析出來人群和個體的疾病特徵,甚至連宏觀的流行性疾病趨勢分布圖,都一清二楚。
從這點上看,科學越來越接近玄學了。
歡迎關注隱士申子源更多文章,與你分析碰撞思維火花!


※汶川地震十周年專題,中國的大地震幾乎落在地圖的同一條直線上
※從麻黃的趣味傳說中了解中醫藥文化
TAG:隱士申子源 |