當前位置:
首頁 > 最新 > 耶魯博士教你如何輕鬆識破一本正經的胡說八道

耶魯博士教你如何輕鬆識破一本正經的胡說八道

劉麗是個很謹慎的人,這天來了位上門推銷的大姐,大講產品功效,劉麗正要下逐客令,大姐忽然講到劉麗家附近的某某用了產品。

雖然劉麗並不認識某某,但聽大姐把地址姓名都說得清清楚楚,就聽了下去,大姐接著說了一串數字,有多少人用了產品,有效率達到多少等等。

劉麗心動了,掏出腰包買下了這個產品。

俗話說「事實勝於雄辯」,而帶上數字的事實則更容易讓人相信,這大概就是數字的魔力。

在如今這個大數據時代,數字變得更神奇。

我們瀏覽某個購物網站或者網頁後,再次點開時,就看到了「猜你喜歡」之類的提示,你看看這些推薦的內容,感覺簡直比你自己還要懂你,這就是運用大數據的結果。

我們在手機上查路況,查找旅遊景點和附近餐館,甚至看醫生等等,都要用到大數據,大數據已經滲入我們生活的各個方面。

最神奇的是運用大數據進行預測。微軟紐約研究院的經濟學家大衛?羅斯柴爾德利用大數據「猜」到了2013年第85屆奧斯卡的19個獎項,「猜」中了2014年第86屆奧斯卡獎項24個中的21個。

2012年他還正確預測了美國51個行政區中50個總統大選結果。對此,許多人感嘆:大數據時代,驚喜已死!

但這還是給了我們更多欣喜,尤其對於需要洞察力和精準決策的企業經營、投資、政府管理等,這實在是為我們描繪了一幅非常美好的藍圖。

但是,事實並非想像中的這麼完美。

劉麗買下產品使用後才發現根本沒什麼用,價格更是高得離譜,感覺自己是受騙上當了,後悔不已。

這本名為《簡單統計學》的書里則向我們講述了許多根據數據得出的怪異結論:墮胎可以減少犯罪,凌亂的房間會加劇人們的種族主義傾向,吃肉會使人變得更加自私……

或者似是而非的結論:生活在輸電線附近的兒童具有更大的患癌風險,每天飲用兩杯咖啡,會增大患上胰腺癌的風險…

那麼,這些錯誤是怎麼產生的,我們又該如何識別和遠離這些一本正經的錯誤?

別急,《簡單統計學——如何輕鬆識破一本正經的胡說八道》這本書講的就是這個。

作者加里.史密斯是耶魯大學博士,曾在耶魯大學任教7年,他的課程因結合日常生活實例,深入淺出分析數據而廣受歡迎,火爆異常。

本書就是他在耶魯大學的統計學公開課。

一本正經的胡說八道是怎麼產生的?

1

導致錯誤的產生有外在的因素。

嚴格的實驗是只改變一個因素,其他保持不變,但現實生活往往不可能做到這樣,而是會有許多混雜因素

如準確預測了2010年8場世界盃比賽的章魚保羅,並非它智商有多高,實際只是它更喜歡那三個獲勝球隊國家的國旗而已。

而瑞典女性死亡率高於哥斯大黎加,因為瑞典的老年女性較多,胰腺癌病人飲用咖啡比其他人多是因為其他許多病人存在潰瘍戒除了咖啡。

作者認為,超級暢銷書《從優秀到卓越》對成功公司的研究限於對過去的回溯性研究,沒有考慮到倖存者偏差問題,因而書中列出的共同特點並不能很好地預測這些公司將來的表現。

2

但更根本的原因卻是模式的誘惑,即人們內心深處對模式的渴望與尋求

雖然在遠古時代這種特性和技能可能幫助了人類生存和繁衍,但它並不能很好地適應現代社會,因為我們現成面對的數據龐大而複雜,並不容易解釋。

然而這種意願仍頑強地存在於人內心。人們急於在數據中尋找模式,也容易被這種模式所吸引,然後只關注支持模式的數據,忽視不支持的數據。

前些天網上有人議論1993年出生的女生,都嫁給了娛樂圈或者商圈的大咖,比如奶茶妹妹,昆凌,吳千語,最近的孫怡。

我覺得這就是一個尋找模式的典型,在數據中尋找共同點,然後進行選擇性報告。

大咖這麼多,這幾個例子能說明什麼?其他不是93年出生的大咖妻子呢?有人居然對此進行所謂的命理分析,更是可笑!

在模式的誘惑下,研究人員開始熱切地追逐統計顯著性。如今在大數據和計算機的幫助下,尋找這種統計顯著性變得很容易。

尋找方法主要有兩種:

一種是選擇性報告。他們對多種理論進行檢驗,然後只公布其中有統計顯著性的結果。

要知道,即使對毫無價值的理論進行檢驗,也會有二十分之一的檢驗表現出統計顯著性。

諾貝爾獎獲得者費曼曾請學生計算他走出教室看到的第一輛車子擁有某個特定牌照的概率,聰明的學生很快算出概率為1.76億分之一,但費曼說正確的概率是1,因為他剛才出來就看到了這個牌照。

這讓我想起多年前看過的一篇文章,說的也正是這點:小概率事件一旦發生,它就不再是小概率事件。

另一種方法就是數據搜刮,他們進行數百次的檢驗,總會發現某種有統計顯著性的模式。

作者指出,隨機數據也會出現令人震驚的數據甚至數據聚焦現象。

「1000個拋硬幣的人之中,一定會有一些人連續拋出10次正面」。

而且運用這種推論,即使只有一次正面,你也可以得出一種理論:你拋出的硬幣一定正面朝上,因為你看到了數據與理論相符,顯然這謬誤之極!

作者認為,因為死於癌症的孩子生活在輸電線附近,就認為輸電線的磁場一定是導致癌症的元兇,其推導方式和上面硬幣理論如出一轍。

就像德克薩斯神槍手隨機開槍,再在打中最多區域繪製靶心,用某種數據編造理論,很容易就能發現這種理論與數據相符。

3

在模式的誘惑下,研究人員包括著名的科學家也會有意無意地犯下錯誤。

有些錯誤是無意的。

《魔鬼經濟學》作者芝加哥經濟學家萊維特與人合寫的論文中得出"墮胎減少犯罪"的可笑結論,經檢驗,他在其中犯了多個錯誤,他本人也承認了。

因為基數太小,一個被錯誤統計的謀殺案,導致以藝術家和寧靜著稱的馬薩諸塞州韋爾弗里特小鎮,居然成了謀殺率是波士頓兩倍多的謀殺之都。

有些錯誤則是故意的,為了得到自己想要的結論。

如英國醫生安德魯.韋克菲爾德製造的疫苗恐慌,稱兒童接種麻疹、腮腺炎和風疹疫苗後患上自閉症,後發現他的研究背後有利益訴求,同時樣本很小,且數據造假。

房間凌亂加劇種族傾向和吃肉讓人更自私的結論都出自芬蘭社會心理學家,迪德里克.斯塔佩爾,他後來承認對許多數據進行了篡改,有的則完全是編造的。

兩個有趣的問題

這本《簡單統計學》在對大量「數據謊言」進行分析的過程中,對一些基本的統計學原理進行了深入淺出的闡述,有兩個問題特別有趣。

一是假陽性問題。

作者告訴我們,即使針對疾病的檢測準確率很高,比如高達80%甚至90%以上,得到陽性檢測結果的許多人仍可能不是患者。

作者舉了個腫瘤檢測的例子,如下圖所示,檢測為陽性的患者患癌的概率只有7.5%。

這讓我想起以前有位同事,在縣醫院檢測為腫瘤,後去上海卻診斷為只是睡眠不好而已。當時都只是感嘆縣醫院醫療醫術水平太低,看來原因不只在此啊。

書中說經過調查表明,很多醫生對此也有錯誤認識。

除了沒注意有時大數中的小比例大於小數中的大比例外,很多醫生誤以為病人得到陽性檢查情況下患癌概率與癌症患者得到陽性檢查的概率大致相等,這是混淆了兩種條件性陳述。

一個是均值回歸現象。

某人上次考試分數很高或者說表現很出色,這次就差了多,有可能並非是他沒努力,而是一種正常的」均值回歸「現象.

分數最高或者表現最出色的人與分數最低或表現最差的人之間的實際差距,也許並沒有我們看到和想像得那麼大。

當然,書中也指出,許多重要的科學理論確實也是人們為了解釋他們所發現的模式而提出來的,如孟德爾遺傳定律的發現,但數據挖掘還是導致了數千種胡謅理論

那麼,我們該如何識破其中的真假?

如何識破一本正經的胡說八道

本書共有19章,各章都有許多生動的案例和深入淺出的分析,並在每章末尾附有針對各章內容的如何輕鬆識破「騙局」的防以騙指南。

在此基礎上,作者提出了兩種最根本的方法,用來幫助我們識別正確理論與胡謅之間區別的方法:

一是用常識和直覺檢驗。

某種聽起來可笑的理論,在看到壓倒性證據之前,不要輕信,即使看到了也要保持懷疑態度,不同尋常的說法必須要有不同尋常的證據才行。

比如對於所謂的特異功能,書中對其中騙局進行了深入的地揭露。

二是要用沒被數據污染的新數據來對新理論進行檢驗。

一句話就是

」沒有理論的數據僅僅是數據而已「,

也就是說在數據中找出的模式應該得到一個合理的理論的解釋,並需要得到新數據的檢驗。

同時,《簡單統計學》這本書還指出了

」沒有數據的理論僅僅是理論而已「,

也就是說一個理論必須經過可靠數據的檢驗,在這之前也只能是一種猜測。

書中指出馬爾薩斯、福雷斯特等的世界末日式的人口預測被證明是錯誤的,他們的推論中有一些合理,但缺乏足夠的數據檢驗。

史密斯在《簡單統計學》這本書中顛覆了我們對模式的迷戀,對數字的迷信,但他同時強調了常識。

他指出現在有些專家完全無視常識,過分追求模式,追求統計顯著性,從所謂的數據中得出許多違背常識的可笑的模式「理論」。

他說

「在這個年代,常識是一種稀缺品,許多誠實的研究人員用嚴肅的語氣提出了一些愚蠢的理論。」。

常識正是識破這些一本正經胡說八道的有力武器。從這點來說,對於那些顛覆常識的所謂新奇思想觀點,這本《簡單統計學——如何輕鬆識破一本正經的胡說八道》是一種反顛覆。


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 蒲公英的讀書小站 的精彩文章:

TAG:蒲公英的讀書小站 |