當前位置:
首頁 > 知識 > 如何一本正經地胡說八道,多列數據就行了丨蝌學薦書

如何一本正經地胡說八道,多列數據就行了丨蝌學薦書

早間新聞說上個月的消費指數上升了n個點;

手機上跳出實時的股票漲跌,順便可以看一下上市公司的年報以判斷股票前景;

工作例會上,你使用的數據PPT模板讓展示更加美觀有趣,獲得老闆好評;

……

如今我們每天、每時、每刻都被各種數據包圍、淹沒。這些信息有的只是作為日常生活的點綴,大可一笑了之;而有的則會成為決策的依據,變得舉足輕重。

我們信任數據,認為數據總是客觀情況的客觀反映。可真的如此嗎?

胡扯的視覺把戲

「大鴨子」是一個養鴨戶於1931年建造的鴨子形商店,如今已經成為一個受人喜愛的地標。

「大鴨子」,位於美國紐約長島佛蘭德斯

但是作為一座建築,大鴨子並沒有什麼特別的功能。在建築理論中,它已經成為形式優先於功能的標誌,「鴨子」也由此成了裝飾超過用途的建築的代名詞。

國內最為著名的建築「鴨子」之一——福祿壽酒店

相似地,形式大於數據的圖形就可被稱為「鴨子」。

《今日美國》是製造數據可視化「鴨子」的先驅之一。上圖顯然可以代表《今日美國》的風格。

下面這個圖形的設計者用兩個餐叉的尖齒代表條形圖中的條形。

這樣做有什麼壞處呢?壞處很多:

條形是圖形中承載信息的部分,但它們在這張圖中只佔了很小一部分空間;

傾斜的角度也會引發爭議,因為我們不習慣解讀這種角度的條形圖;

兩把餐叉並排,但底部水平線並沒有對齊,容易造成錯覺;

幸好數值被寫出來了。但如果必須依靠數值來解讀圖形,為什麼不直接用表格避免前三個壞處呢?

我們說胡扯就是公然無視事實和邏輯連貫性,企圖通過分散注意力、震懾或恐嚇來說服或打動受眾。但可愛有什麼不對嗎?其實「鴨子」真正讓我們擔心的原因在於,試圖裝得可愛會讓讀者更難理解它表示的數據,逐漸變成胡扯

比如這張圖,創意可嘉,但是把一個餅形圖扭曲成羊角,只會在讀者對這些數量進行視覺比較時增加難度。

數據可視化的「鴨子」只是有胡扯的影子,那麼被我們稱為「水晶鞋」的那一類數據可視化就是完美的胡扯

「水晶鞋」是將一種類型的數據硬套上用於展示另一類數據的視覺形式。這樣做的目的是借用好的可視化形式的權威性表現自己的權威性,完全不考慮數據本身與形式的兼容性。就像格林兄弟的原版《灰姑娘》故事中,繼姐為了穿上水晶鞋切掉了腳趾,削平了腳後跟。

其中最被濫用的形式之一就是地鐵線路圖,它甚至引發了元層級的評論——「以地鐵線路圖作為象徵的地圖的地鐵線路圖」。

以地鐵線路圖作為象徵的地圖的地鐵線路圖

另一種流行的圖表形式是帶標籤的示意圖。這種圖的「重災區」之一,就是PPT

誰沒用過幾個看起來豐富、有趣又清晰的PPT模板呢?或者自創一些可愛的模型,就像這隻獨角獸。

然而圖表上的標籤毫無道理可言。前肢與「機器學習」和「可視化」有什麼關係?為什麼「R編程」與後腿有關呢?右後腿為什麼沒有加標籤?為什麼頭部的「分析型思想者」指的是一種人,而身體的其他部分指的是技能?……

類似的還有:

「幸福與筆」

「老師的自行車」

扭曲的數字黑箱

有一種更接近純粹胡扯的現象——數學濫用,而且它並不罕見。

數學濫用(Mathiness)指的是那些看起來都像是數學表達式的東西,但它們和數學可以說是毫無關係。

比如信任方程:

按照這個方程,當自利感降到最低時,信任度就會非常高,那麼我們是不是應該根據拋硬幣的結果決定一切呢?畢竟硬幣真實可靠又不會自私自利。

又如「一年中最悲傷的一天」(一月的第三個星期一)的公式:

W代表天氣,d代表債務,T代表聖誕節以來的時間,Q代表放棄新年決心以來的時間,M代表幹勁不足,Na代表採取行動的必要性。(不清楚D在公式中代表什麼。)

看起來多麼像是一種嚴謹的數學方法!但它到底是什麼意思呢?這些量如何測量,單位又是什麼?如果只是要表達正相關還是負相關,那麼大可不必採取這種形式,它不但無用,還會讓人費解。

拆穿胡扯,你需要一些技巧

辨別可能的胡扯的最終目的,是指斥胡扯。然而清除胡扯的代價要遠遠高於製造胡扯,哪怕真正符合科研方法論的論文也是如此。伯格斯特龍和韋斯特就藉助一個精彩的駁斥案例,反證了這種「高端胡扯」的屏蔽性與危險。他們給這種方法取名為「令人難忘駁斥法」。

於是一份標題為《通過死大西洋鮭魚研究人類神經活動:論多重比較校正的重要性》的學術牆報登場了。你沒看錯:一條死鮭魚

這是一個故意為之的愚蠢實驗。研究人員跟那條死魚交談,還給它看了人們在不同社交環境中的照片。結果令人震驚。當鮭魚被問及人們的情緒時,影像顯示它腦幹的幾個區域表現出來的活躍性高於它在「休息」時的活躍性。

這還只是對人類社交場景的「反應」,想像一下,如果這條鮭魚被問及鮭魚的情緒,這些區域會多麼明亮。

要麼是我們在死魚認知方面取得了驚人發現,要麼是我們未經修正的統計方法出了問題。

指斥胡扯不只是為了增強自信,它還是一種道義上的責任。正如我們在開頭所說,世界充斥著各式各樣的胡扯,有些是無傷大雅的,有些是小麻煩,還有一些甚至很有趣,但很多胡扯會給科學的誠實和生死攸關的決策帶來嚴重的後果。

「數據成了新式胡扯的殺手鐧」。但我們絕不否認科學是理解物理世界的一個成功的標準手段。不管我們抱怨什麼,不管我們發現了什麼偏見,不管我們遇到什麼問題,不管我們說了什麼廢話,科學最終還是會成功的

2018年,復旦大學開設了一門新的通識課程,邀請學校多個專業的教授對學生每天可能接觸到的信息進行「真偽鑒定」,向學生闡述什麼是「偽科學」,一經開課便節節爆滿。

這門名叫「似是而非」的新課並非復旦大學首創,它的靈感來源於美國華盛頓大學的「拆穿胡扯」(Calling Bullshit)公開課。這門課由生物學教授卡爾·伯格斯特龍和信息學副教授傑文·韋斯特聯合主講,他們從邏輯和傳播渠道的角度揭開數據偽科學如何產生與傳播。課程信息一掛在官網就被搶光名額。

這兩門課如此火爆是因為:識別數據陷阱,已然成為當代生活的剛需。數據信息真的可以為「偽科學」操控,雖然我們已經能夠識別出披著「震驚!」外衣的老式胡扯,但它們分裂出來的新亞種令人眼花繚亂。

伯格斯特龍和韋斯特將這些把戲統稱為「胡扯」,這門教大家識別並指斥胡扯的課程廣受好評,講義的衍生書籍保留了課程辛辣的原名,中文版便是《拆穿數據胡扯》

《拆穿數據胡扯》中信出版·鸚鵡螺

希望本書能幫助你面對衝擊,將事實與虛構區分開來。

福利來啦

本期贈書活動規則:

在文末留言,截至2022年3月28日24:00,評論處的1樓、2樓、3樓(點贊數需超過30)將獲得《拆穿數據胡扯》1本。獲獎名單將在下期「蝌學薦書」中公布。

恭喜@涼涼暖暖 獲得《癌症傳:眾病之王》1本。

END

責編/小西途說

向左滑動,查看北京市科學技術協會新媒體傳播體系

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 蝌蚪五線譜 的精彩文章:

藥酒可不能隨便喝,真的會要命!
體脂秤說你胖了,是真的胖了嗎?