「可重複性危機」引發的一場科學辯論

知識 08-03

科學的目的是儘可能準確地建立事實。因此，分辨觀察到的現象是否是真實的、還是純屬巧合的結果至關重要。如果你以為你發現了一些事實，而它其實只是隨機的，這會被稱為虛假的發現或假陽性。尤其是在醫學的某些領域，假陽性這種情況是非常常見的。

假陽性；許多微觀的癌和非癌的人體組織樣本。（圖片來源：Wellcome Images）

7月22日，一篇發表在PsyArXiv的文章引發了一場激烈的大辯論。辯論的問題很簡單，而且還正中所有科學研究的核心，即：什麼樣的結果才能算是可靠的？

這個問題非常重要，因為許多學科目前都面臨著「可重複性危機」，即使是教科書里的內容，也未必能通過嚴格的重新測試。

此次辯論的中心是「統計顯著性」這個概念，它是決定研究結果是否能發表在科學期刊中最有影響力的度量標準之一。若一個結果要能被算得上是「統計上顯著的」，它需要通過一項簡單的測試。測試的答案被稱為「P值」。如果P值小於0.05——恭喜你！通過測試，你擁有了一個統計顯著的研究結果。

但不久前，來自統計學、心理學、經濟學、社會學、政治學、還有生物醫學等學科的72名卓越的學者想要改變這種現狀。他們在一篇即將刊登在《自然人類行為》雜誌上的文章中表示，研究結果必須通過更高的門檻，才能被視為具有「統計顯著性」。

這篇題為《重新定義統計顯著性》的文章即將發表在《自然：人類行為》雜誌。合作者包括了兩位研究可重複性的重量級人物：John Ioannidis和Brian Nosek.（圖片來源：D.J.Benjamin）

作者寫道：「我們建議將P值改為小於0.005，這個簡單的步驟將即刻提高科學研究在許多領域的重複性。」如果這一改變被接受，它就有可能大大減少科學文獻中的假陽性。

斯坦福大學健康研究教授 John Ioannidis 是這篇文章的作者之一，他說：「我們使用P值的方式存在很大的問題，這導致了現在學術論文中出現了大量誤導性的主張。」同時 Ioannidis 也表示，這個建議並不能解決科學中的所有問題，他說：「我認為這就像是一個大壩，在我們找到永久性修復的方法前，它能幫我們遏制洪水。」

但並不是每個人都認同這種做法。

它能導致的最好結果是，通過這個簡單的改變，學術文獻中的錯誤得以顯著減少。而最壞的結果，這種居高臨下的命令，可能讓科學中一些真正的問題喪失表達機會。

這也正是這場辯論的主要焦點。

什麼是P值？

當研究人員計算一個P值時，他們測試的是「零假設」。要知道的是：這不是一個關於實驗者最迫切想要回答的問題的測試。

什麼是零假設呢？舉個簡單粗暴的例子，假設實驗者想要知道每天吃一個巧克力棒是否能減肥，於是分配了50個參與者每天吃一個巧克力棒，安排另50人不許吃巧克力棒。在實驗前和試驗後分別測量兩組參與者的體重，之後再比較兩組的平均體重。

這時，零假設會倡導的論證則是：吃巧克力與不吃巧克力的參與者的體重減輕沒有差別（即假設了要被試驗的效應並不存在）。因此，駁回零假設是科學家在證明自己理論過程中的主要障礙。科學家會通過統計學來排除一些零假設。最基礎的，他們會問自己：基於現有的結果，相信零假設是正確的這件事會有多荒謬呢？

駁回零假設與法庭上證明一個人有罪的原則有些類似。比如說，在法庭上，你先假定被告是無辜的，接著你看到證據，如：帶血的刀子上有他的指紋，他有暴力傾向的記錄，還有目擊證人作證等等。根據這些證據，無罪定論開始顯得幼稚。到了某一程度上，法官會感覺得到，這已超出了合理懷疑，被告並不是無辜的。

零假設檢驗遵循類似的邏輯：如果吃巧克力的人和不吃的人之間的體重差異不同，那麼「沒有重量差異」的零假設則看起來很愚蠢。就可以被駁回。

你可能會想：這種證明一個實驗的方式豈不是很迂迴？是的，就是很迂迴！被駁回的零假設是實驗的一個間接證據。它並不能說明你的科學結論是否正確。

就接著上面的例子來說，比如被駁回的零假設並不能告訴提供你任何關於巧克力引起減肥的機制。它也不能告訴你實驗是否設計良好、控制得當，或者結果是否被擇優挑選過等等。它只是幫你了解結果的罕見程度。

而P值量化了這個稀有度。它告訴你的是，在假設這個零假設是真的的前提下，在重複實驗中，你能得到相同結果的次數是多少。如果P值非常小，也就是說得到相同結果的次數很少，則證明零假設的可能性很小，這意味著實驗結果的數據是由隨機運氣導致的可能性就很小。

另外還有一個問題，研究者永遠也無法完全排除零假設，所以科學家們就選擇了一個讓他們比較舒適的門檻，也就是現在設定的P值小於0.05。

在理想情況下，一個等於0.05的P值意味著如果你重複實驗100次（強調：假設零假設為真），你能得到相同的結果的次數為5次。

最後一個超級棘手、幾乎大多數人都弄錯的概念是：P值小於0.05並不意味著你的實驗結果是由隨機運氣產生的幾率不到5％，也不意味著你只有小於5％的概率得到假陽性的結果。它能說明的只是：在零假設為真的情況下，你得到的結果是由於隨機運氣導致的概率不到5%。

這聽起來很吹毛求疵，但卻至關重要。因為這常導致人們對P值的理解產生誤會，過度自信，因為P值為0.05的實驗出現假陽性的概率可以遠遠高於5％。

反對P < 0.05的聲音

通常，P值不能用來做結論，而是確定可能性，像一種取樣測試。在很長一段時間以來，小於0.05的P值取樣看上去很不錯。但在最近過去的幾年裡，越來越多的研究者和統計學家已經意識到，P

最顯而易見的證據是：許多P值低於0.05門檻的論文無法被更嚴謹的實驗方法重複。

2015年《科學》雜誌的一篇論文試圖複製100篇發表在一本優秀的心理學雜誌上的發現，只有39％通過了測試。其他學科要稍微好一點，經濟學中類似的複製發現約有60％的結果是可重複的。生物醫藥也同樣是「可重複性危機」的重災區，但具體數字還並不清楚。

從2015年《科學》刊登的這篇論文提供的一些線索來看，發現P值低於0.01的心理學研究的可被重複的可能性要明顯高於剛好在0.05水平的研究。

通常P=0.05被視為「統計顯著」，P=0.01為「非常顯著」。低P值會使假設成立的可能性更大，但不會有非常明顯的差異。（圖片來源：R. NUZZO）

另外，還有研究人員還發現，我們能看到的所有已發表的論文都有一個名義上的「統計學上顯著的」結果。而實際上，這些P值小於0.05的絕大多數論文並不符合其真正的效果。

很久以來，科學家都認為P < 0.05代表了事情的罕見，而新的統計學發現並不是這樣的。

2013年在PNAS刊登的一篇論文中，華盛頓大學的統計學家 Johnson 使用了更先進的統計技術來測試這個研究者通常所做的「一個0.05的P值意味著零假設為真的幾率是5%」的假設。他的分析顯示，事實上，當P值為0.05時，零假設為真的概率可達到25％到30％。

而25%和30%這樣的數字，幾乎很難被稱得上「罕見」二字了。

更嚴謹的實驗方法

這篇論文里所提倡的主要是在修辭上的改變：將達到0.05級別的結果稱為具有「啟示性」意義的結果，而達到更嚴格標準的0.005的結果才能被稱為「統計顯著」的結果。換句話說，期刊仍然可以像以前一樣發表一些較弱、甚至可能無效的結果。這種語言上的調整將有希望降低媒體在發布新聞稿和新聞報道時，類似「重磅」、「大突破」、「大發現」等標題語的濫用。

統計顯著的意義上的變化可能會迫使今後研究人員需採取嚴謹的實驗方法。如果實驗室確實想發表「統計顯著」的結果，在將來可能會變得更加困難。例如，對一些需要參與者的實驗，參與人數平均可能要增加70％，這樣變化基本能將證據的力度提高六倍左右。

加重的舉證責任將可能推動研究人員採用其他科學改革者一直呼籲的做法，如與其他實驗室共享數據以達成共識，並對已有的科研工作進行更長遠的思考。更高的門檻也將鼓勵實驗室在發表結果之前更多次的重複實驗。

值得一提的是，在某些領域中，為了避免錯誤的結果，早已將P值的閾值設置的非常低。比如粒子物理學家在收集粒子對撞產生的數據中一直要求P值低於3 ×10^?7，遺傳學家在進行全基因組關聯研究時，也要求P值小於5×10^?8。但也有一些科學家已經放棄P值，轉而使用更複雜的統計學工具，比如貝葉斯檢驗。

反對P < 0.005的聲音

當然關於這個提案也有許多反對的聲音，其中一個是心理學家 Daniel Lakens，目前他正與數十名作者聯合組織反駁論文。他的主要觀點是，這種改變「統計顯著性」的建議可能減緩科學進步的步伐。

Lakens 舉了一個例子：「我們將科學研究比喻成在公路上駕駛一輛汽車，公路會設定最高速度。你可以將你所在國家的最高速度設置為每小時20英里，這樣的話沒有人會因車禍而死，即便你撞倒了一個人，他們也不會死。這樣很好，對吧？但在科學上我們不這樣做，我們要將最高速度設置得高一點，因為那能讓我們更快的抵達下一個地方。科學就是這樣啊……」

Lakens 說，理想的情況下，證明一個假設所需的統計顯著性的水平取決於這個假設的荒謬程度。

換句話說，如果你想要聲稱一個「心靈感應」這類發現是真的，你會需要一個很低的P值；但是，對一個已經很平常的概念，我們是否還需要一個如此極端的測試呢？高標準可能會阻礙只有較少科研資源的年輕博士檢驗他們的想法。

再者，0.05的P值也並不一定意味著實驗將是假陽性。一個好的研究者會知道如何跟進和找出真相。

對這個提案的另一個批評是，它會使得科學界加劇對P值的關注。而正如上問討論的那樣，P值並不能真正告訴我們一個假設的優劣。

Ioannidis 也承認：「統計顯著性本身並不能傳遞一個研究的意義、重要性、臨床價值和實用性。」他說，在理想情況下，科學家們不需要依靠零假設測試來重新審視他們自己。但是我們不是生活在理想世界裡，在現實世界中，P值仍是任何科學家都可以輕鬆使用來測試的一種快速簡單的工具。而且在現在，P值仍在決定什麼是可以被發表的這一問題上扮演很重要的角色。

值得一提的是，在某些領域中，為了避免錯誤的結果，早已要求非常低的P值。比如粒子物理學家在收集粒子對撞產生的數據中一直都要求P值低於3×10?7，遺傳學家在進行全基因組關聯研究時，要求P值小於5×10?8。而有些科學家則早已放棄P值，轉而使用更複雜的統計學工具，比如貝葉斯檢驗。

真正的問題：科學文化氛圍

或許改變統計顯著性的定義並不能解決真正的問題，因為真正的問題可能是科學文化。

在2016年一項調查中採訪了200多名美國知名高校的科學家，詢問他們：「如果你能改變一件與現在科學圈有關的事，那將是什麼？」答案中的一個清晰的回復便是：科學機構需要設置對待科研失敗的更好的方式。

科學文化氛圍的現狀是，年輕的科學家需要一定的發表量才能獲得工作，成功發表論文需要統計顯著的結果，統計顯著性本身並不導致可重複性危機。或許是這種科研氛圍加劇了這種了使這個行業變得脆弱的情況。

但就目前而言，調整P值仍只是一個引發劇烈爭辯的提案。各類期刊並不會急於在一夜之間改變編輯與審核的標準。這場辯論還將持續。

但是如果因此變成，修正了措辭的「啟示性」的結果難以被發表，只得到「啟示性」結果的研究無法留住科研經費，那麼科學共同體或許還沒有汲取足夠的教訓。

其實仔細想想，關於調整P值的這項提案似乎更多在說科學家需要更嚴謹的使用科學措辭，「啟示性」或者「無效的」結果也是結果。Ioannidis說：「平均來看， 失敗的研究平比正面研究可能更有價值。」

科研機構和科學期刊其實都知道這一點，但他們只是常常忘記要這樣做。

參考來源：

[2] http://www.nature.com/news/big-names-in-statistics-want-to-shake-up-much-maligned-p-value-1.22375

[4] http://science.sciencemag.org/content/349/6251/aac4716

[5] http://www.sciencemag.org/news/2016/03/about-40-economics-experiments-fail-replication-survey

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自原理的精彩文章:

※論文的發表不是科研的結束而是開始？韓春雨回應：理解萬歲
※地震，真的能預測嗎？

TAG:原理 |

您可能感興趣

※一場辯論引發的革命
※科技與時尚！一場由無人機引發的辯論
※升級版薛定諤貓實驗，引發激烈的辯論
※辯論：過分注重CP會影響作品的發展嗎？
※澳大學辯論賽新規引爭議：半數辯手須為跨性別者
※一場做頭髮引發的辯論，又出後續了！
※辯論！中國動漫該不該著重發展修仙題材？
※真球迷到底要不要穿真球衣？一場辯論賽引發的文化碰撞
※破解傳統文化的密碼——繁星國學邀你來一場痛快的儒家思想辯論
※IBM 組織了一場人機辯論，人類與人工智慧各勝一場
※議會辯論更嚴格的槍支管理法
※氣候變化成關注焦點，美國民主黨考慮增設專場辯論討論氣候變化
※《被禁止的歷史》試讀：進化論VS創造論：這是一場嚴肅的辯論嗎？
※辯論機器人又擊敗了人類？說的再好不如實際落地
※弦理論是科學嗎?學家辯論已久
※民主党參選人進行首場辯論，試圖阻擊特朗普連任的努力正式開始了
※物理學終結自由意志的辯論
※國學問答——關於傳統文化的幾點思考和辯論
※自主購物還是引導式服務好？這場辯論會告訴你答案
※辯論時必須注意的一個問題