當前位置:
首頁 > 健康 > 康奈爾大學教授因操縱 P 值,被撤稿及被警告文章累積達

康奈爾大學教授因操縱 P 值,被撤稿及被警告文章累積達

康奈爾大學教授因操縱 P 值,被撤稿及被警告文章累積達

本文首發於意得輯專家視點:康奈爾大學教授因操縱 P 值,被撤稿及被警告文章累積達 29 篇

碗/盤子越大,人就吃得越多,換成小碗能避免吃太多。

用劇下飯容易吃撐,最多能比平時多吃 60%。

有女性在場時,男性會吃比正常飯量更多的披薩。

國內外教人健康飲食的網站沒少援引這些有網感的研究。別以為這是什麼愛瞎搞的機構出的調查,它們都出自康奈爾大學食物與品牌實驗室 (Cornell Food and Brand Lab)。

這個實驗室的負責人 Brian Wansink 是行為心理學出身,主攻飲食、健康領域的研究。除了搞科研,Wansink 還著有暢銷書《無意識飲食》,經常在主流媒體露臉教人怎麼吃、怎麼減肥,可以說是該領域目前最火的研究者之一。

不過,這人最近又出事了。

5 月 8 日,《美國醫學會雜誌》(JAMA) 主編 Howard Bauchner 在其網站上貼出了對 Wansink 早前發表的 6 篇論文的關注聲明 (Expression of Concern),並嚴詞警告學術圈對這些論文中的研究效度加個小心。

JAMA主編關注聲明

康奈爾大學教授因操縱 P 值,被撤稿及被警告文章累積達

JAMA主編關注聲明,圖片來自:JAMA Network

Bauchner 主編在聲明中表示:「醫學期刊最重要的特質之一是準確,而Wansink 頻繁(被)撤稿的現象給他的研究帶來了很多不確定性,我們已經要求康奈爾大學重新評估他的研究,在積極的結果出現之前,我們不會撤銷關注聲明。」

這不是 Wansink 第一次和學術不端扯上關係。早在去年底,他就因為一年內有 5 篇論文被撤稿(其中一篇被撤兩次)、論文修改 13 次,而被《科學人》列入 2017 年度十大撤稿事件。據《撤稿觀察》 (Retraction Watch)的數據顯示,到目前為止,Wansink 所涉及的期刊撤稿和關注聲明一共 29個。根據撤稿時間倒序,我們將其中被撤稿的 7 篇論文整理如下:

康奈爾大學教授因操縱 P 值,被撤稿及被警告文章累積達

所以,他的研究到底出了什麼幺蛾子?

1. 論文重複發表、自我抄襲

Wansink 於 15 年發表的一篇論文和他 13 年的論文有 1376 字重複,雖然他把自己的論文加進了參考文獻中,還是被期刊要求修改。

相似的,另一篇發表於 2003 年關於大豆的論文因為一稿多投而在去年被撤稿。

2. 樣本年齡錯誤

Wansink 於 2012 年發表在期刊《預防醫學》 (Preventive Medicine) 上、現已被撤稿的一篇論文,研究了小孩吃蔬菜這件事。他發現如果給難吃的蔬菜取個酷點兒的名字,比如「X 射線眼胡蘿蔔」,會讓小孩改變心意,愛上胡蘿蔔,從而提高蔬菜攝入。不過,後來 Wansink 承認實驗樣本並不像論文里寫的是 8-11 歲的學生,而是 3-5 歲的小朋友。

3. 用結論操縱數據、數據作假

Wansink 和其團隊的郵件記錄證實,他在許多研究中操縱數據。比如在一個有關自助餐的項目中,Wansink 要求實驗室的研究生根據 p 值倒推變數,嘗試不同變數,直到得出「一看就能火」的結果才行。

事實上,學術界對 Wansink 這些受歡迎的研究是否具有信度和效度早存在爭議。來自波士頓東北大學的 James Heathers 自己編程,通過統計學原理,從一些已經發表的研究結果中推出原數據的可能面貌。

在跑完 Wansink 的幾十篇論文數據後,他發現了 150 多處數據不一致。其中就包括上面的提到的胡蘿蔔實驗。要得到和實驗數據相匹配的結果,其中某個樣本需要吃掉 60 個胡蘿蔔。對於 Wansink 給出的「實驗用到的是只有正常大小 1/4 的小胡蘿蔔」,期刊編輯認為非常牽強。

Buzzfeed 對 Wansink 事件進行了一系列報道,他們結合學界其他研究者的意見,認為這些論文中出現的數據不一致,主要是 Wansink 團隊在 p-hacking。

關於 p 值,以及它有什麼問題?

在研究型論文中,多數研究者會使用假設檢驗的方法來統計概率。簡單來說,假設檢驗的邏輯過程有 4 步:

提出問題,同時根據問題作出兩個相反的假設,即零假設和備選假設

根據樣本數據,算出零假設成立前提下,樣本觀察結果出現的概率,也就是 p 值

按照學術界標準,當 p<=5%,也就是我們常說的實驗結果顯著

得出結論,零假設被否認

為了讓實驗結果顯著,大研究人員都受到不少來自 5% 這個硬指標的壓力。感受一下豆瓣網友翕如這張餅圖:

康奈爾大學教授因操縱 P 值,被撤稿及被警告文章累積達

圖片來自:豆瓣

為了使 p 值好看,統計時一旦 p 值顯著就停止收集數據、根據 p 值顯著性倒推變數、刪掉一些初始變數改變 p 值等操作都屬於 p-hacking。

這也就使容易被人為操作成為 p 值的一個黑點。反對 p 值的研究者認為,p值應該作為衡量實驗結果的參考,而不是唯一標準。意得輯專家視點此前就報道過,為了說明 p 值的存在的問題,期刊《Basic and Applied Social Psychology》(BASP) 在 2015 年宣布禁用假設檢驗及相關的統計程序。

此外,p 值的可重複性低也一直是個問題。弗吉尼亞大學的心理學教授 Brian Nosek 花了 3 年時間和同行研究者對 100 個已經發表的研究重新測試。這些早先 p 值顯著的研究中,只有 36% 在二次實驗中 p 值依然顯著。p 值的不穩定性和樣本體量、環境、學科領域間等因素有關。比如在上述項目中,認知心理學研究中的 p 值可複製率是社會心理學研究的兩倍。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 今日科學 的精彩文章:

「鵲橋」中繼星順利進入使命軌道運行
納米顆粒靶向治療腫瘤研究獲進展

TAG:今日科學 |