當前位置:
首頁 > 最新 > 005 一個實驗結果顯著不可靠,多做幾個就好了?

005 一個實驗結果顯著不可靠,多做幾個就好了?

5

一個實驗結果顯著不可靠,多做幾個就好了?

2011年對心理學研究來說,是分水嶺似的一年。這一年除了Simmons和其同事在「False-Positive Psychology」一文中總結了我們第一期介紹過的那些p-hacking的方法,還發生了兩件大事:

荷蘭著名社會心理學家Diederik Stapel被發現數據造假,涉及到其發表的55篇文章;

美國著名社會心理學家Daryl Bem,著名的自我知覺理論的提出者,在社會心理學頂級期刊JPSP上發表了一篇對超感官知覺,也就是所謂的第六感(預測未來)的實證系列研究,報告了9個實驗來說明超感官知覺現象的存在。

Bem的研究造成的影響其實遠比Stapel的數據造假更大。JPSP的編輯和審稿人認為這篇研究符合當時心理學界對研究方法的一切要求,但這個研究發現卻是關於一個極受爭議的被認為是偽科學的研究問題。這導致了整個心理學界對研究方法的反思。

在談這個研究存在的問題之前,我們先來看看當時心理學界對於研究方法的一些看法。

心理學界對研究發現的顯著結果的可靠性的擔憂一直存在,但因為在2011年之前,對power普遍的不重視,這種擔憂基本是關於第一類錯誤α的。根據α=0.05,每一個實驗中我拒絕H0假設時,有0.05的可能我錯誤拒絕了H0假設。既然如此,那麼我對於同樣的問題,用略有不同的操縱方式或測量方式,在略有不同的環境下多次實驗,那麼犯第一類錯誤的概率就會降低,比如說我做2個實驗,那麼我錯誤拒絕H0假設的概率將降為0.05×0.05。基於這樣的考慮,主流心理學期刊鼓勵多實驗的系列研究,使研究發現更為可靠。

但事實上,我們在第二、三期中已經說明,因為P(D|H0)不同於P(H0|D),得到一個顯著結果的時候這說明效應真正存在的概率,其實不是P(D|H0)或1-α。系列研究中一般每一個實驗的樣本量都比較小,我們做一個簡單的計算,假設效應量為0.4,獨立樣本t檢驗中每一組30名被試,這就是我們通常認為尚可的情況,此時power只有0.33。我們就假設power是0.3,假設我們提出10個假設中有3個效應真實存在,根據我們在第三期中的計算,錯誤拒絕H0假設的概率將為0.28,這樣即使我做2個實驗都得到顯著結果,錯誤拒絕H0的概率0.28×0.28=0.0784仍然大於0.05。

更主要的問題在於,當每一個實驗的power不足的時候,做多個實驗都得到顯著結果的概率也將變得很低。回想一下第二類錯誤β的定義:錯誤接受H0假設,就是說即使有顯著差異也探測不到。我們來看看這樣一個系列研究:我做了連續的10個實驗,假設效應量為0.5,每個實驗都採取獨立樣本t檢驗,每組42名被試,所以總共有840名被試,看起來是很大的工作量了。但其實此時每一個實驗的power只有0.6,也就是說即使效應真實存在且效應量為0.5,我做10個實驗也應該只有6個能達到顯著。那麼現在這10個實驗都到達顯著的概率是多少呢?這個問題其實可以轉化為6個綠球,4個紅球,從中放回抽樣10次,全部抽中綠球的概率,簡單計算一下,抽樣10次至少有一個紅球的概率為0.994,所以10個實驗全部顯著的概率將低達0.006。也就是說,把這個研究看作一個整體,其總power只有0.006。

那麼如果一個小樣本系列研究報告中所有實驗結果都顯著,顯然相當不科學了。事實上,很多時候當研究者在一篇文章中報告5個顯著實驗結果時,他們事實上做了10個、20個甚至更多的實驗,那些不顯著的結果就不報告。

我們回頭來看看Bem的超感官知覺的研究,在這個研究中,Bem做了10個子實驗,一共用到了1200名被試,平均每個實驗120名被試,而效應量偏低,普遍在0.2左右,因而平均power大概為0.75。這樣,即使Bem報告的10個實驗中有1個不顯著,得到9個顯著結果的概率也將小於0.2。

這樣看來,多實驗系列研究都得到顯著結果並不可信,多個實驗反而會降低研究總的power。因此,Schimmack (2012)指出,如果多個探究相同問題的實驗之間差異十分細微,應該將其作為一個實驗,而將這些差異作為調節變數進行分析。如果將5個N=100的實驗合併進行分析,將得到一個N=500的實驗,其power將會高得多。

但也有研究者提出異議,例如著名社會心理學家Baumeister (2016)指出,很多時候研究者進行多實驗系列研究並不是用多個實驗探究同一個問題,而是在確定某個效應存在之後進而探究多個可能的邊界條件以及中介機制。如果強行將其合併成一個實驗將極為複雜,而且加入多個調節、中介這些統計分析也會降低研究的power。因此,使用Sakaluk (2016)提出的Exploring small, confirming big的策略,用小樣本探索可能的邊界條件及中介機制,再用大樣本進行驗證,是一種好的研究思路。

事實上,Bem在2016年報告了一個pre-registered對超感官知覺的重複研究,沒有重複出之前的研究成果。年近80的Bem承認這個研究結果是假陽性的,但他同時也說他之前從沒考慮過自己的研究結果能否被重複這個問題,他幾十年的研究實踐都是在用數據支持自己的想法。Baumeister也說,在幾十年前,心理學研究的宗旨是提出好的假設,具有足夠高的效應量,即使用極少的被試(每組N=10)也能得到顯著的成果。但畢竟心理學需要研究那些不那麼顯而易見、容易想到的問題,那些效應量比較小的現象,因此現在對power的重視,是讓心理學成為一門更硬的科學的道路上重要的一步

總之,在讀多實驗系列研究,以及考慮做多實驗研究時,要重視power的問題。讓一個研究更可信的,是更高的power,而不是更多的實驗個數。一個大樣本實驗好過多個小樣本實驗;一篇報告了多個顯著結果的文章,很可能隱去了那些不顯著的結果

參考文獻

Baumeister, R. F. (2016). Charting the future of social psychology on stormy seas: Winners, losers, and recommendations.Journal of Experimental Social Psychology, 66, 153-158.

Nelson, L. D., Simmons, J., & Simonsohn, U. (2018). Psychology"s renaissance.Annual review of psychology, 69, 511-534.

Sakaluk, J. K. (2016). Exploring small, confirming big: An alternative system to the new statistics for advancing cumulative and replicable psychological research.Journal of Experimental Social Psychology, 66, 47-54.

Schimmack, U. (2012). The ironic effect of significant results on the credibility of multiple-study articles.Psychological methods, 17(4), 551-566.

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 實驗 的精彩文章:

武大李紅良團隊發聲明,亮明實驗關鍵節點流程圖回應造假質疑
日軍當年侵華戰爭時曾大量收集我國的受孕少女,只為做實驗

TAG:實驗 |