當前位置:
首頁 > 最新 > 不能信任的小樣本相關結果

不能信任的小樣本相關結果

大數據如火如荼,但現實研究中由於種種原因(沒錢(* ̄︶ ̄)!),樣本量總是有所局限。所以樣本量對數據結果是否有影響、有何影響是我們一直關注的問題。接下來搬小板凳、拿小本本和大家一起學習。

這篇博客說明樣本量對相關係數估計的兩個重要效應:小樣本增加相關係數估計的變異和降低該相關性的可重複性。這個問題並非相關分析中特有的問題,但在本文中我們(即原作者)將聚焦於一個情況:對於最常用的Pearson相關來說,小樣本量意味著什麼(類似的結果在Spearman相關分析中也存在,在回歸分析中也存在相同的問題)。本博客所涉及到的R代碼可以在github上找到。(https://github.com/GRousselet/blog/tree/master/smallncorr)

讓我們從圖1的例子開始。非常漂亮的散點圖,對吧!樣本量為30,r為0.703。似乎我們發現在變數1和2之間有較強的相關:來,我們投到Nature或PNAS上去吧!讓我們用另一個無法重複的效應來污染已發表文獻!

圖1

是的,散點圖中的數據是偶然得到的。它們是從零相關的總體中抽取出來的。我懷疑許多發表的文章中報告的相關可能就是這樣的。這樣的事情也並不是什麼新聞,假陽性和高估的效應量是小樣本實驗(見https://garstats.wordpress.com/2017/02/04/small-sample-sizes/)很自然的結果,而這個問題在可疑研究操作與獎勵發表陽性結果的背景下會變得更加嚴重。

為了理解小樣本實驗的相關估計問題,我們可以模擬下,從一個Pearson相關(rho)為0的正態總體中抽取出許多樣本量不同的樣本,然後計算它們的相關係數。不同樣本量時對rho估計的抽樣分布如圖2所示:

圖2

這個抽樣分布告訴我們的是從長遠看(即無數次抽樣),統計量會有怎樣的結果,這像是我們做了許多次實驗的結果分布。本文中,隨著樣本量的增加,抽樣分布更窄,這意味著從長遠來看,我們可以獲得更精確的估計。但是,通常一篇文章只報告一次對相關的估計值,這個估計值完全有可能是錯誤的。那麼我們應該使用多大的樣本量來獲得精確的估計?答案取決於:

單變數和雙變數分布的形狀(如果異常值很多,請考慮穩健的方法, robust methods

[https://garstats.wordpress.com/2018/06/01/smallncorr/

作者: Guillaume A. Rousselet]);

預期的效應量(效應量越大,需要的試次越少 - 見下文);

我們想要的精確度。

對於圖2中的採樣分布,我們可以針對每個樣本量均提出這個問題:估計值在總體真值的上下a個單位內的比例是多少?例如:

如果想要70%的估計值在真實相關值的+/- 0.1範圍之內(在-0.1和0.1之間),我們至少需要109次觀察;

如果想要90%的估計值在真實相關值的+/- 0.2範圍內(在-0.2和0.2之間),我們至少需要70次觀察。

這些值在圖3中使用黑線和箭頭示出。該圖顯示了在不同的樣本量和不同的精確度情況下,估計值在真實值附近的比例。最重要的是,即使我們接受不太精確的測量,要從長遠來看達到相應的精確度和有足夠的頻次估計值,也需要大量的觀察結果(如,黃線所示的,90%的估計值在偏離真值0.2的範圍內,需要樣本量約為70)。

圖3

小樣本量的相關估計帶來的不確定性會導致另一個問題:效應很可能無法被重複。對於什麼是成功的重複有著多種定義。在這裡,我不考慮兩個實驗發現相同方向的統計學上顯著(p)的情況,因為這種標準是相對不重要的。在這裡,我們將考慮兩次估計值有多接近。在一定精度水平的情況下,我們可以得到在兩個連續實驗中觀察到相似效應的概率。也就是說,我們可以找到兩次估計值最多相差特定值的概率。毫不意外,這個概率結果與圖3中觀察到的模式相似:可重複的概率(y軸)隨著樣本量(x軸)和我們願意接受的不確定性(參見帶有顏色的圖例)的增加而增加(如圖4所示)。

圖4

在圖4中,黑線表示如果需要重複實驗有80%的可能性得到與原結果相差最多0.2的結果,我們需要至少83次觀察。

到目前為止,我們說的是從相關為零的總體抽取出樣本的情況,在這種情況下,大的相關估計值是由偶然性造成的。那麼,有效應時的情況會如何? 如圖5所示的是樣本大小為30時的情況。

圖5

快速地檢查一下,我們可以看到抽樣分布的模式隨著總體相關性的增加而逐漸增加。更有趣的是,隨著效應量的增加,抽樣分布也越來越窄。 因此,我們試圖估計的真實效應越大,我們的估計就越精確。 換句話說,給定精確度水平後,真實效應越大時,我們需要更少的數據點來估計真正的效果。圖6顯示的在樣本量為30及不同精度水平時,估計值接近真值的比例,它隨著總體的相關性(即真實的效應量)而變化。

圖6

總的來說,從長遠來看,如果我們在研究真的較大的效應,我們更可能得到更精確的測量。準確的估計值將取決於預期效果量的先驗分布、分布形狀和所期待的精度水平或能夠獲得的樣本量。如圖7所示,我們可以更詳細地看一下rho = 0.4的抽樣分布。

圖7

對於n

圖8

我們得到了這個近似結果:

如果估計值的70%在真實值的±0.1之內(在0.3和0.5之間),我們至少需要78次觀察;

如果90%的估計值在真實相關值的± 0.2範圍內(在0.2和0.6之間),我們至少需要50次觀察。

你可以使用(github)上提供的R代碼來重複此練習,根據自己的先驗(即你給定總體的相關值為多少)和想要的精確度來進行估算。

最後,對於給定的精度水平,我們可以得到在兩個連續實驗中觀察到相似估計值的概率。也就是說,兩次測量最多相差某個固定值的概率是多少呢? 圖9顯示結果的變化範圍從0.05(非常精確)到0.4(非常不精確)。黑色箭頭表明,要得到兩次實驗最多相關0.2的概率為80%,我們至少需要59次觀察。

圖9

同樣,我們可將本文中所進行的模擬分析應用於的統計檢驗力(statistical power)。但是,如果我們的目標是對效應進行量化,對統計檢驗力進行分析的意義可能並不大。測量和估計值的精度應該是比通過統計顯著性將效應標記出來的概率更值得我們關注(McShane, Gal, Gelman, Robert, & Tackett, 2018)。

關於相關性估計還有許多值得說的地方,我特別推薦Ed Vul(Vul, Harris, Winkielman, & Pashler, 2009; Vul & Pashler, 2012)和Tal Yarkoni(Yarkoni, 2009)在討論voodoo相關[譯者註:指的是社會認知神經科學領域關於迷之高度相關的討論:]時代的論文。 最近,Sch?nbrodt and Perugini (2013)研究了樣本量對相關性估計的影響,與這篇文章相似,他們重點關注的是精確度。 最後,關於假陽性,這篇更具有普適性的論文(Forstmeier, Wagenmakers, & Parker, 2017)非常值得一讀。

回帖更新

更新:2018.06.02

在原帖中,我提過一些圖片中的非線性結果。Jan Vanhove在Twitter上回復說他看不到任何內容,並建議了另一段不同的代碼。我使用他的代碼更新了模擬結果,現在非線性已經消失了!謝謝Jan!

Johannes Algermissen在Twitter上提到他最近的論文(Algermissen & Mehler, 2018)涉及類似的問題。值得一看!他還提醒我與這篇博客有類似觀點的一篇近期的論文(Sch?nbrodt & Perugini, 2013)。

Gjalt-Jorn Peters在Twitter上提到「你也可以使用suppdists這個R包(https://cran.r-project.org/web/packages/SuppDists/index.html) 中Pearson分布。另請參閱pwr.confintR來計算某個特定的參數估計正確率(Accuracy in parameter estimation, AIPE)所需的樣本量,這個方法在計劃研究時也非常容易上手」。

Wolfgang Viechtbauer在Twitter上提到「研究者可以直接計算r的密度(無需模擬)。例如:https://gist.github.com/wviechtb/e87ee35ea5544a3a5f875f61e270cd18。然後,一切都會非常順利」。

更新:2018.06.30

Frank Harrell在Twitter上寫道:「我也建議在說明樣本量時使用精確的相關係數估計值。需要n> 300來估計r。詳見BBR (http://www.fharrell.com/doc/bbr.pdf)第8章」。

★關於本文內容相關的連接

Correlations in neuroscience: are small n, interaction fallacies, lack of illustrations and confidence intervals the norm?

Small n correlations + p values = disaster

Power estimation for correlation analyses

★本文涉及到的文獻來源

[1] Algermissen, J., & Mehler, D. M. A. (2018). May the power be with you: are there highly powered studies in neuroscience, and how can we get more of them?Journal of Neurophysiology, 119(6), 2114–2117. doi:10.1152/jn.00765.2017

[2] Forstmeier, W., Wagenmakers, E.-J., & Parker, T. H. (2017).Detecting and avoiding likely false-positive findings – a practical guide. Biological Reviews, 92(4), 1941–1968. doi:10.1111/brv.12315

[3] McShane, B. B., Gal, D., Gelman, A., Robert, C., & Tackett, J. L. (2018).Abandon Statistical Significance.arXiv. Retrieved from https://arxiv.org/abs/1709.07588

[4] Sch?nbrodt, F. D., & Perugini, M. (2013).At what sample size do correlations stabilize? Journal of Research in Personality, 47(5), 609–612. doi:10.1016/j.jrp.2013.05.009

[5] Vul, E., Harris, C., Winkielman, P., & Pashler, H. (2009).Puzzlingly High Correlations in fMRI Studies of Emotion, Personality, and Social Cognition.Perspectives on Psychological Science, 4(3), 274–290. doi:10.1111/j.1745–6924.2009.01125.x

[6] Vul, E., & Pashler, H. (2012).Voodoo and circularity errors. NeuroImage, 62(2), 945–948. doi:10.1016/j.neuroimage.2012.01.027

[7] Yarkoni, T. (2009). Big Correlations in Little Studies: Inflated fMRI Correlations Reflect Low Statistical Power—Commentary on Vul et al. (2009).Perspectives on Psychological Science, 4(3), 294–298. doi:10.1111/j.1745-6924.2009.01127.x

原文作者:Guillaume A. Rousselet

翻 譯:朱樺

校 對:王鳳娟胡傳鵬

編 輯:安玉萌

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 OpenScience 的精彩文章:

TAG:OpenScience |