當前位置:
首頁 > 最新 > 使用SPSS、R和JASP計算效應量的置信區間

使用SPSS、R和JASP計算效應量的置信區間

本文以Daniel Lakens的博客為基礎,在翻譯的同時進行相關刪減和補充,旨在講解常見效應量的置信區間的獲得方法,但並未對其原理進行詳細介紹。若想進一步了解效應量這一概念,請配合文末的參考文獻一起閱讀,使用效果更佳^_^

博客地址:http://daniellakens.blogspot.de/2014/06/calculating-confidence-intervals-for.html

1. 什麼是效應量(effect size)

效應量是研究者所感興趣效應的量化指標,常見的效應量指標如下表所示(引自胡傳鵬等人, 2016, ):

在心理學研究中,最常用的效應量有兩種:一種是表示相關性的效應量(correlational),常見的指標有r(r^2)和R(R^2),其中η^2也是r「家族」中的一個;另一種是均值差異(mean difference),常見的指標如本文重點介紹的cohen"sd等。

Cohen"sd主要用於t-test,表明兩個均數之間的標準差異;而η^2(偏η^2)主要用於ANOVA,表明與變數X的水平變化有關的變數Y的變化比率。對效應量的詳細解釋可以參見Lakens(2013)

2. 什麼是置信區間?

(以下引自台灣慈濟大學陳紹慶老師,詳見confidence interval,博客鏈接:http://scchen.com/en/)

任何統計檢定得到的統計值與效果量(effect size,大陸教材中翻譯為效應量),都是一種點估計(point estimation)。信賴區間(confidence intervals,CIs,大陸教材中翻譯為置信區間)是點估計加上抽樣誤差範圍的上下邊界,邊界是平均值加上及減去臨界統計數(大陸課本翻譯為臨界值)與估計標準誤的乘積,臨界統計數是我們在分析前宣告的p值,所對應的統計數。

3.η^2置信區間的計算

3.1 使用SPSS計算η^2的置信區間

首先,從Karl L Wuensch的網站上下載CI-R2-SPSS.zip(文末百度雲鏈接中的CI-R2-SPSS.zip,網址:http://core.ecu.edu/psyc/wuenschk/StatHelp/StatHelp.htm)。這個程序來自於M. J. Smithson,但Smithson的網站似乎已經無法訪問了。感謝Karl L Wuensch,他在個人網站提供了非常有用的資源,包括該程序以及詳細的SPSS操作指南。下載壓縮包解壓後包括如下文件:NoncF3.SPS; NoncF.sav; F2R2.SPS和說明文件CI-R2-SPSS.docx。

首先,打開NoncF.sav文件(此處的數據為非中心F分布,詳細請看OSC blog,http://osc.centerforopenscience.org/2014/03/06/confidence%20intervals/),你會看到如下SPSS窗口,其中只有conf這一列上出現了.95,其他行都是空的。接下來,只需要在SPSS中填入相應的數字,運行腳本NonCF3.SPS。

假設你的η^2結果如下:F(1,198)=5.72。你需要報告這個結果的偏η^2和置信區間。在第一列中輸入F值(fval)5.72,在第二(df1)和第三列(df2)分別輸入自由度(第二列填1,第三列填198),再把conf這一列的.95改成.90(原因見下文),最後打開NoncF3.sps,運行腳本,這樣你就在SPSS文件中剩餘的列中得到你的結果(見下圖)

最後三列數據是我們感興趣的:r2即r2或η^2=.028,其置信區間的下限值(lr2, 0.0026)和上限值(ur2,0.0756),這就得到了90%的置信區間為[.003; .076]。

就這麼簡單。

為什麼要報告η^2檢驗的90%而不是95%的置信區間

正如前文所提到的,我們在計算置信區間時,把0.95修改成了0.9。關於這個問題Karl Wuensch已經其網站的文檔中使用例子進行了清楚的解釋(文末百度雲文件中的CI-Eta2-Alpha.doc)。如果你不想閱讀這個文件,大致的意思是這樣的:均值之間的差異可以是正值也可以是負值,但是r^2或η^2是平方值,只有正值。這是因為F檢驗總是單側檢驗(所以當你得到F雙側檢驗的p=.08時,不要報告為單側p=.04)。如果你計算95%的置信區間,你可能會得到包含0的置信區間,但此時p值可能小於.05。這樣一來,置信區間的結果與p值就存在顯著差異。Steiger(2004)的文章解決了這個問題(鏈接:http://www.statpower.net/Steiger%20Biblio/Steiger04.pdf)。他認為,均值比較的95%置信區間和η^2的90%置信區間得到的檢驗效力是一樣的,而且η^2檢驗的值不可能小於0,所以與0不存在顯著差異的置信區間(通常情況下不包含0)的下限至少要從0開始。你報告的結果應該是[.00, .XX]這樣的90%置信區間,.XX是置信區間的上限。

3.2 使用R(或R studio)計算η^2的置信區間

要使用R計算置信區間,你需要先安裝R,並且安裝MBESS工具包(安裝R、Rstudio和MBESS所花費的全部時間可能也比啟動SPSS少)。

要計算固定因素方差分析(a fixed factor analysis of variance)中所得到效應量(r2,η^2或偏η^2)的置信區間,我們需要ci.pvaf函數:

ci.pvaf(F.value=5.72,df.2=198,N=200,conf.level=.90)

這個語句是用於給出F值,自由度,樣本量(在SPSS中不需要)和置信水平(.90而不是.95,見下文)。之後你可以看到如下輸出:

我們可以看到,結果和上述使用SPSS計算出的η2的區間下限和上限(.003和.076)是一致的。不過遺憾的是,MBESS不會給出偏η^2的結果,所以你需要再使用SPSS計算出它(或者你也可以使用Lakens 2013年在Frontiers的那篇文章中所提供的Excel表格進行計算)。

在一些組內或者被試內設計中,MBESS工具包會出現錯誤。舉例來說:

在組間設計(樣本量大於自由度)中這個結果是正確的,但是在組內設計(在許多檢驗中樣本量通常小於自由度)中這個結果是錯誤的。在Lankens的博客上,貼出了Ken Kelly(MBESS工具包的開發者)改寫的ci.pvaf函數。這個代碼會得到與前面提到Smithson的SPSS中代碼一樣的結果(至少小數點後4位)。

library(MBESS)Lims

4.Cohen"s d及其置信區間的計算

4.1使用JASP計算Cohen"s d:

Cohen"d 是另一個常用的效應指標。SPSS不提供Cohen"s d的輸出,更沒有其置信區間。最近新出的免費統計軟體JASP(下載地址:jasp-stats.org)中,可以很方便地計算Cohen"s d以及其置信區間。見下面的gif動圖。遺憾的是,目前JASP不提供η^2置信區間的計算。

GIF

4.2 使用SPSS計算均值比較(Cohen』s d)的置信區間

Karl Wuensch修改了Smithson的文件(2001)並創建了一個用於計算Cohen』sd的效應量的zip文件(文末百度雲鏈接中的CI-d-SPSS.zip),這種方法與計算η^2的置信區間的方法幾乎一樣(除了配對樣本t檢驗,進一步閱讀:這裡和這裡)。打開NoncT.sav文件,你會再次看到幾乎沒有數據的數據行,你只需要填入t值和自由度即可。注意(正如Wuensch在文件中解釋的一樣):如果你填入一個負的t值,SPSS就會出問題,所以在這種情況下需要填入正的t值,然後再調換置信區間的上下限的符號。

如果你的t檢驗的結果為t(198)=2.39,那麼你在第一列中填入2.39,在第二列中填入198。對於單樣本t檢驗來說這樣就足夠了,如果是雙樣本t檢驗,還需要再填入n1和n2的樣本大小(比如二者都是100個被試)。打開T-D-2sample.sps並運行它。在最後的三列中,你將會得到Cohen』sd(0.33)和95%的置信區間的上下限[0.06, 0.62]。

4.3 使用R計算Cohen"d

在MBESS中,你可以用如下語句來計算95%的置信區間:

ci.smd(ncp=2.39, n.1=100, n.2=100, conf.level=0.95)

ncp(非中心參數)聽起來像是個很複雜的概念,但它其實只是一個t值(在我們的例子中是2.39)。n.1和n.2是兩組被試的樣本量。之後你會得到如下輸出:

是的,這就是使用SPSS與R的全部步驟。如果在運行時遇到一些問題,MBESS工具包里的說明書和由Wuensch撰寫的教程應該可以幫助你解決。

5.使用ESCI計算置信區間

有些人更傾向於使用Cumming的ESCI軟體(鏈接:https://thenewstatistics.com/itns/esci/)。請注意,ESCI提供了一個可以計算均值比較的95%置信區間的選項,這個選項對於獨立樣本和非獨立樣本t檢驗都適用。然而,這個選項有點隱蔽——你需要把界面移到屏幕右邊,就可以看到一個box。不知道Cumming為什麼會把這麼重要的選項設置得如此隱藏,以致很多人發郵件進行詢問。在點擊box後,會在左邊出現一個新的界面來計算均值比較的95%置信區間(請看第二個截屏)。

6.總結

根據APA於2018年年初發表的期刊論文報告標準(Appelbaum et al., 2018,American Psychologist, 見我們之前的推送),對於推斷統計,最好報告置信區間。

從我們上面的介紹來看,置信區間的計算並不難,它可以告訴你所測量和感興趣的效應量變異是多少。置信區間、效應量和P值(這些都是基於統計檢驗和自由度來計算的)提供了不同但相關的信息。Daniel Lakens 推薦,應該儘可能多地報告與你研究問題相關的統計結果。

在文章後續評論中,Daniel提到在計算標準化的效應量時,有人向他建議Rasch模型可以作為一種更好的選擇,大家可以進行相關嘗試(鏈接:https://www.researchgate.net/publication/45185202_Effect_sizes_can_be_misleading_Is_it_time_to_change_the_way_we_measure_change?ev=prf_pub.);在此鏈接中提供了有關「解釋相關效應只能使用估算」這一觀點的反駁。

參考文獻

Appelbaum, M., Cooper, H., Kline, R. B., Mayo-Wilson, E., Nezu, A. M., & Rao, S. M. (2018). Journal article reporting standards for quantitative research in psychology: The APA Publications and Communications Board task force report. American Psychologist, 73(1), 3-25. doi:10.1037/amp0000191

Lakens, D. (2013). Calculating and reporting effect sizes to facilitate cumulative science: a practical primer for t-tests and ANOVAs. Frontiers in Psychology, 4, 863. doi:10.3389/fpsyg.2013.00863

Smithson, M. (2001). Correct confidence intervals for various regression effect sizes and parameters: The importance of noncentral distributions in computing intervals. Educational And Psychological Measurement, 61(4), 605-632. doi:10.1177/00131640121971392

Steiger, J. H. (2004). Beyond the F Test: Effect Size Confidence Intervals and Tests of Close Fit in the Analysis of Variance and Contrast Analysis. Psychological Methods, 9(2), 164-182. doi:10.1037/1082-989X.9.2.164

胡傳鵬, 王非, 過繼成思, 宋夢迪, 隋潔, 彭凱平. (2016). 心理學研究中的可重複性問題:從危機到契機. 心理科學進展, 24(9), 1504–1518 doi:10.3724/SP.J.1042.2016.01504

文中提到的相關工作:

SPSS工具及相關文檔:鏈接:https://pan.baidu.com/s/1jJfsXgi 密碼:swzr

JASP:https://jasp-stats.org/download/

翻譯:朱樺

校對:王鳳娟、陳聖棟、劉拓、陳紹慶、陳力天

排版:施賽男、劉拓

編輯:胡傳鵬

*** 往期文章 ***

……

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 OpenScience 的精彩文章:

TAG:OpenScience |