使用SPSS、R和JASP計算效應量的置信區間

最新 03-12

本文以Daniel Lakens的博客為基礎，在翻譯的同時進行相關刪減和補充，旨在講解常見效應量的置信區間的獲得方法，但並未對其原理進行詳細介紹。若想進一步了解效應量這一概念，請配合文末的參考文獻一起閱讀,使用效果更佳^_^

博客地址：http://daniellakens.blogspot.de/2014/06/calculating-confidence-intervals-for.html

1. 什麼是效應量(effect size)

效應量是研究者所感興趣效應的量化指標，常見的效應量指標如下表所示（引自胡傳鵬等人, 2016, ）：

在心理學研究中，最常用的效應量有兩種：一種是表示相關性的效應量（correlational），常見的指標有r（r^2）和R（R^2），其中η^2也是r「家族」中的一個；另一種是均值差異（mean difference），常見的指標如本文重點介紹的cohen"sd等。

Cohen"sd主要用於t-test，表明兩個均數之間的標準差異；而η^2（偏η^2）主要用於ANOVA，表明與變數X的水平變化有關的變數Y的變化比率。對效應量的詳細解釋可以參見Lakens(2013)

2. 什麼是置信區間？

（以下引自台灣慈濟大學陳紹慶老師，詳見confidence interval，博客鏈接：http://scchen.com/en/）

任何統計檢定得到的統計值與效果量（effect size，大陸教材中翻譯為效應量），都是一種點估計（point estimation）。信賴區間（confidence intervals，CIs，大陸教材中翻譯為置信區間）是點估計加上抽樣誤差範圍的上下邊界，邊界是平均值加上及減去臨界統計數（大陸課本翻譯為臨界值）與估計標準誤的乘積，臨界統計數是我們在分析前宣告的p值，所對應的統計數。

3.η^2置信區間的計算

3.1 使用SPSS計算η^2的置信區間

首先，從Karl L Wuensch的網站上下載CI-R2-SPSS.zip（文末百度雲鏈接中的CI-R2-SPSS.zip，網址：http://core.ecu.edu/psyc/wuenschk/StatHelp/StatHelp.htm）。這個程序來自於M. J. Smithson，但Smithson的網站似乎已經無法訪問了。感謝Karl L Wuensch，他在個人網站提供了非常有用的資源，包括該程序以及詳細的SPSS操作指南。下載壓縮包解壓後包括如下文件：NoncF3.SPS; NoncF.sav; F2R2.SPS和說明文件CI-R2-SPSS.docx。

首先，打開NoncF.sav文件（此處的數據為非中心F分布，詳細請看OSC blog，http://osc.centerforopenscience.org/2014/03/06/confidence%20intervals/），你會看到如下SPSS窗口，其中只有conf這一列上出現了.95，其他行都是空的。接下來，只需要在SPSS中填入相應的數字，運行腳本NonCF3.SPS。

假設你的η^2結果如下：F(1,198)=5.72。你需要報告這個結果的偏η^2和置信區間。在第一列中輸入F值（fval）5.72，在第二(df1)和第三列(df2)分別輸入自由度（第二列填1，第三列填198），再把conf這一列的.95改成.90（原因見下文），最後打開NoncF3.sps，運行腳本，這樣你就在SPSS文件中剩餘的列中得到你的結果（見下圖）

最後三列數據是我們感興趣的：r2即r2或η^2=.028，其置信區間的下限值（lr2, 0.0026）和上限值（ur2,0.0756），這就得到了90%的置信區間為[.003; .076]。

就這麼簡單。

為什麼要報告η^2檢驗的90%而不是95%的置信區間

正如前文所提到的，我們在計算置信區間時，把0.95修改成了0.9。關於這個問題Karl Wuensch已經其網站的文檔中使用例子進行了清楚的解釋（文末百度雲文件中的CI-Eta2-Alpha.doc）。如果你不想閱讀這個文件，大致的意思是這樣的：均值之間的差異可以是正值也可以是負值，但是r^2或η^2是平方值，只有正值。這是因為F檢驗總是單側檢驗（所以當你得到F雙側檢驗的p=.08時，不要報告為單側p=.04）。如果你計算95%的置信區間，你可能會得到包含0的置信區間，但此時p值可能小於.05。這樣一來，置信區間的結果與p值就存在顯著差異。Steiger（2004）的文章解決了這個問題（鏈接：http://www.statpower.net/Steiger%20Biblio/Steiger04.pdf）。他認為，均值比較的95%置信區間和η^2的90%置信區間得到的檢驗效力是一樣的，而且η^2檢驗的值不可能小於0，所以與0不存在顯著差異的置信區間（通常情況下不包含0）的下限至少要從0開始。你報告的結果應該是[.00, .XX]這樣的90%置信區間，.XX是置信區間的上限。

3.2 使用R（或R studio）計算η^2的置信區間

要使用R計算置信區間，你需要先安裝R，並且安裝MBESS工具包（安裝R、Rstudio和MBESS所花費的全部時間可能也比啟動SPSS少）。

要計算固定因素方差分析（a fixed factor analysis of variance）中所得到效應量（r2，η^2或偏η^2）的置信區間，我們需要ci.pvaf函數：

ci.pvaf(F.value=5.72,df.2=198,N=200,conf.level=.90)

這個語句是用於給出F值，自由度，樣本量（在SPSS中不需要）和置信水平（.90而不是.95，見下文）。之後你可以看到如下輸出：

我們可以看到，結果和上述使用SPSS計算出的η2的區間下限和上限（.003和.076）是一致的。不過遺憾的是，MBESS不會給出偏η^2的結果，所以你需要再使用SPSS計算出它（或者你也可以使用Lakens 2013年在Frontiers的那篇文章中所提供的Excel表格進行計算）。

在一些組內或者被試內設計中，MBESS工具包會出現錯誤。舉例來說：

在組間設計（樣本量大於自由度）中這個結果是正確的，但是在組內設計（在許多檢驗中樣本量通常小於自由度）中這個結果是錯誤的。在Lankens的博客上，貼出了Ken Kelly（MBESS工具包的開發者）改寫的ci.pvaf函數。這個代碼會得到與前面提到Smithson的SPSS中代碼一樣的結果（至少小數點後4位）。

library(MBESS)Lims

4.Cohen"s d及其置信區間的計算

4.1使用JASP計算Cohen"s d:

Cohen"d 是另一個常用的效應指標。SPSS不提供Cohen"s d的輸出，更沒有其置信區間。最近新出的免費統計軟體JASP（下載地址：jasp-stats.org）中，可以很方便地計算Cohen"s d以及其置信區間。見下面的gif動圖。遺憾的是，目前JASP不提供η^2置信區間的計算。

GIF

4.2 使用SPSS計算均值比較（Cohen』s d）的置信區間

Karl Wuensch修改了Smithson的文件（2001）並創建了一個用於計算Cohen』sd的效應量的zip文件（文末百度雲鏈接中的CI-d-SPSS.zip），這種方法與計算η^2的置信區間的方法幾乎一樣（除了配對樣本t檢驗，進一步閱讀：這裡和這裡）。打開NoncT.sav文件，你會再次看到幾乎沒有數據的數據行，你只需要填入t值和自由度即可。注意（正如Wuensch在文件中解釋的一樣）：如果你填入一個負的t值，SPSS就會出問題，所以在這種情況下需要填入正的t值，然後再調換置信區間的上下限的符號。

如果你的t檢驗的結果為t(198)=2.39，那麼你在第一列中填入2.39，在第二列中填入198。對於單樣本t檢驗來說這樣就足夠了，如果是雙樣本t檢驗，還需要再填入n1和n2的樣本大小（比如二者都是100個被試）。打開T-D-2sample.sps並運行它。在最後的三列中，你將會得到Cohen』sd（0.33）和95%的置信區間的上下限[0.06, 0.62]。

4.3 使用R計算Cohen"d

在MBESS中，你可以用如下語句來計算95%的置信區間：

ci.smd(ncp=2.39, n.1=100, n.2=100, conf.level=0.95)

ncp（非中心參數）聽起來像是個很複雜的概念，但它其實只是一個t值（在我們的例子中是2.39）。n.1和n.2是兩組被試的樣本量。之後你會得到如下輸出：

是的，這就是使用SPSS與R的全部步驟。如果在運行時遇到一些問題，MBESS工具包里的說明書和由Wuensch撰寫的教程應該可以幫助你解決。

5.使用ESCI計算置信區間

有些人更傾向於使用Cumming的ESCI軟體（鏈接：https://thenewstatistics.com/itns/esci/）。請注意，ESCI提供了一個可以計算均值比較的95%置信區間的選項，這個選項對於獨立樣本和非獨立樣本t檢驗都適用。然而，這個選項有點隱蔽——你需要把界面移到屏幕右邊，就可以看到一個box。不知道Cumming為什麼會把這麼重要的選項設置得如此隱藏，以致很多人發郵件進行詢問。在點擊box後，會在左邊出現一個新的界面來計算均值比較的95%置信區間（請看第二個截屏）。

6.總結

根據APA於2018年年初發表的期刊論文報告標準（Appelbaum et al., 2018,American Psychologist, 見我們之前的推送），對於推斷統計，最好報告置信區間。

從我們上面的介紹來看，置信區間的計算並不難，它可以告訴你所測量和感興趣的效應量變異是多少。置信區間、效應量和P值（這些都是基於統計檢驗和自由度來計算的）提供了不同但相關的信息。Daniel Lakens 推薦，應該儘可能多地報告與你研究問題相關的統計結果。

在文章後續評論中，Daniel提到在計算標準化的效應量時，有人向他建議Rasch模型可以作為一種更好的選擇，大家可以進行相關嘗試（鏈接：https://www.researchgate.net/publication/45185202_Effect_sizes_can_be_misleading_Is_it_time_to_change_the_way_we_measure_change?ev=prf_pub.）；在此鏈接中提供了有關「解釋相關效應只能使用估算」這一觀點的反駁。

參考文獻：

Appelbaum, M., Cooper, H., Kline, R. B., Mayo-Wilson, E., Nezu, A. M., & Rao, S. M. (2018). Journal article reporting standards for quantitative research in psychology: The APA Publications and Communications Board task force report. American Psychologist, 73(1), 3-25. doi:10.1037/amp0000191

Lakens, D. (2013). Calculating and reporting effect sizes to facilitate cumulative science: a practical primer for t-tests and ANOVAs. Frontiers in Psychology, 4, 863. doi:10.3389/fpsyg.2013.00863

Smithson, M. (2001). Correct confidence intervals for various regression effect sizes and parameters: The importance of noncentral distributions in computing intervals. Educational And Psychological Measurement, 61(4), 605-632. doi:10.1177/00131640121971392

Steiger, J. H. (2004). Beyond the F Test: Effect Size Confidence Intervals and Tests of Close Fit in the Analysis of Variance and Contrast Analysis. Psychological Methods, 9(2), 164-182. doi:10.1037/1082-989X.9.2.164

胡傳鵬, 王非, 過繼成思, 宋夢迪, 隋潔, 彭凱平. (2016). 心理學研究中的可重複性問題：從危機到契機. 心理科學進展, 24(9), 1504–1518 doi:10.3724/SP.J.1042.2016.01504

文中提到的相關工作：

SPSS工具及相關文檔：鏈接：https://pan.baidu.com/s/1jJfsXgi 密碼：swzr

JASP：https://jasp-stats.org/download/

翻譯：朱樺

校對：王鳳娟、陳聖棟、劉拓、陳紹慶、陳力天

排版：施賽男、劉拓

編輯：胡傳鵬

*** 往期文章 ***

……

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！