卡方檢驗和單因素logistic回歸可以相互替代嗎？

最新 08-23

上一篇文章提出一個問題：卡方檢驗和單因素logistic回歸是不是一回事？

要回答這個問題，其實看似簡單，背後卻蘊含了不少的統計學知識。本文僅表達一下個人看法，如有不同意見，歡迎指正。

先看一下卡方檢驗。其實我們平時所謂的卡方檢驗，絕大多數情況下，指的是pearson卡方。

我們經常用卡方檢驗來比較兩組率有無統計學差異，然而，如果我們仔細看一下pearson卡方的思想，它並不是像t檢驗一樣，通過兩組率的差值再除以標準誤這種方式來進行假設檢驗（這種是Z檢驗），而是利用擬合優度的思想。

在擬合優度的思想下，其實已經上升到另一個層次了，並不是簡單地比較兩組率的差異。如果仔細看看卡方檢驗的假設檢驗，一般都是說：吸煙與某病無關聯，服藥與療效無關，等等這種方式。其實，所謂的有無差異，跟所謂的有無關聯，從廣義上來講，是一回事。比如，男性和女性的發病有差異，實際上就是說，性別與疾病發生有關。服藥和不服藥的療效有差異，實際上是說，藥物與療效有關。

所以，pearson卡方也只是一種思路。也就是說，對於兩組率的數據（當然也可以是多組率等形式），其實有多種方式可以回答研究假設。

最直觀的就是Z檢驗，直接比較兩組率的差值，然後用標準誤進行校準，說明兩組率有無差異。

最常用的則是Pearson卡方，通過擬合優度思想，比較實際頻數和理論頻數的差異，來說明兩組率有無差異，或者說，組別與發生率有無關聯。

除了這兩種方法，其實還有其它方式來回答，比如似然比卡方。該檢驗的思路是先確定在無效假設H0為真的條件下，似然函數所能達到的最大值；再確定H0不一定為真的條件下，似然函數所能達到的最大值。

似然比卡方就是基於二者之比：

如果分母的值更大，說明更傾向於接受「不滿足H0」這一結論，此時LR值肯定會小於1。換句話說，如果LR值小於1，說明有很強的證據拒絕H0。

完整的似然比卡方統計量是對LR取對數，再乘以-2，即G2=-2logLR，採用對數變換的原因是為了產生一個近似χ2的抽樣分布。這樣的話，當LR值越小，似然比統計量G2就越大。因此，大的似然比卡方統計量意味著有更強的證據拒絕H0。

所以，我們一定要明白，這些方法其實都是實現同一目的的多種方式，所謂條條大路通羅馬，只要距離差不多，你選擇哪條路並沒有什麼太大差別。

如果想詳細了解Pearson卡方、似然比卡方、M-H卡方、趨勢檢驗等各種方法的思想與聯繫，可參考《白話統計》。

再說單因素logistic回歸和卡方。事實上，這裡說的卡方，還是指默認的Pearson卡方。Pearson卡方和單因素logistic回歸的結果並不完全等同，然而差別微乎其微。實際上，單因素logistic回歸的結果完全等同於似然比卡方。

所以其實從這一角度來看，單因素logistic回歸和卡方也可以說是一樣的，取決於是什麼卡方，與似然比卡方就是完全相同，與Pearson卡方是幾乎相同。

那從實用角度來看，單因素logistic回歸是說明自變數對因變數的影響，Pearson卡方其實從廣義上來講，也是說兩個變數的關聯，而且一般也是區分主次的（但也可以不區分）。

所以，從這一角度來看，它們也有一些細微差別，Pearson卡方在有些情形下，只是反映關聯，不區分自變數和因變數，而logistic回歸是一定區分自變數和因變數的。

但是，在已經有了明確的自變數和因變數的情況下，此時用Pearson卡方或者用單因素logistic回歸，我個人認為，是都可以的。儘管二者的P值略有差異，但只是不同實現同一目的的不同方式而已。

至於用哪種，我個人觀點是：很多情況下，用卡方即可。因為卡方一般那都同時顯示兩組例數和比例，這樣的話，可以同時把基線的一些基礎情況同時列表顯示，提供的信息更多一些。如果用單因素logistic回歸，則只能給出參數估計結果，讀者無法獲取每一類的例數等信息。當然這也視情況而定，不能一概而論。但不管怎樣，個人認為，用哪種方法，都不算錯。只是個人根據實際情況來決定而已。

覺得本公眾號對你有幫助的朋友，可以讚賞，也可以簡單點一下後面的廣告鏈接。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 小白學統計 的精彩文章:

TAG:小白學統計 |