當前位置:
首頁 > 最新 > 卡方檢驗和單因素logistic回歸可以相互替代嗎?

卡方檢驗和單因素logistic回歸可以相互替代嗎?

上一篇文章提出一個問題:卡方檢驗和單因素logistic回歸是不是一回事?

要回答這個問題,其實看似簡單,背後卻蘊含了不少的統計學知識。本文僅表達一下個人看法,如有不同意見,歡迎指正。

先看一下卡方檢驗。其實我們平時所謂的卡方檢驗,絕大多數情況下,指的是pearson卡方。

我們經常用卡方檢驗來比較兩組率有無統計學差異,然而,如果我們仔細看一下pearson卡方的思想,它並不是像t檢驗一樣,通過兩組率的差值再除以標準誤這種方式來進行假設檢驗(這種是Z檢驗),而是利用擬合優度的思想。

在擬合優度的思想下,其實已經上升到另一個層次了,並不是簡單地比較兩組率的差異。如果仔細看看卡方檢驗的假設檢驗,一般都是說:吸煙與某病無關聯,服藥與療效無關,等等這種方式。其實,所謂的有無差異,跟所謂的有無關聯,從廣義上來講,是一回事。比如,男性和女性的發病有差異,實際上就是說,性別與疾病發生有關。服藥和不服藥的療效有差異,實際上是說,藥物與療效有關。

所以,pearson卡方也只是一種思路。也就是說,對於兩組率的數據(當然也可以是多組率等形式),其實有多種方式可以回答研究假設。

最直觀的就是Z檢驗,直接比較兩組率的差值,然後用標準誤進行校準,說明兩組率有無差異。

最常用的則是Pearson卡方,通過擬合優度思想,比較實際頻數和理論頻數的差異,來說明兩組率有無差異,或者說,組別與發生率有無關聯。

除了這兩種方法,其實還有其它方式來回答,比如似然比卡方。該檢驗的思路是先確定在無效假設H0為真的條件下,似然函數所能達到的最大值;再確定H0不一定為真的條件下,似然函數所能達到的最大值。

似然比卡方就是基於二者之比:

如果分母的值更大,說明更傾向於接受「不滿足H0」這一結論,此時LR值肯定會小於1。換句話說,如果LR值小於1,說明有很強的證據拒絕H0。

完整的似然比卡方統計量是對LR取對數,再乘以-2,即G2=-2logLR,採用對數變換的原因是為了產生一個近似χ2的抽樣分布。這樣的話,當LR值越小,似然比統計量G2就越大。因此,大的似然比卡方統計量意味著有更強的證據拒絕H0。

所以,我們一定要明白,這些方法其實都是實現同一目的的多種方式,所謂條條大路通羅馬,只要距離差不多,你選擇哪條路並沒有什麼太大差別。

如果想詳細了解Pearson卡方、似然比卡方、M-H卡方、趨勢檢驗等各種方法的思想與聯繫,可參考《白話統計》。

再說單因素logistic回歸和卡方。事實上,這裡說的卡方,還是指默認的Pearson卡方。Pearson卡方和單因素logistic回歸的結果並不完全等同,然而差別微乎其微。實際上,單因素logistic回歸的結果完全等同於似然比卡方。

所以其實從這一角度來看,單因素logistic回歸和卡方也可以說是一樣的,取決於是什麼卡方,與似然比卡方就是完全相同,與Pearson卡方是幾乎相同。

那從實用角度來看,單因素logistic回歸是說明自變數對因變數的影響,Pearson卡方其實從廣義上來講,也是說兩個變數的關聯,而且一般也是區分主次的(但也可以不區分)。

所以,從這一角度來看,它們也有一些細微差別,Pearson卡方在有些情形下,只是反映關聯,不區分自變數和因變數,而logistic回歸是一定區分自變數和因變數的。

但是,在已經有了明確的自變數和因變數的情況下,此時用Pearson卡方或者用單因素logistic回歸,我個人認為,是都可以的。儘管二者的P值略有差異,但只是不同實現同一目的的不同方式而已。

至於用哪種,我個人觀點是:很多情況下,用卡方即可。因為卡方一般那都同時顯示兩組例數和比例,這樣的話,可以同時把基線的一些基礎情況同時列表顯示,提供的信息更多一些。如果用單因素logistic回歸,則只能給出參數估計結果,讀者無法獲取每一類的例數等信息。當然這也視情況而定,不能一概而論。但不管怎樣,個人認為,用哪種方法,都不算錯。只是個人根據實際情況來決定而已。

覺得本公眾號對你有幫助的朋友,可以讚賞,也可以簡單點一下後面的廣告鏈接。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 小白學統計 的精彩文章:

TAG:小白學統計 |