邏輯回歸是否靠譜，你懂得如何裁判嗎？

最新 10-14

※說人話的統計學※

「說人話的統計學」專欄的各位讀者大家好！今天，在進入新話題之前，我們先來回顧一下，上一集講了什麼。前面在《邏輯回歸的裊娜曲線，你是否會過目難忘？》中，我們舉了一個例子，藍精靈聰聰和樂樂競選，受教育高的群眾似乎更傾向於選聰聰。通過使用邏輯回歸模型進行極大似然估計，我們可以更定量地描述受教育程度（自變數）與支持聰聰的概率（因變數）之間的關係：

其中p（支持聰聰）代表支持聰聰的概率，自變數「教育程度」的回歸係數為0.74，運用「除4法則」可以方便的估算出教育程度每增加一個單位，p（支持聰聰）最多會增加0.185。

值得注意的是，與之前介紹過的線性模型不同，在邏輯回歸等非線性模型中，自變數改變1個單位時，因變數y=1的概率改變的速度並非均勻，會受到其預測值取值的影響。在邏輯回歸模型裡面，當 y=1的概率為0.5時，自變數對y=1的概率影響最大，當y=1的概率為0或1時，自變數對y=1的概率為影響最小。

用Wald檢驗判斷邏輯回歸係數是否顯著不等於0

僅僅是回歸係數大於0，還不足以說明教育程度與支持聰聰的概率有正相關關係，我們還要檢查這一關係是否有統計顯著性。換言之，教育程度的回歸係數與0是否存在顯著區別？

也就是說，我們要進行這樣一個假設檢驗：

原假設H：β1=0

備選假設 H1：β1≠0

其中，β1是教育程度的回歸係數。

大家也許記得，在我們討論線性回歸的統計推斷時，也遇到過類似的問題。由於抽取樣本過程中自然存在的隨機性，我們對回歸係數的估計也有一定的不確定性，這一不確定性通常就用標準差來表示。比如，在藍精靈投票的例子裡面，統計軟體會給出如下結果：

對於這個標準差，不少人容易有一種誤解，認為它描述的是回歸係數本身的分布。我們反覆強調過，在頻率派的世界觀里，回歸係數沒有隨機性，就是一個確定的數值——它的「真實值」β。但是這個真實值看不見摸不著，只能通過模型擬合的手段用測量到的數據估算出一個數值（上面表格的第一欄，估計值）。而由於樣本的隨機性，估計出的結果肯定和真實值β之間有誤差。也就是說，即便原假設β1=0為真，我們的數據也有可能讓我們對回歸係數估計出一個與0相去甚遠的數。而且這一誤差的分布會服從一定的規律，回歸係數的標準差（上面表格的第二欄）就是用來描述這個誤差的波動的。

回憶一下p值的定義，我們就是要找出，如果原假設是真的，我們得到當前的回歸係數的可能性有多大。在樣本量較大的情況下，我們用極大似然法估計出來的在其真實值β附近接近於正態分布，分布的標準差就是統計軟體給出的。在原假設為真的前提下，如果估計值與0的距離比標準差大得多，得到這樣的估計值的可能性就很小，也就是說回歸係數β=0的p值會很小。具體來說，用z統計量來計算p值， z檢驗量的定義是

如果z值大於1.96或者小於-1.96，就說明β不等於0就有統計顯著性（如果我們用p值等於0.05作為門檻的話），在上面的例子里，教育程度對應的回歸係數z值等於4.042，遠大於1.96，所以其對應的p值也遠小於0.05。從而，教育程度的回歸係數顯著不等於0，或者說，教育程度與選舉聰聰有顯著的相關性。

Wald檢驗有缺陷

Wald檢驗的思路雖然聽著很有道理，但是在一些特殊的情況下也會出bug，給出不靠譜的結論。一種典型的情形，就是當數據中y=0和1這兩種取值可以被自變數完美區分的時候。這是什麼意思呢？在上一集的例子裡面，教育程度雖然對支持聰聰的概率有影響，但是並不是絕對的。即使是教育程度相似的人，有一部分會選聰聰，也有一部分會選樂樂，只是隨著教育程度的升高，選聰聰的人的比例會提高（不妨回顧上集的插圖）。但是，有時候，我們會遇到比較極端的數據，以至於我們可以在自變數的取值範圍內的某處劃條界限，在這個界限兩邊的數據點的因變數y取值是涇渭分明的，就像下面的這個例子：

從上圖可以看出，教育程度顯然對支持聰聰的概率影響很大，因為凡是教育程度低的藍精靈全部選擇了不支持聰聰，而教育程度大的藍精靈都選擇支持聰聰，不存在相似教育程度的藍精靈一部分選擇聰聰而另外一部分沒選擇聰聰。我們用統計軟體找出邏輯回歸模型的回歸係數，並且得到支持聰聰概率的預測值（上圖中的藍色曲線）。上圖中，所有數據點都與模型的預測值一致，說明模型完全解釋了因變數的變化（至少在給定的數據集上），這不就是咱們夢寐以求的模型么？

讓我們看看回歸係數的估計值：

等等，這怎麼跟說好的不一樣呢？模型的擬合結果竟然顯示p值為1，說明教育程度對支持聰聰的概率沒有影響。這不是睜眼說瞎話么！

咱們進一步再看看數據會發現回歸係數的標準差數值非常大，這導致了Z值很小，回歸係數不顯著。如果深究其根源，在上圖的數據中，如果我們擬合的藍色曲線沿著x軸向左或向右挪一點點，它還是能夠完美地擬合數據，而且通過這樣平移得到的曲線依然是邏輯回歸曲線。這就說明符合數據的邏輯回歸模型其實有無數個，由於模型的無窮多可能性，對模型係數的估計就會充滿不確定性，導致標準誤差的數值會很大，Wald檢驗就失效了！

遇到這樣的情況，咱們總不能得出「結果不顯著，因為效果太強了」這樣的奇怪結論吧。這時就可以祭出備用武器「似然比檢驗」了。

「似然比檢驗」來救場

「似然比檢驗」的思路與Wald檢驗不同，它基於這樣一個思想：如果一個自變數的回歸係數從0變成一個非0的數，對模型的擬合準確度有顯著的提高，那麼就這個自變數對整個模型的貢獻就更能站得住腳了，也就是說，這個自變數的確與因變數之間有關係。

怎麼知道「模型的擬合準確度」有沒有顯著地提高呢？首先，我們得有把尺子，來測量「模型的擬合準確度」，而之前反覆出現的「似然」這個概念就是我們需要的尺子。我們用極大似然估計法找出讓模型擬合效果最好的參數，這時所得到的似然值就是「模型的擬合準確度」的合理度量。

尺子有了，我們還得有辦法知道特定自變數x對「模型的擬合準確度」的貢獻。

首先，我們強制讓自變數x的回歸係數取值為0，這也就等價於在模型中不包含這個自變數。在此前提下，我們仍然允許截距以及其它自變數回歸係數自由變化，這時我們可以找出在這個限制下的極大似然值L。

然後，我們把x的回歸係數必須為0這個限制給去掉，允許自變數x取任意的值，再一次在同樣的數據上擬合模型，找出此時的極大似然值L1。這樣一來，L1與L的差距可以看作是加入x後模型擬合能力的提高。

需要注意的是，不管我們加入什麼八竿子打不著的新變數，L1≥L都總是成立。我們在《評價線性模型，R平方是個好裁判嗎？》裡面講到，在線性回歸模型裡面加入一個自變數，哪怕這個自變數其實與因變數y沒有什麼關係，也能提高模型的擬合程度，這一點在邏輯回歸模型裡面也同樣成立。所以，只有當L1比L大到一定程度的時候，我們才能認為自變數x顯著地提高了邏輯回歸模型的擬合度。

「擬合優度」是「似然比檢驗」的靈魂

那麼當L1得比L大多數才行呢？統計學家們為了回答這個問題，發明了一個新的統計檢驗量G2（擬合優度，goodness-of-fit），G2定量地描述加入自變數x對模型擬合能力的提高。G2實際上就是L1與L的比值取對數後乘以2：

由於對數本身的運算性質，擬合優度G2也可以看做是有和沒有特定自變數時，最大似然值取對數後的差距再乘以2。

這裡我們用G2而不是G來表示擬合優度呢？一方面是為了強調等式右邊必然是正數，另一方面是G2在很多方面與 R2類似，為了保持一致性，便也加了平方在表達式裡面。

可能有讀者會納悶，我們為什麼不直接使用最大似然值之差L1-L來度量加入自變數x對模型擬合能力的提高呢？這是因為，當樣本數據量比較大時，在原假設（該自變數的回歸係數為0）成立的前提下，擬合優度G2符合特定的分布，這樣我們要計算出p值就比較方便了。

「似然比檢驗」實戰篇

通常統計軟體並不會直接給出L1或者L的值，而是會給出另外一個變數——「偏常「(deviance，通常用D表示)——的數值。這又是什麼呢？要解釋「偏常」的含義，我們得先介紹另外一個概念，這就是「飽和模型」(saturated model)。

大家已經知道，邏輯回歸模型的本質，就是研究因變數y取值為1（或0）的概率與自變數之間的關係。模型擬合完以後，給定自變數的取值，模型就會給出此時因變數y取值為1 的概率。正如上一集的例子中，我們可以說，根據擬合得到的模型，當教育程度為14年時，支持聰聰的概率是0.857，諸如此類。

如果一個模型能比較好地反映數據集體現的規律的話，這個預測應該是大體正確的。比如說，教育程度為14年左右的藍精靈選民，應該是選聰聰的多，選樂樂的少。但既然說是「大體正確」，具體到每個個體，我們的預測總不可能完全正確。對於教育程度大約為14年但是選了樂樂的選民，模型的預測就可以說是錯了。這聽起來似乎讓人不太滿意，但對於0/1取值這樣的二分類變數，能有大體正確的預測就已經非常不錯了。

雖然現實有些骨感，但它並不能妨礙我們對豐滿理想的追求是不？這個豐滿的理想是啥呢？很簡單，就是一個這樣的模型，它對於每個點的預測都是完全正確的。也就是說，對於y值取0的點，它給出的預測就是y取1的概率為0；對於y值取1的點，它的預測就是y取1的概率是1。而一個模型如果能做到這份上，那我們就把它稱為模型中的戰鬥機飽和模型了！

飽和模型只跟具體的數據集有關，跟我們當前在考慮什麼樣的模型、模型中包含什麼自變數沒有關係。對於同樣的一組數據，飽和模型對應的似然Lfull是個固定值。正因如此，飽和模型是一個很好的基準點，它是給定數據集上，模型擬合優度能達到的上限。

說完了飽和模型，我們再來回到「偏常」（嗯，我知道你已經把這事兒給忘了）。偏常其實就是「飽和模型「相對於當前模型的擬合優度。

其中便是飽和模型中能觀察到當前數據的概率。因此，「偏常」便是以飽和模型的擬合程度作為參照點，得到的當前模型的擬合優度，反映的是現實和理想的差距，所以是越小越好。

由於飽和模型對應的值是個常數，用同一組數據，包含或者去掉一個特定自變數x的偏常之差就是x的擬合優度。當我們包含x時，偏常記為D1，不包含x時，偏常記為D0。

繞了一大圈，原來不包含x的偏常減去包含x的偏常就是擬合優度，用來進行似然比檢驗的關鍵一步是這麼計算的呢！

在前面讓Wald檢驗一敗塗地的例子裡面，我們來試一試，似然比檢驗能不能得到正確的結果。根據統計軟體輸出的結果，D0=9.56， D1很小，近似於0。D1接近0很合理，因為在數據完全被模型擬合時，包含「教育程度」為自變數的模型近似於飽和模型，自然偏常就很小了。G2= D- D1=9.56，G2此時滿足自由度為1的卡方分布，利用統計軟體（當然，如果你比較古典的話，也可以查表）得知p值非常接近於0——我們終於通過似然比檢驗得到了合理的結果。

五年執醫三年模擬

精選每日一題

更多精選題可回顧歷史推送文末

題目來源：臨床執業醫師資格考試往屆真題

本期主播：閑閑閑兔

作者：張之昊

編輯：鵝不食草

第1章高屋建瓴看統計

第2章算術平均數與正態分布

第3章 t檢驗：兩組平均數的比較

第4章方差分析(ANOVA)：多組平均數的比較

第5章線性回歸：統計建模初步

（未完，更新中）

第6章廣義線性模型：統計建模進階

自檢

番外篇

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 協和八 的精彩文章:

※不該到來的「姨媽」
※麒聞醫事·協和八

TAG:協和八 |