對數幾率回歸——Logistic Regression

最新 06-06

1 原理

1.1 引入

首先，在引入LR(Logistic Regression)模型之前，非常重要的一個概念是，該模型在設計之初是用來解決0/1二分類問題，雖然它的名字中有回歸二字，但只是在其線性部分隱含地做了一個回歸，最終目標還是以解決分類問題為主。

為了較好地掌握 logistic regression 模型，有必要先了解線性回歸模型和梯度下降法兩個部分的內容，可參考以下兩篇文章：

線性回歸 —— Liner Regression

梯度下降法 —— 經典的優化方法

先回想一下線性回歸，線性回歸模型幫助我們用最簡單的線性方程實現了對數據的擬合，然而，這隻能完成回歸任務，無法完成分類任務，那麼 logistics regression 就是在線性回歸的基礎上添磚加瓦，構建出了一種分類模型。

如果在線性模型 () 的基礎上做分類，比如二分類任務，即

，直覺上我們會怎麼做？最直觀的，可以將線性模型的輸出值再套上一個函數，最簡單的就是「單位階躍函數」(unit-step function)，如下圖中紅色線段所示。

也就是把看作為一個分割線，大於 z的判定為類別0，小於 z的判定為類別1。

但是，這樣的分段函數數學性質不太好，它既不連續也不可微。我們知道，通常在做優化任務時，目標函數最好是連續可微的。那麼如何改進呢？

這裡就用到了對數幾率函數 (形狀如圖中黑色曲線所示)：

單位階躍函數與對數幾率函數（來源於周志華《機器學習》）

它是一種「Sigmoid」函數，Sigmoid 函數這個名詞是表示形式S形的函數，對數幾率函數就是其中最重要的代表。這個函數相比前面的分段函數，具有非常好的數學性質，其主要優勢如下：

使用該函數做分類問題時，不僅可以預測出類別，還能夠得到近似概率預測。這點對很多需要利用概率輔助決策的任務很有用。

對數幾率函數是任意階可導函數，它有著很好的數學性質，很多數值優化演算法都可以直接用於求取最優解。

總的來說，模型的完全形式如下：

其實，LR 模型就是在擬合這條直線，使得這條直線儘可能地將原始數據中的兩個類別正確的劃分開。

對於任何機器學習問題，都需要先明確損失函數，LR模型也不例外，在遇到回歸問題時，通常我們會直接想到如下的損失函數形式 (平均誤差平方損失 MSE)：

但在 LR 模型要解決的二分類問題中，損失函數式什麼樣的呢？先給出這個損失函數的形式，可以看一看思考一下，然後再做解釋。

這個損失函數通常稱作為對數損失 (logloss)，這裡的對數底為自然對數 e，其中真實值 y是有 0/1 兩種情況，而推測值由於藉助對數幾率函數，其輸出是介於0~1之間連續概率值。仔細查看，不難發現，當真實值 y=0時，第一項為0，當真實值 y=1時，第二項為0，所以，這個損失函數其實在每次計算時永遠都只有一項在發揮作用，那這不就可以轉換為分段函數了嗎，分段的形式如下：

不難發現，當真實值 y為1時，輸出值越接近1，則 L越小，當真實值 y為 0 時，輸出值越接近於0，則 L越小 (可自己手畫一下