數據挖掘之三——Logistic回歸＆LMT

最新 04-16

線性關係與非線性關係

在數學上，線性函數關係是直線，而非線性函數關係是非直線，包括各種曲線、折線、不連續的線等；線性方程滿足疊加原理，非線性方程不滿足疊加原理；線性方程易於求出解析解，而非線性方程一般不能得出解析解，而求其最優解。

可處理線性關係——Logistic Regression

Logistic Regression 就是一個被logistic方程歸一化後的線性回歸，其可用於概率預測，也可用於分類。並不是所有的機器學習方法都可以做可能性概率預測（比如SVM就不行，它只能得到1或者-1）。可能性預測的好處是結果有可比性：比如我們得到不同廣告被點擊的可能性後，就可以展現點擊可能性最大的N個。這樣以來，哪怕得到的可能性都很高，或者可能性都很低，我們都能取最優的topN。當用於分類問題時，僅需要設定一個閾值即可，可能性高於閾值是一類，低於閾值是另一類。

僅能用於線性問題，只有在feature和target是線性關係時，才能用Logistic Regression（不像SVM那樣可以應對非線性問題）。這有兩點指導意義，一方面當預先知道模型非線性時，果斷不使用Logistic Regression；另一方面，在使用Logistic Regression時注意選擇和target呈線性關係的feature。

LR分類器（Logistic Regression Classifier），在分類情形下，LR分類器其實就是找出一組權值，形成計算樣本數據出現概率密度的回歸方程。

為了計算某個事件發生的可能性即概率，可以把跟這個事件相關的所有特徵加權求和。例如，要求今天下雨的可能性，可以把今天所有和下雨相關的特徵與其概率加權求和，例如梅雨季節權重為9（每天都很可能下雨），有颱風經過權重為6，等等，每一個因素都影響著「下雨的可能性」，即：

但是這個加權求和的結果是在(?∞,+∞) 範圍內的，為了能表示預測的概率，我們希望把輸出值限制在(0,1) 之間，而不是(?∞,+∞) 。所以，這時，邏輯函數就出場了。

它的函數值剛好就是在(0,1)之間。所以，我們通過邏輯函數，就可以計算出一個事件的概率了(0,1)之間。但是不要忘了，我們前面說要處理二分類問題，得到一個(0,1)之間的任意值並不能歸到兩個分類中的一個里去，所以還要把這個概率值「歸類」。其實這裡很簡單，我們可以在f(X)>0.5 的時候，把它歸到類別1中，f(X)≤0.5 的時候，把它歸到類別2中就可以了（概率值的「分水嶺」可以根據實際情況調整）。用數學公式來表達這段話的含義就是：