手把手教你實現支持向量機演算法

最新 07-11

#小M說#【Major人工智慧「核心」技術群】可能是你手機里最優質的AI技術群之一（點擊閱讀詳情）

小M導讀

這篇文章討論了用於分類和回歸的SVM的實際實現。作者將使用iris dataset作為分類問題的示例，將隨機生成的數據作為回歸問題的示例。

【來源】https://sadanand-singh.github.io/posts/svmpython/#disqus_thread

【編譯】小M

準備SVM模型的數據

SVM的實現對訓練和測試（預測）都有嚴格的要求。第一個要求是所有的數據應該是數字的。因此，如果你有分類特徵，則需要使用變數轉換技術（如單編碼，標籤編碼等）將其轉換為數值。python中的SVM模型實現也不支持缺失值，因此你需要刪除含有缺失值的數據，或使用某種形式的數據輸入。sklearn.preprocessing.Imputer模塊在這方面可以提供很大的幫助。此外，由於SVM假設其使用數據處於標準範圍內，通常為0至1或-1至1等。（以便所有特徵變數同等處理），在訓練模型之前最好使用特徵「規範化」。

sklearn.preprocessing.StandardScaler模塊可以用於標準化。

一般而言，sklearn模型需要訓練的數據（X）是numpy的多維數組，（y）是numpy的一維數組。使用較新版本的 Pandas， Pandas的二維表格型數據結構和一維數組也可為sklearn模型提供X和Y。

sklearn.pipeline從多方面為處理數據準備提供了一套很好工具，它能夠以一致的方式訓練不同的模型。

SVM在分類問題上的應用

iris dataset 是一個簡單的數據集。它包含3類，每類50個實例，其中，每個類是指一種類型的iris（鳶尾屬）植物。每一類數據與其他兩類線性分離; 後者不能彼此線性分離。每個實例都有4個特徵：

1. 萼片長

2. 萼片寬

3. 花瓣長

4. 花瓣寬

一個典型的問題是：基於這4個特徵預測iris （鳶尾屬）植物的類別。為了使過程更加清晰可見，在這個例子中，我們將僅使用前兩個特徵（萼片長和萼片寬）。

1、建立

以下是針對此問題的SVM最簡單實現方法。在這個例子中，我們可以看到如何使用線性和徑向基函數（rbf）內核的SVM分類器進行實現。

2、調參

類似於任何機器學習演算法，我們需要選擇/調整這些模型的超參。需要調整的重要參數是：1）C（罰參數或誤差項），這是SVM的正則化參數；2）γ（（針對多項式/rbf/sigmoid核函數）。在上面的例子中，我們使用了一個默認值：

多級分類

SVM定義非常適合二進位分類。為了執行多分類，問題需要轉化為一組二進位分類問題。

有兩種方法來做到這一點：

一種是REST方法（OvR）：該策略涉及每個類別訓練一個單獨的分類器，該類所有樣本作為陽性樣本，所有其他樣本作為陰性。該策略要求基本分類器為其決策產生真實的置信度分數，而不僅僅是類標籤; 單獨的離散類標籤可能導致模糊，可能將單個樣本預測多個類。

一種是ONE方法（OvO）：在OvO策略中，一個訓練K（K-1）/ 2二進位分類器用於K的多類問題。每從原始訓練集的一對類中接收樣本，就必須學會區分這兩個類。在預測時，啟用投票方案：將所有K（K-1）/ 2個分類器應用於不可見的樣本，經組合分類器預測後獲得最高數量的「+1」預測的類勝出。像OvR一樣，OvO也具有一定模糊性，因為有些區域可能會獲得相同的投票數。

在svm.svc實現過程中，decision_function_shape參數可以提供二選一的選項。儘管由於歷史原因，默認情況下選擇OvO策略，但始終建議大家切換到OvR方式。

讓我們先了解一下C和γ參數對SVM模型會產生什麼樣的影響。正如下圖所展示的，我們發現γ值越高，曲線將更加精確地適應訓練數據集即泛化誤差並導致過擬合問題。C則用來平滑決策邊界和正確劃分訓練點。

我們將使用5次交叉驗證來執行網格搜索以計算最優超參。

這可以使用sklearn.model_selection.GridSearchCV類在scikit-learn中輕鬆實現。

輸出：

我們在上面的代碼中做了一些事情。讓我們分步來看。

首先，如果你注意輸入數據集，它將按順序列出三種不同類型的iris植物。為了讓模型忘記這樣一個順序，首先將數據集打亂更安全。這是使用shuffle（）方法實現的。我們還希望拿出一小部分數據集，以最終測試我們的演算法是否成功。這是使用train_test_split（）方法完成的。在這種特定的情況下，我們一直抽出約1 / 4的數據集作為測試集。

接下來看一看代碼的主要部分：調整SVM的超參數。這是使用GridSearchCV( )類（上述代碼塊中突出顯示的行）完成的。最後，我們還列印了不同參數集的精度分數。我們可以通過clf.best_params_屬性找到最好的一組參數。

分類評分

默認情況下，scikit-learn以精度來評估分類任務的分數。GridSearchCV（）提供了通過scoring參數替代評分指標的選項。一些常見的替代方案是準確度，召回率，不同的平均策略，如微觀，宏觀，加權等。

最後，我們可以在測試數據集上測試我們的模型，並使用classification_report( )方法評估各種分類方法的優劣。

輸出：