機器學習（2）之過擬合與欠擬合

知識 06-20

微信公眾號

關鍵字全網搜索最新排名

【機器學習演算法】：排名第一

【機器學習】：排名第二

【Python】：排名第三

【演算法】：排名第四

過擬合與欠擬合

上一篇（機器學習（1）之入門概念），我們介紹了機器學習所解決的問題，以及哪些種類的機器學習方法。本文我們主要從模型容量的選擇出發，講解欠擬合和過擬合問題。機器學習的主要挑戰任務是我們的模型能夠在先前未觀測的新輸入上表現良好，而不是僅僅在訓練數據集上效果良好。這兒，將在先前未觀測輸入上的表現能力稱之為泛化（generalization）。

首先定義幾個關於誤差的概念，通常情況下，通過訓練數據集訓練模型後在訓練數據上進行的一些誤差計算稱之為訓練誤差（training error）,通常我們的目前是降低訓練誤差（為防止過擬合我們通常加一個正則化項，後面會提到）。上述這個問題其實就是一個優化問題，但是優化問題不同於機器學習問題，在進行機器學習建模時我們不僅希望我們的訓練誤差很小，同時我們的最終目的是使得測試誤差（test error）很小，也就是泛化誤差（generalization error）很小。通常，我們度量測試數據集在模型中的性能來評估模型的泛化誤差。例如，在線性回歸中我們通過最小化訓練誤差最小化來訓練模型

但是我們真正關注的是測試誤差

由於訓練數據集和測試數據集是獨立同分布產生於同一個數據生成過程的，這個假設使得我們可以尋找訓練誤差和測試誤差之間的關係。假設我們有概率分布p(x,y)，從中進行重複採樣生成訓練數據集和測試數據集。對於同一個參數W，訓練數據集和測試數據集的誤差期望是相等的，唯一的區別便是數據集的名稱不同而已。但是實際的機器學習應用中，我們不會提前確定固定的參數然後從中進行採樣的。以下是決定機器學習演算法效果的決定性因素：

降低訓練誤差

縮小訓練誤差與測試誤差之間的差距

其實上述的兩個因素真好對應於我們今天所說的欠擬合（underfitting）和過擬合（overfitting）。欠擬合發生在模型不怕能在訓練數據集上獲得足夠小的誤差。過擬合發生在訓練誤差和測試誤差之間的差距太大。

通過調整模型的容量，我們可以控制模型是否偏向於過擬合或者欠擬合。通俗而言，模型容量就是指其擬合各種函數的能力。容量低的模型不能或者很難擬合訓練數據集；容量很高可能會因為學習了一下干擾特徵而出現過擬合。

模型選擇

接下來通過多項式函數擬合問題為例說明這個問題（

引用：《統計學習方法》（P12）

）。

給定訓練數據集：

其中，xi世輸入x的觀測值，yi是相應的輸出y的觀測值，i=1,2,3,...,N。多項式函數擬合的任務是假設給定數據由M次多項式函數生成，選擇最有可能產生這些數據的M次多項式。如圖所示的10個點數據，用0---9次多項式進行擬合，圖中畫出了需要用多項式函數曲線擬合的數據。

M次多項式函數擬合問題的例子

設M次多項式為：

解決這一問題的思路可以是這樣的，首先確定模型的複雜度；然後在給定模型複雜度的情況下，按照經驗風險最小化的策略求解參數，經驗風險最小化具體如下

進一步轉化為：

對各個參數求導後為

最終求的多項式的係數。

上圖中我們給出了M=0,1,3,9時多項式的擬合效果。當M=0時，這就是一條曲線，數據擬合效果很差；當M=1時，多項式是一條直線，擬合效果也很差；當M=9時，多項式通過每個數據點，訓練誤差為零，從訓練數據的擬合效果而言，效果很好。但是因為訓練數據本身存在雜訊，這種擬合對於未知數據的預測能力往往不是最好的，該現象也就是之前提到的過擬合現象，而M=0,1時存在欠擬合現象。而當M=3時，多項式曲線對訓練數據擬和效果足夠好，模型也比較簡單是一個不錯的選擇。