當前位置:
首頁 > 知識 > 機器學習(2)之過擬合與欠擬合

機器學習(2)之過擬合與欠擬合


微信公眾號


關鍵字全網搜索最新排名


【機器學習演算法】:排名第一


【機器學習】:排名第二


【Python】:排名第三


【演算法】:排名第四


過擬合與欠擬合


上一篇(機器學習(1)之入門概念),我們介紹了機器學習所解決的問題,以及哪些種類的機器學習方法。本文我們主要從模型容量的選擇出發,講解欠擬合和過擬合問題。機器學習的主要挑戰任務是我們的模型能夠在先前未觀測的新輸入上表現良好,而不是僅僅在訓練數據集上效果良好。這兒,將在先前未觀測輸入上的表現能力稱之為泛化(generalization)。




首先定義幾個關於誤差的概念,通常情況下,通過訓練數據集訓練模型後在訓練數據上進行的一些誤差計算稱之為訓練誤差(training error),通常我們的目前是降低訓練誤差(為防止過擬合我們通常加一個正則化項,後面會提到)。上述這個問題其實就是一個優化問題,但是優化問題不同於機器學習問題,在進行機器學習建模時我們不僅希望我們的訓練誤差很小,同時我們的最終目的是使得測試誤差(test error)很小,也就是泛化誤差(generalization error)很小。通常,我們度量測試數據集在模型中的性能來評估模型的泛化誤差。例如,在線性回歸中我們通過最小化訓練誤差最小化來訓練模型


但是我們真正關注的是測試誤差


由於訓練數據集和測試數據集是獨立同分布產生於同一個數據生成過程的,這個假設使得我們可以尋找訓練誤差和測試誤差之間的關係。假設我們有概率分布p(x,y),從中進行重複採樣生成訓練數據集和測試數據集。對於同一個參數W,訓練數據集和測試數據集的誤差期望是相等的,唯一的區別便是數據集的名稱不同而已。但是實際的機器學習應用中,我們不會提前確定固定的參數然後從中進行採樣的。以下是決定機器學習演算法效果的決定性因素:




  1. 降低訓練誤差



  2. 縮小訓練誤差與測試誤差之間的差距




其實上述的兩個因素真好對應於我們今天所說的欠擬合(underfitting)和過擬合(overfitting)。欠擬合發生在模型不怕能在訓練數據集上獲得足夠小的誤差。過擬合發生在訓練誤差和測試誤差之間的差距太大。




通過調整模型的容量,我們可以控制模型是否偏向於過擬合或者欠擬合。通俗而言,模型容量就是指其擬合各種函數的能力。容量低的模型不能或者很難擬合訓練數據集;容量很高可能會因為學習了一下干擾特徵而出現過擬合。


模型選擇


接下來通過多項式函數擬合問題為例說明這個問題(

引用:《統計學習方法》(P12)

)。




給定訓練數據集:


其中,xi世輸入x的觀測值,yi是相應的輸出y的觀測值,i=1,2,3,...,N。多項式函數擬合的任務是假設給定數據由M次多項式函數生成,選擇最有可能產生這些數據的M次多項式。如圖所示的10個點數據,用0---9次多項式進行擬合,圖中畫出了需要用多項式函數曲線擬合的數據。


M次多項式函數擬合問題的例子

設M次多項式為:


解決這一問題的思路可以是這樣的,首先確定模型的複雜度;然後在給定模型複雜度的情況下,按照經驗風險最小化的策略求解參數,經驗風險最小化具體如下


進一步轉化為:


對各個參數求導後為


最終求的多項式的係數。




上圖中我們給出了M=0,1,3,9時多項式的擬合效果。當M=0時,這就是一條曲線,數據擬合效果很差;當M=1時,多項式是一條直線,擬合效果也很差;當M=9時,多項式通過每個數據點,訓練誤差為零,從訓練數據的擬合效果而言,效果很好。但是因為訓練數據本身存在雜訊,這種擬合對於未知數據的預測能力往往不是最好的,該現象也就是之前提到的過擬合現象,而M=0,1時存在欠擬合現象。而當M=3時,多項式曲線對訓練數據擬和效果足夠好,模型也比較簡單是一個不錯的選擇。


訓練誤差和測試誤差與模型複雜度的關係

訓練誤差和測試誤差曲線趨勢表現的非常不一致。在圖的左側,訓練誤差和泛化誤差都很高,處於欠擬合期;當我們增加模型容量也就是增加模型複雜度時,訓練誤差減小,但是訓練誤差和泛化誤差之間的差距變大,最終這個間距的大小超過了訓練誤差的下降,從而進入了過擬合期。




合理的選擇模型的複雜度和模型容量,通常採用正則化和交叉驗證。




參考資料:




  1. 統計學習方法



  2. 斯坦福大學machine learning



  3. 機器學習


投稿、商業合作


請發郵件到:357062955@qq.com


喜歡,別忘關注~


幫助你在AI領域更好的發展,期待與你相遇!



喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 機器學習 的精彩文章:

機器學習(1)之入門概念
入門必讀的機器學習名詞解釋,你都懂了嗎?
Elasticsearch 5.4 beta 新功能:機器學習官方支持來了!
搞日租房的Airbnb,如何用機器學習對接上百萬的房東和租客?
機器學習進入「時尚圈」,利用社交媒體揭秘服飾變化規律

TAG:機器學習 |

您可能感興趣

機器學習(37)之矩陣分解在協同過濾推薦中的應用
NYU陳溪博士:運籌學與機器學習的融合交叉
蘋果和IB將通過新的機器學習集成展開合作
14款機器學習加權平均模型融合的火花
蘋果整合了機器學習和Siri團隊
谷歌機器學習43條規則:機器學習工程的最佳實踐經驗
谷歌機器學習43條規則:機器學習工程的最佳實踐經驗
機器學習:風險管理和合規性的革命?
機器學習(36)之協同過濾典型演算法概述【精華】
人工智慧之機器學習篇——並行機器學習
小i機器人黃遷:AI產業落地要將綜合性技術和實際應用結合
機器學習和數據科學最常用到的TOP10演算法
機器學習之監督和無監督學習
【機器學習乾貨放送】5GB的機器學習資料等你領取
南京大學-帝國理工學院機器學習聯合研究中心揭牌成立
特徵選取演算法-機器學習與數據分析常用術語(二)
人工智慧、機器學習和深度學習
10本免費的機器學習和數據科學書籍
學習筆記:人工智慧基礎-機器學習(一)
國際事件和機器學習