當前位置:
首頁 > 最新 > 深度學習(七)之深度學習中的正則化

深度學習(七)之深度學習中的正則化

機器學習中的一個核心問題是設計不僅在訓練數據上表現好,並且能在新輸入上泛化好的演算法。在機器學習中許多策略顯式地被設計為減少測試誤差(可能會增大訓練誤差為代價)。這些策略被統稱為正則化

現在我們回顧幾種策略,以創建這些正則化的大型深度模型。

7.1 參數範數懲罰

線性模型,如線性回歸和邏輯回歸可以使用簡單、直接、有效的正則化策略。

許多正則化方法通過對目標函數J添加一個參數範數懲罰Ω(θ),限制模型(如神經網路、線性回歸或邏輯回歸)的學習能力。我們將正則化後的目標函數記為:

其中α∈[0,∞)是權衡範數懲罰項Ω和標準目標函數J(X;θ)相對貢獻的超參數。將α設為0表示滿意正則化。α越大,對應正則化懲罰越大。

在神經網路中我們通過只對每一層仿射變化的權重做懲罰而不對偏置做正則懲罰。另外,正則化偏置參數可能會導致明顯的欠擬合。因此,我們使用向量w表示所有應受懲罰影響的權重,而向量θ表示所有參數(包括w和無需正則化的參數)。

7.1.1 L2參數正則化

權重衰減的L2參數範數懲罰。這個正則化策略通過向目標函數添加一個正則項,是權重更加接近原點。

通過研究正則化化後目標函數的梯度。為了簡單起見,我們假定權重沒有偏置函數,因此θ就是w。這樣一個模型局域一些總的目標函數:

與之對應的梯度為:

L2正則化能讓學習演算法「感知」到具有較高方差的輸入x,因此與輸出目標的協方差較小(相對增加方差)的特徵的權重將會收縮。

7.1.2 L1參數正則化

L2權重衰減是最常見的形式,我們還可以使用其他的方法限制模型參數的規模。比如我們還可以使用L1正則化。形式地,對模型參數w的L1正則化被定義為:

即各個參數的絕對值之和。與L2權重衰減類似,我們可以拖縮放懲罰項Ω的正超參數α來控制L1權重衰減的強度。因此,正則化的目標函數:

對應的梯度(實際上是次梯度):

其中sign(w)只是簡單地去w各個元素的正負號。

相比L2正則化,L1正則化會產生更稀疏的解。此處稀疏性指的是最優值中的一些參數0。由L1正則化導出的稀疏性質已經被廣泛地用於特徵選擇機制。特徵選擇選擇從可用的特徵子集選擇出有意義的特徵,化簡機器學習問題。

7.2 作為約束的範數懲罰

通過參數範數正則化的代價函數:

如果我們想約束Ω(θ)小於某個常數k,我們可以構建廣義Lagrange函數:

這個約束問題的解有下式給出:

使用顯式約束和重投影而不是使用懲罰強加約束的原因是懲罰可能會導致目標函數非凸而是演算法陷入局部極小。當訓練神經網路時,這通常表現為訓練帶有幾個「死亡單元」的神經網路。這些單元不會對網路學到的函數有太大影響,因為進入或離開它們的權重都非常小。

最後,因為重投影的顯式約束還對優化過程增加了一定的穩定性,所以這是另一個好處。當使用較高的學習率是,很可能進入正反饋,即大的權重誘導大梯度,然後使得權重獲得較大更新。

7.3 正則化和欠約束問題

機器學習中許多線性模型,包括線性回歸和PCA,都依賴於求逆矩陣。只要是奇異的,這些方法就會失效。當數據生成分布在一些方向上確實沒有差異,或因為例子較少而在一些方向上沒有觀察到方差是,這個矩陣就是奇異的。在這種情況下,正則化的許多形式對應求逆。這個正則化矩陣可以保證是可逆的。

大多數形式的正則化能夠保證應用於欠定問題的迭代方法收斂。例如,當似然的斜率等於權重衰減的係數時,權重衰減將阻止梯度下降繼續增加權重的大小。

7.4 數據集增強

讓機器學習模型泛化得更好的最好辦法是使用更多的數據進行訓練。當然,在實踐中,我們擁有的數據量是很有限的。解決這個問題的一種方法時創建假數據並添加到訓練集中。

數據集增強對一個具體的分類問題來說是特別有效的方法:對象識別。圖像是高維的並包括各種巨大的變化因素,其中有許多可以輕易地模擬。即使模型已使用卷積和池化技術對部分平移保持不變,沿訓練圖像每個方向平移幾個像素的操作通常可以大大改善泛化。許多其他操作如旋轉或縮放也被證明非常有效的。

我們必須要小心,不能使用會改變類別的轉換。例如,光學字元識別任務需要認識到「b」和「d」,以及「6」和「9」的區別,所以對這些任務來說,水平翻轉和旋轉180度並不是合適的數據即增強方式。

數據集增強對語音識別任務也是有效的。在神經網路的輸入層注入雜訊也可以被看作是數據增強的一種方式。

在比較機器學習基準測試的結果時,考慮其採取的數據集增強是很重要的。通常情況下,人工設計的數據集增強方案可以大大減少機器學習技術的泛化誤差。

7.5 雜訊魯棒性

前面7.4已經提過將雜訊作用於輸入,作為數據集增強策略。對於某些模型而言,向輸入添加方差極小的雜訊等價於對權重施加範數懲罰。在一般情況下,雜訊注入遠比簡單地收縮參數強大,特別是雜訊被添加到隱藏單元時會更加強大。

另一種正則化模型的雜訊使用方式是將其加到權重。這項技術主要用於循環神經網路。這可以被解釋為關於權重的貝葉斯推斷的隨時實現。貝葉斯學習過程將權重視為不確定的,並且可以通過概率分布表示這種不確定性。向權重添加雜訊是反映這種不確定性的一種實用的隨機方法。

7.5.1 向輸出目標註入雜訊

大多數數據集的y標籤都有一定錯誤。錯誤的y不利於最大化logp(yx)。避免這種情況的一種方法時顯式地對標籤上的雜訊進行建模。

標籤平滑通過把確切分類目標從0和1替換成和1-ε,正則化具有k個輸出的softmax函數的模型。標準交叉熵損失可以用在這些非確切目標的輸出上。標籤平滑的優勢是能夠防止模型追求確切概率而不影響模型學習正確分類。這種策略在現代神經網路繼續保持顯著特色。

7.6 半監督學習

在半監督學習的框架下,P(x)產生的未標記樣本和P(x,y)中的標記樣本都用於估計P(yx)或者根據x預測y。

在深度學習的背景下,半監督學習通常指的是學習一個表示h=f(x)。學習表示的目的是使用相同類中的樣本有類似的表示。無監督學習可以為如何在表示空間聚集樣本提供有用線索。在輸入空間緊密聚集的樣本應該被映射到類似的表示。在許多情況下,新空間上的線性分類器可以達到較好的泛化。這種方法的一個經典變種是使用主成分分析作為分類前的預處理步驟。

7.7 多任務學習

多任務學習是通過合併幾個任務中樣例(可以視為對參數施加的軟約束)來提高泛化的一種方式。額外的訓練一同樣的方式將模型的參數推向泛化更好的方向,當模型的一部分在任務之間共享時,模型的這部分更多地被約束為良好的值,往往能更好地泛化。

從深度學習的觀點看,底層的先驗知識如下:能解釋數據變化(在與之關聯的不同任務中觀察到)的因素中,某些因素是跨兩個或更多任務共享的。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 公眾號 的精彩文章:

看完這篇文章,我不再抱怨生活
中國科技公司最強外腦Michael I.Jordan:解析人工智慧發展的機遇與挑戰
雙料王,皇家馬德里腳踢萊萬特,巴塞羅那頭頂西班牙人
女子效仿張曼玉版青蛇仿妝,妝後效果美化了
登鸛雀樓的詩人們的三首佳作

TAG:公眾號 |