學習率及其如何改善深度學習演算法

最新 02-07

這篇文章主要是介紹我對以下問題的理解：

（1）什麼是學習率（learning Rate）?它的意義是什麼？

（2）如何系統的達到一個好的學習率？

（3）為什麼在模型訓練過程中要改變學習率？

（4）應用已訓練的模型時，如何處理學習率問題？

本文的內容基於fast.in的工作人員撰寫的文章[1]~[3]、[5]，並在其基礎上提煉了其中的主要內容。如果您想了解更多，請參考原文。

首先，什麼是學習率？

學習率是一個超參數（hyper-parameter），它根據損失梯度（Loss gradient）來控制神經網路權重的調整步長。梯度值越低，我們沿著下降斜率調整的越慢。這能確保我們不會錯失任何一個局部最小值（local minima），但也可能導致收斂速度變慢-尤其是在平穩段的時候。

new_weight = existing_weight — learning_rate * gradient

圖1 梯度下降情況：小學習率（上）、大學習率（下）

通常，學習率被簡單的設置成隨機數。當然，如果能利用過去的經驗（或者其他資料）來確定學習率的最優值是最理想的了。但光憑經驗，往往很難憑直覺獲得合適的學習率。圖2證明了不同學習率對網路訓練的影響。

圖2 不同學習率對收斂的影響

也就是說，學習率決定了我們的模型能以多快的速度收斂到最優值（也就是達到最佳精度）。因此，從開始就設置適宜的學習率能讓我們用更少的時間訓練模型。

Less training time, lesser money spent on GPU cloud compute.

是否有更好的方法來確定學習率？

在《Cyclical Learning Rates for Training Neural Networks》的3.3節[4]，Leslie N.Smith指出可以通過在訓練開始時設置較小的學習率，然後在每步迭代中逐漸增加（線性或指數）的方法來獲得合適的學習率。

圖3 學習率在每步迭代後逐漸增加（對數形式）

可以看到，隨著學習率的增加，存在著一個確定的拐點，損失函數在該點停止下降，開始上升。在實際應用中，學習率應設置在拐點偏左一點，如圖4中，可以設為0.001至0.01。

圖4 學習率（對數坐標）

如何開始應用上述方法

如今，該方法可以作為fast.ai工具包的一個函數進行調用。使用時，只需輸入以下命令，就可以尋找最優學習率，並用於神經網路訓練。

現在，我們了解了什麼是學習率以及如何系統的確定其初始最優解。接下來，我們來學習如何應用學習率來提高模型的性能。

經典方法

通常，當我們設置好學習率，並開始訓練模型後，只需要等待學習率不斷減小，直到模型最終收斂。但是，當梯度達到一個鞍點時，模型的訓練誤差很難再進一步改進[3]。在鞍點上，誤差平面的各方向的導數均為0，但該點並不是各軸的局部極值點。

圖5 誤差平面上的鞍點（saddle point）

如何脫離鞍點

以下一些方法，可以用來脫離鞍點。比如文獻[1]中提到：

「除了採用固定的學習率然後隨時間遞減的方法，當誤差函數不再繼續優化時，可以採用根據周期函數改變學習率的方法進行迭代，每個周期根據迭代次數設置確定的步長。該方法允許學習率在合理的範圍內進行變化。該方法之所以有效，是因為在鞍點位置，適當的增大學習率可以更加快速的越過鞍點區域（saddle point plateaus）。」

在文獻[2]中，Leslie提出了「Triangluar」方法，該方法中學習率經過一定迭代步數後重新進行設置。