你的模型剛不剛？谷歌提出「剛度」概念，探索神經網路泛化新視角

新聞 03-20

新智元報道

來源：arxiv

編輯：肖琴

【新智元導讀】Google AI的研究人員的最新研究提出一個全新概念：剛度(Stiffness)，為探索神經網路的訓練和泛化問題提供了一個新視角。

Google AI的研究人員最近在arxiv發表的一篇新論文，探索了神經網路的訓練和泛化問題的一個新視角。

論文題為「Stiffness: A New Perspective on Generalization in Neural Networks」，作者是谷歌 AI 蘇黎世研究中心的Stanislav Fort等人。

論文提出「剛度」(stiffness)這個概念，透過這個概念研究了神經網路的訓練和泛化問題。

研究人員通過分析一個示例中的小梯度步驟如何影響另一個示例的損失來測量網路的「剛度」。

具體來說，他們在4個分類數據集(MNIST、FASHION MNIST、CIFAR-10、CIFAR-100)上分析了全連接卷積神經網路的剛度。他們關注的是剛度如何隨著1) 類隸屬度(class membership），2)數據點之間的距離，3)訓練迭代，和4)學習率而變化。

研究表明，當在固定的驗證集上計算時，剛度與泛化(generalization)直接相關。剛度函數的靈活性較差，因此不太容易對數據集的特定細節進行過擬合。

結果表明，「剛度」的概念有助於診斷和表徵泛化。

學習率的選擇對學習函數的剛度特性有顯著影響。高學習率會導致函數逼近在更大的距離上「更剛」(stiffer)，並且學習到的特徵可以更好地泛化到來自不同類的輸入。另一方面，較低的學習率似乎能學到更詳細、更具體的特徵，即使在訓練集上導致同樣的損失，也不能泛化到其他類。

這表明，高學習率的優勢不僅在於收斂所需的步驟更少，還在於它們傾向於學習的特性具有更高的泛化性，即高學習率充當了有效的正則化器。

剛度(Stiffness)的定義

剛度的定義如下：

如果點處的損失相對於網路權重的梯度是，並且點處的梯度是，則我們定義「剛度」為。