谷歌新技術：神經優化器搜索，自動找到可解釋的優化方法

最新 03-31

AiTechYun

編輯：yuxiangyu

如今，深度學習模型已經部署在眾多谷歌產品中，如搜索、翻譯和照片等。而在訓練深度學習模型時，優化方法的選擇至關重要。例如，隨機梯度下降在大多情況下都很有效，但更先進的優化器可能會更快，特別是在訓練非常「深」的網路時。然而，由於優化問題的非凸性，為神經網路提供新的優化器十分具有挑戰性。在Google Brain團隊中，我們想看看是否可能用類似於AutoML如何用於發現新的有競爭力的神經網路架構的方法，自動化發現新的優化器的過程。

在論文「 Neural Optimizer Search with Reinforcement Learning 」中，我們提出了一種使用深度學習架構發現優化方法的方法 — 神經優化器搜索（Neural Optimizer Search）。使用這種方法，我們發現了兩種新的優化器PowerSign和AddSign，它們在各種不同的任務和架構上具有競爭力，包括ImageNet分類和Google的神經機器翻譯系統。為了幫助其他人從這項工作中受益，我們將這些優化器加入了Tensorflow。

神經優化器搜索利用一個遞歸神經網路控制器，它可以訪問通常與優化相關的簡單原語（primitives）列表。例如，這些原語包括梯度或梯度的運行平均值，並具有超過1*1010種可能組合的搜索空間。控制器然後為這個搜索空間中的候選優化器或更新規則生成計算圖。

在論文中，提出的候選更新規則（U）用於在CIFAR10上訓練一個子卷積神經網路幾個周期，最終的驗證準確性（R）作為獎勵饋給控制器。控制器通過強化學習進行訓練最大化所抽取的更新規則的驗證準確性。這個過程如下圖所示。

使用迭代過程來發現新優化器的神經優化器搜索示意圖。

有趣的是，我們找到的這些優化器是可解釋的。例如，在我們發布的PowerSign優化器中，每次更新都會比較梯度信號和其運行平均值，並根據這兩個值是否一致來調整步長。這背後的直覺是，如果這些值一致，那麼它對正確的更新方向更為確定，因此步長可以更大。我們還發現了一個簡單的學習率衰減方案，線性餘弦衰減（ linear cosine decay），我們發現可以讓收斂更快。

圖表比較了餘弦衰減，階梯衰減和線性餘弦衰減的學習率衰減函數。

神經優化搜索找到了幾個優化器，它們的表現勝過了在小型ConvNet模型中常用的優化器。在一些可以很好遷移到其他任務優化器中，我們發現PowerSign和AddSign將最先進ImageNet mobile-sized模型的前1和前5的準確性提高了0.4％。他們在Google的神經機器翻譯系統上也運行良好，英語對德語翻譯任務的雙語評估指標（BLEU）增加了0.7。

讓我們感到興奮的是，神經優化器搜索不僅可以提高機器學習模型的性能，還可能發現新的可解釋的方程和發現。我們希望在Tensorflow中開源的這些優化器會對機器學習從業者有用。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 AiTechYun 的精彩文章:

※用細胞生物學破解人工智慧黑箱：揭示它的內部運作機制

TAG:AiTechYun |