當前位置:
首頁 > 知識 > 超越MnasNet、Proxyless:小米開源全新神經架構搜索演算法FairNAS

超越MnasNet、Proxyless:小米開源全新神經架構搜索演算法FairNAS

選自arXiv

作者:Xiangxiang Chu 等

機器之心編譯

參與:路、杜偉

近日,小米 AI 實驗室 AutoML 團隊放出了升級 NAS 演算法的新工作,其提出的超網路訓練及多目標強化演化搜索 FairNAS,解決了 DL 模型 rank 穩定性的核心問題,在 ImageNet 分類任務上超過 Google Brain 的 MnasNet(CVPR 2019)和 MIT 韓松等人提出的 Proxyless(ICLR 2019)。

小米 AI 實驗室表示,此項研究可為深度學習工程師武器庫再添一大利器,目前該團隊已開源了模型前向模型搭建及驗證代碼。

論文鏈接:https://arxiv.org/pdf/1907.01845.pdf

模型鏈接(PyTorch):https://github.com/fairnas/FairNAS

根據模型真實能力進行排序的能力是神經架構搜索(NAS)的關鍵。傳統方法採用不完整的訓練來實現這一目的,但成本依然很高。而通過重複使用同一組權重,one-shot 方法可以降低成本。但是,我們無法確定共享權重是否真的有效。同樣不明確的一點是,挑選出的模型具備更好的性能是因為其強大的表徵能力,還是僅僅因為訓練過度。

為了消除這種疑問,小米 AI 實驗室 AutoML 團隊的成員提出了一種全新方法——Fair Neural Architecture Search (FairNAS),出於公平繼承和訓練的目的,該方法遵循嚴格的公平性約束。使用該方法,超網路訓練收斂效果很好,且具備極高的訓練準確率。與超網路共享權重的採樣模型,在充分訓練下的性能與獨立模型(stand-alone model)的性能呈現出強烈的正相關。該結果大大提升了搜索效率,並且通過一個多目標強化演化搜索後端,研究人員提出的 pipeline 在 ImageNet 數據集上生成了一組新的 SOTA 架構:FairNAS-A 在 ImageNet 上實現了 75.34% 的 top-1 驗證準確率,FairNAS-B 的驗證準確率為 75.10%,FairNAS-C 為 74.69%,並且與其他架構相比,multi-adds 更低,參數也更少。

圖 1:超網路的訓練過程。

如上圖所示,實驗結果表明,在嚴格的公平性約束下,one-shot 模型在 ImageNet 訓練集上的平均準確率穩步提升,沒有出現振蕩。與 [2] 相比,one-shot 模型的分層樣本的準確率範圍大大縮小。這是一個重大進展,研究者在快速評估模型的同時也能保證準確性。

這項研究解決了什麼問題?

FairNAS 解決了兩個基礎問題:

基於 one-shot 超網路和之前方法的採樣技術區別子模型之間的區別,真的公平嗎?

如何根據模型性能進行快速排序,且排序結果具備較強的置信度?

具體而言,該研究具備以下貢獻:

遵循嚴格公平性(strict fairness),強化 one-shot 方法;

在嚴格公平性條件下,實驗結果表明平均準確率呈穩步上升,沒有出現振蕩(見圖 1);

儘管 one-shot 方法極大地加速了估計,但研究人員仍然面對多個現實約束以及廣闊的搜索空間,於是研究人員選擇多目標 NAS 方法 [5] 來解決這個需求。

使用該研究提出的 pipeline,可在 ImageNet 數據集上生成一組新的 SOTA 架構。

Strict Fairness

在某種程度上,所有 one-shot 方法都是預定義搜索空間中任意單路徑模型的不同性能預測器代理(proxies for performance predictor)。好的代理不能過度高估或低估模型得分。而目前還沒有人對該主題進行深入的研究,並且以往多數研究僅僅側重於搜索得分較好的幾個模型。

為了減少超網路訓練過程中的先驗偏置(prior bias),研究人員定義了基本和直接的要求,如下所示:

不難看出,只有單路徑 one-shot 方法符合上述定義。

在超網路訓練的每個步驟中,只有相應激活選擇塊(choice block)的參數能夠得到更新。籠統來說,參數更新的目的是減少模型在小批量數據上的損失,因此它雖然能夠幫助激活選擇塊得到比未激活選擇塊更高的分數,但同時也產生了偏差。

研究人員將這種減少此類偏差的直接和基本要求稱之為 Expectation Fairness,其定義如下:

研究人員提出了用於公平採樣和訓練的更嚴格要求,稱之為 Strict Fairness,其定義如下:

定義 3 施加了比定義 2 更嚴格的約束。定義 3 確保每個選擇塊的參數在任何階段的更新次數相同,即 p(Y_l1 = Y_l2 = ... = Y_lm) = 1 在任何時候均成立。

小米 AI 實驗室提出的新方法:FairNAS

小米 AI 實驗室的研究人員在嚴格遵循定義 3 的前提下,提出一種公平採樣和訓練演算法(見 Algorithm 1)。他們使用沒有替換的均勻採樣,在一步中採樣 m 個模型,使得每個選擇塊在每次更新時都被激活,參見下圖 2:

圖 2:該研究提出的 one-shot 架構和採樣策略。所有運算都在一個特定步內進行同等地訓練。

演算法 1 如下圖所示:

FairNAS 架構

該研究提出的 FairNAS 架構如下圖 4 所示:

圖 4:FairNAS 架構。

實驗

實驗設置

搜索空間:搜索空間基於 MobileNetV2 的 inverted bottleneck 模塊設計 [4],保留了標準 MobileNetV2 [18] 的層數,搜索空間共包含 6^16 個子模型。

數據集:所有實驗均在 ImageNet [17] 數據集上進行。從該數據集訓練集上隨機選取 50000 張圖像作為實驗的驗證集,訓練集中的其餘數據作為實驗的訓練集,原來的驗證集作為測試集,用于衡量每個模型的最終性能。

訓練參數:使用 256 的批大小訓練超網路,共訓練 150 個 epoch。隨機梯度優化器的動量是 0.9;使用餘弦學習率衰減策略且初始學習率為 0.045;使用 L2 權重衰減 (4 × 10^(?5) ) 進行正則化。

不同 SOTA 方法的性能對比

該研究考慮的三個目標是:準確率、multiply-adds 和參數,由於該研究局限於搜索僅適合特定設備的快速準確模型,因此實驗中並未考慮延遲。

不同模型在 ImageNet 數據集上的性能對比如下表 2 所示。實驗結果表明:在同樣的搜索空間設置下,FairNAS-A 實現了新的 SOTA 結果——在 Imagenet 1k 分類數據集上的 top-1 準確率達到 75.34%;在同等 multiply-adds 的情況下,FairNAS-A 的 top-1 準確率高出 MnasNet-92 0.55%,高出 Single-Path-NAS 0.38%。

表 2:不同移動模型在 ImageNet 數據集上的性能對比。輸入大小為 224×224。

圖 8:FairNAS-A、B、C 架構圖示。

期望公平性 vs 嚴格公平性

研究人員基於公平性的定義進一步對比了不同的神經架構搜索方法,如下表 1 所示:

表 1:基於公平性的 SOTA NAS 方法對比。

本文為機器之心編譯,轉載請聯繫本公眾號獲得授權。

------------------------------------------------

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 機器之心 的精彩文章:

「AI間諜」擾亂美國政壇,眾議院提出法案打擊Deepfake換臉技術
從相機標定到SLAM,極簡三維視覺六小時課程視頻

TAG:機器之心 |