約翰霍普金斯大學劉晨曦：漸進式神經網路結構搜索｜AI 研習社第 75 期大講堂

新聞 10-08

近年來，神經網路已經成為了計算機視覺中主要的機器學習解決方案。然而神經網路結構的設計仍然需要極強的專業知識，在一定程度上妨礙了神經網路的普及。

近日，在雷鋒網 AI 研習社公開課上，約翰霍普金斯大學在讀博士劉晨曦就分享了在神經網路結構搜索的最新研究，並講解了如何通過由簡至繁的漸進式搜索得到在 ImageNet 圖像分類上最高的識別精度。公開課回放視頻網址：http://www.mooc.ai/open/course/550?=aitechtalkliuchenxi

劉晨曦：約翰霍普金斯大學在讀博士，導師是 Alan Yuille 教授，主要研究方向為計算機視覺，自然語言處理等。曾就讀於加州大學洛杉磯分校及清華大學。其研究工作曾在 CVPR，ICCV，ECCV 等發表。

分享主題：漸進式神經網路結構搜索

分享大綱：

AutoML 和神經網路結構搜索的背景介紹
網路結構搜索空間
漸進式神經網路結構搜索演算法
圖像分類的實驗結果

雷鋒網 AI 研習社將其分享內容整理如下：

今天我要跟大家分享是漸進式神經網路結構搜索（Progressive Neural Architecture Search）。這項工作是我在 Google（美國）實習的時候做的項目，並在不久前的 ECCV 2018 上做口頭報告。

AutoML 和神經網路結構搜索的背景介紹

首先介紹一下 AutoML 和神經網路結構搜索的背景。

這篇文章主要涉及的領域是 AutoML，這是一個新興領域，也是 Google 非常重視的一個具體方向。它的目標很簡單但也很重要，就是能夠在 Machine Learning solution 的整個設計過程中，減少人的參與。當 AutoML 的實現程度夠高，能實現的具體場合是：人只需在早上起來的時候按一個回車鍵，整個設計過程就能實現高度的自動模式，晚上回來的時候就能夠完成。

當然理想很豐滿，現實實現難度卻比較大，為什麼？

現在的 Machine Learning solution 既有參數也有超參數，而現在最受歡迎的機器學習框架是神經網路，這裡主要討論它的優化是否自動化了。目前，參數的調整已經非常自動化了，可以直接用 Backpropagation 函數實現最優的參數調整，而難以實現較大程度自動化的，是超參數的調整。

那超參數都在哪裡？

一提到超參數，我們會更多地想到 learning rate 相關的數字，比如說整個 training 有多長時間，絕對數值應該選多少等。但是對於神經網路來說，很多超參數都在它的結構裡面。下圖就是一個網路結構：

約翰霍普金斯大學劉晨曦：漸進式神經網路結構搜索｜AI 研習社第 75 期大講堂

很多神經網路結構需要很多的 expert experience 和 knowledge，但這樣得出的結果並不是最優的，這也是我們嘗試漸進式神經網路結構搜索最主要的 motivation。

近幾年來，大家逐漸開始關注一個問題：能不能不要過於依賴於 expert experience 和 knowledge，而通過自動的方式來得到一個非常好的神經網路結構？

神經網路領域發展得很快，但是現在神經網路結構搜索相關的文章中主要使用的方法是：進化的演算法（EA）和強化學習的演算法（RL）。

【關於這兩種演算法的講解，請回看視頻 00：07：00 處，http://http://www.mooc.ai/open/course/550?=aitechtalkliuchenxi】

在我們之前，神經網路結構搜索的相關工作已經做得比較好了，但在我們研究這一領域的時候，發現的問題是，之前的工作都非常依賴計算資源。比如在 Google Brain 2017 年的一篇文章里，為了做神經網路結構搜索用了 800 塊 K40 的 GPU，然後訓練了 28 天。在今年的一篇文章里，雖然有了很大提升，但還是用了 500 塊 P100，並訓練了 5 天。

所以我們這項工作的主要目標是嘗試把神經網路結構搜索的速度和效率提高，具體的做法是：提出一個創新的演算法。在我們描述這個演算法前，我們需要了解網路結構搜索空間（Architecture Search Space）。

網路結構搜索空間

網路結構搜索空間大概的結構是：定義整個 Network 由一些 Cell 組成，一個 Cell 進一步由一些 Block 組成。

約翰霍普金斯大學劉晨曦：漸進式神經網路結構搜索｜AI 研習社第 75 期大講堂

從 Cell 到 Network 的過程，如右圖所示，就是有了一個 Cell structure 後，組建整個 Network，整個過程借鑒了 ResNet 的設計。

約翰霍普金斯大學劉晨曦：漸進式神經網路結構搜索｜AI 研習社第 75 期大講堂

【關於從 Cell 到 Network 的過程更具體的講解，請回看視頻 00：12：40 處，http://www.mooc.ai/open/course/550?=aitechtalkliuchenxi】

從 Block 到 Cell 的過程，是指一個 Cell 由 5 個 Block 組成，整個 Cell 的 output 是 5 個 Block 的 output 的 concatenation（連接）。如右圖，H 代表 Cell 的 output，H1 到 H5 代表了五個 Block 的 output。

約翰霍普金斯大學劉晨曦：漸進式神經網路結構搜索｜AI 研習社第 75 期大講堂

而一個 Block 大概是下圖右邊的這樣一個結構，這是整個網路最小的形成段，Input1 通過 Operator1 transform 一下，Input2 通過 Operator2 transform 一下，二者通過一定方法 Combine 形成一個 Block。

約翰霍普金斯大學劉晨曦：漸進式神經網路結構搜索｜AI 研習社第 75 期大講堂

【更多關於 Block 的形成過程的講解，請回看視頻 00：14：34 處，http://www.mooc.ai/open/course/550?=aitechtalkliuchenxi】

總的來說，網路結構搜索空間中一個 Cell 結構如右圖所示，每個「+」的位置都代表 Block 結束的地方，每個 Block 結束都有一個 element-wise addition 的操作，H（c-1）是前一個 Cell 的 output，H（c-2）是前兩個 Cell 的 output。

約翰霍普金斯大學劉晨曦：漸進式神經網路結構搜索｜AI 研習社第 75 期大講堂

左邊是我進行的對應的計算，這樣的結構就已經有 10 的 14 次方的 combinations，而神經網路結構搜索的目標就是從這 10 的 14 次方個結果中選出最佳的那個，這顯然是一個非常具有挑戰性的 Task，這就需要一個好的演算法來進行。

漸進式神經網路結構搜索演算法

我們主要的 Idea 其實很簡單：從簡單到複雜的 Curriculum Learning。我們注意到之前的方法都直接在 10 的 14 次方大小的搜索空間進行取樣或者訓練，這樣的搜索空間非常大，很難進行有效的信息積累。

而我們的 Idea 是，不直接在 10 的 14 次方大小的搜索空間中工作，而是從簡到繁慢慢進入最大的搜索空間：

首先，訓練所有的 1-block cells，當然，我們的目標是搜索 5-block cells，但我們一開始先假裝不知道我們的目標。這個網路結構的一個好處是它的結構比較簡單，另一個好處是它的絕對數量只有 256 個不同的可能。

然後，去測它的演算法的話，它們的分值會比較低，這是因為它們有更少的 Block。但是，對於它們之間相對的性能，已經有信號暗示哪些 Cell 是 promising 的，哪些不 promising。

最後，我們直接從 256 個可能裡面挑選 K 個 promising 最高的 Cell，讓它變成 2-block cells，再變到 3-block cells，依次這樣發展。

【關於這種 Idea 更詳細的講解，請回看視頻 00：19：50 處，http://www.mooc.ai/open/course/550?=aitechtalkliuchenxi】

然而這種 Idea 是難以預測的。基於此，我們的解決方案是引入了一個「cheap」surrogate model，它讀入一個結構，比如下圖中的 (0, 2, 0, 6)，將其直接放入到 predictor 中去預測 final performance，這樣的一個 predictor 是很輕便的，我們的想法就是用這個 surrogate model 完全代替整個訓練過程。

約翰霍普金斯大學劉晨曦：漸進式神經網路結構搜索｜AI 研習社第 75 期大講堂

【關於 surrogate model 更詳細的講解，請回看視頻 00：22：28 處，http://www.mooc.ai/open/course/550?=aitechtalkliuchenxi】

最終，我們既嘗試了 MLP-ensemble 也嘗試了 RNN-ensemble 的 predictor。RNN-ensemble 的方法比較直觀，每次當遇到結構的大小不一樣長的時候，只要將 RNN unroll 不同的步數就可以了。MLP-ensemble 則通過 mean pooling 的方式來處理可變大小。

接下來我們用一個具體例子來看這種漸進式神經網路結構搜索方法。

【關於漸進式神經網路結構搜索方法的案例講解，請回看視頻 00：26：39 處，http://www.mooc.ai/open/course/550?=aitechtalkliuchenxi】

最後介紹一下我們的實驗結果。

圖像分類的實驗結果

在搜索過程中，我們做了這樣一個實驗，在 CIFAR-10 架構上進行了漸進式神經網路結構搜索，K 取值 256，而每個模型的 N 和 F 分別取值 2、24，相對較小，並對模型進行了 20 次迭代訓練，以更快、更準確地判斷 Network 的好壞。這個過程中的一個很重要的問題是，我們的搜索是不是更加有效率——這也是我們整篇論文最主要的目標。

約翰霍普金斯大學劉晨曦：漸進式神經網路結構搜索｜AI 研習社第 75 期大講堂

答案肯定是，是的。在下圖中，我把我們的漸進式神經網路結構搜索跟 Random Rearch 和 NAS 進行了比較：

約翰霍普金斯大學劉晨曦：漸進式神經網路結構搜索｜AI 研習社第 75 期大講堂

【關於對三種搜索方法的比較的具體講解，請回看視頻 00：31：45 處，http://www.mooc.ai/open/course/550?=aitechtalkliuchenxi】

我們搜索的結構有 PNASNet-1、 2、3、4、5，它們的具體的樣子如下圖：

約翰霍普金斯大學劉晨曦：漸進式神經網路結構搜索｜AI 研習社第 75 期大講堂

其中 PNASNet-5 是我們最終搜索出來的結果。而我們找到這樣一個結構之後，僅僅確保它在過程中的表現好還不夠，我們還要在搜索完成後，將 N 和 F 增大，在 CIFAR-10 和 ImageNet 上進行訓練和測試。這裡的問題是，我們找到的網路結構在最好的 benchmark datasets 上的表現是怎麼樣的。

在 CIFAR-10 上實驗的結果如下圖：

約翰霍普金斯大學劉晨曦：漸進式神經網路結構搜索｜AI 研習社第 75 期大講堂

在 ImageNet （Mobile、Large）上實驗的結果如下圖：

約翰霍普金斯大學劉晨曦：漸進式神經網路結構搜索｜AI 研習社第 75 期大講堂

【關於在 CIFAR-10 和 ImageNet 上的實驗結果的具體講解，請回看視頻 00：35：30 處，http://www.mooc.ai/open/course/550?=aitechtalkliuchenxi】

對我們的工作做一下總結：

第一，我們提出了一種神經網路結構搜索方法，具體採用的是從簡單到複雜的方法，同時，為了讓這個演算法變得更具可預測性，我們學習了一個 surrogate function 來指導搜索。

第二，我們將最後搜索出來的結果叫做 PNASNet-5 ，它在 CIFAR-10 和 ImageNet 上達到了非常高的準確率，且在搜索過程中比當下最好的增強學習和進化演算法的方法都更快。

我們在 ImageNet 上訓練好的 PNASNet-5 模型已經 release 了，包括剛剛提到在 ImageNet 上的 Mobile、 Large 模型，Both TensorFlow 、PyTorch 模型，以及（據我所知）在 ImageNet 所有對外開放的模型中準確度和效率最高的 SOTA 模型，大家如果有需要可以到相應網址找到。

約翰霍普金斯大學劉晨曦：漸進式神經網路結構搜索｜AI 研習社第 75 期大講堂

我們的 Paper 自在 ECCV 上發表後，有了很多新的變化和 Extensions。我們的演算法被用到類似的 Task 中，比如 PPP-Net 和 DPP-Net 的 Pareto-optimal architectures 或者 Meta-learning 中，都取得了不錯的效果。

而在我們的論文中沒有解決的問題是，我們對每個單獨 sample 出來的模型進行單獨訓練，彼此間沒有很好的 Sharing。最近有一篇論文將我們的方法與其他方法進行結合，使神經網路結構搜索的速度變得更快、更有效率。

以上就是本期嘉賓的全部分享內容。更多公開課視頻請到雷鋒網 AI 研習社社區（https://club.leiphone.com/）觀看。關注微信公眾號：AI 研習社（okweiwu），可獲取最新公開課直播時間預告。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 雷鋒網 的精彩文章:

※人工智慧加「醫真雲」，每年讓5700萬人告別誤診
※肖風：AI顛覆資產管理行業，還有多遠？

TAG:雷鋒網 |