當前位置:
首頁 > 新聞 > 語義分割領域開山之作:Google提出用神經網路搜索實現語義分割

語義分割領域開山之作:Google提出用神經網路搜索實現語義分割

1. Introduction

在 arxiv 瀏覽論文的時候,單獨看文章名不知道屬於 CV 哪個領域,懷著對一作 Liang-Chieh 敬畏的心,在摘要中掃描到 PASCAL VOC 2012 (semantic image segmentation),瀏覽全文才明白,Google 又發大招。

Google 在 Cloud AutoML 不斷發力,相比較而言之前的工作只是在圖像分類領域精耕細作,如今在圖像分割開疆擴土,在 arxiv 提交第一篇基於 NAS(Neural network architecture)的語義分割模型[1](DPC,dense prediction cell)已經被 NIPS2018 接收,並且在 Cityscapes,PASCAL-Person-Part,PASCAL VOC 2012 取得 state-of-art 的性能(mIOU 超過 DeepLabv3+)和更高的計算效率(模型參數少,計算量減少)。

Google 儼然已是圖像語義分割領域的高產霸主,Liang-Chieh 從 Deeplabv1- Deeplabv3+ 持續發力,還是 MobileNetV2 共同作者,如今在 NAS 領域開發處女地:基於 NAS 的語義分割模型,性能超過之前的基於 MobileNetV2 的 Network Backbone。

2. Motivation

深度學習技術已經成為當前人工智慧領域的一個研究熱點,其在圖像識別、語音識別、自然語言處理等領域展現出了巨大的優勢,並且仍在繼續發展變化。自 Google 提出 Cloud AutoML,NAS(Neural Architecture Search,神經網路架構搜索)也取得重大進展,但更多的是在圖像分類和自然語言處理方面的應用。在過去的一年中,元學習(meta-learning)在大規模圖像分類問題上,性能已經實現超越人類手工設計的神經網架構。

基於 NAS 的圖像分類遷移到高解析度的圖像處理(語義分割、目標識別、實例分割)有很大的挑戰:(1)神經網路的搜索空間和基本運算單元有本質不同。(2)架構搜索必須固有地在高解析度圖像上運行,因此不能實現從低解析度圖像訓練模型遷移到高解析度圖像。

論文首次嘗試將元學習應用於密集圖像預測(本人理解就是像素級圖像分割)。語義分割領域一般使用 encoder-decoder 模型,空間金字塔結構,空洞卷積等,目標是實現構建高解析度圖像的多尺度特徵,密集預測像素級標籤。論文利用這些技術構建搜索空間,同時構建計算量少、處理簡單的代理任務,該任務可為高解析度圖像提供多尺度架構的預測信息。

論文提出的模型在 Cityscapes dataset 驗證測試,取得 82.7% mIOU,超過人類手工設計模型 0.7%。在 person-part segmentation 和 VOC 2012 也取得 state-of-art 性能。具體可參考原論文。

3. Architecture

深度學習在感知任務中取得的成功主要歸功於其特徵工程過程自動化:分層特徵提取器是以端到端的形式從數據中學習,而不是手工設計。然而,伴隨這一成功而來的是對架構工程日益增長的需求,越來越多的複雜神經架構是由手工設計的。演算法工程師一般自我調侃「煉丹師」,就是因為超參數的設計選取存在太多偶然性,是一門玄學,沒有明顯的規律性。

Neural Architecture Search (NAS) 是一種給定模型結構搜索空間的搜索演算法,代表機器學習的未來方向。NAS 是 AutoML 的子領域,在超參數優化和元學習等領域高度重疊。本人最近寫過一篇 NAS 的綜述文章(讓演算法解放演算法工程師——NAS 綜述),NAS 根據維度可分為三類:搜索空間、搜索策略和性能評估策略。

3.1 搜索空間

搜索空間原則上定義了網路架構。在圖像分類任務中分為三類:鏈式架構空間、多分支架構空間、Cell/block 構建的搜索空間。

論文提出了基於 Dense Prediction Cell (DPC)構建的遞歸搜索空間,對多尺度上下文信息編碼,實現語義分割任務。

圖 1 DPC 模型架構

DPC 由有向無環圖(directed acyclic graph ,DAG)表示,每個 Cell 包含 B 個分支,每個分支映射輸入到輸出的張量。每個 Cell 的操作類型包括 1x1 卷積,不同比率的 3x3 空洞卷積,不同尺寸的均值空間金字塔池化。

圖 2 3x3 空洞卷積比率類型

根據論文提供的操作方式,3x3 空洞卷積有 8x8,均值空間金字塔池化有 4x4 操作,即操作函數共有 1+8*8+4*4=81 種類型,對於 B 分支的 Cell,搜索空間為 B!*81B,當 B=5,搜索空間為 5!*815≈4.2*1011。

3.2 搜索策略

搜索策略定義了使用怎樣的演算法可以快速、準確找到最優的網路結構參數配置。

機器學習模型超參數調優一般認為是一個黑盒優化問題,所謂黑盒問題就是我們在調優的過程中只看到模型的輸入和輸出,不能獲取模型訓練過程的梯度信息,也不能假設模型超參數和最終指標符合凸優化條件。

自動調參演算法一般有 Grid search(網格搜索)、Random search(隨機搜索),還有 Genetic algorithm(遺傳演算法)、Paticle Swarm Optimization(粒子群優化)、Bayesian Optimization(貝葉斯優化)、TPE、SMAC 等方式。

論文採用隨機搜索的方式,基於 Google Vizier 實現[3]。Github 上有開源實現的 advisor[4](非Google 開源,第三方),包括隨機搜索,網格搜索,貝葉斯優化等調參演算法實現,感興趣可以關注一下。

3.3 性能評估策略

因為深度學習模型的效果非常依賴於訓練數據的規模,通常意義上的訓練集、測試集和驗證集規模實現驗證模型的性能會非常耗時,例如 DPC 在 Cityscapes dataset 上訓練,使用 1 個 P100 GPU 訓練候選架構(90 迭代次數)需要一周以上時間,所以需要一些策略去做近似的評估,同時滿足快速訓練和可以預測大規模訓練集的性能。

圖像分類任務中通常在低解析度圖像中訓練模型,再遷移到高解析度圖像模型中。但是圖像分割需要多尺度上下文信息。論文提出設計代理數據集:(1)採用較小的骨幹網路(network backbone),(2)緩存主幹網路在訓練集生成的特徵圖,並在其基礎上構建單個 DPC。(個人理解應該是權值共享的方式)。(3)訓練候選架構時提前終止(實驗中佔用 30K 迭代訓練每個候選架構)。

論文採用以上策略,在 GPU 上訓練只運行 90 分鐘,相比一周的訓練時間大幅度縮短。

在架構搜索後,論文對候選架構進行 reranking experiment,精準測量每個架構在大規模數據集的性能。reranking experiment 中,主幹網路經過微調和訓練完全收斂,生成的最優模型作為最佳 DPC 架構。

4. Experiment&Result

論文在場景理解(Cityscapes),人體分割(PASCAL- Person-Part),語義分割(PASCAL VOC 2012)對比展示 DPC 模型的性能。主幹網路在 COCO 數據集預訓練,訓練學習率採用多項式學習率,初始化為 0.01,裁剪圖像,fine-tuned BN 參數(batch size=8,16)。評測和架構搜索中,圖像尺寸採用單一類型。對比其他 state-of-the-art 系統時,通過對給定圖像的多個縮放進行平均來執行評估。

論文使用提出的 DPC 架構搜索空間,在 Cityscapes 部署生成的代理任務,370 個 GPU 在一周時間中評估 28K 個 DPC 架構。論文採用 MobileNet-v2 主幹網路對整個模型進行微調,選擇前 50 個架構進行重新排序。

論文中圖 5 、圖 6 展示了頂級 DPC 架構的示意圖。在圖 5b 每個分支(通過 1*1 卷積)的 L1 正則化權重,我們觀察到具有 3×3 卷積(速率= 1×6)的分支貢獻最大,而具有大速率(即較長背景)的分支貢獻較少。換句話說,來自更接近(即最終空間尺度)的圖像特徵的信息對網路的最終輸出貢獻更多。相反,性能最差的 DPC(圖 6c)不保留精細空間信息,因為它在全局圖像池操作之後級聯四個分支。

論文實驗中,表 1,表 2,表 3分別對應在場景理解(Cityscapes),人體分割(PASCAL- Person-Part),語義分割(PASCAL VOC 2012)的模型性能,DPC 在各個數據集取得 state-of-art 性能。

5. Discussion

1、論文提出的 DPC 架構基於 Cell 構建的搜索空間,每個 Cell 有語義分割採用經典的空洞卷積,空間金字塔池化,1x1 卷積,在 mIOU 實現 state-of-art 水準。

2、論文的搜索策略採用隨機搜索,評價指標也只有 mIOU,相比 Google 另一篇論文 MnasNet,在準確率和推斷時間上均有顯著提高。

3、論文摘要選擇只需要一半的參數和一半的計算效率,但是只在論文的表 1 即 Cityscapes 數據集對比了 MobileNet-v2 和 modified Xception 的實現方式,其他數據集沒有體現計算效率的優越性。論文架構搜索和訓練時的目標函數沒有計算效率的體現。

Additionally, the resulting architecture is more computationally efficient, requiring half the parameters and half the computational cost as previous state of the art systems

4、作為 Google 在語義分割領域的開山之作,目測會有一大批基於 NAS 實現的目標檢測、實例分割的優秀論文,NAS 應用到工業界產品指日可待。

5、語義分割是一種廣義上的圖像分類(對圖像的每個像素進行分類),和圖像分類在搜索空間有很多相似之處,但是目標檢測需要 Region Proposal,Bounding-Box Regression 等,增加搜索空間的難度,NAS 在目標檢測領域可能還需要很長一段路要走。

以上僅為個人閱讀 MnasNet 論文後的理解,總結和一些思考,觀點難免偏差,望讀者以懷疑的態度閱讀,歡迎交流指正。

6. 參考文獻

1. Searching for Efficient Multi-Scale Architectures for Dense Image Prediction

arXiv:1809.04184 (2018)

2. Neural Architecture Search: A Survey

arXiv:1808.05377 (2018)

3. A service for black-box optimization

5. MnasNet:終端輕量化模型新思路

6. 讓演算法解放演算法工程師----NAS綜述


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 雷鋒網 的精彩文章:

為什麼你需要一張「全球AI智適應教育峰會」的入場券?
TCL 在國外這麼火你知道嗎?

TAG:雷鋒網 |