谷歌大腦重磅研究：神經結構搜索發現全新特徵超越Mask R-CNN

新聞 04-19

打開今日頭條，查看更多圖片

【新智元導讀】谷歌大腦的研究人員發表最新成果，他們採用神經結構搜索發現了一種新的特徵金字塔結構NAS-FPN，可實現比 Mask R-CNN、FPN、SSD 更快更好的目標檢測。

目前用於目標檢測的最先進的卷積架構都是人工設計的。

近日，谷歌大腦的研究人員發表最新成果，他們採用神經結構搜索發現了一種新的特徵金字塔結構NAS-FPN，可以更好地用於目標檢測。論文已被CVPR 2019接收。

谷歌大腦重磅研究：神經結構搜索發現全新特徵超越Mask R-CNN

論文地址：

https://arxiv.org/pdf/1904.07392.pdf

研究人員採用神經結構搜索，在一個新的可擴展搜索空間中發現了一種新的特徵金字塔架構。

這個被發現的架構被命名為 NAS-FPN，可實現比 Mask R-CNN、FPN、SSD 更快更好的目標檢測。

與目前最先進的目標檢測模型相比，NAS-FPN與RetinaNet框架中各種主幹模型相結合，可以實現更好的精度和延遲權衡。

與MobileNetV2中最先進的SSDLite相比，NAS-FPN在移動檢測精度方面提高了2 AP，達到48.3 AP，超過了Mask R-CNN的檢測精度，並且計算時間更少。

設計搜索空間，生成特徵表示

學習視覺特徵表示是計算機視覺中的一個基本問題。近年來，針對圖像分類和目標檢測的深度卷積網路(ConvNets)模型架構的設計取得了很大進展。與預測圖像類別概率的圖像分類任務不同，目標檢測有其自身的挑戰，即在多種尺度和位置上檢測和定位多個對象。為了解決這一問題，許多先進的目標檢測器通常使用金字塔特徵表示，它以多尺度特徵層來表示圖像。

特徵金字塔網路(FPN)是產生用於目標檢測的金字塔特徵表示的典型模型架構之一。該方法採用通常用於圖像分類的主幹模型，通過自頂向下的連接和橫向連接，將主幹模型特徵層中的相鄰兩層按順序組合，從而構建特徵金字塔。

設計特徵金字塔結構的挑戰在於其巨大的設計空間。組合來自不同尺度的特徵的可能連接的數量隨層數呈指數增長。

最近的研究表明，神經結構搜索演算法在巨大搜索空間中可以有效發現性能最佳的圖像分類架構。受此啟發，我們提出可擴展架構的搜索空間，用以生成金字塔表示。

本研究的主要貢獻是設計了涵蓋所有可能的跨尺度連接的搜索空間，以生成多尺度特徵表示。

在搜索過程中，我們的目標是發現一個原子架構(atomic architecture)，它具有相同的輸入和輸出特性級別，並且可以重複應用。

模塊化搜索空間使搜索金字塔架構易於管理。模塊化金字塔結構的另一個好處是能夠隨時檢測目標(或「提前退出」)。

所發現的架構名為NAS-FPN，為構建對象檢測架構提供了很大的靈活性。NAS-FPN適用於各種主幹模型，如MobileNet、ResNet和AmoebaNet。它為快速移動模型和精確模型提供了更好的速度和精度的權衡。在相同的推理時間下，結合RetinaNet框架中的MobileNetV2主幹網路，其性能優於目前最先進的基於MobileNetV2的SSDLite移動檢測模型，精度提高了2 AP。

憑藉強大的AmoebaNet-D主幹模型，NAS-FPN在單次測試中達到48.3 AP單模型精度。

NAS-FPN的檢測精度也超過了Mask R-CNN，且所需推理時間更短。

我們的結果摘要如圖1所示。

谷歌大腦重磅研究：神經結構搜索發現全新特徵超越Mask R-CNN

圖1：移動設備上精確模型(上)和快速模型(下)的平均精度vs每張圖像的推理時間。綠色曲線突出了NAS-FPN與RetinaNet組合的結果。

方法：基於RetinaNet框架，搜索最佳架構

我們的方法基於RetinaNet框架，因為它簡單有效。RetinaNet框架有兩個主要組件：主幹網路(通常是最先進的圖像分類網路)和特徵金字塔網路(FPN)。該演算法的目標是為RetinaNet找到一個更好的FPN架構。圖2顯示了RetinaNet架構。

谷歌大腦重磅研究：神經結構搜索發現全新特徵超越Mask R-CNN

圖2：具有NAS-FPN的RetinaNet。在我們的方法中，特徵金字塔網路將由一個神經結構搜索演算法來搜索。主幹模型和用於類和邊界框預測的子網路遵循了RetinaNet的原始設計。FPN的架構可以堆疊N次，以獲得更高的精度。

為了找到一個更好的FPN，我們利用了B. Zoph等人提出的神經結構搜索框架[44]。神經結構搜索利用強化學習訓練一個控制器(controller)，在給定的搜索空間中選擇最優的模型結構。controller利用搜索空間中子模型的精度作為獎勵信號來更新其參數。因此，通過反覆試驗，controller學會了隨著時間的推移生成更好的架構。正如之前的研究所指出的，搜索空間對於架構搜索的成功起著至關重要的作用。

接下來，我們將為FPN設計一個搜索空間來生成特徵金字塔表示。為FPN的可伸縮性(即，這樣一個FPN架構就可以在RetinaNet中重複堆疊)，在搜索過程中，我們還強制FPN自身重複N次，然後連接成一個大型架構。我們將這個特徵金字塔結構稱為NAS-FPN。

架構的搜索空間

在搜索空間中，特徵金字塔網路由許多「合併單元」組成，這些單元將許多輸入層組合成RetinaNet的表示。

特徵金字塔網路

特徵金字塔網路以多尺度特徵層為輸入，在相同尺度下生成輸出特徵層，如圖2所示。

合併單元(Merging cell)

在以往的目標檢測工作中，一個重要的發現是，需要在不同尺度上「合併」特徵。跨尺度連接允許模型將具有強語義的高級特性和具有高解析度的低級特性結合。

我們提議merging cell，這是FPN的一個基本構建塊，將任意兩個輸入特性層合併到一個輸出特性層中。

在我們的實現中，每個merging cell接受兩個輸入特性層(可能來自不同scale)，應用處理操作，然後將它們組合起來，生成一個所需規模的輸出特性層。

構建merging cell的過程如圖3所示。

谷歌大腦重磅研究：神經結構搜索發現全新特徵超越Mask R-CNN

圖3：merging cell中需要四個預測步驟。

每個 merging cell 有4個預測步驟：

步驟1：從候選項中選擇一個特徵層；
步驟2：從候選項中選擇另一個特性層，無需替換；
步驟3：選擇輸出特性解析度
步驟4：選擇一個二進op，將步驟1和步驟2中選擇的hi和hj組合起來，生成具有步驟3中選擇的解析度的特徵層。

在步驟4中，我們在搜索空間中設計了兩個二進操作，sum和global pooling，如圖4所示：

谷歌大腦重磅研究：神經結構搜索發現全新特徵超越Mask R-CNN

圖4：Binary operations

實驗和結果

我們在實驗中使用了RetinaNet的開源實現。實驗設置細節請參考原論文。

模型在COCO train2017上進行訓練，大部分實驗採用COCO val2017進行評估。在表1中，我們報告了test-dev的準確度，以便與現有方法進行比較。

谷歌大腦重磅研究：神經結構搜索發現全新特徵超越Mask R-CNN

表1：使用NAS-FPN和其他最先進的檢測器的RetinaNet在COCO的test-dev set上的性能比較

架構搜索找到的特徵金字塔結構

什麼是好的特性金字塔結構？我們希望通過可視化所發現的架構來闡明這個問題。

在圖7(b-f)中，我們繪製了在RL訓練過程中獎勵逐漸提高的NAS-FPN架構。

谷歌大腦重磅研究：神經結構搜索發現全新特徵超越Mask R-CNN

圖7：NAS-FPN架構圖。

圖7中，每個點代表一個特徵層。同一行的特徵層具有相同的解析度。解析度在自底向上下降。箭頭表示內部層之間的連接。圖中左側是輸入層。金字塔網路的輸入用綠色圓圈標記，輸出用紅色圓圈標記。(a)基線FPN架構。(b-f)通過對RNN控制器的訓練進行神經結構搜索發現的7-cell NAS-FPN結構。(f)我們在實驗中使用的NAS-FPN。