成熟的目標檢測,也該自己學習數據增強策略達到SOTA了
機器之心報道
參與:思源、一鳴、李亞洲
只要數據增強就能在 COCO 數據集上達到當前最優,谷歌大腦 Quoc Le 等研究者表明,目標檢測中各種高大上的正則化方法,都不如自動數據增強來的實在。
2018 年,谷歌大腦的研究者在 arXiv 上發表論文,提出一種自動搜索合適數據增強策略的方法 AutoAugment。該方法創建一個數據增強策略的搜索空間,利用搜索演算法選取適合特定數據集的數據增強策略,從而在 ImageNet、CIFAR 等分類任務上取得了極好的表現。
今日,這支團隊再次宣布開源面向目標檢測的數據增強策略。
本文作者之一,谷歌大腦的創始成員、AutoML 的締造者之一 Quoc Le 在 Twitter 上表示,該策略能夠極大的已經檢測模型在他們基準上的表現。
- 論文鏈接:https://arxiv.org/abs/1906.11172
- Github 鏈接:https://github.com/tensorflow/tpu/tree/master/models/official/detection
Quoc Le 等研究者表示,儘管數據增強能極大的改進圖像分類表現,但它在目標檢測任務上的效果還未被透徹研究過。此外,目標檢測所用圖像的注釋會造成大量的成本,所以數據增強對此計算機視覺任務的影響可能會更大。在此研究中,作者們研究了數據增強在目標檢測上的影響。
在 COCO 數據集上的實驗結果說明,優化後的數據增強策略將檢測準確率提升了超過 2.3 mAP,使單推理模型能夠達到最佳效果——50.7 mAP。重要的是,COCO 數據集上發現的這種最佳策略可以直接遷移到其他目標檢測數據集上,同樣可以提升預測準確率。
左圖為 COCO 數據增強示例,右圖為帶(紅色)或不帶(黑色)學習的數據增強策略效果。
研究結果說明,在目標檢測方面,學習數據增強策略比最好的模型結構正則化更有效,即使在基線模型本身就很強的情況下也是如此。
目標檢測中的自動數據增強
最近的研究顯示,與其手動設計數據增強策略,不如讓模型從數據中學習優化策略。這樣可以顯著提升模型在圖像分類中的泛化表現。那麼,是否可以直接將圖像分類中的數據增強方法遷移到目標檢測中?或者說找到一種新的學習方案讓模型自己決定該怎樣做數據增強?
在這項研究中,研究人員建立了一些可以用在目標檢測數據集上的數據變換策略,並將這些策略遷移到其他檢測數據集和模型結構上。研究人員使用的變換策略包括一些可以在整張圖像中使用,但是不會影響邊界框位置的方法(例如,從圖像分類中借鑒的色彩變換策略)、也有通過改變邊界框位置從而影響整個圖像的策略(例如,翻轉或裁剪圖像),以及一些只對邊界框內的目標產生影響的變換策略。
當變換策略的數量變得較大時,人為地結合不同的策略變得難以追蹤。因此,研究人員只搜索針對目標檢測數據集的策略。實驗說明,這種策略在不同的數據集、不同的數據集大小、不同的模型結構和檢測演算法上都達到了非常好的效果。另外,研究人員探究了搜索空間中操作數量不同時,數據增強策略的表現,以及在不同數據集大小下增強技術的效果。
方法概要
研究人員將增強搜索視為視為離散的最優化問題,它的優化目標主要是增強策略的泛化性能。
他們定義一個增強策略為一個無序的、有 K 個子策略的集合。在訓練中隨機選擇子策略中的一個,並在當前圖像中使用。每個子策略都有 N 個圖像變換過程,它們依次應用到不同的圖像上。通過創建搜索空間,研究人員將搜索一個學習增強策略的問題轉換為離散的最優化問題。
在這篇論文中,搜索空間由 K = 5 個子策略構成,每個子策略有 N = 2 個操作,依照順序對單一圖像進行處理。此外,每個操作都和兩個超參數有關,這兩個超參數定義了採用操作的概率,以及操作的大小。如下所示,圖 2 展示了 5 個學習到的子策略。
學習數據增強子策略的例子。一張樣本圖像使用 5 個學習子策略,每列是對應不同子策略的隨機樣本。每個增強子策略都由三元組構成,包括操作、應用概率以及大小度量。為了確保邊界框與增強策略保持一致,可以調整邊界框位置。
在一些基本實驗中,研究人員發現了在搜索空間中發現了 22 種對目標檢測有收益的操作。這些操作可以簡要總結為:
- 顏色操作:扭曲顏色通道,不改變邊界框位置(例如,均衡化、對比化、改變亮度)。
- 幾何操作:幾何扭曲圖像,相對的也改變邊界框標註的位置和大小(例如,旋轉、剪切 X、轉換 Y 等)。
- 邊界框操作:只改變邊界框標註內的像素內容(例如,只在 BBox 內均衡化、只在 BBox 內旋轉、只在 BBox 內翻轉)。
實驗結果
研究者將自動增強方法應用到 COCO 數據集上,他們希望能找到一種可以泛化到其它目標檢測數據集上的增強策略,且模型只需要使用普通的 ResNet-50 和 RetinaNet 就行。研究者使用 COCO 數據集上搜索到的最優策略,並遷移到不同的數據集大小和架構配置以檢驗其泛化性。
在如下表 1 中,學習到的自動增強策略在不同的骨架網路上都能獲得對應的性能提升,後續的實驗都使用 ResNet-50 作為檢測器的骨架網路。
表 1:所有結果和性能增益都是在 RetinaNet 檢測器和 COCO 數據集上測試獲得的。
如下表 2 所示,為了更好地理解性能增益都來自哪些方面,研究者將數據增強策略拆為三部分:色彩操作、幾何操作和 bbox-only 操作。
表 2:通過學習到的增強策略提升目標檢測的性能,所有結果都是在 COCO 數據集上應用 RetinaNet 檢測器和 ResNet-50 骨幹網路獲得的。注意其中 DropBlock 為應用了當前最優的正則化方法,從而獲得比較不錯的性能提升。
如下圖 3 所示,正如研究者所預期的,學習的數據增強策略在訓練集非常小時,它獲得的性能增益會非常大。
圖 3:根據不同的目標樣本數量,數據增強策略在 mAP 上的提升百分比。
如下表 4 所示,當使用數據增強策略訓練時,研究人員不改變任何訓練參數,只將從 COCO 數據集上發現的策略在數據預處理中使用。這使得 mAP50 提升了 2.7 個百分點。
表 4:將學習到的增強策略遷移到其他目標檢測數據集上。其中 mAP 都是在 PASCAL VOC 2007 數據集上,使用 Faster R-CNN 檢測器的 ResNet-101 模型進行訓練和評價獲得的。


※2D人體動作遷移與特徵分解
※推理速度升5.1倍參數減少88%:谷歌提出新型卷積網路EfficientNet
TAG:機器之心 |