復旦、清華和英特爾中國研究院ICCV新作：完全脫離預訓練模型的目標檢測方法

新聞 08-19

1新智元報道

復旦、清華和英特爾中國研究院ICCV新作：完全脫離預訓練模型的目標檢測方法

最近，由復旦大學、清華大學和英特爾中國研究院合作提出的一種新型的目標檢測方法 (DSOD) 被國際計算機視覺頂級會議ICCV 2017接收。論文標題為：DSOD: Learning Deeply Supervised Object Detectors from Scratch。

復旦、清華和英特爾中國研究院ICCV新作：完全脫離預訓練模型的目標檢測方法

論文地址：https://arxiv.org/abs/1708.01241。論文代碼：https://github.com/szq0214/DSOD。

論文在Arxiv放出之後，在社交網路上引起廣泛關注。本文對這個工作做一個詳細的解讀。

目標檢測存在的幾個痛點

目標檢測 (Object Detection) 作為一項重要的視覺任務廣泛應用於自動駕駛、監控、醫學圖像檢測等領域。眾所周知，目前所有基於深度學習的目標檢測方法都嚴重依賴於在ImageNet分類任務上預訓練(pre-train)的模型作為初始權重。根據論文中的觀點，這種預訓練+微調(pre-train + fine-tune)的方式主要存在以下幾個問題：

1、缺乏靈活性。在ImageNet上訓練模型代價非常高昂，如果只使用公開的預訓練的模型，將很難根據需要去靈活地調整模型結構。

2、Loss差異問題。由於ImageNet模型的類別和目標檢測問題的類別分布差別較大，分類的目標函數和檢測的目標函數也不一致，作者認為從預訓練模型上微調(fine-tune)可能和檢測問題的有一定的優化學習偏差. 這個偏差對於有限訓練樣本可能更突出。

3、問題域(domain)的不匹配。並不是所有檢測任務都是在自然RGB圖像上進行的，如醫學圖像、多譜圖像的檢測。目前能夠作為預訓練的大規模數據集幾乎只有ImageNet，而在自然圖片上預訓練，由於domain的巨大差異，很難在醫學圖像等domain上有效地微調(fine-tune)。

那麼有沒有一種方法能夠在完全脫離預訓練模型的情況下達到state-of-the-art的性能呢？

藉助CVPR2017最佳論文DenseNet特性

DSOD目的是為了解決這些痛點，該方法藉助於DenseNet (CVPR2017 best paper) 隱式的deeply supervised的特性，結合其他一些設計原則，成功地實現了目標檢測模型的從零開始訓練(training from scratch)。這是目前已知的第一篇在完全脫離ImageNet 預訓練模型的情況下使用深度模型l, 在有限的訓練數據前提下能做到state-of-the-art效果的工作，同時模型參數相比其他方法也要小很多。

DSOD的完整結構圖如下表1 ：

復旦、清華和英特爾中國研究院ICCV新作：完全脫離預訓練模型的目標檢測方法

表1. DSOD網路結構圖

為了訓練出性能更好的檢測器，文章提出了如下幾個網路設計原則：

原則一：無障礙的梯度回傳

並不是所有框架都適合用來從頭開始訓檢測器。作者發現像Faster-RCNN、R-FCN這類基於region-proposal的框架，由於存在ROI pooling layer，該層類似於一個mask，使得梯度沒法平滑的回傳到前面層，因此從零開始訓練的整個模型沒法收斂（或者收斂較差）。而YOLO、SSD這類框架由於是proposal-free的結構，模型可以收斂，但是結果和預訓練模型上微調有較大差距。

原則二：更深的監督信息

訓練深度模型一個很常見的問題就是梯度消失。一個比較常用的減緩梯度消失問題的方法是在網路中間層插入side-output loss項，讓網路靠近輸入層的神經元也能接收到比較強的梯度信號。但是DSOD拋棄了這種顯式的deep supervision結構，原因在於目前detection框架的loss項本身比較複雜，而且會使用多層feature來做檢測，所以不太適合插入多個這樣的loss項。DSOD採用了一種更加優雅的解決方案，通過藉助dense block中每一層都會連接到後面層上去的特點，避免了training from scratch過程中梯度消失的問題。在DSOD中，除了主幹網，預測層的結構也改變成dense的連接方式（見圖1），該結構不僅能大量減少需要學習的模型參數，同時能進一步提升模型性能。

復旦、清華和英特爾中國研究院ICCV新作：完全脫離預訓練模型的目標檢測方法

圖1. DSOD預測層結構示意圖

原則三：根(Stem)結構

根結構已經被應用於一些優秀的神經網路結構中，如google提出的Inception結構等。實驗結果表明，stem結構可以有效地保護輸入圖片信息的丟失，從而訓練出更加魯棒的檢測器。

以下是DSOD在PASCAL VOC 2007數據集上各部分有效性驗證實驗：

復旦、清華和英特爾中國研究院ICCV新作：完全脫離預訓練模型的目標檢測方法

表2. 網路各部分有效性驗證實驗

更多細節大家可以去閱讀原文。

表3是DSOD 在 PASCAL VOC 2007數據集上的「物體檢測」對比實驗結果（包括模型參數量，運行速度，輸入圖片大小，模型精度等）：

復旦、清華和英特爾中國研究院ICCV新作：完全脫離預訓練模型的目標檢測方法

表3. VOC2007 test set上的實驗結果對比

從表中可以看出DSOD不僅模型參數更小 (僅為SSD的1/2, faster-rcnn的1/10)，而且性能優於相同設置下的YOLOv2、SSD等。更重要的是DSOD模型不需要在ImageNet預訓練，也就是說該模型訓練圖像其實比其他state-of-the-art的方法少用了120萬張預訓練圖片！

下面是DSOD演算法的一些實際的檢測結果：

復旦、清華和英特爾中國研究院ICCV新作：完全脫離預訓練模型的目標檢測方法