當前位置:
首頁 > 新聞 > 復旦、清華和英特爾中國研究院ICCV新作:完全脫離預訓練模型的目標檢測方法

復旦、清華和英特爾中國研究院ICCV新作:完全脫離預訓練模型的目標檢測方法

復旦、清華和英特爾中國研究院ICCV新作:完全脫離預訓練模型的目標檢測方法

1新智元報道

復旦、清華和英特爾中國研究院ICCV新作:完全脫離預訓練模型的目標檢測方法

最近,由復旦大學、清華大學和英特爾中國研究院合作提出的一種新型的目標檢測方法 (DSOD) 被國際計算機視覺頂級會議ICCV 2017接收。論文標題為:DSOD: Learning Deeply Supervised Object Detectors from Scratch。

復旦、清華和英特爾中國研究院ICCV新作:完全脫離預訓練模型的目標檢測方法

論文地址:https://arxiv.org/abs/1708.01241。論文代碼:https://github.com/szq0214/DSOD。

論文在Arxiv放出之後,在社交網路上引起廣泛關注。本文對這個工作做一個詳細的解讀。

目標檢測存在的幾個痛點

目標檢測 (Object Detection) 作為一項重要的視覺任務廣泛應用於自動駕駛、監控、醫學圖像檢測等領域。眾所周知,目前所有基於深度學習的目標檢測方法都嚴重依賴於在ImageNet分類任務上預訓練(pre-train)的模型作為初始權重。根據論文中的觀點,這種預訓練+微調(pre-train + fine-tune)的方式主要存在以下幾個問題:

1、缺乏靈活性。在ImageNet上訓練模型代價非常高昂,如果只使用公開的預訓練的模型,將很難根據需要去靈活地調整模型結構。

2、Loss差異問題。由於ImageNet模型的類別和目標檢測問題的類別分布差別較大,分類的目標函數和檢測的目標函數也不一致,作者認為從預訓練模型上微調(fine-tune)可能和檢測問題的有一定的優化學習偏差. 這個偏差對於有限訓練樣本可能更突出。

3、問題域(domain)的不匹配。並不是所有檢測任務都是在自然RGB圖像上進行的,如醫學圖像、多譜圖像的檢測。目前能夠作為預訓練的大規模數據集幾乎只有ImageNet,而在自然圖片上預訓練,由於domain的巨大差異,很難在醫學圖像等domain上有效地微調(fine-tune)。

那麼有沒有一種方法能夠在完全脫離預訓練模型的情況下達到state-of-the-art的性能呢?

藉助CVPR2017最佳論文DenseNet特性

DSOD目的是為了解決這些痛點,該方法藉助於DenseNet (CVPR2017 best paper) 隱式的deeply supervised的特性,結合其他一些設計原則,成功地實現了目標檢測模型的從零開始訓練(training from scratch)。這是目前已知的第一篇在完全脫離ImageNet 預訓練模型的情況下使用深度模型l, 在有限的訓練數據前提下能做到state-of-the-art效果的工作,同時模型參數相比其他方法也要小很多。

DSOD的完整結構圖如下表1 :

復旦、清華和英特爾中國研究院ICCV新作:完全脫離預訓練模型的目標檢測方法

表1. DSOD網路結構圖

為了訓練出性能更好的檢測器,文章提出了如下幾個網路設計原則:

原則一:無障礙的梯度回傳

並不是所有框架都適合用來從頭開始訓檢測器。作者發現像Faster-RCNN、R-FCN這類基於region-proposal的框架,由於存在ROI pooling layer, 該層類似於一個mask,使得梯度沒法平滑的回傳到前面層,因此從零開始訓練的整個模型沒法收斂(或者收斂較差)。而YOLO、SSD這類框架由於是proposal-free的結構,模型可以收斂,但是結果和預訓練模型上微調有較大差距。

原則二:更深的監督信息

訓練深度模型一個很常見的問題就是梯度消失。一個比較常用的減緩梯度消失問題的方法是在網路中間層插入side-output loss項,讓網路靠近輸入層的神經元也能接收到比較強的梯度信號。但是DSOD拋棄了這種顯式的deep supervision結構,原因在於目前detection框架的loss項本身比較複雜,而且會使用多層feature來做檢測,所以不太適合插入多個這樣的loss項。DSOD採用了一種更加優雅的解決方案,通過藉助dense block中每一層都會連接到後面層上去的特點,避免了training from scratch過程中梯度消失的問題。在DSOD中,除了主幹網,預測層的結構也改變成dense的連接方式(見圖1),該結構不僅能大量減少需要學習的模型參數,同時能進一步提升模型性能。

復旦、清華和英特爾中國研究院ICCV新作:完全脫離預訓練模型的目標檢測方法

圖1. DSOD預測層結構示意圖

原則三:根(Stem)結構

根結構已經被應用於一些優秀的神經網路結構中,如google提出的Inception結構等。實驗結果表明,stem結構可以有效地保護輸入圖片信息的丟失,從而訓練出更加魯棒的檢測器。

以下是DSOD在PASCAL VOC 2007數據集上各部分有效性驗證實驗:

復旦、清華和英特爾中國研究院ICCV新作:完全脫離預訓練模型的目標檢測方法

表2. 網路各部分有效性驗證實驗

更多細節大家可以去閱讀原文。

表3是DSOD 在 PASCAL VOC 2007數據集上的「物體檢測」對比實驗結果(包括模型參數量,運行速度,輸入圖片大小,模型精度等):

復旦、清華和英特爾中國研究院ICCV新作:完全脫離預訓練模型的目標檢測方法

表3. VOC2007 test set上的實驗結果對比

從表中可以看出DSOD不僅模型參數更小 (僅為SSD的1/2, faster-rcnn的1/10),而且性能優於相同設置下的YOLOv2、SSD等。更重要的是DSOD模型不需要在ImageNet預訓練,也就是說該模型訓練圖像其實比其他state-of-the-art的方法少用了120萬張預訓練圖片!

下面是DSOD演算法的一些實際的檢測結果:

復旦、清華和英特爾中國研究院ICCV新作:完全脫離預訓練模型的目標檢測方法

圖2. 檢測結果示例圖

總結

在DSOD這篇論文中,作者首先分析了深度網路training from scratch存在的問題以及如何才能構建一個可以從零開始訓練的檢測器的網路,同時給出了非常詳細的指導和設計原則幫助讀者去構建這樣的網路。

基於這些原則,作者提出了DSOD模型,該模型不僅參數更少(適合於手機、無人機等資源受限的設備)、性能更強,更重要的是不需要在大數據集(如ImageNet)上預訓練,使得DSOD的網路結構設計非常靈活,根據自己的應用場景可以設計自己所需要的網路結構。

DSOD模型打破了傳統的基於預訓練+微調的檢測器訓練的藩籬,在有限數據集下,從零開始訓練就能得到state-of-the-art的目標檢測器,在自動駕駛、監控、醫學圖像、多譜圖像等領域將會擁有非常廣闊的應用前景。

點擊閱讀原文可查看職位詳情,期待你的加入~

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 新智元 的精彩文章:

自然語言處理頂會EMNLP最佳論文3項出爐:Facebook智能體創造「語言」獲獎
「獨家」寒武紀A輪融資1億美元,成全球AI晶元首個獨角獸,阿里參投
「中國AI實驗室項目巡禮」中大HCPLab:基於注意力機制學習的人臉幻構
「人腦理解又突破」神經網路繪製大腦神經迴路精度達到人類水平
「ImageNet最後的冠軍」顏水成:像素級標註數據集將引領計算機視覺下一個時代

TAG:新智元 |

您可能感興趣

3D列印技術在建築模型製作中的應用研究
解讀谷歌最強NLP模型BERT:模型、數據和訓練
谷歌 AI 最新博文:視頻模型中的模擬策略學習
為探究3D模型的構造,MIT科研人員研發逆向CSG系統
本體與COT聯合研發組在演算法選用、模型研究等方面取得快速進展
演算法天才蓋坤:解讀阿里深度學習實踐,CTR 預估、MLR 模型、興趣分布網路等
LEGO 發布全新《Harry Potter》霍格華茲魔法與巫術學院積木模型
過去的理論又錯了,兩篇研究長文報道CTLA-4抗體在腫瘤免疫治療中的新機制新模型
提升軟體安全成熟度 新思科技為華為開展BSIMM模型評估
FICO前首席科學家:風險信用模型的技術演進與未來
中國傳統文化中的那些精準的數理模型,新科學的誕生啟示錄
NVIDIA 遷移學習工具包:用於特定領域深度學習模型快速訓練的高級SDK
什麼是MAP?理解目標檢測模型中的性能評估
刷新中文閱讀理解水平,哈工大訊飛聯合發布基於全詞覆蓋中文BERT預訓練模型
展示的LCH全尺寸模型
將離策略評估看作分類,谷歌提出新型強化學習模型選擇方法OPC
NLP預訓練模型大集合
GE、IBM、寶潔公司領導力模型解讀
資源 | 最強預訓練模型BERT的Pytorch實現(非官方)
清華等提出ERNIE:知識圖譜結合BERT才是「有文化」的語言模型