CVPR清華大學研究，高效視覺目標檢測框架RON

新聞 07-12

1 新智元編譯

CVPR清華大學研究，高效視覺目標檢測框架RON

一項由清華大學計算機系智能技術與系統國家重點實驗室、清華國家信息實驗室、清華大學計算機科學與技術系、英特爾中國研究院、清華大學電子工程系的研究人員共同參與的關於高效視覺目標檢測的研究已經被 CVPR 2017 接收。論文題目是 RON: Reverse Connection with Objectness Prior Networks for Object Detection。研究者包括孔濤、孫富春、Anbang Yao、劉華平、Ming Lu 和陳玉榮。

基於深度網路的目標對象檢測可以分為 region-based 和 region-free 兩種方法

目標對象檢測領域正在取得重大進展，這主要得益於深度網路。當前最好的基於深度網路的目標檢測框架可以分為兩個主要方法流派：基於區域的方法（region-based）和不基於區域（region-free）的方法。

基於區域的方法將對象檢測任務分為兩個子問題：第一階段，將一個專用的候選區域生成網路（region proposal generation network）嫁接到可以生成高質量候選框的深度卷積神經網路（CNN）上；然後，在第二階段，一個區域性的子網（region-wise subnetwork）被設計來分類和改進這些候選框。使用非常深的 CNN ，Fast R-CNN 工作流程最近在主流對象檢測基準上顯示出了高精度。

region proposal 階段可以拒絕大多數背景樣本，因此對象檢測的搜索空間大大減少。多階段訓練過程一般是開發用於區域候選生成和後檢測的聯合優化。在 Fast R-CNN 中，區域性子網反覆評估成千上萬個 region proposal，以給出檢測分數。在 Fast R-CNN 工作流程下，Faster R-CNN 與檢測網路共享全圖像卷積特徵，實現幾乎零成本的 region proposal。最近，R-FCN 試圖通過添加敏感位置的分數圖，使 Faster R-CNN 的 unshared per RoI 計算可共享。然而，R-FCN 仍然需要區域候選網路產生的 region proposal。為了確保檢測精度，所有方法都將圖像的大小調整到足夠大的尺寸。在訓練和推理時間內，將圖像投餵給深度網路時，會有資源和時間的消耗。例如，使用 Faster R-CNN 預測（將約 5GB GPU 內存用於 VGG-16 網路）每個圖像通常需要 0.2 s。

另一個解決方案是不基於區域（region-free）的方法。這些方法將對象檢測視為一次性（a single shot）問題，使用全卷積網路（FCN），從圖像像素一直處理到邊界框坐標。這些檢測器的主要優點是效率高。從 YOLO 開始，SSD 試圖用多層深度 CNN 處理物體檢測問題。使用低解析度輸入，SSD 檢測器可以獲得最先進的檢測結果。然而，這些方法的檢測精度仍有改進的餘地：（a）沒有 region proposal，檢測器必須在檢測模塊就要抑制所有的負候選框。這將增加對檢測模塊進行訓練的難度；（b）YOLO 用最頂端的CNN 層檢測物體，沒有深入探索不同層的檢測能力。 SSD 嘗試通過添加前一層的結果來提高檢測性能。然而，SSD 仍然受困於 small instance 的問題，主要是由於中間層的信息有限。這兩個主要瓶頸影響了方法的檢測準確性。

是否能夠結合兩種方法的優勢，並消除其缺點？

這兩個解決方案的成功，也引出了一個關鍵問題：是否可能開發一個能夠巧妙地結合兩種方法的優勢並消除其主要缺點的良好框架？通過彌合基於區域的和不基於區域的方法之間的 gap，研究者對這一問題進行了回答。為了實現這一目標，研究者關注兩個基本問題：（a）多尺度對象定位。各種尺度的物體可能出現在圖像的任何位置，因此應考慮成千上萬個具有不同位置/尺度/方位的區域。先前的研究表明，多尺度表徵將顯著改善各種尺度的物體檢測。然而，這些方法總是在網路的一層檢測到各種尺度的對象。利用研究者提出的反向連接，對象將在其相應的網路尺度上被檢測到，這更容易優化；（b）負空間挖掘（Negative space mining）。對象和非對象樣本之間的比例嚴重不平衡。因此，對象檢測器應該具有有效的負挖掘策略。為了減少對象搜索空間，研究者在卷積特徵圖上創建了 objectness prior，並在訓練階段用檢測器聯合優化。

因此，研究者提出了 RON（Reverse connection with Objectness prior Networks）對象檢測框架，將基於區域和不基於區域的方法的優點聯繫起來。

CVPR清華大學研究，高效視覺目標檢測框架RON

上圖是 RON 對象檢測總覽。給定一張輸入圖像，網路首先計算骨幹網路的特徵。然後，（a）添加反向連接；（b）生成 objectness prior；（c）在相應的 CNN 尺度和位置上檢測物體。

CVPR清華大學研究，高效視覺目標檢測框架RON

上圖是生成自特定圖像的 objectness prior。在此例中，沙發表現為（a）和（b），棕色的狗表現為（c），斑點狗表現為（d）。在 objectness prior 的引導下，網路生成了檢測結果。

更多根據圖像生成的 Objectness Prior 圖

摘要

CVPR清華大學研究，高效視覺目標檢測框架RON

我們提出了 RON，一個有效、高效的通用對象檢測框架。我們的想法是巧妙地結合基於區域（region-based，例如 Faster R-CNN）和不基於區域（region-free，例如 SSD）這兩種方法的優點。在全卷積架構下，RON 主要關注兩個基本問題：（a）多尺度對象定位和（b）負樣本挖掘。為了解決（a），我們設計了反向連接，使網路能夠檢測多層 CNN 中的對象。為了處理（b），我們提出了 objectness prior，顯著減少對象搜索空間。我們通過多任務損失函數聯合優化了反向連接、objectness prior 和對象檢測，因此RON 可以直接預測各種特徵圖所有位置的最終檢測結果。

在PASCAL VOC 2007，PASCAL VOC 2012 和 MS COCO 基準測試的大量實驗證明了 RON 的出色性能。具體來說，使用 VGG-16 和低解析度 384×384 輸入，網路在 PASCAL VOC 2007 上獲得 81.3％ mAP，在 PASCAL VOC 2012 數據集上獲得80.7％ mAP。數據集越大，難度越大，優勢就越明顯。在 MS COCO 數據集上的結果就證明了這一點。測試階段使用 1.5G GPU 內存，網路速度為 15 FPS，比 Faster R-CNN 計數器快 3 倍。

論文地址：https://arxiv.org/abs/1707.01691

點擊閱讀原文查看新智元招聘信息

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 新智元 的精彩文章:

※「10億+數據集，ImageNet千倍」深度學習未來，谷歌認數據為王
※「谷歌大腦實習一周年」50 篇論文看機器學習、計算機視覺和自然語言趨勢
※谷歌重磅發2017學術影響因子：AI、視覺、機器人TOP20
※首發：商湯科技B輪融資4.1億美元創AI行業融資紀錄
※商湯科技B輪融資4.1億美元創AI行業融資紀錄

TAG:新智元 |

您可能感興趣