當前位置:
首頁 > 新聞 > CNN能同時兼顧速度與準確度嗎?CMU提出AdaScale

CNN能同時兼顧速度與準確度嗎?CMU提出AdaScale

對機器人和自動駕駛汽車等很多應用而言,視頻目標檢測都是很重要的。但在使用 CNN 執行這一任務時,速度與準確度往往不可得兼。卡內基·梅隆大學新提出的 AdaScale 方法卻實現了對這兩個要素的兼顧。介紹該方法的論文已被系統與機器學習會議(SysML)接收,該會議將於當地時間 3 月 31 日- 4 月 2 日在斯坦福大學舉辦。

論文:AdaScale: Towards Real-time Video Object Detection Using Adaptive Scaling

CNN能同時兼顧速度與準確度嗎?CMU提出AdaScale

論文地址:https://arxiv.org/abs/1902.02910

在機器人和自動汽車等具備視覺能力的自動系統中,視頻目標檢測發揮著關鍵的作用。為了提供可靠的操作,視頻目標檢測的速度和準確度都是重要的因素。我們在這篇論文中表明的關鍵見解是當涉及到圖像縮放時,速度和準確度並無必要權衡。我們的結果表明將圖像的尺寸重新調整到更低的解析度時,有時會得到更好的準確度。基於這一觀察,我們提出了一種全新的方法 AdaScale,可以自適應地選擇輸入圖像的尺寸,從而同時提升視頻目標檢測的準確度和速度。我們在 ImageNet VID 和 mini YouTube-BoundingBoxes 數據集上進行了實驗,結果分別在加速 1.6 和 1.8 倍的情況下實現了 1.3 和 2.7 個百分點的平均精度均值(mAP)提升。此外,我們還將 ImageNet VID 數據集上當前最佳的視頻加速工作提速了額外 1.25 倍,且 mAP 也略好一些。


引言

對於自動汽車、無人機和機器人等未來的自動智能體而言,視覺目標檢測是視覺認知的一個基本構建模塊。因此,為了構建性能可靠的系統,檢測器必須要快速且準確。儘管目標檢測非常適合靜態圖像(Dai et al., 2016; Girshick, 2015; He et al., 2014; Liu et al., 2016; Ren et al., 2015),但在視頻目標檢測方面還存在一些特有的挑戰,包括由物體移動造成的運動模糊、相機對焦失敗(Zhu et al., 2017a)以及自動智能體的實時速度限制。但是,除了這些難題之外,視頻目標檢測也會帶來可以利用的新機會。之前一些關注視頻目標檢測的研究試圖通過利用視頻的一種獨特特徵來提昇平均精度(Zhu et al., 2017a; Feichtenhofer et al., 2017; Kang et al., 2017),即時間一致性(連續幀有相似的內容)。另外,在速度方面,之前有研究(Zhu et al., 2017b; 2018b; Buckler et al., 2018)依靠這種時間一致性來降低獨立的目標檢測器所需的計算。類似地,我們的目標也是利用時間一致性,並使用一種名為自適應縮放測試(AdaScale/ adaptive-scale testing)的全新技術來同時提升獨立目標檢測器的速度和準確度。

輸入圖像的尺寸會同時影響基於 CNN 的現代目標檢測器的速度和準確度(Huang et al., 2017)。之前與圖像縮放相關的研究針對的是兩個方向:(1)為了得到更好準確度的多尺寸測試,(2)為了實現更高速度的圖像下採樣。第一類的例子包括將圖像調整為多個尺寸(圖像金字塔)並使它們通過 CNN 以實現多個尺寸的特徵提取(Dai et al., 2016; Girshick, 2015; He et al., 2014),然後通過一張單尺寸的輸入圖像生成的不同層來融合特徵圖(Lin et al., 2017a; Cai et al., 2016; Bell et al., 2016)。但是,相比於僅有單個尺寸的輸入,這樣的方法會引入額外的計算開銷。第二類的例子包括通過調整輸入圖像尺寸的 Pareto 最優搜索(Lin et al., 2017b; Liu et al., 2016; Redmon & Farhadi, 2017; Huang et al., 2017)以及根據輸入圖像進行的動態圖像尺寸調整(Chin et al., 2018)。但是,這樣的方法的結果表明,在進行圖像縮放時,更高速度的代價是準確度更低。

不同於之前的研究,我們發現下採樣有時候有助於提升準確度。具體而言,圖像下採樣能帶來兩類提升:(1)減少假正例(false positive)的數量,而關注不必要的細節可能會引入假正例;(2)增加真正例(true positive)的數量,方法是通過將過大的目標縮放到目標檢測器更有信心處理的尺寸。圖 1 表明,在我們在 ImageNet VID 數據集上使用基於區域的全卷積網路(R-FCN)(Dai et al., 2016)目標檢測器的實驗中,下採樣時得到的結果更好的圖像。

CNN能同時兼顧速度與準確度嗎?CMU提出AdaScale

圖 1:下採樣後的圖像得到的檢測結果更好的示例。藍框是檢測結果,數字是置信度。這個檢測器是在 600(短邊的像素)的單尺寸上訓練的。(a) 和 (c) 列是在 600 尺寸上的測試結果,(b) 列是在 240 尺寸上的測試結果,(c) 列則是 480。

受此啟發,我們的目標是將圖像調整至它們的最佳尺寸,以同時得到更高的速度和準確度。在這項研究中,我們提出了 AdaScale 來提升獨立目標檢測器的準確度和速度。具體來說,我們使用當前幀來預測下一幀的最佳尺寸。我們在 ImageNet VID 和 mini YouTube-BoundingBoxes 數據集上進行了實驗,結果分別在加速 1.6 和 1.8 倍的情況下實現了 1.3 和 2.7 個百分點的平均精度均值(mAP)提升。此外,通過結合在 ImageNet VID 數據集上當前最佳的視頻加速工作(Zhu et al., 2017b),我們為其提速了額外 25%,且 mAP 也略好一些。


自適應縮放

圖 2 展示了 AdaScale 方法的概況。其中包含微調目標檢測器、使用所得到的檢測器生成最優的尺寸標籤、使用所生成的標籤訓練尺寸回歸器以及 AdaScale 在視頻目標檢測中的部署。

CNN能同時兼顧速度與準確度嗎?CMU提出AdaScale

圖 2:AdaScale 方法

CNN能同時兼顧速度與準確度嗎?CMU提出AdaScale

圖 3:決定最優尺寸。首先,根據 4 個尺寸選擇相同數量的預測前景。然後,選擇損失最低的尺寸作為最優尺寸。

CNN能同時兼顧速度與準確度嗎?CMU提出AdaScale

圖 4:尺寸回歸模塊

為了將自適應縮放(AdaScale)整合進視頻環境中,我們施加了一個時間一致性假設。更確切地說,我們假設兩個連續幀的最優尺寸是相近的,我們的實驗結果也驗證了這一假設。演算法 1 是一個利用 AdaScale 進行視頻目標檢測的例子。

CNN能同時兼顧速度與準確度嗎?CMU提出AdaScale

演算法 1:在測試階段使用 AdaScale 的偽代碼


實驗

CNN能同時兼顧速度與準確度嗎?CMU提出AdaScale

圖 5:幾種類別的精度-回調曲線,MS/AdaScale 在 (a)(b)(c) 中有更好的性能,在 (d) 中性能相當,在 (e)(f) 中相較 SS/SS 更差

CNN能同時兼顧速度與準確度嗎?CMU提出AdaScale

圖 6:在驗證集中的所有圖像上,不同方法在這些類別上得到的歸一化的真正例和假正例情況

CNN能同時兼顧速度與準確度嗎?CMU提出AdaScale

圖 7:在 ImageNet VID 數據集上與之前最佳方法的 mAP 和速度比較。將我們的 AdaScale 應用於 RFCN (Dai et al., 2016)、DFF (Zhu et al., 2017a) 和 SeqNMS (Han et al., 2016) 時都能實現進一步的速度和準確度提升。

CNN能同時兼顧速度與準確度嗎?CMU提出AdaScale

圖 8:SS/SS 和 MS/AdaScale 結果的定性比較。(a) 和 (c) 列是 SS/SS 得到的結果,(b) 和 (d) 是 MS/AdaScale 得到的結果。MS/AdaScale 使用的尺寸標註在黑底白字矩形框中。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 機器之心 的精彩文章:

數據清洗&預處理入門完整指南

TAG:機器之心 |