當前位置:
首頁 > 知識 > CVPR2017論文解讀:單目圖像車輛3D檢測的多任務網路

CVPR2017論文解讀:單目圖像車輛3D檢測的多任務網路

機器之心專欄

作者:賈思博

昨日,CVPR 2017獲獎論文公布,引起了業內極大的關注。但除了這些獲獎論文,還有眾多精彩的論文值得一讀。因此在大會期間,國內自動駕駛創業公司 Momenta 聯合機器之心推出CVPR 2017精彩論文解讀專欄,本文是此系列專欄的第一篇,作者為 Momenta 高級研發工程師賈思博。

論文:Deep MANTA: A Coarse-to-fine Many-Task Network for joint 2D and 3D vehicle analysis from monocular image

這篇文章主要處理單目圖像中的車輛檢測問題。車輛檢測是一個經典的基於圖像的目標檢測問題,也是智能駕駛感知過程的核心問題之一。現有的多種目標檢測框架如 Faster RCNN、YOLO 等已經可以較好地處理一般的目標檢測問題,但是在應用於車輛檢測時還有兩個主要的痛點:(1)現有目標檢測演算法在平均準確率(AP)衡量下可以做到較高精度,但是目標包圍框的定位(Localization)精度不夠,後者對於車輛檢測進一步分析有重要作用;(2)目標檢測局限在圖像空間中,缺乏有效演算法預測車輛在真實 3D 空間中的位置和姿態。

針對以上問題,作者在這篇文章中提出了一種基於單目圖像檢測車輛並預測 3D 信息的框架。在文章中,對於一個 3D 車輛目標的描述,包括:車輛包圍立方體的位置坐標,各個部件(如車輪、車燈等)的 3D 坐標、可見性、地平面方向上的旋轉角,以及車輛自身 3D 尺寸。下圖是車輛建模的示意圖。論文通過預測車輛自身 3D 尺寸,從標註的 3D 模型庫中找到最相近的 3D 模型,進一步根據預測出的部件的 2D 坐標與 3D 模型坐標進行 PnP 匹配得到車輛的 3D 位置與姿態。

論文使用的網路結構基於 Faster RCNN 框架。新的訓練方式最突出的特點有以下幾點:(1)網路不僅預測車輛包圍框,同時還預測車輛部件坐標、部件可見性、車輛自身尺寸等豐富的信息;(2)網路使用了級聯的結構(cascade)預測以上信息,在共享底層特徵(feature map)的同時提供足夠的擬合能力預測多種信息,並反覆回歸包圍框,提高定位精度;(3)在網路推測(inference)時使用上述預測的信息進行 2D/3D 匹配以得到車輛的 3D 姿態與位置信息。訓練/推測過程的流程圖如下圖。此外,論文還提出了適合這一訓練框架的標註方法,只需要標註 3D 空間下車輛的 3D 包圍框,程序可以自動從 3D 模型庫中找到尺寸最相近的模型,並根據姿態信息自動生成部件坐標、部件可見性。這一標註方案對於 KITTI 這類帶有 3D 信息的數據集來說是很方便的。

文章使用了 103 個標準車輛 3D 模型,每個模型包含 36 個部件坐標信息。網路基礎結構使用了 GoogleNet 以及 VGG16,具體訓練參數詳見文章第 5 節。模型在 KITTI 的車輛檢測、角度回歸、3D 定位任務中均達到了領先水平,驗證了這一方法的有效性。

Q&A

1.在多任務網路中是如何平衡各個任務的 loss,以及如何利用部件可見性這一任務的?

A:除了部件坐標外均使用經驗值 loss weight = 1,對於部件坐標嘗試 loss weight = 3 時效果更佳。部件可見性主要用於輔助網路學習部件坐標信息,在 inference 中並沒有用到這一信息。另外,在回歸部件坐標時,對於不可見的部件關鍵點沒有給 loss,對於可見的部件關鍵點給了 N_total/N_visible的 loss,即總的關鍵點個數比上可見的關鍵點個數,論文原文中沒有提到這一點。

2. 在分類不同車型時,為什麼回歸 Template similarity 即車輛尺寸與每一個模型的尺寸比例,而不是直接回歸車輛尺寸?如果有不同車型具有同樣尺寸怎麼辦?

A:使用 Template similarity 是一個簡便的提供歸一化的方法,如果直接回歸尺寸,對於不同的車型 scale 相差較大,效果不好。Caltech 模型庫中確實有可能出現同樣尺寸的情形,但從訓練結果看並沒有造成明顯的問題。

3. 關於作者提出的「弱標註方法」,是如何標註車輛的 3D 框的?

A:KITTI 數據集中有車輛的 3D groundtruth,所以可以直接生成 3D 框數據,不需要額外標註。對於真實環境下的數據,作者正在嘗試解決,現在還沒有一個比較有效的方案。


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 機器之心 的精彩文章:

LSTM入門必讀:從基礎知識到工作方式詳解
CVPR 2017論文解讀:用於單目圖像車輛3D檢測的多任務網路
被 AI 改變的遊戲設計,最終目的是為每個玩家定製遊戲
微軟宣布新一代HPU,融入AI協處理器
如何使用神經網路彈奏出帶情感的音樂?

TAG:機器之心 |

您可能感興趣

63頁【深度CNN-目標檢測】綜述【PDF下載】
硬體檢測工具AIDA64 v5.97版發布
HI-1710A微波檢測系統
3.15品質檢測——高頻內存可以穩定運行嗎?影馳GAMERⅡDDR4 3000 16GB內存套裝測試
重磅!2018版中國NSCLC血液EGFR檢測專家共識發表!
1460萬個目標檢測邊界框:谷歌開源Open Images V4數據集
DAC2019低功耗目標檢測系統設計挑戰賽:GPU、FPGA雙冠軍方案解讀
ECCV 2018 | 曠視科技Oral論文解讀:IoU-Net讓目標檢測用上定位置信度
DAC 2019低功耗目標檢測系統設計挑戰賽:GPU、FPGA組雙冠軍方案解讀
ResNet - 2015年 ILSVRC 的贏家(圖像分類,定位及檢測)
天助AMD,i5 8400已經淪為智商檢測U
《最終幻想15》PC配置公布 官方提供檢測工具 GTX1060也不能60幀?
2019 目標檢測指南
探秘SSD檔案 東芝RC100硬體檢測信息解讀
第403期:智商檢測卡後繼有人?GTX1650配置推薦
DAC 2018目標檢測系統挑戰賽落幕:中科院清華分獲GPU與FPGA冠軍
IJCAI 2018|海康威視:分層式共現網路,更好的動作識別和檢測
IJCAI 2018 | 海康威視Oral論文:分層式共現網路,實現更好的動作識別和檢測
1319期-1:技術CRISPR進化史—從基因編輯到基因檢測
「ECCV 2018」谷歌AI超大規模圖像競賽,中國團隊獲目標檢測冠軍