CVPR2017論文解讀：單目圖像車輛3D檢測的多任務網路

知識 07-24

機器之心專欄

作者：賈思博

昨日，CVPR 2017獲獎論文公布，引起了業內極大的關注。但除了這些獲獎論文，還有眾多精彩的論文值得一讀。因此在大會期間，國內自動駕駛創業公司 Momenta 聯合機器之心推出CVPR 2017精彩論文解讀專欄，本文是此系列專欄的第一篇，作者為 Momenta 高級研發工程師賈思博。

論文：Deep MANTA: A Coarse-to-fine Many-Task Network for joint 2D and 3D vehicle analysis from monocular image

這篇文章主要處理單目圖像中的車輛檢測問題。車輛檢測是一個經典的基於圖像的目標檢測問題，也是智能駕駛感知過程的核心問題之一。現有的多種目標檢測框架如 Faster RCNN、YOLO 等已經可以較好地處理一般的目標檢測問題，但是在應用於車輛檢測時還有兩個主要的痛點：（1）現有目標檢測演算法在平均準確率（AP）衡量下可以做到較高精度，但是目標包圍框的定位（Localization）精度不夠，後者對於車輛檢測進一步分析有重要作用；（2）目標檢測局限在圖像空間中，缺乏有效演算法預測車輛在真實 3D 空間中的位置和姿態。

針對以上問題，作者在這篇文章中提出了一種基於單目圖像檢測車輛並預測 3D 信息的框架。在文章中，對於一個 3D 車輛目標的描述，包括：車輛包圍立方體的位置坐標，各個部件（如車輪、車燈等）的 3D 坐標、可見性、地平面方向上的旋轉角，以及車輛自身 3D 尺寸。下圖是車輛建模的示意圖。論文通過預測車輛自身 3D 尺寸，從標註的 3D 模型庫中找到最相近的 3D 模型，進一步根據預測出的部件的 2D 坐標與 3D 模型坐標進行 PnP 匹配得到車輛的 3D 位置與姿態。

論文使用的網路結構基於 Faster RCNN 框架。新的訓練方式最突出的特點有以下幾點：（1）網路不僅預測車輛包圍框，同時還預測車輛部件坐標、部件可見性、車輛自身尺寸等豐富的信息；（2）網路使用了級聯的結構（cascade）預測以上信息，在共享底層特徵（feature map）的同時提供足夠的擬合能力預測多種信息，並反覆回歸包圍框，提高定位精度；（3）在網路推測（inference）時使用上述預測的信息進行 2D/3D 匹配以得到車輛的 3D 姿態與位置信息。訓練/推測過程的流程圖如下圖。此外，論文還提出了適合這一訓練框架的標註方法，只需要標註 3D 空間下車輛的 3D 包圍框，程序可以自動從 3D 模型庫中找到尺寸最相近的模型，並根據姿態信息自動生成部件坐標、部件可見性。這一標註方案對於 KITTI 這類帶有 3D 信息的數據集來說是很方便的。

文章使用了 103 個標準車輛 3D 模型，每個模型包含 36 個部件坐標信息。網路基礎結構使用了 GoogleNet 以及 VGG16，具體訓練參數詳見文章第 5 節。模型在 KITTI 的車輛檢測、角度回歸、3D 定位任務中均達到了領先水平，驗證了這一方法的有效性。

Q&A

1.在多任務網路中是如何平衡各個任務的 loss，以及如何利用部件可見性這一任務的？

A：除了部件坐標外均使用經驗值 loss weight = 1，對於部件坐標嘗試 loss weight = 3 時效果更佳。部件可見性主要用於輔助網路學習部件坐標信息，在 inference 中並沒有用到這一信息。另外，在回歸部件坐標時，對於不可見的部件關鍵點沒有給 loss，對於可見的部件關鍵點給了 N_total／N_visible的 loss，即總的關鍵點個數比上可見的關鍵點個數，論文原文中沒有提到這一點。

2. 在分類不同車型時，為什麼回歸 Template similarity 即車輛尺寸與每一個模型的尺寸比例，而不是直接回歸車輛尺寸？如果有不同車型具有同樣尺寸怎麼辦？

A：使用 Template similarity 是一個簡便的提供歸一化的方法，如果直接回歸尺寸，對於不同的車型 scale 相差較大，效果不好。Caltech 模型庫中確實有可能出現同樣尺寸的情形，但從訓練結果看並沒有造成明顯的問題。

3. 關於作者提出的「弱標註方法」，是如何標註車輛的 3D 框的？

A：KITTI 數據集中有車輛的 3D groundtruth，所以可以直接生成 3D 框數據，不需要額外標註。對於真實環境下的數據，作者正在嘗試解決，現在還沒有一個比較有效的方案。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 機器之心 的精彩文章:

※LSTM入門必讀：從基礎知識到工作方式詳解
※CVPR 2017論文解讀：用於單目圖像車輛3D檢測的多任務網路
※被 AI 改變的遊戲設計，最終目的是為每個玩家定製遊戲
※微軟宣布新一代HPU，融入AI協處理器
※如何使用神經網路彈奏出帶情感的音樂？

TAG:機器之心 |

您可能感興趣

※63頁【深度CNN-目標檢測】綜述【PDF下載】
※硬體檢測工具AIDA64 v5.97版發布
※HI-1710A微波檢測系統
※3.15品質檢測——高頻內存可以穩定運行嗎？影馳GAMERⅡDDR4 3000 16GB內存套裝測試
※重磅！2018版中國NSCLC血液EGFR檢測專家共識發表！
※1460萬個目標檢測邊界框：谷歌開源Open Images V4數據集
※DAC2019低功耗目標檢測系統設計挑戰賽：GPU、FPGA雙冠軍方案解讀
※ECCV 2018 | 曠視科技Oral論文解讀：IoU-Net讓目標檢測用上定位置信度
※DAC 2019低功耗目標檢測系統設計挑戰賽：GPU、FPGA組雙冠軍方案解讀
※ResNet - 2015年 ILSVRC 的贏家（圖像分類，定位及檢測）
※天助AMD，i5 8400已經淪為智商檢測U
※《最終幻想15》PC配置公布官方提供檢測工具 GTX1060也不能60幀？
※2019 目標檢測指南
※探秘SSD檔案東芝RC100硬體檢測信息解讀
※第403期：智商檢測卡後繼有人？GTX1650配置推薦
※DAC 2018目標檢測系統挑戰賽落幕：中科院清華分獲GPU與FPGA冠軍
※IJCAI 2018｜海康威視：分層式共現網路，更好的動作識別和檢測
※IJCAI 2018 | 海康威視Oral論文：分層式共現網路，實現更好的動作識別和檢測
※1319期-1：技術CRISPR進化史—從基因編輯到基因檢測
※「ECCV 2018」谷歌AI超大規模圖像競賽，中國團隊獲目標檢測冠軍