當前位置:
首頁 > 科技 > TU Ilmenau提出新型Complex-YOLO,實現點雲上實時3D目標檢測

TU Ilmenau提出新型Complex-YOLO,實現點雲上實時3D目標檢測

圖源:unsplash

原文來源:arXiv

作者:Martin Simon、 Stefan Milz、Karl Amende、Horst-Michael Gross

「雷克世界」編譯:KABUDA、EVA

基於激光雷達的三維目標檢測對於自動駕駛而言是不可避免的選擇,因為它與對環境的理解直接相關,從而為預測和運動規劃奠定了基礎。對於除了自動化車輛之外的許多其他應用領域,例如增強現實、個人機器人或工業自動化,對實時高度稀疏的三維數據進行推斷的能力是一個不合適的問題。我們引入了Complex-YOLO,這是一種最先進的僅針對點雲(point clouds)的實時三維目標檢測網路。在本研究中,我們描述了一個網路,該網路通過一個特定的複雜的回歸策略來估計笛卡爾空間(Cartesian space)中的多類三維立方體,從而擴展YOLOv2(一種用於RGB圖像的一個快速二維標準目標檢測器)。因此,我們提出了一個特定的Euler區域提議網路(Euler-Region-Proposal Network,E-RPN),通過在回歸網路中添加一個虛構的和一個真實的分數來估計目標的姿勢。這是在一個封閉的複雜空間中結束的,從而避免了單角度估計的奇異性。E-RPN支持在訓練過程中進行良好的泛化。我們在KITTI基準套件上進行的實驗表明,我們的性能優於當前領先的三維目標檢測方法,尤其在效率方面。我們取得了對汽車、行人和騎車者進行測試的最先進的結果,比最快的競爭者快5倍以上。此外,我們的模型能夠同時以高精確度估計所有的8個KITTI類,包括貨車、卡車或坐著的行人。

近年來,隨著汽車激光雷達感測器的巨大完善,點雲處理對自動駕駛而言變得越來越重要。供應商的感測器能夠實時提供周圍環境的三維點。其優點是直接測量所包含的目標之間的距離。這使我們能夠開發出用於自動駕駛的目標檢測演算法,該演算法能夠精確地估計出三維中不同目標的位置和航向。與圖像相比,激光雷達點雲稀疏,其密度分布在整個測量區域中變化。這些點是無序的,它們在本地進行交互,並且主要是不能被孤立分析。點雲處理對於基本轉換應該是始終保持不變的。

Complex-YLOL是一個非常有效的模型,可直接在僅基於激光雷達的鳥瞰RGB視圖上進行操作,以估計和精確定位3D多類邊界框。該圖的上半部分顯示了諸如預測目標等基於Velodyne HDL64電雲的鳥瞰圖,下半部分顯示3D邊界框被重新投影至圖像空間中。注意:Complex-YOLO僅基於激光雷達進行操作,而不需要相機圖像作為輸入

一般而言,基於深度學習的目標檢測和分類是眾所周知的任務,並且在圖像的2D邊界框回歸的建立中得到了廣泛應用。研究的重點主要是精確度和效率的權衡。在自動駕駛領域,效率更為重要。因此,最好的目標檢測器往往使用區域提議網路(RPN)或類似的基於網格的RPN方法。這些網路非常高效、準確,甚至能夠在專用的硬體或嵌入式設備上運行。儘管點雲上的目標檢測依然很少,但它們正變得越來越重要。這些應用程序需要能夠預測3D邊界框。目前,主要有三種不同的深度學習方法:

?使用多層感知器的直接點雲處理。

?通過使用卷積神經網路(CNN)將點雲轉換為體素或圖像堆棧。

?組合式融合方法。

最近,基於Frustum的網路在KITTI 基準套件中表現出了很好的性能。該模型在3D目標檢測方面排名第二,在汽車、行人和騎行者的鳥瞰檢測方面同樣排名第二。這是唯一的方法,它直接使用Point-Net直處理點雲,而不使用激光雷達數據和體素創建中的CNN。然而,它需要預處理,因此它必須使用相機感測器。基於另一個對標定的相機圖像進行處理的CNN,它通過利用這些檢測將全局雲點最小化到基於截面的已減少點雲。這種方法有兩個缺點:(1)模型的精準度在很大程度上依賴於相機圖像及其相關的CNN。因此,該方法不可能僅適用於激光雷達數據。(2)整個管道需要連續運行兩種深度學習方法,這會導致運算時間更長而效率更低。參考模型在NVIDIA GTX1080i GPU上大約以7fps的低幀率運行。

與之相反,Zhou等人提出了一種僅適用於激光雷達數據的模型。就這方面而言,它是KITTI上僅使用激光雷達數據進行3D和鳥瞰探測的最佳模型。其基本思想是在網格單元上運行端到端的學習,而不使用人工製作的特徵。網路單元格的內部特徵是在訓練期間利用Pointnet方法學習的。在頂部建立一個預測3D邊界框的CNN。儘管擁有很高的精準度,但該模型在TitanX GPU上的最快運算時間為4fps。

Chen等人報道了另一種排名很靠前的方法。其基本思想是利用人工製作的特徵將激光雷達點雲投影到基於體素的RGB地圖上,如密度、最大高度和一個具有代表性的點強度。為了獲得具有更高精準度的結果,他們使用了基於激光雷達的鳥瞰圖,基於激光雷達的前視圖以及基於相機的前視圖的多視圖方法。這種融合處理需要很長時間,即便在NVIDIA GTX 1080i GPU上也僅為4fps。另一個缺點是需要輔助感測器輸入(相機)。

空間真實數據分布。上圖左側的樣本檢測描繪了鳥瞰區域的大小,右側圖顯示了《我們準備好了自動駕駛嗎? kitti視覺基準套件》中所注釋的2D空間直方圖。該分布概述了用於注釋的照相機的水平視野以及地圖中遺留的盲點

性能比較。該圖顯示了與運行時間(fps)相關的mAP。所有模型都在Nvidia Titan X或Titan Xp上進行測試。Complex-Yolo的運行速度比KITTI基準測試中最有效的競爭對手快5倍,進而獲得準確的結果。我們在一個專用的嵌入式平台(TX2)上對我們的網路進行了測試,並與五種領先的模型進行了比較,結果表明我們的網路具有合理的效率(4fps)。Complex-Yolo是首個用於實時3D目標檢測的模型

本文首次提出了基於激光雷達的點雲3D目標檢測的第一個實時高效深度學習模型。我們在KITTI基準測試套件中就精準度(如上圖所示)而言突顯了我們最新的成果,其卓越的效率超過50fps(NVIDIA Titan X)。我們不像大多數主流方法那樣需要額外的感測器,例如相機。這一突破是通過引入新的E-RPN(一種藉助複雜數字來估計方位的Euler回歸方法)實現的。無奇點的封閉數學空間允許魯棒角度預測。

我們的方法能夠在一條前進的道路上同時檢測多種類別的目標(例如:汽車、火車、行人、騎行者、卡車、有軌電車、坐著的人等)。這種全新的方法可以在自動駕駛汽車中實現落地應用,並且以此來區別於其他車型。我們甚至在專業的嵌入式平台NVIDIA TX2(4fps)展示了實時性能。在今後的研究工作中,我們計劃在回歸中加入高度信息,在空間中真正實現獨立3D目標檢測,並在點雲預處理過程中利用速度-空間相關性,以獲得更好的分類性能和更高的精準度。

原文鏈接:https://www.arxiv-vanity.com/papers/1803.06199/


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 雷克世界 的精彩文章:

這才是有用的機器人:銀行網點服務已超500萬人次
谷歌大腦等提出使用off-policy演算法的機器人抓取任務基準

TAG:雷克世界 |