馬斯克剛罵激光雷達，這篇純視覺代替激光雷達的名校論文力挺了他

新聞 04-24

昨天，第 N 次在公開場合 diss 激光雷達的馬斯克，再一次讓自動駕駛圈對無人車不同的感測器應用方案展開了熱議。

實際上，如果站在馬斯克的角度，我們其實不難理解他對激光雷達的「痛恨心理」。

畢竟特斯拉是一家面向普通消費者賣車的企業，而不是一家賣自動駕駛技術和解決方案的公司。

在至少 3 年內，無論是從成本、技術可靠性、安全性、美觀性甚至是用戶對自動駕駛的信任度和品味來看，大多數車企的量產車型，都不會把激光雷達納入考慮範疇。

當然，根據馬斯克說話常常打臉的經典表現來看，或許在幾年後他會自己站出來反駁自己堅持的觀點。

事實上，在「自動駕駛汽車究竟應該用不用激光雷達」這個問題上長時間的爭論不休，衍生出了「激光雷達派」與「純計算機視覺派」。

目前，一個被激光雷達派以及大眾普遍接受的觀點是，考慮到純視覺演算法在數據形式和精度上的不足，L3 級以上的自動駕駛乘用車必須要採用激光雷達。

當然，從谷歌 Waymo、通用 Cruise，再到百度阿波羅和國內的 Pony.ai、文遠知行等自稱 L4 級自動駕駛乘用車解決方案的公司，車頂上的激光雷達一直都非常扎眼。

而「計算機視覺派」的重要組成部分則是自動駕駛技術解決方案初創公司，但這個解決方案到底是多高的級別，其實目前沒有確切的定論。

通常情況下，「昂貴的成本」和「技術能力」是眾多車企與計算機視覺技術公司反對採用激光雷達的主要理由。

譬如作為一家主打攝像頭方案的技術創業公司，2017 年 AutoX 的「炫技首秀」就是讓一輛只搭載 7 個攝像頭的林肯 MKZ 跑在普通公路的車道上。雖然後來受到了來自激光雷達派的「反擊」，其創始人兼 CEO 肖健雄也一直堅持以攝像頭為主的感測器方案，

此外，部分高精地圖創業公司也強調從成本出發，採用低成本的攝像頭方案採集高精數據。

綜合來看，截至目前自動駕駛圈內最主流的觀點雖然是「該有的，一個都不能少」，但不難看出，做車廠的生意，對於計算機視覺公司來說，暫時性拋開激光雷達是個還不錯的主意；

而另一層面，對於計算機視覺工程師來說，想要在高級別自動駕駛解決方案上擺脫激光雷達，就要持續研究和驗證純視覺技術方案替代激光雷達的可行性。

因此，當大家還在圍觀「馬斯克罵激光雷達」時，我們想從機器之心擅長的角度出發，看看能否從技術上來「驗證」這個看似不太靠譜的觀點。

很湊巧，我們發現了一篇來自康奈爾大學的技術論文，作者中 Yan Wang 與 Wei-Lun Chao 均為華人。該論文提出了一種新方法來縮短純視覺技術架構與激光雷達間的性能差距。

該論文提出的方法，改變了立體攝像機目標檢測系統的 3D 信息呈現形式，甚至將其稱之為——偽激光雷達數據（pseudo-LiDAR）。

研究者在擋風玻璃兩側各使用一個相對廉價的攝像機，採用其新方法之後，該攝像機在目標檢測方面的性能接近激光雷達，且其成本僅為後者的一小部分。研究者發現以鳥瞰圖而不是正視圖來分析攝像機捕捉到的圖像可以將目標檢測準確率提升 2 倍，從而使立體攝像機成為激光雷達的可行替代方案，且其成本相比後者要低很多。

研究主題

可靠和穩健的 3D 目標檢測是自動駕駛系統的基礎要求。要想避免與行人、騎自行車的人、汽車相撞，自動駕駛汽車必須第一時間檢測出它們。

現有的演算法嚴重依賴激光雷達（LiDAR），它可以提供周邊環境的準確 3D 點雲。儘管激光雷達的準確率很高，但出於以下原因，自動駕駛行業急需激光雷達的替代品：

首先，激光雷達非常昂貴，給自動駕駛硬體增加了大量費用；

其次，過度依賴單個感測器會帶來安全風險，在一個感測器出現故障時利用備用感測器是較優的選擇。一個自然的選擇是來自立體攝像機或單目攝像機的圖像。光學相機性價比較高（比激光雷達便宜了多個數量級），且可以高幀率運行，能夠提供稠密深度圖，而激光雷達信號只有 64 個或 128 個稀疏旋轉激光束。

近期的多項研究探索了在 3D 目標檢測中使用單目攝像機和立體深度（視差）估計 [19, 13, 32]。但是，目前主要的成果仍然是激光雷達方法的補充。

例如，KITTI 基準上的一個頂尖演算法 [17] 使用感測器融合（sensor fusion）將汽車的 3D 平均精度（AP）從激光雷達的 66% 提升到了激光雷達+單目圖像的 73%。而在僅使用圖像的演算法中，當前最優演算法的 AP 僅為 10% [30]。

對後者較差性能的一個直觀且流行的解釋是基於圖像的深度估計準確率較低。

與激光雷達相反，立體深度估計的誤差隨著深度增加而呈現二階增長。但是，對激光雷達和立體深度估計器生成的 3D 點雲進行視覺對比後發現，這兩種數據模態之間存在高質量的匹配，甚至遠處的物體也是如此（詳見圖 1）。

馬斯克剛罵激光雷達，這篇純視覺代替激光雷達的名校論文力挺了他

圖 1：來自視覺深度估計的偽激光雷達（pseudo-LiDAR）信號。左上：KITTI 街景圖像，其中汽車周圍的紅色邊界框是通過激光雷達獲取的，而綠色邊界框是通過偽激光雷達獲取的。左下：估計到的視差圖。右：偽激光雷達（藍色）vs 激光雷達（黃色）。其中偽激光雷達點與激光雷達的點很好地對齊。

解決方案

這篇論文提供了另一種解釋——研究者假設立體攝像機和激光雷達之間性能差距的主要原因不在於深度準確率的差異，而是在於在立體攝像機上運行的 ConvNet 3D 目標檢測系統的 3D 信息表示。

具體來說，激光雷達信號通常被表示為 3D 點雲或者「鳥瞰」視角圖，並據此進行處理。在這兩種情況下，目標的形狀和大小都不會隨著深度而發生變化。

而基於圖像的深度估計主要是針對每個像素，通常被表示為額外的圖像通道，使得遠處的對象很小，不易被檢測到。更糟糕的是，這種表示的像素近鄰將 3D 空間中較遠區域的點聚集在一起，這就使得在這些通道上執行 2D 卷積的卷積網路更難推理，以及準確地定位 3D 空間中的物體。

為了驗證這一論斷，該研究引入了一種適用於立體攝像機 3D 目標檢測的兩步法。首先將來自立體攝像機或單目攝像機的估計深度圖轉換為 3D 點雲，即模擬激光雷達信號的偽激光雷達；然後利用現有的基於激光雷達的 3D 目標檢測流程 [23, 16]，直接在偽激光雷達表示上進行訓練。

通過改變偽激光雷達的 3D 深度表示，使基於圖像的 3D 目標檢測演算法獲得前所未有的準確率提升。具體來說，在 KITTI 基準上獲得 0.7 交並比（IoU）的汽車實例在驗證集上獲得了 37.9% 的 3D AP，比之前最優圖像方法的準確率提升了 2 倍。這樣就能把基於立體攝像機和基於激光雷達的系統之間的差距減半。

馬斯克剛罵激光雷達，這篇純視覺代替激光雷達的名校論文力挺了他

圖 2：用於 3D 目標檢測的兩步 pipeline。給定立體或單目攝像機圖像，研究者首先預測深度圖，然後將其轉換為激光雷達坐標系統中的 3D 點雲，即偽激光雷達。然後像處理激光雷達一樣處理它，因此任何基於激光雷達的 3D 檢測演算法都能在其上使用。

研究者對立體深度估計和 3D 目標檢測演算法的多種組合進行了評估，並得到了非常一致的結果。這表明性能的提升是由於使用了偽激光雷達表示，它較少依賴於 3D 目標檢測架構的創新或深度估計技術。

總之，該論文有以下貢獻：

首先，通過實驗證明，基於立體攝像機和基於激光雷達的 3D 目標檢測技術之間的性能差異不是因為估計深度的質量，而是因為表示。
其次，研究者提出了一種新型 3D 目標檢測估計深度表示——偽激光雷達，將之前的最優性能提升了 2 倍，達到了當前最佳水平。
這一研究結果表明，在自動駕駛汽車中使用立體攝像頭是可能的，這樣既能夠極大地降低成本，又能夠改進安全性能。

論文：Pseudo-LiDAR from Visual Depth Estimation: Bridging the Gap in 3D Object Detection for Autonomous Driving

馬斯克剛罵激光雷達，這篇純視覺代替激光雷達的名校論文力挺了他

論文鏈接：https://arxiv.org/abs/1812.07179

摘要：3D 目標檢測是自動駕駛的一項重要任務。如果 3D 輸入數據是通過精確但昂貴的激光雷達獲得的，那麼目前的技術可以獲得高度精確的檢測率。基於較便宜的單目攝像機或立體攝像機圖像數據的方法目前能夠達到的準確率較低，這種差距通常被歸因於基於圖像的深度估計技術缺陷。

然而，在本文中，研究者認為，數據表示（而非其質量）是造成這種差距的主要原因。研究者將卷積神經網路的內部工作原理考慮在內，提出將基於圖像的深度圖轉換為偽激光雷達表示——本質上是模擬激光雷達信號。有了這種表示，我們就能應用當下基於激光雷達的各種不同檢測演算法。

在流行的 KITTI 基準上，該論文提出的方法在基於圖像的性能方面取得了令人印象深刻的改進，超越當前最佳方法，將 30 米範圍內的目標檢測準確率從當前最佳的 22% 提高到了 74%。截至論文提交時，該論文提出的演算法在基於立體圖像方法的 KITTI 3D 目標檢測排行榜上達到了當前最高水平。

實驗

研究者通過不同的深度估計和目標檢測演算法，在不同的設置下評估了有/沒有偽激光雷達的情況下 3D 目標檢測的結果（如下表）。偽激光雷達得到的結果顯示為藍色，真實激光雷達的結果顯示為灰色。

馬斯克剛罵激光雷達，這篇純視覺代替激光雷達的名校論文力挺了他

表 1：3D 目標檢測結果。表中顯示了汽車分類的 AP_BEV / AP_3D 百分率、對應於鳥瞰圖和 3D 目標框檢測的平均精度。

馬斯克剛罵激光雷達，這篇純視覺代替激光雷達的名校論文力挺了他

表 4：行人和騎車人類別的 3D 目標檢測結果。研究者報告了 IoU = 0.5（標準度量）時的 AP_BEV / AP_3D，並將 PSMNET（藍色）估計的偽激光雷達和激光雷達（灰色）進行比較，兩者都使用 F-POINTNET 演算法。

馬斯克剛罵激光雷達，這篇純視覺代替激光雷達的名校論文力挺了他

圖 4：定性比較。研究者使用 AVOD 演算法對激光雷達、偽激光雷達和正視圖（立體）進行了比較。紅色框中的是 Groundtruth，綠色框中的是預測框；偽激光雷達圖像（下面一行）中的觀測者在最左邊向右看。正視圖方法（右）甚至錯誤計算了附近目標的深度，並且完全忽視了遠處的目標。

參考鏈接：

[1812.07179] Pseudo-LiDAR from Visual Depth Estimation: Bridging the Gap in 3D Object Detection for Autonomous Driving

「鏈接」

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 機器之心 的精彩文章:

※向「假臉」說 No：用OpenCV搭建活體檢測器

TAG:機器之心 |