當前位置:
首頁 > 科技 > CVPR 2018 | 商湯科技提出GeoNet:用無監督學習感知3D場景幾何

CVPR 2018 | 商湯科技提出GeoNet:用無監督學習感知3D場景幾何


選自

arXiv


作者:Zhichao Yin等


機器之心編譯


參與:

Panda


 

 



有效的無監督學習方法能緩解對有標註數據的需求,無監督學習技術與視覺感知領域的結合也有助於推動自動駕駛等高價值技術的發展。近日,商湯科技的一篇 CVPR 2018 論文提出了一種可以聯合學習深度、光流和相機姿態的無監督學習框架 GeoNet,其表現超越了之前的無監督學習方法並可比肩最佳的監督學習方法。本論文的作者為 Zhichao Yin 和 Jianping Shi。機器之心對該論文進行了簡要介紹,更多詳情請參閱原論文。




理解視頻中的 3D 場景幾何是視覺感知領域內的一項基本主題。其中包括很多經典的計算機視覺任務,比如深度恢復、流估計、視覺里程計(visual odometry)。這些技術有廣泛的工業應用,包括自動駕駛平台、互動式協作機器人以及定位與導航系統等。


 


傳統的根據運動恢復結構(SfM:Structure from Motion)方法是以一種集成式的方式來解決這些任務,其目標是同時重建場景結構和相機運動。在穩健的和鑒別式的特徵描述系統、更有效的跟蹤系統以及更好地利用形義層面的信息等方面最近已經取得了一些進展。儘管如此,容易受到異常值和無紋理區域故障的影響的問題仍然還未完全消除,因為它們本質上依賴於高質量的低層面特徵對應。


 


為了突破這些局限,研究者將深度模型應用到了每個低層面子問題上,並且相對於傳統方法實現了顯著的增益。其中主要的優勢來自於大數據,這有助於為低層面的線索學習獲取高層面的形義對應,因此相比於傳統方法,即使在不適定(ill-posed)的區域,深度模型也能取得優良的表現。


 

儘管如此,為了保證在更一般的場景中也能表現優良,深度學習通常需要大量基本真值數據(groundtruth data)。在大多數情況下,需要基於昂貴的激光的設置和差分 GPS,這就限制了對大規模數據的獲取。此外,之前的深度模型大都是為解決單個特定任務而設計的,比如深度、光流、相機姿態等。它們沒有探索這些任務之間固有的冗餘性(redundancy),這可以通過幾何規律根據 3D 場景構建的本質性質來形式化。




最近已有工作研究了將這些問題與深度學習一起形式化。但所有這些工作都存在固有的局限性。比如,它們需要大量激光掃描的深度數據來進行監督學習,需要立體相機作為獲取數據的額外設備或不能明確處理非剛性(non-rigidity)和遮擋問題。


 


在這篇論文中,我們提出了一種無監督學習框架 GeoNet,可用於根據視頻聯合估計單眼深度、光流和相機運動。我們的方法基於 3D 場景幾何的本質性質。直觀的解釋就是大多數自然場景都由剛性的靜態表面組成,即道路、房屋、樹木等。它們投射在視頻幀之間的 2D 圖像運動完全由深度結構和相機運動決定。同時,行人和車輛等動態目標通常存在於這樣的場景中,而且通常具有大位移和擾亂性(disarrangement)的特點。


 


由此,我們使用了深度卷積網路來理解上述直觀現象。具體來說,我們的範式使用了一種 分治策略(divide-and-conquer strategy)。我們設計了一種全新的二級式級聯架構來適應地處理場景剛性流和目標運動。因此這個全局的運動域(motion field)可以逐步得到細化,讓我們的整個學習流程變成一種分解的且更易於學習的形式。由這種融合的運動域引導的視圖合成損失(view synthesis loss)可以為無監督學習實現自然的正則化。圖 1 給出了預測示例。





圖 1:我們方法在 KITTI 2015 上所得到的預測示例。從上到下:輸入圖像(序列中的一張)、深度圖和光流。我們的模型是完全無監督式的,並且可以明確地處理動態目標和遮擋。




第二個貢獻是我們引入了一種全新的自適應幾何一致性損失(geometric consistency loss)來克服純視圖合成目標中未包含的因素,比如遮擋處理和照片不一致問題。通過模仿傳統的前向-反向(即向左-向右)一致性檢查,我們的方法可以自動濾除可能的異常值和遮擋。預測一致的地方會在無遮擋區域中的不同視圖之間得到強化,而錯誤的預測則會被平滑處理掉,尤其是被遮擋的區域。


 


最後,我們在 KITTI 數據集的全部三項任務上全面地評估了我們的模型。我們的無監督方法的表現優於之前的無監督方法,並且可媲美監督方法的結果,這體現了我們的範式的有效性和優勢。




GeoNet 概述


 


我們提出的 GeoNet 能以一種無監督的方式通過 3D 場景幾何的本質性質來感知 3D 場景幾何。特別需要指出,我們分別使用了剛性結構重建器和非剛性運動定位器來分開學習剛性流和目標運動。我們採用了圖像外觀相似度來引導無監督學習,這無需任何標註成本就能泛化到無限多的視頻序列上。


 


圖 2 給出了我們的 GeoNet 的概覽圖。它包含兩個階段:剛性結構推理階段和非剛性運動細化階段。第一個推理場景布局的階段由兩個子網路構成,即 DepthNet 和 PoseNet。深度圖和相機姿態分別經過回歸處理後再融合到一起,得到剛性流。此外,第二個階段通過 ResFlowNet 實現,用於處理動態目標。ResFlowNet 學習得到的殘差非剛性流再與剛性流相結合,就推導出了我們的最終流預測。因為我們的每個子網路的目標都是解決一個特定的子任務,因此複雜的場景幾何理解目標就分解成了一些更簡單的目標。我們將不同階段的視圖合成用作我們的無監督學習範式的基本監督。


 


最後但並非不重要的是,我們會在訓練期間執行幾何一致性檢查,這能顯著提升我們的預測一致性並得到出色的表現。





圖 2:GeoNet 概覽。它由用於估計靜態場景幾何的剛性結構重建器和用於捕捉動態目標的非剛性運動定位器構成。為了解決遮擋和非朗伯(non-Lambertian)表面問題,我們在任意雙向流預測對內部使用了一致性檢查。





圖 4:Eigen et al. [9](通過深度進行監督)、Zhou et al. [56](無監督)和我們的方法(無監督)的單眼深度估計結果比較。為了可視化,中間插入了基本真值結果。我們的方法能取得精細結構的細節,並且在近和遠的區域都能始終保持高質量的預測。





表 1:根據 Eigen et al. [9] 中的指標,在 KITTI 2015 上得到的單眼深度結果。對於訓練,K 是指 KITTI 數據集,CS 是指 Cityscapes。其它方法的誤差取自 [15, 56]。我們用粗體標出了僅在 KITTI 上訓練所得到的最佳結果。Garg et al. [14] 的結果是在 50m 上限條件下得到的,我們將其單獨列出來比較。






圖 5:直接流學習方法 DirFlowNetS(使用了幾何一致性損失)和我們的 GeoNet 框架的比較。如圖所示,GeoNet 在有遮擋、紋理模糊的區域優勢明顯,甚至在暗淡的陰影區域也有優勢。




論文:GeoNet:密集的深度、光流和相機姿態的無監督學習(GeoNet: Unsupervised Learning of Dense Depth, Optical Flow and Camera Pose)







論文鏈接:https://arxiv.org/abs/1803.02276




我們提出了 GeoNet,這是一種可以從視頻中聯合學習單眼深度、光流和自我運動估計的無監督學習框架。這三個分量可以根據 3D 場景幾何的本質性質而組合到一起,通過我們的框架以一種端到端的方式聯合學習得到。具體而言,該框架可以根據單個模塊的預測提取幾何關係,然後可以將這些幾何關係組合成一個圖像重建損失,可用來分別推理靜態和動態的場景部分。此外,我們還提出了一種自適應幾何一致性損失,用以提升模型對異常值和非朗伯區域的穩健性,這能有效地解決遮擋和紋理模糊問題。我們在 KITTI 駕駛數據集上進行了實驗,結果表明我們的方法能在所有三項任務上實現當前最佳的結果,表現優於之前的無監督方法,並可與監督方法媲美。






本文為機器之心編譯,

轉載請聯繫本公眾號獲得授權


?------------------------------------------------


加入機器之心(全職記者/實習生):hr@jiqizhixin.com


投稿或尋求報道:editor@jiqizhixin.com


廣告&商務合作:bd@jiqizhixin.com

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 機器之心 的精彩文章:

英特爾開源nGraph編譯器:從多框架到多設備輕鬆實現模型部署
百萬級字元:清華大學提出中文自然文本數據集CTW

TAG:機器之心 |