CVPR2017論文解讀：基於視頻的無監督深度和車輛運動估計

知識 07-27

機器之心專欄

作者：單樂

本屆 CVPR 2017大會上出現了很多值得關注的精彩論文，國內自動駕駛創業公司 Momenta 聯合機器之心推出 CVPR 2017 精彩論文解讀專欄，本文是此系列專欄的第四篇，介紹了 UC Berkeley 與谷歌在大會上展示的 Oral 論文《Unsupervised Learning of Depth and Ego-Motion from Video》，作者為 Momenta 高級研發工程師單樂。

給定一張圖像，人類可以根據以往的視覺經驗推斷出 3D 景深，而如何讓計算機從單張圖片推斷 3D 結構一直是計算機視覺領域的難點和熱點。現有的一些 CNN+Depth 或者 CNN+SLAM 的工作大概可以分為：直接利用深度圖進行監督學習，以及利用幀間轉移的 ground-truth pose 進行監督學習。然而，這類監督學習的方法需要的數據成本較高，難以獲取大規模訓練數據。在小數據集上訓練，往往導致這些方法在沒有見過的場景下並不 work，給人的感覺是 CNN 與深度估計以及 SLAM 的結合都停留在實驗室和 paper 上，尤其是自動駕駛場景下面臨著複雜多變的道路場景，這些監督學習的方法都不太適用。而今天分享的這篇論文，採用了無監督的方法針對視頻數據進行訓練，從而對單張圖片的深度以及連續幀之間的車輛運動進行估計，可以對大量已知相機內參的視頻數據進行訓練，為 CNN 在自動駕駛領域的應用帶來的新的啟發。

這篇論文用視頻連續幀的不同視角的幾何信息作為監督信號訓練了一種端到端的單目圖像深度估計和車輛運動估計的 framework，如圖 1 所示，包括一個用於單一視角深度估計的 Depth CNN，以及用於連續幀間運動估計的 Pose CNN，通過將當前幀圖像結合預測的深度圖以及幀間轉移投影到臨近幀上，計算像素誤差作為訓練的 loss，對兩個網路進行聯合訓練。預測階段，兩個網路可以獨立使用進行推理。在 KITTI 數據集上的評估結果顯示，該方法和之前用 ground-truth pose 或者 depth 進行監督的方法性能是相當的，並且運動估計的結果和現有的通用 SLAM 方法性能相當。

圖 1

這種用 multi-view observations 來學習 single-view depth 以及幀間轉移的方法是基於預測結果和多視角觀察之間的「幾何一致性」（geometrically consistent）。個人認為這篇論文的亮點主要在於：1、提出了一種無監督的方法，使網路可以用更多的場景進行訓練; 2、顯式的使用了 optical-flow 的 pipeline，這樣可以保證網路必須同時學到深度估計和幀間轉移估計才能使 loss 最小; 3、利用卷積-反卷積的網路結構以及引入了 multi-scale 和 smoothness loss 的機制來解決 gradient locality 的問題; 4、提出了 explainability mask, 用於解決圖像中的運動物體以及隨視角變化的遮擋情況。

演算法介紹

首先介紹該方法的網路框架，如圖 2 所示，對於 single-view depth 網路，輸入為單張圖像，網路結構是在 DispNet 的基礎上加上了 multi-scale 的輸出。對於 Pose/explainability network，輸入為連續幀的切片，網路結構為兩個網路共享前幾層卷積，預測出 6-DoF 的幀間轉移 pose 之後，再進行反卷積，輸出不同 scale 的 explainability mask。這種卷積再反卷積的網路結構比較經典，廣泛應用於深度預測（Flow-net 等），論文中給出的解釋是這種結構有利於梯度傳播以及得到全局 smooth 的深度圖。值得一提的是論文提出的 explainability mask, 我們知道，這種 warping 圖像的方式，如果兩幀圖像中存在運動物體或者有較大的隨視角變化的遮擋情況，那即使利用 ground-truth pose 用於 warping，得到的 loss 也不為 0。explainability mask 就是為了解決這一問題，將 mask 乘在對應尺度的像素誤差上，即得到最後的誤差。這也會引入另一個問題，即該 mask 為全零時 loss 為 0, 為了解決該問題，通過計算該 mask 與 1 的交叉熵，加入了一個正則項。也就是說，只有在 single-view depth network 輸出正確的深度，Pose network 輸出了正確的幀間轉移，同時 explainability mask 正確的覆蓋了運動物體及遮擋區域以及演算法無法解釋的區域時，網路的 loss 才為最小。

圖 2

該方法利用 Cityscapes 及 KITTI 數據集進行訓練和評估，性能和之前經典的監督學習方法相當，具體數據不再贅述。值得一提的是，該方法直接在 Make3D 數據集上進行 test，得到的結果也很好，說明該方法在某種程度上可以根據場景布局推理出深度信息。

拓展

從自動駕駛應用的角度來看這篇論文，首先是無監督的方法使大規模的訓練成為可能，其次該方法即使 pose 估計的精度不能滿足實際應用，但單張圖像的深度圖也對特徵點的選擇有很好的指導意義，比如可以篩選掉較遠處的特徵點，在近處區域提取更多的特徵點等。最後，該方法提出的 explainability mask，該 mask 可以解決 SLAM 中的重要問題，即如何濾除場景中的運動物體，並且更近一步的來看，如果該 mask 確實得到了不利與計算幀間轉移的圖像部分，直接用該 mask 對特徵點或者像素點進行篩選，也許能得到很好的效果。

Q & A

在 CVPR 的 poster 環節和作者進行了面對面的交流，以下為我提的問題以及作者的回答。

Q：網路的輸出結果並不是真實的深度，缺少尺度信息？看起來網路要學習的任務很多，要學習預測 depth、學習預測幀間轉移、學習可解釋的 mask，會不會比較難訓練?

A：這種無監督的方法的輸出是尺度模糊的, 所以並不能得到真實的 depth，我在 SLAM 的相關實驗中加入了一個 scale factor。關於網路的訓練，code 已經開源，你可以自己試一下。

Q：網路的 loss 中的幾個參數會不會對網路的 performance 有很大的影響？應該怎麼調節？去掉 explainability mask 對於結果的影響怎麼樣?

A：網路的 performance 對那幾個參數比較敏感，尤其是對最後一個 mask 的參數特別敏感。對不同的數據集，要在 validation 集上進行手動的參數調整。explainability mask 對結果的影響取決於訓練的數據集，比如在 KITTI 數據集上，去掉 mask 對結果影響不大。

Q：如果 pose cnn 輸出的兩幀之間的轉移過大時，怎麼保證投影點和 match point 距離過遠時 loss 仍有意義？

A：這個問題我也發現了，所以在訓練時會以很小的幀間轉移來初始化 pose cnn。

Q：有沒有試過先監督 pose cnn，或者對 depth cnn 進行監督，然後在更大的數據集上進行 fine-tune？有沒有在更大的數據集上試過？

A：還沒有試過，但是先加上一定的監督肯定會對網路的 performance 有提高。網路訓練需要已知內參的視頻數據，條件所限，沒有在其他數據集上試過。我知道一些做無人駕駛的公司有很豐富的已知內參的視頻數據，他們可以嘗試一下這種方法。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 機器之心 的精彩文章:

※如何使用深度強化學習幫助自動駕駛汽車通過交叉路口？
※中國的AI：演算法王國
※十餘家 AI 創業公司，深度解讀國務院新一代 AI 發展規劃
※如何用深度學習做自然語言處理？這裡有份最佳實踐清單
※CVPR 2017最佳論文解讀：密集連接卷積網路

TAG:機器之心 |

您可能感興趣

※2018年22g POCKET全運動MINI運動相機
※運動達人標配索尼WF-SP700N運動降噪豆體驗
※2017 CRAZY 1 ADV PRIMEKNIT 情侶款運動鞋黑色
※奧迪 Q7 45 TFSI S Line運動型
※液晶運動畫質新標杆！索尼2018年X9000F電視首測
※運動新體驗索尼WF-SP700N無線防水降噪耳機
※2018雷克薩斯ES顏值秒殺BBA，搭載3.5L V6引擎，增加新F運動裝飾
※續航怪獸華米AMAZFIT智能運動手錶2代深度評測（一）
※實現90fps，SteamVR為WMR提供運動二次投影測試
※酷似Air max 270 ？LV 時尚運動鞋「 VNR」登場！
※運動健身可穿戴公司WHOOP融資2500萬美元，體育視頻分析技術公司Double Blue被收購
※全無線、動無羈–索尼「運動豆」WF-SP700N 上手談
※運動降噪豆索尼WF-SP700N無線耳機圖賞
※NIKE AIR HUARACHE CITY LOW 女子運動鞋款式：AH6804-600
※繼續「無運動」，FLAM 2018春夏系列型錄發布
※NIKE AIR MAX LD-ZERO 男子女子運動鞋款式：896495-002
※運動輕體驗，全新輕運動無線耳機WI-SP500
※1798 元，GoPro 推出入門級 HERO 運動相機
※無線「防水」索尼WI-SP500運動耳機開箱
※解密IFBB國際運動營養師成為2017年度最火課程的真正原因