用單張圖片推理場景結構：UC Berkeley提出3D景深聯合學習方法

新聞 07-13

選自BAIR Blog

作者：Shubham Tulsiani、Tinghui Zhou

機器之心經授權編譯

參與：smith、蔣思源、李澤南

最近，UC Berkeley 的研究人員撰文介紹了他們在計算機視覺研究中的最新成果：利用單幅圖片進行 3D 推斷的計算模型。據介紹，新的方法可以在未經有標記數據訓練的情況下達成很好的表現。這種方法在無人駕駛汽車等領域具有很大潛力，同時，研究人員認為構建新模型的原則也可以應用到機器學習的其他領域中。目前，該研究相關的兩篇論文已經提交 CVPR2017 大會。

用單張圖片推理場景結構：UC Berkeley提出3D景深聯合學習方法

給定一張平面圖，人類很容易推斷出潛在場景豐富的三維結構。因為從平面圖推斷立體結構是一種模糊性的任務（如下圖左邊），我們必須依賴過去的視覺經驗。這些視覺經驗都是從三維世界在二維上的投影（視網膜上的投影）而獲得的。因此，我們的三維感知能力的學習信號可能就來源自在世界不同的角度間建立起一致性聯繫，從而獲取三維真實世界的信息。UC Berkeley 的研究人員提出了一種類人的方法，該方法可以構建三維場景的預測系統。

用單張圖片推理場景結構：UC Berkeley提出3D景深聯合學習方法

構建單幅圖片 3D 推斷的計算模型一直是計算機直覺中探討的問題。早期的 Blocks World（論文：Machine perception of three-dimensional solids）或 3D surface from line drawings（論文：Interpreting Line Drawings as Three-Dimensional Surfaces）等項目都是利用幾何線索的顯式推理來優化三維結構。近年來，利用監督學習方法可以獲得更加真實的設定和三維表徵的定性推斷（Hoiem et al.）或定量推斷（Saxena et al）。在真實設定中獲得優秀成果的趨勢已經隨著目前基於 CNN 實體（e.g. Eigen & Fergus, Wang et al.）的發展而進步，但它是以增加直接 3D 監督為代價的，所以這種範式相當有限。獲得這種大規模監督數據的成本是巨大的，因此我們希望我們的計算系統能像人一樣不需要 3D 監督而學習進行 3D 預測。

考慮到這一目標，我們的研究工作和其他最近的方法都在探索另外一種形式的監督：為學習單視角的三維結構而建的多視角觀察（multi-view observations）。有趣的是，這些不同的研究工作不僅分享了合并多視角監督這一目標，同時應用的方法都遵循共同的原則。這些方法的統一基礎是學習和幾何之間的相互作用，學習系統所進行的預測期望和多視角觀察得到「幾何一致性（geometrically consistent）」。因此，幾何學就成為了學習系統和多視角訓練數據間的橋樑。

通過幾何一致性（Geometric Consistency）進行學習

我們的目的是去學習一個預測器 P（通常是一個神經網路），它可以根據單幅 2D 圖像推斷出 3D 結果。在監督環境下，訓練數據包含不同視角的多種觀測結果。就像之前提示的那樣，幾何圖形就像一個橋樑，它使用訓練數據來學習預測器 P。這是由於我們清楚地知道在簡明的幾何方程的形式下，3D 表徵和對應的 2D 投影之間的關係。因此我們就可以通過訓練 P 來預測 3D 結果，此 3D 表徵和與其相關聯的 2D 觀察結果是保持幾何一致性的。

用單張圖片推理場景結構：UC Berkeley提出3D景深聯合學習方法

為了說明訓練過程，在預測器 P 和幾何輸出之間設置了一個簡單的策略網路，檢驗器 V。我們給 P 輸入一個單一的圖像 I，而且它預測出了一個 3D 形狀 S. V，然後此 3D 形狀 S. V 會被給予預測結果 S，和一個來此不同相機視角 C 的觀測結果 O，它會使用幾何方程來驗證這些結果是否是一致的。我們讓 P 去預測 S，從而能通過 V 的一致性檢測。其中的核心就是由於 P 不知道（O，C）將要用來驗證其預測結果，它將不得不去預測與所有可能觀察結果相一致的 S（與未知的真實值 Sgt 相似）。這就使我們要定義下面的訓練演算法，從而在僅使用多視角監督（multi-view supervision）的情況下來學習從 2D 到 3D 的預測結果。

選取一個隨機訓練圖像 I，此圖像與從視角 C 觀察到的結果 O 相關。
預測 S=P(I)。使用 V 來檢測（S,O,C）的一致性。
更新 P，使用梯度下降，使 S 與（O，C）更一致。
重複此過程直至其收斂。

近期使用多視角監督來推行單一視角預測的方法全部遵守此模板，差異就是被推行的 3D 預測形式（例如深度或形狀），和所需多視角觀察結果的種類（例如彩色圖像或者前景模板）。我們現在正在關注的兩篇論文可以推進多視角監督模型的發展。第一篇論文利用經典射線一致性公式引入了一個一般的檢驗器，可以測量 3D 形狀與不同種類觀測結果 O 間的一致性；而第二篇論文說明了進一步解放所需要的監督是具有可能性的，並且提出了一個方法來學習從 2D 到 3D 的預測結果，它甚至沒有利用訓練時所需的相機視角 C。

可微分射線一致性（Differentiable Ray Consistency）

在我們近期的論文中，我們制定了一個檢驗器 V 來測量 3D 形狀（表現為一個概率佔據網格）和 2D 觀察結果間的一致性。我們的通用性公式通過利用不同種類的多視角觀察結果來對體積式的 3D 預測結果進行學習，比如監測到的前景模板，深度，彩色圖像，語義等。定義 V 是因為觀察結果 O 中的每一個像素都對應一條有相關信息的射線。然後我們可以想像一下，一次一條射線，計算形狀 S 和射線 r 之間的一致性，這樣就不用計算觀察結果 O 和形狀 S 之間的幾何一致性了。

用單張圖片推理場景結構：UC Berkeley提出3D景深聯合學習方法

上圖描繪了形式化射線一致性的各方面成本。a) 我們測量一致性的三維形體預測和樣本射線。b,c) 我們通過三維形體和計算事件概率追蹤射線，即不同路徑上射線最終投影點的概率。d) 我們可以度量射線終止事件和該射線可用信息之間的不一致性成本。e) 通過間射線一致性成本定義為時間成本期望值，我們可以計算梯度以更新為更具一致性的預測。在這個案例中，我們可視化了一個深度觀察 O，我們方法的優勢在於它可以通過簡單定義相應的事件成本函數而允許合并多種觀察（如顏色圖片、前景等）。

使用我們的框架在不同設定中從二維預測三維的結果展示在下圖。注意，所有的可視化預測都是從預測器 P 訓練的單張 RGB 圖像中獲得，並且沒有使用 3D 監督。

用單張圖片推理場景結構：UC Berkeley提出3D景深聯合學習方法

在未監督視頻中學習深度和視角

請注意，在上述工作中，輸入驗證器 V 的內容是已知攝像頭視角的。這從具有感覺運動功能的智能代理（例如具有里程記錄設備的人或機器人）的角度來看是合理的，但在應用到更多非結構化數據源（例如視頻）時會面臨挑戰。在另一篇近期發表的論文《Unsupervised Learning of Depth and Ego-Motion from Video》中，研究人員展示了姿態要求也是不必要的，事實上我們可以使用單張圖片聯合學習進行 3D 預測。

用單張圖片推理場景結構：UC Berkeley提出3D景深聯合學習方法

更具體地說，驗證器 V 在這個例子中是基於可微分的深度視角合成器在源視角（即觀察者視角）的基礎上通過預測深度和像素輸出的目標視角。在這裡深度建圖和攝像頭視角都被預測，隨後通過合成的和實際目標視圖之間的像素重建誤差來定義一致性。通過聯合學習場景幾何和攝像頭姿態，我們能夠對未經標記的視頻剪輯進行系統訓練，無需任何有關深度或視角的直接監督。

用單張圖片推理場景結構：UC Berkeley提出3D景深聯合學習方法

讓驗證器形成深度視圖合成器，同時學習深度和圖像角度，可以讓我們在圖像未經直接監督標記深度和角度的情況下訓練整個系統。

研究人員在 KITTI 和 Cityscapes 數據集中訓練並評估了新系統的性能，其中包括汽車在市內行駛時駕駛員視角的視頻片段。下圖展示了我們的單視角深度網路逐幀（即時且平滑）預測的能力。

用單張圖片推理場景結構：UC Berkeley提出3D景深聯合學習方法

更多細節可以在項目頁面找到：https://people.eecs.berkeley.edu/~tinghuiz/projects/SfMLearner/

令人驚訝的是，儘管未經任何真值標籤的訓練，我們的單視角深度模型已經與一些基線監督模型達到同樣的效果了，而姿態估算模型也與建立完備的 SLAM 系統相當。

在最近發表的論文《Unsupervised Learning of Depth and Ego-Motion from Video》中，你可以找到其中的更多細節：https://arxiv.org/abs/1704.07813

在計算機視覺領域裡，學習單圖 3D 場景而不經過 3D 監督是一個激動人心的課題。使用幾何作為學習系統和多視角訓練數據的橋樑可以讓我們繞過獲取地面真值 3D 標籤繁瑣而昂貴的過程。更廣泛的說，人們可以將幾何一致性解釋為元監督的一種形式，不推測眼前的事物是什麼，而去推測它的行為是什麼樣的。UC Berkeley 的研究者們相信這種原則可以應用到其他領域中去，在訓練數據缺乏標記的情況下讓機器學習發揮作用。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 機器之心 的精彩文章:

※微軟創立全新人工智慧實驗室，將與 DeepMind、OpenAI 同台競技
※當我想像未來的醫院時，我想到空中交通管制塔
※谷歌內建300M圖像數據集探索大規模數據的影響
※全新A8：奧迪強勢推出全球首台量產型Level3自動駕駛汽車

TAG:機器之心 |

您可能感興趣

※結構設計 + OW 配色！Nike Blazer Rebel Mid 新品登場
※MicroMaker3D團隊推出可3D列印微型結構的LRP技術
※Atlas 3D推出提供自動定位和支撐結構的Sunata DMLS 3D列印軟體
※書單推薦包裝設計包裝的結構藝術II Structural Packaging Art
※DeepMind 團隊 CASP 奪冠：用 AlphaFold 預測蛋白質結構
※C 結構體（Struct）
※Mater Sci Eng C Mater Biol Appl：孔隙結構對3D列印多孔鈦植入物骨植入的影響
※AlphaGo之後，DeepMind重磅推出AlphaFold：基因序列預測蛋白質結構
※VAIO推出二合一筆記本電腦A12，採用更穩固的Stabilizer Flap結構
※windows下安裝HMMER軟體進行結構域模式掃描
※機能結構造型！全新 React Runner Mid 官圖釋出！
※RocketMQ 源碼學習 1 : 整體結構
※ViewController的層級結構
※研究揭示亞細胞核結構nuclear speckle在mRNA出核中的功能與機制
※校園公共建築設計：法國吉索爾Louise Michel and Louis Aragon 活動中心/鋼結構
※清華大學王宏偉研究組在《細胞》雜誌發表論文報道人源Dicer與Dicer-pre-miRNA複合體的冷凍電鏡結構
※Classical CNN models：LeNet-5 模型結構詳解
※Motheye Textuie的增透表面結構
※OPPO Facekey 3D結構光：開啟手機新篇章
※Jenkins—Jenkins主目錄結構介紹