UC Berkeley新研究:多視角圖像3D模型重建技術
選自BAIR
作者:Abhishek Kar
機器之心編譯
參與:李澤南、蔣思源
想像一下圖片中的椅子。人類具有無與倫比的推理能力,可以在看到單張圖片的情況下想像出整個椅子的 3D 形狀——即使你從未看到過這樣的東西。這種體驗更具代表性的例子就是在同一個物理空間中從不同角度觀察椅子以積累信息,隨後構建椅子的 3D 形態。如何解決這個複雜的 2D 到 3D 推理任務?在這個過程中,我們需要用到什麼樣的線索?
我們如何從不同視圖中無縫集成信息,以建立一個整體的 3D 模型?
在計算機視覺領域裡,有很多人都在開發由圖片為信息源構建 3D 模型的方法。這些研究包括單眼線索,例如遮蓋、線性透視、大小常性(size constancy)等,也有雙目甚至多視角立體視覺。整合了多視角信息的方法被稱為立體影像,即從多個視角觀察空間中的一個點,則它在 3D 模型中的位置可以通過這些視角的三角定位方式來確定。這類演算法已經引出了基於運動的 3D 重建(SfM)和立體視覺(MVS)等方法,它們已被用於城市級別的 3D 模型構建,並已讓 3D 地圖實用化。
隨著深度神經網路及其在數據建模任務中展現出的強大能力,人們的研究重點正逐漸轉向單眼線索,將單個圖像作為深度/表面標定圖或 3D 像素網格,我們能從中獲取信息並利用卷積神經網路預測 3D 模型。
在最近 UC Berkeley 的論文《Learning a Multi-View Stereo Machine》中,研究人員嘗試了統一單視角與多視角 3D 重建範式。他們提出了一個名為立體學習機(Learnt Stereo Machine,LSM)的新系統,它可以利用單視覺/語義線索進行單視圖 3D 重建,同時也可以使用立體視覺來整合來自多個視角的信息,所有這些信息都由單一的端到端深度神經網路處理。
立體學習機
LSM 被設計成用於解決多視角立體任務。給定一系列已知相機視角的圖片,它可以為底層場景生成 3D 模型——特別是以每個輸入三維網格或密集點雲的形式對輸入視圖形成圖片深度繪圖。在設計 LSM 的過程中,研究人員從 MVS 的經典工作中獲取了靈感。這些方法首先從圖像中提取特徵,形成對應關係。通過比較不同圖片的特徵,系統將形成相匹配的成本體積(matching cost volume)。這些(通常有雜訊的)匹配成本隨後會與多尺度和形態優先順序的信息整合以過濾/歸一化。最終,被過濾的匹配成本會被解碼為所需的表示,如 3D 體積/表面/視差圖。
這裡的關鍵要素是投影和反投影模塊,它們允許 LSM 在 2D 圖像和 3D 空間中能夠正確互相轉換。反投影模塊將 2D 圖像中的特徵(由前饋卷積神經網路獲取)投影到 3D 網格中,並使得多張此類圖片獲得的結果根據極線約束(epipolar constraint)在 3D 網格中對齊。這種方式簡化了特徵匹配,現在沿極線(epipolar line)搜索消耗的計算資源要比在 3D 網格中搜索所有映射到給定地址的特徵來得要少。
這種特徵匹配使用 3D 循環單元建模,該單元在保持匹配分數的運行估計時執行反投影網格的順序匹配。一旦我們使用了 3D CNN 過濾局部匹配成本體積(local matching cost volume),我們就可以將其直接解碼為 3D 網格為立體網格預測任務,或者使用可微分投影操作將其投影回 2D 圖像空間。投影操作可以被視為反投影的逆過程,在這裡 3D 特徵網格與樣本特徵隨著視線將它們以相同深度間隔投影到 2D 特徵圖上。這種投影特徵圖隨後被解碼為每個視圖的深度圖。在該網路中,所有步驟都是完全可分的,我們可以在此之上訓練有監督的端到端深度圖或立體網格系統。
由於 LSM 可以從可變數量的圖片(甚至是只有一張圖的情況下)中預測 3D 形態,它同時適用於多視角系統與單視角語義系統。LSM 可以產生粗糙的全 3D 立體網格以及密集的深度圖,從而使用深度神經網路統一 3D 預測中的兩個主要範式。
在 UC Berkeley 的論文中,研究者們展示了超越此前業內最佳的(使用循環神經網路)整合多視角構建 3D 模型的方法。此外,研究人員還展示了類別外的概括能力,如 LSM 可以重建汽車的模型——即使它只得到了飛機與椅子圖像的訓練。唯一的可能解釋就是系統是針對任務進行幾何處理的。研究人員還從一些視圖中獲得了細緻的模型重建效果——系統對於圖片數量的要求顯著少於傳統 MVS 系統。
下一步
LSM 是面向統一化 3D 模型重建技術的重要一步——整合單一和多視角,語義和幾何重建,粗糙和密集圖像預測。在這種問題上的聯合處理方法可以幫助我們構建更加穩固和準確的模型,同時與流水線式的方法相比,基於 LSM 的方法部署更簡單。
這是 3D 計算機視覺技術激動人心的時刻。利用深度神經網路預測高解析度幾何是可能的。我們甚至可以在沒有明確 3D 監督的情況下進行 3D 預測。研究人員即將在未來利用 LSM 實現這些技術與想法。其它待觀察的方向有:將圖像中的物體從 2D 轉換為 3D,並在 3D 標準空間中對它們進行度量,這有助於其它下游任務,如導航和機器人抓取等。UC Berkeley 將在近期公布該研究的相關代碼。


※當人臉變成新的指紋,核心社會法則正被推倒重建
※《深度學習》中譯版讀書筆記:GitHub項目等你來Fork
※AI演算法通過照片識別同性戀準確率超過人類,斯坦福大學研究惹爭議
※人工智慧+區塊鏈公司DeepBrain獲3200萬元首輪融資
TAG:機器之心 |