當前位置:
首頁 > 知識 > 3D形狀補全新突破:MIT提出結合對抗學習形狀先驗的ShapeHD

3D形狀補全新突破:MIT提出結合對抗學習形狀先驗的ShapeHD

選自arXiv

作者:Jiajun Wu 等

機器之心編譯

參與:乾樹、張倩

單視圖 3D 形狀補全或重建具有挑戰性。在給定單視圖輸入的情況下,ground truth 的形狀是不確定的。現有的全監督方法無法解決這個問題。本文提出了 ShapeHD,通過將深度生成模型與對抗學習的形狀先驗相結合,超越單視圖形狀補全和重建的極限。實驗證明,ShapeHD 在多個真實數據集的形狀補全和形狀重建方面都遠遠超過了當前最高水平。

圖 1. 研究者的模型使用單深度圖像或 RGB 圖像中的精細細節補全或重建對象的完整 3D 形狀。

讓我們從一個遊戲開始:圖 1 展示了一個深度圖像或彩色圖像以及兩種不同的 3D 形狀渲染圖。哪一個看起來更好?

在這幅圖中,研究者展示了兩個例子,每個例子包括一個輸入圖像、兩個 ground truth 的視圖,以及兩個結果圖。研究者重建的形狀高質且富含細節,並且在人類調研中的選擇率分別是 41% 和 35%。研究者的模型在測試期間採用單個前饋傳遞且無需任何後處理,因此非常高效(

我們在亞馬遜 Mechanical Turk 平台上向 100 人提出這個問題。59% 的人選擇重建的飛機 A,35% 的人更喜歡重建的汽車 A。這些數字表明人們對這兩種情況的偏好存在分歧,這些重建的質量接近,而且他們的感知差異相對較小。

實際上,對於每個實例,本文介紹的模型的輸出是重建結果之一,另一個是 ground truth。

在本文中,研究者的目標是超越從單個深度圖像到 3D 形狀補全和從單個彩色圖像到 3D 形狀重建的極限。最近,研究者利用巨大的三維數據集 [5,60,59] 在這些任務上取得了令人印象深刻的進展 [7,52,8]。

這些方法中的許多方法通過使用深度卷積網路來生成可能的 3D 形狀來應對問題的病態本質。利用深度生成模型的力量,他們的系統學會避免生成極不真實的形狀(圖 2b)。

然而,從圖 2c 中我們意識到,受過監督訓練的網路建模失敗還存在歧義。對於單視圖圖像,存在多種自然形狀,可以很好地解釋看到的結果。換句話說,每個觀察到的結果都沒有確定的 ground truth。通過純粹的監督學習,網路傾向於產生平均形狀,這些形狀由於歧義的存在而將懲罰最小化。

為了解決這個問題,研究者提出了 ShapeHD,通過將深度體積卷積網路與對抗網路學習的形狀先驗相結合來補全或重建 3D 形狀。學到的形狀先驗只有在生成的形狀脫離實際時才對模型進行懲罰,在偏離 ground truth 時不進行懲罰。

這解決了上面討論的難題。研究者的模型通過對抗學習來描述這種自然性損失,該研究課題近年來受到了極大的關注,並且仍在迅猛發展 [14,37,57]。

在多個合成和真實數據集上的實驗表明,ShapeHD 在單視圖 3D 形狀補全和重建方面表現良好,比最先進的系統表現更好。進一步分析表明,網路學會了了解有意義的對象的子部分,自然模塊隨著時間的推移確實有助於表徵形狀細節。

圖 2. 單視圖 3D 形狀感知中的兩個歧義等級。對於每個 2D 視圖(a),存在許多可能的 3D 形狀可以很好地解釋這個視圖(b,c),但只有一小部分符合真實的日常形狀(c)。利用深度網路進行識別的方法在一定程度上減少了這一層面的歧義。

論文:Learning Shape Priors for Single-View 3D Completion and Reconstruction

論文鏈接:https://arxiv.org/pdf/1809.05068v1.pdf

摘要:單視圖 3D 形狀補全或重建具有挑戰性,因為一個視圖可能對應許多可能的形狀,大多數情況不合情理且沒有對應的自然對象。該領域的最新研究是通過利用深度卷積網路的表徵能力來解決這個問題。事實上,還存在另一種常常被忽視的歧義:在合理的形狀中,仍有多種形狀可以很好地對應 2D 圖像;即,在給定單視圖輸入的情況下,ground truth 的形狀是不確定的。現有的全監督方法無法解決這個問題,而且通常會產生表面光滑但沒有精細細節的模糊平均形狀。在本文中,我們提出了 ShapeHD,通過將深度生成模型與對抗學習的形狀先驗相結合,超越單視圖形狀補全和重建的極限。學習到的先驗知識作為一個正則化向,只有在它的輸出脫離現實而非簡單的偏離 ground truth 時才會對模型進行懲罰。因此,我們的設計解決了前面提到的兩種歧義。實驗證明,ShapeHD 在多個真實數據集的形狀補全和形狀重建方面都遠遠超過了現有最高水平。

圖 3. 對於單視圖形狀重建,ShapeHD 包含三個組件:(I)用於預測單個圖像的深度、表面法線和輪廓圖像的 2.5D 輪廓估計器;(II)3D 形狀補全模塊,該模塊根據輪廓掩膜深度和表面法線圖像補全 3D 形狀;(III)用作自然損失函數的對抗預訓練卷積網。在微調 3D 形狀補全網路時,我們使用兩種損失函數:輸出形狀的監督損失,以及預訓練鑒別器提供的自然損失。

單視圖形狀補全

圖 5. 3D 形狀補全模型的結果,以及現有技術 3DEPN [8] 和研究者的沒有自然損失的模型的對比。研究者發現對抗訓練的自然損失有助於修復錯誤、添加細節(例如第 3 行中的機翼、第 6 行中的汽車座椅和第 8 行中的椅子把手)及撫平平面表面(例如第 7 行的沙發)。

表 1. ShapeNet 上的 3D 形狀補全的平均 IoU 分數(323)和 CD [5]。我們的模型遠遠超過了現有最高技術水平。可學習的自然損失不斷改善本文的結果和 ground truth 之間的 CD。

圖 6. 來自物理掃描儀的深度數據的 3D 形狀補全的結果。研究者的模型能夠從單視圖中很好地重建形狀。從左到右:輸入的深度圖片,補全結果的兩個視圖以及對象的彩色圖像。

3D 形狀重建

圖 10. Pix3D 上的單視圖 3D 重建 [45]。對於每個輸入圖像,研究者展示了通過 AtlasNet、DRC、ShapeHD 的重建效果圖以及 ground truth。研究者的 ShapeHD 重建完整的 3D 形狀,具有接近 ground truth 的精細細節。

圖 11. ShapeHD 處理深度圖中細節的可視化。第 1 行:車輪探測器。第 2 行:椅背和椅子腿探測器。左邊對應於跨步模式。第 3 行:椅子臂和椅子腿探測器。第 4 行:飛機發動機和曲面探測器。右側對應跨類別的特定模式。

圖 12. 使用自然損失的 ShapeHD 隨著時間推移的演變圖:隨著細節的增加,預測的形狀變得越來越逼真。

本文為機器之心編譯,轉載請聯繫本公眾號獲得授權。

------------------------------------------------


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 機器之心 的精彩文章:

從R-CNN到RFBNet,目標檢測架構5年演進全盤點
專欄 | 上海紐約大學張崢教授:2017年影響力論文推薦

TAG:機器之心 |