解決3D重建難題，伯克利大學根據單張平面彩圖重建高精度3D結構

新聞 08-25

3D建模的一種有效方法

新智元編譯

來源：bair.berkeley.edu

作者：Christian H?ne

編譯：劉小芹

【新智元導讀】3D重建是計算機視覺中的一個核心問題，應用於電影製作、視頻遊戲的內容製作、虛擬現實和增強現實、3D列印，等等。伯克利大學的研究團隊提出根據單張彩色平面圖像重建出高質量的3D幾何圖形的新方法，相比其他基線方法效果更好。

論文地址：https://arxiv.org/pdf/1704.00710.pdf

從平面圖像重建3D幾何圖形是計算機視覺中的一個核心問題。3D重建有許多應用，例如電影製作、視頻遊戲的內容製作、虛擬現實和增強現實、3D列印，等等。這篇文章探討如何從單一的彩色圖像重建高質量的3D幾何圖形，如下圖所示：

人類毫不費勁就能理解物體和場景的形狀，哪怕我們看到的只是一張平面圖像。我們雙眼的結構讓我們能夠感知深度，並不需要理解3D幾何。即使我們只看到一個物體的照片，我們也能對它的形狀有很好的理解。此外，我們還能夠理解例如物體背面的看不見的部分，這是了解物體形狀的重要能力。那麼，人類是如何根據單個圖像推理其幾何形狀的呢？在人工智慧方面提出的問題是：我們可以怎樣教會機器這樣的能力？

形狀空間

從不明確的輸入重建幾何形狀的基本原理是，幾何形狀不是任意的，因此有些形狀更可能，有些則非常不可能。一般來說，表面都是光滑的。在人造環境中，它們通常是分段的平面。例如，飛機通常有一個機身，機身兩側有兩個主翼，後方有一個垂直尾翼。人類能夠通過眼睛觀察世界，並動手與世界互動來獲取這樣的只是。在計算機視覺中，形狀不是任意的這一事實允許我們將一個對象類或多個對象類的所有可能形狀描述為一個低維的形狀空間（low dimensional shape space），這是從大量示例形狀獲取的。

使用CNN進行體素預測

3D重建方面的一項最新工作[Choy et al. ECCV 2016, Girdhar et al. ECCV 2016]利用卷積神經網路（CNN）將物體的形狀預測為一個3D體積。作為輸出的3D體積被細分為體積元素，稱為體素（voxel），每個體素被確定為被佔用或空著（即，分別屬於物體的內部或外部）。輸入通常是一張彩色圖片，CNN使用一個上卷積解碼器架構來預測佔用體積（occupancy volume）。網路被端到端地訓練，並且由已知的真實佔用體積進行監督，這些佔用是從合成CAD模型數據集中獲取的。使用這種3D表示和CNN，可以學習能夠適用各種對象類的模型。

分層進行表面預測

使用CNN預測佔用體積的主要缺點是輸出的空間是三維的，因此它的解析度具有指數函數級的增長（cubic growth）。這個問題限制了上述工作預測高質量的幾何形狀，因此產生的是解析度非常粗糙的體素網格（ voxel grids），例如323（上圖）。在我們的工作中，我們認為這是一個不必要的限制因素，因為圖形的表面實際上只是二維的。我們利用表面的二維性質，通過分層預測高解析度體素，根據低解析度的預測結果來推測表面。這個想法與八叉樹表示（octree representation）密切相關，八叉樹通常用於多視角立體視覺和深度圖融合（depth map fusion）來表示高解析度的幾何形狀。

方法

基本的3D預測流程是將一張彩色圖像作為輸入，使用卷積編碼器將其先編碼為低維表示。然後，這個低維表示被解碼稱一個3D佔用體積。我們的方法的主要想法被稱為分層表面預測（hierarchical surface prediction，HSP），是通過預測低解析度體素開始解碼。但是，與一般的方法相反，每個體素都被分類為自由空間（free space）或佔用空間（occupied space），我們使用3個類：自由空間、佔用空間和邊界。這允許我們以低解析度分析輸出，並且只在有證據表明該輸出包含表面時預測該部分體積的更高解析度。通過迭代這個細化的過程，我們可以分層第預測高解析度體素網格（見下圖）。該方法的更多細節，請讀者閱讀我們的技術論文[H?neet al. arXiv 2017]。

實驗

我們的實驗主要是在合成的ShapeNet數據集上進行的[Chang et al. arXiv 2015]。我們的研究的主要任務是根據單一的彩色圖像預測出高解析度的3D圖形。我們將我們的方法與我們稱為low resolution hard（LR hard）和 low resolution soft（LR soft）的兩個基線進行比較。這些基線以相同的低解析度323進行預測，但訓練數據的生成方式不同。LR hard 基線使用體素的二進位分配。如果相應的高解析度體素中的至少一個被佔用，則所有體素被標記為被佔用。LR soft基線使用分數賦值，反映相應高解析度體素中佔用體素的百分比。我們的HSP方法以2563的解析度進行預測。下圖中的結果顯示了與低解析度基線相比，在生成3D圖形的表面質量和高解析度預測的完整性方面的好處。我們的論文中討論了更多實驗和定量結果。