深度學習新應用：在PyTorch中用單個2D圖像創建3D模型

知識 01-11

選自Medium

作者：Phúc Lê

機器之心編譯

參與：李詩萌、王淑婷

深度學習在諸多 2D 圖像任務中表現出色，毋庸置疑。但如何將它應用於 3D 圖像問題中呢？文本通過探索，將深度學習擴展到了單個 2D 圖像的 3D 重建任務中，並成功實現了這一應用。

近年來，深度學習在解決圖像分類、目標識別、語義分割等 2D 圖像任務方面的表現都很出色。不僅如此，深度學習在 3D 圖像問題中的應用也取得了很大的進展。本文試著將深度學習擴展到單個 2D 圖像的 3D 重建任務中，這是 3D 計算機圖形學領域中最重要也是最有意義的挑戰之一。

任務

單個圖像只是 3D 對象在 2D 平面的投影，所以一些高維空間的數據一定會在低維表徵中丟失。因此，單視角 2D 圖像中並沒有足夠的數據來構建其 3D 組件。

要根據單個 2D 圖像創建 3D 感知，首先需要關於 3D 形狀本身的先驗知識。

在 2D 深度學習中，卷積自編碼器是一種學習輸入圖像壓縮表徵的有效方法。將該架構拓展到學習緊湊形狀知識是將深度學習應用於 3D 數據的最有前景方法。

CNN 編碼深度形狀先驗知識

3D 數據表徵

3D 數據的不同表徵

與計算機格式中只有一種通用表徵（像素）的 2D 圖像不同，3D 數據能夠以許多數字形式來表示。它們各有優缺點，所以數據表徵的選擇直接影響了使用它們的方法。

柵格化形式（體素網格）：可以直接應用 CNN

每個藍色的盒子表示單個體素，大部分體素都是空的。

體素是體積像素（volumetric pixel）的簡稱，它直接將空間網格像素拓展為體積網格體素。每一個體素的局部性共同定義了該體積數據獨一無二的結構，因此 ConvNet 的局部性假設在立體形式中仍然成立。

體素表徵密度低

但這種表徵既稀疏又浪費。有用體素的密度會隨著解析度的增加而降低。

優勢：從 2D 表徵到 3D 表徵，可以直接應用CNN。

劣勢：容易浪費，要在細節和資源（計算力、內存）之間好好權衡。

幾何形式：不能直接應用 CNN

椅子的點雲表徵

多邊形網格：是三維空間中定義對象表面的頂點、邊和面的集合。它可以在相當緊湊的表徵中捕獲粒度細節。

點云：3D 坐標（x，y，z）中點的集合，這些點一起形成了與 3D 對象形狀類似的雲。點的集合越大，獲得的細節就越多。同一組順序不同的點表示同樣的 3D 對象。

優勢：表徵緊湊，重點關注 3D 對象的表面細節。

缺點：不能直接應用 CNN。

方法

本文的實現結合了點雲緊湊表徵的優勢，但是用了傳統的 2D ConvNet 來學習先驗形狀知識。

2D 結構生成器

我們將構建標準的 2D CNN 結構生成器來學習目標的先驗形狀知識。我們沒有用體素方法，因為它效率比較低下，而且不能直接用 CNN 學習點雲。因此我們將學習從單個圖像到點雲的多個 2D 投影的映射，將一個視角的 2D 投影定義為：2D projection == 3D coordinates (x,y,z) binary mask (m)

輸入：單個 RGB 圖像

輸出：預先設定視角的 2D 投影

點雲融合