當前位置:
首頁 > 知識 > 把2D公路變成3D飛車遊戲,MIT、清華打破圖像編輯的次元壁

把2D公路變成3D飛車遊戲,MIT、清華打破圖像編輯的次元壁

選自arXiv

作者:Shunyu Yao 等

機器之心編譯

參與:乾樹、劉曉坤

MIT 和清華大學的研究者提出目標幾何、外觀和姿態的分解表徵架構,並將其整合到深度生成模型中,實現了對 2D 圖像目標的 3D 操控。這種操作體驗猶如使用了 3D 遊戲引擎,背向的汽車可以翻過來,離得遠的汽車可以拉近並自動放大。會不會在將來,給幾張圖片我們就能為 3D 賽車遊戲建模~

人類感知世界的能力令人難以置信,但更厲害的是人類模擬和想像未來的智力。給出如圖 1 所示的街道圖像,我們可以毫不費力地檢測並識別汽車及其屬性,更有趣的是,人類可以想像汽車在 3D 世界中如何移動和旋轉。

受這些人類能力的啟發,在這項工作中,MIT CSAIL 和清華大學的研究者尋求獲得機器的可解釋、可表達和可分解的場景表徵,並使用學習到的表徵來進行靈活的 3D 感知場景操控。

深層生成模型在學習圖像的層次表徵和將表徵解碼回圖像方面取得了顯著的突破。然而,獲得的表徵通常限於單個孤立的目標,難以解釋,並且缺少單一目標背後的複雜 3D 結構。因此,這些深度生成模型不支持圖像處理任務,例如圖 1 所示的目標移動。

另一方面,圖形引擎使用預定義的結構化和分解的輸入(即圖形編碼)來渲染圖像。因此,它們可以直接用於場景處理。但是,從圖像中恢復圖形編碼通常很難。

圖 1:學習一個對場景語義以及三維信息和目標紋理進行編碼的整體場景表徵。編碼器 - 解碼器模型學慣用於圖像重建和 3D 感知圖像處理的分解式表徵。例如,可以用新的 3D 姿態估計將汽車移動到不同的位置。

在本文中,研究者提出將基於目標的、可解釋的場景表徵融入深度生成模型。該模型採用編碼器 - 解碼器架構,對應三個分支,一個用於目標幾何和姿態估計,一個用於背景外觀,一個用於目標外觀。

幾何分支通過學習近似可微的渲染器推斷目標形狀和姿態。外觀分支首先預測輸入圖像的實例標籤圖。然後運用紋理自編碼器來獲得每個目標的紋理表徵。

從紋理中分解出 3D 幾何和姿態可實現 3D 感知場景操控。例如,為了拉近汽車,我們可以簡單地編輯它的位置和姿勢,但保持其紋理和語義不變。

研究者給出了定量及定性結果,以證明該框架對兩個數據集 Virtual KITTI 和 Cityscapes 的有效性。由於 3D 感知場景操控問題尚未有一致的描述,除了定性結果之外,研究者還在 Virtual KITTI 上創建了一個圖像編輯基準,並對比類似的 2D 流水線來評估本文的模型。研究者還通過評估表徵準確率和圖像重建質量來研究模型設計。

論文:3D-Aware Scene Manipulation via Inverse Graphics

論文地址:https://arxiv.org/pdf/1808.09351v2.pdf

摘要:我們致力於獲得一種可解釋的、富有表現力的和可分解的、包含每個目標的整體結構和紋理信息的場景表徵。以前通過神經網路學習的表徵通常是無法解釋的,且受限於單個目標或缺乏 3D 知識。在本文的工作中,我們通過將目標幾何、外觀和姿態的分解表徵整合到深度生成模型中來解決上述問題。我們的場景編碼器執行可逆圖形操作,也就是將場景轉換為結構化目標表徵。我們的解碼器包括兩個組件:可微的形狀渲染器和神經紋理生成器。幾何、外觀和姿態的分解支持處理各種 3D 感知場景,例如,在保持形狀和紋理一致的同時隨意旋轉和移動目標,或改變目標外觀而不影響其形狀。我們系統地評估了該模型,並表明我們的圖像編輯方法優於對應的 2D 方法。

實驗

圖 5:Virtual KITTI 上的圖像編輯示例。(a)遠處的汽車可以在拉近的同時保持相同的紋理。(b)只需改變其姿態編碼,即可將汽車的左側、前側和右側旋轉。同樣的紋理編碼用於不同的姿態。(c)我們在紅色汽車上使用其它不同姿態汽車的紋理編碼,而不影響其姿態。我們還可以更改背景的紋理編碼以改變環境條件。(d)我們展示了遮擋恢復和消除目標的操作。

圖 6:Cityscapes 上的圖像編輯示例。(a)我們將一輛被遮擋的汽車向右移動,然後將其移近攝像機。請注意,我們的模型可以自動合成遮擋部分。(b)我們將兩輛車拉近攝像機。(c)我們小角度旋轉左車。

表 2:我們用 ground truth 來比較所有模型在 Virtual KITTI 上的 3D 屬性預測的性能,共包含兩個變體和三個其它對比項。我們的完整模型在大多數指標上表現最佳。我們的模型取得了更低的誤差,例如標籤圖。

圖 7:與 pix2pixHD [Wang et al。,2018] 在 Virtual KITTI 編輯基準上的對比。(a)當 pix2pixHD 失敗時,我們成功地恢復了被遮擋的汽車的掩模並將其移近攝像機。(b)我們將汽車從後向前旋轉。使用後視圖的紋理編碼和前視圖的新姿態編碼,我們的模型計算出應該刪除尾燈,而 pix2pixHD 則不能。

方法

圖 2:我們的框架圖示。編碼器由語義、紋理和幾何去渲染器組成,其輸出表徵會在紋理渲染器中組合以重建輸入圖像。

圖 3:幾何解釋模塊。該模塊接收整個圖像,使用目標建議中的合適公式來推斷 3D 屬性,並且可以為理解和操控生成可解釋的表徵。

近期在高精度計算機視覺領域的其它研究成果:

本文為機器之心編譯,轉載請聯繫本公眾號獲得授權。

------------------------------------------------


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 機器之心 的精彩文章:

Wasserstein is all you need:構建無監督表示的統一框架
報名 | 首次對外界開放的華為全聯接大會,有你對AI的期待

TAG:機器之心 |