當前位置:
首頁 > 最新 > 把醬油瓶放進菜籃子:UC Berkeley提出高度逼真的物體組合網路Compositional GAN

把醬油瓶放進菜籃子:UC Berkeley提出高度逼真的物體組合網路Compositional GAN

選自arXiv

機器之心編譯

作者:Samaneh Azadi 等

參與:李詩萌、張倩

生成對抗網路(GAN)可以產生複雜且逼真到令人驚訝的圖像,但它會忽略可能存在於場景中的多個實體間的顯式空間交互。本文提出以 GAN 為框架、將目標組合建模為自洽的組合-分解網路。該模型以其邊緣分布的目標圖像為條件,通過明確學習可能的交互,在聯合分布中產生逼真的圖像。實驗結果表明,訓練後的模型可以在作為輸入的兩個給定的目標域間捕獲潛在的交互關係,並以合理的方式在測試時輸出組合場景的新的實例。

1. 引言

生成對抗網路(GAN)是在給定輸入的條件下生成圖像的一種強大方法。輸入的格式可以是圖像 [9,37,16,2,29,21]、文本短語 [33,24,23,11] 以及類標籤布局 [19,20,1]。大多數 GAN 實例的目標是學習一種可以將源分布中的給定樣例轉換為輸出分布中生成的樣本的映射。這主要涉及到單個目標的轉換(從蘋果到橙子、從馬到斑馬或從標籤到圖像等),或改變輸入圖像的樣式和紋理(從白天到夜晚等)。但是,這些直接的以輸入為中心的轉換無法直觀體現這樣一個事實:自然圖像是 3D 視覺世界中交互的多個對象組成的 2D 投影。本文探索了組合在學習函數中所起到的作用,該函數將從邊緣分布(如椅子和桌子)採集到的目標不同的圖像樣本映射到捕獲其聯合分布的組合樣本(桌椅)中。

由於不同對象間在相對縮放、空間布局、遮擋以及視角變換等方面可能存在複雜的交互關係,在自然圖像中對組合建模是一個極具挑戰的問題。近期的研究在 GAN 框架 [15] 中使用空間變換網路 [10],通過在幾何扭曲參數空間中進行操作,找到前景對象的幾何糾正來分解該問題。但這種方法僅限於固定的背景,也並未考慮真實世界中更加複雜的交互關係。近期的另一項研究是以文本和場景圖為條件生成場景的,這項研究明確地對對象和其交互關係進行了推理。

我們開發的這種方法可以對圖像中的目標組合建模。我們將組合兩個輸入對象圖像的任務視為生成一個聯合圖像,該圖像可以捕獲這兩個對象在自然圖像中的聯合交互關係。例如,給定椅子和桌子的圖像,可以產生一張包含相同的成對桌椅的自然交互的圖像。一個可以正確捕捉組合特徵的模型需要對遮擋排序(如桌子在椅子前面)和空間布局(如椅子在桌子內滑動)有所了解。據我們所知,我們是第一個在沒有任何清晰的關於目標布局的先前顯式信息的情況下,在圖像條件空間中解決該問題的組。

我們的工作重點是將兩個目標組合的問題重構為先組合好給定的目標圖像以生成可以對目標交互關係建模的聯合圖像,再將聯合圖像分解,以獲得單個目標。這樣的重構可以通過組合-分解網路加強自洽約束 [37]。但在一些場景中無法用組合合成圖像對相同的目標實例的成對樣例進行訪問,例如,要根據給定桌子和椅子的圖像生成聯合圖像,除了指定的桌子外我們可能沒有任何有關指定椅子的樣例,但我們可能有其他桌子和椅子的圖像。我們在組合分解層添加了修復網路,以處理這樣的不配對情況。

通過定性和定量實驗,我們在兩個訓練場景中評估了我們提出的 Compositional-GAN 方法:(a)配對:當我們有權用相關組合圖像訪問單個對象圖像的成對樣例時;(b)未配對:當數據集源於聯合分布且沒有與來自邊緣分布的任何一張圖進行配對時。

聯合 GAN 代碼和數據集請參閱:https://github.com/azadis/ CompositionalGAN

論文:Compositional GAN: Learning Conditional Image Composition

論文鏈接:https://arxiv.org/pdf/1807.07560v1.pdf

生成對抗網路(GAN)可以產生複雜且逼真到令人驚訝的圖像,但它一般會從單個潛在源採樣建模,從而忽略可能存在於場景中的多個實體間的顯式空間交互。在相對縮放、空間布局、遮擋或視角轉移等情況下在不同目標間捕獲複雜的交互關係是極具挑戰的問題。本文提出以 GAN 為框架、將目標組合建模為自洽的組合-分解網路。該模型以其邊緣分布的目標圖像為條件,通過明確學習可能的交互,在聯合分布中產生逼真的圖像。我們在對單獨的目標進行配對和不配對的兩個場景中通過定性實驗和用戶評估對模型進行了評估,在訓練過程中也給出了聯合場景。結果表明,訓練後的模型可以在作為輸入的兩個給定的目標域間捕獲潛在的交互關係,並以合理的方式在測試時輸出組合場景的新的實例。

圖 1:組合 GAN 對配對和未配對訓練數據訓練得到的模型。黃色框指的是用於在給定第二對象被遮擋的情況下合成第一對象的新視角的 RAFN 步驟,該過程僅用於成對數據的訓練過程。橙色框表示用未配對數據修復輸入分割的過程。對配對和未配對的情況而言模型的剩餘部分相似,都包括 STN,再之後是自洽組合-分解網路。

圖 2:使用配對或未配對數據訓練桌椅組合任務的測試結果。「NN」代表成對訓練集中最接近的圖像,「NoInpaint」表示在沒有修復網路的情況下未配對模型的結果。在配對和未配對情況中,c? before 和 c? after 分別表示在推理細化網路之前和之後的生成器的結果。c? after s 表示細化步驟後的有遮掩的轉置輸入的總和。

4 實驗

圖 3:用配對或未配對數據對籃子-瓶子組合任務訓練後的測試結果。「NN」表示在配對的訓練集中最近的圖像,「NoInpaint」表示在沒有修復網路的情況下用未配對數據訓練得到的模型。在配對和未配對情況中,c? before 和 c? after 分別表示在推理細化網路之前和之後生成器的輸出結果。此外,c? after s 表示細化步驟之後遮掩情況下轉置輸入的總和。

表 1:AMT 用戶評估比較我們提出的模型的不同組件。第一列表示在未配對場景中推理(未細化)期間要細化的圖像的偏好百分比。第二列表示與未配對情況相比,通過配對數據訓練策略生成的細化圖像的偏好百分比。

圖 4:面部-太陽鏡組合任務的測試樣例。前兩行表示輸入的太陽鏡圖像和面部圖像,第三行和第四行分別表示用配對和未配對數據訓練的組合 GAN 的輸出。最後一行表示 ST-GAN 模型生成的圖像。

本文為機器之心編譯,轉載請聯繫本公眾號獲得授權。

------------------------------------------------


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 機器之心 的精彩文章:

打通所有數據壁壘!谷歌、微軟、Facebook、Twitter宣布「數據傳輸計劃」
曠視科技提出新型輕量架構ShuffleNet V2:從理論複雜度到實用設計準則

TAG:機器之心 |