圖像生成方法最新研究：斯坦福聯合谷歌使用圖卷積和GAN從場景圖中生成圖像

科技 04-08

原文來源：arXiv

作者：Justin Johnson、Agrim Gupta、Li Fei-Fei

「雷克世界」編譯：嗯~是阿童木呀、KABUDA、EVA

導語：長期以來，在圖像生成方法的研究上已經取得了顯著的成果，但對於現有的基於文本描述的圖像生成方法而言，難以從帶有許多對象和關係的複雜句子中生成逼真的圖像。最近，斯坦福大學聯合谷歌提出了一種從場景圖中生成圖像的方法，它能夠明確地對對象及其關係進行推理，從而生成具有許多可識別對象的複雜圖像。

想要真正地理解視覺世界，我們的模型應當不僅能夠識別圖像，而且還能夠生成圖像。為了實現這一目標，在從自然語言描述中生成圖像方面已經取得了令人興奮的最新進展。這些方法在有限的領域上取得了極好的結果，比如對鳥類或花朵的描述。但這些方法卻難以如實地再現帶有許多對象和關係的複雜句子。為了克服這個限制，我們提出了一種從場景圖中生成圖像的方法，它能夠明確地對對象及其關係進行推理。我們的模型使用圖卷積來處理輸入圖，通過預測邊界框和對象的分割掩碼來計算場景布局，並使用級聯優化網路（cascaded refinement network）將布局轉換成圖像。該網路針對一對鑒別器進行了對抗性訓練，以確保逼真的輸出。我們在視覺基因組（Visual Genome）和COCO-Stuff上驗證了我們的方法，這其中的定性結果、控制變數實驗結果和用戶研究證明了我們的方法能夠生成帶有多個對象的複雜圖像。

圖1：用於從句子中生成圖像的最先進的方法，如StackGA，很難忠實地描繪具有多個對象的複雜句子。我們通過從場景圖生成圖像來克服這一限制，從而使得我們的方法能夠明確地推斷出對象及其關係。

我不理解我無法創造的東西。——理查德??費曼（Richard Feynman）

創造行為需要對正在被創造的東西有深刻的理解：廚師、小說家和電影製作人必須比用餐者、讀者或電影觀眾對食物、寫作和電影有著更為深入的理解。如果我們的計算機視覺系統想要真正理解視覺世界，他們必須不僅能夠識別圖像，而且還能夠生成圖像。

除了賦予深刻的視覺理解之外，生成逼真圖像的方法也可能是有用的。在短期內，自動圖像生成（automatic image generation）可以為藝術家或美術設計員的工作帶來幫助。而總有一天，我們可以用演算法來代替圖像和視頻搜索引擎，根據每個用戶的個人喜好生成自定義的圖像和視頻。

圖2：我們的用於從場景圖中生成圖像的圖像生成網路概述

作為邁向這些目標的堅實一步，最近，通過將循環神經網路和生成對抗網路相結合以從自然語言描述中生成圖像，在文本到圖像的合成方面取得了令人興奮的進展。

可以這樣說，這些方法可以在諸如鳥類或花卉的細粒度描述這樣有限的區域中產生令人驚嘆的結果。然而，如圖1所示，促使從句子中生成圖像的主要方法與包含許多對象的複雜句子相鬥爭。

句子是一個線性結構，一個單詞緊挨著另一個單詞，但正如圖1所示，一個複雜句子所傳達的信息通常可以更明確地表示為對象及其關係的場景圖。場景圖是圖像和語言的強大的結構化表示。它們已經被用於語義圖像檢索（semantic image retrieval）、評估以及改進圖像字幕。科學家們開發了一些方法，用於將句子轉換成場景圖，並從圖像中預測場景圖。

在本文中，我們旨在通過在場景圖上對我們的生成進行調節以具有許多對象及其關係的複雜圖像，從而使我們的模型能夠明確地對對象及其關係進行推理。

圖3：通過對場景布局進行計算，我們從圖域移動到圖像域。

與新任務結伴而來的，是新的挑戰。我們必須研發一種處理場景圖輸入的方法。為此，我們採用了一種沿圖像邊緣傳遞信息的圖卷積網路。對圖進行處理後，我們必須彌合符號圖結構輸入和二維圖像輸出之間的差距。為此，我們通過預測圖中所有對象的邊界框和分割掩碼，來構建場景布局。預測完布局後，我們必須生成一個與之相關聯的圖像。為此，我們使用級聯優化網路（CRN），它可以在持續增長的空間度量下處理布局。最後，我們必須確保生成的圖像是真實的，並包含可識別目標。因此，我們對一對在圖像補丁和生成對象上運行的鑒別器網路進行對抗性訓練。模型的所有組件都以端到端的方式進行聯合學習。

我們在兩個數據集上進行了實驗：Visual Genome，它提供了人工標註的場景圖，COCO-Stuff，它根據對照對象的位置構建合成場景圖。在這兩個數據集上，我們都給出了定性結果，證實了我們的方法，能夠生成與輸入場景圖的對象和關係相關聯的複雜圖像，並通過控制變數的方法來驗證我們模型的每個組件。

對生成圖像模型進行自動評估是一項具有挑戰性的難題，因此我們還通過兩項有關Amazon Mechanical Turk的用戶調研來評估我們的結果。與Stack GAN這一文本到圖像合成的領先系統相比，用戶發現，我們的結果在68%的實驗中可以更好地匹配COCO字幕，並且包含高於59%的可識別目標。

圖4：我們的方法在Visual Genome上訓練之後所生成的圖像。在每一行中，我們從左側的簡單場景圖開始，逐步向右移動，添加更多的對象和關係。圖像所涉及的關係像「風箏下面的汽車，草地上的小船」。

相關研究

生成圖像模型（Generative Image Models）生成圖像模型可分為三大類：生成式對抗網路（GAN）聯合學習一個合成圖像的生成器和一個將圖像分類為真實或偽造的鑒別器；變分自動編碼器使用變分推理聯合學習圖像和潛在代碼之間的編碼器和解碼器映射；自回歸方法通過調整所有先前像素上的每個像素來模擬似然性。

條件性圖像合成（Conditional Image Synthesis）在附加輸入上對生成進行調整。通過提供標籤作為生成器和鑒別器的附加輸入，或者通過強制鑒別器對標籤進行預測，GAN可以在類標籤上進行調節。而我們採取後一種方法。

場景圖將場景表徵為有向圖，其中，節點是對象，而邊緣給出對象之間的關係。場景圖已被用於圖像檢索和圖像字幕評估中，有一些研究試圖將句子轉換為場景圖]或預測圖像的基礎場景圖。在有關場景圖的大多數研究中都使用Visual Genome數據集，該數據集提供了帶有人工注釋的場景圖。

圖深度學習，有些方法學習圖節點的嵌入，給定一個類似於word2vec的單一大型圖，它將學習給定文本語料庫中單詞的嵌入。這些與我們的方法不同，因為我們必須在每次正向傳遞時對新的圖進行處理。

本文提出了一種從場景圖生成圖像的端到端的方法。與基於文本描述的圖像生成方法相比，從結構化場景圖而非非結構化文本中生成圖像，使得我們的方法可以更準確地對對象及其關係進行推理，並且生成具有許多可識別對象的複雜圖像。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 雷克世界 的精彩文章:

※DeepMind提出圖形的深度生成式模型，可實現任意圖形的生成
※想要更精確的分類預測結果？多倫多大學等提出半監督式few-shot分類範式

TAG:雷克世界 |