CVPR 2019：微軟最新提出ObjGAN，輸入一句話秒生成圖片

新聞 06-23

【新智元導讀】微軟和京東最近出了一個黑科技：說一句話就能生成圖片！在這項研究中，研究人員提出了一種新的機器學習框架——ObjGAN，可以通過關注文本描述中最相關的單詞和預先生成的語義布局(semantic layout)來合成顯著對象。

不會PS還想做圖？可以的！

近期，由紐約州立大學奧爾巴尼分校、微軟研究院和京東AI研究院合作的一篇文章就可以實現這個需求：只需要輸入一句話，就可以生成圖片！

輸入：

CVPR 2019：微軟最新提出ObjGAN，輸入一句話秒生成圖片

輸出：

CVPR 2019：微軟最新提出ObjGAN，輸入一句話秒生成圖片

在這項研究中，研究人員提出了一種新的機器學習框架——ObjGAN，可以通過關注文本描述中最相關的單詞和預先生成的語義布局(semantic layout)來合成顯著對象。

此外，他們還提出了一種新的基於Fast R-CNN的關於對象(object-wise)鑒別器，用來提供關於合成對象是否與文本描述和預先生成的布局匹配的對象識別信號。

CVPR 2019：微軟最新提出ObjGAN，輸入一句話秒生成圖片

論文地址：

https://www.microsoft.com/en-us/research/uploads/prod/2019/06/1902.10740.pdf

這項工作已經發表在計算機視覺和模式識別領域頂會CVPR 2019。

這篇論文的合著作者表示，與之前最先進的技術相比，他們的方法大大提高了圖像質量：

我們的生成器能夠利用細粒度的單詞和對象級(object-level)信息逐步細化合成圖像。

大量的實驗證明了ObjGAN在複雜場景的文本到圖像生成方面的有效性和泛化能力。

一句話秒生成圖片！

根據文本的描述來生成圖像，可以說是機器學習中一項非常重要的任務。

這項任務需要處理自然語言描述中模糊和不完整的信息，並且還需要跨視覺和語言模式來進行學習。

自從GAN提出後，這項任務在結果上取得了較好的成績，但是目前這些基於GAN的方法有一個缺點：

大多數圖像合成方法都是基於全局句子向量來合成圖像，而全局句子向量可能會丟失單詞級別(word-level)的重要細粒度信息，從而阻礙高質量圖像的生成。

大多數方法都沒有在圖像中明確地建模對象及其關係，因此難以生成複雜的場景。

CVPR 2019：微軟最新提出ObjGAN，輸入一句話秒生成圖片

圖1 頂部：AttnGAN及其網格注意力可視化；中部：修改前人工作的結果；底部：ObjGAN及其對象驅動的注意力可視化

舉個例子，如果要根據「幾個人穿滑雪服的人在雪地里」這句話生成一張圖片，那麼需要對不同的對象(人、滑雪服)及其交互(穿滑雪服的人)進行建模，還需要填充缺失的信息(例如背景中的岩石)。

圖1的第一行是由AttnGAN生成的圖像，雖然圖像中包含了人和雪的紋理，但是人的形狀是扭曲的，圖像布局在語義上是沒有意義的。

為了解決這個問題，首先從文本構造語義布局，然後通過反卷積圖像生成器合成圖像。

從圖1的中間一行可知，雖然細粒度的word/objectlevel信息仍然沒有很好的用於生成。因此，合成的圖像沒有包含足夠的細節讓它們看起來更加真實。

本研究的目標就是生成具有語義意義(semantically meaningful)的布局和現實對象的高質量複雜圖像。

為此，研究人員提出了一種新穎的對象驅動的注意力生成對抗網路(Object-driven Attentive Generative Adversarial Networks，Obj-GAN)，該網路能夠有效地捕獲和利用細粒度的word/objectlevel信息進行文本到圖像的合成。

ObjGAN由一對兒對象驅動的注意力圖像生成器和object-wise判別器組成，並採用了一種新的對象驅動注意機制。

CVPR 2019：微軟最新提出ObjGAN，輸入一句話秒生成圖片

圖2 對象驅動的注意力圖像生成器

CVPR 2019：微軟最新提出ObjGAN，輸入一句話秒生成圖片

圖3 Object-wise判別器

該圖像生成器以文本描述和預先生成的語義布局為輸入，通過多階段由粗到精的過程合成高解析度圖像。

在每個階段，生成器通過關注與該邊界框中的對象最相關的單詞來合成邊界框內的圖像區域，如圖1的底部行所示。

更具體地說，它使用一個新的對象驅動的注意層，使用類標籤查詢句子中的單詞，形成一個單詞上下文向量，如圖4所示，然後根據類標籤和單詞上下文向量條件合成圖像區域。

CVPR 2019：微軟最新提出ObjGAN，輸入一句話秒生成圖片

圖4 對象驅動的注意力

Object-wise判別器會對每個邊界框進行檢查，確保生成的對象確實與預先生成的語義布局是匹配的。

同時，為了有效地計算所有邊界框的識別損失，object-wise判別器基於一個Fast-RNN，並且每個邊界框都有一個二院交叉熵損失。

實驗結果

研究人員在實驗過程中採用的數據集是COCO數據集。它包含80個對象類，其中每個圖像與對象注釋（即，邊界框和形狀）和5個文本描述相關聯。

在評價指標方面，研究人員採用 Inception score(IS)和Frechet Inception distance(FID) score作為定量評價指標。結果如下表所示：

表1

CVPR 2019：微軟最新提出ObjGAN，輸入一句話秒生成圖片

接下來，是採用不同方法生成圖像的結果與實際圖像的對比結果：

CVPR 2019：微軟最新提出ObjGAN，輸入一句話秒生成圖片

圖5 整體定性比較。所有圖像都是在不使用任何ground-truth的情況下生成的。

CVPR 2019：微軟最新提出ObjGAN，輸入一句話秒生成圖片

圖6 與P-AttnGAN w/ Lyt進行定性比較

CVPR 2019：微軟最新提出ObjGAN，輸入一句話秒生成圖片

圖7 與P-AttnGAN的定性比較。每個方法的注意力圖顯示在生成的圖像旁邊。

參考鏈接：

論文地址：

https://www.microsoft.com/en-us/research/uploads/prod/2019/06/1902.10740.pdf

VB博客地址：

https://venturebeat.com/2019/06/17/microsoft-researchers-use-gans-to-generate-images-and-storyboards-from-captions/

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 新智元 的精彩文章:

※AI版007恐怖上演！間諜用GAN生成假頭像，大肆網釣政客大V
※清華劉知遠：寫給想要填報CS/AI志願的考生們

TAG:新智元 |