當前位置:
首頁 > 新聞 > 「GAN畫花鳥」零樣本學習,對抗生成網路從文本描述生成圖像

「GAN畫花鳥」零樣本學習,對抗生成網路從文本描述生成圖像

「GAN畫花鳥」零樣本學習,對抗生成網路從文本描述生成圖像

新智元報道

論文地址:https://github.com/zsdonghao/text-to-image

「GAN畫花鳥」零樣本學習,對抗生成網路從文本描述生成圖像

根據圖像的文本描述自動合成出圖像

根據圖像的文本描述自動合成出現實風格的圖像既有趣又有用,但目前的 AI 系統離實現這一目標還很遠。然而,近年來出現了通用且強大的循環神經網路架構,可以學習判別性的文本特徵表徵。同時,深度卷積生成對抗網路(GAN)也已經開始生成特定類型的圖像,如面孔、專輯封面和房間內飾等,十分引人注目。在本研究中,我們開發了一種新穎的 GAN 架構,有效地橋接了文本和圖像建模中的這些進展,將視覺概念從字元轉換為像素。研究展示我們提出的架構從詳細的文字描述中產生鳥和花的合理圖像的能力。

研究中,我們將人類書寫的、單句形式的圖像描述直接轉換成圖像像素。例如,「這隻小鳥有一個短而尖的橙色的喙和白色的肚子」,或者「這朵花的花瓣是粉紅色的,另一朵是黃色的」。從視覺描述中生成圖像一直是研究興趣點之一,但還遠未解決。

「GAN畫花鳥」零樣本學習,對抗生成網路從文本描述生成圖像

圖1.文本描述生成的圖像示例。左:描述來自零樣本數據,是系統從未見過的文字;右:描述來自訓練集。

用 attribute 表示屬性很好,但問題在於 attribute 可能需要特定的領域知識。相比之下,自然語言提供了通用且靈活的交互界面,來描述任何視覺類別空間中的對象。理想情況下,我們應該將文本描述的通用性和 attribute 的判別性結合起來。

為了解決這個具有挑戰性的問題,需要解決兩個子問題:首先,學習指向重要視覺細節的文本特徵表徵; 第二,使用這些特徵來合成以假亂真的圖像。幸運的是,在過去幾年裡,深度學習已經在這兩個子問題——自然語言表徵和圖像合成方面取得了巨大的進步,我們的努力將以此為基礎展開。

然而,深度學習尚未解決的一個難題是,以文本描述為條件生成的圖像分布是高度多模態的,在某種意義上說,某一種文字描述可能對應許多正確的像素配置。從圖像到文本的轉化也受到這個問題的影響。

這種多模態對於生成對抗網路來說是非常自然的應用,其中生成網路被優化以愚弄用於對抗訓練的判別器。通過調節生成器和判別器,我們可以自然地為這種現象建模,因為判別網路是一個能夠「智能地」自適應的損失函數。

方法和網路架構

我們的主要貢獻是開發簡單有效的 GAN 架構和訓練策略,使得從人類對花和鳥的描述中合成圖像。我們主要使用了 Caltech-UCSD Birds 數據集和 Oxford-102 Flowers 數據集,每個圖像我們收集了5 個文本描述,作為我們的評估設定。我們的模型在訓練類別的一個子集上進行了訓練,並在訓練集和測試集(即零樣本從文字合成圖像)上展示了其性能。除了鳥和花之外,我們還將模型應用於MSCOCO 數據集中更一般的圖像和文本描述上。

生成對抗網路(GAN)由發生器 G 和判別器 D 組成,它們在極小化極大演算法中競爭:判別器嘗試區分將合成圖像和真實訓練數據區分開來,而生成器試圖愚弄判別器。D和G的博弈在V (D,G)上展開:

「GAN畫花鳥」零樣本學習,對抗生成網路從文本描述生成圖像

我們的方法是基於由混合字元級卷積循環神經網路編碼的文本特徵,訓練一種深度卷積生成對抗網路(DC-GAN)。

「GAN畫花鳥」零樣本學習,對抗生成網路從文本描述生成圖像

演算法1 我們的訓練過程

網路架構

「GAN畫花鳥」零樣本學習,對抗生成網路從文本描述生成圖像

圖2:我們的文本-條件卷積GAN架構,文本編碼φ(t) 同時用於生成器和鑒別器。

「GAN畫花鳥」零樣本學習,對抗生成網路從文本描述生成圖像

圖3:Zero-shot(來自未知測試集類別的文本)生成的鳥的圖像,使用GAN,GAN-CLS,GAN-INT和GAN-INT-CLS。

「GAN畫花鳥」零樣本學習,對抗生成網路從文本描述生成圖像

圖4:Zero-shot 生成花的圖像,使用GAN,GAN-CLS,GAN-INT和GAN-INT-CLS。所有變數都生成了合理的圖像。雖然在訓練期間沒有展示某些測試類別的形狀(例如第3列和第4列),但保留了顏色信息。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 新智元 的精彩文章:

後圍棋時代:AlphaGo真正的下一步,圍繞TPU為谷歌謀利
WWDC倒計時:遲到的蘋果如何演繹自己的AI First
清華量子計算大師應明生獨家專訪:AI未來一定會以新的形式重生
「Science」羊臉識別診斷疼痛指數,機器學習捕捉動物面部表情

TAG:新智元 |

您可能感興趣

一文讀懂生成對抗網路GANs
由文本生成人臉圖像——T2F
GAN生成對抗網路論文閱讀路線圖
生成對抗網路GAN簡介
文本挖掘:LDA文檔主題生成模型
使用這個尖端的AI文本生成器來編寫故事,詩歌,新聞文章等
李飛飛學生最新論文:利用場景圖生成圖像
資料 | 生成對抗網路(GAN)論文閱讀路線圖【打包下載】
第一本由 AI 生成的書出版
圖像生成方法最新研究:斯坦福聯合谷歌使用圖卷積和GAN從場景圖中生成圖像
必讀!生成對抗網路GAN論文TOP 10
ACM MM最佳論文全文:通過多對抗訓練,從圖像生成詩歌
「新手必備」GAN生成對抗網路論文閱讀路線圖(附論文下載鏈接)
使用 GAN 網路生成名人照片
我用 OpenAI 文本生成器續寫了《復聯》
使用生成式對抗網路進行圖像去模糊
LSGAN:最小二乘生成對抗網路
GAN生成對抗網路代碼解析
李飛飛學生新作:利用場景圖生成圖像
谷歌大腦發布GAN全景圖:看百家爭鳴的生成對抗網路