效果逆天,谷歌最新 BEGAN 刷新計算機生成圖像的質量記錄
新智元編譯
先看一張圖:
下圖左右兩端的兩欄是真實的圖像,其餘的是計算機生成的。
過渡自然,效果驚人。
這是谷歌本周在 arXiv 發表的論文《BEGAN:邊界均衡生成對抗網路》得到的結果。這項工作針對 GAN 訓練難、控制生成樣本多樣性難、平衡鑒別器和生成器收斂難等問題,提出了改善。
尤其值得注意的,是作者使用了很簡單的結構,經過常規訓練,取得了優異的視覺效果。
作者在論文中寫道,他們的主要貢獻是:
一個簡單且具有魯棒性的 GAN 架構,使用標準的訓練步驟實現了快速、穩定的收斂
一種均衡的概念,用於平衡判別器和生成器(判別器往往在訓練早期就以壓倒性優勢勝過生成器)
一種控制在圖像多樣性與視覺質量之間權衡的新方法
用於近似衡量收斂的方法,據我們所知,目前發表過的這類方法另外只有一種,那就是 Wasserstein GAN(WGAN)
GAN 的結構特點和理論優勢
在介紹 BEGAN 之前,有必要回顧一下 GAN 和 EBGAN(Engry-Based GAN,基於能量的 GAN)。它們是 BEGAN 的基礎。
中國科學院計算技術研究所智能信息處理重點實驗室助理教授楊雙在她發表在「深度學習大講壇」的文章《解讀 GAN 及其 2016 年度進展》當中,做了很好的介紹。我們在取得授權後引用了介紹 GAN 和 EBGAN 的相關部分。
首先是基本的 GAN 模型。
「原始 GAN 模型的基本框架如上圖所示,其主要目的是要由判別器 D 輔助生成器 G 產生出與真實數據分布一致的偽數據。模型的輸入為隨機雜訊信號 z;該雜訊信號經由生成器 G 映射到某個新的數據空間,得到生成的數據 G(z);接下來,由判別器 D 根據真實數據 x 與生成數據 G(z) 的輸入來分別輸出一個概率值或者說一個標量值,表示 D 對於輸入是真實數據還是生成數據的置信度,以此判斷 G 的產生數據的性能好壞;當最終 D 不能區分真實數據 x 和生成數據 G(z) 時,就認為生成器 G 達到了最優。
「D 為了能夠區分開兩者,其目標是使 D(x) 與 D(G(z)) 盡量往相反的方向跑,增加兩者的差異,比如使 D(x) 盡量大而同時使 D(G(z)) 盡量小;而 G 的目標是使自己產生的數據在 D 上的表現 D(G(z)) 盡量與真實數據的表現 D(x) 一致,讓 D 不能區分生成數據與真實數據。因此,這兩個模塊的優化過程是一個相互競爭相互對抗的過程,兩者的性能在迭代過程中不斷提高,直到最終 D(G(z)) 與真實數據的表現 D(x) 一致,此時 G 和 D 都不能再進一步優化。」
楊雙介紹說,GAN 除了提供了一種對抗訓練的框架,另一個重要貢獻是其收斂性的理論證明。
「作者通過將 GAN 的優化過程進行分解,從數學推導上嚴格證明了:在假設 G 和 D 都有足夠的 capacity 的條件下,如果在迭代過程中的每一步,D 都可以達到當下在給定 G 時的最優值,並在這之後再更新 G ,那麼最終 Pg 就一定會收斂於Pdata。也正是基於上述的理論,原始文章中是每次迭代中優先保證 D 在給定當前 G 下達到最優,然後再去更新 G 到最優,如此循環迭代完成訓練。這一證明為 GAN 的後續發展奠定了堅實基礎,使其沒有像許多其它深度模型一樣只是被應用而沒有廣而深的改進。」
判別器:借鑒基於能量的GAN
楊雙在《解讀 GAN 及其 2016 年度進展》當中介紹,對 GAN 模型的理論框架層面的改進工作主要可以歸納為兩類:一類是從第三方的角度(不是從GAN 模型本身)看待 GAN 並進行改進和擴展的方法;第二類是從 GAN 模型框架的穩定性、實用性等角度出發對模型本身進行改進的工作。
其中,「EBGAN 是 Yann LeCun 課題組提交到 ICLR2017的一個工作,從能量模型的角度對 GAN 進行了擴展。EBGAN 將判別器看做是一個能量函數,這個能量函數在真實數據域附近的區域中能量值會比較小,而在其他區域(即非真實數據域區域)都擁有較高能量值。因此,EBGAN 中給予 GAN 一種能量模型的解釋,即生成器是以產生能量最小的樣本為目的,而判別器則以對這些產生的樣本賦予較高的能量為目的。
「從能量模型的角度來看待判別器和 GAN 的好處是,我們可以用更多更寬泛的結構和損失函數來訓練 GAN 結構,比如文中就用自編碼器(AE)的結構來作為判別器實現整體的GAN 框架,如下圖所示:
在訓練過程中,EBGAN 比 GAN 展示出了更穩定的性能,也產生出了更加清晰的圖像,如下圖所示。
生成器:借鑒 Wasserstein GAN
谷歌的這篇新論文提出的 BEGAN(Boundary Equilibrium GAN),將 AE 作為判別器,在架構上與 EBGAN 十分類似。
在生成器方面,BEGAN 則借鑒了 Wasserstein GAN 定義 loss 的思路。作者在論文中寫道,「我們的方法使用從 Wasserstein 距離衍生而來的 loss 去匹配自編碼 loss 分布。」
今年年初 WGAN 論文發布時,也在業界引發熱議,當時新智元轉載了鄭華濱發表在知乎專欄的文章《令人拍案叫絕的 Wasserstein GAN,徹底解決 GAN 訓練不穩定問題》。
在 WGAN 中,判別器近似的 Wasserstein 距離與生成器的生成圖片質量高度相關,如下所示:
相比傳統 GAN 直接匹配數據分布,EBGAN 使用一種新的方法,將 loss 基於判別器的重構誤差。作者通過一個額外的均衡條件,讓生成器和判別器相互平衡。作者表示,他們的方法訓練起來更方便,與傳統 GAN 技巧相比架構也更簡單。
EBGAN:簡單模型,效果驚艷
回到我們介紹的 BEGAN,BEGAN 的架構十分簡單,幾乎所有都是 3×3 卷積,sub-sampling 或者 upsampling,沒有 dropout、批量歸一化或者隨機變分近似。
判別器是 loss 為 L1 的自編碼器,生成器每生成一幅圖,這幅圖判別器能夠在 loss 很小的情況下自編碼,生成器就算勝利。判別器勝利的條件則是①很好地將真實圖像自編碼,以及②很差地辨識生成的圖像。
這篇論文的另一個貢獻是提出了一個衡量生成樣本多樣性的超參數 γ:生成樣本 loss 的預期與真實樣本 loss的預期之比。這個超參數能夠均衡 D 和 G,從而穩定訓練過程。如果生成器表現太好,就側重判別器。
不僅如此,這個超參數 γ 還提供了一個可以衡量的指標,用於判斷收斂,最終也對應圖像的質量。
摘要
我們提出了一種新的用於促成訓練時生成器和判別器實現均衡(Equilibrium)的方法,以及一個配套的 loss,這個 loss 由 Wasserstein distance 衍生而來,Wasserstein distance 則是訓練基於自編碼器的生成對抗網路(GAN)使用的。此外,這種新的方法還提供了一種新的近似收斂手段,實現了快速穩定的訓練和很高的視覺質量。我們還推導出一種能夠控制權衡圖像多樣性和視覺質量的方法。在論文里我們專註於圖像生成任務,在更高的解析度下建立了視覺質量的新里程碑。所有這些都是使用相對簡單的模型架構和標準的訓練流程實現的。
測試結果:上面是基於能量的GAN(EBGAN)與邊界均衡 GAN(BEGAN)的對比,後者由顯著提升;下面展示展示了超參數 γ 值不同情況的對比,可以看出 γ 值越大圖片質量越高。
參考資料
楊雙,【青年學者專欄】解讀GAN及其 2016 年度進展,深度學習大講堂
鄭華濱,令人拍案叫絕的Wasserstein GAN,知乎專欄
3月27日,新智元開源·生態AI技術峰會暨新智元2017創業大賽頒獎盛典隆重召開,包括「BAT」在內的中國主流 AI 公司、600多名行業精英齊聚,共同為2017中國人工智慧的發展畫上了濃墨重彩的一筆。
點擊閱讀原文,查閱文字版大會實錄


※Web 50 年|從 Tim Berners Lee 的圖靈獎說起,到達 Web 5.0 之前我們還要經歷什麼
※「重磅」谷歌發布TPU論文,75位聯合作者,GPU迎來最強勁對手
※8.3億留不住你,前谷歌工程師獎金凸顯無人車領域熱度
※《紐約客》深度長文:當人工智慧遇上醫生
TAG:新智元 |
※連環計:「垃圾」DNA成「環狀DNA」生成調控RNA!
※CMU試圖統一深度生成模型:搭建GAN和VAE之間的橋樑
※谷歌為YouTube添加新功能:利用機器學習自動生成音效字幕
※谷歌開源 JPEG 編碼器 Guetzli,壓縮 35% 也能生成高質量圖片
※「GAN X NLP」自然語言對抗生成:加拿大研究員使用GAN生成中國古詩詞
※MIT最新研究:新演算法通過學習摺紙模型,生成任意3D結構
※ACL最佳論文出爐,十四行詩生成、OpenNMT、概率類型學等上榜
※即時生成虛擬化身 TGS展會最新VR應用體驗引注目
※索尼Xperia新品可進行3D掃描,四種生成模式,能用於AR相機效果
※AI編曲震撼人心,RNN生成流行音樂
※TP-GAN 讓圖像生成再獲突破,根據單一側臉生成正面逼真人臉
※MIT的終極摺紙演算法可為3D模型生成2D平面圖
※TSRI:揭示如何生成一個成功HIV疫苗的線索
※Yes台北現場〉梁根榮來台為新EP宣傳 做音樂太累生成幻覺
※「貓咪生成器」DCGAN、WGAN等4種生成對抗網路貓咪圖像對比
※演唱會現場粉絲LED舉牌一鍵生成器
※「AI作畫真假難辨」Facebook 創意生成網路 CAN,比 GAN 更有創造力
※浙江省二級AOA系列之WORD長文檔排版(一)——自動生成目錄和圖表索引
※英飛凌TPM晶元組生成不安全的RSA密鑰,多家廠商受影響