效果逆天，谷歌最新 BEGAN 刷新計算機生成圖像的質量記錄

新聞 04-09

新智元編譯

效果逆天，谷歌最新 BEGAN 刷新計算機生成圖像的質量記錄

先看一張圖：

下圖左右兩端的兩欄是真實的圖像，其餘的是計算機生成的。

效果逆天，谷歌最新 BEGAN 刷新計算機生成圖像的質量記錄

過渡自然，效果驚人。

這是谷歌本周在 arXiv 發表的論文《BEGAN：邊界均衡生成對抗網路》得到的結果。這項工作針對 GAN 訓練難、控制生成樣本多樣性難、平衡鑒別器和生成器收斂難等問題，提出了改善。

尤其值得注意的，是作者使用了很簡單的結構，經過常規訓練，取得了優異的視覺效果。

作者在論文中寫道，他們的主要貢獻是：

一個簡單且具有魯棒性的 GAN 架構，使用標準的訓練步驟實現了快速、穩定的收斂
一種均衡的概念，用於平衡判別器和生成器（判別器往往在訓練早期就以壓倒性優勢勝過生成器）
一種控制在圖像多樣性與視覺質量之間權衡的新方法
用於近似衡量收斂的方法，據我們所知，目前發表過的這類方法另外只有一種，那就是 Wasserstein GAN（WGAN）

GAN 的結構特點和理論優勢

在介紹 BEGAN 之前，有必要回顧一下 GAN 和 EBGAN（Engry-Based GAN，基於能量的 GAN）。它們是 BEGAN 的基礎。

中國科學院計算技術研究所智能信息處理重點實驗室助理教授楊雙在她發表在「深度學習大講壇」的文章《解讀 GAN 及其 2016 年度進展》當中，做了很好的介紹。我們在取得授權後引用了介紹 GAN 和 EBGAN 的相關部分。

首先是基本的 GAN 模型。

效果逆天，谷歌最新 BEGAN 刷新計算機生成圖像的質量記錄

「原始 GAN 模型的基本框架如上圖所示，其主要目的是要由判別器 D 輔助生成器 G 產生出與真實數據分布一致的偽數據。模型的輸入為隨機雜訊信號 z；該雜訊信號經由生成器 G 映射到某個新的數據空間，得到生成的數據 G(z)；接下來，由判別器 D 根據真實數據 x 與生成數據 G(z) 的輸入來分別輸出一個概率值或者說一個標量值，表示 D 對於輸入是真實數據還是生成數據的置信度，以此判斷 G 的產生數據的性能好壞；當最終 D 不能區分真實數據 x 和生成數據 G(z) 時，就認為生成器 G 達到了最優。

「D 為了能夠區分開兩者，其目標是使 D(x) 與 D(G(z)) 盡量往相反的方向跑，增加兩者的差異，比如使 D(x) 盡量大而同時使 D(G(z)) 盡量小；而 G 的目標是使自己產生的數據在 D 上的表現 D(G(z)) 盡量與真實數據的表現 D(x) 一致，讓 D 不能區分生成數據與真實數據。因此，這兩個模塊的優化過程是一個相互競爭相互對抗的過程，兩者的性能在迭代過程中不斷提高，直到最終 D(G(z)) 與真實數據的表現 D(x) 一致，此時 G 和 D 都不能再進一步優化。」

楊雙介紹說，GAN 除了提供了一種對抗訓練的框架，另一個重要貢獻是其收斂性的理論證明。

「作者通過將 GAN 的優化過程進行分解，從數學推導上嚴格證明了：在假設 G 和 D 都有足夠的 capacity 的條件下，如果在迭代過程中的每一步，D 都可以達到當下在給定 G 時的最優值，並在這之後再更新 G ，那麼最終 Pg 就一定會收斂於Pdata。也正是基於上述的理論，原始文章中是每次迭代中優先保證 D 在給定當前 G 下達到最優，然後再去更新 G 到最優，如此循環迭代完成訓練。這一證明為 GAN 的後續發展奠定了堅實基礎，使其沒有像許多其它深度模型一樣只是被應用而沒有廣而深的改進。」

判別器：借鑒基於能量的GAN

楊雙在《解讀 GAN 及其 2016 年度進展》當中介紹，對 GAN 模型的理論框架層面的改進工作主要可以歸納為兩類：一類是從第三方的角度（不是從GAN 模型本身）看待 GAN 並進行改進和擴展的方法；第二類是從 GAN 模型框架的穩定性、實用性等角度出發對模型本身進行改進的工作。

其中，「EBGAN 是 Yann LeCun 課題組提交到 ICLR2017的一個工作，從能量模型的角度對 GAN 進行了擴展。EBGAN 將判別器看做是一個能量函數，這個能量函數在真實數據域附近的區域中能量值會比較小，而在其他區域（即非真實數據域區域）都擁有較高能量值。因此，EBGAN 中給予 GAN 一種能量模型的解釋，即生成器是以產生能量最小的樣本為目的，而判別器則以對這些產生的樣本賦予較高的能量為目的。

「從能量模型的角度來看待判別器和 GAN 的好處是，我們可以用更多更寬泛的結構和損失函數來訓練 GAN 結構，比如文中就用自編碼器（AE）的結構來作為判別器實現整體的GAN 框架，如下圖所示：

效果逆天，谷歌最新 BEGAN 刷新計算機生成圖像的質量記錄

在訓練過程中，EBGAN 比 GAN 展示出了更穩定的性能，也產生出了更加清晰的圖像，如下圖所示。

效果逆天，谷歌最新 BEGAN 刷新計算機生成圖像的質量記錄

生成器：借鑒 Wasserstein GAN

谷歌的這篇新論文提出的 BEGAN（Boundary Equilibrium GAN），將 AE 作為判別器，在架構上與 EBGAN 十分類似。

在生成器方面，BEGAN 則借鑒了 Wasserstein GAN 定義 loss 的思路。作者在論文中寫道，「我們的方法使用從 Wasserstein 距離衍生而來的 loss 去匹配自編碼 loss 分布。」

今年年初 WGAN 論文發布時，也在業界引發熱議，當時新智元轉載了鄭華濱發表在知乎專欄的文章《令人拍案叫絕的 Wasserstein GAN，徹底解決 GAN 訓練不穩定問題》。

在 WGAN 中，判別器近似的 Wasserstein 距離與生成器的生成圖片質量高度相關，如下所示：

效果逆天，谷歌最新 BEGAN 刷新計算機生成圖像的質量記錄

相比傳統 GAN 直接匹配數據分布，EBGAN 使用一種新的方法，將 loss 基於判別器的重構誤差。作者通過一個額外的均衡條件，讓生成器和判別器相互平衡。作者表示，他們的方法訓練起來更方便，與傳統 GAN 技巧相比架構也更簡單。

EBGAN：簡單模型，效果驚艷

回到我們介紹的 BEGAN，BEGAN 的架構十分簡單，幾乎所有都是 3×3 卷積，sub-sampling 或者 upsampling，沒有 dropout、批量歸一化或者隨機變分近似。

效果逆天，谷歌最新 BEGAN 刷新計算機生成圖像的質量記錄

判別器是 loss 為 L1 的自編碼器，生成器每生成一幅圖，這幅圖判別器能夠在 loss 很小的情況下自編碼，生成器就算勝利。判別器勝利的條件則是①很好地將真實圖像自編碼，以及②很差地辨識生成的圖像。

這篇論文的另一個貢獻是提出了一個衡量生成樣本多樣性的超參數 γ：生成樣本 loss 的預期與真實樣本 loss的預期之比。這個超參數能夠均衡 D 和 G，從而穩定訓練過程。如果生成器表現太好，就側重判別器。

不僅如此，這個超參數 γ 還提供了一個可以衡量的指標，用於判斷收斂，最終也對應圖像的質量。

效果逆天，谷歌最新 BEGAN 刷新計算機生成圖像的質量記錄

摘要

我們提出了一種新的用於促成訓練時生成器和判別器實現均衡（Equilibrium）的方法，以及一個配套的 loss，這個 loss 由 Wasserstein distance 衍生而來，Wasserstein distance 則是訓練基於自編碼器的生成對抗網路（GAN）使用的。此外，這種新的方法還提供了一種新的近似收斂手段，實現了快速穩定的訓練和很高的視覺質量。我們還推導出一種能夠控制權衡圖像多樣性和視覺質量的方法。在論文里我們專註於圖像生成任務，在更高的解析度下建立了視覺質量的新里程碑。所有這些都是使用相對簡單的模型架構和標準的訓練流程實現的。

效果逆天，谷歌最新 BEGAN 刷新計算機生成圖像的質量記錄