不再使用人眼評估，你訓練的GAN還OK嗎？

科技 08-27

選自arXiv

作者：Konstantin Shmelkov等

機器之心編譯

參與：李詩萌、張倩

生成對抗網路（GAN）是當今最流行的圖像生成方法之一，但評估和比較 GAN 產生的圖像卻極具挑戰性。之前許多針對 GAN 合成圖像的研究都只用了主觀視覺評估，一些定量標準直到最近才開始出現。本文認為現有指標不足以評估 GAN 模型，因此引入了兩個基於圖像分類的指標——GAN-train 和 GAN-test，分別對應 GAN 的召回率（多樣性）和精確率（圖像質量）。研究者還基於這兩個指標評估了最近的 GAN 方法並證明了這些方法性能的顯著差異。上述評估指標表明，數據集複雜程度（從 CIFAR10 到 CIFAR100 再到 ImageNet）與 GAN 質量呈負相關關係。

生成對抗網路（GAN）[19] 是由一對存在競爭關係的神經網路——生成器和判別器——組成的深度神經網路架構。通過交替優化兩個目標函數訓練該模型，這樣可以讓生成器 G 學會產生與真實圖像類似的樣本，還能讓判別器 D 學會更好地甄別真假數據。這種範式潛力巨大，因為它可以學會生成任何數據分布。這種模型已經在一些計算機視覺問題上取得了一定成果，例如文本到圖像的轉換 [56] 和圖像到圖像的轉換 [24,59]、超解析度 [31] 以及逼真的自然圖像生成 [25]。

自從提出了 GAN 模型後，近幾年間出現了許多變體，如以提升生成圖像質量為目的的 GAN 模型 [12,15,25,36] 和以穩定訓練過程為目的的 GAN 模型 [7,9,20,34,36,40,57]。通過調整附加信息（如類別標籤），GAN 還可以被修改為生成給定類別圖像的網路 [16,35,37,41]。實現這一想法有許多方法：連結標籤 y 和生成器的輸入 z 或中間特徵映射 [16,35]，使用條件批歸一化 [37] 以及用輔助分類器增強鑒別器 [41]。隨著這些方法的提出，有一個問題就變得重要了起來：該如何評價和比較這些模型呢？

評估和比較 GAN，或者說評估和比較 GAN 產生的圖像，是一件極具挑戰性的事，部分原因是缺乏明確的、在可比較概率模型中常用的似然方法 [51]。因此，之前許多針對 GAN 合成的圖像的工作都只用了主觀視覺評估。如圖 1 所示，當前最佳 GAN 生成圖像的樣本 [36]，用主觀評估方法無法精確評估圖像質量。近兩年的研究已經開始嘗試通過定量方法評估 GAN[22,25,32,46]。

圖 1：當前最佳 GAN 模型（如 SNGAN）[36] 生成逼真圖像，這些圖像難以用主觀評估法與真實圖像進行比較。我們的基於準確率的圖像分類新方法解決了這個問題，並展示了真實圖像和生成圖像間的顯著差異。

將 Inception 分數（IS）[46] 和 Fr′echet Inception 距離（FID）[22] 作為與生成圖像視覺質量相關的臨時指標。IS 通過計算圖像產生的 (logit) 響應和邊際分布（即在 ImageNet 上訓練出來的 Inception 網路生成的全部圖像的平均響應）之間的 KL 散度衡量生成圖像的質量。換句話說，IS 無法與目標分布的樣本進行比較，僅可用於量化生成樣本的多樣性。FID 比較的是真實圖像和生成圖像間的 Inception 激活值（Inception 網路中倒數第二層的響應）。但這樣的比較將真實圖像和生成圖像的激活值近似為高斯分布（參見等式（2）），計算其平均值和方差，但因為太過粗糙而無法捕捉其細節。這些評估方法都依賴於經過 ImageNet 預訓練的 Inception 網路，這對其他數據集（如面部數據集和生物醫學成像數據集）來說遠不夠理想。總而言之，IS 和 FID 是評估訓練進展的有用指標，但它們無法評估真實世界中的任務。正如我們在第 5 節中討論的那樣，與我們的指標（以表 2 中的 SNGAN 和 WPGAN-GP（10M）為例）不同，這些指標不足以精確地區別出當前最佳的 GAN 模型。

還有一種評估方法是根據精確率和召回率計算生成樣本到真實數據流形間的距離 [32]。高精確率意味著生成樣本與數據流形很接近，而高召回率意味著生成器的輸出樣本很好地覆蓋了流形。這些指標還是很理想主義的，因為無法在流形未知的自然圖像數據上進行計算。實際上，[32] 中的評估方法也只能用在由灰度三角形組成的合成數據中。另一種用於比較 GAN 模型距離的是 SWD[25]。SWD 是真實圖像和生成圖像間的 Wasserstein-1 距離的估計值，它計算的是從圖像的 Laplacian 金字塔表徵中提取的局部圖像之間的數據相似性。正如第 5 節所說，SWD 的信息量低於我們的評價指標。

我們在本文中提出了新的評價指標，是用 GAN-train 分數和 GAN-test 分數比較類條件的 GAN 架構。對於這兩種指標，我們都依賴神經網路架構來進行圖像分類。為了計算 GAN-train，我們用 GAN 生成的圖像訓練了分類網路，然後在由真實圖像組成的測試集上評估了其表現。直接地說，這度量了學習到的（生成圖像）分布和目標（真實圖像）分布間的差異。可以得出結論：如果學慣用於區分針對不同類別的生成圖像特徵的分類網路可以對真實圖像進行正確分類，那麼生成圖像與真實圖像相似。換句話說，GAN-train 類似於召回率度量，因為 GAN-train 表現好意味著生成的樣本足夠多樣化。但是，GAN-train 也需要足夠的精確率，否則分類器會受到樣本質量的影響。

我們的第二個指標，GAN-test，是在真實圖像上訓練並在生成圖像上評估得到的網路的準確率。該指標與精確率類似，值比較高意味著生成的樣本與（未知）自然圖像分布近似。除了這兩個指標外，我們還研究了 GAN 生成圖像在強化訓練數據方面的作用。可以將其視為衡量生成圖像多樣性的指標。我們在圖 1 中用 GAN-train 指標闡明了我們的評估方法的效果，尤其是在主觀評價不充分的情況下。我們將在第 3 節討論這些評估指標的細節。

正如第 5 節中廣泛的實驗結果以及補充材料和技術報告中的附錄 [5] 所示，與之前討論的所有評估指標相比（包括沒有得出結論的人類研究），這些指標在評估 GAN 方面的信息要豐富得多。尤其是我們還對當前最佳的兩個 GAN 模型（WGAN-GP[20] 和 SNGAN[36]）以及其他一些生成模型 [45,47] 進行了評估，以提供基線比較。用 MNIST[30]、CIFAR10、CIFAR100[28] 和 ImageNet[14] 數據集評估了圖像分類表現。實驗結果表明，隨著數據集複雜度的增加，GAN 圖像的質量顯著降低。

論文：How good is my GAN?

論文鏈接：https://arxiv.org/pdf/1807.09499.pdf

摘要：生成對抗網路（GAN）是當今最流行的圖像生成方法之一。儘管已經有了不少可以直觀感受到的令人印象深刻的成果，但一些定量標準直到最近才出現。我們認為現有指標不足以評估模型，因此在本文中引入了兩個基於圖像分類的指標——GAN-train 和 GAN-test，這兩個指標分別對應的是 GAN 的召回率（多樣性）和精確率（圖像質量）。我們基於這兩個指標評估了最近的 GAN 方法並證明了這些方法性能的顯著差異。此外，我們的評估指標清楚地表明，數據集複雜程度（從 CIFAR10 到 CIFAR100 再到 ImageNet），與 GAN 質量呈負相關關係。

3. GAN-train 和 GAN-test

條件 GAN 模型的一個重要特徵是生成的圖像不僅要逼真，還要能辨識出屬於一個給定的類別。一個可以完美捕獲目標分布的理想 GAN 可以生成一個新的圖像數據集 S_g，這個數據集與原始的訓練集 S_t 沒什麼區別。假設這些數據集大小相同，根據這兩個數據集中的任意一個訓練出來的分類器應該有同樣的驗證準確率。當數據集足夠簡單（例如 MNIST[48]）時確實是這樣（見 5.2 節）。在這種最佳 GAN 特性的推動下，我們設計了兩個分數來評估 GAN，如圖 2 所示。

圖 2：GAN-train 和 GAN-test 圖示。GAN-train 根據 GAN 生成圖像訓練了一個分類器，並在真實圖像上進行測試。該指標評估了 GAN 生成圖像的多樣性和真實性。GAN-test 根據真實圖像訓練了分類器，並在 GAN 生成圖像上進行評估。該指標評估了 GAN 生成圖像的真實性。

GAN-train 是在 S_g 上訓練，在由真實圖像組成的驗證集 S_v 上測試的分類器的準確率。當 GAN 不夠好的時候，GAN-train 會比在 S_t 上訓練出來的分類器的驗證準確率低。造成這種情況的原因有很多，例如，（i）與 S_t 相比，模式下降導致 S_g 的多樣性降低；（ii）生成樣本不夠逼真，以至於分類器無法學到相關特徵；（iii）GAN 可以將類別混在一起並混淆分類器。不幸的是，我們無法確定 GAN 的問題在哪。當 GAN-train 的準確率與驗證集的準確率相近時，意味著 GAN 產生的圖像質量很高且和訓練集一樣多樣化。正如我們在 5.3 節中所說的那樣，多樣性會隨著生成圖像數量的變化而變化。我們將在本節末尾的評價討論中對其進行分析。

GAN-test 是在原始訓練集 S_t 上訓練，但在 S_g 上測試得到的分類器的準確率。如果 GAN 能很好地進行學習，這就會是一項簡單的任務，因為這兩個數據集的分布是一樣的。理想情況下，GAN-test 應該和驗證準確率相近。如果 GAN-test 明顯高了，那就意味著 GAN 過擬了，即它只是簡單地記住了訓練集。相反，如果 GAN-test 明顯低了，則說明 GAN 無法很好地捕獲目標分布且 GAN 生成的圖像質量堪憂。注意，該指標無法說明樣本的多樣性，因為可以完美記憶每一個訓練圖像的模型可以得到很高的分數。GAN-test 與 [32] 中的精確度相關，它量化了生成圖像與數據流形之間的接近程度。

為了深入了解 GAN 生成圖像的多樣性，我們通過大小不同的生成圖像數據集得到了 GAN-train 準確率，將其與根據相應大小的真實數據訓練得到的分類器的驗證準確率相比較。如果所有的生成圖像都是完美的，GAN-train 的 S_g（其中 GAN-train 等於小尺寸訓練集的驗證精度）的大小將會是 S_g 中不同圖像數量的良好估計。我們在實踐中觀察到，在 GAN 生成樣本數量確定的情況下，GAN-train 準確率是飽和的（見第 5.3 節中的圖 4（a）和 4（b））。這是一種度量 GAN 多樣性的方法，與 [32] 中的召回率相似，都是度量 GAN 覆蓋的數據流形的分數的方法。

5. 實驗