當前位置:
首頁 > 新聞 > 必讀!生成對抗網路GAN論文TOP 10

必讀!生成對抗網路GAN論文TOP 10

新智元報道

來源:towardsdatascience

作者:Connor Shorten 編輯:肖琴

【新智元導讀】生成對抗網路 (GAN) 是深度學習中最有趣、最受歡迎的應用之一。本文列出了 10 篇關於 GAN 的論文,這些論文將為你提供一個很好的對 GAN 的介紹,幫助你理解最先進技術的基礎。

本文選擇的 10 篇 GAN 論文包括:

?DCGANs

?Improved Techniques for Training GANs

Conditional GANs

Progressively Growing GANs

?BigGAN

StyleGAN

CycleGAN

?Pix2Pix

?StackGAN

?Generative Adversarial Networks

DCGANs?—?Radford et al. (2015)

我建議你以 DCGAN 這篇論文來開啟你的 GAN 之旅。這篇論文展示了卷積層如何與GAN 一起使用,並為此提供了一系列架構指南。這篇論文還討論了 GAN 特徵的可視化、潛在空間插值、利用判別器特徵來訓練分類器、評估結果等問題。所有這些問題都必然會出現在你的 GAN 研究中。

總之,DCGAN 論文是一篇必讀的 GAN 論文,因為它以一種非常清晰的方式定義架構,因此很容易從一些代碼開始,並開始形成開發 GAN的直覺。

DCGAN 模型:具有上採樣卷積層的生成器架構

論文:

Unsupervised Representation Learning with Deep Convolutional Generative Adversarial Networks

Alec Radford, Luke Metz, Soumith Chintala

https://arxiv.org/abs/1511.06434

改進 GAN 訓練的技術 ——?Salimans et al. (2016)

這篇論文 (作者包括 Ian Goodfellow) 根據上述 DCGAN 論文中列出的架構指南,提供了一系列建議。這篇論文將幫助你了解 GAN 不穩定性的最佳假設。此外,本文還提供了許多用於穩定 DCGAN 訓練的其他機器,包括特徵匹配、 minibatch 識別、歷史平均、單邊標籤平滑和虛擬批標準化。使用這些技巧來構建一個簡單的 DCGAN 實現是一個很好的練習,有助於更深入地了解 GAN。

論文:

Improved Techniques for Training GANs

Tim Salimans, Ian Goodfellow, Wojciech Zaremba, Vicki Cheung, Alec Radford, Xi Chen

https://arxiv.org/abs/1606.03498

Conditional GANs?—?Mirza and Osindero (2014)

這是一篇很好的論文,讀起來很順暢。條件 GAN(Conditional GAN) 是最先進的 GAN之一。論文展示了如何整合數據的類標籤,從而使 GAN 訓練更加穩定。利用先驗信息對 GAN 進行調節這樣的概念,在此後的 GAN 研究中是一個反覆出現的主題,對於側重於 image-to-image 或 text-to-image 的論文尤其重要。

Conditional GAN 架構:除了隨機雜訊向量 z 之外,類標籤 y 被連接在一起作為網路的輸入

論文:

Conditional Generative Adversarial Nets

Mehdi Mirza, Simon Osindero

https://arxiv.org/abs/1411.1784

Progressively Growing GANs—?Karras et al. (2017)

Progressively Growing GAN (PG-GAN) 有著驚人的結果,以及對 GAN 問題的創造性方法,因此也是一篇必讀論文。

這篇 GAN 論文來自 NVIDIA Research,提出以一種漸進增大(progressive growing)的方式訓練 GAN,通過使用逐漸增大的 GAN 網路(稱為 PG-GAN)和精心處理的CelebA-HQ 數據集,實現了效果令人驚嘆的生成圖像。作者表示,這種方式不僅穩定了訓練,GAN 生成的圖像也是迄今為止質量最好的。

它的關鍵想法是漸進地增大生成器和鑒別器:從低解析度開始,隨著訓練的進展,添加新的層對越來越精細的細節進行建模。「Progressive Growing」 指的是先訓練 4x4 的網路,然後訓練 8x8,不斷增大,最終達到 1024x1024。這既加快了訓練速度,又大大穩定了訓練速度,並且生成的圖像質量非常高。

Progressively Growing GAN 的多尺度架構,模型從 4×4 逐步增大到 1024×1024

論文:

Progressive Growing of GANs for Improved Quality, Stability, and Variation

Tero Karras, Timo Aila, Samuli Laine, Jaakko Lehtinen

https://arxiv.org/abs/1710.10196

BigGAN?—?Brock et al. (2019)

BigGAN 模型是基於 ImageNet 生成圖像質量最高的模型之一。該模型很難在本地機器上實現,而且 BigGAN 有許多組件,如 Self-Attention、 Spectral Normalization 和帶有投影鑒別器的 cGAN,這些組件在各自的論文中都有更好的解釋。不過,這篇論文對構成當前最先進技術水平的基礎論文的思想提供了很好的概述,因此非常值得閱讀。

BigGAN 生成的圖像

論文:

Large Scale GAN Training for High Fidelity Natural Image Synthesis

Andrew Brock, Jeff Donahue, Karen Simonyan

https://arxiv.org/abs/1809.11096

StyleGAN?—?Karras et al. (2019)

StyleGAN 模型可以說是最先進的,特別是利用了潛在空間控制。該模型借鑒了神經風格遷移中一種稱為自適應實例標準化 (AdaIN) 的機制來控制潛在空間向量 z。映射網路和 AdaIN 條件在整個生成器模型中的分布的結合使得很難自己實現一個 StyleGAN,但它仍是一篇很好的論文,包含了許多有趣的想法。

StyleGAN 架構,允許潛在空間控制

論文:

A Style-Based Generator Architecture for Generative Adversarial Networks

Tero Karras, Samuli Laine, Timo Aila

https://arxiv.org/abs/1812.04948

CycleGAN?—?Zhu et al. (2017)

CycleGAN 的論文不同於前面列舉的 6 篇論文,因為它討論的是 image-to-image 的轉換問題,而不是隨機向量的圖像合成問題。CycleGAN 更具體地處理了沒有成對訓練樣本的 image-to-image 轉換的情況。然而,由於 Cycle-Consistency loss 公式的優雅性,以及如何穩定 GAN 訓練的啟發性,這是一篇很好的論文。CycleGAN 有很多很酷的應用,比如超解析度,風格轉換,例如將馬的圖像變成斑馬。

Cycle Consistency Loss 背後的主要想法,一個句子從法語翻譯成英語,再翻譯回法語,應該跟原來的是同一個句子

論文:

Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks

Jun-Yan Zhu, Taesung Park, Phillip Isola, Alexei A. Efros

https://arxiv.org/abs/1703.10593

Pix2Pix?—?Isola et al. (2016)

Pix2Pix 是另一種圖像到圖像轉換的 GAN 模型。該框架使用成對的訓練樣本,並在GAN 模型中使用多種不同的配置。讀這篇論文時,我覺得最有趣部分是關於 PatchGAN的討論。PatchGAN 通過觀察圖像的 70×70 的區域來判斷它們是真的還是假的,而不是查看整個圖像。該模型還展示了一個有趣的 U-Net 風格的生成器架構,以及在生成器模型中使用 ResNet 風格的 skip connections。 Pix2Pix 有很多很酷的應用,比如將草圖轉換成逼真的照片。

使用成對的訓練樣本進行 Image-to-Image 轉換

論文:

Image-to-Image Translation with Conditional Adversarial Networks

Phillip Isola, Jun-Yan Zhu, Tinghui Zhou, Alexei A. Efros

https://arxiv.org/abs/1611.07004

StackGAN?—?Zhang et al. (2017)

StackGAN 的論文與本列表中的前幾篇論文相比非常不同。它與 Conditional GAN 和Progressively Growing GANs 最為相似。StackGAN 模型的工作原理與 Progressively Growing GANs 相似,因為它可以在多個尺度上工作。StackGAN 首先輸出解析度為64×64 的圖像,然後將其作為先驗信息生成一個 256×256 解析度的圖像。

StackGAN是從自然語言文本生成圖像。這是通過改變文本嵌入來實現的,以便捕獲視覺特徵。這是一篇非常有趣的文章,如果 StyleGAN 中顯示的潛在空間控制與 StackGAN 中定義的自然語言介面相結合,想必會非常令人驚訝。

基於文本嵌入的 StackGAN 多尺度架構背後的想法

論文:

StackGAN: Text to Photo-realistic Image Synthesis with Stacked Generative Adversarial Networks

Han Zhang, Tao Xu, Hongsheng Li, Shaoting Zhang, Xiaogang Wang, Xiaolei Huang, Dimitris Metaxas

https://arxiv.org/abs/1612.03242

Generative Adversarial Networks?—?Goodfellow et al. (2014)

Ian Goodfellow 的原始 GAN 論文對任何研究 GAN 的人來說都是必讀的。這篇論文定義了 GAN 框架,並討論了 「非飽和」 損失函數。論文還給出了最優判別器的推導,這是近年來 GAN 論文中經常出現的一個證明。論文還在 MNIST、TFD 和 CIFAR-10 圖像數據集上對 GAN 的有效性進行了實驗驗證。

論文:

Generative Adversarial Networks

Ian J. Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, David Warde-Farley, Sherjil Ozair, Aaron Courville, Yoshua Bengio

https://arxiv.org/abs/1406.2661

https://towardsdatascience.com/must-read-papers-on-gans-b665bbae3317


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 新智元 的精彩文章:

英偉達史上最大手筆!70億美元擬收購Mellanox,全球晶元整合大潮拍岸
給數據科學家判死刑:5年後將被機器學習取代

TAG:新智元 |