當前位置:
首頁 > 新聞 > 深度學習最強資源推薦:一文看盡 GAN 的前世今生

深度學習最強資源推薦:一文看盡 GAN 的前世今生

雷鋒網 AI 科技評論按,生成對抗網路是當前最熱門的技術之一,它掀起了一場技術革命,取得了很多重大的突破。不久前,伊利諾伊大學香檳分校的學生 Ajay Uppili Arasanipalai 在 Deep Learning 專欄發布了一篇文章,文章詳細介紹了 GAN 自被提出以來的發展歷史,以及各種相關的論文、代碼和博客。雷鋒網 AI 科技評論將他的文章編譯整理如下。

當 Ian Goodfellow 在 2014 年喝了一杯啤酒之後,在夢中產生了「生成對抗網路」(GANs)的想法時,他可能沒想到這一領域進展如此之快:

深度學習最強資源推薦:一文看盡 GAN 的前世今生

你可能不知道我要表達什麼意思——其實你剛才看到的圖片完全、不可否認、100%…是假的。

此外,我並不是說,這些圖片都是 photoshop、CGI 或用 Nvidia 目前的高級新技術填補空白產生的。

我的意思是,這些圖像完全是通過加法、乘法在花費了大量 GPU 計算之後生成的。

實現這些玩意兒的演算法被稱為生成性對抗網路,在過去幾年中,Facebook 致力於生成對抗網路的研究和創新比在隱私保護問題上更多。

深度學習最強資源推薦:一文看盡 GAN 的前世今生

2019 年 1 月 15 日,Ian Goodfellow 在 twitter 中表示,過去 4 年半,GAN 在人臉生成方面的進展可以查看下面的資料:

  • https://t.co/kiQkuYULMC

  • https://t.co/S4aBsU536b

  • https://t.co/8di6K6BxVC

  • https://t.co/UEFhewds2M

  • https://t.co/s6hKQz9gLz

  • https://t.co/F9Dkcfrq8l

總結 2014 年 vanilla GAN 的每一個進步,就和觀看第 8 季《權力的遊戲》一樣困難。因此,我將回顧幾年來 GAN 研究中最酷結果背後的關鍵思想。

我不打算詳細解釋轉置卷積和 Wasserstein 距離等概念。相反,我將提供一些最好的資源的鏈接,你可以使用這些資源快速了解這些概念,這樣你就會了解它們是如何融入大局的。

如果你還在閱讀,我假設你知道深度學習的基礎知識,你知道卷積神經網路是如何工作的。帶著這些前提,下面先看看 GAN 的發展路線圖:

深度學習最強資源推薦:一文看盡 GAN 的前世今生

GAN 的發展路線圖

我們將按照下面的順序,一步一步學習它:

  1. GAN:生成對抗網路

  2. DCGAN:深度卷積生成對抗網路

  3. CGAN:條件生成對抗網路

  4. CycleGAN

  5. CoGAN:耦合生成對抗網路

  6. ProGAN:生成對抗網路的漸進式增長

  7. WGAN:Wasserstein 生成對抗網路

  8. SAGAN:自注意力生成對抗網路

  9. BigGAN:大生成對抗性網路

  10. StyleGAN:基於風格的生成對抗網路

接下來讓我們開始吧!

1.GAN:生成對抗網路

深度學習最強資源推薦:一文看盡 GAN 的前世今生

圖片來自於這篇論文:https://arxiv.org/pdf/1406.2661.pdf

相關資源:

  • 論文

  • 代碼

  • 其他重要資源:Ian Goodfellow 的 NIPS 2016 教程

現在,我知道你在想什麼了——天啊,那張令人毛骨悚然的、模糊的圖像看起來像是一個數學迷從 Excel 表格中製作圖片後放大的結果。

好吧,其實你猜的多多少少是對的(除去 excel 部分)。

早在 2014 年,Ian Goodfellow 就提出了一個革命性的想法——讓兩個神經網路相互競爭(或合作,這是一個觀點問題)。

一個神經網路試圖生成接近真實的數據(注意,GANs 可以用來模擬任何數據分布,但目前主要用於圖像),另一個網路試圖區分真實的數據和由生成網路生成的數據。

生成器網路使用判別器作為損耗函數,並更新其參數以生成看起來更真實的數據。

深度學習最強資源推薦:一文看盡 GAN 的前世今生

另一方面,判別器網路更新其參數,以便更好地從真實數據中識別出假數據。所以它的性能也變得更好了。

這個貓鼠遊戲繼續進行,直到系統達到所謂的「平衡」。達到平衡以後,生成器創建的數據看起來足夠真實,因此判別器能做的只是是隨機猜測。

希望到目前為止,如果你正確地縮進了代碼,並且 Amazon 決定不停止你的 SPOT 實例(順便說一句,這不會發生在 FloydHub 上,因為它們提供了專用的 GPU 機器),那麼你現在就有了一個生成器,可以精確地創建和你的訓練數據集相同的新數據。

現在,這是公認的 GANs 的一個非常簡單的觀點。你需要從這裡學到的思想是,通過使用兩個神經網路——一個神經網路生成數據,另一個神經網路從假數據中分類出真實數據。從理論上來說,你可以同時訓練它們,收斂到一個點,在這個點上,生成器可以生成全新的、真實的數據。

2.DCGAN:深卷積生成對抗網路

深度學習最強資源推薦:一文看盡 GAN 的前世今生

圖片來源:https://arxiv.org/pdf/1511.06434.pdf

相關資源:

  • 論文

  • 代碼

  • 其他資源: 媒體文章

看到了吧,我會給你節省時間。

卷積=對於圖像處理來說很有用

GANs=適合生成一些東西

卷積+GANs=適合生成圖像

事後看來,正如 Ian Goodfellow 在與 Lex Fridman 在一次廣播節目中所指出的那樣,他們將這種模型稱為 DCGAN(即「深層卷積生成對抗網路」)似乎很愚蠢,因為現在幾乎所有與深度學習和圖像相關的東西都是深度的、卷積的。

另外,當大多數人了解到 GANs 時,他們或多或少都會知道它們是「深度而卷積」的。

然而,曾經有一段時間,GANs 並不一定使用基於卷積的操作,而是依賴於標準的多層感知器架構。

DCGAN 改變了這一點,使用了一種被稱為轉置卷積運算的方法,它還有一個「不幸的」名稱,即反卷積層。

轉置卷積可以進行向上縮放操作。它們幫助我們將低解析度圖像轉換為高解析度圖像。

但是,嚴肅地說,你需要通過上面介紹的論文、低嗎和媒體資源來更好地理解轉置卷積,因為它們是所有現代 GAN 架構的基礎。

不過,如果你的時間有點短,那麼你可以通過觀看一個簡單的動畫,來大概了解轉置卷積是如何工作的:

深度學習最強資源推薦:一文看盡 GAN 的前世今生

在 vanilla 卷積中,你應用一系列卷積(連同其他操作)來將圖像映射到更低維的向量。

同樣,按順序應用多個轉置卷積可以使我們將一個低解析度的單陣列演化為一個色彩明艷的全彩圖像。現在,在繼續之前,我們先來探索一下使用 GAN 的一些獨特方法。

深度學習最強資源推薦:一文看盡 GAN 的前世今生

你現在處在第二個紅色的「X」的位置

3.CGAN:條件生成對抗網路

深度學習最強資源推薦:一文看盡 GAN 的前世今生

圖片來源於論文:https://arxiv.org/pdf/1411.1784.pdf

相關資源:

  • 論文

  • 代碼

  • 其他重要資源:博客

原始的 GAN 從隨機雜訊中生成數據。這意味著你可以訓練它,以小狗圖像為例,它會產生更多的小狗圖像。

你還可以在小貓圖像上訓練它,在這種情況下,它將生成小貓的圖像。

你也可以在演員 Nicholas Cage 的照片圖像上訓練它,在這種情況下,它將生成 Nicholas Cage 圖像。

你也可以在很多別的圖像上訓練它。明白了嗎?在什麼圖像上訓練 GAN,它就能生成更多的類似圖像。

然而,如果你同時嘗試在狗和貓的圖像上訓練它,它會生成模糊的半品種,就和下圖一樣。

深度學習最強資源推薦:一文看盡 GAN 的前世今生

圖片由 Anusha Barwa 拍攝於 Unsplash

CGAN(代表「條件生成對抗網路」)旨在通過告訴生成器只生成一個特定類的圖像來解決這個問題,例如貓、狗或 Nicholas Cage。

具體來說,CGAN 將一個 one-hot 向量 y 連接到隨機雜訊矢量 z,得到如下結構:

深度學習最強資源推薦:一文看盡 GAN 的前世今生

現在,我們就可以利用同一個 GAN 生成貓和狗。

4.CycleGAN

深度學習最強資源推薦:一文看盡 GAN 的前世今生

相關資源:

  • 論文:

  • 代碼

  • 其他重要資源:Cyclegan 項目

  • 媒體文章

GANs 不僅僅用於生成圖像。他們還可以創造外表上同時具有馬和斑馬特點的生物,如上圖所示。

為了創建這些圖像,CycleGAN 致力於解決一個被稱為圖像到圖像翻譯的問題。

CycleGAN 不是一種新的 GAN 架構,雖然它推動了最先進的圖像合成技術。相反,它是一種使用 GANs 的聰明方法。所以你可以自由地在任何你喜歡的架構中使用這種技術。

這裡有一篇文章,我建議你讀一下。它寫得非常好,甚至對初學者來說也很容易理解。文章地址:https://arxiv.org/abs/1703.10593v6。

這裡的任務是訓練網路 G(X),將圖像從源域 X 映射到目標域 Y

但是,等等,你可能會問,「這和常規的深度學習或風格轉換有什麼不同」。

好吧,下面的圖片很好地總結了這一點。CycleGAN 進行未配對的圖像到圖像的轉換。這意味著我們正在訓練的圖像不必代表相同的東西。

深度學習最強資源推薦:一文看盡 GAN 的前世今生

如果我們有大量的圖像(DaVinci-ify 的圖像繪畫)對收藏的話,DaVinci-ify 將(相對地)很容易識別圖像。

不幸的是,這傢伙沒來得及完成太多的畫。

然而,CycleGAN 使用未配對的數據進行訓練。所以我們不需要相同事物的兩個圖像。

另一方面,我們可以使用樣式轉換。但這隻會提取一個特定圖像的樣式,並將其轉換為另一個圖像,這意味著我們無法從馬轉換為斑馬。

然而,CycleGAN 學習從一個圖像域到另一個圖像域的映射。所以我們可以在所有 Monet 繪畫的集合上對它進行訓練。

深度學習最強資源推薦:一文看盡 GAN 的前世今生

他們使用的方法相當優雅。CycleGAN 由兩個生成器 G 和 F 以及兩個判別器 Dx 和 Dy 組成。

G 從 X 中獲取圖像,並試圖將其映射到 Y 中的某個圖像。判別器 Dy 判斷圖像是由 G 生成的,還是實際上是在 Y 中生成的。

同樣地,F 從 Y 中獲取一個圖像,並試圖將其映射到 X 中的某個圖像,判別器 Dx 預測圖像是由 F 生成的還是實際存在於 X 中的。

所有四個網路都是以普通的 GAN 的方式訓練的,直到得到強大的生成器 G 和 F,它們可以很好地執行圖像到圖像的翻譯任務,騙過判別器。

這種對抗性的損失聽起來是個好主意,但還不夠。為了進一步提高性能,CycleGAN 使用另一個度量,即循環一致性損失。

一般來說,想想好的翻譯人員的特點。其中之一是,當你來回翻譯時,你應該得到同樣的東西。

CycleGAN 巧妙地實現了這個想法,它強制網路遵守這些限制條件:

  • F(G(x))≈x,x∈X

  • G(F(y))≈y,y∈Y

從視覺上看,循環一致性如下:

深度學習最強資源推薦:一文看盡 GAN 的前世今生

總損耗函數的構造方式是,懲罰不符合上述特性的網路。我不打算在這裡寫出損失函數,因為這會破壞它在論文裡面的組合方式。

好吧,在越聊越偏之前,讓我們回到尋找更好的 GAN 架構的主要任務。

5.CoGAN:耦合生成對抗網路

深度學習最強資源推薦:一文看盡 GAN 的前世今生

圖片來源於論文:https://arxiv.org/pdf/1606.07536.pdf

相關資源:

  • 論文:

  • 代碼:

  • 其他重要資源:博客論文

你知道什麼比一個 GAN 更好嗎?兩個 GAN!

CoGAN 就是這樣做的(CoGAN 代表「耦合生成對抗網路」,不要與 CGAN 混淆,CGAN 代表條件生成對抗網路)。它訓練的是「兩個」GAN 而不是一個。

當然,GAN 的研究人員也無法停止將 GAN 類比成警察和偽造者的言論。因此,GAN 背後的思想,用作者自己的話說就是:

在比賽中,有兩個隊,每個隊有兩名隊員。生成模型組成一個團隊,共同在兩個不同的域中合成一對圖像,以混淆區分模型。判別模型試圖將從各自領域的訓練數據分布中提取的圖像與從各自生成模型中提取的圖像區分開來。同一隊的隊員之間的協作是從權重分擔機制中建立起來的。

好吧,有一個由多個 GAN 組成的區域網絡聽起來不錯,但你如何使它工作?

結果證明這並不太複雜,你只需要讓網路對某些層使用完全相同的權重。

深度學習最強資源推薦:一文看盡 GAN 的前世今生

在我看來,CoGAN 最酷的地方不在於它能提高圖像生成質量,也不在於它可以在多個圖像域上訓練。

事實上,你只需要花費 1.5 張圖片的代價來得到 2 張圖片。

因為共享了一些權重,所以與兩個單獨的 GAN 相比,CoGAN 的參數更少(因此可以節省更多的內存、計算和存儲空間)。

這是一種「過時」的微妙技巧,而且我們今天看到的一些 GAN 的新方法是不使用它們的。

但總有一天,我想我們會再次用到它們的。

6.ProGAN:漸進式增長的生成對抗網路

深度學習最強資源推薦:一文看盡 GAN 的前世今生

圖片來源於論文:https://arxiv.org/pdf/1710.10196.pdf

相關資源推薦:

  • 論文:

  • 代碼

  • 其他優秀資源:媒體文章

演示視頻

在訓練 GANs 的時候會有很多問題,其中最重要的是訓練的不穩定性。

有時,GAN 的損耗會波動,因為生成器和判別器會相互破壞另一方的學習。其他時候,在網路聚合後損耗可能會爆炸,圖像開始變得看起來可怕。

ProGAN(代表了生成對抗網路的逐步增長)是一種通過增加生成圖像的解析度來幫助穩定 GAN 訓練的技術。

這裡我們會有一種直覺,那就是生成 4x4 圖像比生成 1024x1024 圖像更容易。此外,將 16x16 圖像映射到 32x32 圖像比將 2x2 圖像映射到 32x32 圖像更容易。

因此,ProGAN 首先訓練一個 4x4 生成器和一個 4x4 判別器,然後在訓練過程中添加對應於更高解析度的層。這個動畫總結了我所描述的:

深度學習最強資源推薦:一文看盡 GAN 的前世今生

7.WGAN: Wasserstein 生成對抗網路

深度學習最強資源推薦:一文看盡 GAN 的前世今生

圖片來源於論文:https://arxiv.org/pdf/1701.07875.pdf

相關資源推薦:

  • 論文

  • 代碼

  • 其他優秀資源:DFL 課程

博客文章

其它博客

媒體文章

這一部分也許是這篇文章中最偏理論和數學的一部分。作者把大量的證明、推論和一些數學術語塞進其中。所以如果積分概率度量和 Lipschitz 連續性不是你關心的事情,我不會在這件事上花太多時間。

深度學習最強資源推薦:一文看盡 GAN 的前世今生

簡而言之,WGAN(W 代表 Wasserstein)提出了一種新的成本函數,這種函數有一些非常好的性質,使得它在數學家和統計學家中非常流行。

這是舊版的 GANGAN minimax 優化公式:

這裡是 WGAN 使用的新方法:

在大多數情況下,這就是在實踐中使用 WGAN 所需要知道的全部內容。

只需剔除舊的成本函數,它近似一個稱為 Jensen-Shannon 散度的統計量。然後加入新的成本函數,它近似一個稱為 1-Wasserstein 距離的統計量。

原因如下:

深度學習最強資源推薦:一文看盡 GAN 的前世今生

圖片來源於論文:https://arxiv.org/pdf/1701.07875.pdf

然而,如果你感興趣,下面是對它的數學原理的快速回顧,而且這也正是 WGAN 論文如此受歡迎的原因。

原始的 GAN 論文表明,當判別器為最優時,生成器被更新,以使 Jensen-Shannon 散度最小化。

如果你不熟悉 Jensen-Shannon,我來解釋一下。Jensen-Shannon 散度是一種測量兩種不同的概率是如何分布的方法。JSD 越大,兩個分布越「不同」,反之亦然。計算方法如下:

深度學習最強資源推薦:一文看盡 GAN 的前世今生

然而,最小化 JSD 是最好的方法嗎?

WGAN 論文的作者認為這可能不是,這是出於一個特殊的原因——當兩個分布完全不重疊時,你可以發現,JSD 的值保持為 2log2 的常量值。

當一個函數值為一個常量值時,它的梯度等於零,而零梯度是不好的,因為這意味著生成器什麼也學不到。

WGAN 作者提出的替代距離度量的是 1-Wasserstein 距離,有時稱為地球移動距離。

深度學習最強資源推薦:一文看盡 GAN 的前世今生

圖片來源於論文:https://arxiv.org/pdf/1701.07875.pdf

地球移動距離這個名稱是類比得來的。你可以想像,假設兩個分布中的一個是一堆土,另一個是一個坑。地球移動距離是指將土堆運至坑內的成本,其前提是要儘可能高效地運輸泥土、沙子、灰塵等。在這裡,「成本」被認為是點之間的距離×移動的土方量。

具體來說(沒有雙關語),兩個分布之間的地球移動距離可寫為:

其中 inf 是中位數(最小值),x 和 y 是兩個分布上的點,γ是最佳的運輸方法。

不幸的是,它的計算非常複雜,難以解決。因此,我們計算的是完全不同的東西:

這兩個方程之間的聯繫一開始似乎並不明顯,但通過一個叫做 Kantorovich-Rubenstein 對偶的奇特數學公式,你可以證明這些 Wasserstein/地球移動器距離的公式正試圖計算相同的事情。

如果你不能在我給出的論文和博客文章中學到一些重要的數學知識,不要擔心太多。關於 WGAN 的大部分工作,其實都只是為公認的簡單想法提供一個複雜的(嚴格的)理由。

8.SAGAN:自注意力生成對抗網路

深度學習最強資源推薦:一文看盡 GAN 的前世今生

圖片來源於論文:https://arxiv.org/pdf/1805.08318v1.pdf

相關資源推薦:

  • 論文

  • 代碼

  • 其他重要資源:博客文章

媒體文章

由於 GANs 使用轉置卷積來「掃描」特徵圖,因此它們只能訪問附近的信息。

單獨使用轉置卷積就像在繪製圖片的時候,只查看畫筆小半徑範圍內的畫布區域。

即使是可以完美地完成最特殊、最複雜的細節的最偉大的藝術家們,也需要後退一步,觀察全局。

SAGAN 使用自注意力機制,由於其轉換架構,近年來它已非常流行。

自注意力讓生成器後退一步,看看「大局」。

9.BigGAN

深度學習最強資源推薦:一文看盡 GAN 的前世今生

相關資源推薦:

  • 論文:

  • 代碼:

  • 其他重要資源:兩分鐘的論文視頻

梯度 pub 論文

媒體文章

四年之後,DeepMind 決定使用 GANs 做以前沒人做過的事。他們使用了一種神秘的深度學習技術,這種技術非常強大,使得當前最先進的模型在恐懼中顫抖,因為它遠遠超越了當時最先進的排行榜上的所有技術。

我向你介紹了 BigGAN,它是一個完全不做任何事情的 GAN(但是它運行著一組 TPU 集群,不知為何我覺得它應該在這個列表中)。

深度學習最強資源推薦:一文看盡 GAN 的前世今生

看起來像開玩笑的是,DeepMind 團隊的確利用 BigGAN 完成了很多工作。除了用真實的圖像吸引了所有的目光之外,BigGAN 還向我們展示了一些非常詳細的大規模訓練的結果。

BigGAN 背後的團隊引入了各種技術,以克服跨多台機器大批量訓練 GAN 的不穩定性。

首先,DeepMind 使用 SAGAN 作為基線,並附加了一個稱為譜歸一化的特徵。他們將 batch 的大小縮放了 50%,寬度(通道數)縮放了 20%。最初,增加層的數量似乎沒有幫助。

在嘗試了很多其他方法之後,作者使用「截斷技巧」來提高採樣圖像的質量。

在訓練過程中,如果潛在向量在生成圖像時落在給定範圍之外,則對其重新採樣。給定範圍是一個超參數,用ψ表示。較小的ψ縮小了範圍,犧牲多樣性以增加樣品保真度。

那麼,所有這些複雜的調優工作都會產生什麼結果呢?好吧,有人稱之為 dogball:

深度學習最強資源推薦:一文看盡 GAN 的前世今生

BigGAN 還表明,大規模的訓練會有自己的一系列問題。值得注意的是,通過增加 batch 大小和寬度等參數,訓練似乎可以很好地擴展,但出於某種原因,訓練最終會崩潰。

如果你覺得分析奇異常值來理解這種不穩定性聽起來很有趣,請看這篇論文,在論文中,你會發現很多不穩定性。

最後,作者還訓練了一個 BigGAN 的新數據集,叫做 JFT-300,它是一個類似於 ImageNet 的數據集,大概有 3 億張圖片。BigGAN 在這個數據集上的表現更好,這表明更大規模的數據集可能是 GANs 的發展方向。

在論文的第一版發表後,過了幾個月,作者重新嘗試了 BigGAN。還記得我說過增加層數不起作用嗎?後面發現這是由於糟糕的架構。

該團隊沒有將更多的層塞進模型中,而是進行了實驗,發現使用深度殘差網路 bottleneck 是解決問題的方法。

通過上述所有的調整、縮放和仔細的實驗,BigGAN 以最高 152.8 分的表現完全超越了先前的最先進的起步分數 52.52。

如果這都不是進步,那麼我不知道什麼才是進步。

10.StyleGAN:基於風格的生成對抗性網路

深度學習最強資源推薦:一文看盡 GAN 的前世今生

圖片來源於論文:https://arxiv.org/abs/1812.04948

相關資源推薦:

  • 論文:

  • 代碼:

  • 其他優質資源:thispersondoesnotexist

博文

另外一篇博文

技術總結文

StyleGAN(style generative adversarial network)是 NVIDIA 研究院的成果,它與傳統的 GAN 的研究背道而馳,後者側重於損失函數、穩定性、體系結構等。

如果你想生成汽車的圖像,那麼擁有一個世界級的、可以愚弄地球上大多數人的人臉圖像生成器是毫無意義的。

因此,StyleGAN 沒有專註於創建更真實的圖像,而是改進了 GANs 對生成的圖像進行精細控制的能力。

正如我提到的,StyleGAN 不專註於架構和損失函數。相反,它是一套技術,可以與任何 GAN 一起使用,允許你執行各種酷的事情,如混合圖像、在多個級別上改變細節以及執行更高級的樣式轉換。

換言之,StyleGAN 就像一個 photoshop 插件,而大多數 GAN 的進展都像是 photoshop 的新版本。

為了實現這一級別的圖像樣式控制,StyleGAN 使用了現有的技術,如自適應實例規範化、潛在的矢量映射網路和持續的學習輸入。

很難在不了解細節的情況下進一步描述 StyleGAN,因此如果你感興趣,請查看我的文章,我在其中演示了如何使用 StyleGAN 生成權力遊戲裡面的人物。我對其中所有的技術都有詳細的解釋,這裡面有很多很酷的結果。

結論

哇,你做到了,祝賀你!你現在知道了這個領域裡面的所有最新突破,包括製作虛假的個人資料圖片。但是,在你躺在沙發上開始無休止的瀏覽推特之前,花點時間看看你已經走了多遠:

深度學習最強資源推薦:一文看盡 GAN 的前世今生

接下來是什麼?!未勘探區域!

在攀登了 ProGAN 和 StyleGAN 的山脈,穿越計算的海洋到達了 BigGAN 的廣闊領域之後,你很容易在這些地方迷路。

但是,請放大地圖仔細看看。你看到那片綠色的土地了嗎?看到北部的紅色三角洲了嗎?

這些是未經探索的區域,還有待取得突破。如果你堅持信仰一直努力,他們都可以是你的。

再見,我的朋友,還有更大的海洋需要去航行。

結語:一些有趣的現代研究

到目前為止,如果你已經閱讀了我共享的所有資源,那麼你應該對 GAN 技術的一些最重要的突破有了紮實的理解。

但毫無疑問,還會有更多的技術。跟上研究是困難的,但這並非不可能。我建議你盡量堅持閱讀最新的論文,因為它們可能會幫助你的項目產生最好的結果。

為了幫助你開始,以下是一些前沿研究項目(截至 2019 年 5 月):

  • 你現在可能已經聽說了「DeOldify」。如果沒有,跳到這裡!但它最近有一個更新,它引入了一種新的訓練技術 NoGAN。你可以在他們的博客和代碼中查看詳細信息。

  • 如果你沒有 Google 級的數據量,那麼從頭再現 BigGAN 的結果是很有挑戰性的。這裡有一篇 ICML2019 論文,它提議用更少的標籤來訓練 BigGAN 模型。

  • 當然,GANs 並不是唯一一種基於深度學習的圖像生成技術。最近,OpenAI 推出了一個全新的模型,叫做稀疏 transformer,它利用 transformer 架構來生成圖像。和往常一樣,他們發布了論文、博客和代碼。

  • 雖然,這不是什麼新的研究,但你應該聽聽 GANs 的起源故事:

  • Nvidia 有一個非常酷的項目,叫做 GauGAN,它可以把隨手亂描的塗鴉變成現實主義的傑作。這確實是你需要經歷才能理解的事情。所以先看看演示視頻,然後讀他們的博客和論文。

  • 你有沒有想過如何「調試」一個 GAN?現在有一篇 ICLR 2019 論文提出了一個有希望的解決方案。

  • 儘管我讓 GAN 看起來很酷,但接下來還有很多工作要做。有一篇優秀的總結文總結了一些尚未解決的問題。

  • 看起來,有人找到了另一種在真實世界中用 GAN 的方法。

深度學習最強資源推薦:一文看盡 GAN 的前世今生

關於這一點,可以查看 6 月 13 日,Yann LeCun 推薦的文章:https://t.co/IFYJwb30cw。

via:https://blog.floydhub.com/gans-story-so-far/

雷鋒網雷鋒網

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 雷鋒網 的精彩文章:

面對 NFC,蘋果終於摘下了高冷佛系的面具
IoT和它的兩任「女友」在憋什麼大招?| CCF-GAIR 2019

TAG:雷鋒網 |