當前位置:
首頁 > 新聞 > 2018 年最棒的三篇 GAN 論文

2018 年最棒的三篇 GAN 論文

雷鋒網 AI 科技評論按:本文作者 Damian Bogunowicz,於去年在慕尼黑大學獲得碩士學位,主攻機器人、認知和智能專業方向,他在參與一個研究項目的過程中閱讀了大量計算機視覺深度學習相關論文,並從 Reddit 網站上「What are best papers regarding GANs for 2018 you read?」這一話題討論受到啟發,挑選出來 2018 年度三篇最佳 GAN 論文,並整理成文進行發布。雷鋒網 AI 科技評論編譯如下。

今年我很榮幸能參與到一個研究項目中,它要求我熟悉大量計算機視覺深度學習相關論文,讓我深入到這個領域中學習,在此過程中,對於該領域在近兩三年時間裡所取得進步,我深為震撼。同時,圖像修復、對抗樣本、超解析度或 3D 重建等所有不同的子領域從最新進展中獲益頗豐,讓人興奮並激勵人心。然而,現在人們對生成式對抗網路(GAN)這一神經網路進行了大量炒作(在我看來,這一定是有原因的)。我認同這些模型非常好,同時我也一直在留意關於 GAN 的一些新觀點。

受 Reddit 網站上「What are best papers regarding GANs for 2018 you read?」這一話題討論(話題討論網址: https://www.reddit.com/r/MachineLearning/comments/a8th4o/d_what_are_best_papers_regarding_gans_for_2018/)的啟發,我決定對 2018 年度最有趣的 GAN 相關論文進行簡要回顧。這個清單是主觀性非常高的——我選擇的研究論文不僅是當前最新的,也是最酷、並能給人驚喜的。在本文的第一章,我會介紹三篇論文。順便一提,如果你對於此前的 GAN 相關論文感興趣,這篇文章(閱讀地址:https://medium.com/nurture-ai/keeping-up-with-the-gans-66e89343b46)將會對你有所幫助,作者提到的其中一篇論文甚至就是我今天要介紹的最佳論文。


  • 1.《GAN 剖析:可視化和理解生成式對抗網路》(GAN Dissection: Visualizing and Understanding Generative Adversarial Networks)——即使生成式對抗網路周圍充斥著大量炒作,不過顯而易見,這種技術遲早會進行商用。然而,正因為我們對它們的內部機制了解甚少,我認為它仍然很難去開發一個可靠的產品。這篇論文朝未來邁進了一大步,到那個時候,我們可以真正地掌控生成式對抗網路。各位一定要去看看論文作者們製作的超棒的互動式 demo,它的結果十分驚艷。

  • 2.《基於樣式的生成式對抗網路生成器架構》(A Style-Based Generator Architecture for Generative Adversarial Networks)——英偉達的研究團隊經常能提出開創性的概念(2018 年很棒的圖像修復論文:https://www.youtube.com/watch?v=gg0F5JjKmhA,使用神經網路進行圖形渲染的最新 demo:https://www.youtube.com/watch?time_continue=2&v=ayPqjPekn7g)。這篇論文也不例外,另外,展示他們研究結果的視頻簡直令人著迷。

  • 3.《進化的生成式對抗網路》(Evolutionary Generative Adversarial Networks)——這篇論文可讀性非常高並且十分巧妙。進化演算法與生成式對抗網路的結合——這註定就會很厲害。

《GAN 剖析:可視化和理解生成式對抗網路》(GAN Dissection: Visualizing and Understanding Generative Adversarial Networks)

論文地址:https://arxiv.org/pdf/1811.10597.pdf

  • 摘要

這篇文章於 2018 年 11 月 26 日被收錄。作者創建了一個很不錯的項目網站,互動式 demo 也在該網站上,大家可前往下方地址觀看:


https://gandissect.csail.mit.edu/

  • 主要思路:

毋庸置疑,生成式對抗網路證明了深度神經網路有多大的能力。機器學習生成效果驚人、高解析度的圖像這種方式是美好的,就彷彿它像我們一樣理解這個世界。不過,正如其他出色的統計模型一樣,它們最大的缺陷就是缺乏可解釋性。這項研究為理解生成式對抗網路帶來了非常重要的進展,它讓我們找到對從屬於級別 c 的特定目標負責的生成器中的單位。作者們稱,我們可以觀察到生成器的一個層,並且找到該層的單元的子集,在生成的圖像中,這些單元決定 c 級別目標的生成。作者通過引入剖析(dissection)和干預(intervention)這兩個步驟,為每一層級搜索出了一組「具有因果關係」的單元。此外,它可能是首次為理解生成式對抗網路的內部機制提供系統分析的一項工作。

  • 方法:

生成器 G 可以看做是一個潛在向量 z 到一個生成圖像 x 的映射:

。我們的目標是理解內部表示 r,它是生成器 G 中某個特定層的輸出。

我們希望通過觀察級別 c 中的目標來更近地觀察 r。而我們知道 r 包含了特定目標生成的編碼信息,我們的目標就是理解該信息是如何在內部被 encode 到 r 中的。作者聲稱,有一種方法可以將這些單元從為級別 c 目標的生成負責的 r 中提取出來。

在這裡,

是特定層中所有單元的集合,U 表示場景單元(具有因果關係的單元),P 表示像素位置。問題是,怎樣表示這一分離?作者提出了兩個步驟,作為理解生成式對抗網路「黑盒」的工具:剖析(dissection)和干預(intervention)。

2018 年最棒的三篇 GAN 論文

用 Dissection 測量單元 u 和 級別 c 之間的一致性

剖析(dissection):我們想要確定這些在 r 中有明確表示的場景級別。這一目標主要通過比較兩張圖像來實現。我們通過計算 x 得到第一張圖像,然後讓它貫穿於語義分割網路中運行,這就會返回與場景(例如樹)級別相關的像素位置圖片:

。第二張圖像通過計算圖片:

生成,接著對該圖像進行上採樣處理,從而使其與圖片:

的維度匹配;之後又對其進行閾值處理,從而針對特定單元「觸發」哪些像素這一難以抉擇的問題作出決策。最終,我們計算出兩個輸出的空間一致性——值越高,單元 u 對級別 c 的具有因果關係的影響就越大。通過為每一單元執行這一操作,我們最終可以找出,哪些層級在 r 架構中有明確的表示。

2018 年最棒的三篇 GAN 論文

用干預測量單元集 U 在級別 c 上具有因果關係的影響

干預(intervention):在這一步驟中,我們確定了相關的級別。現在,我們嘗試為每一級別找到最佳分離效果。這就意味著一方面,我們消除(抑制)弱的單元,以期讓場景級別從生成圖像中消失;而另一方面,我們又放大具有因果關係的單元對於生成圖像的影響。通過這種方式,我們可以了解到它們對於顯示場景級別 c 起到了多大的作用。最終,我們將級別 c 從兩張圖像中分割出來並進行比較。它們語義映射的一致性越小,級別的分離效果就越好,也就是說我們完全「證明出」了樹對一張圖像的影響,而第二張圖像僅僅包含了一片叢林。

  • 結果:

2018 年最棒的三篇 GAN 論文

a) 由漸進式的生成式對抗網路生成的教堂圖像; b) 給定預訓練的漸進式生成式對抗網路,我們確定了對生成「樹」這一場景級別負責的單元;c) 我們或者可以抑制將樹從圖像上「去掉」的那些單元…; d) 或者增大圖像中樹的密度。

結果表明,我們在理解網路的內部概念方面的工作做得比較好,這些想法可以幫助我們改善網路的表現。了解哪些圖像特徵來自於神經網路的哪些部分,對於可解釋性、商用以及更深入的研究都是非常有價值的。

2018 年最棒的三篇 GAN 論文

a) 為了排除故障,我們可以確定引入工藝品的那些單元… ;b) 和 c)可以 將它們去掉,來「修復」生成式對抗神經網路

目前可以解決的一個問題就是生成圖像中的人為視覺效果。即便是一個被訓練得很好的生成式對抗神經網路,有時也可能會生成一個很糟的不切實際的圖像,而研究者們此前也並不知道這些錯誤的原因。現在,我們可以將這些錯誤與決定人為視覺效果的神經元集關聯起來考慮,通過確定和抑制這些單元,研究者可以提高生成圖像的質量。

通過將某些單位設置為固定平均值,以門為例,我們可以確定門將會顯示在圖像上的某個地方。自然而然地,這就不會違反已知的分布統計信息(我們無法強制讓門出現在天空中)。現實中的另一局限是,一些目標與一些位置的固有關聯度太高,想要將它們從圖像中去掉是不可能的。舉一個例子:研究者無法將椅子從會議廳移除,而僅僅能減小它們的密度或者尺寸。

《基於樣式的生成式對抗網路生成器架構》(A Style-Based Generator Architecture for Generative Adversarial Networks)

論文地址:https://arxiv.org/pdf/1812.04948.pdf

  • 摘要

這篇論文於 2018 年 12 月 12 日被收錄。作者們確認論文中所提出的方法的代碼,不久後就會對外發布。此外,對於想要了解更多關於這一方法的信息但不想閱讀全篇論文的讀者,前兩天發布的一篇博文對這篇論文進行了概述,大家可前往如下地址查看:


https://towardsdatascience.com/explained-a-style-based-generator-architecture-for-gans-generating-and-tuning-realistic-6cb2be0f431

  • 主要思路:

這篇論文針對 GAN 框架提出了另一種觀點。更特別地,它從樣式—遷移設計中汲取靈感,創建了一個生成器架構,它能學習生成圖像中的高級屬性(例如在人臉或者背景上訓練時的年齡、身份,質量差的圖像的拍攝視角、樣式)以及隨機變數(人臉的雀斑、頭髮細節或者在質量差的圖像上訓練時的發色、皮膚紋理)。該生成器不僅能學習自動分離這些屬性,還能讓研究者用非常直觀的方式控制合成。

方法:

2018 年最棒的三篇 GAN 論文

傳統的生成式對抗神經架構(左邊)VS基於樣式的生成器(右邊)。在新的框架中,有兩個網路部分:映射網路 f 和合成網路 g。前者將一個潛在代碼 f 映射到一個中間的潛在空間

中,這個潛在空間對樣式信息進行解碼。後者利用生成的樣式和高斯雜訊來創建新的圖像。 區塊「A」是學到的仿射變換; 區塊「B」將學到的每個通道規模化的因素應用到雜訊輸入上。

在傳統的生成式對抗網路方法中,生成器使用一些潛在的代碼作為輸入,然後輸出一個從屬於它在訓練階段所學到的分布的圖像。論文作者捨棄了傳統方法的設計,而是創建一個基於樣式的生成器,它由兩個部分組成:


1. 一個全連接網路(fully connected network),它表示非線性映射 f :

2. 一個合成的網路(synthesis network)g。

全連接網路(fully connected network)——通過轉換一個標準的潛在向量圖片:

,我們獲得了一個中間的潛在向量圖片:

,這個中間的潛在空間

可以有效控制生成器的樣式。附註一點,作者確保可以避免從

的低密度區域取樣,雖然這會造成 w 中的變數損失,但是據說最終提高了圖像的平均質量。現在,一個從中間的潛在空間取樣的潛在變數 w 被輸入到 區塊「A」(學到的仿射變換)並被轉化成樣式

。這個樣式最終通過每一個卷積層的自適應的實例正則化(adaptive instance normalization,AdaIN,大家可前往 https://arxiv.org/abs/1703.06868 查看相關論文)被輸入到合成網路。自適應的實例正則化操作被定義為:

合成的網路(synthesis network)——自適應的實例正則化操作通過將每一個特徵映射

正則化來變更它們,然後使用來自樣式 y 的組成部分將其規模化並進行轉移。最終,生成器的特徵映射也同樣被餵養一個直接的方式(a direct means),以包含無相關的高斯白雜訊的單通道圖像的形式,來生成顯性噪音輸入的隨機細節。

總而言之,雖然顯性雜訊輸入可能被視作合成網路生成過程的「種子」,從

取樣的潛在代碼試圖將某種風格注入到一個圖像中。

  • 結果:

論文作者再次討論了英偉達在 2017 年論文中(論文地址:https://arxiv.org/abs/1710.10196)提出的漸進式生成式對抗神經網路(Progressive GAN)架構。雖然他們保留了這一架構和超參數的主要部分,但是根據新的設計對生成器進行了「更新」。該論文最令人印象深刻的特徵就是樣式混合。

2018 年最棒的三篇 GAN 論文

可視化樣式混合的影響。一個由潛在代碼產生的圖像(源)可以覆蓋另一個圖像(目標)的特徵集,這樣就覆蓋了與粗糙的空間解析度(低解析度特徵映射)相對應的層。這樣的話,就可以對目標圖像的高級特徵產生影響。

這個新的生成器架構能夠將不同的樣式,注入到合成網路不同層的相同圖像中。在訓練期間,我們通過映射網路運行了兩個潛在代碼

,並獲得了

兩個向量。完全由

生成的圖像表示目標。作為一個高解析度的生成圖像,它實際上無法與真實的分布區分開來。僅由注入的

生成的圖像表示源。現在,在目標圖像生成期間,我們通過使用

在某些層注入

代碼。這項執行用那些源來覆蓋呈現在目標中的樣式子集。源對目標的影響由層的位置進行控制,這些層是使用源的潛在代碼所「培育」的。解析度與特定層的關聯度越低,源對目標的影響就越大。以這種方式,我們可以決定對目標圖像產生多大程度的影響:


粗糙的空間解析度(解析度

)—高層級方面(例如頭髮樣式、眼鏡或年齡);

中等樣式解析度(解析度

)—更小規模的臉部特徵(頭髮樣式細節、眼睛);

精細的解析度(解析度

)—僅僅改變頭髮顏色、膚色的色調或皮膚紋理等小細節。

作者將他們的方法深入應用到汽車、卧室甚至貓的圖像中,並得到了令人驚喜的結果。我現在依舊感到困惑的是:為什麼網路網路決定影響貓圖像中的貓爪定位,而不關心車圖像中車輪的旋轉呢?

2018 年最棒的三篇 GAN 論文

這個令人驚喜的框架可以更深入地應用到不同的數據集上,例如汽車、卧室圖像等。

《進化的生成式對抗網路》(Evolutionary Generative Adversarial Networks)
  • 摘要

這篇論文於 2018 年 1 月 03 日被收錄。

  • 主要思路:

在傳統設置中,通過利用反向傳播交替更新生成器和判別器,來訓練生成式對抗網路。這兩層的 minmax 博弈通過利用目標函數中的交叉熵機制來實現。《進化的生成式對抗網路》作者提出了基於進化演算法的可選擇的生成式對抗網路框架。他們用進化問題的形式,重新表述了損失函數。生成器的任務是在判別器的影響下經受不斷的變異。根據「優勝劣汰」法則,研究者認為生成器最終的生成以這種方式「進化」,從而學到正確的訓練樣本分布。

  • 方法:

2018 年最棒的三篇 GAN 論文

原始的 GAN 框架(左邊)vs E-GAN 框架 (右邊)。在 E-GAN 框架中,生成器

「種群」在動態環境(判別器 D)中進化。演算法設計到三個階段:變異、評估和選擇。最好的「子代」被保留到下一次迭代中。

進化演算法試圖在一個給定的環境(這裡是判別器)中進化生成器「種群」(population)。每一個來自群的個體代表在生成式網路參數空間可能存在的解決方案。這個進化過程可以歸結為三個步驟:


1. 變異(Variation):生成器個體

根據一些變異特性進行自我修改,來產生它的「子代」(children)

......

2. 評估(Evaluation):每個「子代」通過使用依賴於判別器當前狀態的適應度函數來進行評估。

3. 選擇(Selection):我們評估了每個「子代」,然後判斷它對於適應度函數來說是否足夠好。如果是,就繼續保留;如果不是,就將其捨棄。

這些步驟涉及到兩個應該進行更詳細探討的概念:變異和適應度函數。

變異(Mutation)——在「變異」步驟中引入到「子代」上的變化就是變異,這一概念是從最初的生成式對抗網路訓練目標中受到的啟發。論文作者區分出來了三種最有效的變異類型。它們是 minmax mutation(最小最大化變異,啟發了 Jensen-Shannon 散度的最小化)、heuristic mutation(啟發式變異,增加了反向的 Kullback–Leibler 散度項)以及 least-squares mutation(最小二乘變異,受最小二乘 GAN 的啟發,最小二乘 GAN 論文地址:https://arxiv.org/abs/1611.04076)

適應度函數(Fitness function)——適應度函數使用進化演算法讓我們知道怎樣靠近給定的「子代」,來實現設定的目標。在這裡,適應度函數由兩個元素組成:質量適應度分數和多樣性適應度分數。前者可以確保生成器產生的輸出能夠「騙過」判別器,後者則關注生成樣本的多樣性。因此,一方面,不僅需要教這些子代(offsprings)去接近於原始分布,還要教他們保持多樣性並避免模式崩潰陷阱。

作者們聲稱,他們的方法解決了許多著名的問題。進化的生成式對抗網路不僅能夠在穩定性和抑制模式崩潰方面的表現更好,還能夠減輕對超參數和架構(對收斂性至關重要)的細緻選擇上的負擔。最終,作者表示進化的生成式對抗網路比傳統的生成式對抗網路框架收斂得更快。

  • 結果:

這個演算法不僅僅在合成數據上進行測試,同時也對照了 CIFAR-10 數據集和 Inception score。作者修改了深度卷積對抗生成網路(DCGAN,論文地址:https://arxiv.org/abs/1511.06434)等當下流行的生成式對抗網路方法,並將他們在現實的數據集上進行了測試。結果表明,可以訓練進化的生成式對抗網路從目標數據分布中生成多樣的、高質量的圖像。據作者稱,在每一個「選擇」步驟中保留一個「子代」,就足以成功穿過參數空間找到最優的解決方案。我發現進化的生成式對抗網路的特質非常有趣。此外,通過檢查空間的連貫性,我們發現從潛在的噪音空間到圖像空間,該網路確實學到了有意義的圖像投影。通過在潛在的向量間插值,我們可以得到能從語義上流暢地更改有意義的臉部屬性的生成圖像。

2018 年最棒的三篇 GAN 論文

潛在空間

的線性插值。生成器從 CelebA 數據集學到圖像分布。

對應於從向量

生成圖像,而

則對應著從向量

生成的圖像。通過改變 alpha,我們可以在潛在空間插入很好的結果。

文中所有圖像來自於在文中提到的相關論文。

題圖來源:https://www.saatchiart.com

via:https://dtransposed.github.io/blog/Best-of-GANs-2018-(Part-1-out-of-2).html雷鋒網AI 科技評論編譯

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 雷鋒網 的精彩文章:

宇視「嫁」千方一年後,誰成就了誰?
AI 和大數據技術加持下,放療服務模式如何升級蛻變?

TAG:雷鋒網 |