深度卷積對抗生成網路
版權聲明:本文為CSDN博主原創文章,未經博主允許不得轉載。
卷積神經網路在有監督學習中的各項任務上都有很好的表現,但在無監督學習領域,卻比較少。本文介紹的演算法將有監督學習中的CNN和無監督學習中的GAN結合到了一起。
在非CNN條件下,LAPGAN在圖像解析度提升領域也取得了好的效果。
與其將本文看成是CNN的擴展,不如將其看成GAN的擴展到CNN領域。而GAN的基本演算法,可以參考對抗神經網路。
GAN無需特定的cost function的優勢和學習過程可以學習到很好的特徵表示,但是GAN訓練起來非常不穩定,經常會使得生成器產生沒有意義的輸出。而論文的貢獻就在於:
為CNN的網路拓撲結構設置了一系列的限制來使得它可以穩定的訓練。
使用得到的特徵表示來進行圖像分類,得到比較好的效果來驗證生成的圖像特徵表示的表達能力
對GAN學習到的filter進行了定性的分析。
展示了生成的特徵表示的向量計算特性。
模型結構
模型結構上需要做如下幾點變化:
將pooling層convolutions替代,其中,在discriminator上用strided convolutions替代,在generator上用fractional-strided convolutions替代。
在generator和discriminator上都使用batchnorm。
解決初始化差的問題
幫助梯度傳播到每一層
防止generator把所有的樣本都收斂到同一個點。
直接將BN應用到所有層會導致樣本震蕩和模型不穩定,通過在generator輸出層和discriminator輸入層不採用BN可以防止這種現象。
移除全連接層
global pooling增加了模型的穩定性,但傷害了收斂速度。
在generator的除了輸出層外的所有層使用ReLU,輸出層採用tanh。
在discriminator的所有層上使用LeakyReLU。
DCGAN的generator網路結構:
其中,這裡的conv層是four fractionally-strided convolution,在其他的paper中也可能被稱為是deconvolution.
訓練細節
預處理環節,將圖像scale到tanh的[-1, 1]。
mini-batch訓練,batch size是128.
所有的參數初始化由(0, 0.02)的正態分布中隨即得到
LeakyReLU的斜率是0.2.
雖然之前的GAN使用momentum來加速訓練,DCGAN使用調好超參的Adam optimizer。
learning rate=0.0002
將momentum參數beta從0.9降為0.5來防止震蕩和不穩定。
LSUN效果圖
經過一次循環的訓練(online learning)和收斂後得模型得到的效果分別如下:
這表明了DCGAN不是通過記憶訓練數據來生成/過擬合高質量的圖片。
DCGAN capabilities驗證
為了驗證DCGAN的特徵表示的有效性,將特徵表示輸入到L2-SVM中,並將分類結果與其他的無監督學習演算法進行對比。
為了做到這一點,使用在ImageNet-1K上訓練得到的generator,使用所有層的所有CNN特徵作為輸入,將每一層的CNN特徵使用max-pooling的方式降到4×4,然後展開,形成一個28672維的向量,輸入到L2-SVM中。
Mnist數據集上的效果對比:
SVNH數據集上的對比:
漫遊隱空間
通過慢慢的調整初始向量來探索隱空間是如何影響最終圖片的生成的。這樣,既可以探索圖片特徵是如何摺疊到隱空間的,又可以判斷這些圖片是由於真正學習到了語義特徵還是只是記住了圖片(如果有sharp的變化)。
由上圖,可以看到一些逐漸的變化,比如第六行中,逐漸有了一個窗戶。第四行中,電視逐漸消失。
Discriminator Filter
通過分析filter,我們可以看到,在對房屋特徵的學習中,GAN確實學習到了床、窗口等特徵。
左側是隨機filter,右側是學習到的filter,可見,右側的filter還是有意義的。
Semantic Mask
在隱空間上,假設知道哪幾個變數控制著某個物體,那麼僵這幾個變數擋住是不是就可以將生成圖片中的某個物體消失?
論文中的實驗是這樣的:首先,生成150張圖片,包括有窗戶的和沒有窗戶的,然後使用一個邏輯斯底回歸函數來進行分類,對於權重不為0的特徵,認為它和窗戶有關。將其擋住,得到新的生成圖片。
Vector Arithmetic
類似於word2vec,圖像是不是也有類似的特點,可以在隱空間里進行加減法來得到新的圖像?
實驗表明,使用單張圖片的表示並不穩定,使用三張圖片會比較穩定。
可以看到,單張圖片並不穩定,而三張圖片則可以學到表情和墨鏡等特徵。
更甚者,可以學到一個穩定的向量,來進行某種變換,比如,方位變換。
總結
這篇paper的主要貢獻看似簡單,但其實工作量很大,充分展現出作者在調參大法上的卓越功力。
但我覺得,更大的貢獻在於作者對於效果的研究方式,生成模型很難來區分好與壞,而本paper通過探索隱空間,分析網路,比較特徵表現能力等一系列手段,證明了DCGAN演算法確實是一個強大的演算法。


TAG:CSDN |
※生成對抗網路研究年度進展評述
※資源|生成對抗網路新進展與論文全集
※正在湧現的新型神經網路模型:優於生成對抗網路
※生成式對抗網路在文本生成中的探索:基礎、前沿以及我們的最新結果
※嫌圖片太大!有卷積神經網路幫忙,生成高質壓縮圖像不再難
※DCGAN:深度卷積生成對抗網路的無監督學習,補全人臉合成圖像匹敵真實照片
※資源|生成對抗網路及其變體的論文匯總
※解讀|通過拳擊學習生成對抗網路的基本原理
※生成式對抗網路模型在 NLP 中的應用
※生成對抗網路(GANs )誕生以來的主要技術進展
※AI 助你無碼看片,生成對抗網路大顯身手
※「GAN畫花鳥」零樣本學習,對抗生成網路從文本描述生成圖像
※玩網路遊戲的學生成績更高
※MIT提出生成式壓縮:使用生成式模型高效壓縮圖像與視頻數據
※ACL論文分享:修改生成對抗網路,訓練半監督問答模型
※生成血管的細胞也可以生成腫瘤並助其成長
※熱帶低壓下午生成,明日或成颱風,目標閩粵
※中科大與微軟提出ANMT:將生成對抗網路用於神經機器翻譯
※硅納米粒子成抗癌新利器 能快速找到惡性生成物並摧毀