當前位置:
首頁 > 知識 > 生成對抗網路也需要注意力機制

生成對抗網路也需要注意力機制

選自KDnuggets

作者:Bilal Shahid

機器之心編譯

參與:Nurhachu Null、張倩

傳統的深度卷積生成對抗網路無法捕獲到圖像中的長距離依賴。當圖像中存在較高的信息變化率時,卷積生成對抗網路通常會錯過所有的這種變化,因此不能真實地表徵全局關係。自注意力生成對抗網路(Self-Attention Generative Adversarial Networks)使用自注意力範式來捕獲圖像中存在的長距離空間關係,以更好地合成新的圖像。本文梳理了一下這篇文章的概況和它的主要貢獻。

原論文地址:https://arxiv.org/pdf/1805.08318.pdf

TDLS 展示地址:https://tdls.a-i.science/events/2018-06-11/

傳統生成對抗網路的挑戰

儘管傳統的生成對抗網路可以生成相當逼真的圖像,但是它們無法捕獲到圖像中的長距離依賴。這些傳統的生成對抗網路在不包含太多的結構和幾何信息的圖像上效果是不錯的(例如海洋、天空和田野)。但是,當圖像中存在較高的信息變化率時,傳統的生成對抗網路往往會錯過所有的這種變化,因此就無法真實地表徵全局關係。這些非局部依賴始終會出現在某些類別的圖像中。例如,生成對抗網路可以生成具有逼真皮毛的動物,但是卻無法生成獨立的足部。

之前的 SOTA 生成對抗網路生成的圖像(CGANs with Projections Discriminator; Miyato et al., 2018)

由於卷積運算元表徵能力的局限性(也就是接受域是局部的),傳統的生成對抗網路在幾個卷積層之後才能捕獲到長距離關係。緩解這個問題的一種方法就是增加卷積核的尺寸,但是這在統計和計算上都是不夠高效的。各種注意力和自注意力模型早已被用來捕獲並使用這種結構化模式和非局部關係。但是,這些模型通常不能有效地平衡計算效率和建模長距離關聯二者之間的關係。

用於生成對抗網路的自注意力

這個功能性差距就是 Zhang 等人(2018)提出這種方法的原因。他們給生成對抗模型配備了一個工具來捕獲圖像中的長距離、多級關聯。這個工具就是自注意力機制。自注意力機制嘗試關聯輸入特徵的不同部分,切合正在進行的任務計算出輸入的另一個表徵。自注意力機制的思想已經被成功地應用在了閱讀理解(Cheng 等 2016)、自然語言推理(Parikh 等,2016)以及視頻處理(X. Wang 等, 2017)等領域。

將自注意力引入到圖像生成領域受啟發於《Non-local neural networks》(非局部神經網路)(X. Wang 等,2017),這項工作使用自注意力來捕獲視頻序列中的空間-時間信息。通常而言,自注意力機制就是簡單地計算某個單獨的位置在所有位置的特徵加權和中的響應。這個機制允許網路聚焦於那些分散在不同位置但是又有著結構關聯的區域。

自注意力生成對抗網路(Self-Attention Generative Adversarial Networks,Zhang 等,2018)中所提出的自注意力模塊

在 SAGAN 中,注意力模塊與卷積神經網路協同工作,並且使用了 key-value-query 模型(Vaswani 等,2017)。這個模塊以卷積神經網路創建的特徵圖為輸入,並且將它們轉換成了三個特徵空間。這些特徵空間(分別是 key f(x)、value h(x) 和 query g(x))通過使用三個 1X1 的卷積圖來傳遞原始特徵圖而生成。然後 Key f(x) 和 query g(x) 矩陣相乘。接下來,相乘結果的每一行應用 softmax 運算元。由 softmax 生成的注意力圖代表了圖像中的哪些區域應該被關注,如方程(1)所示(Zhang 等,2018):

然後,注意力圖與 h(x) 的值相乘來生成自注意力特徵圖,如下所示(Zhang 等,2018):

最後,將原始輸入特徵圖和縮放的自注意力圖相加來計算輸出。縮放參數在開始的時候被初始化為 0,以讓網路在開始的時候首先關注局部信息。當參數γ在訓練過程中進行更新時,網路就會逐漸學習注意一幅圖像的非局部區域(公式(3),Zhang 等,2018)。

自注意力生成對抗網路的輸出圖像(Zhang 等,2018)

處理生成對抗網路訓練過程中的不穩定性

SAGAN 論文的另一個貢獻與著名的 GAN 訓練不穩定性相關。論文提出了兩種技術來處理這個問題:譜歸一化和雙時間尺度更新規則(TTUR)。

在良好的條件下,生成器被證明會表現得更好,而且提升了訓練的動態性能(Odena 等,2018)。可以使用譜歸一化來完成生成器調製。這個方法最早是在 Miyato 等人的《SPECTRAL NORMALIZATION FOR GENERATIVE ADVERSARIAL NETWORKS》中提出的,但僅僅是針對判別器的,目的是解決訓練振蕩問題,這一問題可能導致生成器無法很好地學習到目標分布。SAGAN 在生成器和判別器網路中都使用了譜標準化,限制了兩個網路中的權重矩陣譜歸一化。這個過程是有好處的,因為它在不需要任何超參數調節的情況下就限制了李普希茨常數,阻止了參數幅度和異常梯度的增大,而且允許判別器進行較少的更新(與生成器相比)。

除了譜歸一化,這篇論文還使用了 TTUR 方法(Heusel 等,2018)來解決常規判別器訓練緩慢的問題。使用常規判別器的方法通常在一次生成器更新中需要多次更新判別器。為了加快學習速度,生成器和判別器以不同的學習率進行訓練。

結論

SAGAN 是對圖像生成的現有技術的實質性改進。自注意力技術的有效集成使得網路能夠真實地捕獲和關聯長距離空間信息,同時保證計算的高效性。在判別器和生成器網路中使用譜歸一化和 TTUR 方法不僅降低了訓練的計算成本,而且提高了訓練穩定性。

本文為機器之心編譯,轉載請聯繫本公眾號獲得授權。

------------------------------------------------


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 機器之心 的精彩文章:

百倍利潤封頂:OpenAI宣布轉型為營利公司,Sam Altman任CEO
AI貓窩:一位工程師鏟屎官給流浪貓主子們的賀年禮

TAG:機器之心 |