當前位置:
首頁 > 新聞 > 史上最好記的神經網路結構速記表(下)

史上最好記的神經網路結構速記表(下)

原文THE NEURAL NETWORK ZOO,出自Asimov人工智慧研究所。

新的神經網路結構不斷湧現,我們很難一一掌握。哪怕一開始只是記住所有的簡稱( DCIGN,BiLSTM,DCGAN ),也會讓同學們吃不消。

所以我決定寫篇文章歸納歸納,各種神經網路結構。它們大部分都是神經網路,也有一些是完全不同的結構。雖然所有結構說起來都是新穎而獨特的,但當我畫出結點的結構圖時……它們之間的內在聯繫顯得更有意思。

總表

史上最好記的神經網路結構速記表(下)

13

史上最好記的神經網路結構速記表(下)

反卷積網路(DN)又名逆向圖網路(IGN),是卷積神經網路的逆轉。舉個栗子:輸入「貓」這個詞,通過對比網路生成的圖像和貓的真實圖像來訓練網路,使網路產生更像貓的圖像。DN 可以像常規 CNN 那樣與 FFNN 相結合,這樣就需要給它一個新的「縮寫」了。「深度反卷積網路」的稱呼大概可行,但你可能會反駁說,分別把 FFNN 接在 DN 的前端或後端時,應該用兩個不同的名字來指代。

在大多數應用場合,輸入網路的不是文字式的類別信息而是二值向量。 如 表示貓, 表示狗, 表示貓和狗。在 DN 中,CNN常見的採樣層被類似的反向操作替換,主要有插值方法和帶有偏置假設的外推方法等等(如果採樣層使用最大值採樣,可以在做逆向操作時單獨製造出一些比最大值小的新數據。)

Zeiler, Matthew D., et al. 「Deconvolutional networks.」 Computer Vision and Pattern Recognition (CVPR), 2010 IEEE Conference on. IEEE, 2010.

14

史上最好記的神經網路結構速記表(下)

深度卷積逆向圖網路(DCIGN)的名稱有一定的誤導性,它實際上是一類變分自動編碼器(VAE),只不過分別用 CNN 作編碼器、DN 作解碼器了。DCIGN 在編碼時試圖將「特徵」以概率建模,這樣一來就算僅僅學習了只有貓或狗一方存在的圖像,它也能夠學著去產生貓狗共存的圖片。假如一張照片里既有貓,又有鄰居家那條討厭的狗,你可以把照片輸入網路,讓網路自動把那條狗扒出去,而無須額外的操作。演示程序表明,該網路還能學習對圖像做複雜的變換,比如改變光源和旋轉3D物體。該網路通常使用反向傳播來訓練。

Kulkarni, Tejas D., et al. 「Deep convolutional inverse graphics network.」 Advances in Neural Information Processing Systems. 2015.

15

史上最好記的神經網路結構速記表(下)

生成對抗網路(GAN)源出另一類網路,它由兩個成對的網路協同運作。GAN 由任意兩個的網路組成(不過通常是 FFNN 和 CNN 的組合),一個用來生成,另一個用來判別。判別網路的輸入是訓練數據或者生成網路產生的內容,它正確區分數據來源的能力構成了生成網路錯誤水平的表現的一部分。這樣就形成了一種競爭形式:判別器越來越擅長區分真實數據和生成數據,與此同時生成器不斷學習從而讓判別器更難區分。有時候,這樣的機制效果還不錯,因為即便是相當複雜的類雜訊模式最終都是可預測的,但與輸入數據特徵相似的生成數據更難區分。GAN 很難訓練——你不僅需要訓練兩個網路(它們可能都有自己的問題),還要很好地平衡它們的動態情況。如果預測或者生成任意一方比另一方更強,這個 GAN 就不會收斂,而是直接發散掉了。

Goodfellow, Ian, et al. 「Generative adversarial nets.」 Advances in Neural Information Processing Systems. 2014.

16

史上最好記的神經網路結構速記表(下)

循環神經網路(RNN)是帶有「時間結」的 FFNN。RNN 不是無狀態的[1],它既存在層間的聯繫,也存在時間上的聯繫。輸入到神經元的信息不僅由上一層傳來,還來自前次傳遞時神經元自身的狀態。這意味著輸入和訓練網路的順序很關鍵:先輸入「牛奶」、再輸入「曲奇」,與先輸入「曲奇」再輸入「牛奶」會得到不同的結果。RNN 的一大問題是,使用不同的激勵函數會各自造成梯度彌散或者爆炸,這樣會讓信息隨時間變化而迅速流失,就像在極深 FFNN 中隨深度增加而流失一樣。乍一看好像不是什麼大問題,因為這些信息只是權重而不是神經元的狀態。

但是,不同時間上的權值實際存儲了來自過去的信息,而如果權值變成了 0 或 100 0000,就無所謂之前的狀態了。大體上說,RNN 可以用在很多領域。儘管大部分數據並不存在形如音頻、視頻之類的時間線,但不妨把它們表示為序列的形式。圖像、文字序列可以用每次一個像素、字元的方式來輸入,這樣,時間相關的權值並非來自前 x 秒出現的狀態,而是對序列早前狀態的表示。通常來說,循環網路善於預測和補全信息,比如可以用來做自動的補全。

[1] 「無狀態的(stateless)」,意為「輸出僅由本時刻的輸入決定」。RNN 由於部分「記憶」了之前輸入的狀態,所以是「有狀態的(stateful)」。——譯註。

Elman, Jeffrey L. 「Finding structure in time.」 Cognitive science 14.2 (1990): 179-211.

17

史上最好記的神經網路結構速記表(下)

長短時記憶(LSTM)網路試圖通過引進「門」和定義明確的記憶單元來對抗梯度彌散/爆炸問題。相較生物學,它更多受到電路學的啟發。每個神經元有一個記憶單元和輸入、輸出、遺忘三個門。門的作用是通過阻止和允許信息的流動來實現對信息的保護。輸入門決定了前一層的信息有多少能夠存儲在當前單元內;另一端的輸出門決定了後一層能夠在當前單元中獲取多少信息;遺忘門乍看起來有點奇怪,但「遺忘」有時候是對的——比如正在學習一本書,然後新的一章開始了,這時候網路可能得忘掉一些在上一章中學到的文字。LSTM 能夠學習複雜的序列,可以像莎士比亞一樣寫作、創作新的樂曲。由於每個門對都有對前一個神經元的權重,網路運行需要更多的資源。

Hochreiter, Sepp, and Jürgen Schmidhuber. 「Long short-term memory.」 Neural computation 9.8 (1997): 1735-1780.

18

史上最好記的神經網路結構速記表(下)

門控循環單元(GRU)由LSTM的稍作變化而來。GRU 減少了一個門,還改變了連接方式:更新門取代了輸入、輸出、遺忘門。更新門決定了分別從上一個狀態和前一層網路中分別保留、流入多少信息;重置門很像 LSTM 的遺忘門,不過位置稍有改變。GRU 會直接傳出全部狀態,而不是額外通過一個輸出門。通常,GRU 與 LSTM 功能接近,最大的區別在於, GRU 速度更快、運行也更容易(不過表達能力稍弱)。實踐中運行性能可能與表達能力相互抵消:運行一個更大的網路來獲得更強的表達能力時,運行性能的優勢會被壓制。而在不需要額外的表達能力時,GRU 的性能超過 LSTM。

Chung, Junyoung, et al. 「Empirical evaluation of gated recurrent neural networks on sequence modeling.」 arXiv preprint arXiv:1412.3555 (2014).

19

史上最好記的神經網路結構速記表(下)

神經圖靈機(NTM)可以理解為 LSTM 的抽象形式。它試圖將神經網路「去黑盒化」,從而讓我們部分了解神經網路內部發生了什麼。不同於直接把記憶單元編碼進神經元,NTM 的記憶被分開了。NTM 想把常規數字化存儲的高效性與持久性、神經網路的高效性與表達能力結合起來;它的設想是,建立內容可定址的記憶組,以及可讀寫這個記憶組的神經網路。「神經圖靈機」中的「圖靈」是說它是圖靈完備的:能夠讀、寫,以及根據讀入內容改變狀態。這就是說,它可以表達通用圖靈機所能表達的一切。

Graves, Alex, Greg Wayne, and Ivo Danihelka. 「Neural turing machines.」 arXiv preprint arXiv:1410.5401 (2014).

20

雙向循環網路,雙向長短時記憶網路和雙向門控循環單元(BiRNN,BiLSTM 和 BiGRU)同它們的單向形式看上去完全一樣,所以不畫出來了。區別在於,這些網路不僅與過去的狀態連接,還與未來的狀態連接。舉例來說,讓單向 LSTM 通過依次輸入字母的形式訓練,來預測單詞 「fish」,此時時間軸上的循環連接就記住了之前狀態的值。而雙向 LSTM 在反向傳值的時候會繼續得到序列接下來的字母,即獲得了未來的信息。這就教會了網路填補空隙、而不是預測信息——它們不是去擴展圖像的邊緣,而是填充圖像的中空。

Schuster, Mike, and Kuldip K. Paliwal. 「Bidirectional recurrent neural networks.」 IEEE Transactions on Signal Processing 45.11 (1997): 2673-2681.

21

史上最好記的神經網路結構速記表(下)

深度殘差網路(DRN)是在逐層連接的基礎上,帶有額外層間連接(通常間隔二到五層)的極深 FFNN。DRN 不像常規網路那樣,力求解得輸入到輸出經過多層網路傳遞後的映射關係;它往解中添加了一點兒恆等性,即把淺層的輸入直接提供給了更深層的單元。實驗證明,DRN 可以高效地學得深達150層的網路,其性能遠遠超過了常規的二到五層的簡單網路。然而有人證明,DRN 其實是不具備明確時間結構的 RNN,所以經常被類比作沒有門單元的 LSTM。

He, Kaiming, et al. 「Deep residual learning for image recognition.」 arXiv preprint arXiv:1512.03385 (2015).

22

史上最好記的神經網路結構速記表(下)

回聲狀態網路(ESN)是另一種循環網路。與一般網路的不同在於,ESN 神經元之間的連接是隨機的(就是說,沒有整齊的層-層形式),訓練過程自然也就不同。數據前向輸入、誤差反向傳播的法子不能用了,我們需要把數據前向輸入,等一會兒再更新單元,再等一會兒,最後觀察輸出。與一般神經網路相比,ESN 中輸入和輸出層的角色發生了相當的改變——輸入層把信息填充給網路、輸出層觀察激活模式隨時間展開的狀態。訓練時,只有輸出層和一部分隱層單元之間的連接會被改變。

Jaeger, Herbert, and Harald Haas. 「Harnessing nonlinearity: Predicting chaotic systems and saving energy in wireless communication.」 science 304.5667 (2004): 78-80.

23

史上最好記的神經網路結構速記表(下)

極限學習機(ELM)基本上是隨機連接的 FFNN。看上去很像 LSM 和 ESN,但 ELM 既不是循環式的、也不是脈衝式的。ELM 也不用反向傳播,而是初始化為隨機權值,然後用最小二乘擬合(在所有函數上誤差最小)、一步到位地完成訓練。這樣得到的是一個表達能力稍弱,但遠快於使用反向傳播的神經網路。

Cambria, Erik, et al. 「Extreme learning machines [trends & controversies].」 IEEE Intelligent Systems 28.6 (2013): 30-59.

24

史上最好記的神經網路結構速記表(下)

液體狀態機(LSM)跟 ESN 比較像,區別在於 LSM 是一類脈衝神經網路: sigmoid 激活函數被閾值函數取代;每個神經元都是累加的記憶單元。所以更新神經元時,它的值不是相連神經元的和,而是自身的累加,一旦達到閾值就把能量釋放給其他神經元。這就形成了脈衝式的網路——超過閾值後,狀態才會改變。

Maass, Wolfgang, Thomas Natschl?ger, and Henry Markram. 「Real-time computing without stable states: A new framework for neural computation based on perturbations.」 Neural computation 14.11 (2002): 2531-2560.

25

史上最好記的神經網路結構速記表(下)

支持向量機(SVM)為分類問題找到最優解。最初 SVM 只能處理線性可分的數據,比如判斷哪張是加菲貓,哪張是史努比,而不存在其他的情況。可以這樣理解 SVM 的訓練:將所有的數據(比如加菲貓和史努比)在(2D)圖上畫出,在兩類數據中間想辦法畫一條線,這條線把數據區分開,即所有的史努比在這邊、所有的加菲貓在另一邊。通過最大化兩邊數據點與這條分割線的間隔來找到最優解。對新的數據做分類時,只要把數據點畫在圖上,看看它在線的那一邊就好了。使用核方法可以分類 n 維數據,這時需要把點畫在三維圖中,從而讓 SVM 能夠區分史努比、加菲貓和——比如說西蒙的貓——或者是更高的維度、更多的卡通形象類別。有時候,人們也不把 SVM 當成神經網路。

Cortes, Corinna, and Vladimir Vapnik. 「Support-vector networks.」 Machine learning 20.3 (1995): 273-297.

26

史上最好記的神經網路結構速記表(下)

最後介紹Kohonen 網路(KN,也叫自組織(特徵)圖,SOM,SOFM)。KN 利用競爭性學習來無監督地分類數據。輸入數據之後,網路會評估哪些神經元與輸入的匹配度最高,然後做微調來繼續提高匹配度,並慢慢帶動鄰近它們的其他神經元發生變化。鄰近神經元被改變的程度,由其到匹配度最高的單元之間的距離來決定。Kohonen有時候也不被認為是神經網路。

Kohonen, Teuvo. 「Self-organized formation of topologically correct feature maps.」 Biological cybernetics 43.1 (1982): 59-69.

歡迎關注雷鋒網雷鋒字幕組專欄,獲得更多AI知識~感謝雷鋒網(公眾號:雷鋒網)雷鋒字幕組志願者對本期內容作出貢獻。

雷鋒網原創文章,未經授權禁止轉載。詳情見轉載須知。

史上最好記的神經網路結構速記表(下)

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 雷鋒網 的精彩文章:

可編程全地形機器人HEXA京東眾籌完美收官,成為撬動機器人創新的支點
Google 領投 Lyft 10 億美金新融資,Uber 被雙面夾擊

TAG:雷鋒網 |