深度可逆網路i-RevNet：信息丟棄不是泛化的必要條件

知識 02-19

選自openreview

作者：J?rn-Henrik Jacobsen

機器之心編譯

參與：Nurhachu Null、劉曉坤

本文介紹了一種可逆網路架構 i-RevNet，證明對於分類網路的泛化能力，通過信息丟棄構造信息瓶頸並不是必要條件，該結論甚至對 ImageNet 這樣的大型數據集也是成立的；此外，通過保留中間表徵的所有信息，使得逆向完全地恢復原圖變得可行。

雖然卷積神經網路（CNN）在進行圖像分類的時候特別有效（He et al., 2016; Krizhevsky et al., 2012），但是非線性運算元和線性運算元的級聯在揭示內部表徵對分類的貢獻方面卻是很有限的。學習過程的主要特點是能夠穩定地減少圖片中大量的無信息可變性（uninformative variability），同時揭示圖像類別的本質特徵。普遍認為這個過程是基於逐步丟棄與問題輸入相對應的無信息可變性 (Dosovitskiy & Brox, 2016; Mahendran & Vedaldi, 2016; Shwartz-Ziv & Tishby, 2017; Achille & Soatto, 2017)。然而，關於拋棄信息的程度信息在某些中間非線性過程中丟失了。在這篇論文中，研究者通過提出一種可逆卷積神經網路來提供關於可變性減少過程的一些洞見，這個可逆卷積神經網路不會損失關於輸入的任何信息。

很多常用的網路結構都面臨著從隱藏表徵中恢復圖片的困難 (Dosovitskiy & Brox, 2016; Mahendran & Vedaldi, 2016)。這引發了一個問題：在成功的分類模型中，大量的信息損失是否必要。本文將證明，沒有信息是必須被丟棄的。通過使用同胚層（homeomorphic layers），不變性可以僅僅在最後一層通過投影的方式建立。

Shwartz-Ziv 和 Tishby 的研究中（2017）建議採用最少而充足的統計量來解釋可變性的減少。Tishby 和 Zaslavsky2015 年的研究介紹了信息瓶頸原則——為了儘可能多地減少無信息可變性，一個最優的表徵必須減少輸入與其表徵之間的互信息。同時，為了有效地防止一個類別被混淆到其他類別，網路還應該最大化表徵與其期望輸出之間的互信息。Shwartz-Ziv & Tishby (2017) 和 Achille & Soatto (2017) 基於一些小數據集闡述了信息瓶頸效應。然而，本文將證明，這並不是一個必要條件，而且通過構建級聯的同胚層，可以保留輸入和隱藏表徵之間的互信息，並且證明信息損失可以僅僅發生在最後一層。以此，我們可以證明，在諸如 ImageNet 這樣的大規模數據集上也可以避免信息損失的問題。

減少可變性的一種方式就是逐步地收縮中間表徵的 L2 範數對應的可變性。

有幾項研究已經注意到了在有限數據集上訓練的非可逆網路存在逐步分離和收縮的現象 (Oyallon, 2017; Zeiler & Fergus, 2014)。這種逐步提升性能的現象可以被解釋為逐步增強不變性，以改善分類結果。理想情況下，這種收縮不應該太暴力，以避免從中間信號中移除重要信息。這證明區分度和不變性之間的權衡必須逐步建立。在這篇論文中，作者將 Zeiler & Fergus (2014) 和 Oyallon (2017) 的工作擴展到了 ImageNet (Russakovsky et al., 2015) 上，並且最重要的是，他們證明了在逐步收縮的過程中，信息損失是可以避免的。

Mallat (2016) 討論了不同類別的不變性和區分度之間的二重性。這裡用李群為類內部可變性建模，類內部可變性可以通過在這些對稱性中執行並行傳遞來處理。在學習過程中可以將卷積核適應到數據集的特定偏差上，進而可以避免沿著可區分方向的收縮。然而，使用不屬於歐幾里得範疇的群進行圖像分類是很困難的。主要原因是與這些抽象可變性相關的群是難以評估的，因為它們具有高維度的屬性以及需要合適自由度的不變性。Mallat(2012) 通過散射變換給出了這個框架在歐氏群上的一個描述，它在一定程度可恢復的同時建立了小幅度轉譯的不變性。在這篇論文中，作者引入了一個網路結構，它不會在除最後一層的其他地方丟棄任何信息，同時他們還定量地展示了信號類別中的漸進收縮和分離。

研究者引入了 i-RevNet，這是一種可逆的深度網路，i-RevNets 在除最後一層的所有中間表徵中保留了輸入信號的所有信息。該架構架構是基於最近提出的 RevNet(Gomez et al., 2017) 建立的，用可逆組件代替了原始 RevNets 結構中的非可逆組件，i-RevNet 在 ImageNet 上達到了與非可逆 RevNet 和 ResNet 相同的性能 (Gomez et al., 2017; He et al., 2016)。在這個架構中，本文證明：在學習可以泛化到陌生數據的表徵時，信息損失並不是必要條件。

為了揭示學習表徵泛化能力的機制，作者證明了 i-RevNets 隨著深度的增加會逐漸分離和收縮信號。結果表明：通過使用對可恢復輸入進行收縮，可以有效地減少可變性。

圖 1： i-RevNet 和它的逆網路的主要組成。RevNet 模塊與卷積瓶頸 F_j 交替連接，並且對 S_j 運算進行洗牌，以保證架構的可逆性和計算效率。輸入通過分割運算元 S?進行處理，輸出結果通過 M?處理進行合併，注意，逆網路是通過最小適應（minimal adaptations）獲得的。

圖 2：可逆下採樣的圖示

表 1：在 ILSVRC-2012 上訓練的幾個不同架構的對比：包括分類準確率和參數數量

圖 3：在 ImageNet 上 i-RevNet (b) 和 ResNet 的訓練損失對比。

圖 4：?φ_x 的歸一化排序奇異值

圖 5：這幅圖展示了幾個重建序列 _t。左邊的圖對應 x^0，右邊的圖對應 x^1。

圖 6：應用到空間平均Φ_j 上時，深度為 j 的線性 SVM 和 1-最近鄰分類器的準確率

圖 7：線性 SVM 和最近鄰在保留不同維度的主成分時的準確率

論文：i-RevNet:深度可逆網路（i-RevNet: Deep Invertible Networks）

論文鏈接：https://openreview.net/forum?id=HJsjkMb0Z

普遍認為，卷積神經網路的成功是基於對問題輸入的無信息可變性的逐漸丟棄。在絕大多數常見的網路架構中，難以從圖像的隱藏表徵恢復圖像，經驗地支撐了上述觀點。我們在這篇論文中證明了這種信息丟失不是泛化到複雜問題 (如 ImageNet ) 上的必要條件。通過使用級聯同胚層，我們建立了 i-RevNet，這是一個可以完全倒轉到類別的最終投影上的網路，也就是說，不會丟棄任何信息。建立一個可逆架構是很困難的，因為局部可逆是病態的，我們通過一種顯式的逆向過程克服了這個問題。通過對 i-RevNet 學習到的表徵的分析，我們提出了一種通過漸進收縮和按深度的線性分離來解釋良好準確率的方法。為了揭示 i- RevNet 學習模型的性質，我們重構了自然圖像表徵之間的線性插值。

本文為機器之心編譯，轉載請聯繫本公眾號獲得授權。

------------------------------------------------

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 機器之心 的精彩文章:

※ICLR 2018接收論文公布：接收率高達42.7％
※外媒稱英偉達下月將發布新型GPU「Turing」，挖礦虛擬貨幣

TAG:機器之心 |