當前位置:
首頁 > 新聞 > DeepMind論文:CNN的變形穩定性和池化無關,濾波器平滑度是關鍵

DeepMind論文:CNN的變形穩定性和池化無關,濾波器平滑度是關鍵

傳統觀點認為,CNN 中的池化層導致了對微小平移和變形的穩定性。在本文中,DeepMind 的研究者提出了一個反直覺的結果:CNN 的變形穩定性僅在初始化時和池化相關,在訓練完成後則無關;並指出,濾波器的平滑度才是決定變形穩定性的關鍵因素。

1. 引言

近年來,卷積神經網路(CNN)在計算機視覺的物體識別方面取得了巨大的成功(Krizhevsky et al., 2012; Simonyan & Zisserman, 2014; He et al., 2016; Russakovsky et al., 2015),然而目前尚不清楚這些模型如此成功的原因。

直到最近,人們才對 CNN 成功的原因有了一個普遍的解釋,解釋說是因為交錯地引入池化層(interleaved pooling layer)才使這些模型對小的平移和變形(translation and deformation)不敏感。視覺域中的許多變化來自視圖、物體位置、旋轉、尺寸和非剛體變形的微小變化。因此,「對這些變化不太敏感」這一描述有用,但只是看起來合理。此外,長久以來人們都假設引入交錯池化層將這種偏差構建到的模型中是有益的 (LeCun et al., 1990; Krizhevsky et al., 2012; Simonyan & Zisserman, 2014; LeCun et al., 2015; Giusti et al., 2013)。然而,這個假設的解釋還沒有被徹底地驗證。

DeepMind論文:CNN的變形穩定性和池化無關,濾波器平滑度是關鍵

圖 1. 變形的 ImageNet 圖像示例。左:原始圖像,右:變形圖像。雖然圖像變化了很多,比如,在 L2 度量下,他們可能會被人類賦予相同的標籤。

事實上,最近證明,由交錯池化層提供的歸納偏差(inductive bia)並不是良好性能的必要條件,因為最近的一些架構已經減少了交錯池化層,而且仍然實現了強大的性能(Springenberg et al., 2014; He et al., 2016)。這引出了本文中的以下問題:

1. 池化是否對學習的變形穩定性是否有影響?

2. 在沒有池化的情況下是否能實現變形穩定性?

3. 如果可以,是如何實現的?

關於池化作用的傳統推理是假設混淆變數(nuisance variables)的不變性在總體上有幫助。這裡,本文對其有效性做出了一個猜想,並進一步定義了本文將討論的特定類別的混淆變形(nuisance deformations)。

本文的主要貢獻是:

  • 學習穩定性:本文展示了沒有池化的網路在初始化時對變形敏感,但經過訓練學習表徵的過程之後對變形是穩定的。作者還表明,即使在有池化的網路中,訓練過程中變形穩定性模式也會發生顯著變化。此外,在訓練過程中,變形穩定性有時會下降,這表明這種穩定性不是單方面的有用(3.2 節)。

  • 收斂穩定性:本文表明池化和非池化訓練網路的層間變形穩定性模式最終會收斂到相似的結構(3.3 小節)。

  • 穩定性的實現:本文表明無論池化還是非池化網路,都可通過濾波器的平滑性實現和調節變形穩定性(第 4 節)。

此外,從理解神經網路的權重和層如何影響整個網路行為的角度來看,此工作提供了一個有潛在價值的重要例子,解釋各層中權重的簡單性質如何影響網路的整體計算。

從設計神經網路模型的角度來看,這項工作提供了對「指導設計神經網路 20 多年的重要歸納偏差」的洞察。長期以來人們認為池化對實現變形穩定性很重要,認為池化是 CNN 成功的主要因素。這項工作表明,無論看起來多麼合理,並通過經驗和理論驗證來加強,我們對神經網路工作原理的直覺往往是不準確的。

DeepMind論文:CNN的變形穩定性和池化無關,濾波器平滑度是關鍵

圖 2:生成變形圖像:為了使圖像隨機變形,我們:(a)從固定均勻間隔的控制點網格開始(這裡是 4x4 個控制點),然後在點鄰域內為每個控制點選擇一個隨機源;(b) 然後使用薄板插值平滑得到的矢量場;(c) 矢量場疊加在原始圖像上:使用原始圖像中箭頭尾部附近的值的雙線性插值計算箭頭頂端的最終結果中的值;(d) 最終結果。

3. 在池化和非池化的網路中學習變形穩定性是相似的

DeepMind論文:CNN的變形穩定性和池化無關,濾波器平滑度是關鍵

圖 3:池化在初始化時賦予變形穩定性,但在訓練過程中穩定性發生顯著變化,而且無論是否池化,都會收斂到類似的穩定性。(a) 在初始化時,最大池化的網路對變形較不敏感。(b) 訓練後,池化和非池化的網路對層的變形有非常相似的敏感模式。CIFAR10 有類似的模式: (c) 初始化時,池化對變形的敏感性有顯著影響,但 (d) 訓練後,下採樣層的選擇對所有層的變形穩定性幾乎沒有影響。圖層 0 對應於輸入圖像;這些層包括下採樣層;最後一層對應於最後的下採樣層。因此對於 CIFAR10,我們一共有 13 層,包括 1 個輸入層、8 個卷積層和 4 個池化層。

4. 濾波器的平滑度有助於提高變形穩定性

DeepMind論文:CNN的變形穩定性和池化無關,濾波器平滑度是關鍵

圖 4:使用更平滑的隨機濾波器進行初始化會使變形穩定性更好。使用標準偏差σ的高斯濾波器對濾波器進行平滑處理,然後測量對變形的敏感度。當增加σ來增加濾波器的平滑度時,表徵對變形的敏感度下降。較深的線條代表更平滑的隨機濾波器。

DeepMind論文:CNN的變形穩定性和池化無關,濾波器平滑度是關鍵

圖 5:需要更高變形穩定性的任務要用更平滑的濾波器。(a) 生成一個合成任務,每個類基於單個 MNIST 圖像,每類的示例通過應用該類圖像的強度 C 的隨機變形生成。左邊的圖像使用強度 3 的變形生成,右列圖像分別使用強度為 1、2、3、4 的變形生成。(b) 訓練後,在強變形訓練任務上得到的網路濾波器更平滑。黑色虛線表示初始化的平均值。

5:濾波平滑性取決於監督任務類型

DeepMind論文:CNN的變形穩定性和池化無關,濾波器平滑度是關鍵

圖 6:訓練得到更平滑的濾波器。(a) 和 (b) 在訓練之後,濾波器明顯更加平滑,不同的架構收斂到類似的濾波平滑度。(c)對隨機標籤進行訓練時,濾波器的平滑性很大程度取決於選擇的下採樣層。有趣的是,(a)訓練 ImageNet 時濾波器的平滑度逐層遞增,(b)CIFAR10 則是逐層遞減。黑色虛線表示初始化的平均值。

DeepMind論文:CNN的變形穩定性和池化無關,濾波器平滑度是關鍵

圖 7:訓練隨機標籤時,變形穩定性依賴於架構類型。

論文:Learned Deformation Stability in Convolutional Neural Networks(卷積神經網路的學習變形穩定性)

DeepMind論文:CNN的變形穩定性和池化無關,濾波器平滑度是關鍵

論文地址:https://arxiv.org/pdf/1804.04438.pdf

傳統觀點認為,卷積神經網路中的池化層導致了對微小平移和變形的穩定性。此項工作中,我們根據經驗探索了這一觀點。我們發現,雖然池化層在初始化時賦予網路變形穩定形,但在訓練的過程中每層的變形穩定性變化顯著,一些層甚至有所減小,這表明變形穩定性不是單方面有幫助的。令人驚訝的是,訓練完成之後,層間的變形穩定性模式很大程度上與是否引入池化無關。然後我們在本文展示了決定變形穩定性的一個重要因素是濾波器的平滑度。此外,濾波器的平滑度和變形穩定性不僅是輸入圖像分布的結果,而且關鍵地取決於圖像和標籤的聯合分布。本項工作展示了學習變形穩定性等偏差的一種方法,並提供了「理解學習網路權重的簡單性質如何有助於對整體網路的計算」的一個例子。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 機器之心 的精彩文章:

專訪|文因互聯:從「金融數據」到「金融知識」
textgenrnn:只需幾行代碼即可訓練文本生成網路

TAG:機器之心 |