谷歌:神經網路相似性如何幫助我們理解訓練和泛化
AiTechYun
編輯:chux
為了解決任務,深度神經網路(DNN)逐步將輸入數據轉換為一系列複雜表徵(即跨越單個神經元的激活模式)。理解這些表徵非常重要,不僅是為了解釋,也是為了我們可以更智能地設計機器學習系統。但是,理解這些表徵方式非常困難,特別是在比較網路中的表徵。在之前的文章中,研究者概述了典型相關分析(CCA)作為理解和比較卷積神經網路(CNN)表徵工具的好處,表明了它們在自下而上的模式中會聚,在訓練過程中,早期層會逐漸融合到最終層中。
在「Insights on Representational Similarity in Neural Networks with Canonical Correlation」論文中,我們進一步開發了這項工作以提供對CNN的表徵相似性的新見解,包括記憶網路之間的差異(例如,只能將他們以前見過的圖像分類的網路)一般化的那些(例如,可以正確分類先前未見的圖像的網路)。重要的是,我們還擴展了這種方法,以提供對循環神經網路(RNN)動力學的見解,這是一類對連續數據(如語言)特別有用的模型。比較RNN在許多方面與CNN相比很困難,但是RNN提出了額外的挑戰,即它們的表徵在序列過程中發生變化。這使得CCA及其有用的不變性成為研究RNN和CNN的理想工具。因此,我們另外開放了用於在神經網路上應用CCA的代碼,希望能夠幫助研究機構更好地理解網路動態。
記憶與泛化CNN的表徵相似性
最終,機器學習系統只有在能夠推廣到以前從未見過的新情況時才有用。因此,了解區分推廣網路和不推薦網路的因素是非常重要的,並且可能會導致改進泛化性能的新方法。為了研究代表的相似性是否可以預測泛化,我們研究了兩種類型的CNN:
泛化網路:CNN使用未經修改的準確標籤對數據進行培訓,並學習推廣新穎數據的解決方案。
記憶網路:對帶有隨機標籤的數據集進行訓練的CNN必須記住訓練數據,並且不能根據定義進行泛化。
我們訓練了每個網路的多個實例,僅在網路權重的初始隨機值和訓練數據的順序上有所不同,並且使用新的加權方法來計算CCA距離度量,以比較每組內記憶和泛化網路表徵。
我們發現,不同廣義網路的群體一直匯聚到比記憶網路群更類似的表示(特別是在後面的層次中)(見下圖)。在表示網路的最終預測的softmax,因為每個單獨組中的網路進行類似的預測,所以每組廣義和記憶網路的CCA距離顯著減小。
泛化網路組(藍色)匯聚成比記憶網路組(紅色)更類似的解決方案。在真實CIFAR-10標籤(泛化)或隨機CIFAR-10標籤(記憶)之間以及訓練的記憶和廣義網路組(Inter)之間計算CCA距離。
最令人驚訝的是,在後面的隱藏層中,任何給定的記憶網路對之間的表徵距離與記憶網路和泛化網路之間的表徵距離大致相同,儘管這些網路是用完全不同的標籤對數據進行訓練的。直觀地說,這個結果表明雖然有許多不同的方式來記憶訓練數據(導致更大的CCA距離),但學習可泛化解決方案的方法更少。在未來的工作中,我們計劃探索這種洞察力是否可以用於規範網路以學習更廣泛的解決方案。
理解回歸神經網路的訓練動力學
到目前為止,我們只將CCA應用於對圖像數據進行訓練的CNN。然而,在訓練過程中和序列的過程中,也可以應用CCA來計算在RNN中的表徵相似性。將CCA應用到RNN,我們首先看RNN是否顯示了我們在之前的CNN工作中觀察到的自下而上的會聚模式。為了驗證這一點,我們測量了在訓練過程中和訓練結束時的每一層的表徵之間的CCA距離。我們發現,在訓練的早期和訓練過程中,與輸入更接近的層的CCA距離比更深的層要更早下降,這表明,像CNN一樣,RNN也會以自下向上的模式會聚(見下圖)。
RNN在訓練過程中的會聚動態呈現自下而上的特性,因為更接近輸入的層在訓練之前會聚到它們的最終表徵。例如,在訓練中,第1層比第2層更早會聚到其最終表徵。Epoch指定了模型在訓練過程中被查看的次數,而不同的顏色代表了不同層次的會聚動力學。
我們的論文中的其他發現表明,更廣泛的網路(例如,每層具有更多神經元的網路)比狹隘的網路會聚到更相似的解決方案。我們還發現,具有相同結構但不同學習速率的網路會聚到具有相似性能但表徵截然不同的群集。我們還將CCA應用於單個序列過程中的RNN動態,提供一些初步的洞察,以了解影響RNN表示的各種因素,而不是簡單地將它應用到訓練過程中。
結論
這些發現強化了分析和比較DNN表徵的效用,以便提供對網路功能,泛化和會聚的見解。然而,仍然有許多問題尚未解決:在今後的工作中,我們希望揭示CNN和RNN中跨網路的表徵哪些方面是保守的,以及這些見解是否可用於改善網路性能。
論文:arxiv.org/abs/1806.05759
代碼:github.com/google/svcca/


※DeepMind發布新演算法:生成查詢網路GQN,可將2D照片渲染成3D模型
※「阿爾法狗」天氣預報?研究人員開發AI模型,使用人工智慧預測天氣
TAG:ATYUN訂閱號 |