當前位置:
首頁 > 知識 > Hinton等人新研究:如何更好地測量神經網路表示相似性

Hinton等人新研究:如何更好地測量神經網路表示相似性

選自arXiv

作者:Simon Kornblith、Mohammad Norouzi、Honglak Lee、Geoffrey Hinton

機器之心編譯

參與:可可、路

近期很多研究試圖通過對比神經網路表示來理解神經網路的行為。谷歌大腦 Simon Kornblith、Geoffrey Hinton 等人的一項新研究引入了 centered kernel alignment (CKA) 作為相似性指數,並分析 CKA、線性回歸、典型相關分析(CCA)等相關方法之間的關係,證明 CKA 優於其他相似性指數。

在機器學習的很多任務中,深度神經網路可以自動從數據中學習強大的特徵表示。儘管深度神經網路在多種任務中取得了令人印象深刻的進展,但如何理解和描述神經網路從數據中學習到的表示仍未得到充分研究。之前的工作(例如 Advani&Saxe (2017)、Amari et al. (2018)、Saxe et al. (2013))在理解神經網路訓練過程的理論動態方面取得了一些進展。這些研究雖然很深刻,但卻存在基礎局限性,因為它們忽略了訓練動態過程和結構化數據之間複雜的相互作用。事實上,神經網路表示會比損失函數提供更多機器學習演算法和數據之間的交互信息。

谷歌大腦的這篇論文研究了測量深度神經網路表示相似性的問題。測量表示相似性的有效方法可幫助回答許多有趣的問題,包括:(1)基於不同隨機初始化訓練得到的相同架構深度神經網路是否學習相似的表示?(2)不同神經網路架構的各個層之間是否可以建立對應關係?(3)相同的神經網路架構從不同的數據集中學習的表示有多相似?

該論文的主要貢獻有:

討論了相似性指數的不變性及其對測量神經網路表示相似性的影響。

引入了 centered kernel alignment (CKA) 作為一種相似性指數,並分析 CKA、線性回歸、典型相關分析(CCA)等相關方法之間的關係。

證明了 CKA 能夠確定基於不同隨機初始化和不同寬度訓練的神經網路的隱藏層之間的對應關係,而以前提出的相似性指數在這些場景下是不適用的。

驗證了網路越寬學習到的表示越相似,並且前幾層的相似性比後幾層更容易飽和。該研究證明了神經網路中的前幾層而非後幾層能從不同的數據集中學習到相似的表示。

問題描述

令 X∈R^(n×p_1) 表示 n 個樣本的 p_1 個神經元的激活矩陣,Y∈R^(n×p_2) 表示相同的 n 個樣本的 p_2 個神經元的激活矩陣。假設這些矩陣已經過預處理使得矩陣的每一列均值為零。在不失一般性的情況下,我們假設 p_1≤p_2。

為了可視化和理解深度學習中不同因素的影響,研究者設計和分析了標量相似性指數 s(X,Y),它可用於比較神經網路內和神經網路之間的表示相似性。

論文:Similarity of Neural Network Representations Revisited

論文地址:https://arxiv.org/pdf/1905.00414.pdf

最近一些工作試圖通過比較層之間和不同訓練模型之間的表示來理解神經網路的行為。該論文研究了基於典型相關分析(CCA)對比神經網路表示的方法,證明 CCA 屬於一類測量多元相似性的統計方法,但是 CCA 和其他對可逆線性變換具備不變性的統計方法都無法測量維度高於數據點個數的表示之間的相似性。

該研究介紹了一個相似性指數,它可以測量表示相似性矩陣之間的關係,並且不受上面的這種限制。該相似性指數等價於 centered kernel alignment (CKA),並且也與 CCA 緊密相關。不同於 CCA,CKA 可以可靠地識別基於不同初始化訓練的網路學習得到的表示之間的對應關係。

相似性指標的不變性是針對什麼變換而言的?

相似性指標的不變性及其對測量神經網路表示相似性的影響是很重要的。該研究認為,相似性的直觀概念和神經網路訓練的動態過程都要求相似性指標對正交變換和各向同性縮放(isotropic scaling)是不變的,而不是可逆線性變換。

比較相似性結構(Similarity Structure)

與直接比較一個樣本在兩個表示中的多變數特徵(比如通過回歸的方法)不同,該研究的主要觀點是:首先分別測量每個表示中的每對樣本之間的相似性,然後比較相似性結構。在神經科學中,表示樣本之間相似性的矩陣被稱為表徵相似性矩陣(Kriegeskorte et al., 2008a)。下文證明了,如果使用內積來測量相似性,那麼表徵相似性矩陣之間的相似性可以簡化成成對特徵相似性的另一個直觀概念。

基於點積的相似性。下面是一個將樣本之間的點積與特徵之間的點積關聯的簡單公式:

Hilbert-Schmidt 獨立性準則(HSIC)。從等式 1 可以推出,對於均值為 0 的 X 和 Y 有:

令 K_ij = k(x_i , x_j ) , L_ij = l(y_i , y_j ),其中 k 和 l 是兩個核函數。HSIC 的經驗估計是:

Centered Kernel Alignment. HSIC 對各向同性縮放不具備不變性,但可以通過歸一化使其具有不變性。歸一化後的指標稱為 centered kernel alignment (Cortes et al., 2012; Cristianini et al., 2002):

相關的相似性指標

在測量神經網路表示之間的相似性的背景下,研究者簡要回顧了線性回歸、典型相關和其他相關方法。表 1 總結了實驗中使用的公式、指標及其不變性。

表 1:各種相似性指標的總結。

Q_X 和 Q_Y 分別是 X 和 Y 的正交基。U_X 和 U_Y 分別是對 X 和 Y 做奇異值分解後按奇異值降序排列的左奇異向量。|| · ||? 表示核範數。T_X 和 T_Y 是截斷單位矩陣,利用 T_X 和 T_Y 選出的 X 和 Y 的左奇異向量可以使累積方差達到某個閾值。

線性回歸。線性回歸是關聯神經網路表示的一種簡單方法。它可以將 Y 中的每個特徵擬合為 X 中特徵的線性組合。一個合適的匯總統計量是該擬合所能解釋的方差比例:

典型相關分析(CCA)。典型相關分析是求兩個矩陣的基,使得當原矩陣被投影到這些基上時,相關性最大。對於 1≤i≤p_1,第 i 個典型相關係數ρ_i 由下式給出:

SVCCA.當 X 或 Y 的條件數很大時,CCA 對擾動敏感。為了提高魯棒性,奇異向量 CCA 方法 (singular vector CCA, SVCCA) 對 X 和 Y 的奇異值分解截斷後使用 CCA。

Projection-Weighted CCA. Morcos 等人 (2018) 提出了一種不同的策略來降低 CCA 對擾動的敏感性,他們稱這種方法為「投影加權典型相關分析」(PWCCA):

結論

該研究首先研究了一種基於 All-CNN-C 的類 VGG 卷積網路。圖 2 和表 2 說明只有 CKA 方法通過了完整性檢查,而其他方法則表現得很差。

圖 2:CKA 揭示了基於不同隨機初始化訓練的 CNN 的不同層之間的一致關係,而 CCA、線性回歸和 SVCCA 則無法揭示這種關係。

表 2:不同方法基於最大相似性識別基於不同初始化訓練的 10 個結構相同的 10 層 CNN 網路中對應層的準確率,其中排除了 logits 層。

CKA 可以揭示神經網路表示中的異常。圖 3 展示了具有不同深度的卷積網路各層之間的 CKA,其中卷積網路的各層分別重複 2、4 和 8 次。從中可以看出,深度加倍可以提高準確率,但是深度增加太多反而會降低準確率。

圖 3:CKA 揭示深度過深的神經網路的表示會出現異常。上圖:在 CIFAR-10 上訓練的不同深度深度網路的各層之間的線性 CKA。每個小圖的標題顯示了每個網路的準確率。8 倍深度神經網路的後幾層與最後一層類似。下圖:在相同神經網路的各層上訓練的 logistic 回歸分類器的準確性與 CKA 一致。

CKA 還可用於比較在不同數據集上訓練的網路。圖 7 展示了在 CIFAR-10 和 CIFAR-100 上訓練的模型在其前幾層中生成了類似的表示。這些表示需要訓練,而且這些表示與未經訓練的網路生成的表示之間的相似性要低很多。

圖 7:CKA 顯示了在不同數據集(CIFAR-10 和 CIFAR-100)上訓練的模型產生了類似的表示,這些表示與未經訓練的模型產生的表示差異很大。左圖顯示了在 CIFAR-10 測試集上不同模型的同一層之間的相似性,而右圖顯示了在 CIFAR-100 測試集上的相似性。CKA 是每種類型的 10 個模型的均值(45 對)。

從可視化的角度看,RSM 方法比 CKA 匯總統計更有用,因為 RSM 方法不會將相似性匯總為單個數字,而是提供了更完整的 CKA 測量結果信息。圖 8 展示了,對於較大的特徵向量,XX^T 和 Y Y^T 作用相似,但是使之成立的子空間的秩遠低於激活函數的維度。

圖 8:基於隨機初始化訓練的兩個 10 層神經網路的共享子空間主要由最大特徵值對應的特徵向量張成。每行表示不同的網路層。平均池化層只有 64 個神經元。

本文為機器之心編譯,轉載請聯繫本公眾號獲得授權。

------------------------------------------------


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 機器之心 的精彩文章:

不用挨個數數,DNN也能「一眼看出」目標數量
天生一對,硬核微分方程與深度學習的「聯姻」之路

TAG:機器之心 |