當前位置:
首頁 > 新聞 > 聚焦「信息壓縮」,IBM 攜手 MIT 再解讀「信息瓶頸」理論

聚焦「信息壓縮」,IBM 攜手 MIT 再解讀「信息瓶頸」理論

雷鋒網 AI 科技評論按:深度學習的發展帶給人工智慧領域的影響可謂是革命性的,然而該領域目前還存在很多未解決的問題,其中就包括不可解釋性等問題。而希伯來大學計算機科學家和神經學家Naftali Tishby 等人提出的「信息瓶頸」理論,則嘗試來解決神經網路的一系列問題,自提出以來便一直受到 AI 界的廣泛關注。IBM 研究院也開展相關研究來分析這一理論,以期能夠解決神經網路中的某些問題,相關成果發表在 IBM 研究院官網博客上,雷鋒網 AI 科技評論編譯如下。

雖然對於神經網路理論的研究工作日趨增多,但我們對於深度學習的宏觀行為理解仍存在許多不足之處。例如,訓練期間由哪些因素驅動內部表徵的演變、學習到的表徵屬性以及如何充分訓練神經網路去處理信息等方面存在的問題,一直都沒有得到解決。此外,我們對於神經網路的了解大多數都源於揣測,而缺乏實證。

「信息瓶頸」理論試圖解決上述這些問題。作為 MIT- IBM Watson AI 實驗室雙方密切合作的成果,我們在 2019 年國際機器學習大會(ICML)會議論文「深度神經網路中信息流的評估」(Estimating Information Flow in Deep Neural Networks),從數學和經驗的角度對「信息瓶頸」理論進行了分析,其中更是特別聚焦於其預測的「信息壓縮」現象。

「信息瓶頸」理論

「信息瓶頸」理論(Schwartz-Ziv & Tishby 2017 年論文等,見參考文獻)試圖解釋涉及信息壓縮的神經網路泛化問題,這個概念是指在神經網路學習對輸入編碼時,輸入 X 和隱藏層 T(圖 1)之間的互信息在訓練過程中迅速上升,之後在神經網路學習丟棄與任務無關的非關聯信息(圖 2)時,該互信息緩慢下降(壓縮)。每一個連續的層都被視為在不斷壓縮輸入。最終證明,這種淘汰掉無關信息的方式,可以使分類器的泛化效果更好,因為這樣的話,當被給定一種新的此前從未見過的輸入,神經網路僅僅提取出相關信息,而不會受到無關信息的誤導。

聚焦「信息壓縮」,IBM 攜手 MIT 再解讀「信息瓶頸」理論

圖 1:深度神經網路的前饋(假設的)

聚焦「信息壓縮」,IBM 攜手 MIT 再解讀「信息瓶頸」理論

圖 2:信息瓶頸。圖中顯示了訓練過程中 5 個隱藏層中互信息的軌跡

雖然某種程度上這是一個較為誘人的觀點,但遺憾的是,當網路是確定性的時候,輸入 X 和隱藏層 T 之間的互信息並不依賴於網路參數(而在實踐中,幾乎所有的神經網路都是確定性的)。為了解決這個問題,先前的工作通過對每個神經元進行分箱處理(量化)和互信息進行計算(成為分箱隱藏層的離散熵),得出互信息的估計值。圖 3 表明該計算與分箱大小高度相關,從而證實它並沒有對互信息進行計算。

圖 3:分箱估計的不連續性

雜訊神經網路與互信息評估

當網路是確定性的時候,互信息是非信息性的,而當網路是隨機性的時候,互信息是富信息性的。因此,我們通過在每個神經元輸出中添加高斯雜訊 Z 來定義形成的雜訊神經網路(圖 4)。這種雜訊同時存在於神經網路的訓練和測試中,從而使相關的互信息評估變得有意義。在這種情況下,我們提出了一種有效的互信息評估方式,它能以極大極小最優速度收斂為真實的互信息(且不依賴於分箱)。

圖 4:雜訊神經網路

將聚類作為壓縮的驅動因素

我們的論文通過將單神經元分類和雜訊通道上的信息傳輸聯繫起來,能夠開發出一個數學直覺,即信息壓縮(在隨機網路中嚴格觀察或在確定性網路中使用分箱估計)通常都應該由內部表徵聚類引起。具體來說就是,在隱藏表徵 T 中,映射同一類 Y 的不同輸入 X 的隱藏層與彼此越來越接近。

要從經驗上評估這一點,可參考 Schwartz-Ziv、 Tishby 在其 2017 年一篇論文中提出的數據和模型,該模型使用具有雙曲正切函數(tanh)激活的全連接 12-10-7-5-5-4-3-2 體系結構對 12 維輸入進行二進位分類。圖 5 顯示了標準偏差 0.005(測試精度 97%)的加性雜訊結果,說明了各訓練期中互信息估計、訓練/測試損失和不斷演變的內部表徵之間的關係。互信息的上升和下降對應著表徵在每一層中的擴展或聚合程度。例如,當高斯函數開始沿著一條曲線彼此偏離時(參見頂部第 5 層隱藏表徵的散點圖),在 28 epoch 之前,互信息一直呈增長趨勢;到 80 epoch 左右,它們開始聚合,互信息隨之下降。隨著訓練的進行,飽和的雙曲正切單元將高斯函數推到立方體的相反角落,進一步減少了互信息。

聚焦「信息壓縮」,IBM 攜手 MIT 再解讀「信息瓶頸」理論

圖 5:訓練過程中的 I(X;Y) 壓縮。最上面一行顯示的是在選定 epochs 中隱藏表徵的最終層的散點圖,按顏色進行類標籤編碼

如圖 6 所示,我們使用權重的正交規範化規則(Cisse 等人 2017 年論文),不僅可以消除這種壓縮,實際上也改進了泛化。隱藏表徵不再聚合在一起,這與信息壓縮的缺失是直接對應的。我們在這方面進行了更多的實驗,從而有力地證實了信息壓縮是由聚類引起的。

聚焦「信息壓縮」,IBM 攜手 MIT 再解讀「信息瓶頸」理論

圖 6:使用正交規範化消除壓縮

其他重要說明

由聚類引起的「壓縮」概念之所以重要,基於兩個原因。首先,它揭開了「信息壓縮」的神秘面紗,用一個更具體的公式取而代之。其次,它為直接研究聚類打開了大門,聚類可能不會遭遇源自與互信息估計相關的維數的極端「詛咒」(我們證明了樣本複雜度在維數上呈指數級增長)。事實上,我們能夠將聚類的若干(初步的)測量方法延展到針對 MNIST 掃描數字任務進行分類的全卷積神經網路上,從而在訓練過程中觀察到類似的「壓縮」行為。

此外,與「信息瓶頸」理論相反,我們發現壓縮對於泛化來說並不是必要的,不過,鼓勵使用壓縮(通過幾何聚類)是否能夠促進更好的泛化性能仍然是一個有待解決的問題。 雷鋒網

  • 論文:Estimating Information Flow in Deep Neural Networks

  • 論文作者:Ziv Goldfeld, Ewout van den Berg, Kristjan Greenewald, Igor Melnyk, Nam Nguyen, Brian Kingsbury, Yury Polyanskiy

  • 論文下載地址:https://www.research.ibm.com/artificial-intelligence/publications/paper/?id=Estimating-Information-Flow-in-Deep-Neural-Networks

參考文獻:

[Shwartz-Ziv, R. and Tishby, N. Opening the black box of deep neural networks via information. arXiv:1703.00810, 2017]

[Cisse, M., Bojanowski, P., Grave, E., Dauphin, Y., and Usunier, N. Parseval networks: Improving robustness to adversarial examples. In Proceedings of the International Conference on Machine Learning (ICML), 2017]

via:https://www.ibm.com/blogs/research/2019/06/deep-neural-networks/

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 雷鋒網 的精彩文章:

再見,iTunes
矽谷、底特律平起平坐:自動駕駛行業「恐怖平衡」時代到來

TAG:雷鋒網 |