理解神經網路是否有更好的姿勢？

新聞 07-23

理解神經網路是否有更好的姿勢？

打開今日頭條，查看更多圖片

雷鋒網 AI 科技評論按：DeepMind 研究科學家 Timothy P. Lillicrap，賓夕法尼亞大學教授 Konrad P. Kording 近期發表了一篇文章《What does it mean to understand a neural network?》（arxiv.org/abs/1907.06374）。正如文章標題提出的，「理解神經網路」到底意味著什麼？我們當前的研究是否走入了誤區以至於忽略了某些很有價值的東西？這是一篇視角獨特的討論，雷鋒網 AI 科技評論把文章主要內容介紹如下。

神經網路可解釋性之路面臨困境

自從現代神經網路被證明能解決複雜問題並開始蓬勃發展以來，如何理解這些網路就一直是一個未解之謎。網路中少則數千、多則數萬的連接和權重都分別如何影響網路的表現、如何理解對抗性樣本之類的意外行為，有許多問題目前都還沒有完整的理論可以說清。

但毫無疑問，我們對神經網路是有高度的掌控能力的。即便 AlphaGo、OpenAI Five 等已經在遊戲中展現出了超人類水平的神經網路，它們也只是來源於人類編寫的上百行代碼而已。我們理解這些代碼，我們知道它們將會如何轉化為計算流程，在網路訓練完畢以後也能夠知道網路的所有權重。

從這個意義上說，我們對網路的結構和其中的運算都有完全的了解。但我們真正希望獲得的是一種介於人類思維語言以及計算機運算細節之間的中轉語言，我們可以藉助這種語言直接構建可以分類 ImageNet 圖像或者能夠下圍棋的神經網路，而不需要經過繁瑣、消耗資源的迭代學習過程；可以藉助這種語言直接獲得網路表現的清晰完整的描述，而不需要通過反覆的測試進行經驗總結。目前我們還沒有找到這樣的中轉語言，甚至都不確定是否存在這樣的語言。

神經網路能被緊湊地表達嗎？

一個值得深入思考的角度是，在機器學習的理論框架下設計的人工智慧系統，都是一些「學習系統」，它們在人類編寫的學習規則下學習（從數據中提取信息）。這些學習規則的表達非常緊湊，幾十、幾百行高級編程語言代碼（比如 Pytorch 代碼）就足以描述。

對於我們廣大的機器學習科研和應用人員來說，這種緊湊的表達顯然能幫助我們獲得一些有價值的理解。這樣的緊湊表達也給我們提供了許多便利：我們可以為同一個想法創造許許多多的不同變體，然後用它們解決一大批問題。

既然學習規則可以被緊湊地表達，那麼神經網路本身可以被緊湊地表達嗎？不見得。近幾年隨著知識蒸餾和計算複雜度的研究增多，我們對數據和網路的可壓縮性的理解也在增加。我們已經知道，在 ImageNet 上訓練完畢的網路是無法被壓縮到 10 萬個獨立參數之內的；即便是用來識別 MNIST 數字的網路也無法被壓縮為人類可以理解的格式。但同時，能存儲超過三萬個類別的知識並進行分辨的人類大腦，作為一類十分高級的神經網路，想要在其中找到，或者想要壓縮為某種緊湊的表徵，也是幾乎不可能的事情。

跳出壓縮技巧之外，我們其實可以問這樣一個問題：在任務中表現出了人類水準的網路，應當是容易壓縮的嗎？不難得到答案：越是處理複雜任務、能存儲並處理越多信息的網路，就越難以壓縮。

更重要、也更長遠的一件事是，完全掌握某一個可以正常工作的 AI 系統的網路架構和權重、但不了解學習規則和執行技巧，對於解決其它的任務就起不到任何幫助。也就是說，了解訓練系統用到的學習規則、網路架構、損失函數，對於後續的更改和拓展要遠比了解直接存在於網路之中的連接權重重要。

與神經科學的類比

雖然人腦的神經網路和如今的人工神經網路有諸多不同，但是相同點也不少，尤其是極高的可塑性以及難以準確了解網路內的表徵。說到底，人腦在具有極強的持續學習能力、有高超的任務解決能力的同時，可解釋性並不比人工神經網路好到哪裡去，但同時人類在學習和發展方面有諸多理論研究成果和實用技巧，不僅容易理解，也能切實起到幫助改善個人狀況、提升個人能力的作用。我們似乎可以說，為神經網路（不論人腦還是人工神經網路）找到人類可以理解的緊湊表達不僅不是唯一的目標，甚至它的作用也不如網路架構、學習規則、發展規律的研究的作用更大。

正如 Hinton 等人在 AlexNet 論文中，以及 DeepMind 在 AlphaGo 論文中展示的，一個人工神經網路可以被清晰地分成先天（原理）與後天（參數）兩部分：為網路提供任務和有關的數據源（供網路從其中提取出絕大部分無法壓縮也難以描述的參數值），同時記錄下使用的網路架構（卷積網路 / 殘差網路）、損失函數（L2 / 交叉熵）、學習規則（SGD / Adam）、優化手段（蒙特卡洛樹搜索）。後面的這四點可以簡單且嚴謹地表達為人類能夠理解的方程，而且可以指導我們開發未來更多的人工神經網路系統。

在統計物理中，一團氣體可以由溫度、壓強等不多的幾個變數描述，然後在這幾個變數基礎之上繼續進行的預測和控制也都可以準確地進行。神經科學研究中也傾向於相信人類大腦中也存在這樣的描述方式。但氣體分子互相都是一樣的、可交換的、只有短期記憶，而人類大腦中的細胞是各自具有獨特性、具有長期記憶能力的（這也從另一個角度印證了上文提到的「難以被壓縮」）。所以，神經科學研究中期待的這種描述方法很可能起到了誤導的作用。

總結

看起來可行的事情到了最後才證明此路不通，這樣的故事在歷史上反覆重演。也許以後我們會發現人工神經網路便於實驗所以更容易理解，也有可能我們首先證明了人類大腦的強模態性、近似線性和高雜訊特性；也有可能我們最終都無法完全理解任一種網路。

目前熱門的研究大腦的方法已經可以單獨研究其中的先天成分；從行為學的角度講，我們也可以提問學習是如何改變了行動的。當我們研究表徵的時候，我們可以研究是哪個損失函數、哪個網路架構、哪個學習特性可能導致了檢測到的表徵的變化。當我們嘗試研究大腦如何運行而遇到困難的時候，我們完全可以研究大腦是如何學習運行的。

閱讀原論文見：https://arxiv.org/abs/1907.06374

PS：谷歌大腦研究員 Adam Gaier 和 David Ha 近期也對神經網路的結構和可解釋性做出了新的探索，他們嘗試避開難以解釋的連接權重，直接創建具有可理解的結構的網路。這也是非常有趣的研究思路，詳細介紹請見《神經網路的氣宗與劍宗之爭：先驗強大的網路甚至不需要訓練》。

雷鋒網 AI 科技評論報道。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 雷鋒網 的精彩文章:

※曾奪世界破解大師的360後悔了，老周：出去秀便宜了美國人
※WiFi聯盟、藍牙聯盟、JEDEC協會已恢復華為成員資格；蘋果可摺疊屏幕專利獲批，最早或將於後年推出可摺疊手機｜雷鋒早報

TAG:雷鋒網 |