教機器遺忘或許比學習更重要：讓AI健忘的三種方式

最新 06-22

大數據文摘出品

編譯：臻臻、Shan LIU、龍牧雪

大部分人不會喜歡遺忘的感覺。

回到家順手把鑰匙丟在一個角落就再也想不起來放在哪兒了，街角偶遇一個同事卻怎麼拍腦袋也叫不出他的名字……我們害怕遺忘，討厭遺忘。

然而，生而為人，健忘其實是種關鍵能力。

對於人類而言，遺忘絕不僅僅是「想不起來」，而是一個幫助大腦吸收新信息並鍛煉有效決策的積極過程。

現在，數據科學家們正在嘗試應用神經科學原理來改進機器學習，並且堅信人類大腦能夠解鎖圖靈完備的人工智慧。

人腦為什麼需要遺忘

我們的大腦被普遍認作為信息過濾器。先放入一大堆亂七八糟的數據，篩選有用的信息，然後清理任何不相關的細節，用以陳述故事或作出決策。清除沒用的細節是為了給新數據騰出儲存空間，類似在計算機上運行磁碟清理。

用神經生物學的術語來說，遺忘發生於神經元之間的突觸連接減弱或者消失之時，同時隨著新神經元的發育，他們又會重新連接海馬迴路，覆蓋現有記憶。

對於人類來說，遺忘有兩個好處：

通過減少過時信息對我們決策的影響來增強靈活性

防止過度擬合過去的特定事件和促進概括能力

為了有效地適應環境，人類需要有策略性遺忘的能力。

計算機也需要遺忘？

計算機的遺忘與人類的不同，這是人工智慧面臨的一大挑戰。深度神經網路在完成機器學習任務方面非常成功，但它們的遺忘方式也與我們不一樣。

舉一個簡單的例子，如果你教一個講英語的孩子學習西班牙語，這個孩子會在學習過程中應用英語學習的技巧，比如名詞、動詞動態、句子建立方法等。同時他會忘記那些不相關的部分，比如口音、嘟囔、語調等。如此，這個孩子可以在策略性遺忘的同時逐漸學習和建立新的思維方式。

相比之下，如果你已經訓練了一個神經網路去學習英語，那麼它的參數則已經適應了英語問題的解法。此時你要教它學習西班牙語，它就會生成新的適應系統並覆蓋以前為學習英語所獲得的知識，刪除所有內容並重新開始。這被稱作「災難性遺忘」，並被認為是「神經網路的一個根本局限」。

雖然這還是一個新領域，最近科學家們已經在探索克服這種限制的潛在理論，並取得了長足的進步。

3個方法教AI學會遺忘

長短期記憶網路（LSTM）

LSTM是一種循環神經網路，它使用特定的學習機制來決定在任意一個節點哪些信息需要記住，哪些需要更新，哪些需要關注。

LSTM工作機制如何？一個簡單的解釋是拿電影來做類比：假設一個計算機正在嘗試通過分析先前的場景來預測電影中接下來會發生的事。一個場景是一個女人拿著一把刀，計算機會猜測她是一個廚師還是兇手呢？另一個場景中，一個女人和一個男人在金色拱門下吃壽司：計算機會猜他們是在日本還是麥當勞呢？或者其實他們是在聖路易斯？

大拱門是美國聖路易斯的標誌性建築

LSTM通過以下3步提升神經網路：

遺忘/記憶

「當場景結束，模型應該忘記當前場景的位置，所處時間，並重置任何特定場景的信息；然而，如果場景中的一個角色死亡了，機器則應該繼續記住他不再活著的事實。因此，我們希望機器能學習掌握一個相互獨立的遺忘/記憶機制，這樣當新信息進來時，它知道什麼觀念該保留什麼該丟棄。」

——Edwin Chen

保存

當模型看到一張新圖像，它需要了解這個圖像是否有什麼信息值得被使用和保存。如果一個女人在某個場景中路過廣告牌，機器應該記住這個廣告牌還是將其視作雜訊數據忽略掉呢？

劃重點

我們可能需要記住電影中的這個女人是個母親這一信息點，因為我們稍後會看見她的孩子們，但是這個信息在她不出現的場景里可能並不重要，所以在那些場景里我們不需要重點關注。同樣，並非所有存儲在神經網路的長期記憶中的內容都是立即相關的，所以LSTM所做的就是在安全保存所有信息備用的同時，幫助決定哪一部分在哪一時刻被重點關注。

彈性權重固化（EWC）

EWC是由谷歌旗下DeepMind的研究人員於2017年3月創建的一種演算法，旨在模擬一種被稱為突觸整合的神經科學過程。在突觸整合過程中，我們的大腦評估一項任務，計算許多用於執行任務的神經元的重要性，同時權衡哪些神經元對正確執行任務更為重要。

這些關鍵的神經元被編譯為重要的，並且在隨後的任務中相對不可能被覆蓋。同樣，在神經網路中，多個連接（如神經元）被用於執行任務。EWC將一些連接編譯為至關重要的，從而保護他們不被覆蓋/遺忘。

在下面的圖表中，你可以看到研究人員將EWC應用於Atari遊戲時發生了什麼。藍線表示標準的深度學習過程，紅線及棕線則由EWC提供以顯示改進後的結果：

瓶頸理論

瓶頸理論由耶路撒冷希伯來大學的計算機科學家和神經科學家Naftali Tishby在2017年秋提出。這個構想是，網路擺脫了嘈雜的無關細節的輸入數據，就好比用瓶頸將信息擠壓，只保留與基本概念最相關的特徵。

Tishby解釋說，神經網路經歷了兩個階段的學習——擬合與壓縮。在擬合過程中，網路標記其訓練數據；而在更漫長的壓縮過程中，它「丟棄關於數據的信息，只跟蹤最強大的特徵」，也即是那些最能幫助它泛化的特徵。通過這種方式，壓縮成為策略性遺忘的一種方式，掌控這一瓶頸也可能成為AI研究人員用於構建未來更強大神經網路的新目標和體系的一個工具。

正如Tishby所說：「遺忘才是學習過程中最重要的一部分。」

人類大腦和遺忘的過程中，有可能藏著通往強AI的密碼。但科學家們仍在上下求索。

相關報道：

https://hackernoon.com/machine-un-learning-why-forgetting-might-be-the-key-to-ai-406445177a80

【今日機器學習概念】

Have a Great Definition