Deepmind 「預測地圖」論文背後：神經科學或將助力深度學習迎來新突破

最新 10-04

對人類神經網路的理解越來越在左右人工智慧的未來研究，連Deepmind也不例外。

2017年10月2日，《NATURE NEUROSCIENCE》發表了Deepmind的一篇《The hippocampus as a predictive map》的論文。這篇論文中，Deepmind通過對主管人類長期記憶行為的「海馬體」（hippocampus）神經元活動的研究，進一步提出了可以轉化為神經網路架構的「預測圖」理論。

在博客中，Deepmind這樣寫到：

「傳統觀點認為海馬體只表示動物的現狀，尤其在執行走迷宮之類的空間任務中。這種觀點在發現嚙齒動物的海馬體中的「位置細胞」後被廣泛傳播，當動物處於特定位置時，它們會選擇性地放電。雖然這個理論解釋了許多神經生理學發現，但並不完全解釋為什麼海馬體也參與其他功能，包括記憶，關係推理和決策等。

我們認為，海馬體用它們預測到的未來狀態來展示代表每一種情況。例如，如果你要下班回家（你當前的狀態），你的海馬體可能會預測你很可能很快會通勤回家，到學校接孩子，或者更長遠一點——到家了。海馬體預測這些後期狀態來表現出當前的狀態，從而傳達了對未來事件的摘要表達，也就是我們正式說的「後續表徵」（Sucessor Representation）。我們認為，這種具體形式的預測圖可以讓大腦在獎勵不斷變化的環境中快速適應，而無需運行代價昂貴的未來模擬。

這一理論啟發我們在新演算法中結合了基於模型的演算法的靈活性和無模型演算法中的高效性，由於計算只是簡單的加權相加，因此該演算法的計算效率與無模型演算法相當，同時，通過分離獎勵期望與期望狀態（預測地圖），該演算法可以通過簡單的更新獎勵期望值並保持狀態期望值不變，從而快速適應獎勵變化。」

（老鼠在探索方形房間時記錄下來的海馬體每個位置細胞的活動及放電率的變化）

這並不是Deepmind的第一篇神經科學用於人工智慧的論文，在此之前Deepmind就表過至少兩篇創始人Hassabis為作者的神經科學論文（參見雷鋒網之前文章：《DeepMind眼中的神經科學研究：人工智慧進步的另一個重要支點》），這篇文章作者中雖然不包括Hassabis，但相對於前兩篇論文更加具體，對未來的研究也更具有指導意義。

神經網路發展史

人工智慧的發展與神經系統有著千絲萬縷的聯繫。在1943年，Warren McCulloch和Walter Pitts的《神經活動內在想法的邏輯演算》第一次提出了如何讓人造神經元網路實現邏輯功能，這也奠定了神經網路最早的數學基礎和開啟了人們模擬人腦神經系統開發人工智慧（雖然當時還沒有這個詞）的早期嘗試。

模仿人類神經系統的問題是：人類大腦神經系統實在太複雜了。在人類大腦神經系統中包含10^11（10的11次方）的神經元，即便現在也難以模擬。在1958年，Frank Rosenblatt通過解剖大鼠的大腦發布了一個模仿神經元的感知機，當時有研究者認為，只要神經元足夠多、網路連接足夠複雜，感知機就至少可以模擬部分人類智力，但在1969年，Marvin Minsky和Seymour Papert證明了感知機只能解決線性問題，還揭露了關於多層感知器的缺陷，這使得人工神經網路研究在人工智慧領域很快就陷入了低谷，被基於規則和邏輯推理的專家系統所取代。

1974年，一位叫Geffory Hinton的年輕研究者發現，把多個感知機連接成一個分層的網路，即可以解決Minsky的問題。這帶動了80年代連接主義的興起，這個階段的連接理論最初被稱為分散式並行處理PDP (parallel distributed processing)，他們以人工神經網路為工具方法，引領著神經科學和人工智慧領域的發展，與行為學派和符號學派三足鼎立。

隨之而來的問題是，如果要模擬人類大腦數量如此龐大的神經元，可能需要對幾百甚至上千個參數進行調節，如何對這樣複雜的網路進行訓練呢？Hinton等人的發現是，通過反向傳播演算法可以解決多層網路的訓練問題。這一演算法是用來訓練人工神經網路的常見方法，該方法計算對網路中所有權重計算損失函數的梯度。這個梯度會反饋給最優化方法，用來更新權值以最小化損失函數。

神經網路的現代分類器的各個方面也受到了我們所了解的大腦的視覺系統的啟發。這方面研究的先驅包括Geoffrey Hinton、Yann LeCun、Yoshua Bengio等人，1998年，Yann LeCun提出了卷積神經網路（CNN），2006年，Hinton提出了深度學習的概念並在其經典論文《A fast learning alforithm for deep belief nets》中提出了深度信念網路，帶來了深度學習直到今天的黃金時代；2009年，Yoshua Bengio提出了深度學習的常用模型堆疊自動編碼器（Stacked Auto-Encoder,SAE），基於神經網路的研究得到進一步發揚光大。

然而人工智慧專家基於神經系統的研究和思考並沒有停止。如腦科學的研究結果表明，大腦中神經元的信號處理機制和連接學習方式是不同的，尤其是大腦的無意識感知和自我意識功能並不需要有監督的學習，在大腦神經系統中，非監督學習和自主學習同樣佔有重要的地位，相應地，對於無監督學習和遷移學習的研究也成為人工智慧的熱點之一。

而隨著深度學習和神經科學的發展，之前對深度學習的一些基礎理論也在面臨著更新。例如在深度學習領域，神經元是最底層的單元；而在神經科學領域，神經元並不是最底層的單位。目前的深度神經網路主要是三種結構，即 DNN（全連接的）、CNN（卷積）和 RNN（循環），而目前的研究表明，人類神經網路可能比較類似上述三種結構的組合，層內更像DNN，層間和CNN 很類似，在時間上展開就是RNN。這種結構上的差異也導致了深度學習研究的複雜性。

來源： Neocortical layer 6, a review &

知乎

深度學習正在面臨一個拐點——一方面，基於我們最初基於人腦結構認識的理論研究已經到了一個平台期，而另一方面，如Hinton等最尖端的深度學習專家也在藉助神經科學的最新發現，對之前對提出的理論進行反思，這也是近日Hinton就提出「深度學習需要推倒重來」，並表示可能要徹底放棄反向傳播的由來（參見雷鋒網文章：《Geffory Hinton：深度學習進入平台期？不，深度學習需要的是「推倒重來」》）。

在與OReilly的一次訪談中，Hinton曾經承認我們對人類神經系統的了解並不足夠。「我們真不知道為什麼神經元要發脈衝。一個理論是它們想要雜訊，以便正則化，因為我們的參數超過數據量。」Hinton在訪談中說道。「這個理論已經出現有50多年了，但沒人知道它是否正確。」

神經科學和對人腦的模仿在人工智慧中曾經起著重要的作用，而對於模仿人類大腦，是否能製造出最強大的人工智慧，在不同人工智慧學家眼裡可能會有不同的答案。一個時常被提起的例子是，我們之所以能造出飛機，是因為空氣動力學的發展而並非模仿鳥類飛行的動作，但雷鋒網認為，這種從仿生到理論的循環可能是一種螺旋式的上升過程，新的神經系統發現和研究可能會推翻之前的人工智慧經典理論，並隨之模擬出新的人工智慧網路和產生新的理論，從而推動人工智慧的研究突破瓶頸得到進一步發展。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 雷鋒網 的精彩文章:

※日本研發打乒乓球的機器人，挑戰奧運銅牌得主；2017年諾貝爾生理學或醫學獎揭曉
※日本研發打乒乓球的機器人，挑戰奧運銅牌得主；2017年諾貝爾生理學或醫學獎揭曉 | 雷鋒早報
※Deepmind "預測地圖"論文背後：神經科學或將助力深度學習迎來新突破
※Theano停止更新之後，開發者們怎麼說？
※採用三星屏幕、三星處理器！這款國產VR一體機，你給幾分？

TAG:雷鋒網 |