當前位置:
首頁 > 新聞 > 「DeepMin哈薩比斯長文」偉大的AI離不開神經科學:強化學習-Attention-連續學習

「DeepMin哈薩比斯長文」偉大的AI離不開神經科學:強化學習-Attention-連續學習

「DeepMin哈薩比斯長文」偉大的AI離不開神經科學:強化學習-Attention-連續學習

新智元編譯1

「DeepMin哈薩比斯長文」偉大的AI離不開神經科學:強化學習-Attention-連續學習

「DeepMin哈薩比斯長文」偉大的AI離不開神經科學:強化學習-Attention-連續學習

論文:神經科學啟發的人工智慧

作者:Demis Hassabis;Dharshan Kumaran;Christopher Summerfield,Matthew Botvinick

摘要:歷史上,神經科學和人工智慧(AI)兩個領域長期以來一直都存在交叉。但是,近年來,這兩個領域的交流與合作似乎變得越來越少。本文中,我們將論證:對生物大腦的更好理解,將在智能機器的建造上扮演重要角色。我們對人工智慧和神經科學兩個領域在歷史上的互通進行了研究,發現近年來AI的進步確實是受到了人類和其他動物大腦中的神經計算研究的啟發。結論部分,我們提出了幾個大家共同認可的主題,它們可能會成為未來這兩個領域發展的關鍵。

論文全文地址:https://pan.baidu.com/s/1eRRvjxS

(文/哈薩比斯等)近年來,神經科學和人工智慧的相關領域獲得了快速的進步。計算機時代大幕初起之時,研究AI不可避免地要與神經科學和心理學綁定在一起,許多人工智慧的開創者都是橫跨這些領域的,AI與這些學科的合作帶來了較高的產出。

但是,最近,類似的交互變得越來越少見,因為兩個學科的複雜性都大大地增加了,同時學科邊界變得越來越固化。在下面的文章中,我們將證明,在生成能加速和指導AI研究的概念這件事上,神經科學是一個關鍵,並且其重要性從來沒有間斷過。

我們從這樣一個假設出發:建立具備人類水平的通用AI(或者具有AI能力的智能系統)是一個令人望而卻步的任務,因為可能的解決方案的搜索空間過於巨大,並且可能只是非常稀疏的分布。我們認為,這進而強調了詳細研究人類大腦內部工作原理的有用性——因為人腦是目前唯一能證明這樣的智能存在的依據。研究動物的認知和其神經部署也同樣扮演著關鍵的角色,因為它能提供一個窗口,讓我們得以看到更高級別的通用智能的重要層面。

緊密地圍繞生物智能的發展來進行AI開發有著雙重好處:首先,以神經科學為新形式的演算法和架構提供了大量的啟發,相反,在傳統的方法中,基於數學或邏輯的方法是佔主導地位的。這些演算法獨立於基於數學或邏輯的方法和創意,但是又可以作為補充。例如,如果生物計算的一個的新方面被認為對支持認知功能至關重要,那麼我們就可以認為它是納入人工系統的絕佳選擇。其次,神經科學可以提供對已有AI技術的驗證。如果一個已知的演算法隨後被發現在就是大腦中所實現的那樣,那麼,這就是一個非常強大的證據,證明這一演算法可以作為通用人工智慧系統的一個內部的組件。

這一線索對於長期的研究項目非常重要,特別是在需要決定如何分配資源才能獲得最多的產出的時候。例如,如果一個演算法沒有達到要求或預期的性能水平,但是我們觀察到它是大腦功能的核心,那麼我們可以認為,加倍工程投入,以讓其在人工系統中起作用,這一努力是值得的。

當然,從一個切合實際的角度來看,打造一個人工智慧系統,我們不需要完全地、強制地遵守生物學上的合理性。從工程的角度來看,最終,重要的是弄清楚到底什麼在起作用。那麼,從我們的目的出發,生物合理性是一個指導,而不是嚴格的要求。我們感興趣的是對腦的系統神經科學層面的理解,即演算法,架構,功能和它所使用的表示。這大致對應於Marr著名的「了解任何複雜生物系統必須知道的三個層次」分析中的前兩個層次:系統的目標(計算水平)和實現這個目標(演算法級別)的過程和計算。

這種機制物理上究竟如何在生物基質中實現,在這裡並不重要。請注意,我們對神經科學啟發AI的方法與其他計劃,如藍腦項目(Blue Brain Project)或神經計算系統領域不同,這些方法試圖通過密切模仿或直接對神經迴路的細節進行逆向工程 。通過專註於計算和演算法水平,我們對大腦功能的一般機制有了一些可以遷移的洞察,同時留下了空間,以適應在計算機(硅基)上構建智能機器時出現的獨特機會和挑戰。

以下內容通過論述AI與神經科學的過去,現在和未來,來解開這些要點。

在開始之前,我們做一個澄清:在本文中,我們使用的術語包括「神經科學」和「AI」,我們會使用這些術語涉及的最廣泛的意義。當我們提到神經科學時,我們的意思是包括與大腦研究有關的所有領域,它產生的行為,以及它的機制,包括認知神經科學,系統神經科學和心理學。當我們說AI時,我們指的是機器學習,統計學和所有旨在構建智能機器的AI研究。

一開始,我們會討論兩個當下AI研究最尖端的領域的起源——深度學習和強化學習,這兩個領域的根基都從神經科學獲得啟發。隨後,我們會介紹當下AI研究領域的最新進展,列舉了一些案例,這些例子中獲得的啟發(一些並沒有明確的引用說明)都來自己神經科學中的概念和發現。在這一部分,我們會特彆強調一些例子,在這些例子中,我們將深度學習和其他的機器學習方法結合在一起,例如強化學習、蒙特卡洛樹搜索,或者是一些包含了外部內容可讀取的存儲。接下來,我們會研究神經科學對未來AI研究的潛在影響。雖然我們的主要著眼點在於神經科學將為AI帶來哪些好處,但是在最後一部分,我們會簡單地介紹,AI 可能會給神經科學帶來哪些好處,以及這兩個領域之間,可以有哪些協同的互動。

過去:從平行分布式處理(PDP)到深度學習

正如最近許多綜述裡面說提到的那樣,在過去的幾年間,由於神經網路,或者「深度學習」方法的飛速發展,AI 已經發生了一場變革。正如「神經網路」一詞所指,這些AI方法的起源都直接來自神經科學。在20世紀40年代,神經計算的研究以建設人工的神經網路作為開端,這些神經網路能計算邏輯函數。不久之後,有人提出了另外的一些機制,認為神經網路中的神經元可能可以逐步地從監督式的回饋或者非監督方法中有效的編碼環境統計下進行學習。這些機制打開了人工神經網路研究的另一扇大門,並且提供了當代對深度學習進行研究的基礎。在這些開創性的工作誕生後不久,方向傳播演算法開始出現,他使得「學習」這一過程能夠在多層的神經網路中發生。重要的是,這一方法在理解智能,包括AI上帶來的啟發,首先被一群神經科學和認知科學家意識到,他們當時的研究屬於平行分布式處理(PDP)。

當時,大多數的AI研究都集中在基於序列計算建立邏輯處理系統,這一概念部分是受到這樣一種思路的啟發——人類的智能包含了對符號表徵的處理。但是,在有一些領域,越來越多的人意識到,純粹的符號方法可能過於脆弱,並且在解決人類習以為常的現實問題時,可能不夠靈活。取而代之的是,關於大腦基礎知識的不斷增加,似乎指出了一個非常不一樣的方向,強調動態和高度平行信息處理的重要性。基於此,PDP興起提出了一個思路:人類的認知和行為來自動態的、分布式交互,並且基於神經網路內單一類神經元的處理單元,通過學習進程來對交互進行調整,他們通過調整參數,以將誤差最小化,將反饋最大化。

雖然PDP方法最初只是被應用於一些相對非常小的問題上,但是,它在解釋大量的人類行為上獲得了令人驚訝的成功。沿著這條路徑,PDP研究引入了大量的多樣化的概念,對AI的發展有著深刻的影響。例如,當下的機器翻譯研究證明了詞和句子都能以分布式的方法進行表徵(比如,Vectors),這一方法早期PDP啟發的句子模型中其實已經被引入。基於PDP興起激發的對生物計算的興趣,當下的卷積神經網路(CNN)也加入了幾個神經計算的權威印記,其中包括非線性轉換,多樣的正則化和基於池化輸入的最大化。

這些操作直接來自哺乳動物視覺皮層的單細胞記錄,揭示了如何將視覺輸入過濾並彙集在區域V1中的簡單和複雜的細胞中。此外,目前的網路架構複製了哺乳動物皮質系統的分層結構,其中收斂和分歧的信息在連續的嵌套處理層中流動,這遵循早期神經網路視覺處理模型的先進思想。在生物和人造系統中,連續的非線性計算將原始視覺輸入轉換成越來越複雜的特徵集,允許在姿態,光線或尺寸等改變的情況下,正確地識別對象。

隨著深度學習領域從PDP研究發展成為AI內部的核心領域,它繼續受到新的概念的推動,比如深度信念網路由人類語言研究啟發的大型數據集的引入。在此期間,它繼續從神經科學中得到重要概念啟發。例如,生物學考慮利用成功的正則化方案,支持訓練數據之外的泛化。這樣的方案,其中只有一部分單元參與給定的訓練樣本(「dropout」)的處理,這是由從生物系統中常見的神經元帶來的類Poisson統計的隨機性啟發的。在各個地方,神經科學為架構和演算法的範圍提供了初步指導,從而引導AI成功應用神經網路。

強化學習

除了在深度學習發展中的重要作用之外,神經科學還有助於建立當代人工智慧的第二支柱,即推動了強化學習(RL)的出現。 RL方法解決了如何通過將環境中的狀態映射到行動來最大化未來獎勵的問題,並且是AI研究中使用最廣泛的工具之一。雖然並沒有得到AI研究人員的廣泛承認,但RL方法最初是通過對動物學習的研究啟發的。

特別地,時間差(TD)方法的發展是許多RL模型的關鍵組成部分,與實驗環境中動物行為的研究密不可分。 TD方法是一個實時的模型,能從不同的連續性預測中進行學習,而不必等到實際的回饋返回。特別相關的是一種稱為二級條件的效應,其中,效果的好壞在一個條件刺激與另一個條件刺激的結合中得到評估,而不是直接通過無條件刺激的結合來進行。TD 學習為二級條件提供了一個自然的解釋,實際上已經解釋了神經科學的更廣泛的發現,正如我們在下面討論的。

在這裡,如深度學習一樣,最初受神經科學觀察所啟發的研究導致了進一步的發展,強化了AI研究的方向。基於神經科學的知識,TD方法和相關技術已經為AI的最新進展帶來了核心技術:涉及機器人控制到西洋雙陸棋專家和圍棋 。

現在:注意力、情景記憶、工作記憶、連續學習

閱讀當代 AI 文獻讓人更加深刻地認識到,像早期那樣與神經科學的接觸已經減弱。然而,如果挖開表面看深層,可以發現許多 AI 最近發展受神經科學發現啟發和指導的案例。在這裡,我們來看 4 個具體的例子。

注意力(Attention)

大腦不是在一個統一和未分化的神經網路中實現全局優化原理來學習的(Marblestone等,2016)。相反,生物的大腦是模塊化的,具有獨特但相互作用的子系統,支持記憶、語言和認知控制等關鍵功能(Anderson et al.,2004; Shallice,1988)。這種來自神經科學的洞察通常以不言而喻的方式進入當前 AI 的許多領域。

一個鮮明的例子是最近 AI 在注意力(Attention)方面的研究。直到最近,大多數 CNN 模型都直接在整個圖像或視頻的幀上工作,在處理的最早階段對所有的圖像像素給予的優先權都是平等的。靈長類視覺系統工作不是這樣的。靈長類的視覺系統不會並行處理所有輸入,視覺注意力在地理位置和對象之間戰略性地轉移,在一系列區域的處理資源和表示定位點(representational coordinates)上進行聚焦(Koch 和 Ullman,1985; Moore和Zirnsak,2017; Posner 和 Petersen,1990)。已經有具體的神經計算模型證明這種方法通過優先排序和區分任何給定時刻相關的信息(Olshausen等,1993; Salinas和Abbott,1997)有利於動物的行為。因此,注意力機制已經成為 AI 架構的靈感來源,在這些 AI 架構中,系統會在每個步驟都「看一眼」輸入的圖像,更新內部狀態表示,然後選擇下一個採樣位置(Larochelle和Hinton,2010 ; Mnih等人,2014)(圖1A)。現在有網路能夠使用這種選擇性的注意力機制來忽略一個不相關的對象,在有噪音的情況下在很有難度的物體分類任務中表現良好(Mnih等,2014)。此外,注意力機制使計算成本(例如網路參數的數量)能根據輸入圖像的大小進行有利地縮放。後來,這一方法的擴展在多對象識別任務中表現出了令人印象深刻的性能,在精確度和計算效率方面均優於常規 CNN(處理整個圖像)(Ba et al。,2015),還提升了圖說生成任務(Xu et al.,2015)的性能。

雖然注意力通常被認為是感知的定向機制,但它的「聚光點」可以投向內部,聚焦於內存。這個想法是最近神經科學研究的重點(Summerfield等,2006),也啟發了 AI 相關的工作。在一些架構中,注意力機制已被用於選擇從網路的內部存儲器讀出的信息。這有助於最近在機器翻譯方面取得成功(Bahdanau等,2014),也帶來了記憶和推理任務的重大進展(Graves等,2016)。這些架構為內容可定址檢索提供了新穎的實現方法,而後者本身就是最初經由神經科學引入 AI 的概念(Hopfield,1982)。

注意力機制被證明十分有用的另一個領域是生成模型,也就是那些學習合成或「想像」圖像(或其他類型的數據)的系統,這些系統能夠模擬訓練中見到的樣本結構。深度生成模型(即,多層神經網路構成的生成模型)最近在通過引入注意力機制來捕獲真實視覺場景的形式和結構,從而合成輸出方面取得了很大的成功(Hong et al.,2015; Reed et al.,2016)。例如,在一個叫做 DRAW 的生成模型中,注意力讓系統能夠逐步創建一幅圖像,一次處理「心理畫布」的一部分(Gregor等,2015)。

情景記憶

神經科學的一大核心主題是,智能行為依賴於多種記憶系統(Tulving,1985)。這不僅包括基於強化的機制,還有基於實例的機制(Gallistel和King,2009)。後一種形式的記憶也被稱為情景記憶(Tulving,2002),通常與內側顳葉的迴路相關,主要是海馬體(Squire et al.,2004)。

AI 最近的一個突破是強化學習與深度學習的成功整合(Mnih等人,2015; Silver等,2016)。例如,深度 Q 網路(DQN)通過學習將圖像像素的矢量轉換為用於選擇動作(例如操縱桿移動)的策略,在 Atari 2600 視頻遊戲中展現出專家級的水平。DQN 的一個關鍵因素是「體驗重播」(experience replay),其中網路以基於實例的方式存儲訓練數據的一部分,然後「離線重播」,從過去新發現的成功或失敗中學習。體驗重播對於最大限度地提高數據效率至關重要,避免了從連續相關經驗中學習的不穩定的影響,使網路即使在複雜、高度結構化的順序環境(如視頻遊戲)中,也能學習可行的價值函數。

重要的是,體驗重播直接受理論的啟發,這些理論旨在了解哺乳動物大腦中的多個記憶系統如何相互作用。根據目前一個十分著名的觀點,動物的學習行為是由海馬和新皮質中的並行或「互補」學習系統為基礎(Kumaran等,2016; McClelland等,1995)。海馬在單獨一次接觸(one-shot learning)後對新聞信息進行編碼,但是這些信息在睡眠或休息期間會逐漸整合到大腦皮層。這種鞏固伴隨著海馬和新皮層的重播,被視為伴隨學習事件的神經活動的結構化模式(O"Neill等人,2010; Skaggs和McNaughton,1996)(圖1B)。這個理論最初是作為解決方案被提出的,用於解決傳統神經網路中一個著名問題,即依次接觸相關聯的任務會使策略之間相互干擾,從而導致災難性遺忘。因此,DQN 中的重播緩衝區可以被視為一個非常原始的海馬,使計算機能夠進行輔助學習,就像在生物大腦里發生的那樣。後續工作表明,當具有高度獎勵價值的事件重播被優先考慮時,DQN 中體驗重播的好處得到了增長(Schaul等,2015),正如海馬重播似乎更偏好能夠帶來高水平強化的事件一樣(Singer and Frank,2009)。存儲在內存緩衝區中的體驗不僅可以用於逐漸將深度網路的參數調整為最佳策略(就像在 DQN 中那樣),還可以根據個人經驗支持快速的行為變化。事實上,理論神經科學已經證明了情景控制的潛在好處,在生物大腦的海馬中,獎勵動作序列能夠在內部從快速可更新的記憶庫中被重新激活(Gershman and Daw,2017)。此外,當獲得的環境經驗有限時,情景控制特別優於其他的學習機制(Lengyel和Dayan,2007)。

最近的 AI 研究已經吸取了這些想法來克服深度強化學習網路學習慢的特性,開發了實現情景控制的架構(Blundell等,2016)。這些網路存儲特定的體驗(例如,與特定 Atari 遊戲屏幕相關聯的動作和獎勵結果),並且基於當前情況輸入和存儲在存儲器中的先前事件之間的相似性來選擇新的動作,考慮與之前的事件相關聯的獎勵(圖1B)。從最初基於神經科學的工作(Lengyel和Dayan,2007)可以看出,使用情景控制的人造藥物在深度強化學習網路中展現出了驚人的性能,特別是在學習早期(Blundell et al.,2016)。此外,這些網路能夠在嚴重依賴於單次學習的任務上取得成功,而常規的深度架構則會失敗。

此外,類似情景的記憶系統更普遍地表現出了潛力,在只有幾個樣本的情況下實現快速學習新的概念(Vinyals等,2016)。在將來,利用快速情景記憶和更傳統的漸進式學習的優勢,將這兩個組件融入到具有哺乳動物大腦輔助學習系統的框架中將會非常有趣。我們稍後在「想像和規劃」一節中更詳細地討論這些觀點。

工作記憶

人類智力的特徵在於能夠維持和操縱一個活躍存儲空間內的信息(被稱為工作記憶),這被認為是在前額葉皮質和相互關聯的區域內實例化的(Goldman-Rakic,1990)。經典的認知理論表明,這種功能取決於中央控制器(「管理者」)和單獨的特定領域的內存緩衝區(例如,視覺空間繪圖板)之間的交互(Baddeley,2012)。AI 研究從這些模型中獲得靈感,通過建立一些隨著時間的推移明確維護信息的架構。歷史上,這方面的舉措最初是引入顯示了吸引力動態(attractor dynamics)和豐富的順序行為的循環神經網路架構,這都是直接受神經科學的啟發而來(Elman,1990; Hopfield和Tank,1986; Jordan,1997)。這項工作成為後來進行更詳細的人工工作記憶建模(Botvinick和Plaut,2006; Durstewitz等,2000)的重中之重,也為進一步的技術創新奠定了基礎,這些技術創新在最近的 AI 研究中已被證明至關重要。特別是,可以看到這些早期的、受神經科學啟發而來的網路中的學習動態與長短時記憶(LSTM)網路中的學習動態之間有著極大的相似性(close parallel),而 LSTM 後來在很多領域都實現了最先進的性能。LTSM 將信息門控成固定活動狀態並保持到需要適當的輸出(Hochreiter和Schmid-huber,1997)。這種類型的網路的變體在具有挑戰性的領域中顯示出一些引人注目的行為,例如學習在計算機代碼訓練後對變數的潛在狀態進行查詢(Zaremba and Sutskever,2014)。

在普通 LSTM 網路中,序列控制和存儲器的功能密切相關。這與人類工作記憶的經典模型形成對照。這種基於神經科學的模型最近啟發了更複雜的 AI 架構設計,其中控制和存儲由不同的模塊支持(Graves等人,2014年,2016年; Weston等人,2014)。例如,差分神經計算機(DNC)包含從外部存儲器矩陣進行讀寫的神經網路控制器(Graves等,2016)。通過連接外部存儲器,網路控制器能從頭開始學習(即通過端到端優化),執行廣泛的複雜內存和推理任務,例如通過圖形結構找到最短路徑,或在河內塔任務的變體中操縱積木(圖1C)。這些類型的問題以前被認為完全依賴於符號處理和變數綁定,是 LSTM 不能夠完成的。

值得注意的是,雖然我們在工作記憶這裡介紹了 LSTM 和 DNC,但兩者都有可能在幾千個訓練周期內保持信息,因此也可能適用於長期的記憶形式,例如保留和了解一本書的內容。

「DeepMin哈薩比斯長文」偉大的AI離不開神經科學:強化學習-Attention-連續學習

圖1

持續學習

智能體必須能夠學習和記住多個時間尺度上遇到的許多不同的任務。因此,生物和人造體必須具有連續學習的能力,也就是在掌握新任務的同時,不忘記如何執行先前的任務(Thrun和Mitchell,1995)。雖然動物看起來比較擅長持續學習,但是神經網路有災難性遺忘的問題(French,1999; McClelland et al。,1995)。災難性遺忘就是為了執行兩個連續任務中的第二個任務時,網路參數向最佳狀態轉移,會覆蓋它們執行第一個任務的配置。鑒於持續學習的重要性,神經網路持續學習仍然是人類發展的重大挑戰。

在神經科學中,先進的神經成像技術(例如,雙光子成像)現在能在學習期間將樹突棘的結構和功能進行動態可視化(in vivo visualization)(Nishiyama和Yasuda,2015)。這種方法可用於研究連續學習期間新皮質的可塑性(Cichon 和 Gan,2015; Hayashi-Takagi et al.,2015; Yang et al.,2009)。有新的證據表明,特定的機制可以保護以前任務的有關知識免受學習過程中的干擾。這些機制包括減少一部分被增強的突觸的可塑性(Cichon 和 Gan,2015; Yang et al.,2009 )(圖1D)。這些變化與保留幾個月內的知識有關,如果將它們「擦除」,那麼則會發生遺忘(Hayashi-Takagi等,2015)。理論模型表明,記憶可以通過突觸在不同程度的可塑性級聯狀態之間轉變(Fusi et al。,2005)(圖1D)得到保護。這些理論模型與實證見解與是一致的。

綜合上述發現後,科學家提出了一種「彈性」權重整合(EWC)(Kirkpatrick等,2017),將神經科學的這些發現用於解決深層網路中連續學習的挑戰。具體說,EWC 找出那些對先前任務很重要的網路權重的子集,將這些參數錨定,減輕它們的學習率,從而實現繼續學習(圖1D)。這樣,在不增加網路容量的情況下網路能夠學習多個任務,權重在具有相關結構的任務之間實現了有效共享。以這種方式,EWC 演算法讓深度強化學習網路支持大規模的持續學習。

未來:機器智能與人類智能之間的差距仍然需要大量的工作來彌合

AI領域近期的研究進步非常顯著。人工智慧系統現在已經在許多任務達到人類水平的表現,例如對象識別(Krizhevsky et al.,2012),以及在許多動態、對立的環境超過人類專家,例如 Atari 遊戲(Mnih et al.,2015),古老的圍棋遊戲(Silver et al., 2016),以及不完美信息博弈類遊戲,例如一對一德州撲克(Morav_c?"ket al.,2017)。機器能夠自主地產生合成的圖像,模擬人類的話語,其結果與真實的幾乎無法區分(Lake et al.,2015; van den Oord et al.,2016),以及翻譯多種語言(Wu et al.,2016), 模仿知名畫家的風格創作「神經藝術作品」(Gatys et al.,2015)。

但是,機器智能與人類智能之間的差距仍然需要大量的工作來彌合。為了縮小這一差距,我們認為來自神經科學的啟發將是不可或缺的。在神經科學中,腦成像和遺傳生物工程領域出現的新工具已經能夠提供有關神經迴路中發生的計算的詳細表示,這對於增加我們對哺乳動物腦功能的了解是革命性的(Deisseroth and Schnitzer,2013)。作為AI研究議程的路線圖和計算工具的來源,神經科學與AI的相關性在以下關鍵領域尤其突出。

直觀理解物理世界

最近的一些觀點強調人類智慧的關鍵部分在人類還是嬰兒時就已經發達,但在大多數AI系統中卻是缺失的(Gilmore et al.,2007; Gopnik & Schulz,2004; Lake et al .,2016)。這些能力包括與物理世界有關的核心概念,例如空間,數量和客體性,這些概念讓人類能夠形成綜合的心理模型,從而指導推理和預測(Battaglia et al.,2013; Spelke & Kinzler,2007)。

人工智慧研究已開始探索解決這一難題的方法。例如,研究人員已經開發出新的神經網路架構,通過將場景分解成單獨的對象及其關係,以類似人類的方式對場景進行解釋和推理(Battaglia et al., 2016; Chang et al., 2016; Eslami et al., 2016)(圖2A和2B)。在某些情況下,這種方法在一些有挑戰性的推理任務能夠得到人類水平的表現(Santoro et al .,2017)。

此外,深度強化學習已經被用於捕捉人類嬰孩通過交互實驗獲得對世界的常識認識的過程(Denil et al., 2016)。相關地,也已經開發出能夠從原始感官輸入構建豐富的對象模型的深度生成模型(Higgins et al., 2016)。這些效用首先在神經科學中被確定下來,例如減少冗餘(Barlow,1959),鼓勵出現獨立因素(例如形狀和位置)的分離表示(disentangled representation)(圖2C)。重要的是,由這種生成模型學習的潛在表徵顯示出綜合性質,支持靈活遷移用於新任務(Eslami et al., 2016; Higgins et al., 2016; Rezende et al., 2016a)。

高效學習

人類認知的特徵在於,人類能夠僅從少數的幾個例子快速了解新概念,利用先前的知識來進行歸納推理。為了突出這種人類能力對於AI的挑戰性,Lake和他的同事最近提出了一個「字元挑戰」(characters challenge)(Lake et al .,2016)。挑戰者需要在只觀察單個樣本後,觀察並區分它部首席的一些手寫字體。人類可以很好地執行這樣的任務,但是對於經典的AI系統來說是很困難的。

令人鼓舞的是,最近的AI演算法已經開始通過結構化概率模型(Lake et al .,2015)和基於上文提到的DRAW模型的深度生成模型(Rezende et al .,2016b)在字元挑戰等任務上取得了進展。儘管數據缺乏,並且需要從單一的示例概念生成新的示例(圖2D),這兩類系統都能夠推理出新的概念。

此外,最近的AI研究已經開發出「學習如何學習」(learn to learn)的網路,通過利用相關問題的先前經驗來獲取有關新任務的知識,以支持 one-shot 概念的學習(Santoro et al .,2016; Vinyals et al., 2016),以及加快RL任務的學習(Wang et al., 2016)。再次,這是建立在神經科學概念的基礎之上的:學習如何學習在動物的學習研究中首先被探索(Harlow,1949),後來在心理學的發展中得到研究(Adolph,2005; Kemp et al., 2010; Smith,1995)。

遷移學習

人類也擅長將在一個環境中獲得的廣義知識推廣到新的、以前沒有接觸過的領域(Barnett & Ceci,2002; Holyoak & Thagard,1997)。例如,人類在開車、使用筆記本電腦,或主持一個會議時,當遇到不熟悉的車輛、操作系統或社會情況時,通常都能夠有效地採取行動。

目前,開發能夠表現出很強的泛化(generalization)能力或遷移(transfer)能力的AI架構方面正在取得進展,例如通過基於綜合表示(Higgins et al., 2016;圖2C)對訓練分布之外的新形狀進行zero-shot推斷。其他研究表明,一類被稱為 progressive network 的架構可以利用一個視頻遊戲中獲得的知識,在另外一個視頻遊戲中獲得快速的學習,這有希望獲得人類技能特徵之一的「遠程轉移」(far transfer)(Rusu et al., 2016a)。progressive network也被成功用於將模擬環境中智能體的知識轉移給真正的機器人臂,大大減少了所需的訓練時間(Rusu et al .,2016b)。有趣的是,它所提出的架構與人類順序任務學習的成功計算模型有一些相似之處(Collins & Koechlin,2012; Donoso et al., 2014)。

在神經科學的前人研究中,遷移學習的一個標誌就是能夠有關聯地進行推理,AI研究人員也開始在構建解決這類問題的深度網路方面取得進展,例如解決視覺類比問題(Reed et al .,2015)。然而,更普遍的是,人類或其他動物如何實現這種高級別的遷移學習是未知的,並且在神經科學中仍然是一個相對未被探討的課題。在這方面的新進展可以提供重要的見解,以刺激人工智慧研究,實現終身學習的目標,我們鼓勵神經科學家更深入地研究這個問題。

在神經編碼(neural coding)層面上,這種抽象結構化知識的遷移可以依賴於對對象,個體或場景元素不變的概念表示的形成(Doumas et al., 2008)。然而,我們目前缺乏在哺乳動物大腦中存在這樣的代碼的直接證據。不過,最近的一個報告提出一種非常有趣的說法,認為在多中心型(map-like)的空間表示中被認為是重要的神經編碼(neural code),對於更一般領域的抽象推理可能是至關重要的(Constantinescu et al., 2016)。使用功能性神經造影技術(functional neuroimaging),研究人員提供了人類執行抽象分類任務時存在這樣的編碼的一些證據,支持了周期性解碼(periodic encoding)是人類知識組織的一般性標誌的觀點(Constantinescu et al., 2016)。不過,仍然需要進一步的工作來證實這一有趣的主張。

「DeepMin哈薩比斯長文」偉大的AI離不開神經科學:強化學習-Attention-連續學習

想像與規劃

儘管對目標導向的任務表現很好,但深度強化學習系統( 例如DQN)主要以反應的方式運作,學習從感知輸入到最大化未來價值的動作的映射。這種「無模型」的RL在計算上是低成本的,但存在兩個主要缺點:相對數據效率低下,需要大量的經驗才能得出準確的估計,而且不夠靈活,對結果價值的變化不敏感(Daw et al., 2005)。相比之下,人類可以通過基於模擬的規劃,通過基於通過經驗學習的內部環境模型產生的預測,基於通過基於模擬的規劃對長期未來結果進行預測,更靈活地選擇行動(Daw et al., 2005; Dolan and Dayan, 2013; Tolman,1948)。

到目前為止,大量關於人工智慧規劃(AI planning)技術的文獻,包括基於模型的RL方法,都旨在實現這種基於預測的行動選擇。此外,基於模擬的規劃,特別是使用錢箱搜索來更新價值函數和/或策略的蒙特卡洛樹搜索(MCTS)方法(Browne et al., 2012),在最近的工作中發揮了關鍵作用,其中深度RL在圍棋遊戲中獲得了專家級的表現。

來自神經科學的觀點可能提供有助於模擬與控制集成的啟發。神經科學研究發現,海馬體(hippocampus)通過實例化環境的內部模型來支持規劃(Redish,2016)。此外,最近開發智能體(agent)方面的研究已經開始採用控制器和環境模型之間分離的架構,以在涉及物理對象之間的相互作用的問題中實現基於模擬的規劃(Hamrick et al., 2017)。

虛擬大腦分析

神經科學可以為AI服務的另一方法是提供新的分析工具來理解AI系統中的計算。由於其複雜性,AI研究的產品仍然是「黑盒子」; 我們對複雜任務的學習期間發生的計算的性質或形成的表示的理解非常少。但是,通過將神經科學的工具應用於AI系統,例如單細胞記錄,神經影像學,以及病變技術等,我們可以深入了解AI研究中成功學習的關鍵驅動因素,提高這些系統的可解釋性。我們稱之為「虛擬大腦分析」(virtual brain analytics)。

從AI到神經科學

到目前為止,我們的評述主要側重於神經科學在加速人工智慧研究中的作用,而不是人工智慧研究對神經科學的意義。然而,歷史上,神經科學與人工智慧之間的信息流是相互的。機器學習技術已經改變了神經影像數據集的分析方法——例如,在 fMRI 和腦磁圖(MEG)數據的多變數分析中(Cichy等,2014; C?kuk 等,2013; Kriegeskorte 和 Kievit,2013 ) ,有希望加速 connectomic analysis(Glasser等,2016)等技術。

更進一步,我們認為,開發智能演算法有可能會提供關於人類和其他動物大腦智力基礎研究的新思路。特別是,心理學家和神經科學家往往對於所研究概念(concept)依據的機制,只有相當模糊的概念(notion)。人工智慧研究通過定量地形式化這些概念,並對智能行為的必要性和充分性(或反過來)提供洞察,來起到輔助作用。這一前景的關鍵是強化學習帶來的。在動物心理學的一些理念催生了強化學習研究後,後者的關鍵概念又反哺了神經科學。

尤其是,在 conditioning paradigms 中, midbrain dopaminergic neurons 中觀察到的神經信號的 profile 與 TD-產生的預測誤差具有驚人的相似性,這為大腦 TD-learning 形式的實現提供了神經證據(O"Doherty 等,2003; Schultz 等,1997)。這提供了一個很好的例證,說明人工智慧與神經科學之間的思想交流是如何夠建立一個「良性循環」並推動這兩個領域的目標實現的。

在另一個領域,專註於增強 CNN 性能的工作也為高級視覺領域的神經表徵的本質提供了新見解(Khaligh-Razavi 和 Kriegeskorte,2014; Yamins 和 DiCarlo,2016)。以下研究也值得關註:

Khaligh-Razavi, S.M., and Kriegeskorte, N. (2014). Deep supervised, but not unsupervised, models may explain IT cortical representation. PLoS Comput. Biol. 10, e1003915.

Hong, H., Yamins, D.L., Majaj, N.J., and DiCarlo, J.J. (2016). Explicit informa- tion for category-orthogonal object properties increases along the ventral stream. Nat. Neurosci. 19, 613–622.

Yamins, D.L., and DiCarlo, J.J. (2016). Using goal-driven deep learning models to understand sensory cortex. Nat. Neurosci. 19, 356–365.

Sukhbaatar, S., Szlam, A., Weston, J., and Fergus, R. (2015). End-to-end memory networks. arXiv, arXiv:150308895.

Kumaran, D., and McClelland, J.L. (2012). Generalization through the recurrent interaction of episodic memories: a model of the hippocampal system. Psy- chol. Rev. 119, 573–616.

結論:讓AI幫助人類更深刻地認識自己

從這個角度來看,我們回顧了神經科學為推動 AI 研究做出的基礎性貢獻,並且認為其相關性日益重要。在為兩個領域的未來交流制定戰略時,重要的是要了解,神經科學過去對 AI 的貢獻很少包含可以在機器中直接重新實現的完整解決方案。

相反,神經科學通常以一種微妙但有效的方式,激發了 AI 研究人員感興趣的問題,並提供了相關機制的初步線索。因此,我們認為,利用神經科學研究獲得的信息將加速人工智慧研究的進展,如果 AI 研究人員積極開展與神經科學家的合作,並突出可以通過實證研究來解決的關鍵問題,則將卓有成效。

從神經科學獲得的見解要想成功轉移到 AI 演算法的開發上,在很大程度上取決於在這兩個領域工作的研究人員之間的交流,這通常需要不斷地在兩個領域間持續的交流,來發掘洞洞見。

未來,我們希望神經科學與人工智慧研究人員之間能有更好的合作(Marblestone 等,2016年),這將帶來良性循環,通過共同的語言和理論加速實證研究的進展。

我們相信,對人工智慧的開發和追求最終也將導致我們更好地了解自己的思想和思維過程。將智力轉化為一種演算法結構,並將其與人類大腦進行比較,這可能會對心靈中一些最深刻和最持久的奧秘產生深刻的見解,例如創造力、夢想,甚至有一天能觸及意識的本質。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 新智元 的精彩文章:

「AI 聖經《深度學習》中文版首發」新智元聯合 7 大華人專家推薦,第一章內容大放送(評論贈書)
微軟首席研究員童欣:深度學習將席捲計算機圖形,VR/AR爆發臨近
國務院印發 《新一代人工智慧發展規劃》
Facebook加入爭奪中國AI人才,LeCun上交大對話AI領袖(PPT)

TAG:新智元 |

您可能感興趣

《中國科學:技術科學》英文專題:Digital Image Correlation
亞馬遜AWS首席科學家Animashree Anandkumar:機器學習將引領未來革命
Women in Data Science Beijing:與數據科學的美妙邂逅
Cell Reports:科學家揭示「學習」的機理!
跑步的科學訓練必讀-R4K現場回顧 Running Biomechanics
深度學習的「教父」Geoff Hinton:從神經科學適應AI的想法
Jupyter Notebook數據科學高效技巧!
科學家的Green Salsa食譜
Facebook首席AI科學家:深度學習「大革命」將至
Hennessy與Patterson 雙雙進駐 Google,是計算機科學新時代的曙光
Hennessy與Patterson雙雙進駐Google,是計算機科學新時代的曙光
走近科學 Wolfgang Tillmans展覽現場的奧秘
谷歌大腦科學家Hugo LaRochelle:不要為AI劃定邊界
我院首席科學家高紹榮團隊在《Nature Cell Biology》發表論文
Facebook首席AI科學家Yann LeCun:距離「真正的」AI我們還缺什麼?
數據科學Python基礎
Nat Biotechnol:我國科學家利用DNA納米機器人在體內高效靶向癌症
褶子科學家Issey Miyake 的寫意梳理
Acta Neuropathol Commun:科學家們開發出診斷神經退行性疾病的新方法
科學家Jeff Lieberman:我是誰?