當前位置:
首頁 > 科技 > DeepMind集成AI智能體架構:基於目標導向智能體中的無監督預測記憶

DeepMind集成AI智能體架構:基於目標導向智能體中的無監督預測記憶

原文來源:arXiv

作者:Greg Wayne、 Chia-Chun Hung、David Amos、Mehdi Mirza、Arun Ahuja、Agnieszka Grabska-Barwinska、Jack Rae、Piotr Mirowski、Joel Z. Leibo、Adam Santoro、Mevlana Gemici、Malcolm Reynolds、Tim Harley、Josh Abramson、Shakir Mohamed、Danilo Rezende、David Saxton、Adam Cain、Chloe Hillier、David Silver、Koray Kavukcuoglu、Matt Botvinick、Demis Hassabis、Timothy Lillicrap

「雷克世界」編譯:嗯~是阿童木呀、KABUDA、EVA

在自然界中,動物往往會執行目標導向的行為,儘管它們的感測器的範圍有限。為了應對環境問題,它們會對環境進行探索並儲存記憶,保持對目前無法獲得的重要信息的估計。類似地,最近,DeepMind提出了MERLIN,這是一種集成的AI智能體架構,它可在部分觀察到的虛擬現實環境中操作,並基於不同於現有的端到端的AI體系的原理將信息存儲於記憶中。

在自然界中,動物往往會執行目標導向的行為,儘管它們的感測器的範圍有限。為了應對環境問題,它們探索環境並儲存記憶,保持對目前無法獲得的重要信息的估計。最近,人工智慧(AI)智能體在這方面取得了進展,它們通過將強化學習演算法與深度神經網路相合併,學會從感官輸入執行任務,甚至達到了人類水平。這些結果激起了科學家們對相關想法的追求,比如解釋非人類動物的學習。然而,我們證明了,當有足夠的信息隱藏在智能體的感測器中時,當代的強化學習演算法很難解決簡單的任務,這種屬性被稱為「局部可觀測性」(partial observability)。處理局部觀察到的任務的一個明顯的需求是訪問大量的記憶,但是我們發現記憶不夠,正確的信息以正確的格式進行存儲是至關重要的。我們開發了一個模型,記憶、強化學習和推理網路(Memory, RL, and Inference Network,MERLIN)。在這個模型中,記憶的形成是由一個預測建模的過程進行指導的。MERLIN使在3D虛擬現實環境中解決任務變得容易,在這種環境中,局部可觀測性是非常嚴重的,而且必須在長時間內保持記憶。我們的模型展示了一個單一的學習智能體的架構,它可以解決心理學和神經生物學中的典型行為任務,而不需要對感官輸入的維度和經驗的持續時間做出強力的簡化假設。

智能體模型

現如今,人工智慧研究正在經歷一場復興,因為強化學習技術,解決了優化序列決策的問題,與深度神經網路相結合形成人工智慧體,從而可以通過處理複雜的感官數據,做出最佳決策。同時,科學家們開發了新的深度網路結構,將重要的先驗知識編碼到學習問題中。其中一個重要的創新是利用外部記憶系統開發神經網路,使得來自大量的歷史事件中合成信息的計算能夠被學習到。

對於所提出模型進行的實驗

在強化學習智能體中,帶有外部記憶系統的神經網路已經進行了「端到端」的優化,以最大化在任務環境中進行交互時獲得的獎勵數量。也就是說,系統學會了如何從輸入(感官)數據中選擇相關信息,將其存儲在記憶中,並僅從試驗和錯誤的操作選擇中讀取出相關的內存條目,從而使任務的獎勵高於預期。雖然這種針對人工記憶的方法被證明是成功的,但我們發現,它不能解決心理學和神經科學中行為研究里的簡單任務,特別是那些涉及在相關刺激和後面決策之間存在長時間延遲的任務。這包括但不限於這些問題:導航回到之前訪問過的目標、快速獎勵評估,其中智能體必須在幾乎沒有曝光的情況下理解不同對象的值、以及潛在學習(latent learning),一個智能體在進行探索之前通過特定任務獲得關於環境的未說明的知識。

潛在學習

我們提出了MERLIN,這是一種集成的AI智能體架構,它可在部分觀察到的虛擬現實環境中操作,並基於不同於現有端到端的AI體系的原理將信息存儲於記憶中。它學習處理高維感官流,對其進行壓縮和存儲,並且回憶對任務獎勵依賴性較小的事件。我們將來自外部記憶系統、強化學習和狀態估計(推理)模型的成分匯聚在一起,利用從心理學和神經科學的三種觀點(預測感覺編碼Gluck和Myers的海馬錶象理論(hippocampal representation theory)時間語境模型和後繼表象)中獲得的靈感,將它們組合為一個統一的系統。為了測試MERLIN,我們將它置於一組來自心理學和神經科學的典型任務中,以此來表明,它可以找到解決對現有AI構成嚴峻挑戰的問題的方法。MERLIN給出了一種超越端到端RL限制的方法,這可用於對未來計算智能體的記憶展開研究。

強化學習使得從感官觀察o到行動a找到一個策略π或映射變得形式化。強化學習的一個主要方法是考慮隨機策略,使該策略便於描述操作上的分布。在感知數據不完整的部分觀察環境中,直接將瞬時感知數據映射到動作的無記憶RL策略(Memory-free RL policies)會失敗。因此,在這項研究中,我們將注意力集中於依賴記憶的策略上,在這些策略中,動作的分布依賴於過去觀察到的全部序列。

端到端的學習問題,會隨著AI接近具有長期記憶的長效智能體前沿而變得更加緊迫。例如,思考一個需要記住24小時前發生的事件的智能體。存儲的記憶可以通過記憶讀取操作來恢復,但在整個時間間隔內(如反向傳播時間)優化網路動態或信息存儲的方法,需要在24小時內記錄網路狀態的確切數據。這實際上是一個讓人望而卻步的規定,它的神經可信度表明,至少對於記憶和時間信用分配的其他方面而言,存在比端到端梯度計算更好的演算法解決方案。我們注意到,MERLIN專門使用1.3s的窗口來解決需要更長時間間隔的任務(即6分鐘內最長任務長度的0.36%)。

當端到端RL具有足夠大的網路、足夠豐富的經驗以及優化時,它理論上可以學會將相關信息存儲於記憶中,以供後期決策使用,但我們已經證實,實際需求往往令人望而卻步。正如我們在目標識別和視覺等領域所熟知的,結構創新(如卷積神經網路)對於實際系統而言是至關重要的。儘管實現細節可能會發生變化,但我們相信,將記憶和預測建模相結合,對於未來在AI乃至神經科學領域,構建大型智能體模型而言至關重要。


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 雷克世界 的精彩文章:

用AI作曲?MusiicVAE化身音樂家混合樂譜的調色板
融資1億!「知因」讓產業鏈金融更「智慧」

TAG:雷克世界 |