當前位置:
首頁 > 科技 > DeepMind新智能體架構Unicorn:持續學習能力勝過多個基準智能體

DeepMind新智能體架構Unicorn:持續學習能力勝過多個基準智能體

安妮 編譯自 arXiv

量子位 出品 | 公眾號 QbitAI

出於未知原因,DeepMind為自己研究起的名字總飽含詩意,在學術界中顯得尤為畫風清奇。

比如「彩虹」,比如「獨角獸」。

前者,是去年10月DeepMind投遞到AAAI 2018的六種DQN混血論文;後者,是我們今天要介紹的主角。

近日,DeepMind提出了命名為「獨角獸(Unicorn)」的智能體架構,它展示出厲害的持續學習能力,已經勝過很多基準智能體。

這是怎樣實現的呢?

研究人員表示,獨角獸通過利用並行的off-policy學習策略,統一表示和學習多種策略,才達到了這樣的表現。

DeepMind曾經的研究——一個會跑酷的小人

何為持續學習?

持續學習(Continual learning),指的是智能體藉助已經獲得的知識和技能,從經驗中學習持續的任務流的一種方法。

這種設置的主要特點是,它有潛力成為一個完全獨立的智能體,可以增強構建自己的能力,解決豐富和複雜環境中的挑戰,而無需人類提供的數據集、任務邊界或獎勵設置等的干預。

因為智能體的能力在增長,所以它會去考慮複雜性持續增長的任務。理想的持續學習智能體應該能:

(A)解決多項任務

(B)當任務相關時表現出協同效應

(C)處理任務之間深度依賴的結構

獨角獸的特徵

在這篇題為Unicorn: Continual learning with a universal, off-policy agent的論文中,DeepMind的研究人員Daniel J. Mankowitz等人提出了一種新型的獨角獸智能體架構,可以顯示上述這三種性能。

獨角獸架構有三個顯著特徵:

(1)它是一種用單一網路同時學習多任務中價值函數的新方法

(2)同時,利用樣例有效的off-policy更新通過任務分享經驗

(3)當然,還結合了最先進的並行智能體架構,有效擴大經驗的生成和學習

下圖顯示的是研究人員提出的持續學習領域。在圖中可以看到,智能體在滿是物體的豐富的3D環境中進行導航,並且藉助了第一人稱視角的視覺輸入。

上圖指的是持續學習領域:在DM Lab的豐富環境中(左圖)找到並按特定順序拾取鑰匙、鎖和箱子(右圖)的表現,偏離特定順序將會被重置(虛線)。下圖指的是獨角獸的表現:和最終在最佳基線(glutton虛線)上的表現相比,研究人員提出的方法快速勝任了四個子任務。相對能力在分階段增強,從簡單(鑰匙)到困難(箱子),最困難的任務能力增長幅度最大

使這個領域變得最為挑戰的是,物體需要以特定的順序收集起來。例如,箱子只有在智能體已經收集了鑰匙、鎖和門的情況下才起作用。

這就意味著,在大多數探索任務中,箱子這種高度依賴型任務的反饋非常稀疏,並且不能直接學習。

幸運的是,獨角獸智能體始終在解決領域內的這類問題,並且通過分享經驗和重新利用任務中的表現和技能輸出基線。

想了解更多實驗過程,可移步論文原文~地址給你:

https://arxiv.org/abs/1802.08294

作者系網易新聞·網易號「各有態度」簽約作者

加入社群

量子位AI社群13群開始招募啦,歡迎對AI感興趣的同學,加小助手微信qbitbot5入群;

此外,量子位專業細分群(自動駕駛、CV、NLP、機器學習等)正在招募,面向正在從事相關領域的工程師及研究人員。

進群請加小助手微信號qbitbot5,並務必備註相應群的關鍵詞~通過審核後我們將邀請進群。(專業群審核較嚴,敬請諒解)

誠摯招聘

量子位正在招募編輯/記者,工作地點在北京中關村。期待有才氣、有熱情的同學加入我們!相關細節,請在量子位公眾號(QbitAI)對話界面,回復「招聘」兩個字。


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 量子位 的精彩文章:

谷歌母公司投資成績:4大機構各有側重,投資2個馬斯克項目
可能是CES上六個最值得買的電子產品

TAG:量子位 |