DeepMind新智能體架構Unicorn：持續學習能力勝過多個基準智能體

科技 02-27

安妮編譯自 arXiv

量子位出品 | 公眾號 QbitAI

出於未知原因，DeepMind為自己研究起的名字總飽含詩意，在學術界中顯得尤為畫風清奇。

比如「彩虹」，比如「獨角獸」。

前者，是去年10月DeepMind投遞到AAAI 2018的六種DQN混血論文；後者，是我們今天要介紹的主角。

近日，DeepMind提出了命名為「獨角獸（Unicorn）」的智能體架構，它展示出厲害的持續學習能力，已經勝過很多基準智能體。

這是怎樣實現的呢？

研究人員表示，獨角獸通過利用並行的off-policy學習策略，統一表示和學習多種策略，才達到了這樣的表現。

DeepMind曾經的研究——一個會跑酷的小人

何為持續學習？

持續學習（Continual learning），指的是智能體藉助已經獲得的知識和技能，從經驗中學習持續的任務流的一種方法。

這種設置的主要特點是，它有潛力成為一個完全獨立的智能體，可以增強構建自己的能力，解決豐富和複雜環境中的挑戰，而無需人類提供的數據集、任務邊界或獎勵設置等的干預。

因為智能體的能力在增長，所以它會去考慮複雜性持續增長的任務。理想的持續學習智能體應該能：

（A）解決多項任務

（B）當任務相關時表現出協同效應

（C）處理任務之間深度依賴的結構

獨角獸的特徵

在這篇題為Unicorn: Continual learning with a universal, off-policy agent的論文中，DeepMind的研究人員Daniel J. Mankowitz等人提出了一種新型的獨角獸智能體架構，可以顯示上述這三種性能。

獨角獸架構有三個顯著特徵：

（1）它是一種用單一網路同時學習多任務中價值函數的新方法

（2）同時，利用樣例有效的off-policy更新通過任務分享經驗

（3）當然，還結合了最先進的並行智能體架構，有效擴大經驗的生成和學習

下圖顯示的是研究人員提出的持續學習領域。在圖中可以看到，智能體在滿是物體的豐富的3D環境中進行導航，並且藉助了第一人稱視角的視覺輸入。

上圖指的是持續學習領域：在DM Lab的豐富環境中（左圖）找到並按特定順序拾取鑰匙、鎖和箱子（右圖）的表現，偏離特定順序將會被重置（虛線）。下圖指的是獨角獸的表現：和最終在最佳基線（glutton虛線）上的表現相比，研究人員提出的方法快速勝任了四個子任務。相對能力在分階段增強，從簡單（鑰匙）到困難（箱子），最困難的任務能力增長幅度最大

使這個領域變得最為挑戰的是，物體需要以特定的順序收集起來。例如，箱子只有在智能體已經收集了鑰匙、鎖和門的情況下才起作用。

這就意味著，在大多數探索任務中，箱子這種高度依賴型任務的反饋非常稀疏，並且不能直接學習。

幸運的是，獨角獸智能體始終在解決領域內的這類問題，並且通過分享經驗和重新利用任務中的表現和技能輸出基線。