DeepMind提出想像智能體,更魯棒AlphaGo逼近真實世界
1 新智元編譯
DeepMind 兩篇最新論文提出了有想像力和計劃能力的智能體
《有想像和計劃能力的智能體》——這是DeepMind 一篇最新博客的題目。該文介紹了 DeepMind 最近發表的兩篇論文:Imagination-Augmented Agents for Deep Reinforcement Learning和Learning model-based planning fromscratch。這兩篇論文在 arXiv 上已經可以看到了。論文描述了一系列方法,用於基於想像的計劃(imagination-based planning),同時也介紹了一些架構,這些架構為智能體學習和制定計劃從而最高效地完成任務提供了新方法。這些架構很高效,對複雜而不完善的模型魯棒性強,且能採用靈活的策略來發掘其想像力。
簡單來說,這些研究發現,通過為其軟體智能體植入類似想像力的東西,能夠讓它們更快的學習。研究描述了通過想像計劃(imaginative planning)提高深度強化學習的新方法。
學會想像的智能體在玩 Sokoban(推箱子)這個遊戲時,解決了 85% 的問題,而基準智能體完成了 65%。想像增強智能體同時也超過了沒有使用想像規劃的標準智能體的增強版本。
兩篇論文摘要如下:
Imagination-Augmented Agents for Deep Reinforcement Learning
深度強化學習的想像增強智能體(Imagination-Augmented Agents)
我們在此介紹想像增強智能體(I2As),一種全新的結合了脫離模型及基於模型兩方面的深度強化學習架構。現行的大多數基於模型的強化學習及計劃方法會規定一個模型如何被使用以形成策略,I2As學習通過已學到的環境模型,將預測作為深度策略網路中補充的context,以隨機的方式構建計劃。與其他一些演算法相比,I2As展現出了更高的數據有效性、更優的表現及更強的魯棒性。
Learningmodel-based planning from scratch
基於模型計劃入門
基於模型計劃通常被視為做出序列決策的有效方法。但這種方法在實際操作中存在挑戰,用於評估計劃的模型並不參與制定計劃。在此我們提出「想像力編碼器(Imagination-basedPlanner)」,首個可制定、評估及實施計劃的,基於模型的,可作出序列決策的智能體。在採取任何行動之前,它能夠做出一系列想像的步驟,包括提出一個想像的行動,並利用其基於模型的想像來對此行動做出評估。所有想像出來的行為和結果都被以迭代的方式集合為「plan context」,對未來的想像出來的及實際的行動進行調節。這一智能體甚至能夠決定想像的方式:測試不同的想像出來的行動,將一系列的行動連接起來,利用學到的策略在想像出來的狀態中靈活選擇來建立一個更為複雜的「想像樹」。該智能體還能做出更經濟、高效的計劃,利用其想像來基於外部獎勵及計算成本進行優化。這一架構能夠學會解決連續控制問題,還能夠學會詳述自己在非連續解謎任務中所採取的計劃策略。我們這一工作為學習和使用基於模型計劃系統提供了新的方向。
想像增強智能體
DeepMind 的博客首先解釋了「想像力(Imagination)」這個概念:
人類認知很厲害的一點在於,在你採取行動前,已經能想像出行動的結果。比如要在一張桌子的邊上放一個玻璃杯子,我們很可能會停下來想一想,放得穩不穩?會不會掉下來?基於想像的結果,我們就會做出調整,防止杯子掉下來摔碎。這種審慎的推理基本上就是我們要說的「想像力」(Imagination)。我們的這種能力對每天的日常生活至關重要。
如果想讓演算法也能執行同樣複雜的行為,它就必須也具有「想像力」,能夠對未來進行推理,另外,還必須會用這種能力來制定計劃。
已經有演算法能夠做到這一點了,比如 AlphaGo 就能利用內部模型(internal model)來分析行為將產生的結果,從而實現推理和計劃。但這些模型之所以運行良好,是因為像圍棋這樣的運行環境是「完美」的,具有明確定義的規則,在幾乎所有情況下都能準確預測結果。
然而,真實的世界是複雜的,規則的定義沒有那麼明確,不可預知的問題會經常出現。即使對於最智慧的智能體來說,在這些複雜的環境下進行「想像」都會是一個耗時、耗資源的過程。
DeepMind 在此介紹的智能體受益於「想像編碼器(Imagination encoder)」—一種能為智能體的決策學習抽取一切有用信息並忽略掉無關信息的神經網路,這些智能體有如下顯著特徵:
它們能夠學習闡釋其內部模擬過程。這使得它們可以使用粗略捕捉環境動態的模型,即使這些動態並不完美;
它們能夠高效地使用其想像力,這一點可以通過調整想像出的問題解決途徑(trajectory)的數量來完成。編碼器也增強了效率,能夠通過想像抽取額外信息,而不單單依靠rewards。這些想像的途徑可能含有有用的線索,即使其未必引發較高的獎勵。
它們能夠學習不同的制定計劃的策略,可以在繼續當前想像的途徑和從頭開始之間做出選擇。或者,可以利用精度和計算成本不同的想像模型。這提供了大量的、高效的規劃策略,而不是在不完美環境中會受到限制的單一方法。
兩款遊戲成為測試智能體能力的絕佳環境
在多個不同遊戲上,DeepMind 對該架構進行了測試,包括解密遊戲Sokoban(推箱子)和宇宙飛船航行遊戲。這兩款遊戲都需要提前計劃和推理,這使得它們成為了測試智能體能力的絕佳環境。
在推箱子遊戲里,智能體必須把箱子推到目標點。箱子只能被推,許多移動都不可逆(例如,箱子一旦被推入角落,就無法再拉出)。
在宇宙飛船遊戲中,智能體需要點燃推進器來,而可以這麼做的次數也是有限制的,必須與幾個星球的引力相抗衡,這是一個複雜的非線性連續調節任務。
為了限制這兩個任務的試錯,智能體在失敗後是不能重玩的。這就「逼迫」智能體在採取行動之前,先要想像不同策略帶來的結果。
上圖,DeepMind 可視化了特定時間點上智能體對5 種可能性的想像。根據這些信息,智能體決定採取什麼行動。相應的軌跡在圖中已經標明。
上圖為智能體在進行宇宙飛船航行遊戲。紅線表示執行的軌跡操作,藍線和綠線描述了智能體想像的軌跡。
兩種任務中,想像增強的智能體的表現都優於作為基準的無想像智能體:它們可以通過更少的經驗來學習,並且能夠處理環境建模的缺陷。智能體能夠從內部模擬中提取更多知識,因此可以用更少的想像步驟解決更多的任務,這優於傳統的搜索方法,比如蒙特卡羅樹搜索。
加入一個用於制定計劃的組件後,智能體會學慣用更少的步驟更高效地實現目標。在宇宙飛船任務中,它可以分辨環境中的引力強弱,這意味著想像的步驟數量不同。當為環境中的智能體提供多個模型時,每個模型的質量和成本都不同,它學會了做出有意義的權衡。最後,每執行一步,想像的計算成本都會增加,所以智能體會在一開始就想像出多個步驟的結果,並利用這些想像的結果做出行動。
原文地址:https://deepmind.com/blog/agents-imagine-and-plan/


※「AI發展出人類無法理解的語言」Facebook關閉「失控」 AI 項目
※「了不起的晶元」IEEE 盤點27款震撼世界的晶元,你認識哪些?
※「薦書」DeepMind哈薩比斯狂推的神經科學,入門需要看什麼書?
※「ACL 2017 七大看點」北大、清華、中科院、復旦5 篇傑出論文
※「裴健當選SIGKDD主席」研究被引超7萬次,他還有一個遺憾|專訪
TAG:新智元 |
※Ceilometer和Monasca 能幫OpenStack實現智能運維
※傳聞 Google 正在打造 Pixel 智能手錶
※Fitbit推新款智能手錶Versa:它看起來很Apple Watch
※Apple Watch Series 3能否在智能手錶領域複製手機的成功呢?
※Kopin推出Golden-i Infinity AR智能眼鏡
※Cheerble Studio推出智能骨頭Wickerbone,可以與寵物進行互動
※華為 Watch 2 輕體驗:它可能是最接近 Apple Watch 的智能手錶
※Google Android Wear智能手錶操作系統更名為Wear OS by Google
※ConsumerReports 稱 iPhone X 擁有目前智能手機當中最好的相機
※智能穿戴逆境看蘋果?Apple Watch Series 3銷量激增
※首款Android Oreo Go Edition智能機Alcatel 1X上手
※有點Apple Watch的味道!Fitbit Versa智能手錶發布
※Google Assistant已登陸Wear OS:智能回復功能仍需完善
※Google Home、Amazon Echo、HomePod三套智能家居對比
※Google要親自推Wear OS了,或在今秋帶來Pixel系列智能手錶
※諾基亞新推多款智能機,從Android Go到Android P
※三星Gear Wear、蘋果AppleWatch很常見,但這樣的智能手錶卻很少有
※基於Markov Chain Monte Carlo的智能手錶睡眠數據分析
※挑戰HomePod?Spotify或將發智能音箱
※iPhone X Notch有什麼獨特設計,有哪些Android智能手機模仿它!