新的一年,DeepMind準備讓AI學會「放煙花」
選自marcgbellemare
機器之心編譯
參與:王淑婷、賈偉、李澤南
在星際爭霸 2 的首場「人機大戰」結束後不久,DeepMind 又宣布即將投身另一個遊戲「煙花」。與以往不同的是,這是一款非完整信息、多人合作的遊戲。研究人員相信這項研究可以帶來全新的技術,引導 AI 學會自我學習以及與人類合作的新方法。
近日,DeepMind 與 Google Brain 團隊合作發布了 Hanabi 學習環境(HLE)的代碼和論文,這是一個基於流行紙牌遊戲的多智能體學習和即時通信研究平台。HLE 為 AI 智能體提供了一個遊戲界面,並附帶了一個基於 Dopamine 框架的學習智能體。
項目 GitHub:https://github.com/deepmind/hanabi-learning-environment
《Hanabi》是以日文命名,中文的直接轉寫為「花火」,顧名思義就是煙花的意思,它由法國人 Antoine Bauza 設計。這是一款 2-5 人的合作遊戲,玩家們嘗試通過以正確的順序在桌面上放置卡牌創造完美的煙花。
在 Hanabi 中,共有五張不同顏色的卡片序列。讓遊戲變得有趣的是玩家可以看到隊友的牌,但不能看到他們自己的牌。溝通在很大程度上通過「提示」動作發生,其中一個人告訴另一個關於他們的牌的事情,以便他們知道要玩什麼或丟棄。由於可以提供有限數量的提示,優秀的玩家可以進行戰略性溝通並利用慣例,例如「首先丟棄最舊的卡片」。
頂級 Hanabi 溝通戰略是「finesse」:finesse 是一個隊友的舉動,乍一看似乎很糟糕(對我們而言),但如果我們假設隊友知道我們不知道的事情,實際上是很棒的。假設我們的同伴玩得很好,我們可以排除這個「第一眼」的解釋,並總結一下自己的牌。基於技巧的典型推理可能是:「我的隊友知道"紅色 2"非常有價值。然而她故意放棄了她的「紅色 2」。唯一合乎邏輯的解釋是,我現在正拿著另一個"紅色 2"。「(如果你玩紙牌遊戲 Hearts,你會熟悉黑桃皇后的類似遊戲)。由於「finesse」,玩家最終會對遊戲形成複雜的解釋。從應急溝通(emergent communication)的角度來看,「finesse」很有吸引力,因為玩這個遊戲和理解它們都需要超越提示的字面含義並推斷出隊友的意圖——有時候稱為「theory of mind」。
那對於 Hanabi,現有的強化學習方法如何呢?事實上,並不如想像的那麼好。DeepMind 的第一個實驗通過向修改後的重要性加權 Actor - Learner 通過提供有效的、無限量訓練來推動這一趨勢。他們確定了 200 億次「有效無限」的動作:這個數字相當於大約 3 億次遊戲或 1.66 億小時的人類遊戲(如果假設一個休閑玩家每次移動大約需要 30 秒)。該演算法使用自身的副本進行訓練,稱之為「self-play setting」。雖然該演算法在雙人遊戲環境中可以學習成功的慣例(平均 22.73 分,可能總共 25 分),但它在四人和五人遊戲環境中的表現要比專業玩家或手動編碼的機器人差得多:
研究人員在第二次實驗中證實了這些發現,這次實驗中使用了 1 億次移動這樣更合理的預算,以及我們發布的修改後的 Rainbow 架構(你可以試試:大約 16 小時內在一個 GPU 上訓練能夠獲得 15 分的智能體)。Rainbow 在 2 人遊戲中表現也不錯,但是在 4 人和 5 人遊戲中表現相當差。雖然確實有些技術(如 BAD 方法)能夠提高這些分數,但是實現它所需的樣本數量表明,在 Hanabi 中發現慣例仍然是一個未解決的問題。
然而,打破自我遊戲設置只是一個開始。在其他環境中成功的交流需要高效的編碼(不要浪費文字)和適應性(理解聽眾)。當我們遇到新的人時,我們可能不會對語言的所有術語都達成一致,因此我們傾向於讓事情變得更簡單一點。例如,DeepMind 將 operator 規範和 Lyapunov 函數排除在(大多數)社交會面之外。適應能力的需求是 Hanabi 的核心:當和一個新的團隊一起玩時,這樣做你承擔的風險才更小——或許是沒有進行聯繫就落子,或許是等待隊友先走第一步。雖然人類很容易適應陌生的聽眾,但 DeepMind 目前最好的智能體卻做不到:它們遵循複雜且相當僵化的慣例。
當一個智能體被要求與不熟悉的智能體合作時,這種情況被稱為「特定團隊遊戲(ad hoc team play)」。當自我遊戲(self-play)環境要求我們學習最好的慣例時,特定團隊遊戲需要適應先驗未知的慣例。在本文中,DeepMind 團隊發現用自我遊戲策略訓練的智能體在特定環境中慘敗。在一個實驗中,DeepMind 挑選了 10 個完全訓練的 actor-learner 智能體,actor-learner 智能體得分超過 23 分。相比之下,新團隊幾乎立即出局,平均得分為 2~3 分。DeepMind 發現使用類似相關矩陣的東西來可視化這種效果是有用的,對角線對應於自我遊戲評估:
從長遠來看,一個提供隨機提示的簡單手動編碼策略平均得分為 5.1 分。當然,這並不是什麼很驚奇的事,因為 DeepMind 設計的這款自我遊戲智能體並不適合其他玩家。話雖如此,其影響大小的變化(從接近完美到接近零)說明這是現有智能體的一個重要缺點。
很明顯,考慮過去十年的結果,機器學習潛力驚人。AI 的下一大步將是讓智能體學會交流和推理意圖。與 Atari 2600 遊戲對深度強化學習領域的激勵類似,Hanabi 是一個很好的培養皿,可以用來測試演算法如何在對人類來說簡單但對 AI 來說比較挑戰的場景中學習合作。DeepMind 團隊期待能夠從 Hanabi 研究中看到完美的合作。
論文:The Hanabi Challenge: A New Frontier for AI Research
論文地址:https://arxiv.org/abs/1902.00506
摘要:
在計算機的發展歷史上,遊戲一直是研究機器如何做出複雜決策的重要試驗平台。近年來,機器學習取得了顯著的進步,人工智慧體在很多領域取得了超越人類專家的表現,其中包括圍棋、Atari 遊戲以及一些撲克遊戲。與它們的國際象棋、跳棋、雙陸棋前身一樣,這些遊戲通過複雜的定義和挑戰推動了人工智慧的研究。在本論文中,我們希望將「Hanabi」遊戲作為新的挑戰,這一領域具有新穎的問題,這些問題源於純粹合作的遊戲玩法,和 2-5 個玩家環境中不完全信息的結合。
特別的是,我們認為 Hanabi 將試圖理解其它智能體的意圖推理推向了前台。我們相信開發能夠使人工智慧理解這種心理理論的技術不僅可以玩好這款遊戲,還可以應用於更廣泛的合作任務中——尤其是那些與人類合作的任務。為了便於未來研究,我們引入了開源的 Hanabi 學習環境,為研究人員提供實驗框架,用於評估演算法的進步,並評估當前最先進技術的性能。
原文鏈接:http://www.marcgbellemare.info/blog/a-cooperative-benchmark-announcing-the-hanabi-learning-environment/
本文為機器之心編譯,
轉載請聯繫本公眾號獲得授權
。
?------------------------------------------------
加入機器之心(全職記者 / 實習生):hr@jiqizhixin.com
投稿或尋求報道:
content
@jiqizhixin.com廣告 & 商務合作:bd@jiqizhixin.com


※簡單易用NLP框架Flair發布新版本!(附教程)
※「如何跳出鞍點?」NeurIPS 2018優化相關論文提前看
TAG:機器之心 |