DeepMind和暴雪聯手發布開發工具和replay數據集,讓更多AI研究者玩上星際2
雷鋒網 AI 科技評論按:去年年底的時候,大家都知道了 DeepMind 的人工智慧要開始玩星際了,今天DeepMind 也正式發布了論文和相關博文介紹了自己在這方面的成果,他們與暴雪聯手發布了一系列工具,方便更多的研究者參與到(讓人工智慧)玩星際2中來。雷鋒網 AI 科技評論編譯如下。
DeepMind 一直抱有這樣的一個科學目標:構建能學會解決複雜問題的系統,以此來不斷推進人工智慧的發展前沿。為此,DeepMind 開發了各種各樣的智能體,然後在自己搭建的 DeepMind Lab 平台上用各種各樣的環境測試它們。
有一類重要的測試環境是遊戲。它們雖然不是專門為人工智慧研究設計的,但畢竟人類可以玩得很好,它們也就是評估人工智慧表現的一種重要方法。在圍棋和 Atari 遊戲都玩得比較熟練了以後,DeepMind 這次介紹了自己在新遊戲中的研究進展:星際2。
DeepMind和暴雪一起發布了SC2LE,這是一個幫助研究如何讓人工智慧玩學會星際2這個RTS遊戲的工具包。此次發布的 SC2LE 中包括:
一個機器學習API,由暴雪開發,它能夠幫研究者和開發者接入遊戲。其中還首次包括了運行在Linux上的工具。
一個匿名的遊戲replay數據集,目前只有6萬5千場,在接下來幾周內會增加到50萬場左右。
DeepMind的工具包PySC2的開源版本,研究者可以藉助它輕鬆讓智能體使用暴雪的特徵層API。
一篇DeepMind和暴雪聯合完成的論文,它大致介紹了環境的組成、在測試小遊戲中取得的初期基準成果、如何從replay監督學習,以及與遊戲內置的 AI 進行1v1的天梯對抗。
星際和星際2算得上是所有遊戲里最大、最成功的那一批,玩家們在這些遊戲里廝殺也有超過20年了。不僅星際2,第一代星際也已經被人工智慧和機器學習研究者用作測試環境,每年的 AIIDE 上都會舉辦人工智慧星際大賽。星際之所以如此長壽,有相當一部分原因是由於它豐富、多層面的遊戲過程,這樣它也就成為了理想的人工智慧研究環境。
比如,星際的最終目標是要擊敗對手,但玩家還是需要執行一系列收集資源、造建築這樣的分目標並在它們之間找到平衡。而且,一場遊戲所花的時間短則幾分鐘,長則一小時,那麼在遊戲早期採取的行動就可能在很長一段時間內都看不到對應的收穫。最後,地圖上只有一部分區域是可見的,智能體就需要綜合使用記憶和規劃能力,才能取得勝利。
除此之外,這個遊戲還有一些別的方面也對研究者有吸引力,比如每天都有眾多的玩家在線上遊戲中對抗。這就保證了會有海量的replay數據供智能體學習,而智能體將來也會有許許多多極具天賦的對手可以切磋。
不過,即便只是星際的操作都是一項不小的挑戰,每時每刻可以選擇的基礎操作超過300種。這就跟 Atari 遊戲形成了明顯的區別,它裡面可選的動作不超過10種(比如上下左右)。在此基礎上,星際中的操作也是有層次的、可以修改以及增強的,其中的許多操作都需要在屏幕上點擊。就算只是一個84x84那樣的小屏幕,所有可能的操作加起來也會高達上億種。
GIF/1.6M
對人類和智能體來說,根據選擇的單位不同,可以進行的操作也不同
在這次的工具發布以後,研究者就可以用暴雪自己的工具解決一些上面提到的麻煩,這樣就可以更方便地構建自己的任務和模型。
DeepMind 的 PySC2 工具可以把環境分類打包,從而為強化學習智能體提供了一個靈活易用的界面,幫助它們玩遊戲。在此次發布的初始版本中,PySC2 把遊戲中不同的元素劃分成了不同的「特徵層」,比如不同類型的單位、生命值、地圖的可見性等等會相互分開,同時還能保持遊戲核心的視覺和空間元素。
用不同的層顯示遊戲中不同類型的內容
SC2LE工具包里還包含一系列的測試小遊戲,它們把整個遊戲分為了多個不同的可控片段,這樣就可以測試智能體在特定任務上的表現,比如切換視角、採礦或者選擇單位等等。研究者可以在這樣的小遊戲中測試他們的技術,同時也可以幫助建立更多的測試小遊戲,便於更多的研究者繼續競爭和評估。
GIF/1.3M
簡單的強化學習小遊戲可以讓研究者測試智能體在特定任務中的表現
以DeepMind目前的研究進展,他們的智能體已經可以在這樣的特定任務小遊戲中發揮不錯的表現,但是到了整場遊戲,即便是 A3C 這樣比較強的基準 AI 也根本打不贏「簡單」的遊戲內置 AI。比如,下面動圖裡左邊的就是一個訓練早期的智能體,它沒法讓礦工採礦,這件事對人類來說不費吹灰之力。經過訓練之後,智能體表現出了有意義的動作,但是如果要讓它們有競爭性的話,還需要在深度強化學習和相關領域有更大突破。
GIF/796K
DeepMind的研究人員發現了一種讓智能體學到更強策略的技巧,就是模仿學習。這樣的學習方法在暴雪的幫助下也很快就會變得容易,他們已經答應會繼續發布幾十萬局星際2天梯上的匿名遊戲replay。這不僅可以讓研究者用監督學習的方法訓練智能體,而且也為序列預測、長期記憶等等其它的研究領域提供了可能。
DeepMind希望這些新發布的工具可以讓人工智慧大家庭在星際遊戲上已有的研究成果再前進一步,鼓勵更多的人從事深度強化學習研究,也讓研究者可以更輕鬆地跟上這個領域的前沿發展。DeepMind也期待人工智慧大家庭可以有一些精彩的發現。
論文地址:https://deepmind.com/documents/110/sc2le.pdf
PySC2 github地址:https://github.com/deepmind/pysc2
暴雪的星際2 API地址(包含了Linux版的信息、遊戲replay和其它相關內容):https://github.com/Blizzard/s2client-proto
viaDeepMind Research Blog,雷鋒網 AI 科技評論編譯


※IBM秀出並行訓練肌肉:256個GPU還能有95%的拓展效率,順便刷新ImageNet-22K記錄
※電子數據取證是如何幫助警察蜀黍抓壞人的?
※Velodyne聘請半導體資深人士擔任CFO,欲加速推動自動駕駛
※深度 | 追求0.01%突破 vs 看重臨床效果,AI公司與醫生合作的「利益點」在哪裡?
※Intel完成對Mobileye收購,也是晶元巨人的最後一次機會?
TAG:雷鋒網 |
※研發實戰:現在開始,用Unity為Magic Leap One開發MR內容
※Adobe為設計師、開發者發布AR創作工具Project Aero
※Magic Leap開發者大會開放申請;Adobe Captivate
※安卓開發中的Model-View-Presenter
※Mozilla 推出開源瀏覽器 Firefox Reality,專為 VR 一體機和 AR 頭顯開發
※Android Things OS 開發者預覽版8發布!
※適用於開發者的Magic Leap One AR耳機
※Mozilla發布Firefox Reality WebVR開發者指南
※JetBrains殺入Python開發,發布全新機器學習Web方案!
※《Muse Dash》曲庫更新,開發團隊透露Steam和Switch版更多消息
※Mozilla推出開源瀏覽器Firefox Reality,專為VR一體機開發
※Google發布首個Android P開發者預覽版
※Fieldbit和InfinityAR宣布合作開發AR智能眼鏡
※谷歌開發新系統Fuchsia 計劃取代Android和Chrome OS
※CollPlant加入ReMDO行動計劃為3D列印器官開發bioink
※DeepMind和Unity合作,開發虛擬環境訓練AI
※Crypto-App開發者反抗Reddit
※Python web開發:Flask的URL和視圖
※適用於Android和iPhone的Swype鍵盤停止開發
※蘋果與台積電合作開發MicroLED 將用於Apple Watch和AR