官方：DeepMind與暴雪開源星際爭霸2人工智慧研究環境

新聞 08-10

在去年 11 月，DeepMind 曾在 Blizzcon 上宣布與著名遊戲公司暴雪達成協議，在《星際爭霸》系列遊戲中進行合作，這家隸屬谷歌的公司將在遊戲平台中引入機器學習方法，進行人工智慧研究。昨天，DeepMind 與暴雪終於共同發布了這一計劃的第一個成果：基於星際爭霸 2 的人工智慧研究環境 SC2LE，它允許研究者在 Linux 系統中接入遊戲 API，開展自己的人工智慧研究。

PySC2 GitHub 鏈接：https://github.com/deepmind/pysc2
暴雪星際爭霸 API：https://github.com/Blizzard/s2client-proto

DeepMind 的科學使命是通過開發系統推動 AI 的發展，並且令其能夠學習解決複雜的問題。為了做到這一點，我們設計了很多智能體，並在各種環境下測試這些智能體的能力，從專門建造的 DeepMind Lab 到現有的遊戲，如 Atari 和圍棋。

在遊戲中測試智能體的能力並不是專為 AI 研究設計的，人類玩家玩得好的地方就正是對智能體性能基準至關重要的地方。這就是我們攜手暴雪娛樂的原因，我們很高興宣布 SC2LE 的發布，它是一個可以在即時戰略遊戲星際爭霸 2 中加速 AI 研究的工具集。目前發布的 SC2LE 包含：

由暴雪開發的機器學習 API，它將允許研究者和開發者接入遊戲。該 API 首次囊括了在 Linux 系統上的系列工具。
匿名遊戲錄像的數據集，它將在近期由 65k 的數據量增加到超過 50 萬場比賽的數據量。
開源版本的 DeepMind 工具箱：PySC2，該工具箱允許研究者通過其智能體簡單地使用暴雪的特徵層 API。
一系列簡單的強化學習小遊戲以允許研究者測試智能體在具體任務上的性能。
同時還有一篇合作論文概括了這一環境，並報告了小遊戲的初始基線結果、遊戲錄像中的監督學習和與內置 AI 的 1v1 天梯比賽。

官方：DeepMind與暴雪開源星際爭霸2人工智慧研究環境

星際爭霸 2 是一款在科幻背景下的即時戰略遊戲（RTS），發行於 2010 年。

星際爭霸和星際爭霸 2 是遊戲史上最大、最成功的兩款遊戲，玩家們在其中彼此競賽已超過 20 年。最初的遊戲也已為人工智慧和機器學習研究者所用，他們參加每年一次的 AIIDE 機器人競賽。星際爭霸長盛不衰的部分原因在於其豐富的多層次遊戲機制，對於人工智慧研究來說，這簡直是一個再理想不過的環境。

例如，雖然遊戲的目標是擊敗對手，但玩家也必須顧及並平衡子目標的數量，比如收集資源（水晶和氣礦）或建造房屋（提高人口限制）。此外，一場比賽的時間通常為幾分鐘到一小時不等，這意味著遊戲中提早執行的操作也許會很長時間不見成效。最後，由於戰爭迷霧的存在，地圖對於玩家只有部分顯示，這意味著智能體必須結合記憶與規劃才能成功。

星際爭霸還有其他吸引研究者的方面，比如每天在線競爭的大量狂熱玩家。這保證了有大量的遊戲記錄數據可以學習，以及大量可與智能體競爭的優秀人類對手。

甚至星際爭霸的操作空間也是一個挑戰，可從超過 300 種操作中做選擇，相比之下 Atari 遊戲只有 10 種操作選擇（例如，上下左右等）。在此之上，星際爭霸中的操作是層級的，能夠進行調整、增強，有很多遊戲單位需要點擊屏幕控制。即使一個 84x84 的小屏幕，大概也存在 1 億種可能的操作。

官方：DeepMind與暴雪開源星際爭霸2人工智慧研究環境

人類玩家與智能體可以執行的操作取決於選擇的單元。

這個版本意味著研究者現在可以使用暴雪的工具來構建其任務和模型，從而應對這些挑戰中的一部分。

我們的 PySC2 環境包裝器通過為強化學習智能體提供一個靈活且易於使用的介面，從而對遊戲有所助益。在初始版本中，我們把遊戲分解為「特徵層」，其中遊戲的元素比如單元類型、健康、地圖可見性之間彼此隔離，同時保留遊戲的核心的視覺和空間元素。

該版本同樣包含了一系列「小遊戲」，即一種將遊戲分割為可控制塊的技術，因此它能用於測試智能體在如轉動視角、收集礦產或選定單位那樣的特定任務。我們希望研究者能在這些提倡的小遊戲上測試他們的技術，因為其他研究者才能在這些小遊戲上進行對比和評估。

官方：DeepMind與暴雪開源星際爭霸2人工智慧研究環境

簡單的 RL 小遊戲能夠使研究人員能夠在特定任務上測試智能體的表現。

我們最初的調查表明我們的智能體在這些小遊戲上表現很好。但做完整版遊戲時，即使擁有 A3C 這樣的強大基線智能體，也不能在簡單遊戲上取勝。例如：以下視頻演示了一個早期階段的訓練智能體（左）來完成更有意義的操作，但如果要更有競爭優勢，需要在深度強化學習與相關領域有進一步的突破。

我們所知的一項能讓智能體學習更強大策略的技術是模仿學習（imitation learning）。因為與暴雪的合作，這種訓練方法很快就會變的更簡單，因為他們將要公布千百萬匿名遊戲記錄視頻（收集自星際爭霸 2 天梯比賽）。這些視頻不僅能讓研究員訓練監督式智能體，也開啟了一些新的研究領域，比如序列預測、長期記憶等。

我們希望，這些新工具的發布能夠建立在 AI 社區已經在星際爭霸上所作的研究基礎之上，鼓勵做更多的深度強化學習研究，讓專註這一領域的研究人員工作更為簡單。

論文：StarCraft II: A New Challenge for Reinforcement Learning

官方：DeepMind與暴雪開源星際爭霸2人工智慧研究環境

摘要：本論文介紹 SC2LE（星際爭霸 2 學習環境），一個基於遊戲「星際爭霸 2」的強化學習環境。該場景給強化學習帶來了新的巨大挑戰，出現了許多比大多數之前研究中更有挑戰性的問題：多個玩家交互的多智能體問題；非全圖導致的信息不完善；包含數百個單元的選擇和控制的大型操作空間；只能從原始輸入特徵平面觀察到的大型狀態空間；信用分配（credit assignment）延遲，其需要數千步的長期策略。我們描述了星際爭霸 2 場景的觀察、動作和獎勵說明，並提供可與遊戲引擎交流的基於 Python 的開源界面。除了主要的遊戲圖之外，我們還提供一套針對星際爭霸 2 玩法的小遊戲。對於主要的遊戲圖，我們提供配套的人類專業玩家遊戲記錄數據集。我們給出了在該數據上訓練的神經網路的初始基線結果（initial baseline result）來預測遊戲結果和玩家操作。最後，我們展示了應用於星際爭霸 2 的標準深度強化學習智能體。關於小遊戲，這些智能體能夠學習並達到初級玩家的遊戲水平。但是，在遊戲本身的訓練中，這些智能體的進步並沒有那麼明顯。綜上所述，SC2LE 提供了一種為探索深度強化學習演算法和結構提供了一種新型、富有挑戰性的環境。

官方：DeepMind與暴雪開源星際爭霸2人工智慧研究環境

圖 1. SC2LE 環境與神經網路智能體組成示意圖

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 機器之心 的精彩文章:

※如何通過牛頓法解決Logistic回歸問題
※信息檢索頂會SIGIR獎項：微軟最佳論文、清華最佳學生論文
※南京理工大學ICCV 2017：圖像超解析度模型MemNet
※人工耳蝸如何讓「聽力損失者」擁有「超能力」？
※IBM發布新型分散式深度學習系統：結合軟硬體實現當前最優性能

TAG:機器之心 |

您可能感興趣

※谷歌人工智慧DeepMind與《星際爭霸2》戰隊進行交流
※談談《星際爭霸2》電競人工智慧AlphaStar農步祥
※談談《星際爭霸2》電競人工智慧AlphaStar「農步祥」
※DeepMind科學家：AI對戰《星際爭霸》勝算幾何？
※DeepMind 科學家：AI對戰星際爭霸勝算幾何？
※星際爭霸2黃金總決賽4強戰罷 TIME攜TooDming晉級
※Deepmind 挑戰《星際爭霸2》，人工智慧 10:1 戰勝人類玩家
※多圖詳解 DeepMind 的超人類水準星際爭霸 AI「AlphaStar」
※RNGChallengeCup星際爭霸2挑戰杯為RTS助威！
※《星際爭霸》混音專輯現已登陸Spotify和iTunes
※風雨兼程：Toodming 與《星際爭霸II》
※《星際爭霸2》戰隊聯賽：Newbee迎戰TSG
※AlphaStar 稱霸星際爭霸2！AI史詩級勝利，DeepMind再度碾壓人類
※AlphaStar對戰《星際爭霸 II》職業高手
※DeepMind AlphaStar星際爭霸2首秀：Demo很強大，但現場比賽輸了
※2018 AIIDE星際爭霸AI挑戰賽亞軍CherryPi開源TorchCraftAI
※Mike Morhaime回望《星際爭霸》競技二十周年
※DeepMind的AI程序"AlphaStar「參戰」星際爭霸2"，10-1大勝人類玩家
※StarLadder公布新賽事：VP、Gambit基輔爭霸
※傳聞星際爭霸神族選手中的Bisu、Stork和Jangbi形成了鐵三角？