DeepMind和暴雪發布星際爭霸2最新機器學習「工具包」

新聞 08-11

作為谷歌旗下專攻人工智慧的子公司，DeepMind存在的意義就是「突破人工智慧的邊界，開發可以解開複雜問題的系統」。而為了衡量這一目標，DeepMind往往會選擇在人類擅長的領域中挑戰人類（並勝之）。

而在雅達利（Atari）遊戲和圍棋完勝人類頂級選手之後，DeepMind的人工智慧將在星際爭霸2中對戰人類。

星際爭霸2（Starcraft II）是由美國著名遊戲公司暴雪娛樂（Blizzard Entertainment）推出的一款以星際戰爭為題材的即時戰略遊戲。而就在今天，DeepMind和暴雪同時在各自的官網上正式推出合作開發的星際爭霸2機器學習工具組：SC2LE（星際2學習環境）。

在其官博文中，DeepMind表示，SC2LE將包括：

一個由暴雪開發的機器學習API，為研究人員和開發者們提供接入遊戲的埠。其中將首次完整包含為Linux系統開發的工具。（GitHub 地址：https://github.com/Blizzard/s2client-proto）

DeepMind的工具集PySC2的開源版，讓研究人員可以輕鬆地在各自的模型中使用暴雪的特徵層API。（GitHub 地址：https://github.com/deepmind/pysc2）

一系列小遊戲，讓研究人員可以對自己系統的性能進行真實的測試。

一個含有6萬5千局匿名遊戲的數據集，並將在接下來的幾周里擴展至50萬局遊戲以上。

一篇介紹整個環境並提供基線成績的論文。基線成績是由小遊戲，從遊戲回放進行的監督學習，以及與星際2 自帶的電腦對手進行單挑的結果得出的。（論文地址：https://deepmind.com/documents/110/sc2le.pdf）

DeepMind與暴雪已經進行了長期的合作，雙方希望通過這些工具，幫助研究人員加快星際爭霸2AI的開發速度。

繼圍棋之後，DeepMind為什麼要選擇星際爭霸2這款遊戲為下一個目標呢？

這就要從頭說起了。在讀的各位七零、八零、以及九零後讀者應該對星際爭霸系列的第一個遊戲——星際爭霸（Starcraft）十分熟悉。畢竟，這款遊戲當年那是火的一塌糊塗，常年在我國大街小巷的各種網吧里都有著大量的玩家，甚至在隔壁韓國的電競界更是一統江山。

這款遊戲極受歡迎的原因就是在於其策略性、競爭性，以及最為重要的易學難精的特質。畢竟，沒有人願意花時間鑽研一個可以輕鬆掌握的遊戲。

作為其續作，星際爭霸2也繼承了這些特性，並且同樣火爆。它有著海量的玩家基礎，並且每年都會舉辦大量的比賽。2016年的星際2世界盃（WCS）冠軍獎金甚至高達50萬美元。這意味著，每時每刻都有著大量的電競大師，為了贏得比賽獎金而努力鑽研遊戲策略和技術。對於DeepMind來說，他們都是潛在的陪練對象（而且還是來自全球各國，免費的線上陪練啊）。

星際爭霸2的這些特質，恰恰是人工智慧在創新之路上需要挑戰的。其中最核心的就是星際爭霸2作為「即時戰略」遊戲中的「即時」和「戰略」。

就拿「即時」來說。或許對於人類，星際2的那300多個基礎操作的「操作空間」（Action Space）並不龐大。但是對於機器，星際2的分級操作，外加「升科技」所帶來指令的變化，再加上地圖的體積，其操作空間是無窮大的。比如「農民建房子」這個簡單的行動就有6個不同的步驟：點擊滑動滑鼠選擇單位，B選擇建造，S選擇供給站，滑動滑鼠選擇位置，點擊建造。僅在一個84x84的屏幕上，機器的操作空間有大約1億個可能的操作。面對著如此大的操作量，機器該如何有效的進行即時控制？

GIF/267K

圖丨來自DeepMind官博的農民建房子動圖

這正是DeepMind和暴雪所推出的工具試圖解決的。DeepMind表示，其PySC2環境包裝可以為AI玩家提供一個「靈活又簡單的界面」。在初版的工具中，遊戲中的每個元素，比如每種單位，血量，地圖上可見的部分等都會擁有一個單獨的特徵層。這意味著研究人員們可以針對不同的特徵（元素）進行開發和優化，有效的提高AI玩家的即時控制能力。

當然，星際2 還有一些難題暫時沒有技術手段解決，比如「戰略」。作為一個戰略遊戲，很多時候，玩家做出的決定往往只會在十幾甚至幾十分鐘之後才會產生效果。因此，AI玩家需要學會計劃。

此外，在遊戲中，由於玩家只能看到自己的那一部分地圖（俗稱「視野」），他們對整場遊戲局勢的信息是不完整，不對稱的。所以，任何信息都是珍貴的，因為它們可能泄露對手的重要信息，並引導出相對的回應。然而，這些信息往往只有在一段時間之後才會有用。比如看到某種單位，並在幾分鐘之後看到另外一種單位，從而猜出對方的戰術。有些信息也會讓你改變自己的戰術，比如生產相剋的單位。這意味著，AI玩家必須能夠有效地存儲和回憶起所有遇到的信息，並根據有限的信息進行「猜測」和判斷。

GIF/1.5M

因此，為了讓AI學會「戰略」，它必須擁有「計劃」和「記憶」的能力。「存儲是至關重要的」，DeepMind星際2項目的負責人Oriol Vinyals說道。而由於遊戲的長度，DeepMind善用的加強學習卻並不適合星際2，「我現在做出的操作可能在很久之後才有後果」，Vinyals說道。由於現有的技術手段無法攻克這一難題，DeepMind希望降低開發星際2 AI的門檻，集眾人之力開發出新的技術手段，解決「戰略」難題。

至於新的技術突破防線，DeepMind認為，在繼續開發深度加強學習之外，模仿學習（Imitation Learning），序列預測（Sequence Prediction），以及長期記憶（Long Term Memory）將會有效的加強星際2 AI的策略學習能力。而暴雪所提供的數十萬局遊戲回放，以及其線上戰網中大量的玩家，將成為星際2 AI最佳的模仿，學習，和聯繫對象。

除了PySC2工具和遊戲API及回放之外，此工具集里還值得一提的就是各種為單獨任務設計的小遊戲了。把複雜的大型任務分解成單獨的小任務是軟體工程過程中一個常用的手段，而這正是這些小遊戲的目的。現有的「移動鏡頭」，「採礦採氣」，「選擇單位」等小遊戲可以幫助研究人員一步步完善其AI模型的能力。並且可以連接全球的研究人員們進行比賽，或者提出新的小遊戲主意。

可以說，DeepMind和暴雪聯合開發的工具一舉打開了通往終極星際2 AI的大門。目前，已經有數名世界頂級星際2選手表示，願意與AI一戰。所以，我們只需靜靜等待DeepMind以及全球各大研究所去做他們最擅長的。對於「人機戰爭」，整個世界已經拭目以待。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 DeepTech深科技 的精彩文章:

※創業公司用計算機視覺讓城市中的AR更精準
※多年的構想之後，馬斯克終於決定自行研發逆天高鐵
※為什麼駕駛員要在無人駕駛汽車測試中偽裝成車座？
※美國政府報告怒撅特朗普：全球變暖並非自然現象

TAG:DeepTech深科技 |

您可能感興趣

※DeepMind AlphaStar星際爭霸2首秀：Demo很強大，但現場比賽輸了
※谷歌人工智慧DeepMind與《星際爭霸2》戰隊進行交流
※多圖詳解 DeepMind 的超人類水準星際爭霸 AI「AlphaStar」
※星際爭霸2黃金總決賽4強戰罷 TIME攜TooDming晉級
※DeepMind 科學家：AI對戰星際爭霸勝算幾何？
※《星際爭霸》混音專輯現已登陸Spotify和iTunes
※DeepMind科學家：AI對戰《星際爭霸》勝算幾何？
※RNGChallengeCup星際爭霸2挑戰杯為RTS助威！
※風雨兼程：Toodming 與《星際爭霸II》
※AlphaStar 稱霸星際爭霸2！AI史詩級勝利，DeepMind再度碾壓人類
※DeepMind的AI程序"AlphaStar「參戰」星際爭霸2"，10-1大勝人類玩家
※Mike Morhaime回望《星際爭霸》競技二十周年
※2018 AIIDE星際爭霸AI挑戰賽亞軍CherryPi開源TorchCraftAI
※StarLadder公布新賽事：VP、Gambit基輔爭霸
※DeepMind提出關係性深度強化學習：星際爭霸2任務中獲得最優水平
※AlphaStar對戰《星際爭霸 II》職業高手
※風雨兼程！Toodming與《星際爭霸II》的故事
※DeepMind提出關係性深度強化學習：在星際爭霸2任務中獲得最優水平
※三強爭霸戰？Redmi旗艦、realme手機、榮耀20呼之欲出
※傳聞星際爭霸神族選手中的Bisu、Stork和Jangbi形成了鐵三角？