Dota2也被AI戰勝了！OpenAI打出4200逆天高分超過90％人類玩家

最新 06-26

智東西(公眾號:zhidxcom)

編 | 心緣

導語：OpenAI研發的AI組成電競戰隊，在5v5點Dota 2開黑對戰中擊敗人類玩家，協作式AI取得突破性進展，計划出征Dota2 TI8國際邀請賽。

智東西6月26日消息，美國時間25日，著名非營利性機構OpenAI宣布人工智慧界的新驚喜：AI已能像人類一樣「組隊」，在5v5對戰中完虐Dota 2人類玩家，並且平均天梯分數超過4200分（超過將近90%的DOTA2玩家，去年中國平均天梯分為3274分）。

OpenAI的支持者、特斯拉創始人伊隆?馬斯克（Elon Musk）表示：「OpenAI首次在競爭激烈的電子競技中擊敗世界頂尖玩家，這遠比圍棋、象棋等傳統棋盤遊戲更加複雜。」

Dota 2是一個非常複雜的實時戰略遊戲。兩個分別由5名玩家組成的隊伍相互進攻，圍剿並摧毀對方玩家的基地。這款遊戲擁有115個可玩英雄，每個英雄都擁有獨特的技能和屬性，這意味著對於人類而言，完美操作應對遊戲的全部可能性基本上是不可能的。然而，AI或許可以打破這一局限性。

Dota 2頂級職業玩家Dendi

去年8月的Dota 2國際邀請賽TI7上，Open AI的機器人在1v1比賽中完虐Dota 2頂級職業玩家Dendi。Dendi是世界知名Dota 2職業選手、solo高手，玩法靈活，經常玩出神級操作，曾帶領Navi戰隊拿下TI1冠軍和TI2、TI3亞軍。在這場人機對戰中，AI的表現相當彪悍，出手嫻熟狠厲，卡兵、壓制、補給等操作樣樣在行，幾乎刀刀致命，就連假動作和秀走位也展現超高水平。AI第一場僅用10分鐘就擊敗Dendi，第二局一開場就進塔強殺Dendi，逼得Dendi直接認輸並拒絕進行第三場比賽。

OpenAI Dota團隊的一個分支，拿著筆記本電腦，去年擊敗了Dota 1v1世界頂級專業玩家。

昨日，OpenAI的AI系統華麗升級，推出OpenAI Five系統首次挑戰5v5團戰，並成功擊敗Open AI內最好的員工團隊。這場比賽由專業評論員Blitz和OpenAI Dota團隊成員Christy Dennison參與評論，並被社區群眾圍觀。

在此次對戰中，團隊降低了一定的團戰難度：其一，對手非頂尖職業選手；其二，AI暫時只會使用5位英雄；其三，要求人類玩家不能使用真假眼。這些限制使得OpenAI Five參與的比賽比最具挑戰性的人類版本更簡單。

迄今為止，OpenAI Five已在和如下團隊發生過對戰：

1、最強OpenAI員工團隊：2500 MMR；

2、觀看OpenAI員工比賽的最強觀眾（包括評論第一場OpenAI員工比賽的Blitz）：4000-6000 MMR；

3、 Valve員工團隊：2500-4000 MMR；

4、業餘隊：4200 MMR，團隊訓練；

5、半職業隊：5500 MMR，團隊訓練。

其中，MMR（MATCH MAKING RATING）指匹配等級，用來確保玩家能夠和真實實力相近的玩家對抗，並且影響玩家在賽後能夠獲得或者輸掉多少積分。經過一段時間，玩家積分將會逐漸向其隱藏MMR值靠近。

OpenAI Five在4月23日的版本首次擊敗腳本基線，5月15日版本與第一隊平分秋色，贏輸各一場。在6月6日和1-3隊的對決中，新版本OpenAI Five贏得所有比賽。隨後團隊進行了呵4、5隊的非正式比賽，原以為AI會輸，孰料OpenAI Five前三場比賽就打贏兩場。

在比賽中，OpenAI Five為了控制敵方，反覆犧牲自己的安全路徑，迫使對方團隊難以防禦。為了從遊戲早期到中期比對手更快，OpenAI Five做出兩個行動：（1）建立成功的ganks（玩家在地圖上移動以埋伏對手英雄）；（2）在對手集合前先行組隊推塔。

GIF

此外，OpenAI Five還有些非主流的打法，比如把前期經驗和錢給輔助英雄。它的優先順序能讓傷害值漲的更快，使其快速贏得團戰。研究團隊稱，OpenAI Five平均每分鐘執行150-170次動作，而理論上每4幀觀察到的最大值是450，這個時間掌控對於人類而言已經趨於完美。OpenAI Five的平均反應時間也比人類更快，僅為80ms。

在OpenAI員工和機器人進行比賽後頒發獎盃，機器人獎盃由其團隊的Susan Zhang代領

專業Dota比賽評論員Blitz表示：「感覺就好像五個知道優秀總體戰略的無私玩家協同合作，機器人的團隊合作令人深受衝擊。」

OpenAI Five通過強化學習實現自我學習，每天通過積累的遊戲經驗需要人類用180年才能獲得，如此「勤學苦練」，擁有超強策略能力似乎也並不是什麼值得意外的事。

五個神經網路組成的團隊大大增加了AI系統對計算能力的需求，OpenAI Five使用在256個GPU和128,000個CPU內核上運行的擴展版近端策略優化進行訓練。對每個英雄使用單獨的LSTM並且不使用人類數據，它學習可識別的策略。

1、模型結構

每個OpenAI Five的網路都包含一個單層有1024個單元的LSTM，它可以通Valve的Bot API查看當前的遊戲狀態，並通過幾個可能的動作做出下一步操作，比如延遲此動作的刻度數量、要選擇的動作數量以及單位周圍網格中此動作的X或Y坐標等等。

GIF

2、勘探環境

為了能夠及時作出有效應變，OpenAI Five需要長期不斷地探索環境。OpenAI Five通過探索獲得對應的獎勵值，以衡量人們在遊戲中做出的進攻、輔助等決定，在減去平均獎勵後為OpenAI Five的下一步行動提供選擇的基準。

3、協調

OpenAI Five的英雄神經網路之間並沒有具體的通信渠道，它們通過被研究人員稱為「團隊精神」的超參數控制團隊合作。「團隊精神」範圍從0到1，對OpenAI Five的每個英雄如何權衡多少個人獎勵與團隊獎勵提供了權值設置，從而使得系統因地制宜地學習新策略。

4、快速

OpenAI Five使用通用RL訓練系統Rapid，研究人員已經使用Rapid解決了OpenAI的競爭性自我對局（Competitive Self-Play）等其他問題。研究團隊使用自己的NCCL2封裝來並行GPU計算和網路數據傳輸，並採用Kubernetes，Azure和GCP後端。

人們提到AI里程碑式的進步，往往會想到AI戰勝國際象棋或圍棋世界冠軍。如今，新的AI的里程碑則是在像StarCraft或Dota 這樣複雜的視頻遊戲中表現超越人類。比傳統棋牌遊戲難度更大的是，複雜的視頻遊戲開始捕捉現實世界的混亂和連續移動。這需要能夠適應這類遊戲規則的系統具有很高的通用性。

玩Dota 2的AI面臨以下幾個難點：

1、持續時間長

Dota遊戲以每秒30幀的速度運行，平均時間為45分鐘，每場遊戲平均80,000幀。OpenAI Five每4幀觀察一次，產生20,000次移動。幾乎所有的舉動是戰略性的。

2、觀察範圍受限

象棋和圍棋都是全信息遊戲，而Dota遊戲中敵人可以隱藏，比賽需要根據不完整的數據進行推斷，並且需要實時掌握對手的狀態信息。AI暫時不具備對視野的控制能力，玩的版本要求雙方只能在遊戲既定視野中對戰，不能根據能力改變視野。

3、高度連續的動作空間

在Dota中，每個英雄可以採取數十個動作。研究人員將每個英雄的空間分割成170,000個可能的行動；不計連續部分，每幀平均有大約1000次有效操作。而圍棋的平均動作數為250步，國際象棋則更少，僅有35步。

4、高維度連續的觀察空間

Dota在包含十個英雄、數十個建築物、幾十個NPC單位以及諸如符文、樹木和病房等一系列遊戲特徵，這些特徵將持續在梯田上移動。OpenAI Five模型通過Valve的Bot API觀察Dota遊戲的狀態，其中大約20,000個浮點數被用於表示允許人類訪問的所有信息。相比之下，國際象棋棋盤大約需70個枚舉值，一個Go棋盤大約需400個枚舉值。

Dota規則也非常複雜，遊戲已經被開發了十多年，擁有數十萬行複雜代碼。這個邏輯需要幾毫秒的時間才能執行，而對於國際象棋和圍棋而言，只需要幾納秒。此外，遊戲每兩周更新一次，它大環境語義也在不斷改變。針對這些問題，OpenAI Five團隊使用Proximal Policy Optimization的大規模版本進行學習，其使用的CPU、圖形處理器、遊戲每秒觀察數等各種參數都較去年的OpenAI 1v1機器人有了全面的提升。

根據當前版本OpenAI Five的測試比賽表現，評論員Blitz估計它大致是Dota玩家的中間水平。在比賽過程中，研究人員發現，OpenAI Five會做出一些專業策略，比如為了長期的團隊回報而做出暫時的自我犧牲，以殘血將人類玩家誘出高地。這些觀察大大增加了研究人員的信心，對於遊戲中還沒有整合進來的一些元素，他們將在後續儘快加上。

這僅僅是個開始。儘管OpenAI Five還有很大的障礙需要克服，耗費了大量的人力和財力，它的野心又怎麼可能止步於和業餘玩家對局？OpenAI Five的研究團隊稱，他們正在專註於優化系統，希望它能超越人類的表現。

有了去年1v1的完勝成績，今年8月下旬，在加拿大溫哥華舉行的頂級Dota 2賽事TI8上，OpenAI Five將進軍5v5團戰，與真正的專業選手戰隊一決高下。在此之前的7月28日，OpenAI Five會先行與頂級玩家對戰，並通過Twitch的實況轉播和大家見面。

如果OpenAI Five能打出漂亮的一仗，它將分食DeepMind的AlphaGo系列帶給人們的雷霆。真實世界的AI部署要處理的難題遠遠比在國際象棋、圍棋、Atari遊戲中的問題更加複雜，「協作型」AI技將有望學會真實世界中複雜而混亂的重要任務。比如，通過相互配合在在線交易或廣告競價排名中拿下訂單，在組隊完成多樣化生產製造任務，甚至是完成外科手術等等。這些都會使人類雙手得到進一步解放。

OpenAI希望有朝一日，藉助和Dota 2比賽的經驗構建更加通用的系統，為人類社會做出貢獻。

原文來自：OpenAI，The Verge，Financial Times

智東西專業矩陣社群正在招募，旨在為人工智慧從業者、學習者和愛好者搭建一個交流平台。加群方式：微信添加小助手zhidxcom001，準備名片入群。企業工程師優先。

1、AI技術群

（1）AI晶元群

（2）機器學習群

（3）自動駕駛群

2、AI應用群

（1）智能家居群

（2）智能音箱群

（3）AI+安防群

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 智東西 的精彩文章:

※斬獲一銀一銅優必選RoboCup再度載譽歸來
※微軟打造全棧式集成平台與工具降低AI開發門檻

TAG:智東西 |

Dota2也被AI戰勝了！OpenAI打出4200逆天高分超過90％人類玩家

一、AI團戰首秀，表現神乎其技

二、「刻苦」學習：每天玩180年的遊戲

三、挑戰比AlphaGo更高的難度

結語：劍指TI8，我們的目標是星辰大海

Dota2也被AI戰勝了！OpenAI打出4200逆天高分 超過90％人類玩家

一、AI團戰首秀，表現神乎其技

二、「刻苦」學習：每天玩180年的遊戲

三、挑戰比AlphaGo更高的難度

結語：劍指TI8，我們的目標是星辰大海

Dota2也被AI戰勝了！OpenAI打出4200逆天高分超過90％人類玩家