當前位置:
首頁 > 最新 > Dota2也被AI戰勝了!OpenAI打出4200逆天高分 超過90%人類玩家

Dota2也被AI戰勝了!OpenAI打出4200逆天高分 超過90%人類玩家

智東西(公眾號:zhidxcom)

編 | 心緣

導語:OpenAI研發的AI組成電競戰隊,在5v5點Dota 2開黑對戰中擊敗人類玩家,協作式AI取得突破性進展,計划出征Dota2 TI8國際邀請賽。

智東西6月26日消息,美國時間25日,著名非營利性機構OpenAI宣布人工智慧界的新驚喜:AI已能像人類一樣「組隊」,在5v5對戰中完虐Dota 2人類玩家,並且平均天梯分數超過4200分(超過將近90%的DOTA2玩家,去年中國平均天梯分為3274分)。

OpenAI的支持者、特斯拉創始人伊隆?馬斯克(Elon Musk)表示:「OpenAI首次在競爭激烈的電子競技中擊敗世界頂尖玩家,這遠比圍棋、象棋等傳統棋盤遊戲更加複雜。」

Dota 2是一個非常複雜的實時戰略遊戲。兩個分別由5名玩家組成的隊伍相互進攻,圍剿並摧毀對方玩家的基地。這款遊戲擁有115個可玩英雄,每個英雄都擁有獨特的技能和屬性,這意味著對於人類而言,完美操作應對遊戲的全部可能性基本上是不可能的。然而,AI或許可以打破這一局限性。

Dota 2頂級職業玩家Dendi

去年8月的Dota 2國際邀請賽TI7上,Open AI的機器人在1v1比賽中完虐Dota 2頂級職業玩家Dendi。Dendi是世界知名Dota 2職業選手、solo高手,玩法靈活,經常玩出神級操作,曾帶領Navi戰隊拿下TI1冠軍和TI2、TI3亞軍。在這場人機對戰中,AI的表現相當彪悍,出手嫻熟狠厲,卡兵、壓制、補給等操作樣樣在行,幾乎刀刀致命,就連假動作和秀走位也展現超高水平。AI第一場僅用10分鐘就擊敗Dendi,第二局一開場就進塔強殺Dendi,逼得Dendi直接認輸並拒絕進行第三場比賽。

OpenAI Dota團隊的一個分支,拿著筆記本電腦,去年擊敗了Dota 1v1世界頂級專業玩家。

昨日,OpenAI的AI系統華麗升級,推出OpenAI Five系統首次挑戰5v5團戰,並成功擊敗Open AI內最好的員工團隊。這場比賽由專業評論員Blitz和OpenAI Dota團隊成員Christy Dennison參與評論,並被社區群眾圍觀。

在此次對戰中,團隊降低了一定的團戰難度:其一,對手非頂尖職業選手;其二,AI暫時只會使用5位英雄;其三,要求人類玩家不能使用真假眼。這些限制使得OpenAI Five參與的比賽比最具挑戰性的人類版本更簡單。

迄今為止,OpenAI Five已在和如下團隊發生過對戰:

1、最強OpenAI員工團隊:2500 MMR;

2、觀看OpenAI員工比賽的最強觀眾(包括評論第一場OpenAI員工比賽的Blitz):4000-6000 MMR;

3、 Valve員工團隊:2500-4000 MMR;

4、 業餘隊:4200 MMR,團隊訓練;

5、 半職業隊:5500 MMR,團隊訓練。

其中,MMR(MATCH MAKING RATING)指匹配等級,用來確保玩家能夠和真實實力相近的玩家對抗,並且影響玩家在賽後能夠獲得或者輸掉多少積分。經過一段時間,玩家積分將會逐漸向其隱藏MMR值靠近。

OpenAI Five在4月23日的版本首次擊敗腳本基線,5月15日版本與第一隊平分秋色,贏輸各一場。在6月6日和1-3隊的對決中,新版本OpenAI Five贏得所有比賽。隨後團隊進行了呵4、5隊的非正式比賽,原以為AI會輸,孰料OpenAI Five前三場比賽就打贏兩場。

在比賽中,OpenAI Five為了控制敵方,反覆犧牲自己的安全路徑,迫使對方團隊難以防禦。為了從遊戲早期到中期比對手更快,OpenAI Five做出兩個行動:(1)建立成功的ganks(玩家在地圖上移動以埋伏對手英雄);(2)在對手集合前先行組隊推塔。

GIF

此外,OpenAI Five還有些非主流的打法,比如把前期經驗和錢給輔助英雄。它的優先順序能讓傷害值漲的更快,使其快速贏得團戰。研究團隊稱,OpenAI Five平均每分鐘執行150-170次動作,而理論上每4幀觀察到的最大值是450,這個時間掌控對於人類而言已經趨於完美。OpenAI Five的平均反應時間也比人類更快,僅為80ms。

在OpenAI員工和機器人進行比賽後頒發獎盃,機器人獎盃由其團隊的Susan Zhang代領

專業Dota比賽評論員Blitz表示:「感覺就好像五個知道優秀總體戰略的無私玩家協同合作,機器人的團隊合作令人深受衝擊。」

OpenAI Five通過強化學習實現自我學習,每天通過積累的遊戲經驗需要人類用180年才能獲得,如此「勤學苦練」,擁有超強策略能力似乎也並不是什麼值得意外的事。

五個神經網路組成的團隊大大增加了AI系統對計算能力的需求,OpenAI Five使用在256個GPU和128,000個CPU內核上運行的擴展版近端策略優化進行訓練。對每個英雄使用單獨的LSTM並且不使用人類數據,它學習可識別的策略。

1、模型結構

每個OpenAI Five的網路都包含一個單層有1024個單元的LSTM,它可以通Valve的Bot API查看當前的遊戲狀態,並通過幾個可能的動作做出下一步操作,比如延遲此動作的刻度數量、要選擇的動作數量以及單位周圍網格中此動作的X或Y坐標等等。

GIF

2、勘探環境

為了能夠及時作出有效應變,OpenAI Five需要長期不斷地探索環境。OpenAI Five通過探索獲得對應的獎勵值,以衡量人們在遊戲中做出的進攻、輔助等決定,在減去平均獎勵後為OpenAI Five的下一步行動提供選擇的基準。

3、協調

OpenAI Five的英雄神經網路之間並沒有具體的通信渠道,它們通過被研究人員稱為「團隊精神」的超參數控制團隊合作。「團隊精神」範圍從0到1,對OpenAI Five的每個英雄如何權衡多少個人獎勵與團隊獎勵提供了權值設置,從而使得系統因地制宜地學習新策略。

4、快速

OpenAI Five使用通用RL訓練系統Rapid,研究人員已經使用Rapid解決了OpenAI的競爭性自我對局(Competitive Self-Play)等其他問題。研究團隊使用自己的NCCL2封裝來並行GPU計算和網路數據傳輸,並採用Kubernetes,Azure和GCP後端。


人們提到AI里程碑式的進步,往往會想到AI戰勝國際象棋或圍棋世界冠軍。如今,新的AI的里程碑則是在像StarCraft或Dota 這樣複雜的視頻遊戲中表現超越人類。比傳統棋牌遊戲難度更大的是,複雜的視頻遊戲開始捕捉現實世界的混亂和連續移動。這需要能夠適應這類遊戲規則的系統具有很高的通用性。

玩Dota 2的AI面臨以下幾個難點:

1、持續時間長

Dota遊戲以每秒30幀的速度運行,平均時間為45分鐘,每場遊戲平均80,000幀。OpenAI Five每4幀觀察一次,產生20,000次移動。幾乎所有的舉動是戰略性的。

2、觀察範圍受限

象棋和圍棋都是全信息遊戲,而Dota遊戲中敵人可以隱藏,比賽需要根據不完整的數據進行推斷,並且需要實時掌握對手的狀態信息。AI暫時不具備對視野的控制能力,玩的版本要求雙方只能在遊戲既定視野中對戰,不能根據能力改變視野。

3、高度連續的動作空間

在Dota中,每個英雄可以採取數十個動作。研究人員將每個英雄的空間分割成170,000個可能的行動;不計連續部分,每幀平均有大約1000次有效操作。而圍棋的平均動作數為250步,國際象棋則更少,僅有35步。

4、高維度連續的觀察空間

Dota在包含十個英雄、數十個建築物、幾十個NPC單位以及諸如符文、樹木和病房等一系列遊戲特徵,這些特徵將持續在梯田上移動。OpenAI Five模型通過Valve的Bot API觀察Dota遊戲的狀態,其中大約20,000個浮點數被用於表示允許人類訪問的所有信息。相比之下,國際象棋棋盤大約需70個枚舉值, 一個Go棋盤大約需400個枚舉值。

Dota規則也非常複雜,遊戲已經被開發了十多年,擁有數十萬行複雜代碼。這個邏輯需要幾毫秒的時間才能執行,而對於國際象棋和圍棋而言,只需要幾納秒。此外,遊戲每兩周更新一次,它大環境語義也在不斷改變。針對這些問題,OpenAI Five團隊使用Proximal Policy Optimization的大規模版本進行學習,其使用的CPU、圖形處理器、遊戲每秒觀察數等各種參數都較去年的OpenAI 1v1機器人有了全面的提升。

根據當前版本OpenAI Five的測試比賽表現,評論員Blitz估計它大致是Dota玩家的中間水平。在比賽過程中,研究人員發現,OpenAI Five會做出一些專業策略,比如為了長期的團隊回報而做出暫時的自我犧牲,以殘血將人類玩家誘出高地。這些觀察大大增加了研究人員的信心,對於遊戲中還沒有整合進來的一些元素,他們將在後續儘快加上。


這僅僅是個開始。儘管OpenAI Five還有很大的障礙需要克服,耗費了大量的人力和財力,它的野心又怎麼可能止步於和業餘玩家對局?OpenAI Five的研究團隊稱,他們正在專註於優化系統,希望它能超越人類的表現。

有了去年1v1的完勝成績,今年8月下旬,在加拿大溫哥華舉行的頂級Dota 2賽事TI8上,OpenAI Five將進軍5v5團戰,與真正的專業選手戰隊一決高下。在此之前的7月28日,OpenAI Five會先行與頂級玩家對戰,並通過Twitch的實況轉播和大家見面。

如果OpenAI Five能打出漂亮的一仗,它將分食DeepMind的AlphaGo系列帶給人們的雷霆。真實世界的AI部署要處理的難題遠遠比在國際象棋、圍棋、Atari遊戲中的問題更加複雜,「協作型」AI技將有望學會真實世界中複雜而混亂的重要任務。比如,通過相互配合在在線交易或廣告競價排名中拿下訂單,在組隊完成多樣化生產製造任務,甚至是完成外科手術等等。這些都會使人類雙手得到進一步解放。

OpenAI希望有朝一日,藉助和Dota 2比賽的經驗構建更加通用的系統,為人類社會做出貢獻。

原文來自:OpenAI,The Verge,Financial Times

智東西專業矩陣社群正在招募,旨在為人工智慧從業者、學習者和愛好者搭建一個交流平台。加群方式:微信添加小助手zhidxcom001,準備名片入群。企業工程師優先。

1、AI技術群

(1)AI晶元群

(2)機器學習群

(3)自動駕駛群

2、AI應用群

(1)智能家居群

(2)智能音箱群

(3)AI+安防群

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 智東西 的精彩文章:

斬獲一銀一銅 優必選RoboCup再度載譽歸來
微軟打造全棧式集成平台與工具 降低AI開發門檻

TAG:智東西 |