OpanAI公布Dota AI比賽細節，自我對局讓它超越人類

新聞 08-18

在攻克了圍棋以後，人工智慧研究者們似乎不約而同地把電子競技遊戲作為了下一個練兵場。雷鋒網上周報道，在Dota2國際邀請賽TI7上，OpenAI率先展示了自己的成果，在西雅圖讓AI在1v1比賽中擊敗了職業選手，又一次點燃了關於AI的討論。

雷鋒網對比賽結果也進行了諸多分析，就目前的資料來看，其實1v1比賽可能較圍棋來得簡單，在1v1比賽中取勝，也不能說明在5v5的完整比賽中能戰勝人類，人類還保有一定的尊嚴。

經過約一周的時間，，不過它還是有所保留，沒有說明技術細節。最後，他們還說到最終的目的就是在5v5比賽中戰勝人類。

OpanAI公布Dota AI比賽細節，自我對局讓它超越人類

上圖是遊戲AI的TrueSkill評級（類似於國際象棋中的ELO評級）分數變化，計算方式是模擬AI之間的遊戲對局，並觀察勝率。TrueSkill系統是基於貝葉斯推斷的評分系統，由微軟研究院開發，主要用於多人遊戲匹配。這套評分系統考慮到了玩家水平的不確定性，綜合考慮了玩家的勝率和可能的水平漲落，而不是簡單的基於勝率的評分。

圖中顯示的變化趨勢是線性的，這意味著AI的提升水平呈指數級增長。

OpenAI還具體介紹了項目的開發時間表。從某種角度看，15％的玩家低於1.5K MMR，58％的玩家低於3k，而99.99％低於7.5k。

MMR是比賽匹配分級系統，全稱是match making ranking，簡單理解就是Dota中常說的天梯分。

3月1日：在簡單的Dota環境中得到了第一個經典強化學習下的結果，AI操作的黑暗遊俠可以對付神牛了。
5月8日：1.5k MMR水平的測試員說自己的速度比AI要快。
6月初：擊敗1.5k MMR水平的測試者
6月30日：在與3k MMR測試者的比賽中多數會贏
7月8日：對戰7.5K MMR水平的半專業測試者，終於贏了一次。
8月7日：3-0擊敗Blitz（6.2k的前職業選手），2-1擊敗Pajkatt（8.5k的職業選手），3-0擊敗CC＆C（8.9k的職業選手），不過大家都認為，系統還是打不過頂尖選手Sumail。
8月9日：10-0擊敗Arteezy（10k職業選手）10-0，但他還是認為系統搞不定Sumail。
8月10日：6-0擊敗Sumail（8.3k職業選手，頂級1v1玩家），不過在與8月9日版的系統對戰結果是2-1。
8月11日：2-0擊敗Dendi（7.3k職業選手，前世界冠軍）2-0。這個時候的系統對戰前一天的版本，勝率是60％。

OpanAI公布Dota AI比賽細節，自我對局讓它超越人類

AI與Sumail比賽

完整的比賽是5v5版本的，不過1v1也出現在一些錦標賽中。OpenAI寫到，系統是在標準比賽規則下對戰的，在1v1中沒有為AI做特別的簡化。

系統的操作環境如下：

觀察：使用遊戲的Bot API介面，功能集與視角和人類玩家的一樣，會受英雄，小兵，信使和附近地形的影響。整個遊戲對AI系統來說是部分可觀察的。
操作：也是調用Bot API，操作頻率被限定在與人類水平相當，這包括移動到某個位置，攻擊或使用某個物品的頻率。
反饋：系統在贏得比賽後會得到獎勵，其它一些基本指標，如英雄的生命狀態和最後一擊等，也會影響獎勵。

系統還可以選擇使用的幾十個裝備道具，選擇後會有評估。OpenAI還用了傳統的強化技術單獨訓練開局前的擋兵，這基本是1v1的標準操作。

OpanAI公布Dota AI比賽細節，自我對局讓它超越人類

AI與Arteezy比賽

OpenAI稱，他們使用的方法結合了少量的「教練」式訓練與自我對戰，每天都能有很大的提升。比如在TI比賽的那段時間，周一晚上的時候Pajkatt還打贏了系統，當時他使用了一個不尋常的裝備，即在早期購買了魔棒。後來OpenAI將這種操作加到了培訓當中。

星期三下午OpenAI再次測試了最新的系統。比賽中AI在第一波攻擊中就掉了一大半血，正當研究人員覺得要把系統回復了原先版本的時候，他們注意到了驚人的發展，原來第一波攻擊是在誘使對方採用更激進的攻擊方式。系統進一步的自我對局逐漸解決了這個問題，並學會了抵制引誘策略。

在與Arteezy的比賽之後，OpenAI更新了擋兵模型，讓系統的TrueSkill分增加了一點。然後在與Sumail比賽之前又進行了進一步訓練，把TrueSkill分增加了兩點。Sumail比完後說，AI甚至學會了在敵方的視線之外壓影炮，這樣可以打斷敵人在視野之外的回復。

Arteezy還與OpenAI的7.5k評級半專業測試員打了一場比賽。Arteezy贏了比賽，但測試人員用了從AI系統那學的一招，著實讓人吃驚。Arteezy後來說，這是他以前與Paparazi比賽時對方用過的招數，很少有人會用。

這種情況在圍棋中也曾出現過，當AlphaGo戰勝李世石後，再到它與柯潔的比賽，人類棋手也越來越多地開始學習它的布局與下法。

Sumail在對戰後說，AI系統是「不可戰勝的」，但它仍然會在與之前遇到過的狀況非常不同的情況下不知混所措。在TI的比賽那段時間，OpenAI還設了一次區域網比賽讓很多人參加進來，以各種方式與AI系統對戰，總共收集了1000多次比賽數據。最終還是發現了不少系統的破綻，可以戰勝它，主要有三類：

引兵：當小兵進攻的時候，可以不斷攻擊它們吸引火力，讓他們跟著你跑，這樣可以導致AI一方的防衛塔被小兵消耗而亡。
淬毒之珠+風靈之紋：買這兩個裝備可以在1級的時候帶來很大的移動速度優勢，這樣可以快速拿AI的一血。有了這樣好的開始戰勝電腦就很容易了。
1級影壓：用這一條戰勝電腦需要不少技巧，不過根據OpenAI的說法，有幾個6-7k水平的玩家能夠在較短時間內壓3-5記影炮，在1級的時候就殺死AI系統。

以上都是在1v1比賽中的小bug，很容易修復錯誤。但是對於5v5比賽來說，這樣的問題根本就不是漏洞了，這時候需要的是一個可以處理突發且怪異情況的系統。

最後，OpenAI表示還沒有準備好對外公布開發的AI代理的具體構造，團隊的重點是首先解決5v5比賽。如果說1v1比賽很複雜，那5v5比賽就是複雜的集合，而解決這一問題會進一步推動AI的進步。

OpenAI認為，一個比較好的著手方式是行為克隆。Dota每天有大約一百萬場公開賽，這些比賽的重播數據會被存儲在Valve的伺服器上兩周。雷鋒網了解到，自去年11月以來，OpenAI一直在下載每位專家級別玩家的重播數據，已經收集了580萬局遊戲的數據（每局都是10人參與的45分鐘遊戲）。

OpenAI的Dota 2系統表明，如果有充分的計算，自我對局可以將機器學習系統的性能從遠低於人類的水平提高到超越人類。在一個月的時間裡，它們的系統就從比不上高水平玩家，發展到了擊敗頂級職業選手，而且還在繼續提升。有監督深度學習系統只能與培訓數據集一樣好，但在自我對局系統中，隨著代理越來越好，可用數據會自動提升。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 雷鋒網 的精彩文章:

※可拆卸方向盤和制動踏板，福特新專利為真正無人駕駛汽車做準備
※為什麼說，華爾街投行的AI金融交易機器並非那麼高大上？

TAG:雷鋒網 |

您可能感興趣

※Google AI在現場比賽期間預測NCAA Final Four的獲勝者
※Resolution掌控比賽！DOTA2 MDL特錦賽VGJ.S晉級總決賽
※Daytona比賽已開始！GTLM組別分析在這裡……
※火貓再辦DOTA2比賽，GESC Minor和ESL One Major本月來襲
※《Dota2》AI靠作弊戰勝人類？AI專家稱比賽不公平
※NextVR登錄Viveport，可用HTC Vive觀看NBA比賽直播
※「MD PHOTO」韓國女藝人 Stephanie Lee任棒球比賽開球嘉賓
※DOTA2：ROCK.Y對陣Ulrica互飆演技打出「神奇」比賽，已介入調查
※Dal shabet優熙入選Unit G 回顧比賽歷程感慨萬分
※Facebook開源看圖問答模型Pythia：拿下VQA比賽冠軍就靠它
※Magic Leap與NBA合作，為球迷帶來沉浸式比賽觀影
※阿里體育與Super Evil合作，MOBA手游《虛榮》將成為WESG比賽項目
※超燃Cosplay比賽＋AI前沿，感受極致顛覆，快來pick me！
※Empire State Realty Trust宣布年度「帝國大廈時刻」攝影比賽
※Jordan品牌NBA明星賽球衣第一次Jumpman標誌比賽
※Ryu：每次KT輸比賽我就會去嘲笑Score
※LPL比賽很妖LCK更邪 Faker成功打哭Bang
※Kaggle Carvana 圖像分割比賽冠軍模型 TernausNet 解讀
※NBA 2K聯盟：今後全部比賽將在WindowsPC獨家舉辦
※Magic Leap與NBA達成合作戴AR眼鏡也能看籃球比賽