獨家解析：狂虐Dota2最強人類玩家的OpenAI是怎樣煉成的？

科技 08-23

繼AlphaGo橫掃圍棋界後，人工智慧又攻陷了電競界。在最近的Dota 2比賽中，埃隆·馬斯克旗下AI研究機構OpenAI打造的機器人一鳴驚人，狂虐世界知名Dota選手Dendi，成為在電競領域首個擊敗人類頂級玩家的機器人。

此次人機大戰採取一對一模式，共進行三輪比賽。在第一場對戰中，OpenAI機器人只用了十分鐘就幹掉了Dendi，Dendi甚至還一度大叫，「請放過我吧！」到了第二場比賽，Dendi被痛打幾分鐘後，就主動放棄了比賽，並拒絕進行第三場比賽。

人類又輸了，而且輸得還很慘！那麼問題就來了，這位OpenAI機器人究竟是如何做到完虐人類的呢？答案就是「自學」。

新浪VR了解到，OpenAI機器人採取了「自我博弈（self-play）」的方式來學習打Dota，訓練過程中並沒有使用模仿學習或者類似於AlphaGo的樹搜索技術。簡單來講，「自我博弈」就是通過自己與自己的複製品對打，而不是與人類選手對戰，獲得遊戲經驗。在「自我博弈」中，機器人與自己複製品的實力相當，就可以避免因對手太強或者太弱而學不到東西。而且，由於機器人的決策和操作速度遠遠超過人類，它就可以在短時間內用海量的比賽來迅速獲得更多經驗。

其實，「自我博弈」在此前AlphaGo的訓練中就有過類似應用，AlphaGo曾經通過自我對弈3000萬盤，來提高自己神經網路的精度。只不過，AlphaGo在自我對弈前，還曾被輸入16萬盤人類棋手的棋譜，通過海量棋譜來學習人類落子布局的特徵；而OpenAI則是完全從零開始，在對Dota遊戲世界沒有認知的情況下就開始通過自我對練學習遊戲方法。研發團隊也表示，他們並沒有為OpenAI機器人編入對戰策略，沒有為它指定任何戰術，一開始也沒讓它與人類高手對練，而是讓它「放飛自我」，隨機行動，在一次次失敗過程中逐漸掌握了遊戲打法。

GIF/931K

在最開始的時候，OpenAI機器人完全就是什麼都不懂的「Dota小白」。比如，Dota遊戲裡面有「清理兵線」的操作，但這位機器人卻連什麼是「兵線」都不知道。它所採取的行動也是隨機的，只會在遊戲世界裡毫無目的地到處亂跑，最後被殺掉。

但是，事實證明，「自我博弈」的訓練方式非常有效。隨著時間的推移，機器人訓練數量越來越多，它開始逐漸掌握一些戰術，學會了補刀、追殺、攻擊閃躲、攻擊誘騙等戰術。根據OpenAI在官網公布的項目時間表（如下），在一個月的時間裡，OpenAI機器人就從幾乎不敵高排名選手，成長到可以擊敗頂級職業選手，並且還在提升中。

OpenAI機器人天梯重點大事件（MMR為比賽匹配分級系統，可理解為天梯分）：

3月1日：在一個簡單的Dota環境中獲得首個增強學習下的結果，OpenAI機器人操作的黑暗遊俠能對付神牛了。

5月8日：1.5k MMR測試員認為OpenAI機器人還不敵自己。

6月初：打敗1.5k MMR測試員。

6月30日：在大多數比賽中打敗3k MMR測試員。

7月8日：幾乎在所有比賽中勝過7.5K MMR半專業測試員。

8月7日：3-0擊敗Blitz（6.2k前職業選手），2-1擊敗Pajkatt（8.5k職業選手），3-0擊敗CC＆C（8.9k職業選手），但大家認為Sumail可以勝過OpenAI機器人。

8月9日：10-0擊敗Arteezy（10k頂級選手），但大家仍然相信Sumail可以勝過OpenAI機器人。

8月10日：6-0擊敗Sumail（8.3k職業選手，頂級1v1玩家），前一日的對戰結果還是2-1。

8月11日：2-0擊敗Dendi（7.3k職業選手，前世界冠軍）。

毫無疑問，OpenAI機器人的進步堪稱神速，在一對一模式下的戰鬥力估計可以秒殺大部分人類玩家，但是，OpenAI機器人也有自己的缺點，它並不是不可戰勝的。在Dendi戰敗後，國外就有不少玩家開始了對OpenAI機器人的挑戰，而OpenAI機器人也不負眾望地被人類狠狠虐了一番。在國外社交網站Reddit上，有玩家表示，OpenAI機器人已經被人類打敗了至少五十次！

對此，OpenAI也在官網上解釋道，如果機器人碰到之前從未見過的情況，可能就會變得懵逼，不知道怎麼反應，最後被人類幹掉。OpenAI也對打敗機器人的方法進行了總結，主要有三種：

拖拉小兵：當小兵通過二級和三級塔之間時，可以反覆攻擊它們，吸引小兵來追你，最終地圖上就會有數十個小兵追逐你，機器人則會因為塔磨損了太多血量而死亡。

毒球+風杖：你在移動速度上可以獲得比1級的機器人更大的優勢，從而迅速獲得第一滴血。

1級交戰：需要很多技巧，少數6-7k的MMR玩家可以在短時間內成功擊中機器人3-5下，在1級時幹掉機器人。

OpenAI機器人被人類狂虐，看似是人類扳回了一局，但是實際上，你每打敗它一次，它都變得更強大了。OpenAI機器人每次被打敗，都會從失敗中學習到更多經驗，從而避免以後被同樣的方式打敗。所以，表面上看是人類打敗了OpenAI機器人，事實卻是人類在幫助它變得更強大！

GIF/767K

而且，OpenAI的野心還不止於此。在此次人機大戰中，OpenAI僅僅是在相對簡單的一對一模式下戰勝了Dendi，如果切換到五對五模式，人工智慧和人類孰勝孰負還不一定呢！因此，OpenAI未來還要繼續挑戰Dota五對五比賽。在五對五模式下，機器人所面對的情況將更加複雜，不僅需要針對當前局勢做出正確的預測和決策，還需要五個機器人做好團隊協作，處理機器人之間的信息流動。雖然每個機器人都是最強的，但五個最強的機器人如果配合不好，也有可能會被打敗。

針對五對五模式，OpenAI透露，他們已經收集了海量專家級別的五對五Dota比賽數據，目前的初步想法是從行為克隆開始做起。OpenAI在官網上表示，Dota每天都有大約一百萬場公開賽，這些比賽的重播數據會在Valve的伺服器上保存兩周。OpenAI從去年11月以來，就一直在下載每場專家級比賽的重播數據，目前已經收集了580萬局遊戲的數據（每局都是10人參與的45分鐘遊戲）。

GIF/965K

除此之外，OpenAI還在考慮未來讓機器人和人類玩家組隊，共同作戰。目前，我們還不能確定，OpenAI機器人是否真能在5V5模式下戰勝人類，但是，難以否認的是，未來將有更多人工智慧效仿OpenAI，試水電競行業，在遊戲中與人類一決高下！一個機器人就已經可以完虐人類最強玩家，五個機器人一起上，你準備好了嗎？

更多閱讀：

全景社交時代正式開啟，你就是下一代網紅！

微軟MR頭顯體驗：順暢運行MR平台，讓開發者領先一步VR電影如何拍？四位VR電影大咖教你怎樣征服威尼斯電影節！

點擊展開全文

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 新浪VR 的精彩文章:

※B社公布《上古捲軸》、《毀滅戰士》、《輻射4》VR版上市日期
※FreemoVR讓你了解自由運動下的動物腦部活動
※AR頭顯Aryzon將用於重現古羅馬歷史
※《最終幻想15 VR》將於11月21日正式發售
※聚焦底層核心技術：Nibiru將舉行第二屆「N」VR/AR/MR技術高峰論壇

TAG:新浪VR |

您可能感興趣

※Google狂虐Intel 發布72量子位處理器
※LOL：EDG對戰DFM第一局輕鬆拿下，全程各種越塔狂虐日本隊！
※KDA高達45，照樣被KT狂虐！LPL還有機會嗎？
※Ipswich男子瘋狂虐貓取樂錄視頻！還大笑不止：「距離沒算好！」
※【行情】A11綜合能狂虐驍龍845！三星S9不敵iPhoneX
※三星Note 9與LG V40相張對比，看三星如何被LG狂虐
※Intel酷睿i3/i5被狂虐，AMD銳龍3 2200G稱霸千元套裝
※老外在《Atlas》里被中國玩家狂虐呼籲趕快推出亞服
※別說國產手機欺負你，三星S9被OPPO R15狂虐，還想學小米逆轉？
※三星Note9瘋狂虐機測試！看看這次還會爆炸嗎？
※埼玉在遊戲中被King狂虐，埼玉：趕緊來幾個怪人，我要發泄
※索尼手機上榜DxOMark：排名大跌眼鏡！僅有57分華為狂虐
※《Produce 48》初舞台公開！日本成員顏值被評狂虐韓國練習生
※歐美評選新番CPTOP10 第一狂虐單身狗
※射擊大作《狂怒2》新預告戰鬥Combo爽爆狂虐敵人
※玩家單人重弩狂虐《怪物獵人：世界》最終BOSS
※洛克王國：狂虐4000血boss，誰嘲笑布萊克岩是遠古戰神？
※僅差300元！「遊戲黨寵兒」iQOO卻被魅族16S「狂虐」？
※扎心新iPhone X被曝棄高通基帶上網速度被安卓狂虐
※賽爾號中進化後的米瑞斯有多bug？這5隻精靈中的強者都被狂虐！