當前位置:
首頁 > 科技 > 獨家解析:狂虐Dota2最強人類玩家的OpenAI是怎樣煉成的?

獨家解析:狂虐Dota2最強人類玩家的OpenAI是怎樣煉成的?

繼AlphaGo橫掃圍棋界後,人工智慧又攻陷了電競界。在最近的Dota 2比賽中,埃隆·馬斯克旗下AI研究機構OpenAI打造的機器人一鳴驚人,狂虐世界知名Dota選手Dendi,成為在電競領域首個擊敗人類頂級玩家的機器人。

此次人機大戰採取一對一模式,共進行三輪比賽。在第一場對戰中,OpenAI機器人只用了十分鐘就幹掉了Dendi,Dendi甚至還一度大叫,「請放過我吧!」到了第二場比賽,Dendi被痛打幾分鐘後,就主動放棄了比賽,並拒絕進行第三場比賽。

人類又輸了,而且輸得還很慘!那麼問題就來了,這位OpenAI機器人究竟是如何做到完虐人類的呢?答案就是「自學」。

新浪VR了解到,OpenAI機器人採取了「自我博弈(self-play)」的方式來學習打Dota,訓練過程中並沒有使用模仿學習或者類似於AlphaGo的樹搜索技術。簡單來講,「自我博弈」就是通過自己與自己的複製品對打,而不是與人類選手對戰,獲得遊戲經驗。在「自我博弈」中,機器人與自己複製品的實力相當,就可以避免因對手太強或者太弱而學不到東西。而且,由於機器人的決策和操作速度遠遠超過人類,它就可以在短時間內用海量的比賽來迅速獲得更多經驗。

其實,「自我博弈」在此前AlphaGo的訓練中就有過類似應用,AlphaGo曾經通過自我對弈3000萬盤,來提高自己神經網路的精度。只不過,AlphaGo在自我對弈前,還曾被輸入16萬盤人類棋手的棋譜,通過海量棋譜來學習人類落子布局的特徵;而OpenAI則是完全從零開始,在對Dota遊戲世界沒有認知的情況下就開始通過自我對練學習遊戲方法。研發團隊也表示,他們並沒有為OpenAI機器人編入對戰策略,沒有為它指定任何戰術,一開始也沒讓它與人類高手對練,而是讓它「放飛自我」,隨機行動,在一次次失敗過程中逐漸掌握了遊戲打法。

GIF/931K

在最開始的時候,OpenAI機器人完全就是什麼都不懂的「Dota小白」。比如,Dota遊戲裡面有「清理兵線」的操作,但這位機器人卻連什麼是「兵線」都不知道。它所採取的行動也是隨機的,只會在遊戲世界裡毫無目的地到處亂跑,最後被殺掉。

但是,事實證明,「自我博弈」的訓練方式非常有效。隨著時間的推移,機器人訓練數量越來越多,它開始逐漸掌握一些戰術,學會了補刀、追殺、攻擊閃躲、攻擊誘騙等戰術。根據OpenAI在官網公布的項目時間表(如下),在一個月的時間裡,OpenAI機器人就從幾乎不敵高排名選手,成長到可以擊敗頂級職業選手,並且還在提升中。

OpenAI機器人天梯重點大事件(MMR為比賽匹配分級系統,可理解為天梯分):

3月1日:在一個簡單的Dota環境中獲得首個增強學習下的結果,OpenAI機器人操作的黑暗遊俠能對付神牛了。

5月8日:1.5k MMR測試員認為OpenAI機器人還不敵自己。

6月初:打敗1.5k MMR測試員。

6月30日:在大多數比賽中打敗3k MMR測試員。

7月8日:幾乎在所有比賽中勝過7.5K MMR半專業測試員。

8月7日:3-0擊敗Blitz(6.2k前職業選手),2-1擊敗Pajkatt(8.5k職業選手),3-0擊敗CC&C(8.9k職業選手),但大家認為Sumail可以勝過OpenAI機器人。

8月9日:10-0擊敗Arteezy(10k頂級選手),但大家仍然相信Sumail可以勝過OpenAI機器人。

8月10日:6-0擊敗Sumail(8.3k職業選手,頂級1v1玩家),前一日的對戰結果還是2-1。

8月11日:2-0擊敗Dendi(7.3k職業選手,前世界冠軍)。

毫無疑問,OpenAI機器人的進步堪稱神速,在一對一模式下的戰鬥力估計可以秒殺大部分人類玩家,但是,OpenAI機器人也有自己的缺點,它並不是不可戰勝的。在Dendi戰敗後,國外就有不少玩家開始了對OpenAI機器人的挑戰,而OpenAI機器人也不負眾望地被人類狠狠虐了一番。在國外社交網站Reddit上,有玩家表示,OpenAI機器人已經被人類打敗了至少五十次!

對此,OpenAI也在官網上解釋道,如果機器人碰到之前從未見過的情況,可能就會變得懵逼,不知道怎麼反應,最後被人類幹掉。OpenAI也對打敗機器人的方法進行了總結,主要有三種:

拖拉小兵:當小兵通過二級和三級塔之間時,可以反覆攻擊它們,吸引小兵來追你,最終地圖上就會有數十個小兵追逐你,機器人則會因為塔磨損了太多血量而死亡。

毒球+風杖:你在移動速度上可以獲得比1級的機器人更大的優勢,從而迅速獲得第一滴血。

1級交戰:需要很多技巧,少數6-7k的MMR玩家可以在短時間內成功擊中機器人3-5下,在1級時幹掉機器人。

OpenAI機器人被人類狂虐,看似是人類扳回了一局,但是實際上,你每打敗它一次,它都變得更強大了。OpenAI機器人每次被打敗,都會從失敗中學習到更多經驗,從而避免以後被同樣的方式打敗。所以,表面上看是人類打敗了OpenAI機器人,事實卻是人類在幫助它變得更強大!

GIF/767K

而且,OpenAI的野心還不止於此。在此次人機大戰中,OpenAI僅僅是在相對簡單的一對一模式下戰勝了Dendi,如果切換到五對五模式,人工智慧和人類孰勝孰負還不一定呢!因此,OpenAI未來還要繼續挑戰Dota五對五比賽。在五對五模式下,機器人所面對的情況將更加複雜,不僅需要針對當前局勢做出正確的預測和決策,還需要五個機器人做好團隊協作,處理機器人之間的信息流動。雖然每個機器人都是最強的,但五個最強的機器人如果配合不好,也有可能會被打敗。

針對五對五模式,OpenAI透露,他們已經收集了海量專家級別的五對五Dota比賽數據,目前的初步想法是從行為克隆開始做起。OpenAI在官網上表示,Dota每天都有大約一百萬場公開賽,這些比賽的重播數據會在Valve的伺服器上保存兩周。OpenAI從去年11月以來,就一直在下載每場專家級比賽的重播數據,目前已經收集了580萬局遊戲的數據(每局都是10人參與的45分鐘遊戲)。

GIF/965K

除此之外,OpenAI還在考慮未來讓機器人和人類玩家組隊,共同作戰。目前,我們還不能確定,OpenAI機器人是否真能在5V5模式下戰勝人類,但是,難以否認的是,未來將有更多人工智慧效仿OpenAI,試水電競行業,在遊戲中與人類一決高下!一個機器人就已經可以完虐人類最強玩家,五個機器人一起上,你準備好了嗎?

更多閱讀:

全景社交時代正式開啟,你就是下一代網紅!

微軟MR頭顯體驗:順暢運行MR平台,讓開發者領先一步VR電影如何拍?四位VR電影大咖教你怎樣征服威尼斯電影節!


點擊展開全文

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 新浪VR 的精彩文章:

B社公布《上古捲軸》、《毀滅戰士》、《輻射4》VR版上市日期
FreemoVR讓你了解自由運動下的動物腦部活動
AR頭顯Aryzon將用於重現古羅馬歷史
《最終幻想15 VR》將於11月21日正式發售
聚焦底層核心技術:Nibiru將舉行第二屆「N」VR/AR/MR技術高峰論壇

TAG:新浪VR |

您可能感興趣

Google狂虐Intel 發布72量子位處理器
LOL:EDG對戰DFM第一局輕鬆拿下,全程各種越塔狂虐日本隊!
KDA高達45,照樣被KT狂虐!LPL還有機會嗎?
Ipswich男子瘋狂虐貓取樂錄視頻!還大笑不止:「距離沒算好!」
【行情】A11綜合能狂虐驍龍845!三星S9不敵iPhoneX
三星Note 9與LG V40相張對比,看三星如何被LG狂虐
Intel酷睿i3/i5被狂虐,AMD銳龍3 2200G稱霸千元套裝
老外在《Atlas》里被中國玩家狂虐 呼籲趕快推出亞服
別說國產手機欺負你,三星S9被OPPO R15狂虐,還想學小米逆轉?
三星Note9瘋狂虐機測試!看看這次還會爆炸嗎?
埼玉在遊戲中被King狂虐,埼玉:趕緊來幾個怪人,我要發泄
索尼手機上榜DxOMark:排名大跌眼鏡!僅有57分華為狂虐
《Produce 48》初舞台公開!日本成員顏值被評狂虐韓國練習生
歐美評選新番CPTOP10 第一狂虐單身狗
射擊大作《狂怒2》新預告 戰鬥Combo爽爆狂虐敵人
玩家單人重弩狂虐《怪物獵人:世界》最終BOSS
洛克王國:狂虐4000血boss,誰嘲笑布萊克岩是遠古戰神?
僅差300元!「遊戲黨寵兒」iQOO卻被魅族16S「狂虐」?
扎心 新iPhone X被曝棄高通基帶 上網速度被安卓狂虐
賽爾號中進化後的米瑞斯有多bug?這5隻精靈中的強者都被狂虐!