當前位置:
首頁 > 娛樂 > 想當AlphaGo的 Open AI,玩刀塔時為何又慘敗給人類了?

想當AlphaGo的 Open AI,玩刀塔時為何又慘敗給人類了?

作者/朱濤偉

比賽時間終結在了45分鐘,Open AI今日再次慘敗,而它的對手是來自中國的Dota2 Superstar戰隊。

想當AlphaGo的 Open AI,玩刀塔時為何又慘敗給人類了?

跟昨日(8月23號)Open AI對戰的世界排名前18的paiN 職業戰隊不同,中國的Superstar戰隊成員由現任、前任職業選手、教練員組成。當然,不管是剛退役的Xiao8(張寧),還是教練ROTK(白帆),他們曾都是TI系列賽上冠軍隊的成員,實力多位於9000分以上的大師級段位,與paiN戰隊實力不分伯仲。

參照賽前OpenAI與V社協商的BO3賽制,在如今0:2落後人類的情況下,這意味著早間的比賽大概率相當於謝幕戰,OpenAI Five征戰Dota2的腳步或將就此止步。

坦白說,第一場比賽後,OpenAI Five進行了相應的調整,增強了對線能力,團戰時的表現也有所進步。不過單就結果而言,OpenAI Five round two比賽用時竟然比round one還加快了6分鐘。

到底OpenAI Five失利後進行了哪些修正,它從單個bot到5個bot的探索又經歷了何種曲折,未來OpenAI會在擴容英雄池、移除遊戲限制上做哪些規劃?下文將一一揭曉。

想當AlphaGo的 Open AI,玩刀塔時為何又慘敗給人類了?

OpenAI Five做出了改變,但比賽依舊輸了

兩場比賽仍舊不能自由BP,只是調換了對線陣容。OpenAI Five的陣容為:惡魔巫師、瘟疫法師、巫醫、狙擊手、斧王;Superstar戰隊的陣容為:直升機、巫妖、死亡先知、寒冰室女、潮汐獵人。

此外被Dota2玩家詬病的限制條件依舊存在,比如沒有聖劍、分身、幻像,2、3、4號位為不能買增加遊走能力的魔瓶等。

不過相較於對陣paiN早期的慌亂,OpenAI Five在跟Superstar早期對線上還是長近了不少。比賽進行到2分鐘時,OpenAI Five就拿下了下路一塔,並迅速遊走伺機gank,人頭數領先人類方。賽程進行到5分鐘時,OpenAI Five還採取了一波5人集體推中塔的策略,在擊殺人類方死亡先知後,開始撤退,彼時的人頭數為3:7,人類方落後。期間OpenAI Five還使用了聊天輪盤發送了全局語音,這是第一場比賽中沒有過的。

OpenAI Five的優勢一直保持到了比賽前20分鐘,而後情勢開始掉頭往下。

在比賽22分鐘時,雙方再次爆發團戰,不過人類方取得了勝利,OpenAI Five被團滅,人頭數上雙方接近一致。與之相對的是,人類方經濟已經領先OpenAI Five 5000。

隨後人類玩家開始不斷Gank,OpenAI Five招架不住,經濟差進一步擴大,到了31分鐘,人類方經濟優勢已經領先1萬,緊接著推掉了OpenAI Five所有外塔。比賽行至45分鐘時,死亡先知釋放大招封住了OpenAI Five出家門的路線,最終人類方再次團滅OpenAI Five,取得勝利。

其實比賽前20分鐘,OpenAI Five在對線、Gank上均表現不錯,然而比賽中後期它對經濟資源分配,打團還是打野發育經濟的時機選擇上,依舊顯得蹩腳。老毛病也是不少。OpenAI Five在對陣paiN時就喜歡在塔下不斷插眼,與Superstar開局前52秒就在自家高地上插了一個無用眼,浪費資源。總得來說,OpenAI Five對資源位的理解,以及綜合運營策略上不如人類。

想當AlphaGo的 Open AI,玩刀塔時為何又慘敗給人類了?

從1V1進化到5V5,OpenAI 挫折中前行

想當AlphaGo的 Open AI,玩刀塔時為何又慘敗給人類了?

被人類碾壓的滋味,OpenAI Five不是沒有嘗過。

早在8月5號的公開benchmark中,OpenAI Five與Dota2排名前15000名的Blitz、 Cap、 Fogged等五人較量。期間,總共進行了四場比賽,OpenAI Five輸掉了由觀眾pick英雄的比賽。

當時人類方的陣容為死亡先知、死靈法師、萊恩、巫妖、直升機,而OpenAI Five的英雄分別是流浪、斧王、隱刺、小魚人以及痛苦女王。這套陣容一出來,OpenAI Five給自己預測的勝率只有2.9%,雖說比賽中段,預測勝率上升至17%,不過比賽行進至34分鐘47秒,最終還是以48:20人頭比數慘敗。

不少人會吐槽OpenAI Five都是些近戰英雄處於劣勢,但更值得令OpenAI團隊關心的是,逆風局下OpenAI Five該如何優化策略,解決比賽中出現的流浪和斧王無腦拆塔,甚至在人類方推高地時,OpenAI Five竟然沒有一個英雄防守高地等反常操作。

好在,以OpenAI 給出限定條件下,也即限定的18個英雄,五個信使,沒有聖劍、魔瓶等情況下,OpenAI Five贏得了與人類方的前三場比賽,並且時間極短,不到30分鐘。

能取得如此大的突破,擱在一年前,OpenAI 團隊想都不敢想。

要知道在2017年9月份,OpenAI以單bot的形式還輸給了來自德國的 Dota2 選手 Dominik "Black" Reitmeier。儘管此前OpenAI幾乎橫掃了與人類玩家的1V1比賽,但9月份人類選手的反殺還是說明了OpenAI單bot模式的缺陷。

把時間再往回溯,2017年中旬OpenAI團隊甚至發出「我們要失敗了」的呼號,因為在研究團隊設計的單對線遊戲中,OpenAI的bot一直打不過人類。

直到,研究人員開始將訓練環境隨機化,轉機才開始出現。一位研究人員發現,讓英雄行進的速度時而快、時而慢,甚至停止,OpenAI bot的強化學習策略網路非常好,它甚至成功擊殺了敵方。同樣的訓練方法應用在1:1對戰中,也起到了非常好的效果,OpenAI 的bot開始學會補兵、購買裝備、釋放技能,而後開始不斷戰勝1500分,甚至3000分以上的Dota2玩家。

想當AlphaGo的 Open AI,玩刀塔時為何又慘敗給人類了?

不過5V5對戰跟1V1對戰有明顯的區別,難度也陡然上升,比如團戰中更需要bot之間的分工協作、經濟資源合理分配、長線運營策略。為了加快研究進程,OpenAI加大了資源的投入,不斷修正系統版本,並更新網路架構。

在1V1訓練版本中,OpenAI採用一天執行8petaflop / s的數據量進行訓練(註:1petaflop / s-days是指一天執行每秒1015次神經網路操作,或總計1020次操作。)到6月6號,數據量已經上升至一天執行40petaflop / s,而最新公布的8月5日版本中,數據量已經上升至令人咋舌的190petaflop / s。

如此大規模的計算量必然需要極高的算力支撐,數據顯示OpenAI團隊使用了128000個處理器和256個英偉達圖形處理器來訓練其近端策略優化的強化學習演算法。

想當AlphaGo的 Open AI,玩刀塔時為何又慘敗給人類了?

繼續解除限制,未來Open AI

想要比一場真正的對決

坦白說,OpenAI動用如此大的計算資源,在限定條件下雖敗給了人類方,但仍值得為其豎起大拇指。

大家不要看Deepmind旗下的 AlphaGo、 AlphaGo Zero在圍棋屆橫掃人類,就覺得OpenAI 玩dota2就是小菜一碟。

想想看,Dota 2 每 tick 平均產生 1000 個可能有效行為,相比之下,國際象棋是 35 個,圍棋是 250 個。通過 Valve社的 bot API,OpenAI 把 Dota 2 視為 2 萬個狀態,也就代表人類在遊戲中可獲取到的所有信息。國際象棋代表大概 70 個枚舉值,圍棋大概有 400 個枚舉值。也就是說,Dota 2 的複雜程度遠比圍棋高。

想當AlphaGo的 Open AI,玩刀塔時為何又慘敗給人類了?

面對Dota2比賽中的失利,OpenAI 團隊將原因歸結為三點。首先,人類方的水平確實非常高;其次,OpenAI Five的陣容不是有程序自己選擇的,而是由第三方提供;最後飽受玩家玩家詬病的五名信使限制徹底放開了,變成只有一名信使。

的確,在之前的benchmark中,OpenAI 團隊採用的是每個英雄都有自己的信使,而在這裡兩天的Dota2比賽中,突然轉變成只能使用一名信使,會造成諸多不適。不過OpenAI 團隊認為放鬆信使的限制,並不能當成潰敗的借口,畢竟這才是原汁原味的dota2。

目前OpenAI 團隊依舊在解除限制的路上,比如將現有的18個英雄池擴容至全部的115個英雄,恢復掃描,幻想。此外,鬆開2、3、4號購買限制,比如增加遊走能力的魔瓶,攻擊力的聖劍等。等到解除所有限制後,屆時OpenAI Five將迎來與人類一場真正意義上的Dota2對戰。

在遊戲之外,正如比爾蓋茨所說,Dota 2機器人展示了團隊合作和協作,這將是未來發展的關鍵技能。而馬斯克也曾發Twitter表示,開發人員需要很快創建一個神經介面「以實現人類/人工智慧共生」。

相信不久的將來,基於安全環境的多bot協作AI技術將對人類生活產生重要的影響。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!

TAG: |