「中國戰隊包攬234卻無緣冠軍」OpenAI 的 Dota2 機器人強在哪？

新聞 08-13

1 新智元報道

「中國戰隊包攬234卻無緣冠軍」OpenAI 的 Dota2 機器人強在哪？

Dota2 TI7決賽，中國戰隊惜敗無緣冠軍，包攬2、3、4名

8月13日，DOTA2 經典賽事TI7國際邀請賽在美國西雅圖鑰匙球館舉行，決賽由中國戰隊 NewBee 對陣國際戰隊 LIQUID，經過三場大戰，最終 NewBee 0:3告負，LIQUID奪得冠軍。

「中國戰隊包攬234卻無緣冠軍」OpenAI 的 Dota2 機器人強在哪？

總決賽上 NEBWEE 狀態非常低迷，而Liquid勢不可擋，完成一穿六的神話，三比零擊敗NEWBEE成功奪冠。

今年 TI7 的獎池已經達到兩千四百萬美金的高度，摺合成人民幣約一億六千萬。此次TI7 國際邀請賽前五名有四支中國戰隊，前四名有三隻中國戰隊！這四隻戰隊分別是NB、LGD、LFY、IG。中國戰隊斬獲了此次比賽的第二名、第三名和第四名，可惜無緣冠軍。

TI7上，最奪人眼球的不是人類冠軍，而是 AI

然而 TI7 上最奪人眼球的恐怕已不再是人類玩家，而是在表演賽上擊敗了魔獸老兵 Dendi 的 OpenAI 的 Dota2 機器人。

在昨天的 1 v 1 對戰中，OpenAI 設計的機器人擊敗了職業玩家 Danylo "Dendi" Ishutin。OpenAI 的機器人在首場對戰中用時十分鐘擊敗了 Dendi，之後 Dendi 在第二局對戰中退出並拒絕再戰第三局。相關報道請見這裡。

正如一位知乎用戶評論的：這個AI的每一步操作都令人震驚，Dendi居然在短短几分鐘內就技不如人，甘拜下風。這位烏克蘭老司機不遠萬里來到西雅圖被AI虐的故事，簡直是聞者傷心，聽者流淚。

「中國戰隊包攬234卻無緣冠軍」OpenAI 的 Dota2 機器人強在哪？

比賽過程中，Dendi 曾自言自語地向機器人「求饒」——「請放過我吧。」他說。這一幕讓人不禁想起柯潔和 AlphaGo 在烏鎮對決時的潸然淚下。

50位「影魔」暫時抵擋住了 AI 成為 Dota 主流訓練方法的進程

對於魔獸玩家來說，OpenAI 的這款機器人最大的意義可能是成為一款訓練利器。OpenAI 的 CTO Greg Brockman 表示：在 TI 上，我們派出 AI 和其中的多位高手進行了比賽，在比賽中，AI 展現出了很強的魯棒性和技巧，許多職業選手希望能持續和我們的 AI 比賽，並考慮要把它當做是一種訓練手段。

「中國戰隊包攬234卻無緣冠軍」OpenAI 的 Dota2 機器人強在哪？

於是，OpenAI 今天正式發了推特，邀請 Dota 職業戰隊來使用他們的 AI 作為訓練手段，並很希望看看「是否有用」。

作為給這些職業玩家的提示，我們友情提示一下，這個訓練對手有以下特點：

AI 本身是使用 Self-Play 的方式從零基礎訓練而成為頂尖高手的。它自己的訓練時間並不長（兩周），自我訓練的比賽也只有「區區」數千次（相對於 AlphaGo 的訓練盤數）。因此，這個 AI 目前還處於比較稚嫩（相對於它能達到的「境界」）的時期；

這個 AI 更講求策略而不是「手速」（每分鐘動作），它的「手速」只是一般人類玩家的水平；

從昨天的視頻中可以看到，這個 AI 在一定程度上能預測你的行動，也會在不熟悉的場景下即興發揮。特別的，它還會一些「trick」，來誤導你。

天才少年 Arteezy_Artour Babaev 在和 AI 對戰後表示：「輸給一個機器人是讓人覺得不舒服。但看了回放，我發現我確實能學到一些東西……有些事情，別人告訴你是一回事，你自己親身經歷了以後，是另一回事。」

「中國戰隊包攬234卻無緣冠軍」OpenAI 的 Dota2 機器人強在哪？

Brockman 還表示，特別讓他們感到高興的一點是，除了能讓職業玩家從和 AI 的比賽中獲益，業餘玩家也一樣能從和 AI 的比賽中得到提升。

「中國戰隊包攬234卻無緣冠軍」OpenAI 的 Dota2 機器人強在哪？

和 AI 試玩了一盤遊戲的 Jake「SirActionSlacks」Kanner 表示，贏得一場 Dota 的方式有很多種，而 AI 所用的一些「招式」是他想像不到的。「所以 AI 不是簡單地攻擊身邊的敵人，它是有選擇的？」他問 Brockman。「當然。」Brockman 說。

然而，就在 AI 似乎要成為非常有潛力的訓練方法時，昨天，似乎是為了捍衛人類玩家的尊嚴，有50位「影魔」都擊敗了 OpenAI 的機器人。

「中國戰隊包攬234卻無緣冠軍」OpenAI 的 Dota2 機器人強在哪？

克它的戰術似乎已經找到了。其中一位玩家介紹自己的經驗：

「中國戰隊包攬234卻無緣冠軍」OpenAI 的 Dota2 機器人強在哪？

「我就是擊敗Open AI 的 AI 的50人之一。

一般要贏的策略是佔領第一座塔。在0：00，你要激怒敵人的線小兵(俗稱一波兵，creep wave），讓他們開始跟隨你。然後你圍繞叢林轉一圈，敵方的小兵將開始形成一個可以跟隨你的congo line。然後，您可以繞過叢林，以便在下一波兵來臨時，您可以再次激怒他們，並繼續圍繞圈子走動。當你的一波兵攻擊塔時，AI會燒毀畫符，由於某種原因，它無法真正地決定追逐你或捍衛塔。所以經過約5分鐘的時間，你的一波兵將最終毀滅塔，這樣你就能贏得1v1比賽。

我使用的是風靈之紋（wind lace ）+ 3個藥膏。你可以以額外的運動速度超越波兵和AI，並且藥膏將給您足夠的維持力，讓你可以挺過波兵幾分鐘的的攻擊。你也可以使用信使給你更多的藥膏，但我發現它只能使用1個藥膏。」

看來，在艾澤拉斯的世界中，AI 將和人類共同提高。

對於 AI 來說，更大的挑戰在於多智能體協作

Brockman 自己曾表示：下一步研究將是 5v5 比賽，我們希望做出 5 個相互協作的 AI，擊敗人類戰隊。另外，我們也期待嘗試把 AI 和人類放在同一戰隊中，協作取得勝利。

關於這一點，卡耐基梅隆大學機器人系博士，Facebook人工智慧組研究員田淵棟在知乎上表示：OpenAI只是宣布一對一能勝職業選手。一對一相對容易，像星際這邊兩隊兵對戰已經可以打得不錯了。聽下來是用Self-play的辦法讓Bot去和自己玩不斷提高，五對五還沒有結果。

「中國戰隊包攬234卻無緣冠軍」OpenAI 的 Dota2 機器人強在哪？

日前，DeepMind 與暴雪一起，發布了一套名為 SC2LE （StarCraft II Learning Environment）的工具組件，這套工具組件將加速即時策略遊戲星際爭霸2 中的 AI 研究。報道在此。

國內AI 資深專家袁泉此前曾深入研究過星際爭霸中的若干AI問題，和UCL共同發表了多智能體協作網路BiCNet，第一次展現了AI在星際微觀戰鬥中的五類智能協作方式。他對新智元表示，星際爭霸 2 中目前的難題主要是「Full Game」的問題。

Dota 2 的 AI 和星際2 的AI，一個能在 Full Game 中取勝，卻不太懂協作；一個善於協作，卻在Full Game 中難敵人類。這一方面當然和兩個遊戲各自的特點有關，另一方面則可以看出 AI 訓練方式上的差異。我們期待能有關於二者技術的更多對比。

炒作還是事實？在目前條件下擊敗人類玩家實際上比在圍棋比賽中擊敗人類要容易得多

關於 OpenAI Dota 2 機器人的能力，一篇題為《炒作還是事實？對 OpenAI Dota 2 機器人的幾點看法》的文章進行了比較詳細的分析：

今天，我讀到關於OpenAI的DotA 2機器人在 The International 上擊敗人類玩家的新聞時，我興奮得跳了起來。對於一個電競迷，我從來沒有玩過DotA 2，但是我經常在Twitch上觀看其他電子競技比賽，甚至在高中時也是半專業的玩家。但更重要的是，像DotA這樣的多人在線戰鬥競技（MOBA）以及像「星際爭霸2」這樣的實時戰略（RTS）遊戲，一般都被認為是當前人工智慧技術難以企及的。

這些遊戲需要長期的戰略決策以及多人合作，並且比國際象棋，圍棋或Atari遊戲具有更複雜的狀態和行動空間，所有這些項目都是 AI 技術在過去幾十年中已經「解決」的。 DeepMind 已經在星際爭霸 2 上工作了一段時間，並且剛剛開源了他們的研究環境。但是到目前為止，研究人員還沒有取得重大突破。大家普遍認為，我們距離在星際爭霸 2 上擊敗頂級人類玩家至少還需要 1—2 年。

這就是為什麼 OpenAI 的新聞如此讓人震驚。怎麼會這樣呢？最近有沒有我沒有覺察到的突破？當我開始更多地了解DotA 2機器人正在做什麼，它是如何訓練的，以及使用什麼遊戲環境，我得出的結論是，這是一個令人印象深刻的成就，但不是新聞界所認為的 AI 突破。這就是這篇文章要講的東西。我想提供一個清醒的解釋：他們帶來了什麼新東西。有一個過度誇張人工智慧的進步是很危險的，比如以下這兩條推特就很容易誤導大眾：

「中國戰隊包攬234卻無緣冠軍」OpenAI 的 Dota2 機器人強在哪？

首先要說明的是，這些誇張的報道和錯誤的假設並不是OpenAI研究人員的錯。 OpenAI通常都對其研究的貢獻和局限都表述得非常直接和明確。我相信在這件事上也是一樣的。OpenAI還沒有公布他們的解決方案的技術細節，所以對於非專業的人來說，很容易就會得到錯誤的結論。

我們先來看看DotA 2機器人解決的問題實際上有多困難。比起AlphaGo又難在哪？

?1v1 和 5v5 沒有可比性：5V5 是DotA 2的一個經典遊戲，這些遊戲需要高級策略，團隊溝通和協調，通常需要45分鐘左右的時間。 1v1遊戲會受到更多限制，兩名選手基本上沿著單線行駛，並試圖相互殺死，通常在幾分鐘內結束。在1v1中擊敗對手需要的是機械技能和短期戰術，不涉及任何如長期規劃或協調的事，但二者是當前的AI技術面臨的大挑戰。事實上，你可以採取的有用的行動的數量少於圍棋的遊戲。有效狀態空間（玩家對遊戲中目前正在發生的想法），如果以智能方式表示，應該比圍棋還要小。

?Bot能獲得更多的信息: OpenAI機器人（很有可能）是基於該遊戲API的開發的，可以訪問人類無法訪問的各種信息。即使OpenAI研究人員限制訪問某些類型的信息，機器人仍然可以訪問比人類更準確的信息。例如，技能只能在一定範圍內擊中對手，並且人類玩家必須看屏幕並且評估當前與對手的距離，這需要反覆練習。機器人知道確切的距離，並可立即決定使用說明技能。獲得各種精確的數字信息是一個很大的優勢。事實上，在遊戲過程中，人們可以看到機器人好幾次都是在距離的最大限制上使用技能。

? 反應時間: 機器人可以立即反應，人類不能。再加上上述的信息優勢，這是另一大優勢。例如，一旦對手所處距離超出攻擊範圍，機器人可以立即取消它。

? 學習操作一個單一的特定角色：遊戲里總共有100個不同的角色，具有不同的天賦能力和優勢。機器人學習玩的唯一的角色——Shadow Fiend，通常會立即進行攻擊（而不是在一段時間內持續的更複雜的技能），並從所知道準確的距離和快速的反應時間中獲益 - 這是機器人擅長的。

鑒於1v1主要是機械技能的遊戲，機器擊敗人類玩家並不奇怪。由於環境受到嚴格限制，（可能）限制了一系列可能的行動，而且幾乎沒有必要進行長期的規劃或協調，我得出的結論是，在這樣的條件下擊敗人類玩家實際上比在圍棋比賽中擊敗人類要容易得多。

我們並沒有因為演算法多聰明就在AI上忽然取得了進步，它之所以起作用是因為我們的研究員足夠聰明，在目前條件的限制下做了正確地設定。

這一機器人的訓練時間大概是2周左右，也證明了上述的推測。 AlphaGo需要在谷歌的GPU集群上進行數月高度分布的大規模訓練。自那時以來我們取得了一些進展，但那並不是將計算要求降低一個數量級的東西。

現在，批評已經夠多了。媒體可能對這件事有一點過度炒作，但它確實有一些非常酷、非常令人驚訝的地方。顯然，這是大量具有挑戰性的工程作業和團隊合作的結果。

完全通過self-play訓練：這個bot不需要任何的訓練數據。它也不是從人類的演示學習。它是完全隨機開始的，並且不斷地以自己為對手進行遊戲。雖然這種技術並不是全新的，但令人驚訝（至少令我驚訝）的是，正如有評論指出的，bot學習了人類玩家經常使用的技巧。我對Dota 2 的了解不是很多，不能判斷這點是否很厲害，但我覺得這非常酷。這個bot也可能學習了人類玩家甚至不知道的其他技巧。這與我們在 AlphaGo 中看到的類似，就是人類玩家開始從 AI 的令人意想不到的動作中學習，並調整自己的遊戲策略。

AI +電子競技的重要進步：在具有挑戰性的環境（例如Dota 2 和 Starcraft 2）中測試新的AI技術是非常重要的。假如可以說服電子競技社區和遊戲發行商，我們可以通過將AI技術應用於更多遊戲來提供價值，這有助於AI更快發展。

部分可觀察的環境：雖然不清楚OpenAI的研究人員如何用API處理這個問題的細節，但人類玩家只能看到屏幕上的內容，並且視野可能受到限制，例如上坡時。這意味著，與圍棋、國際象棋或Atari等遊戲不同，我們是處於部分可觀察的環境——我們無法訪問有關當前遊戲狀態的完整信息。這些是很難解決的問題，也是當前的一個活躍研究領域。話雖如此，目前還不清楚1v1 Dota 2競技中的部分可觀察性究竟有多重要——沒有多少可以制定戰略的地方。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 新智元 的精彩文章:

※Adobe首席科學家王珏加盟Face++，主管曠視美國研究院
※「扎克伯格正在毀掉矽谷」Facebook「早鳥」系統扼殺初創公司
※「絕不是一家靠政府補助過活的公司」2017科大訊飛半年報及人工智慧戰略解讀（附全PPT）
※攻陷Dota2：馬斯克的OpenAI自學習機器人完虐人類玩家
※KDD2017：阿里論文解讀，深度學習、大規模圖計算等

TAG:新智元 |

您可能感興趣

※Billboard「KPOP佔領Social50榜，防彈少年團-EXO-NCT包攬前三」
※IDC：2018中國手機市場OPPO、vivo、榮耀包攬前三
※中國團隊屠榜：COCO＆Mapillary挑戰賽包攬全部冠軍
※iPhone XR、iPhone 8、iPhone XS Max包攬美國市場銷量前三
※PAKDD 2019 AutoML 挑戰賽圓滿落幕，中國隊伍包攬前三
※《Dota2》OG戰隊包攬電競選手獎金榜前五 Ti9狂攬1.1億
※2018計算機大獎被谷歌包攬：ACM計算獎授予Shwetak Patel
※190421 防彈少年團《Boy With Luv》連續10天包攬1位音源power勢不可擋
※[星聞]第七屆Gaon Chart Music Awards圓滿落幕 IU包攬5座獎盃
※微軟擬推出Xbox All Access 每月22美元包攬主機+全部服務
※2017年11月全球最暢銷手機榜單出爐：iPhone X/8/8Plus包攬前三
※GF包攬全部AMD 14nm，但仍保留一定7nm比例
※南韓愛豆組合專輯首周銷量TOP10！全部被BTS，EXO，WannaOne包攬
※StockX 權威報告再度出爐！NIKE 竟包攬 2018 春季發售 Top 10？
※StockX 權威報告再度出爐！ NIKE 竟包攬 2018 春季發售 Top 10 ？
※7月韓女團品牌評價，BLACKPINK、TWICE、RedVelvet包攬前三名
※曠視、北郵等國內團隊包攬六項第一，COCO&Mapillary聯合挑戰賽結果公布
※曠視科技包攬COCO＋Mapillary四項世界第一，中國公司成最大贏家
※Model 3安全性超越Model S：特斯拉包攬NHTSA碰撞評分前三名
※太神了！A妹歷史性包攬Billboard單曲榜Top 3！