攻陷Dota2：馬斯克的OpenAI自學習機器人完虐人類玩家

新聞 08-12

Elon Musk 發表推文稱讚 OpenAI 的戰績，並其為「在電子競技領域首個擊敗人類頂級玩家的機器人」。

新智元報道

來源：blog.openai.com；

編輯：熊笑

【新智元導讀】OpenAI 的機器人剛剛在 Dota2 1v1 比賽中戰勝了人類頂級職業玩家 Dendi。以建設安全的通用人工智慧為己任的 OpenAI，通過「Self-Play」的方式，從零開始訓練出了這個機器人。

GIF/38K

Dota2 淪陷

繼橫掃頂級的人類國際象棋大師和圍棋大師後，計算機如今在風靡全球的電子遊戲 Dota 2 中戰勝了世界級的職業玩家。此前未被披露的此場對決發生於 Valve 獎金高達2400萬美元的 Dota 2 國際邀請賽「The International」。

Dendi（圖左）在賽前與 OpenAI 的 Greg Brockman（圖右）交談。

在這場一對一的對戰中，OpenAI 設計的一款機器人擊敗了職業玩家 Danylo "Dendi" Ishutin，Dendi 在此前的職業生涯中已贏得累計735449.4美元的獎金。OpenAI 的機器人在首場對戰中用時十分鐘擊敗了 Dendi，之後 Dendi 在第二局對戰中退出並拒絕再戰第三局。

Dendi

「請放過我吧，」賽間 Dendi 對機器人對手這樣說道。

Elon Musk 發表推文稱讚 OpenAI 的戰績，並其為「在電子競技領域首個擊敗人類頂級玩家的機器人」。

OpenAI 在電子競技領域首度擊敗人類頂級玩家。這比國際象棋及圍棋等遊戲要複雜得多。

OpenAI 的 CTO Greg Brockman 在賽前介紹稱這一款機器人通過數千次的加以指導的自我對決進行訓練，並稱該機器人已經擊敗了數個 Dota 2 的職業玩家。Brockman 在博客中稱：「過去幾周內，我們的機器人已經戰勝過包括 SumaiL（世界頂級 1v1 選手）及 Arteezy（世界頂級 overall 選手）等多個頂級玩家」。

「自我對決」的理念是 OpenAI 研發的關鍵。這是一種 AI 系統學習解決極其複雜任務的有效方法：與太弱或太強的對手對戰，它都無法從中學到東西，但自身反倒是有價值的對手。Brockman 介紹道：「你可以看到 AI 從完全的隨機狀態一步步發展到如今的頂級水平」。

AI 公司慣常用電子競技遊戲來測試他們的技術，如谷歌的DeepMind 攻克「星際2」，微軟的 AI 團隊今日則宣稱他們在吃豆人遊戲中獲取高分。

OpenAI 並未打算就此停止征戰的腳步。他們希望在明年的參與正式的五對五比賽。與此同時他們也對外發布了此機器人，所以任何人有興趣均可與之對戰。第一個擊敗此機器人的玩家則可獲得 Valve 專設的賞金。

我們創造了在 Dota2 1v1 比賽中能夠擊敗世界頂尖職業選手的 AI。其完全是用 self-play 的方式訓練，沒有使用模仿學習（imitation learning）或樹搜索。這對構建在混亂、包含人類行為在內的複雜場景下能夠完成 well-defined goals 的 AI 系統是重要一步。

Dota 1v1 是含有隱藏信息的複雜遊戲。代理需要學習計劃、進攻、花招以及誤導對手。選手技巧和手速（每分鐘動作）的關聯不那麼強烈，實際上，我們的 AI 「手速」只是一般人類選手的水平。

想要在 Dota 中取勝，要求選手培養出對對手的直覺，並採取相應的策略。在上述視頻中，你能看到，我們的機器人已經通過完全的 self-play 學會了預測其他選手的動作，並在不熟悉的場景下即興發揮，以及如何作用於選手的單位。

完全通過 Self-Play 的方式訓練，從零達到世界頂級水平

OpenAI 的目標是建設安全的通用人工智慧。對於 AI 來說，Dota是一個非常理想的試驗場，競爭激烈，遊戲複雜。如果想在這門遊戲中獲得成就，就必須推進現有技術，實現技術突破。我們現在開發了一個 AI，能夠在 Dota 的 1v1 比賽中擊敗頂尖職業選手。

視頻：AI 在 Dota2 中學習並戰鬥

Dota 的規則非常複雜，如果是用規則方法，那麼構建出的 AI 一定是個蹩腳的 player。所以，我們完全採用的是自我遊戲（self-play）的訓練方法。剛開始訓練時，AI 對於自己所處的世界全無認識，而只是和自己的 copy 比賽，這也就意味著它和它的對手永遠是旗鼓相當的。它用這個方法一點點地提升，直到達到了世界上最優秀的職業運動員的水平。The International （TI）是 Dota 的世界錦標賽，吸引了世界各地 20000名觀眾來觀看職業運動員爭奪2400萬獎金。在 TI 上，我們派出 AI 和其中的多位高手進行了比賽，在比賽中，AI 展現出了很強的魯棒性和技巧，許多職業選手希望能持續和我們的 AI 比賽，並考慮要把它當做是一種訓練手段。

現在的這支研究團隊

下一步研究將是 5v5 比賽，我們希望做出 5 個相互協作的 AI，擊敗人類戰隊。另外，我們也期待嘗試把 AI 和人類放在同一戰隊中，協作取得勝利。

原文地址：https://blog.openai.com/dota-2/

http://www.businessinsider.com/the-international-dota-2-openai-bot-beats-dendi-2017-8

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 新智元 的精彩文章:

※Adobe首席科學家王珏加盟曠視科技，主管曠視美國研究院
※Science專訪谷歌Magenta負責人：AI創作焦點是機器學習演算法
※「Nature」破譯大腦：追蹤15000個神經元繪製最詳細神經迴路圖

TAG:新智元 |

您可能感興趣

※Study In US Opportunity 在美學習機會
※基於Jupyter Notebook從頭學習機器學習
※超越Flipkart？亞馬遜下血本學習機器研究
※小米眾籌上架杜丫丫AI英語學習機Pro：iPhone同級別屏幕
※iOS 12裡面隱藏著最好用"詞典"，讓你的iPhone秒變"學習機"！
※AI助力英語啟蒙，杜丫丫AI英語學習機Pro與兒童結伴
※899元，有多少人想入手？杜丫丫AI英語學習機Pro評測
※比請私人外教都管用！杜丫丫AI英語學習機Pro徹底解救了家長
※寶寶學習英文的啟蒙老師，你值得擁有-杜丫丫AI英語學習機Pro使
※學英語要從娃娃抓起，杜丫丫AI英語學習機Pro越學越上癮！
※Google軟體工程師美國暑期實習機會開放申請
※FCS-90告訴我：小霸王根本不是國內最早的FC電腦學習機
※MIT推出自學習機器人系統、「2020年東京奧運會機器人計劃」發布等
※DARPA正在開發終身學習機器
※妙果VR學習機
※入模練習機首選機型：Esky F150V2小飛狼開箱評測
※機器人有意識了？突破狹義AI的自我學習機器人問世
※好未來勵步英語發布3.0完整學習產品，推出AI智能學習機器人
※米兔兒童電話手錶3C重磅上線，攜帶AI學習機，AI實時定位
※DARPA「終身學習機器」項目取得重大進展