經過 180 年的訓練，OpenAI 在 DOTA 2 上完虐人類！

知識 06-27

點擊上方「CSDN」，選擇「置頂公眾號」
關鍵時刻，第一時間送達！

你以為隔壁坑你的都是小學生，對面的都是大神。或許你錯了，跟你對戰的可能不是人。

對於人工智慧（AI）來說，在棋牌遊戲中擊敗人類已不足為奇。現在，科技巨頭公司想要在電子遊戲中發起挑戰。近日，素有「矽谷鋼鐵俠」之稱的埃隆·馬斯克和 Sam Altman 創建的研究實驗室 OpenAI 在官方博客上宣布了他們最新的進展，由其團隊構建的模型——OpenAI Five 在當前流行的電子競技遊戲 DOTA 2 中，擊敗前 1% 的業餘選手，獲得了 5 v 5 團隊賽中的勝利。不過目前這些機器人還未曾挑戰專業選手團隊，所以未來還有很大的挑戰。OpenAI 實驗室的 5 個機器人打敗了人類團隊

或許很多人還記得去年 8 月 OpenAI 首次進入 Dota 2 的世界的場景，彼時的機器人在 1 對 1 的 solo 比賽中擊敗人類頂級選手 Dendi：

第一局，OpenAI 機器人僅用 10 分鐘就擊敗了 Dendi；

第二局，Dendi 主動放棄比賽；
第三局，Dendi 拒絕了。

但是，1 v 1 的遊戲大大降低了 DOTA 2 的挑戰難度。曾經 1 v 1 比賽結束時，Open AI CTO Greg Brockman 就表示將會轉戰 5 v 5，戰勝人類世界級玩家不是「夢」。如今這個「夢」已成真，OpenAI 已經升級了該系統的機器人，可以在 5 v 5 的比賽中與人類抗衡，這個過程需要更多協調和長期規劃。雖然 OpenAI 還未曾在比賽中挑戰最厲害的選手，但是這些機器人將參加今年下半年的 DOTA 2 國際邀請賽，這項比賽堪稱電子競技界中最大的年度盛事。

▌戰友還是敵人？OpenAI Five 為何要挑戰人類？

這項研究的動機很簡單：如果我們可以教會人工智慧系統玩電子遊戲的技術，那麼我們就可以用它們來解決真實世界中的複雜挑戰，例如在一些類似於電子遊戲的方面——管理城市的交通設施等。

Greg Brockman 表示，「這是一個讓人興奮的重大進展，AI 確實開始向現實生活的應用轉變。如果你模擬了一個問題，而且可以大規模運用的話，那麼就可以所向披靡。」

經過 180 年的訓練，OpenAI 在 DOTA 2 上完虐人類！

從根本上說，電子遊戲可以提供棋牌遊戲或 Go 等無法提供的挑戰。這些遊戲隱藏了玩家的信息，這意味著人工智慧無法感知整個遊戲場地並計算出下一步的最佳行動。而且它們還將面臨更多需要處理的信息以及大量的備選行動方案。OpenAI 表示，DOTA 2 的機器人時刻需要在一千種不同的動作中進行選擇，同時處理兩萬多個代表遊戲動向的數據點。

▌何德何能？OpenAI Five 為什麼能戰勝人類？

該實驗室採用了一種強化學習的機器學習方法來創建他們的機器人。這是一種看似簡單卻能產生複雜行為的技術。他們將人工智慧機器人投入到虛擬環境中，在那裡它們自學如何通過反覆試驗來達成目標。編程人員設置了獎勵機制（如果機器人完成殺死敵人等任務時會受到獎勵），然後就讓人工智慧機器人自行一遍又一遍地玩。

這種新型的 DOTA 機器人已經玩了無數遍遊戲。每天，這些機器人都以加速的模式玩相當於 180 年的遊戲。他們用這種速度訓練機器人已有數月。Brockman 稱：「剛始時機器人完全隨機地在地圖上閑逛。幾個小時以後，開始學習基本的技能。對於人類來說，需要 1.2-2 萬小時的練習才能成為專業選手，這意味著 OpenAI 的機器人每天的練習量都相當於 100 個人類的練習時間。」

一方面，這證明了當代機器學習方法以及最新大數據處理計算機晶元的強力。另一方面也說明人工智慧機器人根本不智能。如果人類需要花費數千年的時間才能學會玩一個電子遊戲的話，我們這個物種早就不復存在了。

▌Open AI 未來面臨的挑戰

儘管 OpenAI 的機器人現在可以玩 5 v 5 的比賽，但它們仍然沒有充分體驗到 DOTA 2 的複雜性。它們有很多的限制。在 115 個不同風格的角色中，它們只能玩其中 5 個，包括：死靈法師、狙擊手、冥界亞龍、水晶室女和巫妖。它們決策過程中的某些元素（例如從 NPC 那裡買哪些東西以及用經驗點數升級哪些技能等）是在代碼里寫死的。有其中其他比較棘手的部分也被完全禁用了，包括隱身、召喚和置換守衛（遠程放置偵查守衛，在高端遊戲中非常重要。有一位遊戲指導警告說，守衛是最讓新手感到困惑的問題）。

經過 180 年的訓練，OpenAI 在 DOTA 2 上完虐人類！

OpenAI 的機器人還擁有計算機的所有優勢。它們的反應速度比人類快，它們不會點錯，它們可以即時獲取準確的信息，例如倉庫、英雄生命值和地圖上物體的距離（這對於正確使用某些法術來說非常重要）。對於這些所有的信息，人類玩家都必須手動檢查或通過直覺判斷。

所有這些看起來都像是對機器人能力的控訴，但是 Brockman 認為這都是其次的。他說，真正對 OpenAI 的機器人造成威脅的是 DOTA 2 平均持續 45 分鐘的遊戲時間。對強化學習來說，這種長時間的計劃很難，而且機器人甚至無法學會。但是 OpenAI 的情況卻並非如此。Brockman 說，他們成功的主要原因很簡單，他們投入了更多計算力解決了這個問題。他說：「說到底還是規模的問題。」

巴斯大學一位研究電腦遊戲團隊協作的 AI 研究人員 Andreas Theodorou 表示，最新的 5 v 5 研究是一個很大的進步，儘管他指出可能最「重要的成就」是 OpenAI 使用計算機視覺技術調試他們的機器人。Theodorou 告訴稱：「這些技術表明，即使強化學習和機器學習系統通常也可以很透明，這提高了該系統的價值，特別是在教育方面。」

Theodorou 認為，研究人員使用單獨的獎勵機制鼓勵機器人協同工作是非常值得注意的。這種獎勵機制被稱為「團隊精神」，隨著每場比賽的進行這種獎勵會增加。剛開始的每場比賽中機器人都在追求個人目標，比如積累擊殺次數，但是隨著時間的推移，它們會更加關注共同的目標。

與人類玩家不同，機器人絕對不會有「自我」的表現。「機器人為了更大的利益，而完全願意犧牲一條路徑或放棄一個英雄。為了娛樂的目的，我們讓一個人類替換了其中一個機器人。我們並沒有進行特別的訓練，但是他說他得到了很好的支持。在他有需要的時候，機器人總會來幫助他。」Brockman 如實說。

▌最後

OpenAI 的機器人團隊已經與業餘選手和半職業選手隊伍進行了 5 場遊戲比賽，贏了 4 場平了 1 場。但是它們即將面臨的最大挑戰是今年下半年的國際邀請賽。擁有完美時機且沒有自我的機器人真的能夠打敗靠流暢的操作和直覺的人類專業玩家嗎？讓我們拭目以待吧。

原文：https://www.theverge.com/2018/6/25/17492918/openai-dota-2-bot-ai-five-5v5-matches
作者：James Vincent
譯者：彎月
審校：屠敏

徵稿啦！
CSDN 公眾號秉持著「與千萬技術人共成長」理念，不僅以「極客頭條」、「暢言」欄目在第一時間以技術人的獨特視角描述技術人關心的行業焦點事件，更有「技術頭條」專欄，深度解讀行業內的熱門技術與場景應用，讓所有的開發者緊跟技術潮流，保持警醒的技術嗅覺，對行業趨勢、技術有更為全面的認知。
如果你有優質的文章，或是行業熱點事件、技術趨勢的真知灼見，或是深度的應用實踐、場景方案等的新見解，歡迎聯繫 CSDN 投稿，聯繫方式：微信（guorui_1118，請備註投稿+姓名+公司職位），郵箱（guorui@csdn.net）。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 CSDN 的精彩文章:

※掉隊的魅族還能和小米平起平坐嗎？｜暢言
※動輒350億被盜，區塊鏈安全真就如此不堪一擊？

TAG:CSDN |