DeepMind遊戲AI登上Science：雷神之錘多智能體合作，超越人類玩家

知識 06-02

機器之心報道

參與：Shooting、杜偉

去年年中，DeepMind 介紹了其在遊戲智能體方面的新進展，聚焦於雷神之錘 III 競技場的奪旗模式。當時，DeepMind 設計的為FTW 智能，達到了人類水平，能夠與其它智能體或人類相互合作。今年，DeepMind 繼續發力，提出基於 self-play 的新智能體，該智能體甚至能夠超越人類水平。

沒有什麼遊戲的操作原理比奪旗更簡單的了（除了抓人或踢罐子遊戲）。兩隊各自在己方的基地中設有標記物，然後爭奪對方的標記物並將其安全送回基地。這太簡單了！

但是，對於人類很容易就能理解的東西，機器卻不能快速掌握。在奪旗遊戲中，電腦控制角色通常基於啟發式和規則進行編程，在遊戲中自由度不高。

不過，AI 和機器學習有望顛覆這種固定的角色設定模式。DeepMind 研究人員在發表於《Nature》的論文（Human-level performance in 3D multiplayer games with population-based reinforcement learning）中介紹了一種系統，這種系統不僅能夠在《雷神之錘Ⅲ競技場》中學習如何奪旗，而且制定了全新的團隊遊戲策略。

DeepMind 研究科學家 Max Jaderberg 表示：「沒有人告訴 AI 如何玩這款遊戲——只有在勝利或失敗後才知道 AI 是否了解怎麼玩遊戲。利用 AI 玩遊戲的魅力在於你永遠不知道智能體會表現出哪些行為」。即，智能體主要依靠自學來打遊戲。

他進一步解釋道，遊戲中起作用的關鍵技術是強化學習。在 DeepMind 智能體的案例中，它利用獎勵機制驅動軟體策略實現目標，不管智能體團隊是否在遊戲中獲勝。

論文地址：https://science.sciencemag.org/content/364/6443/859

他說道：「從研究視角來看，真正令人興奮的是演算法的新穎之處。我們訓練 AI 的特定方式就很好地展示了如何擴展和實施一些經典的演化觀念。」

DeepMind 的 For The Win（FTW）智能體藉助卷積神經網路直接根據屏幕上像素學習，該卷積神經網路是一組根據視覺皮層模型分層排列的數學函數（神經元）的集合。

輸入的數據傳遞到兩個循環的長短期記憶（LSTM）網路或者能夠學習長期依賴性的網路。兩個網路分別在快和慢時間尺度上運行，並通過一個變分目標進行耦合，這個變分目標是兩個遞歸網路共同用來預測遊戲行為並通過模擬遊戲控制器輸出動作記憶。

FTW 智能體與 30 個玩家進行訓練，這為它們提供了足夠多的遊戲隊友和敵人，同時遊戲場地也隨機選擇，防止智能體形成記憶地圖。每個智能體學習各自的獎勵信號，使它們能夠生成相應的內部目標（如奪旗）。此外，研究人員還利用雙層流程來優化智能體的內部獎勵機制以及施加於這些獎勵的強化學習，從而獲得取勝之道。

FTW 智能體架構示意圖。該智能體在快速和慢速時間尺度上的 RNN 網路，包括共享的記憶模塊，並學習從遊戲點數到內部獎勵的轉換。

總之，每個智能體各自參與了 45 萬場奪旗遊戲，這相當於四年左右的遊戲經驗。

DeepMind AI 系統中的激活圖示。圖源：DeepMind。

DeepMind 研究科學家 Wojciech Marian Czarnecki 表示：「這是一個非常強大的學習範例，你實際上是在提升性能——從這項研究的成功來看，多智能體的方式實際上讓我們的生活變得更輕鬆了。」Wojciech 曾參與 AlphaStar 的研究。

完全訓練好的 FTW 智能體運行在商用 PC 硬體上，它採用了能夠泛化至地圖、隊伍名冊和團隊規模上的策略。它們學會了人類玩家的行為，比如跟隨隊友、在敵方的基地紮營以及保護自己的基地免受攻擊。隨著訓練的進行，它們捨棄了那些不太有利的行為（比如緊跟隊友）。

所以，智能體最終會怎麼樣？在一場有 40 個人類玩家參與的比賽中，人類玩家和智能體在遊戲中隨機配對（既有作為隊友的，也有作為敵人的），FTW 智能體比基線方法更熟練。實際上，它們的勝率遠遠超過了人類玩家。與「厲害」人類玩家的 1300 和普通玩家的 1050 相比，智能體的 Elo（獲勝概率）為 1600。

訓練期間智能體（新的 self-play 智能體和 FTW 智能體）的表現。

出人意料的是，智能體的反應時間非常快，這讓它們在最初的實驗中略佔優勢。但即使它們的準確率和反應時間因為內置的 1/4 秒（257 毫秒）延遲而有所下降，它們的表現仍然超越了人類玩家。厲害人類玩家和中等水平玩家分別只在 21% 和 12% 的時間裡贏過它。

另外，當研究人員在發表論文後將智能體放在《雷神之錘 III 競技場》同類型遊戲中時，智能體開始在測試比賽中挑戰人類研究員的技能。當研究人員檢查了智能體神經網路的激活模式（即負責定義給定輸入數據的輸出神經元功能）時，他們發現了代表房間的簇、旗幟狀態、隊友和敵人的可見性、智能體在或不在敵方基地/己方基地以及遊戲中其它「有意義的方面」。

訓練好的智能體甚至包含為特殊情況直接編碼的神經元，例如當智能體的旗幟被奪走或者其隊友奪旗時。「我覺得需要注意的一點是，這些想法、這些多智能體領域非常強大，論文證明了這一點。」Jaderberg 表示：「我覺得這就是我們過去幾年裡越來越了解的：如何構建強化學習的問題。強化學習在一些新的應用場景中真的很出色。」

DeepMind 科學家和倫敦大學學院計算機科學教授 Thore Graepel 表示，該研究突出了多智能體訓練在推動人工智慧發展方面的潛力。例如，它可能會為人機交互和（相互補充或協同工作）系統方面的研究提供信息。

「我們的結果顯示，多智能體強化學習可以成功地拿下複雜的遊戲，甚至讓人類玩家覺得智能體比隊友更優秀。結果還展示了對智能體訓練行為、合作方式、如何表徵環境的深入分析。」Thore 表示：「讓這些結果看起來非比尋常的一方面是，這些智能體像人類玩家一樣，以第一人稱視角來感知環境。為了學習如何與隊友進行戰術配合，這些智能體必須依賴來自遊戲結果的反饋——但是沒有任何老師教它們怎麼做。」

參考內容：https://deepmind.com/blog/capture-the-flag-science/

本文為機器之心報道，轉載請聯繫本公眾號獲得授權。

------------------------------------------------

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 機器之心 的精彩文章:

※每類13張標註圖就可從頭學分類器，DeepMind新半監督模型超越AlexNet
※從相機標定到SLAM，極簡三維視覺六小時課程視頻

TAG:機器之心 |