當前位置:
首頁 > 新聞 > DeepMind揭秘雷神之錘3背後AI真相:碾壓人類只是個開始

DeepMind揭秘雷神之錘3背後AI真相:碾壓人類只是個開始

DeepMind揭秘雷神之錘3背後AI真相:碾壓人類只是個開始

【新智元導讀】雖然人類已經無望在電子競技中打敗AI多智能體,但DeepMind的研究仍在繼續往前推進。最近他們公布了在強化學習方面的最新進展,並對未來進行了展望。AI智能體的能力還會繼續提高嗎?會有極限嗎?

是的是的我們都知道,已經沒有什麼電子競技能夠讓人類抱有哪怕1%穩贏的希望了。但是!你有沒有想過,AI會不會有一個極限?它的潛力還有多少,無窮大?還是最終止步於某個境界?DeepMind的科學家也想知道。

他們最近更新了博客,以雷神之錘為例,為我們重新介紹了強化學習的最新發展、AI在《雷神之錘3·奪旗》中達到了什麼樣的程度,以及未來的期望。


多智能體最大的挑戰:既要獨自打拚,還要團隊協作

掌握多人遊戲中涉及到的策略、戰術、團隊配合,是AI研究的關鍵挑戰。而DeepMind的科學家已經將AI調教到了和人類相當的水平,這一點在《雷神之錘3·奪旗》體現的淋漓盡致。

DeepMind揭秘雷神之錘3背後AI真相:碾壓人類只是個開始

AI智能體在遊戲中,無論是跟同類打配合,還是跟人類組團,完全天衣無縫,表現的不像個機器人。DeepMind的科學家已經在籌劃將奪旗中的方法,應用在雷神之錘3的全部遊戲模式中。


Quake III有非常多的遊戲模式。自身提供4種,分別是Free For All(競技場模式)、Team Deathmatch(紅藍兩隊對戰模式)、Tournament(Duel)(單挑模式)、奪旗(紅藍兩隊奪旗模式)。其他包括MOD和以其開源遊戲引擎衍生出的獨立遊戲也非常多。

作為社群生物,我們幾十億人類共同生活在同一個地球上,每個人都有自己獨立的目標和行為,但仍然能夠通過團隊、組織和社會聚集在一起,展示出令人驚嘆的集體智慧。這樣的設置,我們稱之為多智能體學習:每個智能體獨立行動,同時要學會與其他智能體的互動以及合作。

DeepMind揭秘雷神之錘3背後AI真相:碾壓人類只是個開始

參考系都是動態的,自由度非常高。想想我們人類之間團隊配合的難度,就知道設計這樣的多智能體有多難了!


多智能體克服難題的秘訣

具體到《雷神之錘3·奪旗》中,智能體面臨的挑戰是直接從原始像素中學習以產生動作。這種複雜性使得第一人稱多人遊戲成為AI社區內富有成效且活躍的研究領域。

奪旗原本是一項廣受歡迎的戶外運動,被廣泛的應用於電子遊戲中。在一張給定的地圖中,紅藍雙方保護自己的旗子並搶奪對方旗子,5分鐘時間內,奪旗次數最多的隊伍獲勝。在遊戲中,還可以標記敵方隊員並將其送回出生點。

DeepMind揭秘雷神之錘3背後AI真相:碾壓人類只是個開始

越是簡單的規則,越能衍生出多種多樣的玩法,在人類來說是增加了趣味性,在多智能體來講就是增加了難度。為了繼續刁難多智能體,遊戲地圖被設置成每局一換,以防止多智能體靠著優於人類的記憶來獲得地利優勢。

多智能體應對時局變化的訣竅,來自基於強化學習的三個概念:

  • 訓練一組多智能體而非只訓練單一個體,使其能夠在遊戲中互相學習,提供多樣化的隊友和對手
  • 每個智能體都學習自己的內部獎勵信號,刺激智能體產生他們自己的內在目標比如搶到旗子。然後使用雙層優化流程直接優化智能體的內部獎勵以獲勝,同時利用內部獎勵的強化學習來了解智能體的政策。
  • 智能體以快速和慢速兩種速度運行,這提高了它們使用內存和生成一致動作序列的能力

由此產生的智能體,被稱為For The Win(獨孤求勝)智能體,學會了以非常高的水平來玩奪旗。至關重要的是,學到的智能體政策,對地圖的大小、隊友的數量以及團隊中的其他玩家都很有用。

DeepMind揭秘雷神之錘3背後AI真相:碾壓人類只是個開始

DeepMind組織了40個人,和多智能體一起隨機組隊。最終獨孤求勝智能變得比強基線方法強大得多,超過了人類玩家的勝率。事後調查顯示,智能體相比我們人類,更善於打配合!所以阻礙人類勝利的關鍵是人類不會好好打配合咯。

DeepMind揭秘雷神之錘3背後AI真相:碾壓人類只是個開始

智能體在訓練期間的遊戲表現。我們訓練的新智能體FTW遊戲模式下的Elo得分比人類玩家和自遊戲+ RS、自遊戲的基線方法更高,該分數反映出遊戲獲勝的概率。

除了對遊戲表現進行評估之外,了解這些智能體的行為和內部表示的複雜度也很重要。

為了理解智能體如何表示遊戲狀態,我們來看一下在平面上表示的智能體神經網路的激活模式。下圖中的點集群表示在遊戲期間與附近表示類似激活模式的點的遊戲情況。這些點按照智能體發現自己的高級CTF遊戲狀態著色:在哪個房間?旗幟的狀態是什麼?可以看到哪些隊友和對手?我們觀察到相同顏色的聚類,表明智能體以類似的方式表示類似的高級遊戲狀態。

DeepMind揭秘雷神之錘3背後AI真相:碾壓人類只是個開始

我們的智能體在遊戲世界中的表示。在上圖中,根據神經的相似程度繪製出給定時間的神經激活模式:圖中兩點在空間中距離越近,表明它們的激活模式越相似。然後根據實時比賽情況對它們進行上色:顏色相同,表示情況相同。這些神經激活模式是有組織的,形成了顏色簇,表明智能體以刻板、有組織的方式表示出有意義的遊戲玩法。訓練後的智能體甚至展示了一些人工神經元,用於直接針對遊戲中的特定情形。

智能體從未被告知有關遊戲規則的任何內容,但卻了解基本的遊戲概念,並對CTF產生了有效的直覺。事實上,我們可以找到直接為某些最重要的遊戲狀態編碼的特定神經元,例如在智能體一方的旗子被奪時激活的神經元,或者當智能體的隊友拿著旗幟時激活的神經元。本文對此提供了進一步的分析,包括了智能體對記憶和視覺注意力的應用。

超強智能體:強加反應延遲,遊戲中仍然勝過人類

我們的智能體在遊戲中表現如何?首先,它們的反應時間非常短。由於人類的生物信號傳導速度較慢,人類處理和作用於感官輸入的速度也就相對較慢。因此,我們的智能體在遊戲中的卓越表現,可能是因為它們具備更快的視覺處理能力和運動控制的結果。

然而,在我們人為降低了智能體的瞄準精度和反應時間後,發現這其實只是其表現優秀的其中一個因素。在進一步的研究中,我們訓練了內置延遲約四分之一秒(267毫秒)的智能體,也就是說,它們在觀察世界之前存在267毫秒的延遲,這與人類遊戲玩家的反應時間差不多。但這些自帶反應延時的智能體仍然在遊戲中的表現仍然優於人類玩家,後者的勝率只有21%。

DeepMind揭秘雷神之錘3背後AI真相:碾壓人類只是個開始

人類玩家面對響應延遲的智能體的勝率仍然很低,這表明,即使被加上了與人類相當的反應延時,智能體的遊戲表現依然勝過人類玩家。此外,通過查看人類和相應延時的智能體的平均遊戲事件數量,雙方的標記事件數量差不多,表明這些智能體在這方面沒有佔據優勢。

通過無監督學習,我們建立了代理人和人類的典型行為,發現智能體實際上學習了類似人類的行為,比如跟隨隊友並在對手的基地安營紮寨等。

DeepMind揭秘雷神之錘3背後AI真相:碾壓人類只是個開始

訓練後的智能體做出的幾種行為:防守己方基地、騷擾敵方基地、跟隨隊友。

這些行為在強化學習的訓練過程中逐步出現,智能體能夠逐漸學會以更加互補的方式進行合作。

一群獨孤求勝智能體的訓練進程。左上角:30個智能體的Elo評分,它們之間可以互相訓練和進化。右上:進化事件樹。下圖顯示了在整個智能體訓練過程中知識進展、一些內部獎勵機制和行為概率


《星際爭霸2》並不是極限,多智能體將繼續前進

AI智能體在《雷神之錘》中的成功經驗,被DeepMind應用在更複雜的即時戰略遊戲中。比如基於人口信息學的多智能體強化學習,構成了面向《星際爭霸2》的AlphaStar智能體構建的基礎。這款遊戲被稱為「人類最後的尊嚴」,但最終也沒能擋住AIphaStar稱霸的腳步。

而且,《星際爭霸2》不會成為AI多智能體能力的極限,DeepMind還在不斷給多智能體加大難度,利用多智能體訓練中總結出的經驗,用於開發高魯棒性的、甚至可以與人類合作的強大智能體。

更多詳細信息,請參閱論文。

論文下載地址:

https://science.sciencemag.org/content/364/6443/859.full

參考鏈接:

https://deepmind.com/blog/capture-the-flag-science/

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 新智元 的精彩文章:

千萬美金助力AI發展,CMU與乂學教育松鼠AI聯合實驗室簽約啟動
英偉達首款邊緣計算AI平台EGX重磅發布!實時處理,高性能、可擴展

TAG:新智元 |