星際爭霸II協作對抗基準超越SOTA，架構解決多智能體強化學習問題

科技 06-06

機器之心報道

編輯：杜偉、陳萍

這項工作又讓我們回到那個老生常談的問題：Transformer 真的是萬能的嗎？

多智能體強化學習 (MARL) 是一個具有挑戰性的問題，它不僅需要識別每個智能體的策略改進方向，而且還需要將單個智能體的策略更新聯合起來，以提高整體性能。最近，這一問題得到初步解決，有研究人員引入了集中訓練分散執行 (CTDE) 的方法，使智能體在訓練階段可以訪問全局信息。然而，這些方法無法涵蓋多智能體交互的全部複雜性。

事實上，其中一些方法還被證明是失敗的。為了解決這個問題，有人提出多智能體優勢分解定理。在此基礎上，HATRPO 和 HAPPO 演算法被推導出來。然而，這些方法也存在局限性，這些方法仍然依賴於精心設計的最大化目標。

近年來，序列模型（SM）在自然語言處理（NLP）領域取得了實質性進展。如 GPT 系列、BERT 在廣泛的下游任務上表現出色，並且在小樣本泛化任務上取得了較強的性能。

由於序列模型與語言的序列特性自然契合，因此可用於語言任務，但是序列方法不僅限於 NLP 任務，而是一種廣泛適用的通用基礎模型。例如，在計算機視覺 (CV) 中，可以將圖像分割成子圖並將它們按序列排列，就好像它們是 NLP 任務中的 token 一樣。近期比較出名的模型 Flamingo、DALL-E 、 GATO 等都有序列方法的影子。

隨著 Transformer 等網路架構的出現，序列建模技術也引起了 RL 社區的極大關注，這促進了一系列基於 Transformer 架構的離線 RL 開發。這些方法在解決一些最基本的 RL 訓練問題方面顯示出了巨大的潛力。

儘管這些方法取得了顯著的成功，但沒有一種方法被設計用來建模多智能體系統中最困難 (也是 MARL 獨有的) 的方面——智能體之間的交互。事實上，如果簡單地賦予所有智能體一個 Transformer 策略，並對其進行單獨訓練，這仍然不能保證能提高 MARL 聯合性能。因此，雖然有大量強大的序列模型可用，但 MARL 並沒有真正利用序列模型性能優勢。

如何用序列模型解決 MARL 問題？來自上海交通大學、Digital Brain Lab、牛津大學等的研究者提出一種新型多智能體 Transformer(MAT，Multi-Agent Transformer)架構，該架構可以有效地將協作 MARL 問題轉化為序列模型問題，其任務是將智能體的觀測序列映射到智能體的最優動作序列。

本文的目標是在 MARL 和 SM 之間建立橋樑，以便為 MARL 釋放現代序列模型的建模能力。MAT 的核心是編碼器 - 解碼器架構，它利用多智能體優勢分解定理，將聯合策略搜索問題轉化為序列決策過程，這樣多智能體問題就會表現出線性時間複雜度，最重要的是，這樣做可以保證 MAT 單調性能提升。與 Decision Transformer 等先前技術需要預先收集的離線數據不同，MAT 以在線策略方式通過來自環境的在線試驗和錯誤進行訓練。

論文地址：https://arxiv.org/pdf/2205.14953.pdf
項目主頁：https://sites.google.com/view/multi-agent-transformer

為了驗證 MAT，研究者在 StarCraftII、Multi-Agent MuJoCo、Dexterous Hands Manipulation 和 Google Research Football 基準上進行了廣泛的實驗。結果表明，與 MAPPO 和 HAPPO 等強基線相比，MAT 具有更好的性能和數據效率。此外，該研究還證明了無論智能體的數量如何變化，MAT 在沒見過的任務上表現較好，可是說是一個優秀的小樣本學習者。

背景知識

在本節中，研究者首先介紹了協作 MARL 問題公式和多智能體優勢分解定理，這是本文的基石。然後，他們回顧了現有的與 MAT 相關的 MARL 方法，最後引出了 Transformer。

傳統多智能體學習範式（左）和多智能體序列決策範式（右）的對比。

問題公式

協作 MARL 問題通常由離散的部分可觀察馬爾可夫決策過程（Dec-POMDPs）

來建模。

多智能體優勢分解定理

智能體通過 Q_π(o, a)和 V_π(o)來評估行動和觀察的值，定義如下。

定理 1（多智能體優勢分解）：令 i_1:n 為智能體的排列。如下公式始終成立，無需進一步假設。

重要的是，定理 1 提供了一種用於指導如何選擇漸進式改進行動的直覺。

現有 MARL 方法

研究者總結了目前兩種 SOTA MARL 演算法，它們都構建在近端策略優化（Proximal Policy Optimization, PPO）之上。PPO 是一種以簡潔性和性能穩定性聞名的 RL 方法。

多智能體近端策略優化（MAPPO）是首個將 PPO 應用於 MARL 中的最直接方法。

異構智能體近端策略優化（HAPPO）是目前的 SOTA 演算法之一，它可以充分利用定理 (1) 以實現具有單調提升保證的多智能體信任域學習。

Transformer 模型

基於定理 (1) 中描述的序列屬性以及 HAPPO 背後的原理，現在可以直觀地考慮用 Transformer 模型來實現多智能體信任域學習。通過將一個智能體團隊視作一個序列，Transformer 架構允許建模具有可變數量和類型的智能體團隊，同時可以避免 MAPPO/HAPPO 的缺點。

多智能體 Transformer

為了實現 MARL 的序列建模範式，研究者提供的解決方案是多智能體 Transformer（MAT）。應用 Transformer 架構的思路源於這樣一個事實，即智能體觀察序列（o^i_1，...，o^i_n）輸入與動作序列（a^ i_1 , . . . , a^i_n）輸出之間的映射是類似於機器翻譯的序列建模任務。正如定理 (1) 所迴避的，動作 a^i_m 依賴於先前所有智能體的決策 a ^i_1:m?1。

因此，如下圖（2）所示，MAT 中包含了一個用於學習聯合觀察表示的編碼器和一個以自回歸方式為每個智能體輸出動作的解碼器。

編碼器的參數用φ 表示，它以任意順序獲取觀察序列（o^i_1 , . . . , o^i_n），並將它們傳遞通過幾個計算塊。每個塊都由一個自注意力機制、一個多層感知機（MLP）和殘差連接組成，以防止隨深度增加出現梯度消失和網路退化。

解碼器的參數用θ表示，它將嵌入的聯合動作 a^i_0:m?1 , m = {1, . . . n}（其中 a^i_0 是指示解碼開始的任意符號）傳遞到解碼塊序列。至關重要的是，每個解碼塊都有一個掩碼的自注意力機制。為了訓練解碼器，研究者將如下裁剪 PPO 目標最小化。

MAT 中的詳細數據流如下動圖所示。

實驗結果

為了評估 MAT 是否符合預期，研究者在星際爭霸 II 多智能體挑戰（SMAC）基準（MAPPO 在之上具有優越性能）和多智能體 MuJoCo 基準上（HAPPO 在之上具有 SOTA 性能）對 MAT 進行了測試。

此外，研究者還在 Bimanual Dxterous Hand Manipulation (Bi-DexHands)和 Google Research Football 基準上了對 MAT 進行了擴展測試。前者提供了一系列具有挑戰性的雙手操作任務，後者提供了一系列足球遊戲中的合作場景。

最後，由於 Transformer 模型通常在小樣本任務上表現出強大的泛化性能，因此研究者相信 MAT 在未見過的 MARL 任務上也能具有類似強大的泛化能力。因此，他們在 SMAC 和多智能體 MuJoCo 任務上設計了零樣本和小樣本實驗。

協作 MARL 基準上的性能

如下表 1 和圖 4 所示，對於 SMAC、多智能體 MuJoCo 和 Bi-DexHands 基準來說，MAT 在幾乎所有任務上都顯著優於 MAPPO 和 HAPPO，表明它在同構和異構智能體任務上強大的構建能力。此外，MAT 還得到了優於 MAT-Dec 的性能，表明了 MAT 設計中解碼器架構的重要性。

同樣地，研究者在 Google Research Football 基準上也得到了類似的性能結果，如下圖 5 所示。

MAT 用於小樣本學習

表 2 和表 3 中總結了每種演算法的零樣本和小樣本結果，其中粗體數字表示最佳性能。

研究者還提供了數據相同情況下 MAT 的性能，其與對照組一樣從頭開始訓練。如下表所示，MAT 獲得了大多數最好成績，這證明了 MAT 小樣本學習的強大泛化性能。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 機器之心Pro 的精彩文章:

※CMU發表新型靈巧機器人演算法，準確學習日常傢具的操縱方法