當前位置:
首頁 > 新聞 > IJCAI 2019 | 有趣!這是一篇玩倩女幽魂的多智能體強化學習研究

IJCAI 2019 | 有趣!這是一篇玩倩女幽魂的多智能體強化學習研究

IJCAI 2019 將於 8 月 10-16 號在中國澳門舉辦,本次會議一共收到 4752 篇提交論文,最終接收 850 篇,接收率降低到 17.9%。本文介紹了天津大學郝建業課題組與網易伏羲人工智慧實驗室合作的 IJCAI 2019 論文《Deep Multi-Agent Reinforcement Learning with Discrete-Continuous Hybrid Action Spaces》。該論文主要提出了兩種深度強化學習架構,旨在解決離散—連續混合動作空間下的多智能體學習問題。

IJCAI 2019 | 有趣!這是一篇玩倩女幽魂的多智能體強化學習研究

鏈接:https://arxiv.org/abs/1903.04959

一、背景介紹

混合動作空間:與離散動作空間或連續動作空間不同,擁有混合動作空間的智能體在每一步執行動作時都需要選擇一個離散動作以及該離散動作對應的一個或多個連續性動作參數的值。帶有此類動作空間的問題在現實中廣泛存在。比如在實際應用場景機器人足球世界盃中,一個足球機器人可以選擇帶球(離散)到某個位置(連續坐標)或者用力(連續)將球踢(離散)到某個位置等混合動作;在一些大型遊戲中,玩家控制的每個角色在選擇釋放哪個技能(離散)後還需選擇技能釋放的位置(連續坐標)。傳統的深度強化學習方法大多只能支持解決僅擁有離散或連續動作空間的問題,如 Qmix [Rashid et al., 2018],MADDPG[Lowe et al., 2017]。

近年來,在單智能體領域,有部分文章針對混合動作問題提出了較為合理的解決方法,如 P-DDPG [Hausknecht and Stone, 2016], P-DQN [Xiong et al., 2018]. 然而在實際中更為普遍且環境更為複雜的多智能體環境中,依然缺乏有效的方法和架構。本文從現有單智能體環境中處理混合動作空間問題的方法出發,考慮多智能體合作的環境,提出了兩種全新的深度強化學習架構 Deep MAPQN 和 Deep MAHHQN。

二、Deep MAPQN

IJCAI 2019 | 有趣!這是一篇玩倩女幽魂的多智能體強化學習研究

Deep MAPQN 是對 P-DQN [Xiong et al. 2018] 在多智能體環境下的自然擴展,利用 Qmix [Rashid et al., 2018] 架構實現多智能體的集中訓練,分散執行架構。

執行階段:在每一個時間步,每個智能體先分別由自身的連續性策略網路給出對應於每個可選離散動作 k_i 的連續動作參數 x_(k_i ),然後通過計算各自的 Q 網路計算每個混合動作組的 Q 值選出每個智能體要執行的混合動作組

IJCAI 2019 | 有趣!這是一篇玩倩女幽魂的多智能體強化學習研究

訓練階段:根據 Qmix 架構,採用一個混合網路對單智能體局部值函數進行合併,並在訓練學習過程中加入全局狀態信息輔助,來提高演算法性能。網路的更新過程如下。

通過最小化:

IJCAI 2019 | 有趣!這是一篇玩倩女幽魂的多智能體強化學習研究

來更新 Q 網路的參數。通過:

IJCAI 2019 | 有趣!這是一篇玩倩女幽魂的多智能體強化學習研究

來更新策略函數。

Deep MAPQN 的架構存在著高計算複雜度的問題,當混合動作空間中的離散部分具有很高維度時該問題尤為嚴重。這是因為不管是在訓練還是執行過程,每次計算最後的 Q 值時,Deep MAPQN 需要先計算出對應於每個可選離散動作的所有連續性參數,而實際最優的只有一組,這就造成了很大的冗餘計算量。

三、Deep MAHHQN

IJCAI 2019 | 有趣!這是一篇玩倩女幽魂的多智能體強化學習研究

針對上述問題,論文提出了另一種架構 Deep MAHHQN, 在減少了計算複雜度的同時提高了不同 agent 之間的合作程度,緩解了環境不穩定的問題。

該方法的提出受實際中人的決策過程啟發:人往往先決定做什麼,再決定怎麼做,或做到什麼程度。於是 Deep MAHHQN 借鑒了分層學習的思想,通過兩層網路分別輸出混合動作中的離散部分和連續動作參數,得到最優的混合動作組。Deep MAHHQN 依然遵循了集中訓練,分散學習的結構,在訓練過程中上下層通過不同的 Q 網路來考慮所有智能體的總體動作的效益,並進行策略更新。

執行階段:每個智能體通過各自的上層 Q 網路輸出決定執行的混合動作的離散部分,之後將該離散動作和原輸入狀態組合成新的狀態,作為下層策略網路的輸入。下層策略網路的輸出即為對應於該離散動作的連續性參數。

訓練階段:上下層網路分開訓練,同時訓練過程中也會考慮到各自現行策略的信息,分別通過混合 Q 網路和集中式 critic 網路實現更高層次的合作。具體來說,通過最小化:

IJCAI 2019 | 有趣!這是一篇玩倩女幽魂的多智能體強化學習研究

來更新上層網路參數。注意這裡混合網路 hypernetwork 的輸入除了全局狀態外,還有每個智能體下層的連續性參數。通過:

IJCAI 2019 | 有趣!這是一篇玩倩女幽魂的多智能體強化學習研究

IJCAI 2019 | 有趣!這是一篇玩倩女幽魂的多智能體強化學習研究

來更新下層網路參數,這裡每個智能體的 critic 都借用了全局信息來學習。

此外在訓練過程中,我們決定讓下層網路先單獨訓練一定輪數後再同時訓練上層和下層網路。主要原因在於訓練上層網路時,下層策略的優劣對上層策略的評價體系有較大影響,開始訓練時下層網路的雜訊太大會對上層網路的訓練產生惡劣的影響。

四、實驗結果

我們在 HFO 和網易遊戲《倩女幽魂》上分別進行了實驗,並將兩種方法與現有最優的單智能體方法 P-DQN 進行了比較,均取得了不錯的結果。

HFO 是一種在計算機上模擬的機器人足球遊戲。在 HFO 環境中,每個智能體的動作空間如下:踢球 Kick_to (x, y, speed); 帶球 dribble_to (x, y); 無球移動 move_to (x, y); 停球 intercept( ). 採取純隨機的策略幾乎不可能完成進球或者成功地防守。我們分別對 2v1 進攻和 1v2 防守模式進行了測試,使用本文提出的模型控制一方的兩名球員來合作對抗內置 AI 控制的另一方球員。

IJCAI 2019 | 有趣!這是一篇玩倩女幽魂的多智能體強化學習研究

可以看到在兩種模式中,Deep MAPQN 和 Deep MAHHQN 相比於 P-DQN 均得到了更好的訓練結果(進球率和防守成功率)。另一方面,後者的訓練結果表現更優於前者,這說明我們對 Deep MAHHQN 集中訓練部分的改進在一定程度上加深了不同智能體之間的交流,提高了演算法穩定性。進一步觀察習得的策略,可以發現 Deep MAPQN 和 Deep MAHHQN 所訓練的兩名球員能夠在比賽開始時就自動分工(比如在防守時,一方負責守門,一方負責搶球),以取得更好的防守效果。

在倩女幽魂遊戲中,我們選取了「3v3」的遊戲模式進行測試,即控制三個同一方的角色與內置 AI 控制的另一方進行對戰。在該環境中,動作空間和狀態空間相比 HFO 都複雜了許多。每個智能體控制的角色可以釋放不同技能(離散)到不同的地點(連續的坐標),在技能釋放地周圍的角色都會受到影響,包括對該角色造成傷害,或是使該角色帶上降低/升高攻擊力或防禦力的 buff(有時間限制),因此取得一局遊戲的勝利需要不同角色間的高度合作。我們取得的實驗結果與在 HFO 中所得類似,Deep MAPQN 和 Deep MAHHQN 均表現出了更為優異的訓練策略,實際測試中兩者控制的一方均能達到百分之七十五以上的遊戲勝率。此外,在這個規模更大,環境更為複雜的遊戲中,Deep MAHHQN 所需要的實際訓練時間(小於一天)遠小於 Deep MAPQN 所需的實際訓練時間(約為三天),這個結果進一步驗證了前文對兩種方法計算複雜度的估計。

IJCAI 2019 | 有趣!這是一篇玩倩女幽魂的多智能體強化學習研究

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 機器之心 的精彩文章:

從相機標定到SLAM,極簡三維視覺六小時課程視頻(附PPT)
從相機標定到SLAM,極簡三維視覺六小時課程視頻

TAG:機器之心 |