OpenAI提出強化學習新方法：讓智能體學習合作、競爭與交流

新聞 06-10

選自OpenAI

機器之心編譯

作者： Ryan Lowe、吳翼等

參與：吳攀、Smith

讓智能體（agent）學會合作一直以來都是人工智慧領域內的一項重要研究課題，一些研究者也認為合作能力是實現通用人工智慧（AGI）的必要條件。而除了合作，讓智能體學會競爭可能也是實現這一目標的一大關鍵。近日，OpenAI、麥吉爾大學和加州大學伯克利分校的幾位研究者提出了一種「用於合作-競爭混合環境的多智能體 actor-critic」。之後，OpenAI 發布博客對這項研究進行了解讀，機器之心對該解讀文章進行了編譯介紹。

讓智能體能在其中為資源進行競爭的多智能體環境是實現通用人工智慧之路的墊腳石。

多智能體環境（multi-agent environment）有兩個實用的屬性：第一，存在一個自然的全套考驗——環境的難度取決於你的競爭者的能力（而且如果你正在和你的克隆體進行對抗的話，環境就可以精確地匹配出你的技術水平）。第二點，多智能體環境沒有穩定的平衡態（equilibrium）：無論一個智能體多麼聰明，總會有讓它變得更智能的壓力。這些環境和傳統環境相比有很大的不同，並且要想掌控它們我們還需要大量的研究。

我們已經設計了一個新演算法 MADDPG（Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments），可用於多智能體環境中的中心化學習（centralized learning）和去中心化執行（decentralized execution），讓智能體可以學習彼此合作和競爭。

OpenAI提出強化學習新方法：讓智能體學習合作、競爭與交流

用來訓練 4 個紅色智能體追逐 2 個綠色智能體的 MADDPG。紅色智能體已經學會和「同伴」進行團隊合作來追逐單個綠色智能體，以獲得更高的獎勵。同時，綠色智能體學會了彼此分散，並且當它們中的一個正在被追逐時，另一個就會嘗試接近水源（藍色圓圈）以躲避紅色智能體。

MADDPG 對 DDPG（https://arxiv.org/abs/1509.02971）這種強化學習演算法進行了延伸，並從 actor-critic 強化學習技術上獲得了靈感；也有其他研究團隊正在探索這些思路的變體和並行實現的方法，參閱以下論文：

Learning Multiagent Communication with Backpropagation：https://arxiv.org/abs/1605.07736
Learning to Communicate with Deep Multi-Agent Reinforcement Learning：https://arxiv.org/abs/1605.06676
Counterfactual Multi-Agent Policy Gradients：https://arxiv.org/abs/1705.08926

我們把模擬實驗中的每一個智能體都當作「演員（actor）」，並且每個演員都從「批評家（critic）」那裡獲得建議，從而來幫助 actor 去決策哪些動作在訓練過程中應該被強化。傳統上，critic 會設法去預測在一個特定狀態中一個動作的價值（value，即將來期望得到的獎勵），這個獎勵會被智能體（actor）用來更新它自己的策略（policy）。和直接使用獎勵（reward）相比，這無疑是更加可靠的，因為它可以根據具體情況來進行調整。為了讓這種方法適用於多智能體全局協同（globally-coordinated）的情況，我們改進了我們的 critic，使它們可以獲得所有智能體的觀察結果和動作，如下圖所示。

OpenAI提出強化學習新方法：讓智能體學習合作、競爭與交流

我們的智能體無需在測試的時候有一個中心 critic；它們可以基於它們的觀察以及它們對其它智能體的行為的預測來採取行動。因為一個中心化的 critic 是為每個智能體獨立學習到的，所以我們的方法也可以在多智能體之間構造任意的獎勵結構，包括擁有相反獎勵的對抗案例。

OpenAI提出強化學習新方法：讓智能體學習合作、競爭與交流

我們在許多不同的任務上對我們的方法進行了測試，其在所有任務上的表現都優於 DDPG。在上面的動畫中你可以看到，從上到下：兩個 AI 智能體試圖到達特定地點，學會了分開行動以向其對手智能體隱藏其目標位置；一個智能體與另一個智能體溝通目標的名稱；三個智能體協調，在不碰撞彼此的情況下到達目標。

OpenAI提出強化學習新方法：讓智能體學習合作、競爭與交流

使用 MADDPG（上）訓練的紅色智能體表現出了比那些使用 DDPG（下）訓練的智能體更複雜的行為。其中，紅色智能體試圖通過綠色的森林來追逐綠色的智能體，同時繞過黑色的障礙。我們的智能體可以捕捉到更多智能體，而且也看得出來，我們的智能體比 DDPG 方法訓練的智能體合作能力更強。

傳統強化學習不給力的地方

傳統的去中心化強化學習方法（DDPG、actor-critic 學習和深度 Q 學習等等）難以在多智能體環境中學習，因為在每一個時間步，每個智能體都會嘗試學習預測其它智能體的動作，同時還要採取自己的行動。有競爭的情形中，尤其如此。MADDPG 使用了一種中心化的 critic 來為智能體提供補充，這些補充信息包括它們同伴的觀察和潛在動作，從而可以將一個不可預測的環境轉換成可預測的。

使用策略梯度方法會帶來進一步的難題：因為這會帶來很高的方差，當獎勵不一致時很難學習到正確的策略。我們還發現添加 critic 雖然可以提高穩定性，但是仍然不能應對我們的部分環境，比如合作交流（cooperative communication）。似乎在訓練中考慮其它智能體的動作對學習合作策略來說非常重要。

初步研究

在我們開發 MADDPG 之前，在使用去中心化技術時，我們注意到如果說話者在表達自己的去處時不一致，那麼聽話者智能體（listener agent）就常常會學會忽略說話者。然後該智能體會將所有與該說話者的信息關聯的權重設置為 0，從而有效地「靜音」。一旦這種情況發生，就很難通過訓練恢復了；因為缺乏任何反饋，所以該說話者將永遠無法知道它說的是否正確。為了解決這個問題，我們研究了最近一個分層強化學習項目（https://arxiv.org/abs/1703.01161）中提出的技術，這可以讓我們迫使聽話者在其決策過程中整合該說話人的表述。但這個解決方案沒有作用，因為儘管其強迫聽話者關注說話者，但對說話者了解應該說什麼相關內容卻毫無助益。我們的中心化 critic 方法有助於解決這些難題，可以幫助說話者了解哪些表述可能與其它智能體的動作相關。更多結果請參看下面的視頻：

下一步

在人工智慧研究領域，智能體建模（agent modeling）可謂歷史悠久，很多場景都已經得到過了研究。過去的很多研究都只考慮了少量時間步驟和很小的狀態空間。深度學習讓我們可以處理複雜的視覺輸入，而強化學習可以給我們帶來學習長時間行為的工具。現在，我們可以使用這些能力來一次性訓練多個智能體，而無需它們都了解環境的動態（環境會在每個時間步驟如何變化），我們可以解決大量涉及到交流和語言的問題，同時學習環境的高維信息。以下為原論文的摘要：

論文：用於合作-競爭混合環境的多智能體 Actor-Critic（Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments）

論文地址：https://arxiv.org/pdf/1706.02275.pdf

OpenAI提出強化學習新方法：讓智能體學習合作、競爭與交流

我們探索了用於多智能體域（multi-agent domains）的深度強化學習方法。我們開始分析了傳統演算法在多智能體案例中的困難：Q 學習（Q-learning）因為環境固有的非平穩性（non-stationarity）而受到了挑戰，而策略梯度（policy gradient）則飽受隨智能體數量增長而增大的方差之苦。然後我們提出了對 actor-critic 方法的一種調整，其考慮了其它智能體的動作策略（action policy），能夠成功學習到需要複雜多智能體協調的策略。此外，我們還引入了一種為每個智能體使用策略集成（ensemble of policies）的訓練方案，可以得到更加穩健的多智能體策略。我們表明了我們的方法相對於已有的方法在合作和競爭場景中的能力，其中智能體群（agent populations）能夠發現各種物理和信息的協調策略。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 機器之心 的精彩文章:

※南京大學周志華等提出DFOP演算法：無分布一次通過學習
※重磅，波士頓動力被軟銀收購，「被豐田收購」傳言告破
※CMU和谷歌聯手研製左右互搏的對抗性機器人

TAG:機器之心 |

您可能感興趣

※流固耦合分析之竹蜻蜓旋轉升空模擬教學-Abaqus光滑粒子流體動力學方法SPH
※Facebook漸變網路、多尺度DenseNet、最新街景數據集、集成學習新方法
※流浪Vagante聯機模式隊友復活方法
※Acta Neuropathol Commun：科學家們開發出診斷神經退行性疾病的新方法
※Cancer Cell：科學家發現激活抗癌免疫反應的新方法！可更有效對抗乳腺癌！
※UC Berkeley提出特徵選擇新方法：條件協方差最小化
※PhotoShop基礎教程選區工具的應用技巧方法PS選區工具PS新手教程
※學習的方法論
※受AlphaGo啟發，AI重建量子系統新方法登上Nature Physics
※親測有效的windows系統激活方法
※Ray Dalio的思考方法
※KMeans中自動K值的確認方法
※elife：科學家們找到治療抑鬱症的新方法
※細胞質里做道場：Nat.Chem.報道手性有機金屬催化劑的抗癌新方法
※DeepMind於Nature子刊發文提出非對稱博弈的降維方法
※CodeWarrior IDE使用Tips-使用burner將elf文件轉換生成HEX和BIN文件的方法和步驟詳解
※PPT/Word/Excel 協同使用，相互轉換的方法其實非常簡單！
※JSON編程的parse() 方法
※The Isle官方簡體中文設置方法
※考完CPA如何順手過CFA一級？各科學習方法及複習、考試注意事項