當前位置:
首頁 > 知識 > OpenAI新研究成果:如何讓AI智能體學會合作、競爭與交流?

OpenAI新研究成果:如何讓AI智能體學會合作、競爭與交流?

AI 研習社按:在多智能體環境(Multiagent environments)中,智能體之間對資源的惡性競爭現象無疑是通往通用人工智慧(Artificial general intelligence, AGI)路上的一塊絆腳石。多智能體環境具有兩大實用的特性:首先,它提供了一個原生的課程(Natural curriculum)——這裡環境的困難程度取決於競爭對手的能力(而如果你是與自身的克隆進行競爭,則該環境與你的能力等級是相當匹配的);其次,多智能體環境不具有穩定的平衡:因為無論智能體多麼聰明,總是存在著更大壓力使得它更加聰明。這些環境與傳統環境有著非常大的不同,因此還有更多的研究有待進行。

據 AI 研習社了解,來自OpenAI的研究員發明了一種新演算法——MADDPG。該演算法適用於多智能體環境下的集中式學習(Centralized learning)和分散式執行(Decentralized execution),並且允許智能體之間學會協作與競爭。

四個紅色智能體通過MADDPG演算法進行訓練,它們的目標任務是追逐圖中的兩個綠色智能體。其中四個紅色智能體為了獲得更高的回報,學會了互相配合,共同去追捕其中一個綠色智能體。而與此同時,兩個綠色智能體也學會了分開行動,其中一個智能體負責將四個紅色智能體吸引開,然後另一個綠色智能體則乘機去接近水源(由藍色圓圈表示)。

事實上,MADDPG演算法並非完全原創,它擴展自一個被稱為DDPG的增強學習(Reinforcement learning)演算法,靈感則來源於基於Actor-Critic的增強學習技術。另外據 AI 研習社了解,還有許多其它團隊也正在探索這些演算法的變種以及並行化實現。

該演算法將模擬中的每個智能體視為一個「Actor」,並且每個Actor將從「Critic」那兒獲得建議,這些建議可以幫助Actor在訓練過程中決定哪些行為是需要加強的。通常而言,Critic試圖預測在某一特定狀態下的行動所帶來的價值(比如,我們期望能夠獲得的獎勵),而這一價值將被智能體(Actor)用於更新它的行動策略。這麼做比起直接使用獎勵來的更加穩定,因為直接使用獎勵可能出現較大的差異變動。另外,為了使訓練按全局協調方式行動的多個智能體(Multiple agents that can act in a globally-coordinated way)變得可行,OpenAI的研究員還增強了Critic的級別,以便於它們可以獲取所有智能體的行為和觀察,如下圖所示。

GIF/1.8M

據悉,MADDPG中的智能體在測試期間不需要訪問中央的Critic,智能體們將根據自己的觀察和對其它代理行為的預測而行動。由於每個智能體都有各自獨立的集中式Critic,該方法能被用於模擬智能體之間任意的獎勵結構,包括獎勵衝突的對抗性案例。

GIF/283K

GIF/384K

GIF/235K

OpenAI的研究員已經在多項任務中測試了該方法,並且實驗結果表明,MADDPG在所有任務中的表現均優於DDPG。上邊的動圖自左向右依次展示了:兩個AI智能體(藍色圈)嘗試前往指定地點,並且它們學會分開行動,以便於向反對智能體(紅色圈)隱藏自己的目標地點;其中一個智能體將地標傳達給另一個智能體;最後是三個智能體通過協調共同到達各自的地標,並且途中沒有發生碰撞。

GIF/1.9M

上圖展示了,通過MADDPG訓練的紅色智能體比起通過DDPG訓練的紅色智能體表現出了更加複雜的行為。在上圖的動畫中,通過MADDPG(左圖)和DDPG(右圖)訓練的紅色智能體試圖追逐綠色智能體,這期間它們可能需要通過綠色的森林或者躲避黑色的障礙物。

傳統增強學習

傳統的分散式增強學習(Descentralized reinforcement learning)方法,比如DDPG,actor-critic learning,deep Q-learning等等,在多智能體環境下的學習總是顯得很掙扎,這是因為在每個步驟中,每個智能體都將嘗試學習預測其它智能體的行動,並且同時還要採取自己的行動,這在競爭的情況下尤為如此。MADDPG啟用了一個集中式Critic來向智能體提供同類代理的觀察和潛在行為的信息,從而將一個不可預測的環境轉換成可以預測的環境。

當前,梯度策略方法(Policy gradient methods)面臨著更多的挑戰。因為當獎勵不一致的時候,這些方法很難得到正確的策略,並且表現出了高度的差異。另外研究員還發現,加入了Critic之後雖然提高了穩定性,但是依然無法解決多個環境之間諸如交流合作的問題。並且對於學習合作策略問題,在訓練過程中綜合考慮其它智能體的行為似乎是非常重要的。

初步研究

據 AI 研習社了解,在開發MADDPG之前,OpenAI研究員採用分散技術(Decentralized techniques)的時候,他們注意到,如果 Speaker發送不一致的消息,Listener通常會忽略掉發言智能體。然後,後者會將所有與Speaker的消息有關的權重設置為0,從而高效地忽略掉這些信息。

下一步

智能體建模在人工智慧研究中具有豐富的歷史,並且其中許多的場景已經被廣泛研究過了。以前的許多研究只在擁有很短的時長和很少的狀態空間的遊戲中進行。但是深度學習使得研究員們可以處理複雜的視覺輸入,另外增強學習為學習長時間行為提供了工具。現在,研究員可以使用這些功能來一次性訓練多個智能體,而不需要了解環境的動態變化(環境在每個時間步驟中是如何變化的),並且可以在學習來自環境的高維度信息的同時,解決涉及溝通和語言的更廣泛的問題。

最後是OpenAI的一則小廣告,如果你對探索不同的方法來推進AI智能體的發展感興趣的話,不妨考慮加入OpenAI 吧!

點擊展開全文

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 唯物 的精彩文章:

這可能是史上最簡單易懂的 GAN 教程
增強學習對於機器人運動控制的六字真言
英偉達內部對深度學習是如何看待的?
英偉達深度學習學院 DLI 究竟什麼水平?
史上最詳盡的感知機教程:從原理到實踐

TAG:唯物 |

您可能感興趣

IDEO總裁Tim Brown:效率已經不再是現代社會的核心競爭力
Intel發布新款AI晶元,但重點是如何與NVIDIA競爭
與iMac做競爭對手:Wbin AIO曲面一體機顏值高性能好
NVIDIA能在競爭激烈的AI晶元市場保持優勢嗎?
亞馬遜正在研究以Alexa驅動的AirPods競爭對手
T-Mobile和Sprint的合併方案將進行聽證 只有聯手才能「參與競爭」
Magic Leap正在尋找更多的融資機會,將於與蘋果、微軟在AR領域展開競爭
谷歌是否與iMessage的競爭對手合作?
eBay宣布與PayPal競爭對手蘋果Apple Pay達成合作夥伴
時代華納CEO:與AT&T合併是為了與互聯網巨頭競爭
重構新賽道競爭力 TCL智能終端業務群角逐AI×IoT生態
蘋果收購機器學習公司Laserlike,加強AI領域競爭力
亞馬遜新的BooStand服務與Oracle和IBM的同類產品競爭
EXO、BTS、朴志訓、MAMAMOO、TWICE競爭激烈
Realme X和OPPO Reno如何錯位競爭?
Fantom:EOS的強有力競爭者,第一代DAG智能合約平台
應對AMD卡、U競爭 專家建議Intel降價 反對NVIDIA降價
三星為什麼把自家研發的AMOLED屏幕賣給自己的競爭對手IPhone X呢?
化競爭為合作!HTC Viveport正式支持Oculus Rift
人工智慧讓女性在未來職場更優競爭力?/聯發科拿下蘋果智能音箱HomePod的WiFi定製化晶元?