當前位置:
首頁 > 新聞 > 伯克利與OpenAI整合RL與GAN:讓代理學習自動發現目標

伯克利與OpenAI整合RL與GAN:讓代理學習自動發現目標

選自arXiv

機器之心編譯

參與:黃玉勝、吳攀

強化學習(RL)和生成對抗網路(GAN)都是近來的熱門研究主題,已經在許多領域得到了非常出色的表現。近日,伯克利和 OpenAI 的一項新研究將這兩者組合到了一起。在一篇名為《用於強化學習代理的自動目標生成(Automatic Goal Generation for Reinforcement Learning Agents)》的論文中,研究者提出了一種讓代理可以自動發現目標的方法。機器之心對該論文進行了摘要介紹,論文原文請參閱:https://arxiv.org/abs/1705.06366

伯克利與OpenAI整合RL與GAN:讓代理學習自動發現目標

強化學習是一種訓練代理執行任務的強大技術。然而,強化學習訓練的代理只能通過其獎勵函數(reward function)實現單一任務,這種方法不能很好地擴展到代理需要執行各種不同的任務集合中,例如導航到房間的不同位置或將物體移動到不同位置。相反,我們提出了一種允許代理自動發現其能夠執行的任務範圍的方法。我們使用生成器網路給代理提出任務,然後試著實現並將其作為目標狀態(goal state)。該生成器網路使用對抗訓練進行優化,以產生總是處於合適難度的代理任務。因此,我們的方法自動生成任務,以供代理學習。我們表明,通過使用此框架,代理可以高效自動地學習執行廣泛的任務,而不需要任何預先的環境知識。我們的方法也可學習以稀疏獎勵(sparse reward)來完成任務,而在以往這是重大的挑戰。

伯克利與OpenAI整合RL與GAN:讓代理學習自動發現目標

演算法 1:訓練目標 GAN(Goal GAN)

伯克利與OpenAI整合RL與GAN:讓代理學習自動發現目標

演算法 2:生成式目標學習

伯克利與OpenAI整合RL與GAN:讓代理學習自動發現目標

圖 1:我們的迷宮環境;以橙色顯示的代理必須移動到的一個目標位置(以紅色顯示),採樣工作是在任務開始的時候開始的。迷宮牆呈灰色。

伯克利與OpenAI整合RL與GAN:讓代理學習自動發現目標

圖 2:我們的方法(藍色)和基準方法(紅色)訓練效率學習曲線的比較。y 軸表示迷宮中所有目標位置的平均回報,x 軸顯示了新目標已被採樣的次數(對於兩種方法,該策略都針對相同次數的迭代進行訓練),所有的點均為在 5 個隨機種子(seed)上的平均值。

伯克利與OpenAI整合RL與GAN:讓代理學習自動發現目標

圖 3:Goal GAN 採樣的目標(與圖 4 相同的訓練方法)。當前方法與難度相適應就是「好目標」

伯克利與OpenAI整合RL與GAN:讓代理學習自動發現目標

伯克利與OpenAI整合RL與GAN:讓代理學習自動發現目標

圖 4:可視化狀態空間不同部分的策略表現(與圖 3 相同的訓練策略)。說明一下,可行狀態空間(即,迷宮內的空間)被劃分為網格,並且從每個網格單元的中心選擇目標位置。每個網格單元根據此目標實現的預期回報進行著色:紅色表示 100% 的成功,藍色表示 0% 成功。

伯克利與OpenAI整合RL與GAN:讓代理學習自動發現目標

表 1:在完整的狀態空間中可行目標的百分比

伯克利與OpenAI整合RL與GAN:讓代理學習自動發現目標

圖 5:二維和三維點質量的可視化,可行區域以藍色界定。在(a)中的點是均勻採樣的可行位置。如果代理可以到達它們,則點為綠色,否則為紅色。圖中的線是觀察到的特定推出,並且顏色匹配交叉是代理在每種情況下試圖達到的特定目標。在(b)中,我們通過 Goal GAN 繪製初始採樣生成,採用我們的技術初始化生成器。

伯克利與OpenAI整合RL與GAN:讓代理學習自動發現目標

圖 6:當維度越來越大時,在 N 維點質量環境中獲得的覆蓋率(即每個策略可以達到的目標的百分比,返回值大於 Rmax)。每種方法已經產生了 200 次新目標,每個策略都用相同的總迭代次數進行訓練。所有的圖均為在 5 個隨機種子(seed)上的平均值。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 機器之心 的精彩文章:

資源|Picasso:開源的CNN可視化工具
微軟發布人工智慧創作的詩集,這裡有小冰寫的139 首現代詩
《矽谷》中的See Food不僅是真實的應用,還有真實的故事
Natue發表耶魯大學新研究:隨機AI幫助人類提高決策效率
機器之心深度研學社每周乾貨:2017年第20周

TAG:機器之心 |

您可能感興趣

POLYGON:微軟正策劃大規模收購 目標包括EA、Valve、PUBG
成就法的目標 THE AIM OF SADHANA
CLOT x Nike 的新合作將目標瞄準 Air Max
深度學習的目標檢測技術演進:R-CNN、Fast R-CNN、Faster R-CNN
機器視覺目標檢測補習貼之R-CNN系列—R-CNN,Fast R-CNN,Faster R-CNN
Docker、TensorFlow目標檢測API和OpenCV實現目標檢測和視頻處理
如何使用Docker、TensorFlow目標檢測API和OpenCV實現實時目標檢測和視頻處理
教程 | 如何使用Docker、TensorFlow目標檢測API和OpenCV實現實時目標檢測和視頻處理
優於MobileNet、YOLOv2:移動設備上的實時目標檢測系統Pelee
馬斯克:Space X接下來的目標是研發「BFR」
DOTA2 GESC泰國站Minor專訪KG:目標奪冠
自行車VR模擬器LeanGP達成Kickstarter眾籌目標
DeepMind新目標:用YouTube讓AI學習玩視頻遊戲
用 TensorFlow 目標檢測 API 發現皮卡丘!
「目標檢測演算法」連連看:從Faster R-CNN 、 R-FCN 到 FPN
TensorFlow+Keras 實戰 YOLO v3 目標檢測圖文並茂教程
從零開始PyTorch項目:YOLO v3目標檢測實現
Sumail自述:目標是拿下六次TI冠軍 成為DOTA界的喬丹
TU Ilmenau提出新型Complex-YOLO,實現點雲上實時3D目標檢測
整合全部頂尖目標檢測演算法:FAIR開源Detectron