伯克利與OpenAI整合RL與GAN：讓代理學習自動發現目標

新聞 05-20

選自arXiv

機器之心編譯

參與：黃玉勝、吳攀

強化學習（RL）和生成對抗網路（GAN）都是近來的熱門研究主題，已經在許多領域得到了非常出色的表現。近日，伯克利和 OpenAI 的一項新研究將這兩者組合到了一起。在一篇名為《用於強化學習代理的自動目標生成（Automatic Goal Generation for Reinforcement Learning Agents）》的論文中，研究者提出了一種讓代理可以自動發現目標的方法。機器之心對該論文進行了摘要介紹，論文原文請參閱：https://arxiv.org/abs/1705.06366

伯克利與OpenAI整合RL與GAN：讓代理學習自動發現目標

強化學習是一種訓練代理執行任務的強大技術。然而，強化學習訓練的代理只能通過其獎勵函數（reward function）實現單一任務，這種方法不能很好地擴展到代理需要執行各種不同的任務集合中，例如導航到房間的不同位置或將物體移動到不同位置。相反，我們提出了一種允許代理自動發現其能夠執行的任務範圍的方法。我們使用生成器網路給代理提出任務，然後試著實現並將其作為目標狀態（goal state）。該生成器網路使用對抗訓練進行優化，以產生總是處於合適難度的代理任務。因此，我們的方法自動生成任務，以供代理學習。我們表明，通過使用此框架，代理可以高效自動地學習執行廣泛的任務，而不需要任何預先的環境知識。我們的方法也可學習以稀疏獎勵（sparse reward）來完成任務，而在以往這是重大的挑戰。

伯克利與OpenAI整合RL與GAN：讓代理學習自動發現目標

演算法 1：訓練目標 GAN（Goal GAN）

伯克利與OpenAI整合RL與GAN：讓代理學習自動發現目標

演算法 2：生成式目標學習

伯克利與OpenAI整合RL與GAN：讓代理學習自動發現目標

圖 1：我們的迷宮環境；以橙色顯示的代理必須移動到的一個目標位置（以紅色顯示），採樣工作是在任務開始的時候開始的。迷宮牆呈灰色。

伯克利與OpenAI整合RL與GAN：讓代理學習自動發現目標

圖 2：我們的方法（藍色）和基準方法（紅色）訓練效率學習曲線的比較。y 軸表示迷宮中所有目標位置的平均回報，x 軸顯示了新目標已被採樣的次數（對於兩種方法，該策略都針對相同次數的迭代進行訓練），所有的點均為在 5 個隨機種子（seed）上的平均值。

伯克利與OpenAI整合RL與GAN：讓代理學習自動發現目標

圖 3：Goal GAN 採樣的目標（與圖 4 相同的訓練方法）。當前方法與難度相適應就是「好目標」

伯克利與OpenAI整合RL與GAN：讓代理學習自動發現目標

。

伯克利與OpenAI整合RL與GAN：讓代理學習自動發現目標

圖 4：可視化狀態空間不同部分的策略表現（與圖 3 相同的訓練策略）。說明一下，可行狀態空間（即，迷宮內的空間）被劃分為網格，並且從每個網格單元的中心選擇目標位置。每個網格單元根據此目標實現的預期回報進行著色：紅色表示 100% 的成功，藍色表示 0% 成功。

伯克利與OpenAI整合RL與GAN：讓代理學習自動發現目標

表 1：在完整的狀態空間中可行目標的百分比

伯克利與OpenAI整合RL與GAN：讓代理學習自動發現目標

圖 5：二維和三維點質量的可視化，可行區域以藍色界定。在（a）中的點是均勻採樣的可行位置。如果代理可以到達它們，則點為綠色，否則為紅色。圖中的線是觀察到的特定推出，並且顏色匹配交叉是代理在每種情況下試圖達到的特定目標。在（b）中，我們通過 Goal GAN 繪製初始採樣生成，採用我們的技術初始化生成器。

伯克利與OpenAI整合RL與GAN：讓代理學習自動發現目標

圖 6：當維度越來越大時，在 N 維點質量環境中獲得的覆蓋率（即每個策略可以達到的目標的百分比，返回值大於 Rmax）。每種方法已經產生了 200 次新目標，每個策略都用相同的總迭代次數進行訓練。所有的圖均為在 5 個隨機種子（seed）上的平均值。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 機器之心 的精彩文章:

※資源｜Picasso：開源的CNN可視化工具
※微軟發布人工智慧創作的詩集，這裡有小冰寫的139 首現代詩
※《矽谷》中的See Food不僅是真實的應用，還有真實的故事
※Natue發表耶魯大學新研究：隨機AI幫助人類提高決策效率
※機器之心深度研學社每周乾貨：2017年第20周

TAG:機器之心 |

您可能感興趣

※POLYGON：微軟正策劃大規模收購目標包括EA、Valve、PUBG
※成就法的目標 THE AIM OF SADHANA
※CLOT x Nike 的新合作將目標瞄準 Air Max
※深度學習的目標檢測技術演進：R-CNN、Fast R-CNN、Faster R-CNN
※機器視覺目標檢測補習貼之R-CNN系列—R-CNN，Fast R-CNN，Faster R-CNN
※Docker、TensorFlow目標檢測API和OpenCV實現目標檢測和視頻處理
※如何使用Docker、TensorFlow目標檢測API和OpenCV實現實時目標檢測和視頻處理
※教程 | 如何使用Docker、TensorFlow目標檢測API和OpenCV實現實時目標檢測和視頻處理
※優於MobileNet、YOLOv2：移動設備上的實時目標檢測系統Pelee
※馬斯克：Space X接下來的目標是研發「BFR」
※DOTA2 GESC泰國站Minor專訪KG：目標奪冠
※自行車VR模擬器LeanGP達成Kickstarter眾籌目標
※DeepMind新目標：用YouTube讓AI學習玩視頻遊戲
※用 TensorFlow 目標檢測 API 發現皮卡丘！
※「目標檢測演算法」連連看：從Faster R-CNN 、 R-FCN 到 FPN
※TensorFlow＋Keras 實戰 YOLO v3 目標檢測圖文並茂教程
※從零開始PyTorch項目：YOLO v3目標檢測實現
※Sumail自述：目標是拿下六次TI冠軍成為DOTA界的喬丹
※TU Ilmenau提出新型Complex-YOLO，實現點雲上實時3D目標檢測
※整合全部頂尖目標檢測演算法：FAIR開源Detectron