當前位置:
首頁 > 新聞 > OpenAI發布8個模擬機器人環境:可用於訓練實體機器人模型

OpenAI發布8個模擬機器人環境:可用於訓練實體機器人模型

這次的發布包括了四個用到了 Fetch 研究平台(Fetch research platform)的環境和四個用到了 ShadowHand 機器人的平台。這些平台中包含的改造任務比 Gym 上現有的 MuJoCo 持續控制環境要難一點,所有的 MuJoCo 任務都可以簡單地被最近發布的演算法比如 PPO 解決。此外,我們新發布的環境使用真實的機器人模型,並需要智能體解決實際問題。

環境

該項目發布了 8 個 Gym 機器人環境,使用的是 MuJoCo 物理模擬器。這些環境包括:

Gym 是 OpenAI 發布的用於開發和比較強化學習演算法的工具包。它可以教智能體很多事情,比如行走、跑動甚至玩乒乓球等。

Fetch

OpenAI發布8個模擬機器人環境:可用於訓練實體機器人模型

(左圖)FetchReach-v0:Fetch 需要移動它的終端效應器到目標位置上。(右圖)FetchSlide-v0:Fetch 需要打擊一個冰球以使其滑動穿過長桌,然後停在目標位置上。

OpenAI發布8個模擬機器人環境:可用於訓練實體機器人模型

(左圖)FetchPush-v0:Fetch 推動箱子直到其到達預定目標地點。(右圖)FetchPickAndPlace-v0:Fetch 必須從桌子上用它的鉗子拿起一個箱子然後移動到桌子上指定的地點。

ShadowHand

OpenAI發布8個模擬機器人環境:可用於訓練實體機器人模型

(左圖)HandReach-v0:ShadowHand 用它的拇指和一個選定的其他手指延展到手掌上指定的地點。(右圖)HandManipulateBlock-v0:ShadowHand 必須操縱一個塊直到它到達了指定的地點和姿勢。

OpenAI發布8個模擬機器人環境:可用於訓練實體機器人模型

(左圖)HandManipulateEgg-v0:ShadowHand 必須去操縱一個雞蛋直到它到達了指定的地點和姿勢。(右圖)HandManipulatePen-v0:ShadowHand 必須去操縱一支筆直到它到達了指定的地點和姿勢。

目標

所有新任務都有「目標」這一概念,比如幻燈片任務中冰球的期望位置或手塊操縱任務中塊的期望方向。默認情況下如果期望目標未實現,所有環境使用-1 的稀疏獎勵,如果目標達成則使用 0。這與一系列舊的 Gym 連續控制問題中使用的形狀獎勵形成了鮮明對比,比如帶有形狀獎勵的 Walker2d-v2。

我們也為每個環境引入了帶有緊密獎勵的變體。但是,我們相信稀疏獎勵在機器人應用中更為現實,並鼓勵每個人使用稀疏獎勵變體。

OpenAI發布8個模擬機器人環境:可用於訓練實體機器人模型

Hindsight Experience Replay

除卻這些新的機器人環境,我們也給出了 Hindsight Experience Replay(HER)的代碼,它是一個可從失敗中汲取教訓的強化學習演算法。我們的結果表明 HER 通過僅有的稀疏獎勵可從絕大多數新機器人問題中習得成功的策略。下面我們也展示了一些未來研究的潛在方向,可以進一步提升 HER 在這些任務上的表現。

OpenAI發布8個模擬機器人環境:可用於訓練實體機器人模型

理解 HER

要理解 HER,我們需要先看一看 FetchSlide 的內容,一個我們要學習去滑動在桌子上的冰球然後打擊目標的任務。我們第一次嘗試非常可能失敗。除非我們非常走運,後面幾次同樣也會失敗。一般強化學習演算法不會從這樣的經驗學習什麼,因為他們的獎勵(reward)是固定值(在這個案例中是-1),這樣的獎勵不包含學習信號,從而演算法不會去學習。

HER 形式化的關鍵是人在直覺上的行動: 即使我們在任何特定的目標上還沒有成功,但至少實現了一個不同的方法。所以為什麼我們不假設使用我們開始時希望實現的目標,來替代我們最初原始設定的目標?按這樣做的話,強化學習演算法從它達到一定目標時就能得到一個學習信號;即使它不是我們原本想要達到的。如果我們重複這個過程,我們終將學到怎樣去達成任意的目標,包括哪些我們非常想要達到的目標。

這個方法使我們可以學習怎樣去在桌子上滑動一個冰球,即便我們的獎勵是稀疏的,並且我們可能永遠不會在早期擊到目標。我們叫這個技術 Hindsight Experience Replay,因為它會在這一集結束之後選擇目標的重放經驗(一種在策略之外的強化學習演算法像 DQN 或 DDPG)。HER 可以被任何策略之外的強化學習演算法包含在內(舉例,HER 可以被 DDPG 包括,我們寫作「DDPG+HER」)。

結果

我們發現 HER 在基於目標的環境和稀疏獎勵中表現得極其出色。我們在新的任務中對比了 DDPG+HER 和原版 DDPG,該對比中的所有環境分別包含稀疏和密集型獎勵兩種版本。

OpenAI發布8個模擬機器人環境:可用於訓練實體機器人模型

HandManipulateBlockRotateXYZ-v0 中四個不同配置下的中位測試成功率(曲線)和四分位距(陰影區域)。數據在訓練期間進行繪製,並在每一種配置上使用五個隨機 Seed 求均值。

帶有稀疏獎勵的 DDPG+HER 明顯優於其它所有的配置,並且只有稀疏獎勵能在這個挑戰性的任務中學習到成功的策略。有趣的是,DDPG + HER 在密集獎勵的情況下也能夠學習,但表現並不好。此外,原版 DDPG 在兩種情況下都沒有較好的表現。我們發現這種趨勢在大多數環境中都是正確的,讀者可以在技術報告論文中查看詳情。

研究問題:HER

雖然 HER 是很有前途的方式,它能用像我們在本文提出的機器人環境那樣的稀疏獎勵來學習基於目標的複雜任務,但它仍有很大的提升空間。與我們最近發布的 Requests for Research 2.0 相似,我們對如何具體提升 HER 有一些思考與探索。

  • 自動 Hindsight 目標創建:我們現有有一個硬編碼的策略來選擇我們希望替換的 Hindsight 目標。如果這個策略可以被學習替代,那麼將會很有意思。

  • 無偏 HER:目標置換以無原則的方式改變經驗的分布。這種偏差在理論上會導致不穩定性,儘管我們在實踐中並沒有發現這種情況。不過,通過重要性採樣,我們可以推導出 HER 的無偏版本。

  • HER+HRL:將 HER 與最近在層級強化學習(HRL)中的新觀點結合起來可能會很有意思。它不僅能將 HER 用與目標,同時還能通過高層次的策略應用到動作生成,因此我們可以假定高層級要求實現原始目標 B。

  • 更豐富的價值函數:擴展最近的研究並在額外的輸入上調整值函數,如折扣因子或有效的閾值等。

  • 更快的信息傳播:大多數離策略深度強化學習演算法使用目標網路來穩定訓練。然而由於變化需要時間來傳播,這將會影響訓練的速度。此外,我們也在實驗中注意到它經常是決定 DDPG + HER 學習速度的最重要因素。

  • 在策略 HER:目前,HER 只能被用於離策略演算法,因為我們替代了目標,使得經驗變得極其離策略。但是,當前最優的演算法比如 PPO 展示了非常吸引人的穩定屬性。調查 HER 能否與這樣的在策略演算法相結合會很有趣,比如通過重要性採樣。在這一方向上已經有一些初步成果。

  • 高頻動作強化學習:當前的強化學習演算法對採取動作的頻率非常敏感,這就是為什麼跳幀技術經常用於 Atari。在連續控制領域,隨著動作採取的頻率趨向無窮大,表現趨向於零。這是由於兩個原因:不一致的探索(exploration),和需要更多次的 Bootstrap 來及時傳播關於回報的信息。

  • 把 HER 與強化學習的最新進展相結合。最近有大量的研究提升了強化學習的不同方面。比如,HER 能夠與 Prioritized Experience Replay、distributional RL、entropy-regularized RL 相結合。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 機器之心 的精彩文章:

Pedro Domingos總結機器學習研究的12個寶貴經驗
那輛被馬斯克送入太空的特斯拉最終將去向何方?

TAG:機器之心 |