OpenAI發布最新模擬機器人環境，用真實機器人模型進行訓練

科技 02-27

圖：pixabay

原文來源：OpenAI

作者：MATTHIAS PLAPPERT、MARCIN ANDRYCHOWICZ、ALEX RAY、BOB MCGREW、BOWEN BAKER、GLENN POWELL、JONAS SCHNEIDER、JOSH TOBIN、MACIEK CHOCIEJ、PETER WELINDER、VIKASH KUMAR、WOJCIECH ZAREMBA

「雷克世界」編譯：嗯~阿童木呀

最近，我們發布了8個模擬機器人環境，以及一個事後經驗回放（Hindsight Experience Replay）的基線實現，所有這些都是為我們過去一年的研究而開發的。我們已經使用這些環境對在物理機器人上運行的模型進行訓練。我們還發布了一系列用於機器人研究的請求。

該版本包括四個使用了Fetch研究平台的環境和四個使用了ShadowHand機器人的環境。可以說，這些環境中所包含的操作任務要比目前在Gym中可用的MuJoCo連續控制環境要困難得多，因為所有這些現在都可以使用最近發布的演算法（如PPO）得以輕鬆解決。此外，我們新發布的環境使用真實機器人模型，並要求智能體解決實際任務。

環境

該版本配備了8個使用MuJoCo物理模擬器的Gym機器人環境。這些環境是：

Fetch

FetchReach-v0：Fetch必須將其末端執行器移動到期望目標位置

FetchSlide-v0：Fetch必須在一張長桌子上打一個冰球，以便它能夠滑動並達到預期目標

FetchPush-v0：Fetch必須通過推來移動一個盒子，直到它達到預期的目標位置

FetchPickAndPlace-v0：Fetch必須使用夾具從桌子上拿起一個盒子，並將其移動到桌子上方的期望目標位置

ShadowHand

HandReach-v0：ShadowHand必須用拇指和一個選定的手指進行，直到它們在手掌上方的一個期望目標位置相遇

HandManipulateBlock-v0：ShadowHand必須對一個方塊進行操控，直到它達到期望目標位置和旋轉面

HandManipulateEgg-v0：ShadowHand必須對一個雞蛋進行操控，直到它達到預期目標位置和旋轉面

HandManipulatePen-v0：ShadowHand必須對筆進行操控，直到其達到期望目標位置和旋轉面

目標

所有新任務都有一個「目標」的概念，例如在滑動任務中冰球的期望位置，或用手對方塊操控任務中方塊的期望方向。默認情況下，如果沒有達到預期目標，所有環境都會使用-1的稀疏獎勵，如果達到預期目標（在一定的範圍內），則為0。這與舊的Gym連續控制問題中所使用的形狀獎勵形成鮮明對比，例如帶有形狀獎勵的Walker2d-v2。

我們還為每個環境引入了一個密集獎勵的變體。然而，我們認為稀疏獎勵在機器人應用中更具實際性，我們鼓勵每個人使用稀疏獎勵變體。

事後經驗回放（Hindsight Experience Replay）

除了這些新的機器人環境外，我們還發布了事後經驗回放（Hindsight Experience Replay）（簡稱為HER）的代碼，這是一種可從失敗中汲取經驗教訓的強化學習演算法。我們的研究結果表明，僅需要稀疏獎勵，HER便可以從大多數新機器人問題中學習成功的策略。下面，我們還展示了未來研究的一些潛在方向，從而可以進一步提高HER演算法在這些任務上的性能表現。

理解HER

要想理解HER的作用是什麼，我們先來看看FetchSlide的上下文，這是一個我們需要學習如何在桌子上滑動冰球並擊中目標的任務。我們的第一次嘗試很可能不會成功。除非我們很幸運，否則接下來的幾次嘗試也未必會成功。典型的強化學習演算法不會從這樣的經驗中學到任何東西，因為它們只獲得一個不包含任何學習信號的恆定獎勵（在這種情況下為-1）。

HER形式的關鍵洞察力在於直覺上人類是怎麼做的：儘管我們在某個特定目標上還沒有取得成功，但我們至少實現了一個不同的成果。那麼我們為什麼不假設想要實現的目標就是開始時的目標，而不是我們最初設定的目標？通過這種替代，強化學習演算法可以獲得學習信號，因為它已經實現了一些目標，即使它不是我們原本想達到的目標。如果我們重複這一過程，我們最終將學會該如何實現任意目標，包括我們真正想要實現的目標。

這種方法使得我們去學習改如何在桌子上滑動一個冰球，儘管我們的獎勵是完全稀疏的，儘管實際上我們可能從未在早期達到過預期目標。我們將這種技術稱為事後經驗回放，因為它會在事件結束後，對事件中選擇的目標進行經驗回放（在諸如DQN和DDPG之類的off-policy強化學習演算法中經常使用的技術）。因此，HER可以與任何off-policy強化學習演算法結合使用（例如，HER可以與DDPG結合，我們將其寫為「DDPG + HER」）。

結果

我們發現HER在基於目標的、具有稀疏獎勵的環境中運行得非常好。我們在新任務中對DDPG + HER和vanilla DDPG進行了對比。這種對比涵蓋了每個環境的稀疏和密集獎勵版本。

HandManipulateBlockRotateXYZ-v0上的四個不同配置的中位測試成功率（曲線）與四分位間距（陰影區域）。數據是在訓練時期進行繪製的，並且在每種配置對五個不同的隨機seeds進行總結。

帶有稀疏獎勵的DDPG + HER明顯優於其他所有配置，並且僅需要很少的獎勵，便可以從這項具有具有挑戰性的任務上學習成功的策略。有趣的是，帶有密集獎勵的DDPG + HER也能夠學習，但表現性能較差。在這兩種情況下，vanilla DDPG大多不能進行學習。我們發現這種趨勢在大多數環境中都是正確的。

Requests for Research：HER版本

儘管HER是一種很有發展前景的方式，可以用像我們在文中所提出的機器人環境那樣的稀疏獎勵來學習複雜的、基於目標的任務，但仍有很大的提升空間。與我們最近發布的Requests for Research 2.0要求類似，我們對於如何具體改進HER和通用強化學習有一些想法。

自動事後目標創建（Automatic hindsight goal creation）：我們現在有一個硬編碼策略以選擇我們想要替換的事後目標。如果這個策略可以被學習，那將是很有趣的。

無偏差HER：目標替換以無原則的方式改變了經驗分配。這種偏差在理論上會導致不穩定性，儘管我們在實踐中並沒有發現這種情況。不過，例如通過利用重要性抽樣，可以推導出HER的無偏差版本。

HER + HRL：將HER與層級強化學習（HRL）中的最新想法進一步結合起來會很有趣。它不僅可以將HER用於目標終，還可以應用於由更高級別策略生成的操作中。例如，如果較高級別要求較低級別實現目標A，但卻實現了目標B，則我們可以假設較高級別最初就是要求我們實現目標B。

更豐富的值函數：將最近的研究進行擴展將會非常有趣，並在附加的輸入上（（如折扣因子或成功閾值））調整值函數。

更快的信息傳播：大多數off-policy深度強化學習演算法使用目標網路來穩定訓練。然而，由於變化需要時間來進行傳播，這將會對訓練的速度產生影響，並且我們在實驗中注意到，它往往是決定DDPG + HER學習速度的最重要因素。研究其他不引起這種減速的穩定訓練的方法是很有趣的。。

HER +多步返回：由於我們替換了目標，因此在HER中所使用的經驗極其off-policy。這使得它很難與多步返回一起使用。但是，多步返回是可取的，因為它們允許更快地傳遞關於返回的信息。

on-policy HER：目前，由於我們取代了目標，所以HER只能與off-policy演算法一起使用，這使得經驗極其off-policy。然而，像PPO這樣的最新技術演算法表現出非常吸引人的穩定性特徵。研究HER是否可以與這種on-policy演算法相結合是非常有趣的，例如通過重要性採樣，在這方面已經有一些初步結果。

具有高頻行動的強化學習：目前的強化演算法對採取動作的頻率非常敏感，這就是為什麼在Atari上通常使用跳幀技術。在連續控制領域，隨著所採取行動的頻率趨於無窮大，性能趨於零，這是由兩個因素造成的：不一致的探索，以及引導更多時間來向後傳播有關返回信息的必要性。

將HER與強化學習的最新進展的結合：最近有大量研究改進了強化學習的不同方面。首先，HER可以與優先經驗回放、分散式強化學習、熵正則化強化學習或反向課程生成相結合。

使用基於目標的環境

引入「目標」的概念需要對現有的Gym API進行一些反向兼容的更改：

所有基於目標的環境都使用gym.spaces.Dict觀察空間。預期環境包含一個智能體試圖實現的期望目標（desired_goal）、其目前達到的目標（achieved_goal）、以及實際觀察（observation），例如機器人的狀態。

我們展示了環境的獎勵函數，從而允許通過改變的目標以對獎勵進行重新計算。這使得對目標進行替換的HER風格的演算法成為可能。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 雷克世界 的精彩文章:

※對於這隻已經上市的「狗」，王小川認為一切只是新的開始
※DeepMind提出特定路徑的反事實公平，減少敏感屬性對決策系統的影響

TAG:雷克世界 |