當前位置:
首頁 > 最新 > 斯坦福大學&DeepMind聯合提出機器人控制新方法,RL+IL端到端地學習視覺運動策略

斯坦福大學&DeepMind聯合提出機器人控制新方法,RL+IL端到端地學習視覺運動策略

選自arXiv

作者:朱玉可等

機器之心編譯

參與:路雪、思源

近日,來自斯坦福大學&DeepMind 的研究者提出一種學習機器人深度視覺運動策略的新方法,它結合強化學習和模仿學習來實現高效的強化學習智能體,該方法可解決大量視覺運動任務。實驗證明該智能體性能顯著優於僅使用強化學習或模仿學習訓練出的智能體。

近期深度強化學習在多個領域取得了很好的表現,如視頻遊戲 [29] 和圍棋 [46]。對於機器人,RL 結合強大的函數逼近器(如神經網路)可提供設計複雜控制器的通用框架,而這種控制器很難靠人力搭建。基於強化學習的方法在機器人控制領域歷史很久,但通常與低維動作表示結合使用 [4, 20]。近年來,使用 model-based 和 model-free 技術的深度強化學習在機器人控制方面取得了大量成功案例,包括模擬和在硬體上運行兩方面。然而,使用 model-free 技術端到端地學習視覺運動控制器來執行長跨度、多階段控制任務仍然存在很大難度。

開發 RL 機器人智能體需要克服多項挑戰。機器人策略必須將從帶噪感測器中得到的多模態、部分觀測數據改變為具備一定自由度的協作活動。同時,現實任務通常具備富接觸動態,並且隨著多個維度發生變化(視覺外觀、位置、形狀等),給泛化帶來了很大挑戰。

本論文中,研究者提出一種 model-free 的深度 RL 方法,直接從像素輸入入手解決大量機器人控制任務。本論文關鍵洞察有:1)利用少量人類演示數據減少在連續域執行探索(exploration)的難度;2)在訓練過程中使用多種新技術(這些技術利用(exploit)了私有和任務特定的信息),以加速和穩定視覺運動策略在多階段任務中的學習;3)通過增加訓練條件的多樣性來改善泛化性能。因此,這些策略在系統動態、目標外觀、任務長度等發生顯著變化的情況下仍然運行良好。

此外,研究者還展示了該方法在兩項任務上的初步結果,模擬訓練出的策略達到了向真實機器人的 zero-shot 遷移。

為了解決這些挑戰,本論文研究者提出的方法將模仿學習和強化學習結合起來,構建一個統一訓練框架。該方法以兩種方式利用演示數據:使用混合獎勵,基於生成對抗模仿學習將任務獎勵與模仿獎勵結合起來;使用演示軌跡構建狀態的課程(curriculum),以在訓練中初始化 episode。因此,該方法解決了全部六個任務,這些任務單憑強化學習或模仿學習都無法解決。

圖 1. 研究者提出的機器人學習流程。研究者使用 3D 運動控制器收集某項任務的人類演示。本論文提出的強化學習和模仿學習模型利用這些演示促使模擬物理引擎的學習。然後執行 sim2real 遷移,將習得的視覺運動策略遷移至真正的機器人。

3. 模型

本研究旨在為機器人控制任務學習深度視覺運動策略。該策略使用 RGB 攝像頭觀測結果和本體特徵(proprioceptive feature)向量描述關節位置和角速度。這兩種感官模態在真實機器人上同樣可用,因此研究者進行模擬訓練,並將習得的策略在不修改的情況下遷移至機器人。圖 2 是模型概覽。深度視覺運動策略使用卷積神經網路編碼觀測像素,使用多層感知機編碼本體特徵。這兩種模塊中的特徵被級聯並傳輸至循環 LSTM 層,然後輸出關節速度(控制)。整個網路以端到端的方式進行訓練。研究者首先簡要介紹了生成對抗模仿學習(GAIL)和近端策略優化(PPO)的基礎知識。該模型基於這兩種方法擴展而來,提升視覺運動技能。

圖 2. 模型概覽。模型核心是深度視覺運動策略,其採用攝像頭觀測結果和本體特徵作為輸入,並輸出下一個關節速度。

4. 實驗

本節展示了該方法可向視覺運動策略學習提供靈活的框架。研究者在六個控制任務中對該方法的性能進行了評估(詳見圖 3)。視頻包含了定性結果。

圖 3. 實驗中六項控制任務的可視化。左邊三列展示了六項任務在模擬環境中的 RGB 圖像。這些圖像對應輸入視覺運動策略的實際像素觀測。右側一列展示了真實機器人執行兩項色塊任務的表現。

研究者將 episode 平均返回值表示為訓練迭代次數的函數,如圖 4 所示。完整模型在六項任務中達到了最高的返回值。

圖 4. 論文提出的強化與模仿學習模型和基線學習效率的對比。該圖展示的是 5 次不同隨機種子運行的平均值。所有策略使用同樣的網路架構和超參數(λ 除外)。

在圖 5a 中,研究者用多種配置訓練智能體,從單個修改到修改整個模型。研究者發現這些缺失可分為兩類:學習堆疊的智能體(平均返回值大於 400)和僅學會提升的智能體(平均返回值在 200 和 300 之間)。結果表明從狀態中學習價值函數的混合 RL/IL 獎勵和以目標為中心的鑒別器特徵在學習優良策略的過程中發揮了重要作用。

圖 5b 展示了該模型在 λ 值在 0.3 到 0.7 之間的運行效果,λ 值的大幅變化提供了 RL 和 GAIL 獎勵的平衡混合。

圖 5. 堆疊任務中的模型分析。左圖展示了從完整模型中移除每個單獨組件對性能的影響。右圖展示了模型對超參數 λ 的敏感度,λ 調節強化學習和模仿學習的貢獻。

論文:Reinforcement and Imitation Learning for Diverse Visuomotor Skills

論文地址:https://arxiv.org/pdf/1802.09564.pdf

摘要:我們提出了一種 model-free 的深度強化學習方法,該方法利用少量人類演示數據幫助實現強化學習智能體。我們將該方法應用於機器人控制任務中,並訓練端到端的視覺運動策略,使 RGB 攝像頭輸入可直接映射至關節速度。我們展示了該方法可解決大量視覺運動任務,而工程實現一個腳本控制器非常耗時費力。我們的實驗表明強化學習和模仿學習智能體性能顯著優於僅使用強化學習或模仿學習訓練出的智能體。我們還介紹了這些策略,它們在視覺和動態條件變動較大的情況下進行訓練,在 sim2real 遷移中取得了初步成功。本研究相關視頻介紹:https://www.youtube.com/watch?v=EDl8SQUNjj0&feature=youtu.be。

本文為機器之心編譯,轉載請聯繫本公眾號獲得授權。

?------------------------------------------------


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 機器之心 的精彩文章:

ARM放大招發布Trillium項目:包含神經網路軟體庫和兩種AI處理器
如何在TensorFlow中高效使用數據集

TAG:機器之心 |