當前位置:
首頁 > 新聞 > 機器人基於圖像完成任務最有效的 RL 方法:無需預測未來,也無需嚴格假設!

機器人基於圖像完成任務最有效的 RL 方法:無需預測未來,也無需嚴格假設!

雷鋒網 AI 科技評論按:對於機器人強化學習來說,基於視覺的物塊堆疊和推動是最常見的任務,為了減小訓練過程的成本和安全問題,我們希望最小化訓練過程中與環境交互的次數。但從相機這樣複雜的圖像感測器中進行高效學習卻十分困難。為了解決這一問題,伯克利的研究人員提出了一種新型基於模型的強化學習方法並發表了相關文章介紹了這一成果,雷鋒網 AI 科技評論將其編譯如下。

概述

想像一下這樣的場景:一個機器人試圖通過相機影像的視覺輸入來學習堆疊物塊和推動物體。為了最大限度地降低成本和安全問題,我們希望能夠最小化機器人的交互學習時間,但從相機這樣複雜的圖像感測器中進行高效學習依舊十分困難。因此本工作提出了 SOLAR——一種新的基於模型的增強學習(RL)方法,它直接從視覺輸入和不到一小時的交互中學習技能,包括在真正的 Sawyer 機械臂上執行高難度任務。據我們所知,SOLAR 是解決機器人在現實世界中基於圖像完成任務的最有效的 RL 方法。

機器人使用 SOLAR 一個小時內學會了如何堆積木和推杯子

在 RL 設置中,機器人通過反覆試錯從自己的經驗中學習,以最大限度地降低與當前任務相對應的成本函數。近年來,許多具有挑戰性的任務都是通過 RL 方法解決的,但這些成功案例大多來自無模型(model-free)的 RL 方法,與基於模型(model-based)的方法相比,這些方法通常需要更多的數據。然而,基於模型的方法往往依賴於精準預測未來的能力,以便規劃主體的操作。對於基於圖像學習的機器人來說,預測未來的圖像本身需要大量的交互訓練,因此我們需要解決這個問題。

一些基於模型的 RL 方法不需要精準的未來預測,但這些方法通常會對狀態進行嚴格的假設。LQR-FLM(linear-quadratic regulator fitted linear models,https://arxiv.org/abs/1504.00702)方法已被證明可以通過對系統動力學狀態的近似線性假設來高效地學習新的任務,這個方法同樣可適用於大部分機器人系統。然而,這種假設對於基於圖像的學習,卻是令人望而卻步的,因為相機反饋的像素動態遠不是線性能夠表達的。因此,我們在工作中研究的問題是如何放寬這一假設,以便開發得到一種基於模型的 RL 方法,在無需精準未來預測的情況下解決基於圖像的機器人任務呢?

最後,我們通過使用深層神經網路學習潛在狀態表示來解決這個問題。當機器人處理來自任務的圖像時,它可以將圖像編碼為潛在表示,然後將其用作 LQR-FLM 的狀態輸入來代替圖像本身。其中的關鍵在於 SOLAR 模型可以學習緊湊的潛在狀態表示,從而實現對目標的精確捕捉;然後模型通過鼓勵潛在狀態的動力學傾向於線性表示,來學習到一種可以有效用於 LQR-FLM 演算法的表示。為此,我們引入了一個明確表示潛在線性動力學的潛在變數模型,將該模型與 LQR-FLM 相結合,為 SOLAR 演算法提供了基礎。

潛在表示的隨機最優控制

SOLAR(stochastic optimal control with latent representations)意為具有潛在表示的隨機最優控制,它是基於圖像 RL 設置的一種有效且通用的解決方案。SOLAR 的關鍵在於它可以學習線性動力學精準的潛在狀態表示,並利用了不依賴於未來預測的基於模型的 RL 方法。

線性動態控制

控制理論中最著名的結果之一是線性二次型調節器(LQR),這是一組方程式,為線性動力學且二次型的系統提供最優控制策略。雖然現實世界的系統幾乎從不是線性的,但是 LQR 的近似值,例如具有擬合線性模型(LQR-FLM)的 LQR 已被證明在各種機器人控制任務中表現良好。與其他基於模型的 RL 方法相比,LQR-FLM 一直是學習控制技能最有效的 RL 方法之一。線性模型的簡單性以及這些模型不需要準確預測未來的特點使得 LQR-FLM 成為一種吸引人的構建方法,但是這種方法的關鍵限制是它通常假定訪問系統狀態,例如機器人的關節配置和感興趣對象的位置,這通常是合理地建模為近似線性。我們通過學習可以用作 LQR-FLM 輸入的表示來替代圖像並放寬這個假設。

使用系統狀態,LQR-FLM 和相關方法已被用於成功學習無數的任務,包括機器人操縱和運動。我們的目標是通過自動學習從圖像到 LQR-FLM 的狀態輸入來擴展這些功能。

從圖像中學習潛在狀態

我們建立的圖形模型假設我們觀察到的圖像是潛在狀態的函數,並且狀態根據由行為的線性動力學調製,損失由狀態和行為的二次函數給出。

我們希望智能體可以從其視覺輸入中提取一種狀態表示,其中的狀態動態儘可能接近線性。我們設計了一個潛在變數模型來實現,其中潛在狀態服從線性動力學,如下圖所示。深色節點是我們從與環境交互中觀察到的圖像、行為與成本。淺色節點代表系統基本狀態,這是我們希望學習的表示形式,我們假設下一個狀態是由當前狀態和操作的線性函數所得。該模型與結構化變分自編碼器(structured variational auto-encoder)有很強的相似之處,該模型以前適用於表示老鼠視頻的特徵等應用。我們用來適應模型的方法也是基於前面工作中提出的方法。

在較高的層級上,該方法將同時學習狀態動力學和編碼器,將當前和先前圖像作為輸入來估計當前狀態。如果我們對多個機器人與環境的交互相對應的觀察圖像序列進行編碼,可以看到這些狀態序列是否匹配學到的線性動力學行為;如果它們不這樣做,我們將調整動力學和編碼器,使它們估計所得狀態向線性逼近。該過程的關鍵在於我們不是直接優化模型來使預測時更精準,而是調整線性模型匹配主體先前與環境的交互。這有力地彌補了 LQR-FLM 的不足,使得它也不依賴預測就能獲得良好的性能。關於該模型學習流程的更多細節,請前往以下地址參考我們的論文:https://arxiv.org/abs/1808.09105。

SOLAR 演算法

我們的機器人迭代地與其環境交互,使用此數據更新其模型,使用此模型來估計潛在狀態及其動態,並使用這些動態更新其行為。

現在我們已經闡述了該方法的創建步驟,那這些步驟如何一同組合成 SOLAR 方法呢?智能體根據策略在環境中運作,而策略則根據當前的潛在狀態估計來指導行動。這些交互產生的圖像、行為和損失的軌跡,再用於匹配動力學模型。之後,利用這些完整的交互軌跡,我們的模型不斷完善它對潛在動態的估計,這使得 LQR-FLM 能夠產生一個更新的策略,該策略將使得智能體在給定的任務中表現得更好,即降低損失(成本)。然後更新的策略將用於收集更多交互軌跡以及不斷重複優化過程。上圖展示該演算法的各個階段。

LQR-FLM 和大多數其他基於模型的 RL 方法相比,關鍵區別在於生成的模型僅用於策略改進,而不用於預測未來。這在觀測複雜且難以預測的場景中非常有用,我們通過引入可與動力學一同估計的潛在狀態,將這一優勢擴展到基於圖像的場景中。最終,SOLAR 只需使用一個小時與環境交互,即可為基於圖像的機器人操作任務生成良好的策略。

實驗

我們主要在 Sawyer 機械臂上測試了 SOLAR,其中機械臂有七度的自由度,可用於各種操作任務。我們給機械臂輸入來自對準其手臂的攝像頭的圖像以及場景中的相關物體,然後讓機械臂完成學習樂高方塊堆疊和推動杯子的任務。

左:對於樂高積木堆疊,我們試驗了臂和塊的多個起始位置。(對於推動,我們只使用人類在機器人成功時按下鍵提供的稀疏獎勵,示例圖像觀察在底行給出。)右:SOLAR學習的成功行為示例。

樂高方塊堆疊任務

塊堆疊的主要挑戰來自於成功完成任務所需的精度,因為機械臂必須非常準確地放置塊,才能將各個模塊銜接起來。在 SOLAR 系統下,Sawyer 只需從輸入的相機鏡頭中學習這種精度,與此同時它還能成功掌握從手臂和積木的多個起始積木位置中學習堆疊。

其中,當積木的起始位置在桌面上,是最具挑戰性的,因為 Sawyer 必須先將積木從桌子上拿起,然後再堆疊它,即它無法變得「貪婪」,更無法簡單地徑直將積木移向另外的積木。

我們首先將 SOLAR 當作使用標準變分自編碼器(VAE)而非結構化變分自編碼器(SVAE)的消融方法,這意味著學習到的狀態表示不再遵循線性動力學。而這種消融的方法,機械臂只有在最簡單的起始位置的前提下才能取得成功。為了理解模型無需精準預測未來給我們所帶來的益處,我們將 SOLAR 比作另一種消融方法,即使用一種可供替代的規劃方法——模型預測控制模型(MPC)來替代 LQR-FLM 演算法,同時我們也將其視作此前使用了 MPC 的一種性能最佳的方法,即深度視覺預見(DVF,https://arxiv.org/abs/1812.00568 )。其中,MPC 常被應用於此前和隨後的一系列工作中,並且它依賴於使用學習到的模型來生成精確的未來預測的能力,從而決定需要採取什麼樣的行動來提升性能。

雖然 MPC 消融在兩個更簡單的初始位置上學習得更快,但它無法應對最為複雜的場景,因為 MPC 只能「貪婪地」縮短兩個積木之間的距離,而無法將積木從桌面上拿下來。MPC 之所以貪婪地行動,是因為它僅能進行短期規劃,而長遠來看,它對未來圖像的預測則會越來越不精準,這恰恰就是 SOLAR 能夠利用 LQR-FLM 來完全避免進行未來預測從而克服的失敗的方式。之後,我們發現 DVF 雖然取得了一定的進步,但是最終並不能解決這兩個更加困難的場景,即便在比我們方法使用更多數據的情況下。這證明了我們的方法具有更高的數據效率,可以在幾個小時內實現 DVF 需要幾天甚至幾周才能解決的問題。

杯子推動任務

此外我們還研究了機械臂在推動杯子任務上的表現。我們通過用稀疏的獎勵信號替換成本來增加機械臂推動杯子時的額外挑戰,比如說機械臂只有完成了任務時才會被告知信號,否則就不會被告知。如下圖所示,人類在鍵盤上按下一個鍵來提供稀疏的獎勵信號,而機械臂需要推理出如何改進行為來獲得這一獎勵。我們通過對 SOLAR 進行直接拓展便處理了這一問題,詳細內容可參考我們的論文(論文地址:https://arxiv.org/abs/1808.09105 )。即便面臨著額外的挑戰,我們的方法在一個小時左右的交互後也成功地學習到了推動杯子的策略,大大超過了相同數據量下 DVF 的表現。

模擬比較

除了 Sawyer 實驗之外,我們還在模擬中進行了幾次比較,因為大多數先前的工作並未嘗試使用真正的機器人進行實驗。特別地,我們建立了一個 2D 導航域,其中底層系統實際上具有線性動力學和二次成本,但我們只能觀察顯示智能體和目標的自上而下視圖的圖像。我們還包括兩個更複雜的域:一輛必須從 2D 平面右下角驅動到左上角的汽車,以及一個負責達到左下角目標的 2 自由度機械臂。所有域都是通過只提供任務自上而下視圖的圖像觀察來學習的。

我們比較了魯棒局部線性可控嵌入(RCE,https://arxiv.org/abs/1710.05373 ),它採用不同的方法來學習遵循線性動力學的潛在狀態表示。我們還將其與近端策略優化(PPO)進行了比較,PPO 是一種無模型 RL 方法,用於解決許多模擬機器人領域問題,但這種方法對於現實世界學習而言,數據效率不夠高。我們發現 SOLAR 比 RCE 學習速度更快,最終性能更好。PPO 通常能比 SOLAR 學習到更好的最終性能,但這通常需要 1 到 3 個數量級的數據,這對於大多數現實機器人的學習任務來說也是可望不可及的。這種權衡是普遍存在的:無模型方法往往會獲得更好的最終性能,但基於模型的方法學得更快。

相關工作

學習圖像潛在表示的方法提出了類如重建圖像和預測未來圖像等的目標。這些目標並不完全符合我們完成任務的目標,例如機器人在按顏色將目標分類到垃圾箱中時,並不需要完美地重建他前面的牆壁的顏色。我們還開展了適合於控制的狀態表示方面的工作,包括識別圖像中的興趣點和學習潛在狀態,從而使各個維度獨立控制。最近的一篇調查論文還對狀態表示學習的前景進行了分類。

除了控制之外,我們最近還進行了大量學習數據結構化表示的工作,其中許多工作擴展了 VAE。SVAE 就是一個這種框架的例子,其他一些方法也試圖用線性動力學來解釋數據。除此之外,還有一些研究通過混合模型結構、各類離散結構和貝葉斯非參數結構來學習潛在表示。

我們還提出了與我們在之前和隨後的工作中提出的觀點密切相關的想法。如前所述,DVF 還直接從視覺中學到了機器人任務,最近的一篇博客文章(文章查看地址:https://bair.berkeley.edu/blog/2018/11/30/visual-rl/ )總結了該結果。嵌入控制及其後繼的 RCE 還旨在學習線性動力學的潛在狀態表示。我們在論文中將這些方法進行了比較,並證明了我們的方法往往表現出更好的性能。在我們的成果之後,研究人員提出的 PlaNet 混合利用確定性和隨機變數來學習潛在狀態表示,並將它們與 MPC 結合使用,其中,MPC 是我們評估中的基準方法之一,在幾個模擬任務上展示了良好的結果。正如實驗所顯示,LQR-FLM 和 MPC 各有優缺點,我們發現 LQR-FLM 通常在機器人控制方面更為成功,避免了 MPC 的貪婪行為。

未來的工作

我們看到了未來工作的幾個令人興奮的方向,在此簡要提及兩個方向:

首先,我們希望我們的機器人能夠學習複雜、多階段的任務,例如構建樂高結構而不僅僅是堆疊一個個方塊,或進行更複雜的推動任務而不僅僅是推動一個杯子。我們可以通過提供所希望機器人完成目標的中間圖像來實現這一點,如果我們期望機器人能夠分別學習每個階段,這一演算法也許能夠將這些策略串在一起,形成更複雜、更有趣的行為。

其次,人類不僅學習狀態的表示,而且還學習動作——我們不考慮單個肌肉運動,而是將這些運動組合成「宏觀動作」,以執行高度協調和複雜的行為。如果我們能夠類似地學習動作表示,我們就能使機器人更有效地學習如何使用硬體,比如說靈巧的手,這將進一步提高他們處理複雜的現實環境的能力。

雷鋒網 AI 科技評論?雷鋒網

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 雷鋒網 的精彩文章:

IEEE 標準協會中國籍董事袁昱回應華為禁令

TAG:雷鋒網 |