當前位置:
首頁 > 新聞 > 深度強化學習一定要用到獎勵工程嗎?伯克利 AI 研究院:並不需要

深度強化學習一定要用到獎勵工程嗎?伯克利 AI 研究院:並不需要

雷鋒網 AI 科技評論按:近年來,強化學習技術在控制領域大放異彩。然而,獎勵函數的設計問題一直以來都是困擾著人們的「老大難」問題。近期,伯克利的研究人員提出了一種基於「事件變分逆控制」的端到端深度強化學習範式,使機器人無需依賴獎勵工程便能實現高效的深度強化學習,成功地在機器人控制問題上取得了重大突破。伯克利 AI 研究院將相關成果發布在博客上,雷鋒網 AI 科技評論編譯如下。

將任務的目標告知他人是件很容易的事:我們可以使用語言向他們描述希望得到的結果,向他們展示一段教學視頻,或者綜合使用這些方法。但在另一方面,為機器人指定一項強化學習任務則是一件需要付出巨大努力的事。在先前大量的工作中,研究者們已經將深度強化學習技術應用於真實的機器人上,而這些工作使用的是特定的感測器來獲得獎勵或學習任務,在這些任務中,機器人的內部感測器可以被用來衡量獎勵。例如,使用熱成像儀跟蹤液體流動(https://arxiv.org/abs/1608.00887),或者使用專門構建的計算機視覺系統來跟蹤物體(https://arxiv.org/abs/1707.01495)。由於對於任何我們希望學習的新任務來說,首先都需要準備好這些儀器環境,這就使我們在廣泛將強化學習技術應用於機器人時遇到了重大的瓶頸,並且我們難以在缺乏這些儀器的開放世界環境中直接使用這些方法。

為此,我們開發出了一種端到端的方法,它使機器人可以在不需要任何手動的獎勵工程的情況下,從描述了如何完成一個任務的適當數量的圖像中學習。機器人僅僅從這些信息(大約 80 張圖像)中開始學習,且偶爾向用戶查詢額外的標籤。在查詢過程中,機器人會向用戶展示一張圖像並要求用戶為該圖像打上標籤,從而確定該圖像是否代表任務已被成功完成。用戶需要提供此類查詢的次數並不多(大約 25-75 次),而機器人則能通過使用這些查詢結果,在 1-4 小時的交互時間內直接在真實世界中學習,最終結果顯示,這種方法是最高效的適用於真實世界的基於圖像的機器人強化學習方法之一。我們已經對該方法進行開源,地址如下:

我們提出的方法使我們能夠以端到端方式利用圖像像素數據解決諸多基於現實世界的機器人問題,且無需任何人為設計的獎勵函數。

基於分類器的獎勵

雖然我們先前的大多數的工作都傾向於利用專門構建的系統來獲取獎勵,從而解決所面臨的任務,同時此前也曾探索了一種簡單的替代方案。我們可以使用一組目標圖像來指定任務,而後訓練分類器來區分目標圖像與非目標圖像。接著,該分類器分類成功的概率可以被用作訓練強化學習智能體來實現該目標的獎勵。

通過示例圖像指定任務通常是非常直接的。如上圖所示,任務可能是將與圖片中同樣多的葡萄酒倒入玻璃杯中、像圖片中一樣將衣服疊起來,以及按照圖中的樣式擺放餐具。

分類器存在的問題

儘管分類器是在現實世界中為強化學習智能體指定任務的最直觀、最直接的解決方案,但它們在應用於現實世界中的問題上時也會產生不少問題。然而,使用目標分類器來指定任務的用戶,不僅需要為該任務提供正樣本,而且還需要提供負樣本。此外,這組負樣本必須足夠詳盡,同時涵蓋機器人可能到達經過的所有空間區域。如果該組負樣本提供的信息不夠詳盡,那麼強化學習演算法可能會通過找出分類器在訓練期間未曾見過的場景而輕易騙過分類器。下方的示例展示了「分類器利用(exploitation)」這一問題:

在這個任務中,機器人的目標是將綠色的物體推到紅色標記上方。我們使用一個分類器作為獎勵函數,通過強化學習來訓練該機器人。右下角可以看到分類器成功分類的概率隨時間變化的可視化結果。正如我們看到的,即便分類器輸出的成功概率為 1.0,機器人也仍然無法完成這個任務。而強化學習演算法已經成功地以一種特殊的方式移動機器臂,從而騙過了分類器,這是因為該分類器並沒有在這種特定的負樣本上被訓練過。

攻克「分類器利用」問題

我們看到,分類器學習的成功概率與實際成功情況密切相關,這使得機器人可以學會成功完成任務的策略。

利用主動學習

雖然 VICE 能夠在無需任何獎勵工程的前提下,學會用於解決現實世界中的機器人任務的端到端的策略,但它其仍然有著自己的局限性:VICE 需要事先得到數千個正樣本才能完成學習,這會大大增加人類用戶的工作量。為了解決這個問題,我們開發出了一種新方法,它使機器人能夠在除了使用適量的初始目標示例之外,還能夠向用戶提出的標籤查詢。我們將這種方法稱為「利用主動目標查詢的強化學習」(RAQ,https://sites.google.com/view/reward-learning-rl/)。在這些主動查詢過程中,機器人會向用戶展示一張圖像並要求用戶為該圖像打標籤,以確認該圖像是否表示任務已被成功完成。雖然這種主動請求用戶為每個狀態打標籤的作法實際上相當於要求用戶手動提供獎勵信號,但該方法只需要用戶給機器人在訓練期間看到的一小部分圖像打標籤,對於在無需手動設計獎勵的情況? 言下學習機器人技能的任務而言,這是一種高效且實用的方法。

在這個任務中,我們的目標是將書籍放入書架中的任意一個空槽內。該圖展示了我們的演算法所做出的一些查詢示例。該演算法根據在學習解決任務的過程中積累的經驗挑選出了以上幾幅圖像(使用學到的分類器得出的概率估計),並由用戶為這些圖像打上二分類的「成功/失敗」的標籤。

我們將這種組合方法稱為 VICE-RAQ,在事先擁有 80 張目標示例圖像、後續進行 25-75 次主動查詢的情況下,它能夠完成現實世界中的機器人任務。我們採用了最近提出的「soft actor-critic」演算法(https://bair.berkeley.edu/blog/2018/12/14/sac/)來進行策略優化,可以在與現實世界交互的大約 1-4 小時內完成任務,這比先前在圖像上進行端到端的策略訓練的方法要快得多。

我們的方法能夠在一個小時多一點的交互時間內學會完成將物體推到指定地點的任務(目標是將杯子推到白色杯托之上),而且只需要進行 25 次查詢。即使對於更為複雜的書架擺放和布簾覆蓋任務,我們的方法也只需要不到 4 個小時的交互時間,以及不到 75 次的主動查詢。

解決涉及可形變目標的任務

由於我們在本任務中基於圖像像素學習獎勵函數,因此可以解決那些難以手動指定獎勵函數的任務。我們進行的實驗任務之一,是將布覆蓋在一個盒子上——這實際上是用桌布覆蓋桌面任務的一種簡化版本。為了成功完成任務,機器人必須平穩地覆蓋布料,不能壓皺布料也不能讓任何地方起褶皺。我們發現我們的方法能夠成功地解決這項任務。為了展示本任務所面臨的挑戰,我們評估了另一種僅使用機器人末端效應器的位置作為觀測數據、並基於該測量數據(與目標的歐氏距離)手動定義獎勵函數的方法。我們觀察到,這種對比基準方法並不能實現該任務的既定目標,因為它只會簡單地以直線運動的方式將末端效應器移動至目標位置,然而直線軌跡並不能解決這項任務。

上圖:使用機械臂的位置作為觀測數據手動定義獎勵函數的策略的實驗結果。下圖:使用基於像素學習到的獎勵函數的策略的實驗結果。

解決帶有多目標條件的問題

分類器描述一個任務的表達能力要遠遠強於目標圖像,這一點在有多張描述目標的圖片的任務中可以很好地體現出來。在我們實驗的書架擺放任務當中,目標是將書籍插入書架上的空槽處。機械臂拿起書籍的初始位置是隨機的,任務要求機器人能夠從任意的起始位置成功地完成任務。最重要的是,書架上有若干個空槽,意味著不同的起始位置可能對應不同的最優目標空槽。在這裡,我們看到我們的方法學到了一種能夠根據書籍在軌跡中的初始位置將其插入不同空槽的策略。機器人通常更傾向於將書放入最近的槽中,因為這能夠最大化其從分類器那裡獲得的獎勵。

相關工作

結語

通過使機器人能夠在無需用戶對獎勵函數或專家演示進行編程的情況下實現強化學習,我們堅信我們的方法讓強化學習在成為機器人實現全能型操作的實用、自動和易用的工具的道路上,前進了一大步。通過使機器人在無需任何儀器或手動獎勵設計的條件下就能夠直接在現實世界環境中提升技能,我們亦堅信我們的方法也意味著,直接從現實環境中學習的機器人系統也朝著終生學習的目標邁進了一步。在未來,這種能力可以使機器人得以通過與現實世界的交互直接獲取廣泛且高度泛化的技能。

本文參考論文:

End-to-End Robotic Reinforcement Learning without Reward Engineering(RSS 2019)

Variational Inverse Control with Events: A General Framework for Data-Driven Reward Definition(NeurIPS 2018)

viahttps://bair.berkeley.edu/blog/2019/05/28/end-to-end/雷鋒網

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 雷鋒網 的精彩文章:

蘋果宣布召回 6 萬多台 MacBook Pro;Google 確認放棄平板電腦業務;美國科技巨頭反對特朗普關稅
2019 到目前為止的深度學習研究進展匯總

TAG:雷鋒網 |