DeepMind提出「SACX」學習範式，訓練機器人解決稀疏獎勵任務

知識 03-08

在本文中，我們提出調度輔助控制（Scheduled Auxiliary Control，SACX），這是強化學習（RL）上下文中一種新型的學習範式。SAC-X能夠在存在多個稀疏獎勵信號的情況下，從頭開始（from scratch）學習複雜行為。為此，智能體配備了一套通用的輔助任務，它試圖通過off-policy強化學習同時從中進行學習。實際上，我們方法所蘊涵的關鍵思想在於，主動（學習）調度和輔助策略的執行，使得智能體能夠有效地對其環境進行探索，使其能夠在稀疏獎勵強化學習中表現突出。我們在若干個具有挑戰性的機器人操作環境下進行實驗，實驗結果證明了我們的方法是非常有效的。

考慮下面的場景：一個學習智能體必須控制一個機器人手臂以打開盒子，並將一個方塊放置在其中。儘管為這個任務定義一個獎勵是非常簡單和直接的，例如，使用諸如力感測器這樣的盒子內的簡單機制對所放置的方塊進行檢測，但是潛在的學習問題的解決還是存在一定難度的的。智能體必須能夠發現一個長序列的「正確」行為，以便找到產生稀疏獎勵的環境配置——即包含在盒子內的方塊。可以說，發現這種稀疏的獎勵信號是一個非常艱難的探索問題，而想要通過隨機探索獲得這種成功幾乎是不可能的。

智能體在任一配置中對兩個方塊進行堆疊操作，將紅色方塊置於綠色方塊之上，反之亦然

在過去的幾十年里，為了幫助解決上述的探索問題，科學家們已經開發了許多種研究方法。這些方法包括：獎賞塑形（reward shaping）、課程學習（curriculum learning）、從模擬到現實的已學習策略的遷移、從演示中進行的學習、模型指導下的學習以及反向強化學習等。可以這樣說，所有這些方法都依賴於特定於任務的先驗知識的可用性。除此之外，它們還往往將控制政策偏向某種潛在意義上並不理想的方向。例如，使用由實驗者設計的獎賞塑形（shaped reward），不可避免地會偏向智能體所能夠找到的解決方案。與此相反，當使用稀疏任務公式時，智能體可以發現全新的、潛在意義上更為優異的解決方案。因此，可以這樣說，我們更傾向於開發在學習期間支持智能體的方法，但是保留智能體從稀疏獎勵中進行學習的能力。理想情況下，我們的新方法應該減少用於處理稀疏獎勵的特定的先驗任務知識。

在「清理」任務中智能體操作的描述。圖像描繪了將所有物品「放入盒子」意圖的最終行為軌跡（從左到右，從上到下）

我們引入了一種稱之為調度輔助控制（SAC-X）的新方法，將其作為實現這種方法策略的第一步。它基於四個主要原則：

1.每個狀態動作對都與一個獎勵向量相配對，由（通常而言是稀疏的）外部提供的獎勵和（通常而言是稀疏的）內部輔助獎勵組成。

2.每個獎勵條目都有一個指定的策略，在下文中稱為「意圖（intention）」，該策略經過訓練以最大化其相應的累積獎勵。

3.有一個高級調度程序，它在出於提高智能體對外部任務的性能的目標考慮下，選擇個體意圖並加以執行。

4.學習是在off-policy過程中執行的（與策略執行非同步），意圖之間的經驗是共享的，以便有效地使用信息。

圖像序列描繪了在一個真正機器人上訓練後的SAC-Q智能體，處理「拿起」（頂部）和「放下」（底部）任務的過程

儘管本文所提出的方法通常來說適用於更為廣泛的問題，但我們主要在一個具有稀疏獎勵的典型機器人操作應用程序上對我們的方法加以討論：將各種目標堆疊起來和清理桌子。

這些任務中的輔助獎勵是基於智能體對於控制其自身的感官觀察（例如圖像、本體感受、觸覺感測器）的掌握程度而定義的。它們被設計成在一個真實的機器人裝置中非常易於實現。特別地，我們在一個原始感官層面上定義了輔助獎勵，例如，是否檢測到觸摸。或者，可選擇性地，在一個需要少量實體的預先計算的較高級別上對它們進行定義，例如，是否有任何目標移動，或者在圖像平面上是否有兩個目標彼此相接近。基於這些基本的輔助任務，智能體必須有效地對其環境進行探索，直到觀察到更多有趣的外部獎勵。其實，這種方式主要是受到人類在孩童時代玩遊戲階段的啟發。

在「清理」任務實驗中的期望獎勵，SAC-Q能夠可靠地對所有四項外在任務進行學習

我們展示了SAC-X在模擬機器人操作任務方面的能力，例如使用機器人手臂進行堆疊和整理桌面。所有任務都是通過稀疏的、易於定義的獎勵進行定義的，並使用相同的一組輔助獎勵函數加以解決。另外，我們經過試驗證明，我們的方法具有樣本高效性，從而使得我們能夠在一個真實的機器人上從頭開始學習。

我們引入SAC-X，一種能夠同時在一組輔助任務中學習意圖策略的方法，並對這些策略進行積極的調度和執行以探索其觀察空間，從而尋找外部定義的目標任務的稀疏獎勵。通過使用簡單的輔助任務，SAC-X可以從以「純粹」、稀疏、方式性進行定義的獎勵中學習複雜的目標任務：只指定最終目標，而不是解決方案路徑。

實驗中，通過使用一組常見的簡單且稀疏的輔助任務以及一個真實的機器人，我們展示了SAC-X在若干個具有挑戰性的機器人模擬任務上的優異表現。所學到的意圖是具有高度反應性的、可靠的，並表現出豐富且具有魯棒性的行為。我們認為，這是實現將強化學習應用到現實世界領域的重要一步。

原文：https://arxiv.org/pdf/1802.10567.pdf

－學習人工智慧，挑戰百萬年薪－

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 AI講堂 的精彩文章:

※蔡文勝說：區塊鏈是人類歷史最大泡沫，但不參與才是最大風險
※小鵬汽車獲得22億B輪融資！

TAG:AI講堂 |