強化學習機器人也有很強環境適應能力，伯克利AI室驗室賦能元訓練+在線自適應

新聞 05-20

圖一【圖片來源：BERKELEY BAIR所有者：BERKELEY BAIR 】

雷鋒網按：在現實生活中，人類可以輕易地適應環境的變化，但機器人在適應力方面卻表現得一般，要如何讓機器人像人一樣能夠快速適應現實世界呢？加州大學伯克利分校人工智慧實驗室 BAIR 近期介紹了自己研究具有很高的環境適應能力的機器人的最新成果，雷鋒網全文編譯如下。

人類能夠無縫地適應環境的變化：成年人能夠在幾秒內學會拄拐走路；人們幾乎在瞬間可以撿起意料之外的重物體；不用重新學走路，兒童也能夠讓自己的步法快速適應從平地到上坡的轉變。這種適應力在現實世界中起著很重要的作用。

另一方面，機器人通常被部署了固定行為（無論編碼還是學習），這讓它們在特定的環境中做的很好，但也導致了它們在其他方面做不好：系統故障、遇到陌生地帶或是碰上環境改變（比如風）、需要處理有效載荷或是其他意料之外的變化。BAIR 最新研究的想法是，在目前階段，預測和觀察之間的不匹配應該告訴機器人，讓它去更新它的模型，去更精確地描述現狀。舉個例子，當我們意識到我們的車在路上打滑時（如圖二），這會告知我們，我們的行為出現了意料之外的不同影響，因此，這讓我們相應地規劃我們後續的行動。要讓機器人能夠更好地適應現實世界，就要讓它們能夠利用它們過去的經驗，擁有快速地、靈活地適應的能力，這是重要的一點。為此，BAIR 開發了一個基於模型的快速自適應元強化學習演算法。

強化學習機器人也有很強環境適應能力，伯克利AI室驗室賦能元訓練+在線自適應

圖二【圖片來源：BERKELEY BAIR所有者：BERKELEY BAIR 】

快速適應

先前的工作使用的是試錯適應方法(Cully et al., 2015)以及自由模型的元強化學習方法(Wang et al., 2016; Finn et al., 2017)，通過一些訓練，讓智能體去適應。然而，BAIR 研究人員的工作是要讓適應能力發揮到極致。人類的適應不需要在新設置下體驗幾回，這種適應是在線發生的，僅在幾個時間步內（即毫秒），太快了以至於不能被注意到。

通過在基於模型學習設置中適應元學習（下文會討論），BAIR研究人員實現了這種快速適應。用於更新模型的數據應該在基於模型中設置，而不是根據推算過程中獲得的獎勵而進行調整，根據近期經驗，這些數據以模型預測錯誤的形式在每一個時間步長中發揮作用。這個基於模型的方法能夠讓機器人利用僅有的少量近期數據，有意圖地更新模型。

方法概述

強化學習機器人也有很強環境適應能力，伯克利AI室驗室賦能元訓練+在線自適應

圖三【圖片來源：BERKELEY BAIR所有者：BERKELEY BAIR 】

BAIR研究人員的方法遵循圖三中的普適公式，利用對近期數據的觀察去自適應模型，類似於自適應控制的總體框架(Sastry and Isidori, 1989; ?str?m and Wittenmark, 2013)。然而，真正的挑戰是，當模型是複雜的、非線性的、高容量的函數近似者（如神經網路）時，模型該如何成功地自適應。為了進行有意義的學習，神經網路需要很多數據，因此，在模型權重上實行SGD是無效的。

因此，通過在（元）訓練時間裡明確地按照這個適應目標進行培訓，能夠在測試的時候快速自適應，如下節所述。在多種不同設置的數據中進行元訓練，一旦得到了一個善於自適應的先驗模型（權重用θ?來表示）之後，這個機器人就能夠在每個時間步內（圖三）根據這個 θ?來適應，把先驗模型和當前的經驗相結合，把它的模型調整到適合當前狀況的樣子，從而實現了快速在線自適應。

元訓練：

給定任意時間步長t，我們處於st階段，我們在at時刻採取措施，根據底層動力學函數st+1=f(st,at)，我們最終將得到st+1的結果。對我們來說，真實的動態是未知的，所以我們反而想要擬合一些學習過的動力學模型s^t+1=fθ(st,at)，通過觀察表單(st,at,st+1)的數據點，做出儘可能好的預測。為了執行行為選擇，策劃者能夠利用這個評估過的動態模型。

假定在首次展示過程中，任何細節和設置都能夠在任何時間步長內發生改變，我們將把暫時接近的時間步看做能夠告訴我們近況的「任務」細節：在任何空間狀態下運行，持續的干擾，嘗試新的目標/獎勵，經歷系統故障等等。因此，為了模型能夠在規划上變成最有用的模型，BAIR研究人員想要利用近期觀察到的數據進行首次更新。

在訓練時間裡（圖四），這個總和是選擇一個連續的(M+K)數據點的序列，使用第一個M來更新模型權重，從θ到 θ′，然後優化新的 θ′，讓它擅長為下一個K時間步預測狀態轉換。在利用過去K點的信息調整權重後，這個新表述的損失函數代表未來K點的預測誤差。

強化學習機器人也有很強環境適應能力，伯克利AI室驗室賦能元訓練+在線自適應

【圖片來源：BERKELEY BAIR所有者：BERKELEY BAIR 】

換句話說， θ不需要導致好的動態預測。相反，它需要能夠使用具體任務的數據點，將自身快速適應到新的權重中去，依靠這個新的權重得到好的動態預測結果。有關此公式的更多直觀信息，可參閱MAML blog post。

強化學習機器人也有很強環境適應能力，伯克利AI室驗室賦能元訓練+在線自適應

圖四【圖片來源：BERKELEY BAIR所有者：BERKELEY BAIR 】

模擬實驗

BAIR研究人員在模擬機器人系統上進行實驗，測試他們的方法在環境中適應瞬間變化的能力，並且在訓練環境之外，這種方法是否也能夠泛化。值得注意的是，BAIR研究人員對所有智能體進行任務/環境分布的元訓練（詳見本文），但是研究人員在測試的時候評估了它們對未知的和不斷變化的環境的適應能力。圖五的獵豹機器人在不同隨機浮力的漂浮板上訓練，然後在一個水裡具有不同浮力的漂浮板上進行測試。這種環境表明不僅需要適應，還需要快速/在線適應。圖六通過一個有不同腿部殘疾的螞蟻機器人做實驗，也表明了在線適應的必要性，但是在首次展示的時候，一條看不見的腿半途發生了故障。在下面的定性結果中，BAIR研究人員將基於梯度的適應學習者(『GrBAL』)和標準的基於模型的學習者(『MB』)進行比較，這個基於模型的學習者是在同樣的訓練任務變化但是沒有明確的適應機制中進行訓練的。

強化學習機器人也有很強環境適應能力，伯克利AI室驗室賦能元訓練+在線自適應

圖五【圖片來源：BERKELEY BAIR所有者：BERKELEY BAIR 】

強化學習機器人也有很強環境適應能力，伯克利AI室驗室賦能元訓練+在線自適應

圖六【圖片來源：BERKELEY BAIR所有者：BERKELEY BAIR 】

這個基於模型的元強化學習方法的快速適應能力讓這個模擬機器人系統在表現和/或樣本效率方面相比之前的最好的方法取得了顯著的提升，以及在這同一個方法的對照實驗中，有在線適應相比沒有在線適應、有元訓練相比沒有元訓練、有動態模型相比沒有動態模型，都可以看到系統表現和/或樣本效率的提升。這些定量比較的詳情可參閱論文。

硬體實驗

強化學習機器人也有很強環境適應能力，伯克利AI室驗室賦能元訓練+在線自適應

圖七①【圖片來源：BERKELEY BAIR所有者：BERKELEY BAIR 】

強化學習機器人也有很強環境適應能力，伯克利AI室驗室賦能元訓練+在線自適應

圖七②【圖片來源：BERKELEY BAIR所有者：BERKELEY BAIR 】

不僅要強調元強化學習方法的樣本效率，而且還要強調在現實世界中快速在線適應的重要性，BAIR研究人員在一個真實的動態的有足微型機器人演示了這個方法（見圖七）。這個小型的6足機器人以高度隨機和動態運動的形式，展示了一個建模和控制的挑戰。這個機器人是一個優秀的在線適應候選人，原因有很多：構造這個機器人使用了快速製造技術和許多定製設計步驟，這讓它不可能每次都複製相同的動力學，它的連桿機構和其他身體部位會隨著時間的推移而退化，並且，它移動的速度非常快，並且會隨著地形的變化而進行動態改變。

BAIR的研究人員們在多種不同的地形上元訓練了這個步行機器人，然後他們測試了這個智能體在線適應新任務（在運行的時候）的學習的能力，包括少了一條腿走直線任務、從未見過的濕滑地形和斜坡、位姿估計中帶有校正錯誤或誤差，以及首次讓它牽引載荷。在硬體實驗中，BAIR的研究人員們把他們的方法和兩個方法做了比較，1，標準的基於模型學習(『MB』)的方法，這個方法既沒有自適應也沒有元學習；2，一個帶有適應能夠力的動態評估模型（『MB』+「DE」），但它的適應能力是來自非元學習得到的先驗。結果（圖8-10）表明，不僅需要適應力，而且需要從顯式的元學習得到的先驗進行適應。

強化學習機器人也有很強環境適應能力，伯克利AI室驗室賦能元訓練+在線自適應

圖八【圖片來源：BERKELEY BAIR所有者：BERKELEY BAIR 】

強化學習機器人也有很強環境適應能力，伯克利AI室驗室賦能元訓練+在線自適應

圖九【圖片來源：BERKELEY BAIR所有者：BERKELEY BAIR 】

強化學習機器人也有很強環境適應能力，伯克利AI室驗室賦能元訓練+在線自適應

圖十【圖片來源：BERKELEY BAIR所有者：BERKELEY BAIR 】

通過有效地在線適應，在少了一條腿走直線的實驗中，BAIR的方法阻止了漂移，阻止了滑下斜坡，解釋了位姿錯誤校準，以及調整到牽引有效載荷。值得注意的是，這些任務/環境和在元訓練階段學習的運動行為有足夠的共性，從先前的知識（不是從零開始學習）中提取信息是有用的，但是他們的差異很大，需要有效的在線適應才能成功。

強化學習機器人也有很強環境適應能力，伯克利AI室驗室賦能元訓練+在線自適應

圖十一【圖片來源：BERKELEY BAIR所有者：BERKELEY BAIR 】

未來方向

通過使用元學習，這項工作能夠讓高容量神經網路動態模型在線適應。從以前的元學習開始，通過讓模型的局部微調，BAIR研究人員排除了對精確全球模型的需求，而且能夠快速適應到新情景中，例如意料之外的環境變化。儘管BAIR研究人員展現了模擬和硬體在不同任務中的適應結果，但是，仍存在許多相關的改進途徑。

首先，雖然這種設置很強大，它總是從提前訓練的先驗中進行微調，但這個方法有一個限制，就是即使看了幾遍這個新的設置，也會得到像第一次看到的同樣的表現。在後續工作中，BAIR研究人員將採取措施，精確地解決這個隨時間而變得嚴重的問題，同時不要也因為試驗了新技能而忘記舊技能。

另一個提高的領域包含了制定條件或分析性能，以及適應的限制：鑒於前面所包含的知識，什麼是能夠適應的？什麼是不能夠適應的？舉個例子，兩個人正在學騎自行車，誰會突然在路面滑行呢？假定這兩個人之前都沒騎過自行車，因此他們也不可能從自行車上摔下來過。在這個實驗中，第一個人A可能會摔倒，手腕受傷，然後需要進行幾個月的物理治療。相反，另一個人B可能借鑒與他先前學過的武術知識，從而執行了一個良好的「跌倒」程序（也就是說，摔倒的時候翻滾背部來緩衝而不是嘗試用手腕來減弱下降的力量）。這就是一個實例，當這兩個人都在嘗試執行一項新任務的時候，那些他們先前知識中的其他經驗會顯著地影響他們適應嘗試的結果。因此，在現有的知識下，有某種機制來理解適應的局限性，應該會很有趣。

原論文地址：https://arxiv.org/abs/1803.11347（已被 ICLR 2019 接收）

項目主頁：https://sites.google.com/berkeley.edu/metaadaptivecontrol

代碼開源地址：https://github.com/iclavera/learning_to_adapt

雷鋒網註：本文編譯自BERKELEY BAIR

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 雷鋒網 的精彩文章:

※解讀吳文俊三大研究成就與人工智慧的淵源
※為什麼醫學影像AI已進入「後深度學習時代」？

TAG:雷鋒網 |