伯克利提出使用隨機搜索訓練線性策略，可提高強化學習的性能表現

科技 03-23

原文來源：arXiv

作者：Ben Recht、Horia Mania、Aurelia Guy

「雷克世界」編譯：嗯~是阿童木呀、EVA

一般來說，無模型強化學習中存在著這樣一個基本觀點，即基於隨機搜索的方法在策略的參數空間中所表現出來的樣本複雜性要比那些探索行為空間的方法差得多。為了糾正這一觀點，我們引入了一種隨機搜索方法，用以對連續控制問題的靜態、線性策略進行訓練，並在基準MuJoCo運動任務中與最先進的樣本效率相匹配。與此同時，我們的方法還為線性二次調節器的一個具有挑戰性的實例找到了一個近似最優的控制器，當動力學還不為人熟知的時候，線性二次調節器是控制理論中的經典問題。從計算上看，我們隨機搜索演算法的效率要比這些基準測試中最快的、最具競爭力的無模型方法至少高15倍。我們利用這種計算效率對我們的方法在數百個隨機種子以及每個基準任務中各種超參數配置上的性能表現進行評估。我們的模擬強調突出了這些基準測試任務中性能的高度可變性，表明常用的樣本效率估計並不能對強化學習演算法的性能進行充分地評估。

首先，我們先來了解一下線性化原理的反面知識。我們已經看到，隨機搜索在簡單的線性問題上很有效，而且比策略梯度等一些強化學習方法效果更好。那麼，當我們遇到更困難的問題時，隨機搜索會崩潰嗎？答案是否定的。

讓我們把隨機搜索應用到與強化學習社區密切相關的問題上。據悉，深度強化學習社區已經花費了大量的時間和精力在一套由OpenAI維護並以MuJoCo模擬器為基礎的基準上，。在此，最優控制問題是讓一個足式機器人的模擬在一個方向上儘可能遠和快地走。有些任務非常簡單，但有些任務相當困難，比如具有22個自由度的複雜人形模型。足式機器人的動力學特性由哈密頓方程（Hamiltonian Equations）明確規定，但從這些模型中對移動進行規劃是具有挑戰性的，因為模型是分段線性的，使得我們目前尚不清楚該如何最好地設計目標函數。只要機器人的一部分接觸到固體物體時，模型就會發生變化，因此引入了一種以前沒有作用於機器人的正向力（normal force）。因此，對於強化學習範式來說，讓機器人無需處理複雜的非凸非線性模型就能工作，似乎是一個堅實而有趣的挑戰。

最近，Salimans和他在Open AI的合作者指出，隨機搜索在這些基準中表現的很好。特別是，它們可以通過使用具有一些演算法改進的隨機搜索（他們將這種隨機搜索稱為「進化策略」，但我堅持使用我的命名約定）來適應神經網路控制器。在另一篇著作中，Rajeswaran等人表明，自然策略梯度可以學習線性策略從而完成這些基準。也就是說，他們表示靜態線性狀態反饋，就像我們在線性二次調節器中所使用的那種，也足以控制這些複雜的機器人模擬器。這自然留下了一個開放的問題：簡單的隨機搜索能為這些MuJoCo任務找到線性控制器嗎？

我的學生Aurelia Guy和Horia Mania對這個問題進行了測試，編寫了一個相當簡單的隨機搜索版本。令人驚訝（或者不令人驚訝）的是，這個簡單的演算法學習了關於Swimmer-v1、Hopper-v1、HalfCheetah-v1、Walker2d-v1和Ant-v1任務的線性策略，達到了以前在文獻中所提出的獎勵閾值。

但是隨機搜索並不是完美的。Aurelia和Horia無法讓人形模型做任何有趣的事情。在嘗試了許多參數設置之後，他們決定試著去增強隨機搜索以使其訓練得更快。Horia注意到，許多強化學習論文都使用了各種狀態的統計數據，並在把它們傳遞到對狀態到動作的映射進行定義的神經網路之前，對這些狀態進行了白化處理。所以他開始在網上對這些狀態進行估算，並在把它們傳遞給線性控制器之前將它們進行白化處理。有了這個簡單的技巧，Aurelia和Horia現在在人形機器人上獲得了最高水準的性能。事實上，他們可以獲得超過11000的獎勵，這比我所看到過的一切記錄都要高。它實際上幾乎是Salimans等人所使用的用來確定基準的「成功閾值」的兩倍。

有這麼簡單的事情是很好的，因為這個代碼比OpenAI進化策略報告中報告的快了15倍。我們可以用較少的計算獲得更高的回報。在一個具有18個核心的標準EC2實例上，我們可以在一個小時內訓練一個高性能的人形模型。

現在，隨著在線狀態的更新，隨機搜索不僅超越了人形機器人的最高性能表現水準，而且還在Swimmer-v1、Hopper-v1、HalfCheetah-v1上有所突破。但它在Walker2d-v1和Ant-v1上的性能表現還沒有那麼好。但我們可以對這種混合再加一個技巧。我們可以去掉那些沒有得到好的獎勵的採樣方向。這增加了一個超參數（要保留這部分的方向），但是有了這一個額外的微調，隨機搜索實際上可以匹配或超過OpenAIGym中所有MuJoCo基線的最高水準表現。注意，我並沒有限制與策略梯度的比較。就我從我們的文獻檢索中所知，這些策略要比任何將無模型強化學習應用到這個問題所取得的結果都要好，無論是演員批評家方法（Actor Critic Method）、價值函數估計方法（Value Function Estimation Method），還是更深奧的東西。看起來，對於這些MuJoCo問題來說，純粹的隨機搜索要比深度強化學習和神經網路能夠更好地將其解決。

有一些很小微調的隨機搜索在這些MuJoCo任務上做得比其他所有方法都要好，而且速度要快得多。我們有一篇展現這些結果和更多信息的完整論文（文末有鏈接），以及相關代碼（文末有鏈接），感興趣的可以點擊查看。

強化學習能夠從隨機搜索中學習什麼？

這裡囊括了若干個要點：

·基準非常難

我認為從所有這一切能夠得到的唯一合理的結論就是這些MuJoCo演示很容易。這並沒有什麼不妥。但是，針對這些基準測試中的性能表現，去決定NIPS、ICML或ICLR論文似乎不再值得。這確實給一個非常重要的問題：對於強化學習來說，什麼是一個良好的基準？顯然，我們需要的不僅僅是山地車。我認為，具有未知動態的線性二次調節器是一個合理的任務，因為它很容易指定新實例，並且容易理解可實現性能所存在的局限性。但社區應該花更多的時間來了解如何建立不容易應用的基線和基準。

·永遠不要過分相信你的模擬器

這些基準之所以很容易的部分原因是MuJoCo不是一個完美的模擬器。MuJoCo非常快，對於概念的驗證也非常有用。但為了保證能夠快速，它必須在接觸體周圍進行一些平滑處理（請記住，接觸體的不連續性使腿部運動變得困難）。因此，僅因為你可以讓其中一個模擬器行走，但這並不意味著你可以讓一個真正的機器人行走。的確，這裡有四種步態，達到了神奇的6000步臨界值。這些看起來都不太現實：

即使是表現最好的模型（獎勵為11,600），它的步態看起來也是非常的愚蠢，可能在現實中無法運作：

·力求演算法簡單

將超參數和演算法小部件添加到簡單演算法中，可以在足夠小的一組基準測試中提高其性能表現。我不知道如果放棄表現最好的方向或狀態正則化是否會對新的隨機搜索問題起作用，但它對於這些MuJoCo基準來說是很有用的。通過添加更多的可調參數，甚至可以獲得更高的獎勵。

·在使用之前進行深入探索

請注意，由於我們的隨機搜索方法很快，我們可以在許多隨機種子上對它的表現進行評估。這些無模型方法在這些基準上都表現出驚人的高度差異。例如，就人形機器人任務而言，即使提供了我們自認為是好的參數的模型，該模型的訓練也幾乎是慢了四分之一的時間。對於那些隨機的種子，它會發現相當奇特的步態。將一個人的注意力限制在隨機搜索的3個隨機種子上通常是非常具有誤導性的，因為你可能會將你的性能表現調整為隨機數生成器的特性。

·存在變化

這種行為也出現在線性二次調節器中。我們可以對我們的演算法調整一些隨機種子，然後將會在新的隨機種子上看到完全不同的行為。Henderson等人用深度強化學習方法觀察了這種現象，但我認為如此高的變異性將成為所有無模型方法的一個癥狀。僅通過模擬的話，就會有太多的邊界情況需要考慮，而有時則會考慮不全。正如我所說的：「通過拋棄模型和知識，我們不確定是否可以從少數情況和隨機種子中進行足夠充分的學習從而進行泛化」。

論文鏈接：arxiv.org/abs/1803.07055

代碼資源鏈接：github.com/modestyachts/A

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 雷克世界 的精彩文章:

※英特爾李德勝：攜手CAIIIA，共助產業創新
※DeepMind提出新型SACX學習範式，從零開始訓練機器人解決複雜任務

TAG:雷克世界 |