伯克利提出新型增強型隨機搜索演算法，提高連續控制問題的樣本效率

科技 04-15

圖源：pixabay

原文來源：arXiv

作者：Horia Mania、Aurelia Guy、Benjamin Recht

「雷克世界」編譯：嗯~是阿童木呀、EVA

導語：關於無模型強化學習，人們認為在策略的參數空間中基於隨機搜索的方法要比那些探索行為空間的方法表現出明顯更差的樣本複雜性。最近，加州大學伯克利分校的科學家們通過引入一種隨機搜索方法打破了人們的這樣看法，該演算法就是增強型隨機搜索演算法（ARS），研究實驗表明，ARS能夠匹配或超過MuJoCo運動任務中最先進的樣本效率。

一直以來，人們對無模型強化學習的一個普遍看法是，在策略的參數空間中基於隨機搜索的方法要比那些探索行為空間的方法表現出明顯更差的樣本複雜性。我們通過引入一種隨機搜索方法來打破人們的這樣看法，即為連續控制問題訓練靜態的線性策略，在基準MuJoCo運動任務中匹配最先進的樣本效率。我們的方法還為線性二次調節器（Linear Quadratic Regulator）的一個具有挑戰性的實例找到了一個近乎最優的控制器，當動力學還是未知的時候，線性二次調節器是控制理論中的經典問題。在計算上，我們的隨機搜索演算法比這些基準測試中最快的、最具競爭力的無模型方法的效率至少高15倍。我們利用這種計算效率來評估我們的方法在數百個隨機種子和每個任務中許多不同的超參數配置下的性能表現。我們的模擬強調了這些基準測試任務中性能的高度可變性，這表明常用的樣本效率估計並不能充分對強化學習演算法的性能進行評估。

無模型強化學習（RL）旨在為控制動力系統提供現成的解決方案，而不需要系統動力學模型。這種方法已經成功地製造出了在視頻遊戲和圍棋等遊戲中超越人類玩家的強化學習智能體。雖然這些結果令人印象深刻，但無模型方法在研究演示之外尚未成功部署到控制物理系統中。有幾個因素限制了無模型RL方法在控制物理系統中的採用：這些方法需要太多的數據才能達到合理的性能，各式各樣的RL方法日益湧現，這使得對於特定任務而言難以選擇哪一種方法是最佳的，並且許多候選演算法難以實現和部署。

不幸的是，目前RL研究的趨勢使這些障礙相互矛盾。在追求樣本高效的方法（即需要少量數據的方法）過程中，總的趨勢是開發出日益複雜的方法。這種複雜性的增加導致了重現性危機。最近的研究表明，許多RL方法對於超參數、隨機種子、甚至是相同演算法的不同實現方式的變化都不具有魯棒性。如果沒有進行顯著的簡化和魯棒化，具有這種脆弱性的演算法無法集成到關鍵任務控制系統中。

圖1：在MuJoCo運動任務中對4個ARS版本的評估。訓練曲線在三個隨機種子上進行平均，陰影區域顯示標準差。ARS V2-t僅顯示在基於ARS V2進行改進的任務中

此外，通常的做法是將新的RL方法應用於視頻遊戲或模擬連續控制問題中，並通過少量獨立試驗（即少於10個隨機種子）測量它們的性能，從而對這些方法進行評估和比較。最通用的連續控制基準是MuJoCo運動任務，其中，類人模型被認為是「能夠由最先進的RL技術解決的最具挑戰性的連續控制問題之一」。原則上，人們可以使用視頻遊戲和模擬控制問題對新想法進行測試，但是在向更為複雜的解決方案邁進之前，應該建立簡單的基線並進行徹底的評估。

圖2：ARS、SAC、DDPG、SQL和TRPO在MuJoCo運動任務上的比較。對於每項任務，我們將顯示使用了規定數量的模擬器時間步長後所獲得的最大獎勵。ARS的值在三個隨機種子上取平均值。SAC、DDPG、SQL和TRPO的值是基於Haarnoja等人所提供數據的近似，而他們是在五個隨機種子上對這些方法進行評估的

為此，我們的目標是確定能夠解決標準基準的最簡單的無模型RL方法。最近，科學家們已經提出了簡化RL的兩種不同的方向。Salimans等人引入了一種名為進化策略（Evolution Strategies，ES）的無梯度（derivative-free）策略優化方法。作者指出，對於若干個RL任務而言，他們的方法可以很容易地並行化，以比其他方法更快地對策略進行訓練。雖然Salimans等人提出的方法要比以往所提出的方法簡單得多，但它採用了幾個複雜的演算法元素。作為對無模型RL的第二次簡化，Rajeswaran等人已經證明，可以通過自然策略梯度對線性策略進行訓練，以在MuJoCo運動任務上獲得良好的性能表現，這表明不需要複雜的神經網路策略來解決這些連續控制問題。在這項研究中，我們結合了Salimans等人和Rajeswaran等人的研究思路，獲得了一種最簡單的無模型RL方法，還有一種用於訓練線性策略的無梯度優化演算法。我們證明一個簡單的隨機搜索方法可以匹配或超過MuJoCo運動基準測試中最為先進的樣本效率。而且，我們的方法至少比進化策略的效率高15倍，而ES是速度最快的方法。可以這樣說，我們的發現與普遍看法相矛盾，即認為依賴於行動空間中探索的策略梯度技術要比基於有限差分的方法具有更高的樣本效率。更詳細地說，我們的貢獻如下：

?我們引入了一種用於解決無梯度優化問題的經典基本隨機搜索演算法。為了將其應用於連續控制問題，我們使用三個簡單的特徵以增強基本隨機搜索方法。首先，我們根據為計算更新步長而收集的獎勵的標準差來縮放每個更新步長；其次，我們通過在線估計它們的均值和標準差對系統的狀態進行歸一化；第三，我們從更新步長的計算中丟棄了獲得最少獎勵的方向。我們將這種方法稱為增強型隨機搜索（Augmented Random Search，ARS）。

圖3：在MuJoCo運動任務中，在超過100個隨機種子上對ARS進行評估

?我們評估了ARS在基準MuJoCo運動任務上的表現。我們的方法可以學習靜態的線性策略，從而在所有MuJoCo任務中獲得高額獎勵。也就是說，我們的控制行動僅僅是當前狀態的線性映射。我們沒有使用神經網路，但仍然可以一致性地實現最先進的性能。例如，對於類人模型而言，ARS所發現的線性策略，其平均獎勵超過11500，這是以往研究報道中的最高獎勵。為了使ARS與相競爭的方法處於同等地位，我們評估了其所需的樣本複雜度，以解決在三個隨機種子上MuJoCo運動任務問題，而這些隨機種子是從一個區間均勻採樣得到的。我們將我們方法的測量結果與Haarnoja等人、Rajeswaran等人、Salimans等人、以及Schulman等人所報告的結果相比較，結果表明，ARS能夠匹配或超過MuJoCo運動任務中最先進的樣本效率。

圖4：當應用於LQR問題時，四種方法的比較：（a）對ARS生成控制器、名義上合成程序和LSPI方法找到穩定控制器的頻率進行比較。頻率是通過100次試驗估計得到的

?我們報告了ARS為訓練Humanoid-v1任務策略所需的時間和計算資源。我們測量結果發現，所需的時間要達到6000或更多的平均獎勵，並且我們的結果是在超過一百個隨機種子上測試得到的。在一台擁有48個CPU的機器上，ARS在25/100隨機種子上最多花費13分鐘，在50/100隨機種子最多花費21分鐘。而對Humanoid-v1任務策略進行訓練以達到相同的獎勵閾值，若使用通用的信任域策略優化（Trust Region Policy Optimization ，TRPO）方法在現代化硬體上進行則需要花費大約一天的時間，而使用ES在1440個CPU上並行化訓練時需要大約10分鐘的時間。因此，我們的方法的計算效率至少比ES最快15倍。

圖5：當應用於LQR問題時，四種方法的比較：（b）比較由ARS生成控制器、名義上合成程序和LSPI方法所產生的相對成本。沿著虛線的點表示中值成本，並且陰影區域覆蓋100次試驗中的第2至第98的百分位

?由於我們的方法比以前的方法更高效，我們能夠探索我們的方法在許多隨機種子上的方差。強化學習演算法表現出較大的訓練方差，因此對少量隨機種子的評估不能精確地捕捉它們的性能。Henderson等人和Islam等人已經討論了測量RL演算法在許多隨機種子上的性能表現，以及RL方法對超參數選擇的敏感性的的重要性。為了更全面地評估我們的方法，我們測量了ARS在100個隨機種子的性能，並評估了它對超參數選擇的敏感性。雖然ARS成功地為MuJoCo運動任務訓練了策略，但在很大一部分時間裡，超參數和隨機種子是多種多樣的，我們注意到它依舊錶現出很大的變化，並且我們仍經常發現學習策略不能一致地獲得高額獎勵。

?為了簡化對用於連續控制問題的強化學習演算法的評估，我們認為增加更多具有可擴展性和可重現性的基線是非常重要的。我們提出使用線性二次調節器（LQR）作為這樣一個基準。我們在超過了一百種的隨機種子上對ARS的性能進行了評估，解決這個問題中的一個難題。儘管不像基於模型的方法那樣高效，但ARS為所探討的LQR實例找到了幾乎可謂是最優的解決方案。

原文鏈接：https://arxiv.org/pdf/1803.07055.pdf

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 雷克世界 的精彩文章:

※不用地圖如何導航？DeepMind提出新型雙路徑強化學習「智能體」架構
※菜鳥如何快速入門NLP和遷移學習？這有一份學習參考指南

TAG:雷克世界 |