當前位置:
首頁 > 科技 > 谷歌大腦和DeepMind聯合發布離線強化學習基準,將各種RL研究從線上轉為線下

谷歌大腦和DeepMind聯合發布離線強化學習基準,將各種RL研究從線上轉為線下

新智元報道

來源:arxiv

編輯:白峰

【新智元導讀】離線強化學習方法可以幫我們彌合強化學習研究與實際應用之間的差距。近日,Google和DeepMind推出的RL Unplugged使從離線數據集中學習策略成為可能,從而克服了現實世界中與在線數據收集相關的問題,包括成本,安全性等問題。

最近,Google Brain和DeepMind聯合提出了一個稱為RL Unplugged的基準,以評估和比較離線RL方法。RL Unplugged包含來自多個領域的數據,包括遊戲(例如Atari基準測試)和模擬的電機控制等(例如DM Control Suite)。

RL Unplugged為每個任務域提出了詳細的評估方法,對監督學習和離線RL方法進行了廣泛的分析,數據集包括部分或完全可觀察的任務域,使用連續或離散的動作,並且具有隨機性和非平穩性等,能很好地評估強化學習智能體的性能。

為什麼需要離線強化學習

近年來,強化學習(RL)取得了重要突破,包括擊敗《星際爭霸II》和DOTA人類玩家的長程決策(2019年),機器人的高維運動控制等(Akkaya等人,2019年)。

但是,這些成功很大程度上取決於智能體與環境的反覆在線交互。儘管在模擬方面取得了成功,但在現實中很難推廣。發電廠,機器人,醫療保健系統或自動駕駛汽車的運行成本很高,這些場景下的試驗可能會帶來危險的後果。

?

? ? ?在實時 RL 中,演算法在線收集學習經驗

? ?

? ??在離線 RL 中,經驗都是離線收集

因此離線強化學習再度興起。離線RL可以從離線的數據中學習新策略,而無需與環境進行任何真實的交互。RL 演算法從這些離線數據集學習的能力,對於我們未來構建機器學習系統的方式有巨大的潛在影響。

離線強化學習的難點在哪?

之前,對 RL 進行離線基準測試的方法僅限於一個場景: 數據集來自某個隨機或先前訓練過的策略,演算法的目標是提高原策略的性能。這種方法的問題是,現實世界的數據集不可能由單一的 RL 訓練的策略產生,而且這種方法不能泛化到其他的場景。

缺乏基線讓演算法評估變得困難。在當前的離線RL研究中,實際應用領域的重要屬性,高維感知流(例如圖像),不同的動作空間等覆蓋不全,非平穩性和隨機性不足,使得現存的基準很難評估離線RL演算法的實用性。

因此,比較演算法並確保其可重複性顯得尤為重要,RL Unplugged的目的就是通過提出通用的基準,數據集,評估協議和代碼來解決這些問題。

具有強大基準的大型數據集一直是機器學習成功的主要因素。例如計算機視覺中最常使用的數據集ImageNet和COCO等,而強化學習中主要使用遊戲數據,其中模擬器為在線RL智能體(例如AlphaGo)提供了豐富的數據,而缺少明確基準的數據集會阻礙RL的發展。

? ?

? ?

現實世界中的RL問題都需要通用的演算法解決方案,並且可以在各種挑戰中展現出強大的性能。我們的基準套件旨在涵蓋一系列屬性,以確定學習問題的難度並影響解決方案策略的選擇。

RL Unplugged讓離線強化學習成為現實

RL Unplugged的初始版本中包含了廣泛的任務域,包括Atari遊戲和模擬機器人任務。儘管所用環境的性質不同,RL Unplugged還是為數據集提供了統一的API。任何數據集中的每個條目都由狀態(st),動作(at),獎勵(rt),下一個狀態(st 1)和下一個動作(at 1)組成。對於序列數據,還提供了將來的狀態,動作和獎勵,從而可以訓練需要內存的任務。

RL Unplugged的主要貢獻:(i)統一的數據集API(ii)各種離線環境(iii)離線RL研究的評估協議(iv)參考基準。RL Unplugged中的數據集可將各種在線RL研究轉為離線的,而無需處理RL的探索組件。

?

數據集

動作空間包括具有離散和連續動作空間以及可變動作維度(最多56個維度)的任務。

觀察空間包括可以從MDP的低維自然狀態空間解決的任務,還包括由高維圖像組成的任務(例如Atari 2600)等。

部分可見性和對內存的需求部分,包括以特徵向量完整表示MDP狀態的任務,以及需要智能體整合不同長度範圍內的信息來估計狀態的任務。

探索難度包括的任務因探索難度的不同而有所變化,可調整的屬性有動作空間的大小,獎勵的稀疏性或學習問題的範圍。

為了更好地反映現實系統中遇到的困難,我們還包括「現實世界中的RL挑戰」任務,涵蓋了動作延遲,隨機過渡動態性和非平穩性等方面的內容。

RL Unplugged引入了涵蓋不同任務的數據集。例如,在Atari 2600上,使用的大型數據集是通過對多個種子進行策略外智能體培訓而生成的。相反,對於RWRL套件,使用了來自固定的次優策略的數據。

評估方法

在嚴格的離線設置中,不允許進行環境交互。這使得超參數調整(包括確定何時停止訓練過程)變得困難。這是因為我們無法採用由不同的超參數獲得的策略,並在環境中運行它們來確定哪些策略獲得更高的獎勵。理想情況下,離線RL將僅使用離線數據來評估由不同的超參數獲得的策略, 我們將此過程稱為離線策略選擇。在RL Unplugged中,我們想評估兩種設置下的離線RL性能。

? ?

(左)在線策略選擇進行評估的流程(右)離線策略選擇進行評估的流程

在線策略選擇進行評估(左),可以在線方式與環境互動來評估不同的超參數配置,讓我們能夠隔離評估離線RL方法的性能,但是它在許多現實環境中都是不可行的,因此,它對當前離線RL方法的實用性過於樂觀。

離線策略選擇進行評估(右)並不受歡迎,但它確實很重要,因為它表明不完善的策略選擇的魯棒性,這更能反映離線RL對於實際問題的響應情況。但是它也有缺點,即存在許多設計選擇,包括用於離線策略選擇的數據,選擇哪種離線策略評估演算法等問題。

兩種方法的優劣還無定論,因此RL Unplugged的基準可使用在線和離線策略選擇兩種方法進行評估。

任務域

對於每個任務域,RL Unplugged都對所包含的任務進行了詳細描述,指出哪些任務是針對在線和離線策略選擇的,並提供了相應的數據描述。

DM Control Suite,是在MuJoCo中實現的一組控制任務。

DM Locomotion,是涉及類人動物的運動任務。

Atari 2600,街機學習環境(ALE)套件,包含57套Atari 2600遊戲(Atari57)。

Real-world Reinforcement Learning Suite,包括高維狀態和動作空間,較大的系統延遲,系統約束,多目標,處理非平穩性和部分可觀察性等任務。

基線模型

RL Unplugged為連續(DM Control Suite,DM Locomotion)和離散動作(Atari 2600)任務提供了基線模型。一些演算法僅適用於離散或連續動作空間,因此我們僅在它們適合的任務中提供了評估演算法。

?

DM Control Suite Baselines.?(左)使用在線策略選擇進行評估的結果(右)使用離線策略選擇進行評估的結果

D4PG,BRAC和RABM在較輕鬆的任務( Cartpole swingup.)中表現較好。但是BC和RABM在較艱巨的任務(Humanoid run)上表現最佳。

展望未來,RL Unplugged將隨著RL研究社區和DeepMind貢獻的數據集逐漸發展壯大,離線學習也會在強化學習中佔據自己的一席之地。

更多細節可參見:

https://arxiv.org/pdf/2006.13888v1.pdf

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!


請您繼續閱讀更多來自 新智元 的精彩文章:

全球最大規模Deepfake 檢測挑戰賽揭榜,中科大俞能海張衛明團隊獲亞軍!冠軍疑違規50萬美元獎金遭取消
全球最大的圖像識別資料庫ImageNet不行了?谷歌DeepMind新方法提升精度