當前位置:
首頁 > 新聞 > 將離策略評估看作分類,谷歌提出新型強化學習模型選擇方法OPC

將離策略評估看作分類,谷歌提出新型強化學習模型選擇方法OPC

選自Google AI Blog

作者:Alex Irpan

機器之心編譯

參與:Geek AI、路


完全的離策略強化學習可以基於之前智能體收集到的數據訓練多個模型,但它無法在沒有真實機器人的情況下進行模型評估。而離策略評估「off-policy evaluation,OPE」可以幫助研究人員選擇最有潛力的模型,進而在真實環境中評估。谷歌最近提出一種新型離策略評估方法——離策略分類,將評估視為一個分類任務,根據過去的數據評估智能體的性能,其中智能體的動作「action」被標註為「可能導致成功」或「一定導致失敗」。OPC 可以擴展到更廣泛的任務,包括現實世界中基於視覺的機器人抓取任務。

強化學習(RL)是一種讓智能體根據經驗學習決策的框架。離策略強化學習是眾多強化學習變體中的一種,其中每個智能體使用由其它智能體收集到的數據(離策略數據)以及它自己收集到的數據進行訓練,從而學習「機器人行走和抓取」等可泛化技能。

另一方面,完全的離策略強化學習中,智能體完全根據舊的數據進行學習,這非常有吸引力,因為它讓模型可以在不需要實體機器人的情況下進行迭代。通過完全的離策略強化學習,我們可以使用之前的智能體收集到的同樣固定數據集來訓練多個模型,然後從中選取最佳模型。

然而,完全的離策略強化學習也帶來了一個問題:儘管可以在沒有真實機器人的情況下進行訓練,但是並不能進行模型的評估。此外,使用實體機器人進行真值(ground truth)評估的效率實在是太低了,無法測試需要對大量模型進行評估的有潛力的方法(例如使用 AutoML 進行自動化神經網路架構搜索)。

這一挑戰推動了離策略評估(OPE)的發展,OPE 即使用其它智能體收集到的數據研究新智能體質量的技術。通過 OPE 的排序,我們可以有選擇性地在真實機器人上測試最有潛力的模型,這可以在同樣的真實機器人預算下顯著地擴展實驗規模。

將離策略評估看作分類,谷歌提出新型強化學習模型選擇方法OPC

開發真實世界模型的示意圖。假設我們每天可以評估 10 個模型,在沒有離策略評估的情況下,我們將需要 100 倍的時間來進行模型評估。

儘管 OPE 框架非常有發展前景,但是它假設我們擁有一種基於舊數據對模型性能進行準確排序的離策略評估方法。然而,收集過去經驗的智能體可能與新學得的智能體在行為方式上存在很大差別,這使得我們很難得到良好的性能評估。

在論文「Off-Policy Evaluation via Off-Policy Classification」中,谷歌提出了一種叫作「離策略分類」(Off-policy classification,OPC)的新型離策略評估方法。該方法將評估視為一個分類任務,根據過去的數據評估智能體的性能,其中智能體的動作(action)被標註為「可能導致成功」或「一定導致失敗」。

該方法適用於圖像(相機)輸入,而且不需要通過重要性採樣或使用目標環境的準確模型(這兩種方法在之前工作中經常被使用)重新調整數據權重。這項研究表明,OPC 可以擴展到更大的任務,包括現實世界中基於視覺的機器人抓取任務。

OPC 是如何工作的?

OPC 建立在兩個假設之上:1)最終的任務具有確定性動態(deterministic dynamics),即狀態的變化不存在隨機性;2)在每次試驗結束時,智能體要麼成功要麼失敗。對於很多任務(例如拾取物體、走迷宮、贏得遊戲等),第二個假設是很自然的。由於每次試驗要麼成功要麼失敗,因此我們可以為每個動作打上一個二分類標籤。如果某個動作可以導致成功,我們就將其稱為「有效的」(effective);而如果某個動作一定會導致失敗,我們就將其稱為「災難性的」(catastrophic)。

OPC 使用到了一個 Q 函數,它通過 Q 學習演算法學得。如果智能體選擇在當前狀態下採取某個動作,則 Q 函數會估計未來的總獎勵(reward)。接著,智能體會選擇具有最大總獎勵估計值的動作。谷歌研究人員在論文中證明了,智能體的性能是根據它所選擇的動作「有效」的頻率來衡量的,這取決於「Q 函數」進行動作分類的準確率。而該分類準確率被作為離策略評估分數。

然而,以往的試驗所得到的數據只進行了部分的標註。例如,如果一個之前的試驗失敗了,由於我們不知道哪個動作是「災難性」的,我們不會得到負標籤。為了解決這個問題,谷歌研究人員利用半監督學習中的技術 PU 學習(positive-unlabeled learning),根據部分標註數據得到對分類準確率的估計。這裡的準確率就是 OPC 得分。

對 Sim-to-Real Learning 的離策略評估

在機器人學中,經常使用模擬數據和遷移學習技術來降低學習機器人技能的樣本複雜度。這種做法非常實用,但是針對真實世界機器人調整這些 sim-to-real 技術是非常具有挑戰性的。這很像不使用真實機器人訓練的離策略強化學習,它也是在模擬環境中訓練的,但是對於這種策略的評估仍然需要使用一個真實機器人。

在這裡,離策略評估可以再次發揮作用,我們可以採用一種僅僅在模擬環境下訓練的策略,然後使用之前的真實世界數據來評估它,從而衡量它遷移到真實機器人上的性能。谷歌在完全的離策略強化學習和 sim-to-real 強化學習兩種場景下測試了 OPC。

將離策略評估看作分類,谷歌提出新型強化學習模型選擇方法OPC

模擬經驗與真實世界經驗的區別示例。這裡,模擬圖像(左圖)比真實世界圖像(右圖)的視覺複雜度低。

實驗結果

研究人員首先設置了一個機器人抓取任務的模擬版本,方便研究者輕鬆訓練和評估多個模型,從而對離策略評估進行基準對比測試。這些模型都是通過完全的離策略強化學習訓練的,然後通過離策略評估方法來評估。研究人員發現,在多個機器人任務中,一種被稱為「SoftOPC」的 OPC 變體在預測最終成功率時取得了最佳性能。

將離策略評估看作分類,谷歌提出新型強化學習模型選擇方法OPC

在模擬的抓取任務中的實驗結果。紅色曲線是在訓練過程中記錄的無量綱 SoftOPC 得分(基於舊數據評估)。藍色曲線是模擬環境下的抓取成功率。我們可以看到,在模擬器中,基於舊數據的 SoftOPC 與模型的成功抓取密切相關。

在模擬環境下取得成功後,研究人員在真實世界任務中嘗試使用 SoftOPC。他們選取了 15 個模型,經過訓練這些模型對模擬和真實環境的差異有不同程度的魯棒性。在這些模型中,有 7 個僅在模擬環境下進行訓練,其餘 8 個模型則在模擬和真實世界數據混合的環境下進行訓練。

對於每個模型,研究者基於離策略真實世界數據評估 SoftOPC,然後對真實世界中的成功抓取進行評估,看看 SoftOPC 預測這些模型性能的能力如何。結果表明,在真實數據上,SoftOPC 確實會得到與真正的成功抓取相關的得分,所以我們可以使用過去的真實經驗對 sim-to-real 技術進行排序。

將離策略評估看作分類,谷歌提出新型強化學習模型選擇方法OPC

三種不同 sim-to-real 方法的 SoftOPC 得分和真實性能:基線模擬、具備隨機紋理和光照的模擬,以及使用 RCAN 訓練的模型。以上三種模型都使用非真實數據訓練,然後在一組真實數據驗證集上使用離策略評估方法進行評估。結果表明,SoftOPC 得分的順序與真實成功抓取的順序相符。

下圖是根據所有 15 個模型的結果繪製的散點圖。每個點代表每個模型的離策略評估得分和真實世界成功抓取情況。研究者將不同的打分函數與其最終成功抓取情況的相關性進行了對比。SoftOPC 並不完全與真實的成功抓取相關聯,但是其得分要明顯地比時序差分誤差(TD error,一種標準的 Q 學習損失)等基線方法更可靠。

將離策略評估看作分類,谷歌提出新型強化學習模型選擇方法OPC

sim-to-real 評估實驗的結果。左圖是基線,模型的時序差分誤差。右圖是 SoftOPC。陰影區域是 95% 置信區間。SoftOPC 的相關性明顯要更強。

未來的工作

未來工作的一個有前景的方向是:能否放寬對該任務的假設,從而支持在動態方面具有更多雜訊的任務,即對是否成功只能得到部分信度。

原文鏈接:https://ai.googleblog.com/2019/06/off-policy-classification-new.html

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 機器之心 的精彩文章:

位元組跳動開源高性能分散式訓練框架BytePS,支持PyTorch、TensorFlow等
技驚四座的BERT全靠數據集?大模型霸榜或許是學界的災難

TAG:機器之心 |