又一個里程碑,谷歌發布最新研究,機器學習開闢新篇章!
智造觀點
在谷歌最新的論文中,研究人員提出了「非政策強化學習」演算法OPC,它是強化學習的一種變體,它能夠評估哪種機器學習模型將產生最好的結果。數據顯示,OPC比基線機器學習演算法有著顯著的提高,更加穩健可靠。
在谷歌AI研究團隊一篇新發表的論文《通過非政策分類進行非政策評估》(Off-PolicyEvaluation via Off-Policy Classification)和博客文章中,他們提出了所稱的「非政策分類」,即OPC(off-policy classification)。它能夠評估AI的表現,通過將評估視為一個分類問題來驅動代理性能。
研究人員認為他們的方法是強化學習的一種變體,它利用獎勵來推動軟體政策實現與圖像輸入協同工作這個目標,並擴展到包括基於視覺的機器人抓取在內的任務。
「完全脫離政策強化學習是一種變體。代理完全從舊數據中學習,對於工程師來說這是很有吸引力的,因為它可以在不需要物理機器人的情況下進行模型迭代。」
Robotics at Google(專註機器學的的谷歌新團隊)的軟體工程師Alexa Irpan寫道,「完全脫離政策的RL,可以在先前代理收集的同一固定數據集上訓練多個模型,然後選擇出最佳的那個模型。」
但是OPC並不像聽起來那麼容易,正如Irpan在論文中所描述的,非政策性強化學習可以通過機器人進行人工智慧模型培訓,但不能進行評估。並且在需要評估大量模型的方法中,地面實況評估通常效率太低。
OPC在假設任務狀態變化方面幾乎沒有隨機性,同時假設代理在實驗結束時用「成功或失敗」來解決這個問題。兩個假設中第二個假設的二元性質,允許為每個操作分配兩個分類標籤(「有效」表示成功或「災難性」表示失敗)。
另外,OPC還依賴Q函數(通過Q學習演算法學習)來估計行為的未來總回報。代理商選擇具有最大預期回報的行動,其績效通過所選行動的有效頻率來衡量(這取決於Q函數如何正確地將行動分類為有效與災難性),並以分類準確性作為非政策評估分數。
谷歌AI團隊使用完全非策略強化學習對機器學習策略進行了模擬培訓,然後使用從以前的實際數據中列出的非策略分數對其進行評估。
在機器人抓取任務時,他們報告OPC的一種變體SoftOPC在預測最終成功率方面表現最佳。假設有15種模型(其中7種純粹在模擬中訓練)具有不同的穩健性,SoftOPC產生的分數與與真正的抓取成功密切相關,並且相比於基線方法更加穩定可靠。
在未來的研究中,研究人員打算用「雜訊」(noisier)和非二進位動力學來探索機器學習任務。「我們認為這個結果有希望應用於許多現實世界的RL問題,」Irpan在論文結尾寫道。


※谷歌AI再突破,Efficientnets有望成為計算機視覺任務的新基礎!
※谷歌Transformer大進化,機翻最強王者上線
TAG:人工智慧觀察 |