當前位置:
首頁 > 科技 > 谷歌大腦提出對智能體進行正向-反向強化學習訓練,加速訓練過程

谷歌大腦提出對智能體進行正向-反向強化學習訓練,加速訓練過程

圖源:unsplash

原文來源:arXiv

作者:Ashley D. Edwards、Laura Downs、James C. Davidson

「雷克世界」編譯:嗯~是阿童木呀、KABUDA、EVA

在強化學習問題中,關於任務目標的制定,往往需要開發人員花費很多的精力,在本文中,谷歌大腦聯合喬治亞理工學院提出了正向-反向強化學習(Forward-Backward Reinforcement Learning,FBRL),它既能從開始位置正向進行探索,也可以從目標開始進行反向探索,從而加速智能體的學習過程。

一般來說,強化學習問題的目標通常是通過手動指定的獎勵來定義的。為了設計這些問題,學習演算法的開發人員必須從本質上了解任務的目標是什麼。然而我們卻經常要求智能體在沒有任何監督的情況下,在這些稀疏獎勵之外,獨自發現這些任務目標。雖然強化學習的很多力量來自於這樣一種概念,即智能體可以在很少的指導下進行學習,但這一要求對訓練過程造成了極大的負擔。如果我們放鬆這一限制,並賦予智能體關於獎勵函數的知識,尤其是目標,那麼我們就可以利用反向歸納法(backwards induction)來加速訓練過程。為了達到這個目的,我們提出訓練一個模型,學習從已知的目標狀態中想像出反向步驟。我們的方法不是專門訓練一個智能體以決策該如何在前進的同時到達一個目標,而是反向而行,共同預測我們是如何到達目標的。我們在Gridworld和漢諾塔(Towers of Hanoi)中對我們的研究進行了評估,並通過經驗證明了,它的性能比標準的深度雙Q學習(Deep Double Q-Learning,DDQN)更好。

強化學習(Reinforcement Learning,RL)問題通常是由智能體在對環境的任務獎勵盲然無知的情況下規劃的。然而,對於許多稀疏獎勵問題,包括點對點導航、拾取和放置操縱、裝配等等目標導向的任務,賦予該智能體以獎勵函數的知識,對於學習可泛化行為來說,既可行又實用。通常,這些問題的開發人員通常知道任務目標是什麼,但不一定知道如何解決這些問題。在本文中,我們將介紹我們如何利用對目標的知識,使我們甚至能夠在智能體到達這些領域之前學習這些領域中的行為。相比於那些從一開始就將學習初始化的方法,這種規劃性方案可能更容易解決。例如,如果我們知道所需的位置、姿勢或任務配置,那麼我們就可以逆轉那些將我們帶到那裡的操作,而不是迫使智能體獨自通過隨機發現來解決這些難題。

Gridworld和漢諾塔環境

本文中,我們介紹了正向-反向強化學習(Forward-Backward Reinforcement Learning,FBRL),它引入反向歸納,使我們的智能體能夠及時進行逆向推理。通過一個迭代過程,我們既從開始位置正向進行了探索,也從目標開始進行了反向探索。為了實現這一點,我們引入了一個已學習的反向動態模型,以從已知的的目標狀態開始進行反向探索,並在這個局部領域中更新值。這就產生了「展開」稀疏獎勵的效果,從而使它們更容易發現,並因此加速了學習過程。

標準的基於模型的方法旨在通過正向想像步驟並使用這些產生幻覺的事件來增加訓練數據,從而減少學習優秀策略所必需的經驗的數量。然而,並不能保證預期的狀態會通向目標,所以這些轉出結果可能是不充分的。預測一個行為的結果的能力並不一定能提供指導,告訴我們哪些行為會通向目標。與此相反,FBRL採用了一種更有指導性的方法,它給定了一個精確的模型,我們相信,每一個處於反向步驟中的狀態都有通向目標的路徑。

Gridworld中的實驗結果,其中n =5、10、15、20。我們分別使用50、100、150、200步的固定水平,結果是10次實驗的平均值。

相關研究

當我們訪問真正的動態模型時,可以使用純粹基於模型的方法(如動態編程)來計算所有狀態的值(Sutton和Barto於1998年提出),儘管當狀態空間較大或連續時,難以在整個狀態空間中進行迭代。Q-Learning是一種無模型方法,它通過直接訪問狀態以在線方式更新值,而函數逼近技術(如Deep Q-Learning)可以泛化到未見的數據中(Mnih等人於2015年提出)。基於模型和無模型信息的混合方法也可以使用。例如,DYNA-Q(Sutton於1990年提出)是一種早期的方法,它使用想像的轉出出來更新Q值,就如同在真實環境中經歷過一樣。最近出現了更多方法,例如NAF(Gu等人於2016年提出)和I2A(Weber等人於2017年提出)。但這些方法只使用正向的想像力。

與我們自己的方法相似的方法是反向的值迭代(Zang等人於2007年提出),但這是一種純粹基於模型的方法,並且它不學習反向模型。一個相關的方法從一開始就實現雙向搜索和目標(Baldassarre於2003年提出),但這項研究只是學習值,而我們的目標是學習行動和值。另一項相似的研究是通過使用接近目標狀態的反向課程來解決問題(Florensa等人於2017年提出)。但是,該方法假設智能體可以在目標附近得以初始化。我們不做這個假設,因為了解目標狀態並不意味著我們知道該如何達到這一狀態。

漢諾塔中的實驗結果,其中n = 2、3。我們分別使用50、100步的固定水平。 結果是10次試驗的平均值。

許多研究通過使用域知識來幫助加速學習,例如獎勵塑造(Ng等人於1999年提出)。另一種方法是更有效地利用回放緩衝區中的經驗。優先經驗復現(Schaul等人於2015年提出)旨在回放具有高TD誤差的樣本。事後經驗回放(Hindsight experience replay)將環境中的每個狀態視為一個潛在目標,這樣即使系統無法達到所需的目標,也可以進行學習。

使用反向動力學的概念類似於動力學逆過程(Agrawal等人於2016年,Pathak等人於2017年提出)。在這些方法中,系統預測在兩個狀態之間產生轉換的動態。我們的方法是利用狀態和動作來預測前一個狀態。此函數的目的是進行反向操作,並使用此分解來學習靠近目標的值。

本文中,我們介紹了一種加速學習具有稀缺獎勵問題的方法。我們介紹了FBRL,它從目標的反向過程中得到了想像步驟。我們證明了該方法在Gridworld和諾塔中的性能表現優於DDQN。這項研究有多個擴展方向。我們對於評估一個反向計劃方法很感興趣,但我們也可以運用正向和反向的想像力進行訓練。另一項進步是改善規劃策略。我們使用了一種具有探索性和貪婪性的方法,但沒有評估如何在兩者之間進行權衡。我們可以使用優先掃描(Moore和Atkeson等人於1993年提出),它選擇那些能夠導致具有高TD誤差狀態的行為。


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 雷克世界 的精彩文章:

紐約大學聯合谷歌大腦提出「COG」數據集,可提高系統的「視覺推理」能力

TAG:雷克世界 |