當前位置:
首頁 > 科技 > Yoshua Bengio團隊發布最新強化學習智能體研究

Yoshua Bengio團隊發布最新強化學習智能體研究

圖:pixabay

原文來源:arXiv

作者:Valentin Thomas、Emmanuel Bengio?、William Fedus、Jules Pondard、Philippe Beaudoin、Hugo Larochelle、Joelle Pineau、Doina Precup、Yoshua Bengio

「雷克世界」編譯:嗯~阿童木呀

人們普遍認為,一個良好的表徵(representation)在於能夠對變化的潛在可解釋性因素進行分離。然而,對於什麼樣的訓練框架可以實現這一目標,仍然是一個懸而未決的問題。儘管以往的大多數研究重點主要集中於靜態設置(例如,使用圖像),但我們假設,如果允許學習者與其環境進行交互的話,就可以從中發現一些因果因素。智能體可以嘗試不同的操作並觀察其所產生的效果。更具體地說,我們假設這些因素中的一些與環境的某些可獨立控制的方面相對應,即對於環境中的每一個這樣的方面來說,都存在一個策略和可學習的特徵,從而使得該策略可以在該特徵中產生相應的變化,同時對其他特徵進行最小程度的更改,從而對所觀察到數據中的統計變化進行解釋。我們提出了一個特定的目標函數以找到這些因素,並通過實驗驗證,它確實可以在沒有任何外部獎勵信號的情況下,對環境的獨立可控制方面進行分離。

在解決強化學習問題時,想要將好的結果從隨機策略中區分開來往往需要具有正確的特徵表徵即使使用函數近似(function approximation),相較於盲目地去嘗試解決給定的問題,學習正確的特徵將可能會帶來更快的收斂性(Jaderberg 等人於2016年提出)。

我們架構的計算模型。其中,st是第一個狀態,由其編碼ht和雜訊分布z產生。φ是生成的,φ用於對在環境中運行的策略πφ進行計算。序列ht、ht』通過選擇性損失和ht上的可選擇性自編碼器損失,用於對我們的模型進行更新。

在監督學習研究(Bengio於2009年、Goodfellow等人於2016年提出)和強化學習研究(Dayan於1993年、Precup於2000年提出)領域中存在著這樣一種觀點,學習一個好的,而非新的表徵對於解決大多數現實世界中的問題來說具有至關重要的作用。而另一種觀點是,這些表徵通常不需要被顯式地進行學習,這種學習可以通過內部獎勵機制來進行引導,而這種獎勵機制通常稱為「內在動機(intrinsic motivation)」(Barto等人、Oudeyer和Kaplan於2009年、Salge等人於2013年、Gregor等人於2017年提出)。

在以前研究成果的基礎上(Thomas等人於2017年提出),我們構建了一個表徵學習機制,它與內在動機機制和因果關係密切相關。該機制顯式地將智能體對其環境的控制與智能體所學習到的環境表徵聯繫起來。更具體地說,這種機制的假設是,環境中變化的潛在因素大部分可以由另一個變化的智能體獨立控制。

(a)對隨機可控因素φ進行採樣時,對1000次變化h』—h及其核密度估計的採樣。我們觀察到我們的演算法在4種主要模式下對這些表徵進行分離,每種模式都對應於智能體所實際採取的行動(b)潛在空間中的分離結構。x軸和y軸是分離的,這樣我們就可以通過查看其潛在的編碼h = f(s)來恢復任何觀測值中智能體的x和y位置。當智能體位於橙色塊上時,這個網格上的缺失點其所不能到達的唯一位置。

我們為這個機制提出了一個通用且容易計算的目標,可以用於任何一個使用函數近似學習潛在空間的強化學習演算法中。我們的研究結果表明,我們的機制可以推動模型學習以一種有意義的方式對輸入進行分離,並學習對要採取多種行動才能得以的改變的因素進行表徵,此外,研究結果還表明,這些表徵可以在已學習的潛在空間中執行基於模型的預測,而不是在低級輸入空間(例如像素)中。

學習分離表徵

Hinton和Salakhutdinov於2006年提出的,用於學習表徵的規範的深度學習框架就是一個典型的自編碼框架。然而,這並不一定意味著已學習的潛在空間會對變化的不同因素進行分離。出於這些問題的考慮,我們提出了本文中所闡述的方法。

(a)智能體所實際完成的3步軌跡;(b)空間φ(h0, z), z ~ N (0, 1)的PCA視圖。每個箭頭指向由不同的φ所形成的預測Tθ(h0,φ)的重構。(a)中的策略使用的是綠色箭頭開始處的φ。需要注意的是它的預測是如何對實際的最終狀態進行準確預測的。

其他作者提出了一些用於分離變化的潛在因素的機制。諸如變分自編碼器(Kingma和Welling於2014年提出)、生成對抗網路(Goodfellow等人於2014年提出)或非線性版本的ICA(Dinh等人於2014年、Hyvarinen和Morioka於2016年提出)等之類的許多深度生成式模型,試圖通過假設它們的聯合分布(對所觀察到的s進行邊緣化處理)是因式分解後的結果(即它們是邊緣獨立的),對變化的潛在因素進行分離。

在本文中,我們沿著另一個方向進行探討,試圖利用學習智能體在環境中行動的能力,以便對錶征施加進一步的約束。我們假設,交互是學習如何對智能體所面臨的觀察流的各種因果因素進行分離的關鍵所在,並且這種學習可以在一種無監督的方式下完成。

可以這樣說,到目前為止,將表徵延展到模型的獨立可控特徵中取得了一些令人鼓舞的成功。 我們的特徵的可視化清楚地展示了簡單環境中的不同可控方面,但是,我們的學習演算法也存在一定的缺陷,即它是不穩定的。甚至可以這樣說,我們方法的優勢似乎也可能是它的弱點所在,因為先前的獨立迫使已學習表徵中的關注點進行非常嚴格地分離,而這些應該是可以緩和的。

與此同時,一些不穩定性的來源似乎也減緩了我們的進程:學習一個有關可控方面的條件分布,往往會產生少於預期的模式。學習隨機策略,通常會非常樂觀地收斂域一個單一的動作中,由於模型具有多個部分因此往往需要對許多超參數進行調整。儘管如此,對於我們目前所採取的方法和措施,我們仍然報以希望。分離會發生,但對我們的優化過程以及我們目前的目標函數進行詳細的了解將是推動進一步發展的關鍵點所在。


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 雷克世界 的精彩文章:

五百萬獎金!六大賽區!2018數博會人工智慧全球大賽全面啟動
《人工智慧》雜誌第二期正式出版!40位權威作者共話語音和語言的機器智能

TAG:雷克世界 |