當前位置:
首頁 > 最新 > ICLR 2018 DeepMind論文精華一覽

ICLR 2018 DeepMind論文精華一覽

譯者|無明

編輯|Debra

AI 前線導讀:4 月 30 號至 5 月 3 號,數百名研究人員將齊聚加拿大溫哥華,參加第六屆國際學習表徵大會。以下是 DeepMind 已經通過審查的論文合集以及演講內容。

更多乾貨內容請關注微信公眾號「AI 前線」,(ID:ai-front)

最大化後驗策略優化

作者:Abbas Abdolmaleki,Jost Tobias Springenberg,Nicolas Heess,Yuval Tassa,Remi Munos

我們引入了一種新的強化學習演算法,稱為最大化後驗策略優化(MPO)。我們將介紹幾種現有方法,它們直接與我們的推導相關。我們開發了兩種離策略(off-policy)演算法,並證明它們可與深度強化學習中的最新技術展開競爭。我們的方法在樣本效率、早熟收斂以及對超參數設置的魯棒性方面優於現有方法。

用於高效架構搜索的分層表示

作者:Hanxiao Liu(CMU),Karen Simonyan,Oriol Vinyals,Chrisantha Fernando,Koray Kavukcuoglu

我們探索高效的神經架構搜索方法,並介紹一個簡單但功能強大的演化演算法,可用於發現具有卓越性能的新架構。我們的方法結合了一種模仿人類專家普遍採用的模塊化設計模式的新型分層遺傳表示模式,以及支持複雜拓撲的搜索空間。在發現新架構方面,我們的演算法已經超越了大量人為設計的圖像分類模型,在 CIFAR-10 上達到 3.6%的 top-1 誤差,而在 ImageNet 上可達 20.3%,可與現有的最佳神經架構搜索方法相媲美。我們還使用隨機搜索的方式呈現結果,在 CIFAR-10 上的 top-1 精度低於 0.3%,在 ImageNet 上低於 0.1%,同時將搜索時間從 36 小時減少到 1 小時。

用於轉移機器人技能的嵌入空間

作者:Karol Hausman,Jost Tobias Springenberg,Ziyu Wang,Nicolas Heess,Martin Riedmiller

我們提出了一種通過技能嵌入空間進行參數化的強化學習方法。我們通過利用隱藏變數及探索強化學習和變分推理之間的聯繫來學習這些技能。

我們的主要貢獻是用於分層策略的熵正則化策略梯度公式,以及基於隨機值梯度的離策略梯度演算法。我們將證明我們的方法可有效地應用在幾種模擬機器人操作任務上。

學習意識模型

作者:Brandon Amos,Laurent Dinh,Serkan Cabi,ThomasRoth?rl,SergioGómezColmenarejo,Alistair M Muldal,Tom Erez,Yuval Tassa,Nando de Freitas,Misha Denil

我們將告訴大家,預測本體感受信息的訓練模型可用於表示外部世界中的物體。這些模型能夠成功地預測未來 100 步以上的感測器讀數,並且即使在斷開連接後仍可以繼續呈現外部物體的形狀。我們將展示通過最大化未來感測器讀數的不確定性來進行主動數據採集,模型在此時表現出卓越的性能。我們還從真實的機器手收集數據,並演示相同的模型可用於回答有關現實世界中物體屬性的問題。

回歸神經網路的 Kronecker 分解曲率逼近

作者:James Martens,Jimmy Ba(Vector Institute),Matthew Johnson(谷歌)

Kronecker 因子近似曲率 (Martens&Grosse,2015)(K-FAC) 是一種二階優化方法,已被證明可在大規模神經網路優化任務中提供最先進的性能(Ba et al.,2017)。它基於 Fisher 信息矩陣(FIM)的近似值,該矩陣對網路的特定結構和參數化方式進行了假設。最初的 K-FAC 方法僅適用於完全連接的網路,不過 Grosse&Martens(2016)最近對它進行了擴展,可用於處理卷積網路。我們通過引入 RNN 的 FIM 逼近似來擴展處理 RNN 的方法。該逼近通過使用鏈式結構線性高斯圖形模型對不同時間步長的梯度貢獻之間的協方差結構進行建模,對各種交叉協方差進行求和並計算倒數。我們在實驗中證明,在幾個具有挑戰性的 RNN 訓練任務上,我們的方法明顯優於通用的最新優化器,如 SGD 和 Adam。

分散式分布確定性策略梯度

作者:Gabriel Barth-maron,Matthew Hoffman,David Budden,Will Dabney,Daniel Horgan,Dhruva Tirumala Bukkapatnam,Alistair M Muldal,Nicolas Heess,Timothy Lillicrap

我們採用了非常成功的強化學習分布視角,並將其應用在持續控制中。為了開發出我們所說的分散式分布深度確定性策略梯度演算法(D4PG),我們還結合使用了一個用於離策略學習的分散式框架。我們還將這項技術與其他一些簡單的改進結合在一起,例如使用 N 步回退和優先體驗重放。在實驗中,我們檢查每個組件的貢獻,並展示它們如何相互作用,以及它們的組合貢獻。我們的研究結果表明,D4PG 演算法在各種簡單的控制任務、困難的操作任務以及一組基於障礙物的運動任務中表現出了最先進的性能。

Kanerva 機:生成的分散式記憶

作者:Yan Wu,Greg Wayne,Alex Graves,Timothy Lillicrap

我們提供了一個端到端的記憶系統,能夠快速適應新數據並生成與它們相類似的樣本。記憶是可追蹤的,可通過貝葉斯更新規則實現最佳的在線壓縮。我們將其表示為一種分層的條件生成模型,其中記憶提供了豐富的依賴數據的優先分布。因此,自上而下的記憶和自下而上的感知被結合起來,生成可表示觀察感知的代碼。

基於記憶的參數適應

作者:Pablo Sprechmann,Siddhant Jayakumar,Jack Rae,Alexander Pritzel,Adria P Badia·Benigno Uria,Oriol Vinyals,Demis Hassabis,Razvan Pascanu,Charles Blundell

人類和動物能夠通過幾個例子快速整合新知識,並在整個生命周期中持續不斷重複這項能力。相比之下,基於神經網路的模型依賴靜止的數據分布和逐步訓練過程來獲得良好的泛化。我們從互補學習系統理論中汲取靈感,提出了基於記憶的參數自適應(Memory-based Parameter Adaptation,MbPA),這是一種用情景記憶增強神經網路的方法,可以快速獲取新知識,同時保持高性能和良好的泛化。 MbPA 將樣本存儲在記憶中,然後使用基於上下文的查找來直接修改神經網路的權重。它彌補了神經網路的一些短板,如災難性遺忘、快速而穩定地獲取新知識,以及在評估過程中快速學習。

SCAN:學習層次化視覺概念

作者:Irina Higgins,Nicolas Sonnerat,Loic Matthey,Arka Pal,Christopher P Burgess,MatkoBo?njak,Murray Shanahan,Matthew Botvinick,Alexander Lerchner

我們提出了一種新穎的理論方法來解決抽象的組合性問題——如何學習少量的基礎構建塊,並用它們來動態創建大量新的抽象概念?我們提出了一種名為符號 - 概念關聯網路(SCAN)的新型神經網路架構,它可以學習基礎的視覺概念層次結構,可通過語言指令來指導它想像出新的概念。

新式語言交流的出現

作者:Angeliki Lazaridou,Karl M Hermann,Karl Tuyls,Stephen Clark

人們通過使用即時溝通任務來研究演算法在演進或學習(組合)溝通協議方面的能力。我們通過使用當代深度學習方法和在指稱溝通遊戲上訓練強化學習神經網路代理來擴大這項研究。我們通過開發具備從原始像素數據中進行學習的代理來擴展以前的工作,我們在符號環境中訓練代理,這是一種更具挑戰性和實際意義的輸入表示。我們發現,輸入數據中的結構化程度會影響到協議的屬性,從而證實這樣的一個假設,即當代理認為世界是結構化的時候,最有可能出現結構化的組合語言。

均衡之路:GAN 不需要在每一步都減少發散

作者:William Fedus(蒙特利爾大學),Mihaela Rosca,Balaji Lakshminarayanan,Andrew Andrew(谷歌),Shakir Mohamed,Ian Goodfellow(Google Brain)

在計算機視覺領域取得的成功推動了生成敵對網路研究的發展。為了解決生成對抗網路中的訓練不穩定性問題,人們已經提出了多種用於訓練動態的理論,並提出了新的訓練方法。通過關注生成對抗網路和規範化(如梯度懲罰)的最小化發散視圖,我們可憑經驗證明,這些方法不能只通過相應的基礎理論來解釋。這激發了對新理論框架的需求,這類框架可包含和解釋所呈現的結果。

神經網路能夠理解邏輯蘊涵嗎?

作者:Richard Evans,David Saxton,David Amos,Pushmeet Kohli,Edward Grefenstette

我們引入了一個新的邏輯蘊涵數據集,目的是度量模型捕獲和利用邏輯表達式結構來處理蘊含預測任務的能力。我們通過這個任務來比較一系列在序列處理中無處不在的架構,另外還有一個新的模型類——PossibleWorldNets——它將蘊含計算成「基於可能世界的卷積」。結果表明,相對於 LSTM RNN,卷積網路在這類問題上存在錯誤歸納偏差,由於樹形結構神經網路利用邏輯語法的能力得到增強,所以其性能優於 LSTM RNN,而 PossibleWorldNets 優於所有測試基準。

分散式優先體驗重放

作者:Daniel Horgan,John Quan,David Budden,Gabriel Barth-maron,Matteo Hessel,Hado van Hasselt,David Silver

我們提出了一種分散式架構,用於大規模深度強化學習,使代理能夠從比以前多一個數量級的數據中學習。該演算法對學習進行了解耦:actor 基於共享神經網路選擇動作,與自己的環境實例進行溝通,並將所得到的體驗累積放在共享的體驗重放記憶中,然後 learner 重放經驗樣本並更新神經網路。該架構依賴於優先體驗重放,只關注 actor 產生的重要數據。我們的架構在 Arcade Learning Environment 上大有改進,在部分 wall-clock 訓練時間方面表現出更好的性能。

Reactor:一種快速的強化學習代理

作者:Audrunas Gruslys,Will Dabney,Mohammad Gheshlaghi Azar,Bilal Piot,Marc G Bellemare,Remi Munos

我們提出了多種演算法和架構改進,生成的代理比 Prioritized Dueling DQN 和 Categorical DQN 具有更高的採樣效率,同時提供比 A3C 更好的運行時性能。分散式回溯策略評估演算法為分散式強化學習帶來了多步的離策略更新。我們的方法可以用來將幾類多步策略評估演算法轉換為分散式演算法。 β-leave-one-out 策略梯度演算法使用操作值作為基準。新的優先重放演算法利用時間局部性來實現更高效的重播放先級。

單一方向泛化的重要性

作者:Ari Morcos,David GT Barrett,Neil C Rabinowitz,Matthew Botvinick

我們主要研究單一方向泛化的重要性,我們所採用的是受到幾十年實驗神經科學啟發的方法——探索損傷影響——用以確定:深度神經網路中的神經元組到底有多重要?更容易解釋的神經元對網路的計算更重要嗎?我們通過刪除單個神經元以及神經元組來測試損傷對網路的性能影響。實驗給我們帶來兩個驚人的發現:首先,儘管以前的很多研究專註於理解易於解釋的單個神經元(例如「貓神經元」或深度網路隱藏層中的神經元),我們發現這些可解釋的神經元並不比混淆難解釋的神經元更重要。其次,能夠正確分類看不見的圖像的網路比僅能分類以前見過的圖像的網路對刪除神經元更具適應性。換句話說,泛化網路比記憶網路更不依賴單一方向。

循環神經網路語言模型中的記憶架構

作者:Dani Yogatama,Yishu Miao,GáborMelis,Wang Ling,Adhiguna Kuncoro,Chris Dyer,Phil Blunsom

生成流利的語法語言需要記錄過去生成的單詞。我們在論文中比較了三種記憶架構(順序、隨機訪問和基於棧),並發現基於棧結構的記憶在持久性複雜度方面表現出最佳性能。為了給基於棧的記憶提供更多的功能,並且更好地匹配語言中出現的各種現象,我們對現有基於棧的差分記憶進行了泛化,讓它們能夠在每個時間步執行多個彈出操作,從而進一步提高性能。最後,我們展示了我們的棧增強語言模型能夠預測傳統 LSTM 語言模型難以實現的長期協定模式。

少量自回歸密度估算:學習分布的學習

作者:Scott Reed,Yutian Chen,Thomas Paine,Aaron van den Oord,S. M. Ali Eslami,Danilo J Rezende,Oriol Vinyals,Nando de Freitas

目前的圖像密度模型訓練需要大量的數據和時間。我們在論文中展示了如何將神經注意力和元學習技術與自回歸模型結合在一起,用以實現有效的幾率密度估算。我們改進的 PixelCNN 可以在 Omniglot 上實現最先進的少量密度估算。我們將所學習的關注策略可視化,並發現它為簡單任務學習了直觀的演算法,例如在沒有監督的情況下在 Omniglot 上進行圖像鏡像和數字繪圖。最後,我們在斯坦福的在線產品數據集上演示少量圖像生成。

神經語言模型最先進的評估方法

作者:GáborMelis,Chris Dyer,Phil Blunsom

遞歸神經網路架構的持續創新為語言建模基準測試提供了穩定且顯著的最新成果。然而,它們是使用不同的代碼庫和有限的計算資源進行評估,而這些資源代表了不受控制的實驗變化源。我們重新評估了一些流行的架構和泛化方法,它們都帶有大規模的自動黑盒超參數調整,並得出了一些令人驚訝的結論,即標準 LSTM 架構在經過適當的規範化後,其表現勝過更新的模型。我們在 Penn Treebank 和 Wikitext-2 語料庫上實現了最新突破,並在 Hutter Prize 數據集上建立了更強大的基線。

通過協商實現溝通

作者:Kris Cao,Angeliki Lazaridou,Marc Lanctot,Joel Z Leibo,Karl Tuyls,Stephen Clark

多代理強化學習提供了一種方法,用於研究在需要解決特定問題的代理社區中,溝通將以怎樣的形式出現。我們在論文中探討了在談判環境中,溝通將如何出現——一種半合作的代理溝通模型。我們介紹了兩種溝通協議,一種是基於遊戲語義的協議,另一種是無根據的,並且是基於廉價談話的。我們發現,自利的代理可以使用有根據的溝通渠道進行公平談判,但無法有效地使用無根據的渠道。然而,親社會代理確實學會了使用廉價談話來尋找最佳的談判策略,這表明合作對於語言的出現來說是必要的。我們還研究溝通行為,讓一個代理與社區中不同親社會等級的代理進行溝通,並展示代理識別將如何協助談判的進行。

從原始視覺輸入學習組合逆向溝通

作者:Edward Choi,Angeliki Lazaridou,Nando de Freitas

人類語言的一個顯著特點是其合成性,它使我們能夠用有限的辭彙來描述複雜的環境。之前的研究已經表明,神經網路代理可以學會使用基於高度結構化組合語言進行通信。然而,人類卻無法基於總結特徵學會溝通。在我們的研究中,我們通過訓練神經系統基於原始圖像像素開發視覺感知,並學習如何與一系列離散符號溝通。代理參與圖像描述遊戲,其中圖像包含了顏色和形狀等元素。我們使用逆向轉換技術來訓練代理,其中代理會生成最大化自己理解的消息。通過定性分析、可視化和零點測試,我們發現代理可以基於原始圖像像素開發出具有合成屬性的語言。

用於探索的噪音網路

作者:Meire Fortunato,Mohammad Gheshlaghi Azar,Bilal Piot,Jacob Menick,Matteo Hessel,Ian Osband,Alex Graves,Volodymyr Mnih,Remi Munos,Demis Hassabis,Olivier Pietquin,Charles Blundell,Shane Legg

我們將介紹 NoisyNet,一個深度強化學習代理,在權重中加入了參數噪音,並將告訴大家,代理策略的誘導隨機性有助於進行探索。NoisyNet 實現的方式很直接了當,只會增加很少的計算開銷。 我們發現,用 NoisyNet 替代 A3C、DQN 和競爭代理(分別為熵獎勵和ε貪婪)的常規探索啟發式方法在各種各樣的 Atari 遊戲中獲得了更高的分數。在某些情況下,代理超過了人類。

https://deepmind.com/blog/deepmind-papers-iclr-2018/

AI前線

緊跟前沿的AI技術社群

如果你喜歡這篇文章,或希望看到更多類似優質報道,記得給我留言和點贊哦!

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 AI前線 的精彩文章:

歐盟智庫重磅報告:人類到底該不該畏懼AI?
Netflix最新視頻優化實踐:用更少的帶寬打造完美畫質

TAG:AI前線 |