DeepMind：超越傳統強化學習的價值分布方法

知識 07-25

選自DeepMind

機器之心編譯

參與：機器之心編輯部

設想一個每天乘坐列車來回跋涉的通勤者。大多數早上列車準時運行，她可以輕鬆愉快地參加第一個早會。但是她知道，一旦出乎意料的事情發生：機械故障，信號失靈，或者僅僅是碰到一個雨天，這些事情總會打亂她的模式，使她遲到以及慌張。

隨機性是我們日常生活中經常遇到的現象，並且對我們的生活經驗有十分深遠的影響。但隨機性同樣在強化學習應用中極其重要，因為強化學習系統需要從試驗和錯誤中學習，並且由獎勵驅動。通常，強化學習演算法從一個任務的多次嘗試中預測它可能收到的獎勵期望值，然後再利用這種預測決定下一步的行動。但是環境中的隨機擾動會通過改變系統收到的具體獎勵量而轉變系統的行為。

在新論文中，我們展示了不僅對獎勵期望值建模是可能的，同時對獎勵所有的變化建模也是存在可能的，我們稱之為價值分布（value distribution）。這就令新型強化學習系統要比以前的模型訓練更快、更準確，但價值分布更重要的是它有可能啟發我們重新思考整個強化學習。

如下圖所示，在通勤者案例中假定我們有一段路程，它由三部分組成，每部分需要花 5 分鐘。如果我們遇上了一周一次的火車故障，那麼我們的路程需要多花 15 分鐘。因此我們可以簡單地計算平均通勤時間為：(3 x 5) + 15 / 5 = 18 分鐘。

在強化學習中，我們使用貝爾曼方程（Bellman"s equation）來預測平均通勤時間。具體來說，貝爾曼方程將我們當前的平均預測結果與未來的平均預測結果聯繫起來。在第一站，我們預測旅程將持續 18 分鐘（總體時間平均數）；從第二站開始，我們預測旅程將持續 13 分鐘（總平均時間減去第一段路程的時間）。最後，假設火車沒有停下來，那麼在第三站，我們預測距離我們到達目的地還有 8 分鐘（13 - 5）。貝爾曼方程使得每一次預測按順序進行，並在新信息的基礎上更新預測結果。

關於貝爾曼方程有一點反常之處在於我們事實上從未觀察到這些預測的平均值：火車要麼是開了 15 分鐘（5 天里有 4 天皆是如此），要麼是 30 分鐘，從來不會出現 18 分鐘！單純從數學的角度來看，這不算問題，因為決策論（decision theory）告訴我們僅需要平均值即可做出最佳選擇。因此，這個問題在實踐中往往被忽略。但是，現在大量經驗證明預測平均值是一件複雜的事。

從我們的經驗數據來看，從分布視角（distributional perspective）更易構建更好、更穩定的強化學習模型。

在新論文中，我們表示事實上有一個貝爾曼方程的變體能預測所有可能性輸出，且不是它們的平均值。在我們的示例中，主要主張兩個在每個站台分布的預測：如果行程順利，在每一站時間分別需要 15、10，然後是 5 分鐘；如果火車壞掉，時間分別是 30、25 分鐘，最後是 20 分鐘。

從這種觀點來看，所有的強化學習都可被重新解釋，其應用也已經帶來驚人的理論性成果。預測輸出的分布也啟發了各種類型演算法的可能性，比如：

解開隨機性的原因：一旦我們觀察到通勤時間呈現雙峰態勢，即有兩個可能的值，那麼我們可以基於該信息採取行動，如在離家之前檢查火車的狀態更新；

分隔安全與危險的選擇：如果兩個選擇的平均結果相同（如走路或乘坐火車），那麼我們可能選擇風險或變動最小的一項（如走路）。

自然輔助預測：實驗證明，預測多個結果的分布（如通勤時間的分布）對更快速地訓練深度網路很有益處。

我們採用了新想法，並在深度 Q 網路智能體中實現了它們，將其單一獎勵期望值輸出替換為一個帶有 51 個可能值的分布。另外的一個變化是新的學習規則，反映了從貝爾曼（平均）方程到其分散式對應物的轉化。難以置信的是，結果證明這種轉化是我們超越所有其他方法所需要的全部。下圖展示了我們如何在 25% 的時間獲得 75% 的已訓練的深度 Q 網路的性能，且遠超人類。

一個令人驚訝的結果是我們發現了 Atari 2600 遊戲中的一些隨機性，即使底層遊戲模擬器 Stella 本身是完全可預測的。這種隨機性的出現部分是由於我們所謂的局部可觀察性（partial observability）：由於模擬器的內在編程，玩乒乓球的智能體無法預測其得分增加的精確時間。通過可視化智能體對連續幀的預測（如下圖），我們看到兩個單獨的輸出，（低和高），反應了可能的時間。儘管這種內在的隨機性並未直接影響性能，但結果指出了智能體在理解方面存在的局限性。

隨機性也會發生由於智能體的自身行為是未確定的。在太空入侵者中，我們的智能體學習預測未來發生失誤並輸掉遊戲的概率（零獎勵）。

GIF/1.1M

正如我們的訓練過程實例，它為那些截然不同的結果保留各自的預測，而不是將其總計為一個不可平衡的平均數。事實上，我們認為我們獲得提升的結果很多一部分來自智能體建模其自身隨機性的能力。

從我們的結果可以看出，分布視角帶來了更好、更穩定的強化學習。現在每一個強化學習概念都可能需要從分布視角下重新思考，也許它只是這一方法的開端。

論文：A Distributional Perspective on Reinforcement Learning

論文鏈接：https://arxiv.org/abs/1707.06887

摘要：本篇論文中，我們對價值分布的基本重要性——強化學習體接收到的隨機返回值的分布，進行了討論：這與強化學習的常見方法（對返回值的期望或值進行建模）形成了對比。儘管資料庫的建立實現了對值分布的研究，它卻也因此經常用於一種特定的用途，比如實施風險性意識行為（risk-aware behaviour）。我們以策略評估和控制環境的理論結果作為開端，對顯著的分布不穩定性進行了揭露。隨後使用分布的視角設計了一種新的演算法——應用貝爾曼方程來學習近似值分布。我們使用了街機模式學習環境（Arcade Learning Environment）的遊戲套件測試了我們的演算法。我們得到了一流的結果以及能說明近似強化學習的值分布重要性的證據。最後，我們結合理論和實際的依據，強調了在近似環境中值分布影響學習的方式。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 機器之心 的精彩文章:

※DNA納米鏈路：微軟新研究將生物計算機速度提高數倍
※AI 加速器正成為騰訊 AI 生態開放中重要一環
※LSTM入門必讀：從基礎知識到工作方式詳解
※CVPR2017論文解讀：單目圖像車輛3D檢測的多任務網路
※CVPR 2017論文解讀：用於單目圖像車輛3D檢測的多任務網路

TAG:機器之心 |

您可能感興趣

※OpenAI Baselines 更新，新增 HER 強化學習演算法
※學習通分的遊戲：Fraction Formula Game
※DeepMind發Nature子刊：通過元強化學習重新理解多巴胺
※Reliance Industries收購印度個性化學習平台Embibe
※OpenAI提出Reptile：可擴展的元學習演算法
※經驗分享：我的Deeplearning.ai課程學習之旅！
※深度強化學習-Policy Gradient基本實現
※強化學習 2 Markov Decision Process 馬可夫決策過程
※OpenAI發布可擴展的元學習演算法Reptile
※Machine Learning：十大機器學習演算法
※Roofline Model 與深度學習模型的性能分析
※真實全景圖像強化學習 AI 平台——Matterport3DSimulator
※DeepMind推出分散式深度強化學習架構IMPALA，讓一個Agent學會多種技能
※DeepMind高管回答：Alpha zero 的強化學習是否真的不要訓練數據？
※The Rat on the Move 老鼠搬家-價值觀與選擇的學習
※機器學習基石-The Learning Problem
※深度學習綜述：Hinton、Yann LeCun和Bengio經典重讀
※基於 Unity/OpenAI Gym/PyTorch/TF 的深度強化學習研究框架
※Python 機器學習 Scikit-learn 完全入門指南
※英特爾宣布Windows機器學習Movidius Myriad X VPU