「ICML教程」深度強化學習,決策與控制(117 PPT)
20萬,這是新智元今天達到的用戶總數。在飛向智能宇宙的旅程中,感謝每一位和新智元同行的朋友。您的關注和支持是「新智元號」星艦永不枯竭的燃料。
完整PPT下載:https://sites.google.com/view/icml17deeprl
將「神通廣大」的神經網路模型與簡單可擴展的訓練演算法結合在一起的深度學習對包括計算機視覺,語音識別和自然語言處理在內的一系列監督學習領域產生了巨大的影響。深度網路具備的捕獲複雜、高維度功能並學習靈活的分散式表示的能力使得這一成功得以實現。這種能力可以對現實世界的決策和控制問題產生影響,機器不僅能對複雜的感官模式進行分類,還可以選擇行動,並解釋其長期的影響。
決策和控制問題在更經典的深度學習應用中缺乏相關的監督,並帶來了一些挑戰,需要新的演算法開發來解決。在本教程中,我們將介紹與強化學習相關的強化和最優控制的基礎理論,討論將深度學習擴展到決策和控制中的一些最新成果,包括基於模型的演算法,模仿學習和逆向強化學習,探索當前深度強化學習演算法的前沿和局限性。
深度強化學習,決策與控制
序列決策的深度學習
什麼時候不需要順序決策?
當你的系統在做單獨的決策時,例如,分類,回歸
當這個決策不影響未來的決策時
一般的應用
機器人、自動駕駛、語言&對話(結構化預測)、商業運作、金融
為什麼選擇深度強化學習?
深度學習對於解釋豐富的感官輸入很好
對於選擇複雜行動,強化學習很好
使用深度網路來表示感官和動作的映射
包含預估、控制,等
需要擴展到大型的功能
本教程結構:
強化學習的問題設置
無模型強化學習
策略梯度
actor-critic 演算法
價值函數
3. Soft optimality
4. 反向RL
5. 基於模型的RL
6. 前沿與開放性挑戰
術語和符號
模仿學習
獎勵函數
強化學習的目標
強化學習演算法解剖
生成樣本(即運行策略)→擬合一個模型來預估回報→改善政策
評估策略梯度
策略梯度存在的問題
(上)高方差
(下)慢收斂,難以選擇學習率
減小方差
基線
平均獎勵不是最好的基線,但相當好了。
控制變數
回顧
策略梯度:
直接微分期望獎勵
rial-and-error學習
減小方差
使用因果性
使用基線
改善收斂率自然/協變數梯度
自動步長調整
協變數/自然策略梯度
策略梯度例子:TRPO
自然梯度
自動步長調整
離散行動和連續行動
容易使用
可編碼
※「AI TOP 10」馬化騰稱畢業論文跟AI有關;九寨溝地震AI第一個發布新聞;SIGIR公布最佳論文微軟清華成贏家
※新智元專訪:吳恩達deeplearning.ai 首度曝光
※「重磅」吳恩達deeplearning.ai 首度曝光,新智元專訪談未來規劃
※歐洲人工智慧公司生態報告:英國成為歐洲人工智慧的核心中樞
※「NIPS 2017」理解大腦如何控制運動,斯坦福用AI技術開發完美骨骼和神經模型
TAG:新智元 |
※UC Berkeley課程CS 294:深度強化學習
※IBM 的深度學習平台 FfDL
※NVIDIA Tesla M4 低功耗設計加速卡 深度學習
※IBM推AI深度學習計劃
※OpenAI ICLR 2018論文匯總:主要興趣為強化學習
※INTERFACE#5袁進輝:深度學習引擎的最優架構
※在興趣的「刺激」下學習2018新課程:ASPT系列認證LEVEL3
※AMD 7nm Vega 20為深度學習優化:Vega 12或接班北極星
※NVIDIA Tesla P40 24GB 深度學習 GPU運算卡 正品現貨
※靈活構建複雜的RF場景——ADI ADALM-PLUTO SDR主動學習模塊
※PS學習快速改變顏色PS學習,PS教程,PS海報設計,PS摳圖教程
※CMU課程:深度增強學習與控制
※DeepMind強化學習進展:可執行多個任務的高度可擴展智能體——IMPALA
※HTML5編程學習心得分享,學習HTML5期間的技術經驗
※AI醫療開創性研究:深度學習進行病變檢索和匹配(31 PPT)
※深度學習的目標檢測技術演進:R-CNN、Fast R-CNN、Faster R-CNN
※強化機器學習性能,Arm 發布 Mali-G52 GPU
※ArcGIS 10.6 影像集成深度學習和立體測圖
※深度強化學習-DQN
※Mac上訓練機器學習模型,蘋果WWDC發布全新Create ML、Core ML 2