機器學習方法篇-時序差分方法
?導語
前面分別講解了增強學習當中動態規劃方法和蒙特卡洛方法的演算法思想。在實際問題當中,DP通常無法或者很難得到問題的真實模型結構,MC則很難估算一次行動的最終價值獎勵。
時序差分方法結合了動態規劃和蒙特卡洛方法的優點,是強化學習的核心思想。那麼,TD的演算法思想是什麼?
>>>>
時序差分方法
前文我們了解了MC是每次對樣本進行完整的採樣模擬,用最終的實際價值收穫來更新策略和價值函數。同樣的,TD也是每次對樣本進行採樣模擬,但並非完整採樣,而是每次只採樣單步或者幾步,根據新狀態的價值收穫來更新策略和價值函數。
因此,MC可以理解為最大步數的TD。本節將介紹TD單步學習法,單步學習法理論上可以推廣到多步學習法。TD單步學習法最簡單的實現步驟如下:
1>初始化價值函數V(s),s∈S;
2>選擇一個狀態-行為對(s, a);
3>用當前策略函數F,向後模擬一步;
4>用新狀態的獎勵R(s, a)更新價值函數V;
5>用新的價值函數V優化策略函數F;
6>轉第3步,直到模擬進入終止狀態。
上述演算法中的字母含義可參見機器學習方法篇(24)------理解RL中的MDP。
在具體演算法應用層面,主要有on-policy的Sarsa演算法和off-policy的Q-learning演算法兩種。
Sarsa演算法的策略更新和行為模擬是同一個函數。每一次模擬下一步時,預先計算所有可能的下一步,並隨之更新策略函數F,再根據新的F模擬下一步。
Q-learning演算法的策略更新和行為模擬不是同一個函數。每一次使用貪心策略直接模擬R最大的下一步,並更新策略函數F。
上述兩種方法的區別在於,更新策略函數F的時候,是先轉移狀態還是先計算更新。相比之下,Sarsa比較保守,而Q-learning則較為大膽,二者各有優劣。
由於目前小斗對這兩種演算法還沒有實際使用經驗,只能暫時點到為止,等日後實操再作進一步分享。
以上便是TD的講解,敬請期待下節內容。
結語
感謝各位的耐心閱讀,後續文章於每周日奉上,歡迎大家關注小斗公眾號對半獨白!

紙短情長
紙短情長(完整版)
煙把兒樂隊
00:00/02:53
每周一言
智商決定深度,
而情商決定高度。


※谷歌傳道AI的方法論:通過免費在線課程教你掌控人工智慧和機器學習
※Science:機器學習成功挑戰交叉偶聯反應
TAG:機器學習 |