MIT科學家Dimitri P.Bertsekas最新2019出版《強化學習與最優控制》

知識 12-19

選自專知

作者：Dimitri P.Bertsekas

編譯：Xiaowen

MIT科學家Dimitri P. Bertsekas今日發布了一份2019即將出版的《強化學習與最優控制》書稿及講義，該專著目的在於探索這人工智慧與最優控制的共同邊界，形成一個可以在任一領域具有背景的人員都可以訪問的橋樑。

REINFORCEMENT LEARNING AND OPTIMAL CONTROL

by Dimitri P. Bertsekas

Athena Scientific, 2019

書籍地址：http://web.mit.edu/dimitrib/www/RLbook.html

本書的目的是考慮大型和具有挑戰性的多階段決策問題，這些問題可以通過動態規劃和最優控制從原則上解決，但它們的精確解在計算上是難以解決的。我們討論了依靠近似來產生性能良好的次優策略（suboptimal policies）的求解方法。這些方法統稱為強化學習（reinforcement learning），也包括近似動態規劃（approximate dynamic programming）和神經動態規劃（ neuro-dynamic programming）等替代名稱。

我們的學科從最優控制和人工智慧的思想相互作用中獲益良多。本專著的目的之一是探索這兩個領域之間的共同邊界，並形成一個可以在任一領域具有背景的人員都可以訪問的橋樑。

這本書的數學風格與作者的動態規劃書和神經動態規劃專著略有不同。我們更多地依賴於直觀的解釋，而不是基於證據的洞察力。在附錄中，我們還對有限和無限視野動態規劃理論和一些基本的近似方法作了嚴格的簡要介紹。為此，我們需要一個適度的數學背景：微積分、初等概率和矩陣向量代數等。

實踐證明這本書中的方法是有效的，最近在國際象棋和圍棋中取得的驚人成就就是一個很好的證明。然而，在廣泛的問題中，它們的性能可能不太可靠。這反映了該領域的技術現狀：沒有任何方法能夠保證對所有甚至大多數問題都有效，但有足夠的方法來嘗試某個具有挑戰性的問題，並有合理的機會使其中一個或多個問題最終獲得成功。因此，我們的目標是提供一系列基於合理原則的方法，並為其屬性提供直覺，即使這些屬性不包括可靠的性能保證。希望通過對這些方法及其變體的充分探索，讀者將能夠充分解決他/她自己的問題。

Slides