強！阿里演算法團隊開源AI核心技術，95%演算法工程師受用

知識 02-06

近幾天，阿里又給工程師送上了一份特殊的「知識年貨」：《強化學習在阿里的技術演進與業務創新》。這是一本業界首本深入闡述強化學習落地實踐案例的書，由阿里核心演算法團隊，毫無保留傾力打造。更為難能可貴的是，阿里爸爸竟然免費開放，供大家自由下載！

如何免費查看/下載？

長按識別以下二維碼，關注「阿里技術」官方公眾號，回復「強化學習」，即可免費在線閱讀、下載此書。

50萬工程師關注的阿里技術公眾號

強！阿里演算法團隊開源AI核心技術，95%演算法工程師受用就在阿里巴巴演算法團隊推出該書後，就有小白同學來問超模君：

我只知道機器學習、深度學習，阿里巴巴弄的這個「強化學習」又是什麼？

其實呢，關於強化學習的理解，有人說：強化學習是最接近於自然界動物學習的本質的一種學習範式。無論是AlphaGo 在圍棋大賽中戰勝世界冠軍，還是Deepmind 的自動學習玩 ATARI 遊戲，背後的強大武器都是深度強化學習技術。

還沒明白，那超模君再舉個簡單的例子：

大家應該都還記得AlphaGo吧，AlphaGo學習過程存在一個強化學習過程，不斷地對棋譜內容進行學習，就如同人類一樣，一遍學不會，那就學兩遍，學到會為止。由此可見，強化學習過程在圍棋程序 AlphaGo 的重要性。

強化學習是機器學習的一個分支。

可能之前大家對於機器學習的分類，只將其分為監督學習，非監督學習。其實，強化學習是機器學習的一個分支，因此有人嘗試將機器學習分為：監督學習、無監督學習、強化學習。

監督學習和強化學習之間的主要區別在於收到的反饋是評估性的還是指導性的。指導性反饋提示如何達到目標，而評估性反饋告訴你達到目標的程度。

監督學習一般是基於指導性反饋來解決問題，而強化學習則基於評估性反饋解決問題。圖像分類是一個帶有指導性反饋的監督問題，當演算法嘗試分類特定數據時，它將從指導性反饋中了解到哪個是真正的類別。而評估性反饋僅僅告訴你目標的達成的程度，如果你使用評估性反饋訓練分類器，那麼你的分類器可能會說「我認為這是一隻老虎」，然後它將得到 50 分。但是，由於沒有任何語境信息，我們不知道這 50 分是什麼。我們需要進行其他分類，探索這 50 分代表我們是正確還是錯誤的。或許 10000 是一個更好的分值，但是我們還是不知道它是什麼，除非我們嘗試對其他數據點進行分類。

強！阿里演算法團隊開源AI核心技術，95%演算法工程師受用同時，強化學習類似於一個試錯學習，個體需要從其與環境的交互中發現一個好的策略，同時又不至於在試錯的過程中丟失太多的獎勵。

探索和利用是個體進行決策時需要平衡的兩個方面。一個形象的比方是，當你去一個餐館吃飯，「探索」意味著你對嘗試新餐廳感興趣，很可能會去一家以前沒有去過的新餐廳體驗，「利用」則意味著你就在以往吃過的餐廳中挑一家比較喜歡的，而不去嘗試以前沒去過的餐廳。這兩種做法通常是一對矛盾，但對解決強化學習問題又都非常重要。

不過從「強化學習」概念提出至今，也已經歷了約半個世紀的發展。但是業界始終沒有一本書，能夠真正系統地、剖析強化學習技術的落地實踐案例。

阿里巴巴一直秉承著技術共享觀念，為了與廣大機器學習愛好者分享，以及本著推進深度強化學習進一步發展的願望，阿里正式推出業界首本深入闡述強化學習落地實踐案例的書：《強化學習在阿里的技術演進與業務創新》，同時也開放免費下載。

冬日尚嚴寒，咱們就圍爐煮酒，共同翻開這本阿里技術團隊帶來的獨特「知識年貨」。

哪些人群比較適合閱讀呢？

人工智慧火起來之後，網上關於強化學習的資料很多，但是質量參差不齊。如何幫助技術人真正理解強化學習的本質，並且更好地掌握這項技術、用於實踐，這是本書的最重要目標。

無論你是演算法工程師、強化學習方向的研究人員，或者是希望轉型人工智慧領域的機器學習愛好者，都能從本書中汲取所需。

強！阿里演算法團隊開源AI核心技術，95%演算法工程師受用

書籍部分目錄

作為演算法工程師，你將了解強化學習在實際應用中的建模方法、在業務場景下的常見問題，以及對應的解決思路，提高建模和解決業務問題的能力；

作為強化學習方向的研究人員，你將了解到更多實際的強化學習問題，擴寬研究視野；

作為機器學習愛好者，你將了解到阿里巴巴的一線機器學習演算法工程師是如何發現問題、定義問題和解決問題的，將激發你的研究興趣以及提升專業素養，實現更好的轉型。

為何此書值得你投入時間學習？

本書首次在工業界系統地披露強化學習在實踐應用的技術細節，其中更包含了阿里演算法工程師對強化學習的深入理解、思考和創新。此書共有12個章節，作者團隊跨越了多個阿里核心演算法團隊，可謂是最強陣容打造的黃金進階書籍。

強！阿里演算法團隊開源AI核心技術，95%演算法工程師受用

到目前為止，阿里根據一些具體的業務場景，將強化學習這項技術進行了很好的實踐並得到大規模應用。無論是在搜索場景中的排序策略決策模型，還是推薦場景下提高用戶和商品的配對效率，亦或是在智能客服方面消費者與系統互動的系統決策，以及在廣告系統中依靠智能調價技術來實現更好的廣告價值與效果，都處處體現強化學習技術在一系列決策中的重要角色。

基於這些業務場景，阿里將理論與實踐結合，對強化學習進行了一次深度探索，並將心得和經驗分享給業界同仁。當然，強化學習在阿里巴巴內部的實踐遠不止此，鑒於篇幅限制，這本電子書只介紹了其中的一部分。未來深度強化學習的發展必定是理論探索和應用實踐的雙鏈路持續深入。希望這本電子書能拋磚引玉，給工業屆和學術界帶來一些輸入，共同推進深度強化學習的更大發展。

50萬工程師關注的阿里技術公眾號

本文由超級數學建模編輯整理

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 超級數學建模 的精彩文章:

※你還記得，當年跟你同桌的那個人嗎？
※開掛學神的別樣人生，90後女學者劉明偵的學霸之路

TAG:超級數學建模 |