一文了解強化學習的商業應用

知識 11-08

作者：Aishwarya Srinivasan

翻譯：Cream

校對：王雨桐

本文約4000字，建議閱讀10分鐘。

本文介紹了強化學習的應用場景、基本概念和數學模型。

DeepMind開發的AlphaGo（用於下圍棋的AI系統）的出現引起了強化學習的熱潮。從那之後，許多公司開始投入大量的時間、精力來研究強化學習。目前，強化學習是深度學習領域中的熱點問題之一。大多數企業都在努力尋找強化學習的應用實例或者將其應用在商業中的方法。目前來說，此類研究只在零風險、可觀測並且易模擬的領域展開。所以，類似金融業、健康行業、保險業、科技諮詢公司這樣的行業不願冒險去探索強化學習的應用。此外，強化學習中的「風險管理」部分給研究帶來了很大壓力。Coursera的創始人Andrew Ng曾表示：「強化學習在機器學習中，對數據的依賴遠超過有監督學習。我們很難獲得足夠多的數據來應用強化學習演算法。因此，將強化學習應用到商業實踐中仍有許多工作要完成。」

基於這樣有些悲觀的想法，本文的第1部分將從技術層面深入地探討強化學習。在第2部分，我們將介紹一些潛在的商業應用。基本上，強化學習是一種複雜的演算法，用於將觀察到的實際情況和度量（累計獎勵）映射到動作集合中，以實現短期或長期的獎勵最優化。強化學習的智能體（agent）通過和環境的互動不斷學習策略，策略一個動作（以獎勵為導向的）序列。事實上，強化學習關注的是即時獎勵和隨後步驟的獎勵（延遲的獎勵），因為獎勵值是決定智能體改變策略的主要依據。

強化學習的模型包含一個智能體（agent），該智能體在每個環境狀態下，通過執行一個動作，改變其狀態，這個動作產生的影響用獎勵函數來表示。該智能體的目標是要實現長期累計的獎勵最大化，在每一個動作執行後，將反饋傳遞給智能體，智能體可以評估在當前環境最優的下一個動作。通過歷史相似情況下的最佳行動，系統會從中學習經驗。

圖 1 強化學習模型

從數學的角度，我們可以把強化學習看作一個狀態模型，特別是一個完全可觀測的馬爾可夫決策過程（MDP）。為了理解MDP背後的概率理論，我們首先要了解馬爾可夫的性質，如下：

「未來只依賴於當前，與過去無關。」

此性質用於這樣的環境：不同行為產生的結果的概率與歷史狀態無關，只依賴於當前狀態。有人用「無記憶性」來描述這個性質。在需要用過去狀態來推測未來結果的情形下，馬爾可夫性質不適用。

這個模型的環境是有限的隨機過程，輸入智能體的動作，以產生的獎勵為輸出。總獎勵函數（長期累積獎勵函數）包含即時獎勵和長期折扣的獎勵兩部分。即時獎勵是在智能體執行了一個動作到達某種狀態所得到的量化的獎勵。長期折扣獎勵表示的是這個動作對未來狀態的影響。

長期折扣獎勵採用折扣因子γ，0

狀態轉移概率函數：智能體在當前狀態Χt-1，執行動作A，產生的狀態之間的轉移概率：

智能體是模擬為一個隨機過程的有限狀態的機器，輸入當前狀態，輸出下一步執行的動作。St是t時刻的狀態，是t-1時刻執行了At動作後達到的狀態。At是在長期累計獎勵最大化的策略模型下t時刻的策略。

狀態轉換函數：智能體向一個狀態的轉變是與環境互動的結果。也就是說智能體某一時刻的狀態是關於上一時刻狀態、獎勵、動作的函數。

策略函數：策略是在狀態St下，以獎勵最優化為目標，要執行的動作。

智能體的目標是找到滿足長期累計折扣獎勵最大化的策略Ppi

智能體在馬爾可夫決策過程中試圖從當前狀態出發，獲得最大的總獎勵期望。因此，需要得到最優值函數。Bellman方程用於值函數，分解為當前獎勵和下一個狀態值的貼現值。

希望你們能夠從本文中獲得關於強化學習的技術知識！！

原文標題：

Reinforcement Learning: The Business Use Case, Part 1

https://www.kdnuggets.com/2018/08/reinforcement-learning-business-use-case-part-1.html

譯者簡介

王power，求職狗，在香港科技大學學習大數據科技。感覺數據科學很有難度，也很有意思，還在學（tu）習（tou）中。一個人肝不動的文獻，來數據派follow大佬一起肝。

翻譯組招募信息

工作內容：需要一顆細緻的心，將選取好的外文文章翻譯成流暢的中文。如果你是數據科學/統計學/計算機類的留學生，或在海外從事相關工作，或對自己外語水平有信心的朋友歡迎加入翻譯小組。

你能得到：定期的翻譯培訓提高志願者的翻譯水平，提高對於數據科學前沿的認知，海外的朋友可以和國內技術應用發展保持聯繫，THU數據派產學研的背景為志願者帶來好的發展機遇。

其他福利：來自於名企的數據科學工作者，北大清華以及海外等名校學生他們都將成為你在翻譯小組的夥伴。

點擊文末「閱讀原文」加入數據派團隊~

轉載須知

如需轉載，請在開篇顯著位置註明作者和出處（轉自：數據派ID：datapi），並在文章結尾放置數據派醒目二維碼。有原創標識文章，請發送【文章名稱-待授權公眾號名稱及ID】至聯繫郵箱，申請白名單授權並按要求編輯。

發布後請將鏈接反饋至聯繫郵箱（見下方）。未經許可的轉載以及改編者，我們將依法追究其法律責任。

點擊「閱讀原文」擁抱組織

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 數據派THU 的精彩文章:

※近期活動盤點：2018數據與媒介發展論壇、大數據應用中日交流論壇
※用Python Featuretools庫實現自動化特徵工程

TAG:數據派THU |