這個用來玩兒遊戲的演算法,是谷歌收購DeepMind的最大原因
大數據文摘字幕組作品
大家好呀!YouTube網紅小哥Siraj又來啦!
這次他將為我們講解Deep Q Learning——谷歌為了這個演算法收購了DeepMind。
點擊觀看視頻
時長9分鐘
帶有中文字幕
這個演算法是幹什麼的呢?
答案就是:用來玩遊戲的!
2014年,谷歌花了5億多美元收購了位於倫敦的一家小公司:DeepMind。在此之前,DeepMind在2013年12月的NIPS大會上發表過一篇關於用深度強化學習來玩視頻遊戲的論文Playing Atari with Deep Reinforcement Learning,後續研究成果Human-level control through deep reinforcement learning在2015年2月上了《自然》的封面。再後來,深度學習+強化學習的玩法用在了圍棋上,於是我們有了阿法狗。
回頭看看讓DeepMind起家的Deep Q Learning,看上去只是一個非常簡單的軟體,一個專門為Atari視頻遊戲設計的自動程序。可是,它被視為「通用智能」的第一次嘗試——論文顯示,這種演算法可以應用至50種不同的Atari遊戲,而且表現均超過人類水平。這就是深度Q學習器。
用超級瑪麗來舉個例子。我們擁有遊戲的視頻片段作為數據輸入,用馬里奧移動的方向來標註數據。這些訓練數據是連續的,新的視頻幀持續不斷地在遊戲世界產生,而我們想知道如何在這個世界中行動。
看上去,最好的辦法是通過嘗試。不斷嘗試,不斷犯錯,這樣我們就會了解我們與遊戲世界的最佳互動形式。
強化學習就是用來解決這類問題的。每當馬里奧做了一些有助於贏得遊戲的動作,正標籤就會出現,只是它們的出現有延遲。相比起把它們叫做標籤,更確切的叫法是「獎勵Reward」。
我們將整個遊戲過程表示為一個由狀態(State)、動作(Action)和獎勵(Reward)構成的序列,每個狀態的概率僅僅取決於前一個狀態和執行的動作,這叫做「馬爾科夫特性」,以俄羅斯數學家馬爾科夫命名。這個決策過程稱之為馬爾科夫過程。
如果把某個點之後一系列的獎勵表示成一個函數,這個函數值就代表遊戲結束時,可能出現的最佳得分。當在給定的狀態下執行給定的動作之後,此函數用于衡量該狀態下某個動作的質量(Quality),這就是Q函數,也叫魁地奇函數,啊不,質量函數。
當馬里奧決定執行哪個可能的動作時,他將選擇那些Q值最高的動作,計算Q值的過程,就是學習的過程。
那麼如何超越超級瑪麗這一個遊戲,將演算法推廣到其他遊戲中呢?戳上文視頻了解更多吧!
原視頻地址:(大數據文摘經授權漢化)
https://www.youtube.com/watch?v=79pmNdyxEGo
本期工作人員
翻譯:周楊 IrisW 高樹
校對:曉莉
時間軸+後期:龍牧雪
監製:龍牧雪
優質課程推薦|《機器學習工程師》
往期學員評價(by小白菜)
實戰班的課程內容非常貼近實際工作,將完整的機器學習項目流程,包括數據清洗、數據採樣、特徵工程、模型選擇-調優-融合、模型評價,完整地學習和實戰了N遍。課程中的項目涉及數值預測、自然語言處理、金融風控、推薦系統等,並且配備了在線實驗平台,是一門可以提升機器學習項目實戰能力的課程。
志願者介紹
回復「志願者」加入我們


※我的研究對後人毫無用途:21%的學術論文自發布後從未被引用
※麥肯錫報告:到2030年,自動化和人工智慧的發展將對就業產生怎樣的影響?
※霍金學生、計算機視覺領域奠基人Alan Yuille:AI的進步需要基礎理論上有所發展
※實際場景太難找?我們簽保密協議拿到了一批高質量數據集+場景,約你來玩!
※經濟學人萬字總結17年AI領域併購趨勢:谷歌領跑,人才競爭白熱化
TAG:大數據文摘 |