李飛飛高徒范麟熙解析強化學習在遊戲和現實中的應用

新聞 01-22

【新智元導讀】斯坦福大學博士生、師從李飛飛教授的Jim Fan（范麟熙）以輕鬆有趣的方式介紹了強化學習和遊戲淵源以及強化學習在現實生活中的應用：機器人、World of Bits、金融、廣告業、環境和能源等等。

李飛飛高徒范麟熙解析強化學習在遊戲和現實中的應用

在新智元上一篇文章中，Jim Fan（范麟熙）介紹了強化學習的概念和目的。今天是《強化學習鍊金術》Introduction第三講。

在這一課里，Jim Fan會跟各位鍊金術師們聊一聊遊戲中的強化學習以及強化學習在現實生活中的應用。

一、遊戲與強化學習的淵源

遊戲是大家都喜歡的東西，而有一個群體尤甚：他們叫【程序員】

李飛飛高徒范麟熙解析強化學習在遊戲和現實中的應用

。所以在人工智慧的發展歷史中，遊戲扮演著不可或缺的角色。

不方便看視頻的朋友們，請下拉閱讀圖文。

李飛飛高徒范麟熙解析強化學習在遊戲和現實中的應用

IBM研究員Arthur Samuel，是世界上第一個把強化學習應用在一個主流的棋盤遊戲上的人。他當時寫了一個跳棋的引擎，但其實他的引擎並不是世界上最強的。在1989年到2007年之間，加拿大阿爾伯坦大學的團隊，做了一個跳棋的人工智慧 —— Chinook。把Chinook喻為跳棋之神毫不為過，因為它在真正意義上破解了跳棋。換言之，就是不論你用什麼策略，Chinook永遠不會輸。這是可以在數學上被驗證的。

根據Chinook的分析，在跳棋中不論你是先手或是後手，只要有一個完美的策略，永遠雙方都會打成平手。也就是說，跳棋被證明是一個真正意義上的零和博弈。

李飛飛高徒范麟熙解析強化學習在遊戲和現實中的應用

下一位出場的，也是IBM的研究員 Gerald Tesauro。他最著名的成就，就是寫了一個能夠超越人類Backgammon世界冠軍的人工智慧。Backgammon是一個有一定隨機性的擲骰子的概率遊戲。Tesauro的引擎叫做TD-Gammon，TD就是剛才說到的時間差學習。

在這邊要聲明一下，為什麼我們不提IBM的Deep Blue，即當年擊敗國際象棋世界冠軍卡斯帕羅夫的深藍國際象棋引擎。其實Deep Blue幾乎沒有用到任何機器學習，更別提強化學習。Deep Blue是一個規則系統，它的團隊當時請了很多國際象棋大師過來幫他們手寫那些象棋的規則或者策略，所以它並不是一個學習系統。

李飛飛高徒范麟熙解析強化學習在遊戲和現實中的應用

我們把時間軸推向2013年，其實強化學習是一個很古老的領域，但是大家最近才剛開始對它有非常密集的關注，這個契機就是Atari 2600系列的遊戲。

Atari公司在1977年發行了一系列著名遊戲，其中包括日本人設計的Pacman 吃豆人（上圖中間）。你操控一個Pacman，不斷地在路上把所有豆子給吃掉，但同時要避免被小怪攻擊。上圖左是Atari的遊戲手柄。還有另外一款經典遊戲Space Invader 太空入侵者（上圖右），要求你操控宇宙飛船進行射擊。

Atari雖然是在一個很小的屏幕上玩的遊戲，但其信息量非常大。比如說，提供一幅遊戲截屏的圖片，你要學會理解如何操控Pacman，什麼是豆子，以及怪物的行走軌跡，你要有一個對應的策略來避開怪物。所以Atari牽涉到計算機視覺，它不是一個簡單的用幾條規則就能夠確定的遊戲。在這個意義上，Atari比跳棋之類的遊戲都複雜很多。2013年前，如果說要用同一個智能體來玩所有Atari遊戲，那簡直是天方夜譚。

李飛飛高徒范麟熙解析強化學習在遊戲和現實中的應用

2013年，一家名不見經傳的小公司Deepmind發表了一篇論文

Human-level control through deep reinforcement learning

在這篇論文里，他們提出了一個新的概念，結合了現在的深度學習革命和古老的強化學習，變成了深度強化學習。論文中，他們發明了一個新的演算法 —— Deep Q-Network，簡稱DQN。

Deepmind用同一個演算法，代碼一行不改，就能夠玩遍所有Atari Game。也就是說，在每一個遊戲里，讓這個演算法自主學習，其中沒有任何人為干預，沒有人告訴它遊戲的規則，完全靠演算法自行探索。訓練完之後，大家發現演算法學會的策略比某些最好的人類玩家還要強大。

可以說DQN是一個現代強化學習的分水嶺，因為在此之前，強化學習都只能做一些低維度的環境，對於圖片這種高維度的信息，之前的演算法都無法處理（比如一張遊戲截圖中可能包含幾十萬像素）。所以DQN的過人之處，就在於把深度學習、卷積神經網路等計算機視覺的一些突破應用在強化學習上，讓強化學習演算法也能夠處理高維度的信息。

如果說DQN是強化學習「文藝復興之路」的開端，那麼之後的AlphaGo就是深度強化學習集大成之作。Deepmind在2014年被谷歌公司以四億美金的高價收購，現在是谷歌在倫敦的一個研究所。

李飛飛高徒范麟熙解析強化學習在遊戲和現實中的應用

我們來看一下DQN演算法學會的策略。上圖左是經典的Breakout小遊戲。你的任務是操控下方面板，左右移動，讓小球把上面所有磚塊敲掉。當小球掉下來時，你要保證接住它，否則就會失去一條命。DQN在這個遊戲中學會了一個很聰明的方法，就是先用小球把左右兩側磚塊打通，之後就讓小球自行在上排磚塊中來回蹦跳，避免了智能體在下方頻繁操作。這是很多人類玩家都沒有意識到的一個絕佳策略。

上圖右是Space Invader遊戲。DQN控制的是飛船，需要避開所有外星人子彈。而這次，它學會了躲在障礙物後面，在不被外星人攻擊到的前提下進行射擊。

李飛飛高徒范麟熙解析強化學習在遊戲和現實中的應用

在DQN之後，大家都開始試圖用深度強化學習的演算法來玩遊戲，比如說上圖中的毀滅騎士 Doom，它是一款早期的第一人稱三維射擊遊戲。從2016年開始每年都會舉辦一個叫VizDoom的比賽，很多公司和大學都派了團隊去參加。去年獲勝的是Intel和Facebook的研發團隊。

李飛飛高徒范麟熙解析強化學習在遊戲和現實中的應用

如上圖所示，這是一些Doom的訓練環境，比如有射擊、避免敵方炮轟、走迷宮、收集所有血包等環節。

李飛飛高徒范麟熙解析強化學習在遊戲和現實中的應用

2016年3月9日至3月15日間，我們共同見證了歷史。在AlphaGo之前，沒有一個圍棋引擎能夠跟低段位的職業選手媲美，更別提挑戰世界冠軍了。AlphaGo來到韓國正式向李世乭提出了挑戰，賽制是五局三勝。

最後結果出乎所有人意料：四比一，AlphaGo獲勝。

自從李世乭挑戰賽之後，大家都覺得「人工智慧要征服人類了！」

但是不要慌，即使AlphaGo能在大腦上贏得了圍棋，但真正幫它下棋的還是人類。

李飛飛高徒范麟熙解析強化學習在遊戲和現實中的應用

上圖左一是Deepmind的黃士傑博士，如果沒有黃博士的「人肉臂」，AlphaGo就連棋都下不了

李飛飛高徒范麟熙解析強化學習在遊戲和現實中的應用

。

李飛飛高徒范麟熙解析強化學習在遊戲和現實中的應用

這是第一天比賽時的直播截圖，我們能看到李世乭幾乎在崩潰的邊緣，自己的失敗已成定局。我記得那天晚上由於時差原因，紐約是凌晨才開始的直播，我不惜通宵看了第一場比賽。我自己完全不會下圍棋，所以全程處於「不明覺厲」的狀態，只能聽解說員分析比賽的精彩。

李飛飛高徒范麟熙解析強化學習在遊戲和現實中的應用

AlphaGo這場比賽的曝光度如此高，以至於在韓國的大街小巷，許多廣告牌上都在放比賽的直播。李開復老師曾調侃道：「李世乭是谷歌的最新一任高級軟體測試工程師。」

李飛飛高徒范麟熙解析強化學習在遊戲和現實中的應用

這篇是Deepmind團隊刊登在《自然》雜誌封面上的論文

Mastering the Game of Go with Deep Neural Networks and Tree Search

這篇論文詳細介紹了如何用深度學習和蒙特卡洛樹搜索的方法來學習下圍棋。聽完了【心有麟熙】強化學習系列課程之後，你就會知道這些詞分別都是什麼意思了。

李飛飛高徒范麟熙解析強化學習在遊戲和現實中的應用

Deepmind打敗了李世乭之後還是覺得不過癮

李飛飛高徒范麟熙解析強化學習在遊戲和現實中的應用

。2017年，他們又在《自然》雜誌上刊登了一篇新的論文

Mastering the Game of Go without Human Knowledge

AlphaGo Zero，有中文翻譯寫作【阿法元】。之前AlphaGo是通過大量學習人類棋譜，再用強化學習進行微調。而阿法元則完全拋棄了人類的知識，從絕對零度開始，通過自己和自己不斷地對弈，用純粹的強化學習的方法來學圍棋的策略。

令人驚訝的是，阿法元雖然沒有任何人類的輔助，但它最後達到的棋力遠超過它的前輩AlphaGo。

李飛飛高徒范麟熙解析強化學習在遊戲和現實中的應用

俗話說，知足者常樂，但是Deepmind還是不知足

李飛飛高徒范麟熙解析強化學習在遊戲和現實中的應用

。他們後來又發了一篇重磅論文

Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm

論文里提出的架構【AlphaZero】，索性把"Go"（圍棋）這部分也去掉了。AlphaZero基本用的是AlphaGo Zero的演算法：自我對弈、蒙特卡洛樹搜索、純粹的強化學習。

它用同一套演算法原封不動地學習了chess（國際象棋）和shogi（日本將棋），並分別在這兩個領域中遠遠超過之前世界上最強的人工智慧：【鱈魚】國際象棋引擎和【Elmo】將棋引擎。至此，Deepmind終於罷休了

李飛飛高徒范麟熙解析強化學習在遊戲和現實中的應用

，他們宣布AlphaGo研究系列正式畫上了圓滿的句號。

但我認為，AlphaZero只是下一個篇章的開始。因為生活中的太多問題，遠遠比象棋、將棋和圍棋複雜得多，所以強化學習之舟才剛剛啟航。

李飛飛高徒范麟熙解析強化學習在遊戲和現實中的應用

我這次去洛杉磯的Long Island（長島）參加了NIPS學術會議。NIPS（Neural Information Processing System）是世界人工智慧頂級峰會。這次我也很榮幸地在Deepmind的party上見到了AlphaGo的創始人David Silver，上圖是我和他的合影。我們聊了些關於AlphaZero下象棋的事情，在之後的推送中會給大家詳細分解。

我的NIPS會議感想筆記刊登在《新智元》公眾平台上，感興趣的朋友們請點這裡。

李飛飛高徒范麟熙解析強化學習在遊戲和現實中的應用

既然強化學習能夠下各種棋類遊戲，也能夠玩一些古老的電子遊戲，比如Atari、超級馬里奧等，那我們為何不能用它來玩更複雜的遊戲呢？下一波遊戲研究的樂趣將會是魔獸爭霸、英雄聯盟、王者榮耀、GTA V高模擬賽車遊戲等等。這些遊戲中的畫面清晰度要高很多，也就意味著輸入智能體的信息量會大很多。目前還未有任何演算法能夠在這些遊戲上與人類玩家媲美。

下次當你在實驗室或辦公室里打遊戲被老闆責罵時，你就可以告訴他，你現在在抓緊每一分鐘為強化學習的科學事業做出自己的貢獻

李飛飛高徒范麟熙解析強化學習在遊戲和現實中的應用

。

然而，遊戲終究是遊戲。它是在一個虛擬環境下跑的程序，並不會對真實世界造成任何影響。

所以在下一講中，我會跟大家聊聊強化學習在真實生活中的應用。

二、強化學習在現實中的應用

李飛飛高徒范麟熙解析強化學習在遊戲和現實中的應用

第一個重要的應用是機器人（Robotics）。

在《背景介紹》中，我們曾提到過，人在學習騎自行車時，其實大腦每一毫秒都在做決定。比如，腿要用多少力，車把要轉多少度等等。大腦做這些決策的時候並沒有複雜的思考，完全是下意識的。如果要設計一個機器人來重現這個過程，那麼它的代碼就必須在每一毫秒都輸出力度、角度、重心偏移等數值。

一個方法是搭建物理模型，精確描述騎自行車的機理，然後求解複雜的微分方程組

李飛飛高徒范麟熙解析強化學習在遊戲和現實中的應用

。另一個簡單很多的方法就是用強化學習讓機器人通過不斷試錯，自己找到最佳決策方案。

以下幾個常用的機器人訓練環境是基於「Mujoco」模擬器的。這些任務相比騎自行車要簡單很多，所以可以用來做演算法測試。

李飛飛高徒范麟熙解析強化學習在遊戲和現實中的應用

【Reacher】任務：控制有兩個關節的機械臂，目標是把機械臂伸向紅色小點。

李飛飛高徒范麟熙解析強化學習在遊戲和現實中的應用

【Humanoid】任務：機器人學習如何走路，目標是向前走得越快越好。Humanoid有約27個關節，換言之，就是每一毫秒都要輸出27個數值來控制它的運動。

李飛飛高徒范麟熙解析強化學習在遊戲和現實中的應用

【Half Cheetah】任務：被切成一半的獵豹學習如何控制兩條腿跑步，目標是向前跑得越快越好。如果兩條腿協調不周，就可能會前空翻。（這種嚇人的模型我們已經司空見慣了。。

李飛飛高徒范麟熙解析強化學習在遊戲和現實中的應用

）

剛才提到的在模擬器里的機器人都比較簡單。我們再來看一個強化學習演算法在現實中的機器人上應用的例子。上述視頻是訓練了兩個半小時後，機器人學會了開門的動作。視頻來自【谷歌大腦】研究院。

李飛飛高徒范麟熙解析強化學習在遊戲和現實中的應用

訓練完後，如果中途對機器人進行一些干擾，比如推機械臂，它仍然會回到正確位置。

李飛飛高徒范麟熙解析強化學習在遊戲和現實中的應用

因為用一個機械臂進行學習效率低下，所以谷歌和伯克利研究員採用了Robotic Farm的概念：使用「一農場的機器人」同時進行學習，以此加速訓練過程。一個機械臂的價格至少在十萬美金數量級。歡迎來到有錢任性的谷歌研究院

李飛飛高徒范麟熙解析強化學習在遊戲和現實中的應用

！

李飛飛高徒范麟熙解析強化學習在遊戲和現實中的應用

接下來這個實際應用的例子是World of Bits。這是我本人參與的一篇論文，也是OpenAI和斯坦福共同合作的研究項目。

我的共同作者有清華畢業的斯坦福學長施天麟大神

李飛飛高徒范麟熙解析強化學習在遊戲和現實中的應用

、李飛飛教授的得意門生Andrej Karpathy大神

李飛飛高徒范麟熙解析強化學習在遊戲和現實中的應用

，以及斯坦福的Percy Liang教授

李飛飛高徒范麟熙解析強化學習在遊戲和現實中的應用

等。這篇論文發表在2016年的ICML（International Conference for Machine Learning）大會上。

李飛飛高徒范麟熙解析強化學習在遊戲和現實中的應用

這裡我大概介紹一下World of Bits，以後會有一篇專門的推文詳細解說。

World of Bits是一個非常雄心壯志的項目，因為它的終極目標是讓人工智慧學會如何上網。如上圖所示，右邊是強化學習智能體；左邊是大家都很熟悉的網際網路。人工智慧可以通過控制滑鼠和鍵盤，像人類一樣，在網站上進行各種操作。

李飛飛高徒范麟熙解析強化學習在遊戲和現實中的應用

智能體的主要輸入信息是一張圖片，比如美聯航（United Airlines）的網站截圖（上圖左）。我們還提供一個輔助輸入信息，就是圖片中的文字（上圖中），這樣減輕了智能體需要另外學習OCR（文字識別）的負擔。

智能體根據這些輸入，決定如何控制滑鼠和鍵盤（上圖右）。這裡我們的任務是讓智能體幫忙訂機票。它需要先學會理解網站的圖形界面和文字含義，然後根據這些指示，通過一系列滑鼠和鍵盤的操作輸入出發地、到達地、旅行時間、旅客數量等等信息。

在學習如何訂機票前，我們先訓練智能體做一些簡單的滑鼠和鍵盤操作，也算是一種熱身運動。上面的視頻所展示的，就是為此而生的Mini World of Bits。這是一組「迷你練習」，其中包括以下圖形界面任務（總共有80種）：

用滑鼠點擊指定的按鈕
用鍵盤按照指示在對話框里輸入文字
拖拽選取正確的顏色和形狀
點擊選擇正確的下拉菜單項
展開一個文件夾目錄
學習使用日曆插件，選擇指定日期
玩井字棋
拖拽三維骰子到指定位置
輸入用戶名密碼，並點擊「提交」

李飛飛高徒范麟熙解析強化學習在遊戲和現實中的應用

上圖中是已經訓練完後的強化學習智能體。它可以在美聯航、Delta航空、阿拉斯加航空等網站上，選擇指定出發日期，並輸入你的個人信息來預訂機票。

World of Bits還能完成很多別的任務，比如在Yelp上搜索符合要求的餐廳、使用換算匯率的網站、訂Airbnb和賓館等。

李飛飛高徒范麟熙解析強化學習在遊戲和現實中的應用

介紹完World of Bits之後，接下來一個應用是在金融領域。我們可以認為股票市場交易就是一個遊戲，所獲得的獎勵就是最後的利潤。我們的目標是把利潤最大化，但是這牽涉到一個複雜的決策過程：何時買？何時賣？何時轉移投資方向？等等。所以，強化學習在金融界也佔有一席之地。

李飛飛高徒范麟熙解析強化學習在遊戲和現實中的應用

其實強化學習最早的商業化應用之一是投放廣告。舉個例子，你錢包里只有100元。每天投放一次廣告，就要付給谷歌公司10元，所以你只能投放十天廣告。你的目標是要把廣告點擊量最大化。

假設你第一天設計的廣告背景是綠色的，第二天則使用了紅色背景，第三天又回到綠色。相應的，你第一天獲得8萬點擊量，第二天獲8.5萬，第三天則有9萬點擊量。現在你只剩最後7天投放廣告的機會。為了把點擊量總和最大化，你之後的7天是選擇綠色背景還是紅色背景？這就是所謂Multi-arm Bandit的問題。

Multi-arm Bandit比起上一講中提到的DQN玩電子遊戲或AlphaGo下圍棋，在概念上要簡單很多。但它的實際應用卻非常廣泛。Multi-arm Bandit將是我們之後幾節課的主角。

李飛飛高徒范麟熙解析強化學習在遊戲和現實中的應用

最後一個應用是能源控制。上圖是谷歌的數據中心，其中每一台伺服器在運行時都會散發大量熱量。如果沒有很高效的製冷系統，那這個數據中心很可能在幾小時內就報廢了。

最簡單的方法是在所有區域均勻製冷。然而並非每個伺服器都散發同樣熱量，如果不分青紅皂白地製冷將會造成大量能源浪費。

強化學習控制器的神通之處，就在於能夠對症下藥：對於不同的負載情況、不同時間點、不同天氣、都能合理分配最佳的製冷能源額度。

這樣一個智能體既能幫助公司節約下大量能源成本，也能為緩解全球變暖等環境問題做出貢獻。

加入社群

新智元AI技術+產業社群招募中，歡迎對AI技術+產業落地感興趣的同學，加小助手微信號: aiera2015_1入群；通過審核後我們將邀請進群，加入社群後務必修改群備註（姓名-公司-職位；專業群審核較嚴，敬請諒解）。

此外，新智元AI技術+產業領域社群(智能汽車、機器學習、深度學習、神經網路等)正在面向正在從事相關領域的工程師及研究人員進行招募。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 新智元 的精彩文章:

※過年別再逼婚了，《黑鏡》里的AI相親系統是對愛情最好的匹配

TAG:新智元 |