當前位置:
首頁 > 新聞 > 「田淵棟報告」遊戲中的人工智慧:成就與挑戰|ICML WorkShop(46PPT)

「田淵棟報告」遊戲中的人工智慧:成就與挑戰|ICML WorkShop(46PPT)

「田淵棟報告」遊戲中的人工智慧:成就與挑戰|ICML WorkShop(46PPT)

1 新智元推薦

作者:田淵棟

【新智元導讀】作為ICML首屆VGML(Video Games and Machine Learning)workshop 的受邀演講嘉賓,田淵棟分享了他的「流水賬」,以及會議上大家討論四個問題:1. 什麼是強化學習將來重要的方向;2. 如何使得AI可被解釋;3. 大家對內在驅動力(Intrinsic reward)的看法如何;4. 計算資源重要還是新演算法重要。後附田老師演講的部分 PPT,討論遊戲 AI 的發展和挑戰,相信能給大家帶來啟發。

「田淵棟報告」遊戲中的人工智慧:成就與挑戰|ICML WorkShop(46PPT)

【田淵棟】這次有幸成為了首屆VGML(Video Games and Machine Learning)的workshop的受邀演講嘉賓。以下是流水帳。

我第一個演講,因為Gabriel的開場白只花了十分鐘,所以我有五十分鐘,佔了點小小的便宜。主要講了DarkForest,Doom還有最近的ELF的框架。ELF是一個遊戲之上的框架,任何遊戲或者虛擬環境,只要帶有C++介面都可以往裡裝(現在有Python介面也可以了),而ELF會自動處理並行的問題。ELF收集完了一個batch的遊戲數據,就可以交給Python端的強化學習演算法進行訓練。這樣的框架很靈活,不管是Self-Play還是Multi-Agent或者是MCTS,不管是簡單的A3C或者是帶規劃(planning)的複雜強化學習演算法,都可以統一在一起。另外我們還在ELF裡面寫了個微縮版的即時戰略遊戲MiniRTS,幀率在筆記本電腦上達到了單核4萬幀每秒,對訓練頗有幫助,訓練一個包含採礦造兵防守進攻的能玩完整遊戲的AI只需要單GPU幾個CPU半天時間。

大家對ELF還有挺多興趣的,問了好幾個問題。DeepMind那邊Oriol一副挺當回事的表情,並反覆表示他們的文章里引了我們這篇。後來我一查居然同一篇文章引了兩次,回想起Oriol說自己困得不行,得要回去睡覺,看來這文章還真是趕出來的。

然後是兩個Spotlight。說實在這一次的workshop的文章質量很高,一篇是用多智能體的模型玩星際局部戰鬥,借用了博弈論裡面counterfactual的思路去定義每個智能體的優勢函數(advantage function),效果居然和把所有兵當成一個智能體的性能差不多,挺令人吃驚的。另一篇則回顧了俄羅斯方塊的演算法。

接下來是Marc,他之前在DeepMind後來去了新開的蒙特利爾Google Brain。他介紹了一下Atari Game的歷史,把Atari遊戲歸為三類,一類是已經解決的,一類是還未解決的,另一類是被AI找到漏洞刷分的。有趣的是,大部分還未解決的遊戲集中於Atari遊戲發布後期,證明我們AI的水平目前還局限於此,未來還有很長的路要走。對於「遊戲研究有何意義」的質問,他引用了強化學習老前輩Richard Sutton的觀點,認為認為「遊戲會比真實世界更真實」(原話是「遊戲會比任何我們製造出來的東西更真實」, In Practice ... Games end up being more real than anything we make up")。

「田淵棟報告」遊戲中的人工智慧:成就與挑戰|ICML WorkShop(46PPT)

接下來是EA的Magnus Nordin,SEED組的老大(注意不是高達那個SEED)。來自遊戲公司的講義,其質量只能以驚艷來形容。他一開始介紹了目前運用深度學習在圖形學和物理引擎上面的進展。其中通過像素點採樣來進行光線跟蹤,然後用神經網路插值這個效果實在太漂亮,眼看著圖形學界折騰了十數年的實時光線跟蹤就要被深度學習兩三下做成了。之後他介紹了EA在AI上的進展,他們用online+offline A3C對一個3D射擊遊戲(可能是戰地1942?)訓練了一個相當複雜的網路,取得了不錯的效果。

接下來是另兩篇Spotlight。一篇做吃豆人(Pacman)遊戲,用獎勵分解(reward decomposition)的技術做到超人類的性能,在這個遊戲上遠遠甩開了之前所有的演算法。另一篇是基於兩階段GAN的地形生成演算法,生成的地形相當自然漂亮。

下午做Minecraft上的平台Malmo的Katja過來做演講。她對合作式AI有相當的興趣。接下來就是大家非常關注的暴雪和DeepMind合作的星際2的API,由來自暴雪的主任工程師Jacob來講。Jacob一身肌肉,頗有當電影明星的潛質。他一開始就聲明要錄音,說這是給他媽媽的禮物,讓大家一起喊hi Mom。不得不說好溫馨啊。他講了很多乾貨,配上DeepMind之前發布的文章一起看效果更佳。我相信大家對此都很有興趣,所以我會再開一篇博客專門講。

說句題外話,晚上我們一起吃飯的時候,Jacob同學透露出他是坐經濟艙十幾個小時飛過來的,剛下飛機就過來做演講,為的是給組裡人省經費;收了賬單還要仔細看裡面有沒有列著酒,因為酒不讓報銷……真是不容易。

接下來由來自DeepMind的Max講幾個和三維場景有關的工作。有些部分像UNREAL,從去年的NIPS Workshop開始大家都聽過很多次了,還有一些是最近的工作,如用autoencoder來訓練可遷移特徵的DARLA,還有讓Agent聽從自然語言指令(instruction following)的工作。

最後是由來自密歇根大學的教授Honglak Lee的演講收尾。主要講了他們ICLR16和ICML17的兩個工作。他們使用Minecraft這個平台,搭建二維迷宮,用Hierarchical RL讓智能體在迷宮中順序執行多個指令,並能執行以前沒有見過(但每部分都見過)的指令。

Workshop的最後部分是讓所有的演講者坐在一起回答觀眾們的問題。總的來說氣氛比較歡樂。以下是一些我還記得起來的問題及回答:

1. 什麼是強化學習將來重要的方向?

大家各種討論,主要提的方向是Model-based RL還有hierarchical RL。當然這些都說說而已嘛,不要當真。不過蒙對了也說不定。

2. 如何使得AI可被解釋。

我的觀點是現在主要是數據太多,依賴關係太複雜所以人看不過來。像AlphaGo,首先你不知道DCNN是怎麼得到下一步的走法的,其次面對一株龐大無比的MCTS搜索樹,人根本看不過來。所以說要達成可解釋性,要不就讓神經網路自己總結,然後反饋給人。你說我們憑什麼在看不到對方心跳呼吸還有神經元傳導細節的條件下去相信一個人,還不是因為相信他的話嘛。

3. 大家對內在驅動力(Intrinsic reward)的看法如何。

我覺得這個是非常重要的,以前是Feature engineering,現在變成了reward engineering。以後環境越來越多,人類肯定沒有精力去設計所有的reward。這樣的話讓agent自己找到目標非常重要。其它人也紛紛覺得這是個很有意思的方向。

4. 計算資源重要還是新演算法重要。

我覺得兩者都重要,是不相關的兩個因素。計算資源誰不喜歡,大家都想要GPU越多越好,本來跑兩天的演算法,兩小時就可以跑出來,那太好了。但是我仍然認為新演算法是推動領域發展的根本因素,不然大家都回家睡覺,等著機器傳來奇蹟吧。我們跑到悉尼來開這個會的初衷,不就是要來看不同的想法不同的思路的嘛,大家都依賴機器,那這個會就不用開了。

來源:知乎,https://zhuanlan.zhihu.com/p/28470717

演講:遊戲 AI 的成就和挑戰

「田淵棟報告」遊戲中的人工智慧:成就與挑戰|ICML WorkShop(46PPT)

下面是新智元編輯根據田淵棟老師的演講 PPT 整理的內容。

演講《AI in Games:Achievements and Challenges》探討了遊戲 AI 的技術挑戰和發展前景。就在上周末,OpenAI 開發的 DOTA2 遊戲 AI 掀起了不小的轟動,更早些時間,DeepMind 宣布正式進軍星際爭霸II。這些無不表明電子遊戲在開發和測試 AI 時的重要性。

遊戲作為開發和測試 AI 的一種手段,擁有以下幾大優點:

  • 擁有取之不盡用之不竭的完整標記數據

  • 環境受控且可靠

  • 每個樣本的成本低

  • 比在現實中開發速度快

  • 沒有那麼多倫理和安全上的擔心

  • 用簡單的規則能夠實現複雜的動態

不過,用遊戲來開發和測試 AI 也有缺點,包括:

  • 演算法運行速度慢,數據不夠有效(data-inefficient)

  • 整體成本較高

  • 如何將遊戲抽象為真實世界,還存在一定的問題

  • 很難基準衡量進步

尤其是第 3 點,如果最終不能擴展到現實世界,那麼使用遊戲這種虛擬環境優點再多也無濟於事。

「田淵棟報告」遊戲中的人工智慧:成就與挑戰|ICML WorkShop(46PPT)

遊戲 AI 有很長的歷史,從早期的撲克牌、簡單的國際象棋,到上世紀 70 年代的 Atari 遊戲(比如 Pong、Breakout),再到 80 年代的超級馬里奧。從上世紀 90 年代開始,遊戲 AI 開始玩大規模在線遊戲,比如星際爭霸(1998 年)、模擬人生,到現在的星際爭霸 II、GTA V,最終幻想系列。

遊戲 AI 的研究人員也致力於從兩方面改善遊戲 AI 的不足,一是開發更好的演算法和系統解決運行速度慢、現實抽象難的問題,一是完善開發環境,解決研發成本高和設定基準的問題。

以田淵棟和他的同事在 Facebook 的工作為例。圍棋引擎 DarkForest Go Engine(Yuandong Tian, Yan Zhu, ICLR16)和 Doom AI(Yuxin Wu, Yuandong Tian, ICLR17)就是從演算法/系統的角度入手,而 ELF 框架(Extensive Lightweight and Flexible Framework, Yuandong Tian et al, ArXiv)就是從開發環境入手。

「田淵棟報告」遊戲中的人工智慧:成就與挑戰|ICML WorkShop(46PPT)

接下來,演講介紹了遊戲 AI 的工作原理。一般來說,主要考慮這樣幾點:智能體每走一步需要操作多少次?遊戲情景有多複雜?遊戲搜索的深度是多少?

「田淵棟報告」遊戲中的人工智慧:成就與挑戰|ICML WorkShop(46PPT)

有些遊戲,即使用超級計算機,也不可能搜索完全部的空間。

根據遊戲規則的不同,每一步要執行動作的多少也不同,撲克只需要幾步,國際象棋也就 30 到 40 步,因此使用的方法也相對簡單,比如國際象棋使用 alpha-beta 剪枝結合迭代深化,即使是圍棋,也可以只考慮前 100 到 200 步,比如常用的蒙特卡洛樹搜索 + UCB 探索。

不夠,星際爭霸就很複雜了,每一步有 50 的 100 次方那麼多可能的選擇。

「田淵棟報告」遊戲中的人工智慧:成就與挑戰|ICML WorkShop(46PPT)

研究人員針對不同的遊戲提出了不同的應對方法,比如圍棋使用基於規則的方法再結合神經網路。

「田淵棟報告」遊戲中的人工智慧:成就與挑戰|ICML WorkShop(46PPT)

在遊戲中應該如何為策略/價值函數建模?

「田淵棟報告」遊戲中的人工智慧:成就與挑戰|ICML WorkShop(46PPT)

遊戲的環境是高維且非平滑的,而且與具體情境關係很大,在圍棋里,一子落點不同就會得出完全不同的結果。使用傳統方法需要手動設置步驟,有時候參數會矛盾導致難以擴展,還需要很強的領域知識。如今使用深度學習,實現了端到端的訓練,數據變多了,調參變少了,沒有很強的領域知識也能操作,而且取得了很好的效果。

「田淵棟報告」遊戲中的人工智慧:成就與挑戰|ICML WorkShop(46PPT)

以 AlphaGo 為例,有 GPU 和 TPU 做硬體支撐,策略網路和價值網路相結合。其中,策略網路使用了人類監督學習和強化學習,價值網路使用機器自我對弈的數據,預測當前落子對終局的影響。Fast rollout,比 DCNN 預測快幾千倍,每一步只需 2 微秒,準確率大約 30%。

「田淵棟報告」遊戲中的人工智慧:成就與挑戰|ICML WorkShop(46PPT)

「田淵棟報告」遊戲中的人工智慧:成就與挑戰|ICML WorkShop(46PPT)

「田淵棟報告」遊戲中的人工智慧:成就與挑戰|ICML WorkShop(46PPT)

「田淵棟報告」遊戲中的人工智慧:成就與挑戰|ICML WorkShop(46PPT)

「田淵棟報告」遊戲中的人工智慧:成就與挑戰|ICML WorkShop(46PPT)

接下來,演講介紹了 Facebook 的圍棋 AI DarkForest。使用 DCNN 樹搜索策略,預測接下來 k 步,使用 KGS 數據集170k 數據和 GoGoD 數據集 80k 數據做訓練,準確率 57.1%。比 AlphaGo 早 3 個月發布,使用的 GPU 也不到 1%。

「田淵棟報告」遊戲中的人工智慧:成就與挑戰|ICML WorkShop(46PPT)

「田淵棟報告」遊戲中的人工智慧:成就與挑戰|ICML WorkShop(46PPT)

「田淵棟報告」遊戲中的人工智慧:成就與挑戰|ICML WorkShop(46PPT)

「田淵棟報告」遊戲中的人工智慧:成就與挑戰|ICML WorkShop(46PPT)

「田淵棟報告」遊戲中的人工智慧:成就與挑戰|ICML WorkShop(46PPT)

「田淵棟報告」遊戲中的人工智慧:成就與挑戰|ICML WorkShop(46PPT)

「田淵棟報告」遊戲中的人工智慧:成就與挑戰|ICML WorkShop(46PPT)

另外,還有第一人稱視角射擊遊戲(FPS),這是田淵棟和同事 Yuxin Wu 在 ICLR17 發表的工作。

「田淵棟報告」遊戲中的人工智慧:成就與挑戰|ICML WorkShop(46PPT)

網路結構如下,使用普通幀加帶了注意力的每一幀數據作為輸入狀態 S,研究人員發現將這些幀疊在一起比使用 LSTM 更加有效。

「田淵棟報告」遊戲中的人工智慧:成就與挑戰|ICML WorkShop(46PPT)

「田淵棟報告」遊戲中的人工智慧:成就與挑戰|ICML WorkShop(46PPT)

「田淵棟報告」遊戲中的人工智慧:成就與挑戰|ICML WorkShop(46PPT)

結果在 2016 年 VizDoom AI 競賽 Track 1 獲得了第一名。

「田淵棟報告」遊戲中的人工智慧:成就與挑戰|ICML WorkShop(46PPT)

還有為了更好的遊戲 AI 研究環境而提出的 ELF 框架,能夠整合任何有 C++ 介面的遊戲,輕量級,而且十分靈活。

現在已經開源,http://github.com/facebookresearch/ELF

「田淵棟報告」遊戲中的人工智慧:成就與挑戰|ICML WorkShop(46PPT)

ELF 不僅用於遊戲研究,還能開發和測試複雜強化學習演算法、機器人領域離散/連續控制,以及對話問答系統。

演講以未來的工作結尾,我們還需要更加豐富的遊戲場景,更加真實的行動空間,基於模型的強化學習,以及訓練 AI 對戰 AI。

「田淵棟報告」遊戲中的人工智慧:成就與挑戰|ICML WorkShop(46PPT)

完整的PPT 看這裡:http://www.yuandong-tian.com/icml17_workshop.pdf

(感謝田淵棟老師授權轉載並提供演講 PPT!)

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 新智元 的精彩文章:

AI大師模糊邏輯之父扎德逝世!比顏寧還開掛中國最年輕院士;如何讓 VC 相信你是「AI 專家」
一名在斯坦福教授TensorFlow教師的「懺悔」:我覺得自己像個騙子
「開源」谷歌發布deeplearn.js,瀏覽器端的強大機器學習庫
「中國戰隊包攬234卻無緣冠軍」OpenAI 的 Dota2 機器人強在哪?
Adobe首席科學家王珏加盟Face++,主管曠視美國研究院

TAG:新智元 |

您可能感興趣

WIN10和XBOX ONE遊戲《Sea of Theives》即《海盜之海》
最賺錢的PSVR遊戲《天際VR》4月3日將登陸Steam、支持Rift、Vive、WMR
最賺錢的PSVR遊戲《天際 VR》4月3日將登陸Steam、支持Rift、Vive、WMR
3.14 VR掃描:HTC Vive Pro新版Link Box曝光;索尼將於GDC 2018展示大量遊戲demo
美不勝收 水族館經營遊戲《ABYSSRIUM》Switch版
FIFA Online 4遊戲內容介紹:引擎特性(AI)
人中北斗SegaMarkIII小遊戲刷分技巧
FURIDASHI:Drift Cyber Sport:一款適合漂移愛好者的賽車遊戲
SKP MAGAZINE丨LINES LIPS AND COLOURS 唇眸色彩遊戲
1.30 VR掃描:Magic Leap One操作系統或名為「Lumin」;足部遊戲控制器3dRudder將支持PSVR
《Atoms》上線Steam 基於VR的MOBA類對抗遊戲
66RPG向左,RPGMaker向右:記憶中的業餘遊戲製作站
IBM與Unity攜手 利用Watson AI技術讓VR/AR遊戲更精彩
奇幻動作遊戲《前鋒邊緣(Strikers Edge)》PS4今日發售
CODEX威武 微軟Windows 10 UWP遊戲首次被攻陷
CLOVR打通PC、VR遊戲壁壘  WebXR API或是混合現實機遇
SONY 新一代主機 PlayStation 5 或「向下兼容」PS4 遊戲
《Deck Casters》,一款融合了爐石、星際、DOTA2的卡牌遊戲
Switch首發遊戲《超級炸彈人R》將登陸PS4與Xbox
前LOL與WOW團隊成員新作《撕裂(Rend)》 60人生存亂斗遊戲