DeepMind又搞AI遊戲!這次它要教人「打醉拳」
智東西(公眾號:zhidxcom)編 | 季瑜生
導語:昨日,DeepMind和全球規模最大的遊戲引擎之一Unity宣布合作,打造虛擬環境訓練遊戲AI。
智東西9月27日消息,繼AlphaGo在圍棋領域封神退隱,DeepMind在星際爭霸大殺四方後,DeepMind又一次在競技遊戲中搞出了大動作。這一次,它將目光瞄準了打造了紀念碑谷和Pokémon的遊戲引擎Unity。
不過這一次,DeepMind並沒有選擇宣戰,而是一改往常的行事風格搞起了合作。屆時DeepMind將利用Unity在虛擬空間打造的強大能力,來在模擬世界中進行大規模的機器學習與強化訓練,比如教小人兒「打醉拳」,讓小狗學會「叼棍子」。
一、遊戲與AI,到底如何牽手
遊戲牽手AI,就意味著大型AI演算法的訓練場地將搬到遊戲之中。
遊戲中,最開始創建的小人兒連怎麼移動都不知道,但是經過了一段時間的強化學習後他就學會了像打醉拳一樣的笨拙跑步,而且這一過程並不需要有人去教他要怎樣跑步,或者跑步的時候需要先邁哪只腳。
還有下面這張圖,在這個場景里,小狗如果叼到棍子就會獲得獎勵。
在最開始的時候,小狗同樣不知道該怎麼去動用它的四肢,先邁前腿還是後腿,是要前後運動還是像螃蟹一樣橫著走都是一個問題。但是通過試錯和激勵,小狗在預設的生理和物理參數下不斷地優化自己之前的行為,最終得到了最優解決方案。
在Unity中,DeepMind可以對演算法進行訓練。在遊戲的模擬空間中,不僅會仿照真實世界的場景與規則,還可以對參數進行自定義調節。在這一過程中,演算法可以不斷試錯優化,最終準確率不斷提升。
相較在現實世界中運行,遊戲場景下運行不僅更加自主可控,而且在成本以及安全性上也具有無可比擬的優勢,這也將成為未來人工智慧發展的一大趨勢。
不過這也算不上是什麼新鮮事兒,一直以來都有研究人員和企業使用遊戲引擎來訓練AI。比如Nvidia早前就在Unity的競爭對手Unreal Engine上建立了一個叫Isaac的虛擬機器人訓練系統。
為三家科技巨頭(亞馬遜、Uber以及Unity)構建機器學習平台的Danny Lange則早在2016年12月成為Unity AI副總裁之前就建立了Uber的機器學習平台。
二、除了教NPC走路,AI與遊戲還有更多可能
AI與遊戲結合的思維其實可以在很多領域應用。比如在自動駕駛領域,自動駕駛車輛上路前可以先讓演算法在遊戲中幾十億英里的模擬道路上進行路測,從而對現實世界中的自動駕駛提供幫助。
Lange對於強化學習和其他人工智慧在遊戲中所能取得的成就報以非常樂觀的態度。他認為除了機器人之外,虛擬玩家還可以用來開發更加宜居的建築設計,在一千個虛擬家庭里構建上千種房屋設計都不成問題。
Lange還表示,因為模擬的物理空間往往不受場地等的限制,所以還可以進行一些模擬化學實驗,而且用軟體來模擬這種化學實驗遠比人工的速率要高,起碼它可以縮小實際備選實驗用品範圍。
另外,要知道一款高模擬的大型遊戲中所涉及的遠遠不止物理學。比如俠盜獵車手系列遊戲,可以模擬橡膠輪胎是如何抓住的瀝青,也可以模擬多種性格人物之間的交往。而這其實也是一個新興領域,可以用來模擬社會動態,模擬社會中人物之間的實際交往。
這也可以成為人們對於群體行為觀測的一個新視角,不過這目前也僅限於理論上。
Lange還模擬了人們如何通過閑聊來影響股票的價格,要是一個人說股價會漲,另一個人覺得會跌,那麼最終會對其他人產生什麼影響呢?
三、AI如何在遊戲中完成高難度任務
自然界里,動物在學會走路、跑步甚至炒股前,最基本的是要學會爬行。強化學習同樣如此,如果一上去就交給它一個非常棘手的問題,想要得到一個理想的結果顯然是痴人說夢。
因此通常情況下,強化學習一般用於實現虛擬角色的離散型任務,學習的困難程度也可以倒過來幫助遊戲設計師們評估他們所開發平面圖的直觀程度。
那麼要怎麼讓機器學會一些複雜任務呢?
第一步是拆解,首先將任務分解成一個一個簡單的小任務,然後逐步運用前一階段所學習的知識來運用到下一個任務上。就像那隻虛擬的小狗,它一旦學會了怎麼叼木棍後很快就可以學會怎麼跨過障礙。
而且只有進行大規模的深度學習才能有所回報,如果只是對一隻狗訓練五分鐘那也真的別指望它能學會什麼。但如果以每秒10,000幀的速度訓練一千隻狗24小時,那麼這些狗會做出各種我們想不到的瘋狂事情來,最終會有一隻達到我們所預期的目標。
遊戲運作的方式也是類似的,當玩家要打倒大BOSS,那他們自己的水平在這之前也是在逐步提升的(這裡的玩家說的是演算法)。而遊戲引擎的一大好處就是可以自行為演算法拆解好階段,生成關卡。
四、DeepMind CEO:遊戲和模擬一直都是研究核心
關於此次合作的細節,DeepMind在新聞發布會上並沒有過多的提及,Unity同樣對於交易細節、交易數額同樣是三緘其口。
Unity AI副總裁Lange表示,他們與DeepMind的交易不僅僅是出售軟體許可證,而是一場在AI方面的合作。
當前階段的遊戲早已經脫離了貪吃蛇或者俄羅斯方塊這種簡單的形式,達到了在視覺上、物理上、認知上甚至是在社交互動上高程度模擬的自然模擬水平。這些都給演算法帶來了進化壓力,而這一種進化就好像在大自然中生物千萬年的漫長進化一樣神奇而又迷人。
在大型伺服器上,機器學習AI可以在海量的數據中一路狂奔,從而獲得比人類用規則做出的編程還更要有效的成果。這也正是雙方合作的一個基礎共識。
一年前,Unity還通過其ML-Agents開源工具包將遊戲引擎與機器學習程序相關聯,來普及AI開發。當時參與開發的包括AI研究者和一些知名的遊戲開發人員。Lange表示每個人都可以使用任何人開發的東西,Unity也不例外,他希望可以運用人工智慧技術來創造出一些遊戲中的NPC。
DeepMind方面,在與Unity合作的前,他們便已經自行研發遊戲引擎有一段時間了。DeepMind聯合創始人兼首席執行官Demis Hassabis表示:「遊戲和模擬從一開始就是DeepMind研究計劃的核心部分,這種方法已經在人工智慧研究方面取得了重大突破。」
不過也許是因為以前當過遊戲設計師,Hassabis相較自行研發更願意與C端的遊戲製造商合作。畢竟像Unity和Unreal這樣的大眾引擎在是商業驅動的,他們會有龐大的開發者社區,也可以提供更好的開發模擬。
在這之後,人們的下一階段任務就變成了如何讓演算法在一些更加真實的場景之中運行,比如在房子里、在高速路上又或者是在一些3D遊戲中的模擬環境中。
原文來自:FastCompany


※突發!AI晶元獨角獸深鑒科技被美國賽靈思收購
※蘋果MacBook Pro五年進化:成就最趁手的幹活小鋼炮!
TAG:智東西 |