當前位置:
首頁 > 新聞 > 《星際爭霸2》學習環境的架構和理念可延伸至無人駕駛、人臉識別

《星際爭霸2》學習環境的架構和理念可延伸至無人駕駛、人臉識別

2018 年 1 月 28 日,一位來自谷歌 DeepMind 的科學家在DT君主辦的 EmTech China 峰會的圓桌討論環節中透露,基於《星際爭霸2》搭建的 AI 學習環境竟可以被拓展至其他領域,不僅限於其他電子遊戲,甚至是無人駕駛和人臉識別。

圖丨Oriol Vinyals 在演講

這位科學家正是 Oriol Vinyals,他曾於 2016 年入選麻省理工科技評論 35 歲以下年度創新 35 人,即 TR 35。當然,Oriol也是《星際爭霸2》AI學習環境,SC2LE的開發者。

什麼是SC2LE?

第一篇關於 SC2LE 的論文於 2017 年 8 月發布,該論文講述了基於《星際爭霸2》的學習環境,AI如何通過這款遊戲去訓練自身,最終達到和玩家持平,甚至超越職業選手的水平。

圖丨 SC2LE 運行原理

Oriol 表示,這款遊戲對於DeepMind,或者對於 AI 來說,是一個訓練空間,或者可以說是媒介。任何 AI 演算法都需要媒介,越真實越好。

談話間,他在現場播放了兩段沒有經過真實訓練的 AI 機器人運動視頻,結果發現,這些機器人只要碰到一些小小的阻礙就會立刻摔倒,還有可能導致系統崩潰。

隨後,他又為觀眾展示了兩個虛擬角色跑步的模型,並解釋道:「雖然這個訓練環境是虛擬的,但它非常真實,包括了所有現實中的物理規則。因此,即使沒有經過實際測試,然而其結果也比剛才那則演示更有意義。」

圖丨職業玩家

實際上,《星際爭霸2》則能很好的提供這樣一個環境。Oriol以遊戲中最基本的單位「SCV」來舉例,一個「SCV」可能有四種操作方式:採集資源、建造建築、偵查、擴張。

然而,僅僅這四種操作方式就包含了無數的變化。Oriol指出,AI想要控制一個SCV,需要先給予控制台一個選中它的指令,再點選目的地。不過,光進行這個操作還不夠,還需要另一個控制台同時負責鍵盤的模擬,才能讓一個SCV完成動作。

與此同時,Oriol展示了一位專業玩家的視頻。職業玩家快速地敲擊鍵盤,畫面來回切換。Oriol讚歎道,這種遊戲模式「就像表演樂器」一樣。

然而,突然他打斷了演示,並告訴在場觀眾:「這僅僅是SCV的操作而已,而《星際爭霸2》中,每個種族都有十餘種單位,他們的功能不同、能執行的指令不同。」

Oriol 停頓了一下,他說道:「人類玩家在彈指間所執行的操作,對於SC2LE來說要分成兩塊並且執行很多部,非常繁瑣。然而,整場遊戲看下來,人類玩家平均要進行5000次這樣的操作。」

圖丨DeepMind創造《星際爭霸2》學習環境

這也就意味著,若 AI 想要戰勝人類,那麼它每執行一步策略,就要考慮數千步策略。不過,也正是這種近乎無限的變化空間,給了 DeepMind 一個更好的環境,因為真實的環境要比這複雜許多倍。

基於《星際爭霸2》,但是這並不只是遊戲AI

在圓桌討論環節,有嘉賓提出,圍繞該學習環境最多的問題,莫過於它有什麼用處了?Oriol聽到這個問題後笑了笑,說這其實是他走到哪都會被問到的問題。

他表示,《星際爭霸2》是個電子遊戲,它終究會被淘汰,這在所難免,但基於這款遊戲的學習環境給了DeepMind一個適用面更廣且可拓展的框架和演算法,讓開發者可以在別的問題上,用已有的方式來思考解決辦法,使其事半功倍。

「同時,這對於我們(DeepMind)來說也是一個能力的訓練。《星際爭霸2》的環境非常複雜,一個人類玩家可以輕鬆解決的問題,對於 AI 來說可能需要調用一整個數據中心的資源才能解決問題,這不是我們想看到的。所以,我們學會了分解問題,把《星際爭霸2》分解為了許多小塊,比如剛才說到的,我們通過 60 x 40 的單元格去訓練AI,而不是通過全局遊戲去讓 AI 理解這個問題。」

圖丨Linux 上的 SC2LE 只有 60 x 40 的單元格,右邊則是基於這些單元格的評價

事實上,一張《星際爭霸2》的地圖可能包含了數十萬個單元格,但DeepMind把這些單元格分解成了許多相同或者相似的小單元格去思考問題。最終簡化了步驟,降低了資源的消耗。

也正是因此,Oriol才在圓桌環節表示,即使《星際爭霸2》因為時間的變遷而衰落,但這個學習環境的架構和理念,可以使其變成其他平台的AI技術。不只是遊戲,還包括了無人駕駛、人臉識別等等。

AI 能否通過《星際爭霸》戰勝人類?

自從柯潔和李世石紛紛輸給AlphaGo之後,人們更關心這樣一個問題,「AI可以打敗人類嗎?」尤其是對於谷歌的AI。

2016 年 10 月的暴雪 Bliizcon 2016 上,DeepMind 宣布和暴雪共同以《星際爭霸2》作為研究環境,來釋放 AI 技術的潛能。前者稱,遊戲是完美的環境之一,使該企業能夠快速有效地開發和測試 AI,以此提高演算法的靈活性,最終通過遊戲分數(勝負)來提供即時反饋。

2017 年 10 月,在第十三屆人工智慧和交互數字娛樂大會(Conference on Artificial Intelligence and Interactive Digital Entertainment 簡稱 AIIDE"17)上,社會各界的 AI 研究者們紛紛帶著他們的《星際爭霸》AI 來參加比賽。其中,使用異蟲種族的 ZZZKbot 以 2465 勝 501 負的戰績拿下了冠軍。

然而,就在這場比賽的十幾天後,韓國上演了一場《星際爭霸》人機大戰。韓國前職業選手 stork 以 4:0 的巨大優勢碾壓了 ZZZKbot、TSCMO、MJ 這三個世界上水平最高的《星際爭霸》AI。即使這場比賽對於 AI 領域來說,意義非常重大,但一些專業的《星際爭霸》選手認為,這場比賽並不好看,因為整個遊戲的節奏完全倒向了 stork,AI 毫無取勝的可能性。

圖丨輕鬆贏得勝利的Stork

AI 在《星際爭霸2》上面臨的挑戰有增無減,但是對於 Oriol 來說無疑是個特大喜訊。他曾這樣評價過基於《星際爭霸2》的學習環境,「這是一個多人互動的多主體(指玩家、單位、建築)環境,由於地圖上的『戰爭迷霧』,AI 和玩家所獲得的信息是不完整的。《星際爭霸2》不僅有數百個單位的控制空間,還能提供一個從原始特徵(畫面、縮略地圖)獲得信息的平面空間。再加上資源分配(水晶和氣礦),因此 AI 每做出一步動作,就要思考數千步戰略。」

Oriol在演講中指出,即使評價系統已經給現在的SC2LE做出極高的評價,但是和職業人類玩家相比,簡直是小兒科。不過他倒是很開心,因為只有挑戰才能給予 DeepMind 前進的動力,也只有戰勝問題,才能賦予AI更強的能力。

同時,Oriol指出,AI存在很大的成長空間。他以AlphaGo為例,該AI在對戰李世石時的能力是對戰柯潔時的三分之一。換句話說,短短几個月,AlphaGo就成長了三倍之多。或許,真的會有一天,SC2LE會輕鬆擊敗職業玩家,正如今天我們輕鬆擊敗他們一樣。

一切從《星際爭霸2》開始,功在當下,利在千秋

要知道比起AI,Oriol更喜歡的是《星際爭霸》。他從 15 歲就開始接觸這款遊戲,更是藉助它在西班牙創出了一些名堂。事實上,公開資料顯示,Oriol 曾在微軟就職,並從事《星際爭霸》對戰 AI 的開發。用於在玩家無法尋找到對手時,替代人類對手與玩家交戰。

也許,正是這件事情給了 Oriol 靈感。他在圓桌討論時指出,《星際爭霸2》可以用來訓練AI,那麼 AI 是否可以訓練玩家如何玩《星際爭霸2》呢?以AlphaGo為例,它通過對抗,創造了自己的獨特的戰術,而這個戰術可以被人類選手拿來應用於其它棋局。

圖丨Oriol正在討論

《星際爭霸2》相較於圍棋來說擁有更多的地圖、更多的可能性,SC2LE極有可能創造出獨特的戰術。那麼,把這種戰術用於訓練人類玩家,尤其是零基礎的玩家,可能會比讓新手自己體驗遊戲高一些。

實際上,時間沉澱技術,《星際爭霸2》這款誕生於過去的遊戲,結合當下火熱的 AI 技術,二者所塑造的無疑會是未來更自動化的生活。

Oriol指出,DeepMind所做的事情是建立平台。 他認為,這就和科學家不能左右他們的研究成果一樣,SC2LE會面向更多的開發者和《星際爭霸2》玩家。Oriol非常願意開源這些平台,這是因為他認為 AI 需要創新者,他們能夠讓 AI 實現更多的功能。

Oriol 所描繪的畫面,正是今後的 AI 社會。雖然不知道何時才能到來,但是功在當下,利在千秋。


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 DeepTech深科技 的精彩文章:

只需動用3根手指,這款機器手套就能讓癱瘓的手重新奪回控制權
MIT核能實驗室掌門人胡玲文:用AI控制核反應堆安全可行也很關鍵

TAG:DeepTech深科技 |