當前位置:
首頁 > 最新 > 谷歌明星科學家:即使《星際爭霸 2》衰落,其學習環境的架構和理念還可延伸至無人駕駛、人臉識別

谷歌明星科學家:即使《星際爭霸 2》衰落,其學習環境的架構和理念還可延伸至無人駕駛、人臉識別

本文發佈於 DeepTech 深科技(微信公眾號:mit-tr),轉載已獲得作者授權。

2018 年 1 月 28 日,一位來自谷歌 DeepMind 的科學家在 DT 君主辦的 EmTech China 峰會的圓桌討論環節中透露,基於《星際爭霸 2》搭建的 AI 學習環境竟可以被拓展至其他領域,不僅限於其他電子遊戲,甚至是無人駕駛和人臉識別。

(Oriol Vinyals 在演講)

這位科學家正是 Oriol Vinyals,他曾於 2016 年入選麻省理工科技評論 35 歲以下年度創新 35 人,即 TR 35。當然,Oriol 也是《星際爭霸 2》AI 學習環境,SC2LE 的開發者。


第一篇關於 SC2LE 的論文於 2017 年 8 月發布,該論文講述了基於《星際爭霸 2》的學習環境,AI 如何通過這款遊戲去訓練自身,最終達到和玩家持平,甚至超越職業選手的水平。

(SC2LE 運行原理)

Oriol 表示,這款遊戲對於 DeepMind,或者對於 AI 來說,是一個訓練空間,或者可以說是媒介。任何 AI 演算法都需要媒介,越真實越好。

談話間,他在現場播放了兩段沒有經過真實訓練的 AI 機器人運動視頻,結果發現,這些機器人只要碰到一些小小的阻礙就會立刻摔倒,還有可能導致系統崩潰。

隨後,他又為觀眾展示了兩個虛擬角色跑步的模型,並解釋道:「雖然這個訓練環境是虛擬的,但它非常真實,包括了所有現實中的物理規則。因此,即使沒有經過實際測試,然而其結果也比剛才那則演示更有意義。」

(職業玩家)

實際上,《星際爭霸 2》則能很好的提供這樣一個環境。Oriol 以遊戲中最基本的單位 「SCV」 來舉例,一個 「SCV」 可能有四種操作方式:採集資源、建造建築、偵查、擴張。

然而,僅僅這四種操作方式就包含了無數的變化。Oriol 指出,AI 想要控制一個 SCV,需要先給予控制台一個選中它的指令,再點選目的地。不過,光進行這個操作還不夠,還需要另一個控制台同時負責鍵盤的模擬,才能讓一個 SCV 完成動作。

與此同時,Oriol 展示了一位專業玩家的視頻。職業玩家快速地敲擊鍵盤,畫面來回切換。Oriol 讚歎道,這種遊戲模式 「就像表演樂器」 一樣。

然而,突然他打斷了演示,並告訴在場觀眾:「這僅僅是 SCV 的操作而已,而《星際爭霸 2》中,每個種族都有十餘種單位,他們的功能不同、能執行的指令不同。」

Oriol 停頓了一下,他說道:「人類玩家在彈指間所執行的操作,對於 SC2LE 來說要分成兩塊並且執行很多部,非常繁瑣。然而,整場遊戲看下來,人類玩家平均要進行 5000 次這樣的操作。」

(?DeepMind 創造《星際爭霸 2》學習環境)

這也就意味著,若 AI 想要戰勝人類,那麼它每執行一步策略,就要考慮數千步策略。不過,也正是這種近乎無限的變化空間,給了 DeepMind 一個更好的環境,因為真實的環境要比這複雜許多倍。


在圓桌討論環節,有嘉賓提出,圍繞該學習環境最多的問題,莫過於它有什麼用處了?Oriol 聽到這個問題後笑了笑,說這其實是他走到哪都會被問到的問題。

他表示,《星際爭霸 2》是個電子遊戲,它終究會被淘汰,這在所難免,但基於這款遊戲的學習環境給了 DeepMind 一個適用面更廣且可拓展的框架和演算法,讓開發者可以在別的問題上,用已有的方式來思考解決辦法,使其事半功倍。

「同時,這對於我們(DeepMind)來說也是一個能力的訓練。《星際爭霸 2》的環境非常複雜,一個人類玩家可以輕鬆解決的問題,對於 AI 來說可能需要調用一整個數據中心的資源才能解決問題,這不是我們想看到的。所以,我們學會了分解問題,把《星際爭霸 2》分解為了許多小塊,比如剛才說到的,我們通過 60 x 40 的單元格去訓練 AI,而不是通過全局遊戲去讓 AI 理解這個問題。」

(Linux 上的 SC2LE 只有 60 x 40 的單元格,右邊則是基於這些單元格的評價)

?事實上,一張《星際爭霸 2》的地圖可能包含了數十萬個單元格,但 DeepMind 把這些單元格分解成了許多相同或者相似的小單元格去思考問題。最終簡化了步驟,降低了資源的消耗。

也正是因此,Oriol 才在圓桌環節表示,即使《星際爭霸 2》因為時間的變遷而衰落,但這個學習環境的架構和理念,可以使其變成其他平台的 AI 技術。不只是遊戲,還包括了無人駕駛、人臉識別等等。


自從柯潔和李世石紛紛輸給 AlphaGo 之後,人們更關心這樣一個問題,「AI 可以打敗人類嗎?」 尤其是對於谷歌的 AI。

2016 年 10 月的暴雪 Bliizcon 2016 上,DeepMind 宣布和暴雪共同以《星際爭霸 2》作為研究環境,來釋放 AI 技術的潛能。前者稱,遊戲是完美的環境之一,使該企業能夠快速有效地開發和測試 AI,以此提高演算法的靈活性,最終通過遊戲分數(勝負)來提供即時反饋。

2017 年 10 月,在第十三屆人工智慧和交互數字娛樂大會(Conference on Artificial Intelligence and Interactive Digital Entertainment 簡稱 AIIDE』17)上,社會各界的 AI 研究者們紛紛帶著他們的《星際爭霸》AI 來參加比賽。其中,使用異蟲種族的 ZZZKbot 以 2465 勝 501 負的戰績拿下了冠軍。

然而,就在這場比賽的十幾天後,韓國上演了一場《星際爭霸》人機大戰。韓國前職業選手 stork 以 4:0 的巨大優勢碾壓了 ZZZKbot、TSCMO、MJ 這三個世界上水平最高的《星際爭霸》AI。即使這場比賽對於 AI 領域來說,意義非常重大,但一些專業的《星際爭霸》選手認為,這場比賽並不好看,因為整個遊戲的節奏完全倒向了 stork,AI 毫無取勝的可能性。

(?輕鬆贏得勝利的 Stork)

AI 在《星際爭霸 2》上面臨的挑戰有增無減,但是對於 Oriol 來說無疑是個特大喜訊。他曾這樣評價過基於《星際爭霸 2》的學習環境,「這是一個多人互動的多主體(指玩家、單位、建築)環境,由於地圖上的『戰爭迷霧』,AI 和玩家所獲得的信息是不完整的。

《星際爭霸 2》不僅有數百個單位的控制空間,還能提供一個從原始特徵(畫面、縮略地圖)獲得信息的平面空間。再加上資源分配(水晶和氣礦),因此 AI 每做出一步動作,就要思考數千步戰略。」

Oriol 在演講中指出,即使評價系統已經給現在的 SC2LE 做出極高的評價,但是和職業人類玩家相比,簡直是小兒科。不過他倒是很開心,因為只有挑戰才能給予 DeepMind 前進的動力,也只有戰勝問題,才能賦予 AI 更強的能力。

同時,Oriol 指出,AI 存在很大的成長空間。他以 AlphaGo 為例,該 AI 在對戰李世石時的能力是對戰柯潔時的三分之一。換句話說,短短几個月,AlphaGo 就成長了三倍之多。或許,真的會有一天,SC2LE 會輕鬆擊敗職業玩家,正如今天我們輕鬆擊敗他們一樣。


要知道比起 AI,Oriol 更喜歡的是《星際爭霸》。他從 15 歲就開始接觸這款遊戲,更是藉助它在西班牙創出了一些名堂。事實上,公開資料顯示,Oriol 曾在微軟就職,並從事《星際爭霸》對戰 AI 的開發。用於在玩家無法尋找到對手時,替代人類對手與玩家交戰。

也許,正是這件事情給了 Oriol 靈感。他在圓桌討論時指出,《星際爭霸 2》可以用來訓練 AI,那麼 AI 是否可以訓練玩家如何玩《星際爭霸 2》呢?以 AlphaGo 為例,它通過對抗,創造了自己的獨特的戰術,而這個戰術可以被人類選手拿來應用於其它棋局。

(Oriol 正在討論)

《星際爭霸 2》相較於圍棋來說擁有更多的地圖、更多的可能性,SC2LE 極有可能創造出獨特的戰術。那麼,把這種戰術用於訓練人類玩家,尤其是零基礎的玩家,可能會比讓新手自己體驗遊戲高一些。

實際上,時間沉澱技術,《星際爭霸 2》這款誕生於過去的遊戲,結合當下火熱的 AI 技術,二者所塑造的無疑會是未來更自動化的生活。

Oriol 指出,DeepMind 所做的事情是建立平台。 他認為,這就和科學家不能左右他們的研究成果一樣,SC2LE 會面向更多的開發者和《星際爭霸 2》玩家。Oriol 非常願意開源這些平台,這是因為他認為 AI 需要創新者,他們能夠讓 AI 實現更多的功能。

Oriol 所描繪的畫面,正是今後的 AI 社會。雖然不知道何時才能到來,但是功在當下,利在千秋。

題圖來自《星際爭霸 2》


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 愛范兒 的精彩文章:

出門問問 Tichome 智能音箱體驗:顏值高嗓門大,但夠智能嗎?
2018 汽車開年大展,我們挑出了七款必看重磅

TAG:愛范兒 |