《星際爭霸2》學習環境的架構和理念可延伸至無人駕駛、人臉識別

新聞 02-02

2018 年 1 月 28 日，一位來自谷歌 DeepMind 的科學家在DT君主辦的 EmTech China 峰會的圓桌討論環節中透露，基於《星際爭霸2》搭建的 AI 學習環境竟可以被拓展至其他領域，不僅限於其他電子遊戲，甚至是無人駕駛和人臉識別。

圖丨Oriol Vinyals 在演講

這位科學家正是 Oriol Vinyals，他曾於 2016 年入選麻省理工科技評論 35 歲以下年度創新 35 人，即 TR 35。當然，Oriol也是《星際爭霸2》AI學習環境，SC2LE的開發者。

什麼是SC2LE？

第一篇關於 SC2LE 的論文於 2017 年 8 月發布，該論文講述了基於《星際爭霸2》的學習環境，AI如何通過這款遊戲去訓練自身，最終達到和玩家持平，甚至超越職業選手的水平。

圖丨 SC2LE 運行原理

Oriol 表示，這款遊戲對於DeepMind，或者對於 AI 來說，是一個訓練空間，或者可以說是媒介。任何 AI 演算法都需要媒介，越真實越好。

談話間，他在現場播放了兩段沒有經過真實訓練的 AI 機器人運動視頻，結果發現，這些機器人只要碰到一些小小的阻礙就會立刻摔倒，還有可能導致系統崩潰。

隨後，他又為觀眾展示了兩個虛擬角色跑步的模型，並解釋道：「雖然這個訓練環境是虛擬的，但它非常真實，包括了所有現實中的物理規則。因此，即使沒有經過實際測試，然而其結果也比剛才那則演示更有意義。」

圖丨職業玩家

實際上，《星際爭霸2》則能很好的提供這樣一個環境。Oriol以遊戲中最基本的單位「SCV」來舉例，一個「SCV」可能有四種操作方式：採集資源、建造建築、偵查、擴張。

然而，僅僅這四種操作方式就包含了無數的變化。Oriol指出，AI想要控制一個SCV，需要先給予控制台一個選中它的指令，再點選目的地。不過，光進行這個操作還不夠，還需要另一個控制台同時負責鍵盤的模擬，才能讓一個SCV完成動作。

與此同時，Oriol展示了一位專業玩家的視頻。職業玩家快速地敲擊鍵盤，畫面來回切換。Oriol讚歎道，這種遊戲模式「就像表演樂器」一樣。

然而，突然他打斷了演示，並告訴在場觀眾：「這僅僅是SCV的操作而已，而《星際爭霸2》中，每個種族都有十餘種單位，他們的功能不同、能執行的指令不同。」

Oriol 停頓了一下，他說道：「人類玩家在彈指間所執行的操作，對於SC2LE來說要分成兩塊並且執行很多部，非常繁瑣。然而，整場遊戲看下來，人類玩家平均要進行5000次這樣的操作。」

圖丨DeepMind創造《星際爭霸2》學習環境

這也就意味著，若 AI 想要戰勝人類，那麼它每執行一步策略，就要考慮數千步策略。不過，也正是這種近乎無限的變化空間，給了 DeepMind 一個更好的環境，因為真實的環境要比這複雜許多倍。

基於《星際爭霸2》，但是這並不只是遊戲AI

在圓桌討論環節，有嘉賓提出，圍繞該學習環境最多的問題，莫過於它有什麼用處了？Oriol聽到這個問題後笑了笑，說這其實是他走到哪都會被問到的問題。

他表示，《星際爭霸2》是個電子遊戲，它終究會被淘汰，這在所難免，但基於這款遊戲的學習環境給了DeepMind一個適用面更廣且可拓展的框架和演算法，讓開發者可以在別的問題上，用已有的方式來思考解決辦法，使其事半功倍。

「同時，這對於我們（DeepMind）來說也是一個能力的訓練。《星際爭霸2》的環境非常複雜，一個人類玩家可以輕鬆解決的問題，對於 AI 來說可能需要調用一整個數據中心的資源才能解決問題，這不是我們想看到的。所以，我們學會了分解問題，把《星際爭霸2》分解為了許多小塊，比如剛才說到的，我們通過 60 x 40 的單元格去訓練AI，而不是通過全局遊戲去讓 AI 理解這個問題。」

圖丨Linux 上的 SC2LE 只有 60 x 40 的單元格，右邊則是基於這些單元格的評價

事實上，一張《星際爭霸2》的地圖可能包含了數十萬個單元格，但DeepMind把這些單元格分解成了許多相同或者相似的小單元格去思考問題。最終簡化了步驟，降低了資源的消耗。

也正是因此，Oriol才在圓桌環節表示，即使《星際爭霸2》因為時間的變遷而衰落，但這個學習環境的架構和理念，可以使其變成其他平台的AI技術。不只是遊戲，還包括了無人駕駛、人臉識別等等。

AI 能否通過《星際爭霸》戰勝人類？

自從柯潔和李世石紛紛輸給AlphaGo之後，人們更關心這樣一個問題，「AI可以打敗人類嗎？」尤其是對於谷歌的AI。

2016 年 10 月的暴雪 Bliizcon 2016 上，DeepMind 宣布和暴雪共同以《星際爭霸2》作為研究環境，來釋放 AI 技術的潛能。前者稱，遊戲是完美的環境之一，使該企業能夠快速有效地開發和測試 AI，以此提高演算法的靈活性，最終通過遊戲分數（勝負）來提供即時反饋。

2017 年 10 月，在第十三屆人工智慧和交互數字娛樂大會（Conference on Artificial Intelligence and Interactive Digital Entertainment 簡稱 AIIDE"17）上，社會各界的 AI 研究者們紛紛帶著他們的《星際爭霸》AI 來參加比賽。其中，使用異蟲種族的 ZZZKbot 以 2465 勝 501 負的戰績拿下了冠軍。

然而，就在這場比賽的十幾天後，韓國上演了一場《星際爭霸》人機大戰。韓國前職業選手 stork 以 4:0 的巨大優勢碾壓了 ZZZKbot、TSCMO、MJ 這三個世界上水平最高的《星際爭霸》AI。即使這場比賽對於 AI 領域來說，意義非常重大，但一些專業的《星際爭霸》選手認為，這場比賽並不好看，因為整個遊戲的節奏完全倒向了 stork，AI 毫無取勝的可能性。

圖丨輕鬆贏得勝利的Stork

AI 在《星際爭霸2》上面臨的挑戰有增無減，但是對於 Oriol 來說無疑是個特大喜訊。他曾這樣評價過基於《星際爭霸2》的學習環境，「這是一個多人互動的多主體（指玩家、單位、建築）環境，由於地圖上的『戰爭迷霧』，AI 和玩家所獲得的信息是不完整的。《星際爭霸2》不僅有數百個單位的控制空間，還能提供一個從原始特徵（畫面、縮略地圖）獲得信息的平面空間。再加上資源分配（水晶和氣礦），因此 AI 每做出一步動作，就要思考數千步戰略。」

Oriol在演講中指出，即使評價系統已經給現在的SC2LE做出極高的評價，但是和職業人類玩家相比，簡直是小兒科。不過他倒是很開心，因為只有挑戰才能給予 DeepMind 前進的動力，也只有戰勝問題，才能賦予AI更強的能力。

同時，Oriol指出，AI存在很大的成長空間。他以AlphaGo為例，該AI在對戰李世石時的能力是對戰柯潔時的三分之一。換句話說，短短几個月，AlphaGo就成長了三倍之多。或許，真的會有一天，SC2LE會輕鬆擊敗職業玩家，正如今天我們輕鬆擊敗他們一樣。

一切從《星際爭霸2》開始，功在當下，利在千秋

要知道比起AI，Oriol更喜歡的是《星際爭霸》。他從 15 歲就開始接觸這款遊戲，更是藉助它在西班牙創出了一些名堂。事實上，公開資料顯示，Oriol 曾在微軟就職，並從事《星際爭霸》對戰 AI 的開發。用於在玩家無法尋找到對手時，替代人類對手與玩家交戰。

也許，正是這件事情給了 Oriol 靈感。他在圓桌討論時指出，《星際爭霸2》可以用來訓練AI，那麼 AI 是否可以訓練玩家如何玩《星際爭霸2》呢？以AlphaGo為例，它通過對抗，創造了自己的獨特的戰術，而這個戰術可以被人類選手拿來應用於其它棋局。

圖丨Oriol正在討論

《星際爭霸2》相較於圍棋來說擁有更多的地圖、更多的可能性，SC2LE極有可能創造出獨特的戰術。那麼，把這種戰術用於訓練人類玩家，尤其是零基礎的玩家，可能會比讓新手自己體驗遊戲高一些。

實際上，時間沉澱技術，《星際爭霸2》這款誕生於過去的遊戲，結合當下火熱的 AI 技術，二者所塑造的無疑會是未來更自動化的生活。

Oriol指出，DeepMind所做的事情是建立平台。他認為，這就和科學家不能左右他們的研究成果一樣，SC2LE會面向更多的開發者和《星際爭霸2》玩家。Oriol非常願意開源這些平台，這是因為他認為 AI 需要創新者，他們能夠讓 AI 實現更多的功能。

Oriol 所描繪的畫面，正是今後的 AI 社會。雖然不知道何時才能到來，但是功在當下，利在千秋。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 DeepTech深科技 的精彩文章:

※只需動用3根手指，這款機器手套就能讓癱瘓的手重新奪回控制權
※MIT核能實驗室掌門人胡玲文：用AI控制核反應堆安全可行也很關鍵

TAG:DeepTech深科技 |