DeepMind科學家:AI對戰《星際爭霸》勝算幾何?
記者 | 周翔
AI科技大本營1月29日消息,在《麻省理工科技評論》與深科技舉辦的新興科技峰會上,谷歌DeepMind科學家Oriol Vinyals在會上發表了主題為《AI對戰星際爭霸勝算幾何?》的演講。
Oriol Vinyals曾是西班牙《星際爭霸》遊戲排名第一的電競高手,在UC伯克利大學讀書期間,他幫助設計了一個能夠在人類完全不介入的情況下玩星際爭霸的名叫「主宰(遊戲劇情中的一個boss角色)」的AI程序,這個程序標誌著機器學習的一場勝利。
在加入谷歌AI團隊之後,Oriol Vinyals參與了機器翻譯、圖像理解、Gmail智能回復等諸多項目。如今,Oriol Vinyals又開始了用AI征戰《星際爭霸》之路。
在演講中,Oriol Vinyals提出了數據和任務在研究機器學習和人工智慧領域的重要性,並介紹了DeepMind是如何一步步讓AI學會玩《星際爭霸》的。
以下是Oriol Vinyals的演講全文,AI科技大本營整理:
▌關於人工智慧進展
首先,我想介紹一下,科學家在研究機器學習和人工智慧的時候,究竟在做些什麼?
我想和大家分享的不是演算法,而是數據。數據和任務是非常重要的,我們一定要確認我們的技術前沿是什麼,任務是什麼,然後才能夠找到合理的矩陣來處理這些問題。
有一個很有趣的現象,我們在技術方面取得重大突破的時間並不長,因為只要找到一個合適的演算法就可以取得這樣的突破。我們在語音識別和圖像分類上都取得了很多里程碑式的進展,並利用機器翻譯技術在人類與機器之間架起了一座橋樑。在生成式網路方面我們也有很多應用,比如根據照片生成名人的臉,根據普通的馬匹生成斑馬,根據夏天的圖景來生成冬天的圖景等等,這些對圖片解讀的應用可以說已經非常成功了。
▌關於強化學習
接下來我想與大家探討一下強化學習,這是過去幾年中我們基於AlphaGo所做的一些突破性研究。
強化學習與監督學習和人類的學習方式相比,還是有一定區別的。比如對於觀察本身,演算法的觀察是需要環境的,沒有充分的觀察,早期的人形機器人在遇到障礙物的時候往往無法順利應對從而摔倒。我們就會想,能不能建立一個模擬環境來訓練這些機器人呢?如果我們有一個很好的環境,就可以先去訓練它,也就是說我們一定要有一個很完美的環境才能實現我們的目標。為此,我們建立了虛擬場景,並儘可能地提高它的模擬度。只有在這樣的強化環境下,我們才能取得進一步的進展。
比如提到應用場景,我們常常會想到遊戲。人們在設計遊戲的時候總是小心翼翼,以確保玩家可以獲得一定的智能化體驗。比如AlphaGo參與的圍棋有3000年的歷史,這是一個非常有挑戰性的遊戲,因為沒有一個單一的解決方案能確保帶來最好的結果。當然,我們也可以整合不同的能力讓它們玩不同的遊戲,比如通過訓練讓機器人學會下國際象棋。我們也有專門下圍棋的演算法,這時目標變得更加複雜,玩法也變得更加複雜。目前沒有一台機器可以通過搜索策略的方法來玩好這個遊戲。
那AlphaGo是通過什麼方法來玩這個遊戲的呢?正是強化學習。我們的神經網路可以自動地從數據中學習一些特徵。這樣我們就可以讓它看著棋盤,看人類怎麼走,看棋盤上輸贏的情況。也就是說我們不需要展開所有展示走法與輸贏的網路,只要展開一部分網路就可以做出很好的模擬,這是一個很好的突破。
但這樣也不是特別好,因為它在以人的角度去學習,需要使用數據集來訓練。後來我們隨機地運行遊戲,每下一局之後AlphaGo就可以了解一下比賽是如何進行的,並調整整個網路,最終學會下棋。
這些網路是在玩遊戲的過程中不斷訓練提升的。AlphaZero隨機下棋,經過幾天的訓練之後,就學會專業棋手的走法了。
所以,我們第一版的AlphaGo擊敗了樊麾,後來下一個版本在韓國和李世石進行了對弈,並取得了勝利。再後來我們進一步地訓練網路,整個網路比之前強了三倍,贏了柯潔和其他專業棋手。我們是從零開始,一點點積累積數據進行訓練,最後戰勝了專業棋手。
▌關於星際爭霸
除此之外,我們比較感興趣的還有遊戲《星際爭霸II》,這也是一個非常有趣而且複雜的遊戲。這個遊戲基本上就是建造一些建築物以及單位,在同一個地圖裡與不同的組織相互競爭。在這個遊戲中,哪怕只是建造建築物,也需要做出許多決策。而除此之外,我們還要不斷收集和利用資源、建造不同的建築物、不斷擴張,因此整個遊戲非常具有挑戰性。
我們在這個遊戲中使用的方法依舊是強化學習。我們要模仿人類玩這個遊戲的方式,但即使是模仿人類點擊滑鼠和敲擊鍵盤的行為也非常困難。為此,我們引入了一個遊戲引擎。
《星際爭霸II》和圍棋任務最大的不同在於,圍棋可以看到整個棋盤,但是在《星際爭霸II》中我們通常無法看到整個地圖,需要派小兵出去偵查。而且遊戲是不間斷進行的,整個遊戲甚至會有超過5000步的操作。
此外,對於增強學習,除了上下左右這些普通的移動,我們發現用滑鼠點擊界面控制不同物體的移動以及不同的行為,也是非常難的。我們發布了這個環境,所有人都可以參與其中。這基本上是一個開源的平台,大家可以測試自己的演算法。
雖然還沒有完成過整局遊戲,但是我們已經完成了操作《星際爭霸II》比較重要的7個操作,比如選擇一個單位並讓它移動過去,我們所使用的演算法能做到這一步,而且和人類玩家操作的效果基本一樣。而另一些任務,比如建造建築、收集資源等,仍然是比較難的。我們測試的演算法,表現會比隨機的環境要好,但和專業玩家還有一段距離。
我們的第一版是在Linux平台發布的,我可能是第一個用Linux玩《星際爭霸》遊戲的人。我們的增強學習還是做得非常好的,所以我們可以直接通過人的視角來觀察這個遊戲。
如剛才所說,我們可以將地圖看成一個40×60的像素。從像素來開始進行判斷的話,其實能夠幫助我們更好地去了解機器是怎麼樣玩遊戲的,雖然說機器還沒有辦法完全像人類一樣。
以下為Oriol Vinyals接受《MIT Technology Review》編輯Will Knight現場採訪實錄,AI科技大本營整理:
Will Knight:《星際爭霸》遊戲機器人是怎樣開展學習和研究的?
Oriol Vinyals:我們現在其實在做一個簡化版,還在研究整個網路背後的一些基本的原理,我也在想把它寫成論文,介紹在測試的過程有哪些是比較容易的,哪些是比較難的。
Will Knight:為什麼選擇《星際爭霸》?大家都知道《星際爭霸》有很大的用戶群,而且很難。
Oriol Vinyals:在我自己還是伯克利大學學生的時候,就玩過《星際爭霸》。我和很多伯克利分校的同事在2010年就開始做這個研究,當時我們在想的是如何打敗敵方。《星際爭霸》是我們應用AI技術的一個出發點,在這個過程中,我們看到了很多挑戰,因此我們需要很多創新的演算法,需要更多的研究人員參與進來,設計一些新的問題和任務,看能否完成。
Will Knight:是否能夠將其中的AI技術應用到現實生活中?
Oriol Vinyals:現實世界缺少完成強化學習的完美信息。比如有很多人都在使用谷歌,它沒有周圍人的信息而是依靠著巨大的信息進行預測,我們是藉助了用戶的力量。現在我們考慮的是怎麼樣藉助應用去處理數據、加工數據。
其實我們在設計一個這樣的操作系統,它不會為所有的用戶所用,但是會幫助我們的用戶減少很多能耗。
Will Knight:在《星際爭霸》中是否也有和 AlphaGo 一樣的迭代和更新?你們有什麼戰略?
Oriol Vinyals:《星際爭霸》的應用在我看來是一個新的事物。我們為遊戲過程設計了不同的指令,不同的模式和模板,這使得整個玩《星際爭霸》的過程變得獨一無二。這種指令會越來越高效。通過指令,我們基本上可以超越之前的演算法,我覺得這也是我們的一個亮點。
說到戰略,我們會訓練整個系統,收集整個《星際爭霸》玩家的行為進行分析。比如哪些走法可能沒有優勢,哪些玩法過於簡單。現在我們會為玩家提供一些打《星際爭霸》最簡單的走法。
Will Knight:AI是怎樣評估人類玩家的玩法的?
Oriol Vinyals:整個模型現在非常簡單,它可以幫助我們的人類玩家玩得更好。人類在獲得AI的指導以後會變得更強大。我也希望整個玩家的社區會獲得AI的良性支持。
Will Knight: AI程序員是不是能夠從遊戲中獲得一些益處?
Oriol Vinyals:我們知道有學徒式的學習方式。比如說在玩圍棋的時候,有自我的教學模式,從零級開始自學。但是玩《星際爭霸》的時候,我們不是從零開始,而是在一定的基礎層上面來進行學習。
另外很多玩家他們還會去觀察別人玩遊戲的方式,看他們怎樣移動滑鼠等。我自己也是個玩家,我也會關注別的移動玩家動滑鼠的方法以及其他的遊戲行為,這對強化學習是一個新的關注點。比如說我自己玩遊戲的時候,可能我不能一直獲勝,那麼我就會去觀察,我輸的時候會在遊戲的末尾觀察哪個人物角色會獲勝,通過觀察一些專業玩家的行為分析這些遊戲過程中的關鍵點。這也能幫助我們進行模擬學習,以及數據監督式的學習。
Will Knight:還有很多人想了解甚至加入DeepMind,我想問一下整個公司的氛圍如何?您工作的場景是什麼樣的?有什麼最新的項目?
Oriol Vinyals:我之前也提到過,我們的CEO是做神經科學出身的,可以說這為我們公司定下了基調。我也很喜歡我們公司,作為一個研究人員,科學家始終是有意思的一群人。我們有很好的工具,有很好的平台,並且能夠清晰地制定一個計劃,讓你了解接下來人工智慧會發生什麼。科學家也是有自己自由度的,比如你知道你自己的工作目標,也可以獲得同行之間的反饋,也會有很強內在的驅動力。
現在我們的工作場所已經很大了,我們有很多的人、數據以及很多懂得神經科學的科學家,還有一些遊戲的測試家,以及不同背景的有趣的人。整個工作環境也非常有趣,如果你能來這裡實習的話,我是非常推薦的。
Will Knight:你覺得最有趣的挑戰會是什麼?
Oriol Vinyals:玩這種電子遊戲,絕大多數都是非常有挑戰性的,比如說策略遊戲等,都是非常複雜的遊戲。在玩遊戲的過程中,我們能夠看到有一些新遊戲不斷地產生,我覺得最大的挑戰可能是要不斷學習吧。像無人駕駛汽車這樣的新技術,要求我們有更好的現實模擬,這樣的話你才能確保現實中的安全的操作。
Will Knight:我們接下來是否可以和AlphaGo一起打撲克牌?
Oriol Vinyals:可以期待。
熱文精選


TAG:AI科技大本營 |