DeepMind 科學家：AI對戰星際爭霸勝算幾何？

知識 01-28

記者 | 褚波

今天，《麻省理工科技評論》新興科技峰會EmTech China在北京召開，DeepMind公司的研究科學家Oriol Vinyals出席峰會並做了演講。

DeepMind公司的科學家Oriol Vinyals。

出生於西班牙巴塞羅那的 Oriol Vinyals頗富傳奇色彩。他從 15 歲時開始玩《星際爭霸》，一度成為西班牙第一、全歐第十六的電競高手，但他並沒有像多數高手一樣走向職業電競選手之路，反而投身科學領域。在西班牙加泰羅尼亞理工大學獲得電信工程及數學雙學位之後，他又前往美國學習工程學與計算機科學。在谷歌， Gmail、Google 圖像識別服務等產品都離不開他的貢獻。

2016年初，他加入DeepMind團隊，著手研究比下圍棋還難的人工智慧技術——教電腦打電玩，而用來訓練機器的遊戲環境正是 Oriol Vinyals 最擅長的《星際爭霸》。在EmTech China大會上，Oriol Vinyals在演講中提到，他和同事已經完成了《星際爭霸II》比較重要的7個操作，和人類玩家操作的效果基本一樣。但有一些任務，比如建造建築、收集資源等，仍然比較困難。下面是Oriol Vinyals的演講實錄：

首先，我想介紹一下，科學家在研究機器學習和人工智慧的時候，究竟在做些什麼？我想和大家分享的不是演算法，而是數據。數據和任務是非常重要的，我們一定要確認我們的技術前沿是什麼，任務是什麼，然後你才能夠找到合理的矩陣來處理這些問題。

有一個很有趣的現象，在技術方面取得重大突破的時間並不長，因為只要找到一個合適的演算法就可以取得這樣的突破。我們在語音識別和圖像分類上都取得了很多里程碑式的進展，我們還利用機器翻譯技術在人類與機器之間架起了一座橋樑。在生成式網路方面我們也有很多應用，比如根據照片生成名人的臉，根據普通馬生成斑馬，根據夏天的圖景來生成冬天的圖景等等。這些方面對圖片的解讀可以說已經非常成功了。

接下來我想與大家探討一下深度強化學習。這是多去幾年中我們基於AlphaGo所做的一些突破性的研究。

深度強化學習與監督學習和人類的學習方式相比，還是有一定區別的。比如對於觀察本身，演算法的觀察是需要環境的，沒有充分的觀察，早期的人形機器人在遇到障礙物的時候往往無法順利應對而摔倒。我們就會想，能不能建立一個模擬環境來訓練這些機器人呢？如果我們有一個很好的環境，我們就可以先去訓練它。也就是說我們一定要有一個很完美的環境才能實現我們的目標。為此，我們建立了虛擬場景，並儘可能地提高它的模擬度。

也只有在這樣的強化環境下，我們才能取得進一步的進展。比如提到應用場景，我們常常會想到遊戲。人們在設計遊戲的時候總是小心翼翼，以確保玩家可以獲得一定的智能化體驗。比如AlphaGo參與的圍棋有3000年的歷史，這是一個非常有挑戰性的環境，因為沒有一個單一的解決方案能確保帶來最好的結果。當然，我們也可以整合不同的能力讓它們玩不同的遊戲，比如通過訓練讓機器人學會下國際象棋。

我們也有專門下圍棋的演算法，這時目標變得更加複雜，玩法也變得更加複雜。目前沒有一台機器可以通過搜索策略的方法來玩好這個遊戲。

那AlphaGo是通過什麼方法來玩這個遊戲的呢？正是強化學習。我們的神經網路可以自動地從數據中學習一些特徵。這樣我們就可以讓它看著棋盤，看人類怎麼走，棋盤上也會顯示出輸贏。也就是說我們不需要展開整個展示走法與輸贏的網路，只要展開一部分網路就可以做出很好的模擬。這是一個很好的突破。

但這樣也不是特別好。因為我們在以人的角度去學習，都要使用數據集來訓練。後來我們隨機地運行遊戲，下過一局之後AlphaGo就可以了解一下比賽是如何進行的，就可以調整整個網路，最終學會下棋。

這些網路是在玩遊戲的過程中不斷訓練提升的。AlphaZero隨機下棋。經過幾天的訓練之後，就學會專業棋手的走法了。

所以，我們第一版的AlphaGo擊敗了樊麾，後來下一個版本在韓國和李世石進行了對弈並取得了勝利。再後來我們進一步地訓練網路，整個網路比之前強了三倍，贏了柯潔和其他專業棋手。我們是從零開始，一點點積累積數據訓練，最後戰勝了專業棋手。

除此之外，我們比較感興趣的是遊戲《星際爭霸II》。這也是是非常有趣和複雜的遊戲，這個遊戲基本上是建造一些建築物以及單位，在同一個地圖裡不同的組織會相互競爭。在這個遊戲中，哪怕只是建造建築物，也需要做出許多決策。而除此之外，我們還要不斷收集和利用資源、建造不同的建築物、不斷擴張，因此整個遊戲非常具有挑戰性。

我們在這個遊戲中使用的方法依舊是強化學習。我們要模仿人類玩這個遊戲的方式，但即使是模仿人類點擊滑鼠和敲擊鍵盤的行為也非常困難。為此，我們引入了一個遊戲引擎。

和圍棋任務最大的不同在於，圍棋可以看到整個棋盤，但是在《星際爭霸II》中我們通常無法看到整個地圖，需要派小兵出去偵查。而且遊戲是不間斷進行的。整個遊戲甚至會有超過5000步的操作。而且對於增強學習，除了上下左右這些普通的移動，我們發現用滑鼠點擊界面控制不同物體的移動以及不同的行為，也是非常難的。我們發布了這個環境，所有人都可以參與其中。我們也發布了相關的報道，這基本上是一個開源的平台，大家可以測試自己的演算法。

我們還沒有完成過整局遊戲，但是完成了操作《星際爭霸II》比較重要的7個操作，比如選擇一個單位並讓它移動過去。我們所使用的演算法能做到這一步，而且和人類玩家操作的效果基本一樣。而另一些任務，比如建造建築、收集資源等，仍然是比較難的。我們測試的演算法，表現會比隨機的環境要好，但和專業玩家還是有一段距離的。

我們的第一版是在Linux平台發布的。我可能是第一個用Linux玩《星際爭霸》遊戲的人。我們的增強學習還是做得非常好的，所以我們可以直接通過人的視角來觀察這個遊戲。如剛才所說的，我們可以將地圖看成一個40×60的像素。從像素來開始進行判斷的話，其實能夠幫助我們更好地去了解機器是怎麼樣玩遊戲的，雖然說機器還沒有辦法完全像人類一樣。

《環球科學》2月刊現已上市

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 環球科學 的精彩文章:

※這種全新的數字貨幣比比特幣更靠譜，或許會讓銀行消失

TAG:環球科學 |