當前位置:
首頁 > 遊戲 > 谷歌人工智慧DeepMind與《星際爭霸2》戰隊進行交流

谷歌人工智慧DeepMind與《星際爭霸2》戰隊進行交流

谷歌人工智慧DeepMind與《星際爭霸2》戰隊進行交流

在1998年《星際爭霸》問世之時,DeepMind人工智慧(AI)研究員Oriol Vinyals還是一名西班牙少年。他當時就愛上了這款遊戲,排名也不斷提升,甚至還奪得了世界電子競技大賽(WCG)的第三名。自那時起,他就成為了AI研究中的最強大腦之一。他目前正在進行什麼項目?開發一款精通《星際爭霸II》的機器人,或稱之為「智能體」。

谷歌人工智慧DeepMind與《星際爭霸2》戰隊進行交流

感謝您抽出時間與我們交流!您能介紹一下自己嗎?

Oriol:我是Oriol Vinyals,DeepMind的研究員。我目前負責主持《星際爭霸II》項目。我致力於發展人工智慧相關科技。《星際爭霸》是優秀的研究媒介——事實上,我在加州大學伯克利分校讀博期間就針對該遊戲進行了部分研究。

您在攻讀博士學位時主要研究的是《星際爭霸》嗎?

Oriol:我的一位朋友曾說:「在伯克利分校中,有團隊準備參加『AI對抗AI』的比賽。既然你曾經參加過競技比賽,那麼去了解一下應該很不錯。」

他們當時正在以異蟲單位——異龍為基礎,創造機器人。於是我就開始與智能體比賽……他們都喊我「教練」。

該項目的遊戲方式是以專家規則為基礎的。「我們計劃建造許多異龍,因此我們需要設計一個建造命令,希望其能夠應對早期的快速發展,並擴展到足以滿足生產需要。」諸如此類。這種方法非常程序化,儘管其已經學會了實際中的異龍微操。我們其實贏了那場比賽。真是有趣極了。

谷歌人工智慧DeepMind與《星際爭霸2》戰隊進行交流

那項工作與您現在在DeepMind中的工作有何不同?

Oriol:DeepMind如今正在開發人們稱為「AGI」——即通用人工智慧的技術。我們不僅僅單純地開發玩某一種遊戲的智能體,而是想要了解到底什麼是學習範式。正因為如此,這種智能體在沒有大量先驗知識的情況下,也能夠玩任何遊戲。我認為,這項機器人的開發任務很有挑戰性,同時又充滿趣味性——我們不編寫規則,僅讓智能體看屏幕。「這是滑鼠和鍵盤。去吧,開始與遊戲互動,試著玩得更好。」

是什麼吸引DeepMind去研究《星際爭霸》?

Oriol:對於AI來說,這款遊戲確實頗具挑戰性。在圍棋中,你總是可以縱觀棋局;但在《星際爭霸》中卻不能如此,所以你需要使用偵察機……當然還有交互界面——這是一個很棒的測試平台,通過它你能夠了解,自己的智能體是否能夠用「選中-點擊」的方式與遊戲交互,這與Atari中的14個動作有所不同。這確實是一項令人興奮的挑戰。

谷歌人工智慧DeepMind與《星際爭霸2》戰隊進行交流

項目進行的如何?

Oriol:因為訓練模型的方式,肯定會出現一些非常明顯的差別。回顧起來,其威力是顯而易見的。例如,利用單動作進行鏡頭移動,環視地圖。事實證明,隨機智能體會把鏡頭從它們的營地移開,並且從來不會返回來看它們需要關注的東西——比如營地、建築建造等。

很簡單地,對於人類來說——鏡頭的概念就是幫助他們在左下方查看小地圖;這些智能體遍布整片區域,不斷點擊小地圖,但這種做法肯定不能讓它們到達任何地方。如果它們突然幸運地點到了營地,它們下一步的行動就會是:選擇所有工人,並將它們派出去。

這也是我們極不願意看到的。自此,它們確實需要獲得某些訊號、獎勵。我希望它們能夠獲得好運氣,完成正確的事,並且隨後(到那時)開始學習。這與Atari的遊戲有所不同——在Atari中,你可以迅速地採取合理的行動;而《星際爭霸》擁有不同的指數行動空間。在這片區域中,尤其是在不受限制的遊戲設置中,是很難順利開展行動的。

我們發布了一套迷你遊戲,它是《星際爭霸》的簡化版本。我們將遊戲的某些部分分割為地圖,其中包括「擴展和建造大量工人」、「移動單位並嘗試覆蓋儘可能多的地圖」等等內容。在迷你遊戲中,我們讓智能體有機會學習在四周移動單位的基礎要素,比如戰局......

(若想了解更多細節,請參閱DeepMind與暴雪聯合發布的文件,其主要內容為他們在《星際爭霸II》中獲取的早期成果。)

到目前為止,您獲得過什麼驚喜嗎?

Oriol:在這張地圖中有兩名陸戰隊員,他們的任務是拾取地圖上散布的晶體礦。而智能體難以完成的事項之一就是——搞清楚如何獨立使用陸戰隊員。但它們能夠學習到的是採用巡邏的方式移動陸戰隊員。我當時並不知道這一點。巡邏能夠讓陸戰隊員之間的距離保持一致,並使他們能夠在受到控制的同時獲得額外的晶體礦。那是我第一次說——好的,我剛剛學到了關於《星際爭霸II》的新內容。

讓我們再聊點題外話。這項技術最終會超越最出色的人類嗎?

Oriol:我不知道。但我確信這種方式本身具有很廣闊的發展潛力。如果你根據我們在伯克利時所做的一切,用2010年的方法創造機器人,那麼機器人應該可以執行一個、或兩到三個建造命令,但也僅限於此。最終,人們還是可以了解它的運行方式,並揭露其弱點。我喜歡我們的方法的原因是——如果一切順利,智能體就學到了很多編程不可能實現的戰術部署。這就和你不能編寫程序,創造出一名優秀的圍棋棋手一樣。

至於能不能超越最優秀的人類——我確實不知道。時間會證明一切。我不能預言我們是否能夠打敗他們。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!

TAG: |