DeepMind稱霸雷神之錘3:登上Science,人類都是豬隊友
栗子 發自 凹非寺
量子位 報道 | 公眾號 QbitAI
AI組隊,比人類戰隊的成績好。
AI與人類組隊,還是遠超人類。
DeepMind為了訓練強化學習AI的團隊協作能力,選擇了雷神之錘3競技場的奪旗遊戲。
從去年到今年,AI不斷進化:
如今,把反應速度降到和人類水平,把標記準確率也降下來,勝率依然超過人類。
而AI學習的資源,也只有第一視角看到的遊戲場景,以及比分,沒有比人類獲得更多信息。
當AI贏了柯潔,我們說AI不會合作;當AI贏了刀塔2世界冠軍,我們說是冠軍太魚反應速度不公平。
但現在,我們只能看著DeepMind登上最新一期的Science。
然後,觀察一下這些既懂得相互協作、又懂得和人類協作的AI,是怎樣修鍊出來的:
嚴酷的訓練場
奪旗遊戲 (Capture the Flag) 是這樣的:
兩隊各有自己的大本營,目標是把己方的旗守在大本營,並拔掉對方的旗。
如果我是藍方,看見敵人扛著藍旗跑,就要用激游標記它。
這樣,藍旗會失而復得,敵人也會被送回它的老家。
五分鐘內,哪一隊拔掉對方更多的旗,這一隊就贏了。
原本,雷神之錘3競技場里只有5張地圖;團隊競技場,也只有幾十張地圖。
為了讓AI受到更加嚴格的訓練,DeepMind隨機生成了許多遊戲里原本沒有的地圖:
就在這樣的競技場里,DeepMind同時訓練了30隻智能體,主要原理是LSTM。
這30隻AI選手,一共打完了45萬場遊戲。
在這個過程中,還要不時淘汰掉表現不佳的AI,用頂尖AI選手的變異版本 (Mutations) 代替。這是進化演算法的思路。
最終,選出最優秀的一隻AI,取名For the Win (FTW) 。
除了碾壓人類,還會利用遊戲bug
然後,就該測試FTW的實力了。
首先,是人機混戰:DeepMind找來40個人類,與AI隨機組隊。
結果,AI選手的個人勝率遠超人類:
研究人員發現,AI不但能同人類/AI協作,還形成了經典的團戰策略:
比如,跟在隊友身後,這樣一旦與敵人交火,便能在人數上超過對手。
還有,在敵人大本營附近遊盪,當隊友拿到旗子的時候可以迅速接手往回跑。
除了這些人類常用套路之外,AI還發明了全新策略:
利用遊戲里的一個bug,從背後向隊友射擊,能加快隊友的速度。
除了看到現象,團隊還想知道,AI為什麼會修鍊出這許多技能。
於是,研究了AI的行為模式,觀察它們是如何理解比賽:
各種顏色的點點,分別代表:旗在陣地,隊友扛走了敵方大旗,自己處在敵方陣地等等。
不同戰況之下,AI的反應明顯不同。安全和危險,分得清清楚楚。
調至同一起跑線
雖然,AI在初次混戰中碾壓人類,但DeepMind團隊十分理智地以為:
AI之所以超過人類,主要優勢一是反應速度快,二是射得准 (感覺哪裡不對) 。
所以,團隊手動把反應速度調慢到人類水平267毫秒左右,把80%的射擊準確度降低到和人類相當的48%左右
然後重啟比賽,這次是真正的人機對戰。
人類戰隊分為普通人類 (Average Human) 和強大人類 (Strong Human) 。
結果,強大人類組成的戰隊,對戰AI的勝率也僅有21%。
對人類來說,唯一值得慶幸的是:
當有AI加入人類戰隊,與純AI戰隊互打的時候,人類戰隊的勝率終於超過了AI戰隊。
臆測一下,這個大概是說:人類是豬隊友,吧?
Science論文傳送門:
https://science.sciencemag.org/content/364/6443/859
Science報道傳送門:
https://www.sciencemag.org/news/2019/05/artificial-intelligence-learns-teamwork-deadly-game-capture-flag
OpenAI博客傳送門,內容剛剛更新:
https://deepmind.com/blog/capture-the-flag-science/
— 完 —
誠摯招聘
量子位正在招募編輯/記者,工作地點在北京中關村。期待有才氣、有熱情的同學加入我們!相關細節,請在量子位公眾號(QbitAI)對話界面,回復「招聘」兩個字。
量子位 QbitAI · 頭條號簽約作者
?"?" ? 追蹤AI技術和產品新動態

