當前位置:
首頁 > 遊戲 > DeepMind作弊?被質疑干翻星際2頂尖高手全靠手速

DeepMind作弊?被質疑干翻星際2頂尖高手全靠手速

乾明 銅靈 編譯整理

量子位 出品 | 公眾號 QbitAI

幾天前,DeepMind開發的AlphaStar以10-1的戰績打敗星際2職業高手,引發了極大的關注。

DeepMind表示,自己能夠贏,全靠策略。

但這個說法,遭到了大量的質疑,無論是的Reddit和Twitter上,還是知乎和微博上,大多人都持有的觀點是:

AlphaStar能贏,全靠手速。

DeepMind作弊?被質疑干翻星際2頂尖高手全靠手速

打開今日頭條,查看更多圖片

比賽中的一些時間段,AlphaStar的APM能夠達到1000+,而最頂級的人類選手不過500+。更何況,AlphaStar的有效操作也幾乎是炸裂的。

雖然這種情況沒有持續多久,但手速快慢以及精確度,對於星際2太重要了。

在這些質疑中,有一篇文章引發了很多人的關注,Medium上的鼓掌超過了1.3K,Reddit上的Vote也已經逼近700。

這篇文章的作者是一名來自芬蘭的小哥,名為Aleksi Pietik?inen,目前在芬蘭最大的金融公司OP Financial Group工作,自稱是星際2粉絲,對開發AI也有研究。

DeepMind作弊?被質疑干翻星際2頂尖高手全靠手速

他在文章中以充分的論據指出,在比賽中,AlphaStar在操作速度和精準度上遠遠超過了人類,這在很大程度上影響了戰局。DeepMind聲稱已經限制AI執行超越人類能力的行為,但他們沒有成功做到這一點。


AlphaStar的超人手速

通常情況下,APM是反映玩家水平的一個重要標準。

目前,星際2中公認的頂尖人類高手是芬蘭的職業選手Serral,在2018年WCS上,9場重要比賽贏得了7場,一舉奪冠,創造了歷史記錄。

他的手速很快。很多人都認為他應該是世界上最快的。有多快呢?看下面的動圖:

DeepMind作弊?被質疑干翻星際2頂尖高手全靠手速

但即便如此,Serral也不能夠長時間將APM維持在500以上。雖然有個800+的爆發,但也只是持續了幾分之一秒,也很可能是垃圾操作。

AlphaStar呢?爆發後APM能夠達到1500+,有時候能夠在APM達到1000+的時候維持5秒鐘,而且大部分是有效操作。

一分鐘1500個操作,就相當於一秒鐘25個操作。這對於人類來說,是不可能做到的。

而且,5秒鐘的時間在星際2中,也是一段非常長的時間。尤其是在重要的場景中,5秒的高效快速操作,將會為後期贏得勝利奠定關鍵的基礎。

下面的動圖,是第三場比賽中,AlphaStar對Mana的一場交戰場景,AlphaStar的APM達到了1000+,並維持了5秒。

DeepMind作弊?被質疑干翻星際2頂尖高手全靠手速

在第四場比賽中,APM達到了1500+:

DeepMind作弊?被質疑干翻星際2頂尖高手全靠手速

雖然不乏有人說,AlphaStar的平均APM只有277,仍然是可以接受的。但無論如何,它持續的爆發,是人類遠遠做不到的。


AlphaStar的超人精確度

如果把有效操作和垃圾操作考慮在內,AlphaStar就更逆天了。

人類玩家的APM中,有很多都是無效操作,這些操作並不會遊戲產生有效影響。

考慮了這些因素之後,衡量一個玩家手速與精確度時,就有了一個新指標:EPM。

剔除掉無效操作之後,Serral的EPM能夠達到344,每秒鐘有5-6次有效操作。這幾乎是聞所未聞的,以至於很多人都不敢相信這是真的。

如果,AlphaStar能在沒有垃圾操作的情況下進行遊戲的,這就意味著它的峰值APM就等於它的EPM了。速度能達到最頂尖的人類選手的4倍!

雖然AlphaStar團隊表示,這些APM並不全是有效操作。但無論如何,人類都是沒辦法複製AlphaStar這些操作的。

DeepMind作弊?被質疑干翻星際2頂尖高手全靠手速

在敗給AlphaStar之後,MaNa談到了比賽的感受。他說,AI最好的一面是單位控制,在我們情況差不多的時候,AlphaStar能輕鬆獲勝。

但最糟糕的一面也是如此,AI非常確信自己能夠通過單位控制獲勝,以至於沒有做其他任何事情,導致最後一場失利,比賽中沒有多少關鍵的時刻,它能贏在於機制。

這也不是DeepMind想要看到的情形。

AlphaStar團隊也致力於開發不超越人類操作能力的智能體。聯合負責人David Silver反覆表示,AlphaStar不會超過人類選手的表現。

首席設計師也說,讓系統能夠「像人一樣」訓練是可取的,如果只是通過很高的APM來將遊戲推向極限,聽起來可能很酷,但這並不能用來評估智能體的真實能力。


「對人類不公平」

如上所述,AlphaStar的研發團隊對AI系統的APM進行了限制的。Aleksi Pietik?inen推測,

可能會限制以下方面:

1、整個遊戲中的平均APM

2、短時間內的爆發APM。將APM限制在每秒4-6次是一個合理值。Serral有效操作每秒鐘還不到6次。

但與Mana對戰的AlphaStar最高每秒操作25次左右,這比人類選手最快情況還要高,因此Aleksi Pietik?inen認為出現這種情況是不合理的。

3、點擊間隔。即使AI的點擊速度被限制了,它仍然可以在瞬間執行完動作,不用去考慮人類面臨的滑鼠點擊間隔問題。

DeepMind作弊?被質疑干翻星際2頂尖高手全靠手速

三個原則確定後,接下來需要去訓練模型了。DeepMind的方法是,下載了上萬條人類高級玩家打遊戲的視頻,開始模仿學習。

在這個階段,AI會試圖模仿人類在遊戲中所做的一切,包括無效操作。因為在輸入給模型的視頻中,人類確實進行了很多無效操作,AI也會學到。

AlphaStar的最大爆發APM,最初與人類在同一起跑線。上面也說到過,因為此時AlphaStar執行的大多數操作都是無效的,因此在對戰中沒有有效的APM支撐,並不佔優勢。

但無效操作太多會一直拖慢訓練進度,為了加速開發,DeepMind團隊改變了對APM的限制,允許出現高爆發,Oriol Vinyals在Reddit的AMA中也提到了這一點:


5秒的時間段內APM最大為600,15秒內APM為400,30秒時間內為320,60秒內為300。如果AI在此期間內執行了更多操作,系統會選擇刪除/忽略操作。

乍一看DeepMind對星際2的AI的設置合情合理,但如果細想前面討論過的人類的爆發速度及操作精確度與點擊間隔時間,又不是那麼回事。

DeepMind作弊?被質疑干翻星際2頂尖高手全靠手速

舉個人類無效操作的最典型例子:想指揮單位移動、攻擊,就要用滑鼠點擊地圖上某個位置,這時候,人類的點擊速度會儘可能最快,這些點擊中也就有很多是無效的。

AI也會跟著學到這些無效操作。

而人類的點擊速度是有限的,所以AI一開始學到的操作速度也會受到同樣的限制。而它後來表現出的超人手速和這個人類速度相比,之間差了很多額外的「自由」APM。AI可以在這些自由APM上隨意實驗。

在交戰的時候,AI就會拿這些自由APM來實驗,從中學會能得到更好成績的新行為模式,捨棄原本的無效操作。

這對人類來說,似乎是非常不公平的事情。

既然AI學會了更有效的操作,為什麼DeepMind沒有重新啟用推出SC2LE環境時的180 APM嚴格限制呢?

這可能是因為,AI偶爾還是會有無效操作出現,這會明顯吃掉它的APM資源,在交戰時傷害到它的表現。

在DeepMind給出的官方資料中還有一些疑點。

在APM統計中看出,雖然Mana的APM平均值更高,但AlphaStar的「長尾」遠遠高於人類,在這些情況下AI用人類無法企及的精確度完成任何操作足矣。

DeepMind作弊?被質疑干翻星際2頂尖高手全靠手速

可以看到,TLO的APM甚至到了2000,這個數值高得似乎有些離譜,這種情況可能是通過加速鍵盤實現的,這也會帶來無效操作。

但DeepMind並沒有解釋TLO的APM是怎麼來的,但這樣會讓人誤以為AlphaStar的操作是合理的。

最後需要說明的一點是,這篇文章只是Aleksi Pietik?inen的觀點。

也有一些人認為,就算AlphaStar的APM爆發突破了人類範疇,但它帶來的突破性進展及其背後的意義,也是毋庸置疑的。

你怎麼看?歡迎在留言區跟我們互動。

誠摯招聘

量子位正在招募編輯/記者,工作地點在北京中關村。期待有才氣、有熱情的同學加入我們!相關細節,請在量子位公眾號(QbitAI)對話界面,回復「招聘」兩個字。

量子位QbitAI · 頭條號簽約作者

?"?" ? 追蹤AI技術和產品新動態

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!

TAG: |