當前位置:
首頁 > 知識 > AI吊打Dota2人類高手?你可能又被標題黨坑了

AI吊打Dota2人類高手?你可能又被標題黨坑了

出品:科普中國

製作:關西科健產業研究院 Chubbler

監製:中國科學院計算機網路信息中心

最近,AI英雄榜又喜迎一位重量級新成員。在大家逐漸接受了人工智慧「阿爾法狗」(AlphaGo)先後完虐人類兩大頂尖棋手李世石和柯潔的事實,並開始逐漸淡定之時,8月11日,由埃隆·馬斯克(Elon Musk)推出的一位AI玩家——OpenAI Bot高調出席了Dota2國際邀請賽「The International」),並在1v1比賽環節中於第一局比賽開場的十分鐘之內,就迅速「吊打」了烏克蘭現役Dota2頂級職業玩家Danylo Ishutin(綽號「Dendi」)。媒體當即哀鴻遍野,Dota2戰場正式「被」宣布淪陷。

AI吊打Dota2人類高手?你可能又被標題黨坑了

(Dendi與OpenAI Bot的「世紀之戰」,圖片截圖自優酷視頻)

於此同時,谷歌DeepMind聯手暴雪娛樂也發出官方聲明,欲訓練AI挑戰《星際爭霸2》世界頂級玩家。

人工智慧代表著計算機領域發展的制高點,在各行各業具有著無限潛力和應用價值,但不難發現,近幾年來新聞中出鏡率頗高的AI(人工智慧)技術突破往往總和各類遊戲聯繫在一起,從傳統的棋牌類遊戲(象棋、圍棋、德州撲克)到電子遊戲(星際、Dota),投資商及軟體開發精英似乎總是偏愛從與人類生活關係並不密切的遊戲入手,通過開發,如AlphaGo這樣的遊戲AI,在娛樂中促使我們思考諸如人類與人工智慧的關係、人工智慧的發展方向與未來等深奧的科學哲學問題。

那麼問題來了,為何AI的開發總要以遊戲為切入點呢?

正如AlphaGo之父,谷歌旗下DeepMind公司CEO哈薩比斯所說:「遊戲是測試AI演算法的完美平台,這裡有無限的訓練數據,不存在測試偏差,能夠實施並行測試,並且還能記錄每個可以量化的進展」。

"Games are the perfect platform for testing AI algorithms. There"s unlimited training data, no testing bias, parallel testing, and you can record measurable progress."

-- Demis Hassabis, CEO and co-founder of DeepMind

AI吊打Dota2人類高手?你可能又被標題黨坑了

(AI研究者與遊戲挑戰的關係,圖片來自網路)

由此可見,與其說是AI 研究者愛跳遊戲挑戰的坑,不如說是遊戲挑戰平台高效、安全和可測的運行環境就是為AI 研究者跳坑而生。例如,在開發在自動駕駛系統中可以自動識別交通標誌的AI時,為了避免在現實環境中進行測試為正常的車輛和行人造成困擾,普林斯頓大學(Princeton University)的研究團隊更傾向於選擇在《俠盜車手》(Grand Theft Auto)遊戲中對AI識別交通標誌的能力進行開發和測試。

由此可見,在這些遊戲中勝出的AI,其意義遠不僅局限於贏得比賽本身,而是想通過AI演算法的開發,讓其像人腦一樣不僅具備處理各種問題的能力,還兼具自我學習和進化的能力,再利用其演算法為人類做出更多的貢獻。

事實上,自2014年以來,連續舉辦的通用遊戲AI競賽(General Video Game AI Competition,GVG-AI Competition)的核心就是測試AI解決各種問題的能力。在這項比賽中,AI 需要在未知的10款Atari遊戲中對戰並學習如何贏得比賽。

正如阿爾法狗在真正進行人機對弈之前,進行過無數次的自我對弈一樣,遊戲AI的對手並不局限於人類,不同團隊開發的遊戲AI之間,甚至某個遊戲AI自身都可以進行對弈。

AI吊打Dota2人類高手?你可能又被標題黨坑了

(傳統的俄羅斯方塊遊戲(左)與GVG-AI競賽中AI之間的俄羅斯方塊比賽(右),圖片來自網路)

所以說,現在AI開發者都在玩什麼遊戲呢?

隨著AI技術的不斷發展,AI所能進行的競技性遊戲更加複雜化、多元化。廣義上來說,競技性電子遊戲可分為兩種類型:完全信息博弈(complete information game)遊戲和不完全信息博弈(Incomplete information game)遊戲。

完全信息博弈遊戲:在這類遊戲中,每一個參與者都擁有所有其他參與者的特徵、策略集及得益函數等方面的準確信息的博弈(尷尬而不失禮的翻譯:己方的生命值,武器系統,技能系統等相關信息都被博弈對手所完全掌握,反之亦然。當然,這裡並不是說你將要使出的招法在出招之前就能被對方預知,而是說你只能使出招式表中的招法。對手即便知曉你的全部出招可能,出什麼招,何時出仍然是你根據場上形勢隨機應變,相時而動的)。

典型的完全信息博弈遊戲包括:《乓》、《太空侵略者》、《街霸3》和《象棋》等等。進行這類遊戲時,兩個玩家共享同一個屏幕,看到的畫面完全同步。

AI吊打Dota2人類高手?你可能又被標題黨坑了

(完全信息博弈遊戲,圖片來自網路)

不完全信息博弈:對其他參與人的特徵、策略空間及收益函數信息了解的不夠準確、或者不是對所有參與人的特徵、策略空間及收益函數都有準確的信息,在這種情況下進行的博弈就是不完全信息博弈(尷尬而不失禮的繼續翻譯:玩家只能知道己方(甚至僅僅自己)正在進行的操作,而對於對方玩家的情況僅知曉一部分。最典型的例子就是RTS遊戲中的戰爭迷霧(war fog)讓玩家並不能直接獲取對手的動態,對手是選擇暴兵還是升級科技往往只有短兵相接的那一刻才能真正揭開謎底。)。

典型的不完全信息博弈遊戲包括《星際》、《CS:GO》、《Dota》等即時戰略(RTS)或第一人稱射擊遊戲。

AI吊打Dota2人類高手?你可能又被標題黨坑了

(不完全信息博弈,圖片來自網路)

即使通過遊戲體驗,普通玩家也能猜到完全信息博弈情形下的遊戲AI開發難度要遠遠低於非完全信息博弈。譬如,在棋類遊戲中,遊戲AI與人類玩家共享相同的戰局態勢,一旦突破了核心演算法,AI的超強運算能力就有了用武之地。AlphaGo在與柯潔的對戰中體現出滴水不漏的攻防,展示出決勝千里的妙招也就不足為奇了。

在AlphaGo這樣高度進化的遊戲AI出現之後,人類圍棋技藝中所謂「勢」的概念也可能要成為歷史了。「勢」這樣玄乎其技的說法,實際上是在掩飾人類大腦的運算能力無法看破複雜局面的窘迫,對於AI來說,於人類而言如同迷霧一般的棋局可能不過是中央處理器多運行的幾十個納秒而已。

通用遊戲AI競賽中的十多款Atari遊戲都屬於完全信息博弈。在這些遊戲中,複雜度最高的幾款遊戲AI仍達不到擊敗人類玩家的水平。而在其餘的一些規則相對簡單的遊戲中(如《乓》和《太空侵略者》遊戲),人類玩家已經遠不是AI的對手。

在這些遊戲中,AI是如何被開發並優化,一步步擊敗人類的呢?

目前比較流行的通用遊戲AI訓練方式是以2013年NIPS上發表的,關於深度Q網路(Deep Q-Learning Network, DQN)為基礎的強化學習(Reinforcement Learning)和深度神經網路(Deep Neural Network,DNN)的結合。下面兩篇文獻中有詳細的解釋,這裡僅以《乓》為例做簡要介紹。

?Playing Atari with Deep Reinforcement Learning. ArXiv (2013)

?Human?level control through deep reinforcement learning. Nature (2015)

首先,簡要介紹一下啥叫強化學習和深度神經網路。

強化學習(Reinforcement Learning)是機器人(可以理解為AI)在與環境交互中,根據獲得的獎勵或懲罰,不斷進行學習的一種機器學習方式。

AI吊打Dota2人類高手?你可能又被標題黨坑了

(強化學習示意圖)

如圖所示,從環境中,機器人會不斷地得到狀態(State)和獎勵(Reward)。這與動物學習非常類似。一開始,機器人不知道環境會對不同行為做出什麼樣的反應,僅從環境中獲取觀察的狀態,這就是最上方箭頭表示的感知(Perception)。而環境能夠根據機器人的行為反饋給它一個獎勵。

例如在《乓》中,向上移動回擊小球,如對手沒接住就分會增加一分,那麼這一步的獎勵就是正值;反之,獎勵為負值。重複感知、行動和獎勵的過程就形成一個強化學習的交互流程,AI在這種交互中不斷糾正自己的行為,從而對環境變化做出最佳的應對。

深度神經網路(Deep Neural Network,DNN),也被稱為深度學習,其產生來源於科學家們模擬人腦中神經元之間傳遞信號的方法開發出的機器學習技術(所以才叫人工智慧啊喂)。

眾所周知,人腦中神經網路由1000億多個神經元(即神經細胞)構成,不同神經元之間通過突觸結構彼此相連。在這之中,每個神經元需要接收來自不同數個臨近神經元傳來的信號(輸入1,輸入2,輸入3……),進行整合(後最終被傳播到「輸出層」,將神經網路的最終結果輸出給用戶。

由此可見,神經元的計算對數據的識別、處理(加權)及最終輸出具有至關重要的作用,在計算機領域,這個中間步驟被稱為網路的「隱藏層」。

AI吊打Dota2人類高手?你可能又被標題黨坑了

(神經元/深度神經網路工作原理,圖片來自網路)

深度神經網路與強化學習的聯合應用,即是深度Q網路模型(深度強化學習)。例如,在《乓》中深度Q網路的簡略流程 :輸入遊戲原始畫面,經過隱藏層加權後會輸出概率動作輸出空間。例如,在《乓》中選擇上移(Up)、下移(Down)和不動(Stay)的概率。

AI吊打Dota2人類高手?你可能又被標題黨坑了

(深度Q網路流程圖(圖片來自https://blog.openai.com))

又如,Deepmind在2013年提出的一個更為複雜的深度Q網路網路結構。輸入是連續4幀遊戲原始畫面,輸出是不同動作的長期化收益Q,中間為兩個卷積層(Convolutional Layer)和兩個全連接層(Fully Connected Layer)。

AI吊打Dota2人類高手?你可能又被標題黨坑了

(DQN網路結構圖(圖片來自http://www.teach.cs.toronto.edu))

我們再回到開頭,看一下這次Dota2的人機對抗視頻。比賽距今已約兩周的時間,OpenAI最終公布了Dota AI的一些比賽細節,不過還是有所保留,並未公布全部的技術細節,不過我們可以從公開消息中猜測一二:

1.Dota是不完全信息博弈,玩家並不能直觀獲得對手的位置和活動信息。這使得每一步的決策都是在具有不確定性的條件下做出的。

2.AI機器人並不能局限於僅提供類似「向上移動」這樣的微觀操作。必須把微觀操作轉換連續的宏觀動作流程,就像比賽視頻中的卡兵操作。

3.Dota是多機器人 (multi-agent) 合作博弈,這是當前AI領域最具有挑戰性的部分。

4.合理的分配、使用道具,這涉及到長期的規劃策略。

OpenAI Bot選擇了1v1的對抗模式,簡化其有效動作數(available actions)和有效狀態空間(state space)數。在該限制條件下,對抗的關鍵為技能選擇和短期策略,並不涉及到長期規劃和多機器人協調。也就是說對戰環境的設置更加類似於《街霸》一類的格鬥遊戲,而不是真正的即時戰略。

AI吊打Dota2人類高手?你可能又被標題黨坑了

(一些可能的AI輸入信息)

值得注意的是,如果將遊戲設置為即時戰略(RTS)模式,從目前來看,就算在OepnAI的限制場景下, OpenAI Bot還未達吊打人類的水平。由於演算法魯棒性和泛化能力的局限性,它還無法像人類玩家一樣從若干幾回合的對局中找到對手弱點並加以針對。就像Deepmind在開源的星際2人工智慧學習環境(SC2LE)中指出的那樣,現階段,AI還不具備在即時戰略(RTS)遊戲中對抗人類玩家的能力。

AI吊打Dota2人類高手?你可能又被標題黨坑了

(OpenAI Bot被戰翻50餘次)

從傳統的棋牌類遊戲(象棋、圍棋、德州撲克)到經典對戰電子遊戲(星際、Dota、CS),AI在征服了幾乎全部的棋牌類遊戲之後,又將魔爪伸向了即時戰略遊戲。人類還能在多大程度上延緩AI的攻勢,即時戰略遊戲何時才會全面淪陷?非完全信息博弈遊戲集中體現了人類智慧的高度,如同兩國交戰,戰術和戰略層面的種種策略——誘敵深入、千里奔襲、圍魏救趙、擒賊擒王、聲東擊西、瞞天過海……都可以在Dota以及CS中找到對應的影子。

如果有一天,AI也能產生「謀略」,像人類一樣運籌帷幄、縱橫捭闔,類似電影《終結者》系列中擁有自主智能並致力於絞殺人類的AI「天網」可能絕非狂想。在不斷提升AI性能、應用領域的同時,人類還需不斷的思考人工智慧的發展方向以及人類與人工智慧的未來。

參考文獻

1.Volodymyr Mnih, Koray Kavukcuoglu, David Silver, Alex Graves, Ioannis Antonoglou, Daan Wierstra, Martin Riedmiller. Playing Atari With Deep Reinforcement Learning. NIPS Deep Learning Workshop, 2013.

2.Volodymyr Mnih, Koray Kavukcuoglu, David Silver, Andrei A. Rusu, Joel Veness, Marc G. Bellemare, Alex Graves, Martin Riedmiller, Andreas K. Fidjeland, Georg Ostrovski, Stig Petersen, Charles Beattie, Amir Sadik, Ioannis Antonoglou, Helen King, Dharshan Kumaran, Daan Wierstra, Shane Legg, Demis Hassabis. Human-level Control through Deep Reinforcement Learning. Nature, 518: 529–533, 2015.

3.PySC2 - StarCraft II Learning Environment. https://github.com/deepmind/pysc2

4.Dota Bot Scripting - API Reference. https://developer.valvesoftware.com/wiki/Dota_Bot_Scripting_-_API_Referenc

AI吊打Dota2人類高手?你可能又被標題黨坑了

「科普中國」是中國科協攜同社會各方利用信息化手段開展科學傳播的科學權威品牌。

本文由科普中國融合創作出品,轉載請註明出處。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 知識百科 的精彩文章:

超過270萬年的老冰棍, 我還挺想吃
這個最輝煌的朝代,被這群豬隊友給弄垮了!
玻璃天窗好看,但車禍時會不會影響整車安全?
飯後散步真的會造成胃下垂嗎?

TAG:知識百科 |

您可能感興趣

發售日期又變了!不看好這份攻略你可能就要錯失Air Jordan 1 「Bred Toe」了!
發售日期又變了?!不看好這份攻略你可能就要錯失Air Jordan 1 「Bred Toe」了!
令人意想不到!IphoneX可能會停產
Lana Del Ray可能是兩個人!
徹底放棄BlackBerry系統:黑莓可能要強攻高端手機了
再不買iPhone X它可能就要停產了
這雙Virgil Abloh x AJ1,你可能買不起……
這隻鴿子可能又要來搗亂了,Nike可能將再度聯手Staple
新款 AirPods 要來了,支持「嘿,Siri」,但可能要讓你多掏 300 塊……
這可能是最像iPhoneX的國產手機了,配置還挺高!
可能是你玩過最燒腦的戰棋!FTL製作者帶來的Into the Breach
新款 AirPods 要來了,支持「嘿,Siri」,但可能要讓你多掏 300 塊…
新款 AirPods 要來了,支持「嘿,Siri」,但可能要讓你多掏 300 塊…
iBoot代碼泄漏到GitHub可能有助於iPhone的破壞者
你可能還不認識蘋果剛出的 HomePod
三星S9想要抄襲iPhone X的面容ID?可能性幾乎沒有,簡直痴人說夢
女神Adrianne Ho在北京找到最愛餐廳!你可能要去打卡了!
iPhone X可能要變為絕版?
可能是最亮騷配色了!這雙怪異的 Air Jordan 1 你還是第一次見!
沒有這個男人,Gary Oldman可能拿不到奧斯卡影帝