圍棋之後，人工智慧要完爆「星際2」玩家？這正是我們所期待的！

最新 03-13

RoboMaster 技術智囊團，用簡單的方式帶你入門機器人知識，每周日準時更新。

小時候，大人告訴我們，玩遊戲的是壞孩子，想當科學家的是好孩子。你有沒有想過，有一天，科技公司竟然和遊戲公司合作，讓機器人去打遊戲？

事情真的發生了……去年，DeepMind 和暴雪娛樂宣布合作，讓人工智慧（簡稱 AI）學會玩「星際爭霸2」遊戲。

DeepMind 是 Alphabet 旗下的子公司，這個公司你可能沒聽過，但是你一定知道他們做的 AlphaGO，曾經打敗了圍棋九段李世石。

AlphaGO 與李世石對戰

之後，他們立下 Flag 要挑戰實時戰略的視頻遊戲，比如「星際爭霸2」這種。

「星際爭霸2」

Whaaaat？我們不僅能看到 AI 下棋，還能看到 AI 打星際爭霸？難不成科技公司經營不下去，要接遊戲廣告了？

其實不是，這次合作可以說是轟動了整個 AI 界。事情是這樣的……

圍棋是一種「完全信息博弈」遊戲，雙方玩家都能看到棋盤，而且有時間慢慢思考和制定策略。

而星際爭霸就很有趣了，如果你沒有兵力在附近，就看不見對方的行動，而且還要快速做出高級戰略決策。這就是「非完全信息博弈」。

AI 眼中的星際爭霸

AlphaGo 在圍棋這種思維複雜的遊戲中壓制人類，說明機器學習已經掌握了這種信息推理的棋牌遊戲了。

那機器學習能不能在「非完全信息博弈」上打敗人類？

這個問題極有學術價值，星際爭霸就是一個很好的測試平台，也被視為 AI 進階的跳板。

GIF

人機對戰星際爭霸

機器學習是什麼呢？在之前我們有介紹過，這裡帶大家簡單複習一下。

也可以直接看往期機器學習科普，穿梭門：《機器人如何在複雜的環境下進行視覺識別？》

機器學習就是讓機器自己學習知識，通過自己攢經驗和學別人的經驗，並且總結和優化來提高技能。

機器學習有三個基礎屬性：

數據、演算法、模型

機器學習有幾種常用的方法，我們用科科和他的計算機來比喻。

科科有一台計算機，他想教它分辨小貓小狗的圖片，於是找到了幾種機器學習常用的方法：

第一種，直接告訴計算機圖中哪些是貓哪些是狗。

計算機記住了這些被貼了標籤的圖片後，升級到能夠認出圖片以外的貓狗，這就是監督學習。

監督學習：數據+標籤

第二種，丟一大堆未命名的圖給計算機，讓它自己去總結貓和狗的不同。

聰明的計算機會發現貓狗背後的規律——比如搖著尾巴求抱抱的是狗，瞧不起人的是貓，這就是是非監督學習。

非監督學習：數據，無標籤

第三種，只指出圖中兩三隻貓狗。

計算機通過這幾張照片總結規律，再自己探索其他貓狗，這就是半監督學習。

除了上面幾種，科科還喜歡一種「殘暴」的強化學習法（也叫增強學習）。

就是把計算機丟到一個對它來說完全陌生的環境，或者讓它完成一個沒接觸過的任務，讓它試各種手段，跌得滿身是傷，最後自己適應環境或者完成這個任務。

這就是 AlphaGo 的學習手段，阿爾法狗也是歷經折磨和艱辛才達到今天的水平啊。

AlphaGo 的思考方式

藍色為可以放置棋子的位置

強化學習通過淘汰機制去選擇最優的設計或模型，和優勝劣汰的自然法則很像。

比如發現某一個決策做錯了，以後就摒棄它。

DeepMind 就是要用機器學習的方式，讓 AI 挑戰遊戲。

除了「非完全信息博弈」看不到對方的決策，讓 AI 玩「星際爭霸2」還有其他頭疼的問題。

「星際爭霸2」不像回合制遊戲可以一人一招輪流打，而是要制定長、短線戰術，比如選擇正面進攻還是偷襲騷擾。

簡單的回合制遊戲

還要根據最新信息調整計劃，比如本來打算偷襲騷擾，結果發現對方正在掛機，於是果斷正面進攻。

要讓軟體同時具備這兩種能力是非常難的。所以，大家看到 AI 打「星際爭霸」打得很菜的時候，也不要嘲笑它是人工智障好嘛。

GIF

測試 AI 在不同任務中的表現

可以看出，「星際爭霸2」更能模擬真實世界的混亂狀況，所以如果開發出了一套機器學習系統掌握遊戲技巧，那真實世界的複雜任務就可以讓 AI 去做了！

無人駕駛就需要應對複雜的交通狀況

也就是說，這個研究不是為了讓 AI 打遊戲，而是教機器人做戰略分析。

等到這條路的終點，機器人不再是「機器」，而將是有完整的認知、能夠分析決策，甚至可能欺騙的會思考的智能體。

但是，距離這個終點還有很久。因為有人試過，讓表現優異的AI和最簡單的內置AI對打時，前者以全敗告終，連最簡單的「人機」都打不過……

不過，AI 打遊戲也不是一無是處，它也有操作優勢。

之前有一個熱門視頻，AI 控制蟲族的 100 條小狗咬爆了人族的 20 輛坦克，而人類玩家絕對不可能有這種騷操作。

GIF

小狗咬爆坦克

它需要一隻小狗受到坦克攻擊的時候，邊上的小狗全部跳開，免得被炮彈範圍內的濺射殺死，這個操作給你十隻手都不一定能實現。

然而，即使 AI 有微操優勢，也還是打不過人類玩家。

人類有各種花招能對付他，可以早期突襲、可以派兵騷擾殺農民、可以空投對方基地搗亂、可以派隱形兵力讓對方挨打了還不知道發生了什麼……

GIF

佯裝在礦區進行光子炮台 rush

實則從路口建立陣地

即使人們訓練 AI，讓它的表現有些提高，但想要達到競技的目標，還是需要在深度增強學習和相關領域有更多突破。

機器學習那麼難，有小夥伴要問，實現人機大戰一定要用機器學習嗎？普通的編程行不行？

不行！對戰非常需要偵察和隨機應變，顯性地寫代碼幾乎不可能做到。

據估計，「星際爭霸2」每場對決有 101685 種可能的配置，鮮明的對比是：阿爾法狗的配置層是 10170。

人類可以趁電腦沒有防空，就派空軍，可以趁電腦沒有防隱形，就派隱形兵種。如果要用一個一個代碼去表達所有可能發生的情況，會涉及海量數據，開發難度巨大。

要分析每一種情況，再敲成代碼

程序猿的頭髮再多也難做到啊！

豐富的策略與隨機應變正是「星際爭霸2」的遊戲精髓，用編程的辦法很難有出路，還是得讓機器自我學習發展出隨機應變的能力。

在 ICRA 2018 DJI RoboMaster 人工智慧挑戰賽中，也面臨同樣的問題，比賽需要 4 台全自動機器人 2 V 2 對抗。

雖然參賽的角色少，對抗的環境也沒那麼複雜，但實體的對抗讓比賽更加充滿不確定性。

比賽機器人

參賽選手可以給機器人設定射擊和躲避的程序，但使用機器學習的機器人明顯更有優勢。

希望了解更多對抗比賽中機器學習技術應用的小夥伴，可以穿梭至：《機器人比賽中，關於機器學習對競技規則和未來研究的幾點思考》

棋手柯潔曾說：「人類已經研究圍棋研究了幾千年了，然而 AI 卻告訴我們，我們甚至連其表皮都沒揭開。」如果突破了這項技術，那人類將迎來強 AI 的時代！

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 RoboMaster 的精彩文章:

※人臉識別、語音翻譯、無人駕駛……這些高科技都離不開深度神經網路了！
※走直線很難嗎？陀螺儀錶示，少了它機器人連直線都走不了

TAG:RoboMaster |