當前位置:
首頁 > 最新 > 圍棋之後,人工智慧要完爆「星際2」玩家?這正是我們所期待的!

圍棋之後,人工智慧要完爆「星際2」玩家?這正是我們所期待的!

RoboMaster 技術智囊團,用簡單的方式帶你入門機器人知識,每周日準時更新。

小時候,大人告訴我們,玩遊戲的是壞孩子,想當科學家的是好孩子。你有沒有想過,有一天,科技公司竟然和遊戲公司合作,讓機器人去打遊戲?

事情真的發生了……去年,DeepMind 和暴雪娛樂宣布合作,讓人工智慧(簡稱 AI) 學會玩「星際爭霸2」遊戲。

DeepMind 是 Alphabet 旗下的子公司,這個公司你可能沒聽過,但是你一定知道他們做的 AlphaGO,曾經打敗了圍棋九段李世石。

AlphaGO 與李世石對戰

之後,他們立下 Flag 要挑戰實時戰略的視頻遊戲,比如「星際爭霸2」這種。

「星際爭霸2」

Whaaaat?我們不僅能看到 AI 下棋,還能看到 AI 打星際爭霸?難不成科技公司經營不下去,要接遊戲廣告了?

其實不是,這次合作可以說是轟動了整個 AI 界。事情是這樣的……

圍棋是一種「完全信息博弈」遊戲,雙方玩家都能看到棋盤,而且有時間慢慢思考和制定策略。

而星際爭霸就很有趣了,如果你沒有兵力在附近,就看不見對方的行動,而且還要快速做出高級戰略決策。這就是「非完全信息博弈」。

AI 眼中的星際爭霸

AlphaGo 在圍棋這種思維複雜的遊戲中壓制人類,說明機器學習已經掌握了這種信息推理的棋牌遊戲了。

那機器學習能不能在「非完全信息博弈」上打敗人類?

這個問題極有學術價值,星際爭霸就是一個很好的測試平台,也被視為 AI 進階的跳板。

GIF

人機對戰星際爭霸

機器學習是什麼呢?在之前我們有介紹過,這裡帶大家簡單複習一下。

也可以直接看往期機器學習科普,穿梭門:《機器人如何在複雜的環境下進行視覺識別?》

機器學習就是讓機器自己學習知識,通過自己攢經驗和學別人的經驗,並且總結和優化來提高技能。

機器學習有三個基礎屬性:

數據、演算法、模型

機器學習有幾種常用的方法,我們用科科和他的計算機來比喻。

科科有一台計算機,他想教它分辨小貓小狗的圖片,於是找到了幾種機器學習常用的方法:

第一種,直接告訴計算機圖中哪些是貓哪些是狗。

計算機記住了這些被貼了標籤的圖片後,升級到能夠認出圖片以外的貓狗,這就是監督學習

監督學習:數據+標籤

第二種,丟一大堆未命名的圖給計算機,讓它自己去總結貓和狗的不同。

聰明的計算機會發現貓狗背後的規律——比如搖著尾巴求抱抱的是狗,瞧不起人的是貓,這就是是非監督學習

非監督學習:數據,無標籤

第三種,只指出圖中兩三隻貓狗。

計算機通過這幾張照片總結規律,再自己探索其他貓狗,這就是半監督學習

除了上面幾種,科科還喜歡一種「殘暴」的強化學習法(也叫增強學習)。

就是把計算機丟到一個對它來說完全陌生的環境,或者讓它完成一個沒接觸過的任務,讓它試各種手段,跌得滿身是傷,最後自己適應環境或者完成這個任務。

這就是 AlphaGo 的學習手段,阿爾法狗也是歷經折磨和艱辛才達到今天的水平啊。

AlphaGo 的思考方式

藍色為可以放置棋子的位置

強化學習通過淘汰機制去選擇最優的設計或模型,和優勝劣汰的自然法則很像。

比如發現某一個決策做錯了,以後就摒棄它。

DeepMind 就是要用機器學習的方式,讓 AI 挑戰遊戲。

除了「非完全信息博弈」看不到對方的決策,讓 AI 玩「星際爭霸2」還有其他頭疼的問題。

「星際爭霸2」不像回合制遊戲可以一人一招輪流打,而是要制定長、短線戰術,比如選擇正面進攻還是偷襲騷擾。

簡單的回合制遊戲

還要根據最新信息調整計劃,比如本來打算偷襲騷擾,結果發現對方正在掛機,於是果斷正面進攻。

要讓軟體同時具備這兩種能力是非常難的。所以,大家看到 AI 打「星際爭霸」打得很菜的 時候,也不要嘲笑它是人工智障好嘛。

GIF

測試 AI 在不同任務中的表現

可以看出,「星際爭霸2」更能模擬真實世界的混亂狀況,所以如果開發出了一套機器學習系統掌握遊戲技巧,那真實世界的複雜任務就可以讓 AI 去做了!

無人駕駛就需要應對複雜的交通狀況

也就是說,這個研究不是為了讓 AI 打遊戲,而是教機器人做戰略分析。

等到這條路的終點,機器人不再是「機器」,而將是有完整的認知、能夠分析決策,甚至可能欺騙的會思考的智能體。

但是,距離這個終點還有很久。因為有人試過,讓表現優異的AI和最簡單的內置AI對打時,前者以全敗告終,連最簡單的「人機」都打不過……

不過,AI 打遊戲也不是一無是處,它也有操作優勢。

之前有一個熱門視頻,AI 控制蟲族的 100 條小狗咬爆了人族的 20 輛坦克,而人類玩家絕對不可能有這種騷操作。

GIF

小狗咬爆坦克

它需要一隻小狗受到坦克攻擊的時候,邊上的小狗全部跳開,免得被炮彈範圍內的濺射殺死,這個操作給你十隻手都不一定能實現。

然而,即使 AI 有微操優勢,也還是打不過人類玩家。

人類有各種花招能對付他,可以早期突襲、可以派兵騷擾殺農民、可以空投對方基地搗亂、可以派隱形兵力讓對方挨打了還不知道發生了什麼……

GIF

佯裝在礦區進行光子炮台 rush

實則從路口建立陣地

即使人們訓練 AI,讓它的表現有些提高,但想要達到競技的目標,還是需要在深度增強學習和相關領域有更多突破。

機器學習那麼難,有小夥伴要問,實現人機大戰一定要用機器學習嗎?普通的編程行不行?

不行!對戰非常需要偵察和隨機應變,顯性地寫代碼幾乎不可能做到。

據估計,「星際爭霸2」每場對決有 101685 種可能的配置,鮮明的對比是:阿爾法狗的配置層是 10170。

人類可以趁電腦沒有防空,就派空軍,可以趁電腦沒有防隱形,就派隱形兵種。如果要用一個一個代碼去表達所有可能發生的情況,會涉及海量數據,開發難度巨大。

要分析每一種情況,再敲成代碼

程序猿的頭髮再多也難做到啊!

豐富的策略與隨機應變正是「星際爭霸2」的遊戲精髓,用編程的辦法很難有出路,還是得讓機器自我學習發展出隨機應變的能力。

在 ICRA 2018 DJI RoboMaster 人工智慧挑戰賽中,也面臨同樣的問題,比賽需要 4 台全自動機器人 2 V 2 對抗。

雖然參賽的角色少,對抗的環境也沒那麼複雜,但實體的對抗讓比賽更加充滿不確定性。

比賽機器人

參賽選手可以給機器人設定射擊和躲避的程序,但使用機器學習的機器人明顯更有優勢。

希望了解更多對抗比賽中機器學習技術應用的小夥伴,可以穿梭至:《機器人比賽中,關於機器學習對競技規則和未來研究的幾點思考》

棋手柯潔曾說:「人類已經研究圍棋研究了幾千年了,然而 AI 卻告訴我們,我們甚至連其表皮都沒揭開。」如果突破了這項技術,那人類將迎來強 AI 的時代!


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 RoboMaster 的精彩文章:

人臉識別、語音翻譯、無人駕駛……這些高科技都離不開深度神經網路了!
走直線很難嗎?陀螺儀錶示,少了它機器人連直線都走不了

TAG:RoboMaster |