人工智慧憑什麼和我打？

最新 10-13

正如標題所說，人工智慧憑什麼和我打，今天來說說有關AI和電子競技的事。

去年穀歌的阿爾法在擊敗了圍棋高手李世石後，其研究團隊高調宣布將轉戰星際爭霸領域。而後網友議論紛紛，說阿爾法要來吊打星際選手了。

比圍棋更複雜的星際爭霸

一年過去，所謂的吊打併沒有出現，而且據我的觀察，阿爾法可能連我這樣的超業餘玩家都打不過。所以我大膽地判斷，五年之內人工智慧是無法拿下電子競技領域的。

沒有玩過遊戲的朋友可能不太清楚，星際爭霸這種RTS遊戲，簡單的講就是造房子，房子造兵，然後通過你的運營，排兵布陣來打贏對手。

看起來和圍棋相比之下，星際簡單很多，實則不然。

第一點，星際有非常多功能不同的單位，短時間內的大量操作非常複雜。以神族對抗人族為例，鳳凰使徒沖人族坦克陣地，神族玩家要在使徒閃現入人族陣地內部的瞬間，操控鳳凰控制住人族的坦克。而星際實際是一個偽多線程操作，一秒內要在多個兵種集群間切換。

第二點，圍棋我們通常叫做完全信息博弈，意思是你我雙方都知道彼此的動向。星際是不完全信息博弈，因為迷霧機制，我大多數時候是看不見對方的動向的。這就造成反饋速度極慢，等AI知道我在生產生化部隊後，距離我拍板決定都過了好幾分鐘了。

第三，星際是即時性的，你在操作的同時，我也在操作。AI在瞬息萬變的局勢里，對於局勢的判斷可能比不過依賴直覺的人類。

第四點，星際的戰術變化太多，並且可以反覆，比方說我出了飛龍，你就出了剋制飛龍的雷神，我再出克制雷神的宿主。這種戰術環AI算不過來。

這是星際與圍棋不同的地方，也決定了人工智慧要攻剋星際這類遊戲，要付出更大的代價。

我們在討論什麼樣的人工智慧

在具體討論之前，當然要對應用於遊戲的人工智慧有一個明確的定義。許多網友提到過的「悍馬2000」，這個不算人工智慧，這個叫外掛。

人工智慧與外掛的區別在於，對戰時人工智慧的信息獲取方式是要靠視覺，而不是讀取後台數據。

而且，人工智慧是要被限制APM的，APM就是每分鐘人的滑鼠鍵盤操作次數。像我這種休息時打打電腦的玩家，APM平均在150左右，峰值能到300,也就是每0.2秒操作一次。職業選手大概在三四百。

再看看阿爾法的運作機制，利用蒙特卡羅樹搜索來提供策略，深度神經網路負責決策。在下圍棋的時候，阿爾法利用強化學習機制所產生的經驗，在蒙特卡洛樹指導下做出數個解決方案，並進行推演，最後深度神經網路拍板決定。

我是如何吊打AI的

那電腦打星際時也是這樣嗎？我先用我打暴雪官方AI的一盤TVT來解釋一下。

在這盤遊戲中，既然是人族的內戰，我選擇用正面能力弱的生化部隊對抗電腦的機械化部隊。我選定的策略就是利用小股部隊不斷空投騷擾，來爭取空間，創造出兵力優勢，最後一波沖臉決勝。

雙方經過了長達七分鐘的和平運營，然後我貫徹我的方針，小股部隊開始騷擾電腦的三基地，同時全力運營暴兵。

可以看到我的紅色小股部隊調動了藍色的敵方主力。（在陰影中）

在視頻的四分半左右，藍色的電腦方發起了進攻。企圖從右側攻上我的基地。但在上高坡時遭遇我主力部隊的阻擊，四秒後，電腦的步兵部隊和坦克部隊脫節。強攻則全軍覆沒，撤退則損失大半。這時候電腦選擇跑路。

我眼見對方撤退，並且陣型散亂，馬上展開追擊，全軍扎興奮劑追。（遊戲機制，步兵打了興奮劑後移速加快但會掉血）

我的步兵追上了對方的坦克，打下兩個，因為電腦的主要輸出是坦克的炮轟。認為有局部火力優勢的我馬上決定衝擊電腦的三基地。然後電腦大部隊來支援。

這個時候雙方平地對攻，誰勝誰負還不好說。但是電腦選擇衝下自己高地，在眼見我撤上另一邊高地時硬著頭皮沖。因為坦克已經架了起來動不了，所以電腦脫節的步兵部隊被高坡的我軍悉數殲滅。

然後電腦又是撤退不及時，我步兵直接衝鋒，破掉坦克陣地，遊戲勝負已分。

官方AI確切的講，算半個人工智慧，跟阿爾法不同，官方AI是程序員編好運營進攻的流程，然後輔以一些小變化。

而在最近，美國人工智慧協會贊助的星際爭霸AI大賽中，中科院自動化研究所的團隊拿下了第四名，他們是在一個固定流程的AI上，添加了一些新策略，並利用機器學習的方式建造了一個多層感知網路，用這個技術來安排AI的運營。

冠軍是個程序員自己編的代碼，簡單粗暴，就是快攻。結果沒一個AI擋得住。而這種AI我跟它打一把就知道怎麼處理了。

阿爾法沒參賽，他通過一年的自主學習，已經學會了逃跑，這是他唯一學會的。

阿爾法的難題

如上文所說，阿爾法的神經網路到目前為止都設計不出來，像我這種娛樂玩家，在基地憋10分鐘，出來一分鐘把你打死。只要我封死你所偵查手段，你都不知道我要打什麼戰術

星際的即時性難題，目前阿爾法也解決不了，就像剛才我打電腦那局，我拉上高地了，官方AI因為程序設定，強攻被我擊敗。換做是阿爾法就要權衡攻還是不攻，而這個決策過程要在零點幾秒內完成。之前阿爾法大戰柯潔有些步驟已經想得比柯潔久了。

目前在微觀操作上，基本還是靠Deep Reinforcement Learning，星際大量的反饋條件需要設計者建造一個比圍棋還要複雜的神經網路。

宏觀的運營方面，認知論，博弈論，現代控制論以及我聽都沒聽過的玄學理論都要應用於AI的設計之中。像這張圖，左側是微觀的理論需求，右側是宏觀的理論需求。

估計等到人工智慧在星際里打贏職業選手了，我都成家立業了。

?李洛妤

膚白貌美大長腿

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 宣徽院 的精彩文章: