打遊戲時領悟了「向死而生」，這個 AI 演算法真的不虛強化學習

科技 03-01

編者按：本文來自於微信公眾號「量子位」（微信公眾號：QbitAI），動點科技經授權發布。

來自德國弗萊堡大學的研究團隊，最近有了一個好玩的發現。

AI 又在打遊戲時掌握了新技能。

「向死而生」

這個遊戲是雅達利平台上的經典遊戲 Qbert：一個偽 3D 遊戲，玩家需要控制角色（橙色章魚）在立方體金字塔中跳躍，每成功一次，立方體就會變色。全部變色之後，就會進入下一關。而在這個過程中，需要躲避開障礙物和敵人。

研究團隊開發的 AI 智能體（agent）玩這個遊戲時，開始還是普通玩法，按照規則累積積分。然後，智能體突然對過關失去興趣。

相反，智能體開始「釣魚」：站住不動，吸引敵人（紫色小球）來到身邊，然後智能體操縱角色跳到敵人頭上。這是一種殺敵的方法，也是自殺的方法。但是主動殺敵之後，能夠產生足夠多的分數來獲得額外的生命獎勵。

打遊戲時領悟了「向死而生」，這個 AI 演算法真的不虛強化學習

於是智能體開始一遍遍的重複這種向死而生的手法，如上圖所示。

不止如此。

AI 智能體還發現了一個 Bug。在完成第一關之後，智能體操縱角色從一個立方體跳到另一個立方體，這似乎是一種隨機的跳躍。但由於某種人類不了解的原因，遊戲沒有進入下一關，整個立方體金字塔開始閃爍。

然後智能體平白無故開始獲得大量積分。如下圖所示。

打遊戲時領悟了「向死而生」，這個 AI 演算法真的不虛強化學習

同樣有意思的是，智能體也不是每次都能利用好這個 bug。嗯，不是每次都能成。

當然還有其他的好玩的事兒，暫時按下不表。

打遊戲時領悟了「向死而生」，這個 AI 演算法真的不虛強化學習

不虛強化學習

當然，搞研究不是為了好玩。

弗萊堡大學的這個研究，主要關注的是進化策略（ES）。而且是一種非常基本的進化策略演算法，沒用鏡像採樣，沒有衰減參數，沒有任何高級優化。

在研究實驗中，基於 OpenAI Gym 評估了八個雅達利遊戲中的性能表現，這些遊戲難度等級不同，簡單的如 Pong（乒乓）和 Breakout（打磚塊），複雜的如 Qbert、Alien。此前，強化學習也都是在這些遊戲上取得驚人的進展。

這個基於 ES 演算法的 AI，網路結構與原始 DQN 相同。變化之處，是把激活函數從 ReLU 變成了 ELU，並增加了批量標準化層。

打遊戲時領悟了「向死而生」，這個 AI 演算法真的不虛強化學習

詳細的研究過程，可以參考如下論文：Back to Basics: Benchmarking Canonical Evolution Strategies for Playing Atari

https://arxiv.org/abs/1802.08842

總之，研究團隊得出結論：即便是非常基礎的規範 ES 演算法，也能實現和強化學習相同甚至更好的性能。

而且他們還定性地證明了，ES 演算法與傳統的強化學習演算法相比，也有非常不同的性能特徵。在某些遊戲中，ES 演算法能更好的學會探索環境，並能更好的執行任務。

當然在另外的一些遊戲中，ES 演算法有可能陷入次優局部最小值。

研究團隊表示，如果能把 ES 演算法與傳統強化學習演算法結合，可能會出現強強聯手的局面，並推動現有人工智慧相關技術的新進展。

基於 ES 演算法搭建的 AI 智能體，在上述幾個遊戲中的表現，可以在下面這個視頻中感受一下，除了開頭提到的一些案例，期間也有其他有趣的遊戲策略出現。

附一個劇透：0:00 Alien，0:29 BeamRider，2:30 Breakout，3:15 Enduro，4:44 Pong，5:38，Qbert exploit，6:12 Qbert bug，6:47 Seaquest，8:36 SpaceInvaders。

曾被 LeCun 硬懟

這次弗萊堡大學的研究，基於 OpenAI 此前發布的 ES 演算法。當然，弗萊堡大學公布的成績表明，他們的 AI 玩遊戲更勝一籌。並且用了一張表進行了詳細的對比。

打遊戲時領悟了「向死而生」，這個 AI 演算法真的不虛強化學習

他們把相關代碼也公布在了 GitHub 上，地址如下：https://github.com/PatrykChrabaszcz/Canonical_ES_Atari

進化策略（ES）是一種已經發展了數十年的優化技術，去年 OpenAI 發表論文 Evolution Strategies as a Scalable Alternative to Reinforcement Learning 中指出，ES 演算法可以與強化學習方法媲美，耗時更少而且代碼簡單。

對這個理論感興趣的同學，閱讀論文請前往：https://arxiv.org/abs/1703.03864，以及 GitHub 地址在此：https://github.com/openai/evolution-strategies-starter 。

不過，當時這個理論遭遇 Yann LeCun 的正面硬剛。

打遊戲時領悟了「向死而生」，這個 AI 演算法真的不虛強化學習

大意是說：

1、基於梯度的優化，遠比黑箱優化更有效率

2、黑箱優化應該是最後的辦法，無法基於梯度優化時才用

3、對於知道強化學習和黑箱優化的人來說，OpenAI 這篇東西沒什麼用

不知道你們怎麼看。

TAGS
AI
遊戲
演算法

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 動點科技 的精彩文章:

※李彥宏登上《時代周刊》封面，是首次登上該封面的中國互聯網企業家
※小米微軟再度合作，微軟將推小米進國際市場

TAG:動點科技 |