啟元世界獲 NeurIPS 2018 多智能體競賽Learning組冠軍，決策智能平台價值凸顯

新聞 12-21

雷鋒網 AI 科技評論按：近日，國際人工智慧頂級學術會議 NeurIPS 2018 順利落幕。八千多位來自全世界的人工智慧研究人員齊聚加拿大蒙特利爾，討論分享過去一年全世界在人工智慧的各個領域的最新進展，該會議舉辦了一系列競賽來鼓勵學術界和工業界一起解決最有挑戰性的人工智慧難題。作為人工智慧領域歷史最悠久的學術會議之一，會議成果被視作人工智慧領域的研究「風向標」。（雷鋒網 AI 科技評論正會報道文章見這裡）

其中，由谷歌大腦、Facebook、牛津大學及在遊戲AI界久負盛名的紐約大學等機構聯合舉辦的多智能體競賽——炸彈人團隊賽（The NeurIPS 2018 Pommerman Competition）尤其引人矚目。來自中國啟元世界的彭鵬博士、中科院計算所助理研究員龐亮博士和北師大的袁鈺峰組成的賽隊，與美國、歐洲、日本、中國的24支一流隊伍進行了激烈角逐，最終基於啟元決策智能平台訓練的 Navocado 雙智能體能力穩定提升，奪得了比賽 Learning 組冠軍，展現了來自中國的決策智能團隊具備的世界級技術實力。

啟元世界是一家2017年成立的以認知決策智能技術為核心的公司，由前阿里、Netflix、IBM 的科學家和高管發起，並擁有伯克利、CMU 等知名機構的特聘顧問。團隊核心能力以深度學習、強化學習、超大規模並行計算為基礎，擁有互聯網、遊戲等眾多領域的成功經驗。

決策智能目前是一個世界級的技術難題，決策過程也是人腦中最複雜的一種功能。由於在遊戲、交通、電力等領域具備極大的應用前景，決策智能近年也成為全球人工智慧研究的熱點，DeepMind、Facebook、OpenAI、微軟、亞馬遜等科技巨頭都成立了實驗室進行相關研究。相較於單智能體，多智能體博弈的難度更是指數級增加。此次 NeurIPS 多智能體競賽是 NeurIPS 會議上首次開設多智能體競賽，將多智能體協作、非完全信息博弈以及持續學習等關鍵問題濃縮到炸彈人這款遊戲中，鼓勵全世界優秀的研發人員一起參加解決技術挑戰。

此次 NeurIPS 多智能體競賽採用激烈雙淘汰機制（Double Elimination），25 支參賽隊分別提供 2 個智能體參加 2v2 對抗賽。參賽隊伍的每個智能體初始都被困在一個封閉的區間中，智能體只有炸開附近的木箱才能進去其他區域；而且智能也只具有整個地區的一部分視野。在幾乎所有障礙物都被清理乾淨後，智能體進入到對抗階段，所有智能體都可以自由地在全局活動，這個階段智能體的主要目標就是炸掉對手。

啟元世界獲 NeurIPS 2018 多智能體競賽Learning組冠軍，決策智能平台價值凸顯

打開今日頭條，查看更多圖片圖1：多智能體競賽－炸彈人團隊賽

競賽過程中需要智能體完成：1）清除障礙物，2）躲避自己的炸彈火焰，3）收集裝備，4）躲避自己和其他人的炸彈火焰，5）放炸彈殺死對手，6) 避免放炸彈殺死隊友。整個過程，對智能體有效甄別和提取有效信息，同時對未知信息進行推理和假設，以及多智能體協作都提出了很高的技術要求。

啟元決策智能平台訓練的 Navocado 雙智能體在比賽中的部分表現如下圖：

啟元世界獲 NeurIPS 2018 多智能體競賽Learning組冠軍，決策智能平台價值凸顯

同隊炸彈人聯手，在對手的兩側放炸彈圍堵，將其困在中間地帶後摧毀對手

啟元世界獲 NeurIPS 2018 多智能體競賽Learning組冠軍，決策智能平台價值凸顯

炸彈人通過靈活的移動及時躲避炸彈爆炸

啟元世界獲 NeurIPS 2018 多智能體競賽Learning組冠軍，決策智能平台價值凸顯

炸彈人主動將炸彈朝對手方向踢出，精確擊潰對手

啟元世界獲 NeurIPS 2018 多智能體競賽Learning組冠軍，決策智能平台價值凸顯

炸彈人學會準確的炸箱子，並且通過最短路徑尋路吃增強葯

每個賽隊線下有 2 個月的時間進行模型訓練。最終基於啟元決策智能平台訓練的 Navocado 戰勝了來自加拿大的 Skynet，拿下 Learning 組冠軍。Skynet 的團隊來自加拿大近百人規模的科技公司 Borealis.ai。從對戰過程來看，啟元的 Navocado 智能體的主動進攻能力明顯強於對手。從 Skynet 在官網公開的實現方案來看，Skynet 模型在決策過程中加入了很多人工干預（比如限制炸彈人不能往火焰里走），這和 Navocado 模型在整個訓練和決策過程中不加人工干預、自主學會各項技能的方式也有較大的差距。

啟元世界獲 NeurIPS 2018 多智能體競賽Learning組冠軍，決策智能平台價值凸顯

圖2：Navocado智能體持續訓練過程中的效果提升曲線

啟元從 2017 年起打造的決策智能平台在這次賽事奪冠的智能體訓練中起到了關鍵作用。強化學習作為決策智能的核心技術，也是極具挑戰的一種機器學習方法。由於強化學習涉及到的鏈路很長，而強化學習演算法本身對超參十分敏感，學術界中各人不同的實現或配置都很容易導致出現訓練結果不可復現的現象。強化學習技術在可復現性、可復用性和魯棒性方面存在著挑戰。

藉助平台化的力量，啟元決策智能平台運用強化學習解決複雜決策問題，證明了強化學習的可行性。啟元決策智能平台搭建了支持多智能體博弈的基礎架構，能夠通過競技的方式實現多智能體持續學習的能力。平台還支持包括自動化資源調度和自動調參的元學習，使得模型的訓練更加高效。

啟元世界彭鵬博士介紹，「啟元團隊對強化學習這個領域都很有 Passion。這次我們在 NeurIPS 多智能體競賽奪冠的智能體，在每個階段的訓練過程沒有人工干預，學習曲線非常漂亮，進一步驗證了這套體系的有效性和魯棒性，驗證了強化學習技術的價值。」

從平台架構設計到底層實現上，啟元都做了很多細緻的工作，力求在包括環境模擬、模型預估和訓練等各個決策智能相關的環節都做到完美。啟元賽隊基於決策智能平台分階段設計了獎勵機制以及調整超參。在使用啟元決策智能平台的過程中，賽隊可以快速地調度所需資源進行任務部署，配置對戰所需的智能體，並且在訓練過程實時觀察不同模型的對戰情況和勝率曲線，從而做出最快的調整。

啟元世界獲 NeurIPS 2018 多智能體競賽Learning組冠軍，決策智能平台價值凸顯

圖3：啟元決策智能平台架構

在此次 NeurIPS 多智能體競賽中，啟元決策智能平台提供了三大助力：

第一，支持智能體持續學習的能力。

持續學習的能力是智能體訓練中關鍵的一環。在訓練階段，炸彈人競賽中的智能體需要在學習新技能的過程中保留過去學會的技能，才能達到很高的水平。啟元決策智能平台通過智能體群體匹配競技的方式實現「自然選擇」，從而達到持續學習的效果。在競技過程中，強者留存，弱者被淘汰。在弱者被淘汰之後，空出來的位置被強者的克隆體代替，而強者的克隆體則根據新的超參設定持續進化。在固定計算資源預算的情況下，啟元決策智能平台通過這套機制在探索新強者 (exploration) 和深挖舊強者（exploitation）之間平衡對計算資源的使用情況。

第二，支持複雜場景的多智能體聯合訓練。

在多智能體博弈問題中，不同智能體之間的相互克制較為常見，其收斂可能性極為複雜。在炸彈人競賽中，不同隊伍的智能體風格迥異，有的善攻，有的善守。基於「鯰魚效應」的思想（指通過引入強者，激發弱者變強的效應），啟元決策智能平台在訓練初期引入基於規則的高階對手，激發初期較弱的智能體在與強者的對決中學會各種基本技能，迅速提升變強；隨著訓練階段的深入，啟元決策智能平台同時訓練多個智能體，使其在激烈的相互對抗中完善自我。

第三，支持基於私有雲集群的大規模、高並發的模擬和大規模訓練。

啟元決策智能平台將架構圖中所示的多個模塊進行組件化，並封裝到了容器中。通過雲端自動化的方式管理數百 CPU 以及 GPU 資源並實現容器編排，降低了調度數十個炸彈人訓練任務的成本。大規模、高並發的模擬計算以及大規模的訓練同時在私有雲集群中進行。另外，啟元決策智能平台提供分散式存儲方案，並配置成共享模型池，為炸彈人智能體模型群體的持久化和共享提供支持。

啟元決策智能平台 v0.8 版本目前已用於遊戲、網路智能及模擬等場景中。基於為客戶提供的高附加值服務，啟元世界在 2018 年商業化上小試牛刀，即已取得不錯的營收。2019 年，啟元世界計劃發布第一版啟元決策智能平台型產品，為更多行業客戶、終端用戶帶去高體驗的服務。

關於此次競賽方案的更多細節，啟元世界也撰寫了技術報告，感興趣的讀者可以參見 https://arxiv.org/abs/1812.07297。

基於監督學習的智能決策系統常見，但基於強化學習的智能決策系統不常見。雷鋒網 AI 科技評論很感興趣他們是如何看待並應對強化學習固有的一系列技術挑戰的。後續報告請繼續關注我們。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 雷鋒網 的精彩文章:

※博郡汽車黃希鳴：對標Model3，首款車型將亮相2019上海車展
※CVPR 2018摘要：第三部分

TAG:雷鋒網 |