谷歌發布一個新的強化學習環境：Google Research Football

新聞 06-21

本文為 AI 研習社編譯的技術博客，原標題：
Introducing Google Research Football: A Novel Reinforcement Learning Environment
作者 | Karol Kurach、Olivier Bachem

翻譯 | 汪鵬編輯 | 王立魚
原文鏈接：
https://ai.googleblog.com/2019/06/introducing-google-research-football.html

強化學習（RL）的目標是培養能夠與環境互動並解決複雜任務的智能體，實現在機器人，自動駕駛汽車等領域中的實際應用。通過讓智能體玩遊戲，如標誌性的 Atari console games ， Alphago ，或大型遊戲，如Dota 2或魔獸世界 2 ，所有這些都提供了新演算法和新演算法的挑戰性環境，推動了這一領域的快速發展。可以以安全，可重複的方式快速測試想法。對於RL來說，足球比賽尤其具有挑戰性，因為它需要在短期控制，學習概念（如傳球）和高水平戰略之間實現自然平衡。

今天我們很高興地宣布推出 Google Research Football Environment，這是一個全新的RL環境，智能體的目標是掌握世界上最受歡迎的體育足球。以流行的足球遊戲為模型，足球環境提供基於物理的3D足球模擬，其中智能體控制他們團隊中的一個或所有足球運動員，學習如何在他們之間傳球，並設法克服對手的防守以進球。足球環境提供了幾個關鍵組件：高度優化的遊戲引擎，一系列嚴格的研究問題，稱為足球基準，以及足球學院，一組逐步變硬的RL場景。為了便於研究，我們在Github上發布了基礎開源代碼的測試版。

足球引擎

足球環境的核心是一個高級的足球模擬，稱為足球引擎，它基於大量修改版本的遊戲足球。根據兩支對方球隊的輸入動作，它模擬了足球的比賽，包括進球，犯規，角球和點球，以及越位。足球引擎採用高度優化的C ++代碼編寫，允許它在現成的機器上運行，無論是GPU還是沒有基於GPU的渲染。這使其在單個六核機器上達到每天大約2500萬步的性能。

谷歌發布一個新的強化學習環境：Google Research Football

足球引擎是一種先進的足球模擬，支持所有主要的足球規則，如開球（左上），進球（右上），犯規，牌（左下），角球和點球（右下）和越位。

足球引擎還具有針對RL的額外功能。首先，它允許從不同的狀態表示中學習，這些狀態表示包含諸如玩家位置之類的語義信息，以及從原始像素學習。其次，為了研究隨機性的影響，它可以在隨機模式（默認啟用）中運行，其中在環境和對手AI動作中都存在隨機性，並且在確定性模式中，其中沒有隨機性。第三，足球引擎開箱即用，與廣泛使用的OpenAI Gym API兼容。最後，研究人員可以通過使用鍵盤或遊戲手柄與對方或其代理人對戰來獲得對遊戲的感覺。

足球基準

通過足球基準測試，我們為基於足球引擎的RL研究提出了一系列基準問題。這些基準的目標是針對固定的基於規則的對手進行足球的「標準」遊戲，該對手是為此目的而手工設計的。我們提供三個版本：簡單足球難度，中等難度和困難難度，對手的實力不同。

作為參考，我們提供兩種最先進的強化學習演算法的基準測試結果：DQN和IMPALA，它們既可以在一台機器上的多個過程中運行，也可以在多台機器上同時運行。我們研究了為演算法提供的唯一獎勵是獲得的目標以及我們為將球移近目標而提供額外獎勵的設置。

我們的研究結果表明，足球基準是各種困難的有趣研究問題。特別是，簡單足球難度似乎適用於單機演算法的研究，而足球困難基準則證明即使對於大規模分散式RL演算法也具有挑戰性。基於環境的性質和基準的難度，我們期望它們可用於研究當前的科學挑戰，例如樣本有效RL，稀疏獎勵或基於模型的RL。

谷歌發布一個新的強化學習環境：Google Research Football

不同基線的不同難度級別的代理與對手的平均目標差異。簡單的對手可以被訓練為2000萬步的DQN代理打敗，而中等和困難的對手需要分散式演算法，例如訓練2億步的IMPALA

足球學院及未來方向

完整足球基準下，訓練智能體可能具有挑戰性，我們還提供足球學院，各種難度的各種場景。這使研究人員能夠開始研究新的研究思路，允許測試高級概念（例如傳遞），並為研究課程學習研究思路提供基礎，智能體可以從逐漸困難的情景中學習。足球學院場景的示例包括智能體必須學習如何針對空目標進行評分的設置，他們必須學習如何在玩家之間快速傳遞，以及他們必須學習如何執行反擊。使用簡單的API，研究人員可以進一步定義自己的場景並訓練代理來解決它們。

谷歌發布一個新的強化學習環境：Google Research Football

熱門：一個成功的策略，朝著目標（根據需要，因為一些對手追逐我們的球員）和對陣守門員的比分。第二：駕駛和完成反擊的美妙方式。第三：解決2對1比賽的簡單方法。底部：角球后角球得分。

足球基準和足球學院考慮標準的RL設置，其中智能體與固定的對手競爭，即，對手可以被認為是環境的一部分。然而，實際上，足球是一個雙人遊戲，兩個不同的團隊競爭，而一個人必須適應對方團隊的行動和戰略。足球引擎為研究這種環境提供了獨特的機會，一旦我們完成了實現自我發揮的持續努力，就可以研究更有趣的研究設置。雷鋒網雷鋒網雷鋒網

想要繼續查看該篇文章相關鏈接和參考文獻？

點擊【谷歌發布一個新的強化學習環境：Google Research Football】即可訪問！

今日資源推薦：

一份可以作為Python編程語言的指南或者教程。它主要是為新手而設計，不過對於有經驗的程序員來說，它同樣有用。即便你對計算機的了解只是如何在計算機上保存文本文件，你都可以通過本書學習Python。如果你有編程經驗，你也可以使用本書學習Python。

點擊鏈接即可獲取：https://ai.yanxishe.com/page/resourceDetail/535

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 雷鋒網 的精彩文章:

※蘋果與微軟聯手，又搞了一件小事情
※上海AI研究院完成招募；倡導資料庫自由；雲服務降價丨AWS技術峰會

TAG:雷鋒網 |