更進一步！谷歌的 AI 自己就能玩多人遊戲了

新聞 02-17

近日，據谷歌 DeepMind 團隊透露，他們已經找到能夠迅速訓練深度學習網路的新方法——那就是將先進的演算法和老派視頻遊戲給整合起來。

DeepMind 是 AlphaGo 的研發團隊，他們相信機器能像人類一樣學習。他們在ID Software公司的《雷神之錘》（Quake III）和運行57款雅達利遊戲（Atari games）的街機模式學習環境（arcade learning environment，ALE）上搭建了DMLab-30訓練套裝，研發了一款科幻級別的訓練系統，稱之為Importance Weighted Actor-Learner Architectures（IMPALA）。

通過 IMPALA，AI 系統快速播放一系列電子遊戲，並從一組「玩家」中提取訓練信息並傳遞給一組「學習者」。

一般說來，深度學習網路的工作模式類似於在遊戲引擎間穿梭的獨立玩家的玩法。開發者會告訴電腦，控制器輸入了哪些內容，而電腦則會像拿著手柄的人類一樣玩遊戲。

通過 IMPALA，系統不僅能比其他演算法提高 10 倍效率，還能同時玩多個遊戲。就像多名玩家（30名或以上）共用一個「博格」（borg）大腦，一起摸索《雷神之錘》的玩法，共享所有經驗。

人工智慧開發人員面臨的最大挑戰之一就是訓練神經網路所需的時間和處理能力。傳統編程要人匆匆敲出一連串代碼，最終才變成程序。可是自主化機器（autonomous machines）不同，自主化機器需要規則，通過不斷的嘗試，最終發現處理現實世界的問題的方法。

由於我們並不能放任機器人執行任務時不受約束，模擬也便成為了其發展的首個重點。因此，深度強化學習（deep reinforcement learning）對上下文自主性（contextual autonomy）的任務至關重要。

比方說，無人駕駛汽車平時加速或減速可以自行判斷，進行選擇，卻不能夠擁有是否要開進某家便利店的選項。它要知道什麼樣的決策是它可以做的，什麼不可以，以及在模擬環境中又應如何進行決策。

IMPALA 解決的另一個問題是可擴展性。調整演算法和優化（tune things）以縮短訓練時間是一回事，但是要在一天結束時成功訓練人工智慧又是另一回事，畢竟它靠的可不是時間記錄。

要想讓目前的神經網路達到足夠高的成功率，從而對任何可能存在潛在危害或損害人類庫存的自主化機器進行編譯系統上的調整，他們需要處理訓練環境里的數十億幀（圖片）。

根據研究者的說法，「只要有足夠基於CPU的角色模型（actors），IMPALA就能達到 250000 幀/秒或 210 億幀/天。」這讓 DeepMind 團隊的AI在執行這類任務時，可以達到我們所了解的最快速度。

而更令人震驚的可能是IMPALA 白皮書的說法，它表示：AI 的性能要比以往的 AI 系統和人類更勝一籌。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 DeepTech深科技 的精彩文章:

※本應無序卻有序，現有宇宙理論框架再遇挑戰
※Nature天體物理學新論文發表，或顛覆當前的恆星演化理論

TAG:DeepTech深科技 |