挑戰Minecraft任務，探索AI系統認知能力！

科技 06-12

導語：行為心理學家一直以來都用迷宮研究老鼠等嚙齒類動物的記憶和學習能力，如今密歇根大學的 Junhyuk Oh 和其同事也在用類似的方法研究人工智慧的認知計算能力。他們在「我的世界（Minecraft）」中設計了一套難度逐步提升的任務，通過完成給予獎勵的方式構建、評估測試已有的和他們自己建立的深度增強學習架構並進行對比。比如，其中一項任務就是用「我的世界」中的迷宮探索人工智慧的認知能力。研究人員認為這項工作的意義在於為未來研究創造了條件，利用「我的世界」的靈活性可進行人工智慧演算法的測試評估和性能比較。研究團隊已將論文提交 ICML 2016。

摘要

在此論文中，我們介紹了「我的世界」中一組新的增強學習（RL）任務。然後，我們使用這些任務系統地比較了現有的深度增強學習（DRL）架構和我們新型的基於記憶的深度增強學習架構。設計這些任務是為了以可控的方式突出對增強學習方法造成挑戰的問題，包括部分可觀測性（由於第一人稱視角）、延遲回報、高維視角，也是為了突出正確使用主動感知的需要，以便在任務中有較好的表現。雖然這些任務在概念上非常簡單，但由於所有這些挑戰會同時體現，這些任務對現在的深度增強學習架構而言是困難的。另外，我們在環境中而非訓練使用過程中評估這些架構的泛化性能。實驗結果顯示，我們的新型架構比現在的深度增強學習架構在未知環境中的泛化要好。

導語

深度學習途徑在很多低層感知監督學習問題上取得了很大進展。這一成功已經延展到了有關視覺感知的增強學習問題中。例如，在 Arcade Learning Environment（ALE）基準上，DeepQ-Network（DQN）架構通過使用 Q-Learing 從原始像素中學習對直接控制有用的視覺特徵，已經能夠成功玩許多 Atari 2600 遊戲。

Figure 1：「我的世界」中的一種任務。在此任務中，如果指示器（挨著起點位置）是黃色的情況下，代理需要走紅色街道。另外，如果指示器是綠色的，它要走藍色街道。頂部的街道是代理的第一視角。底部圖片展示了地圖和代理位置，這些圖片代理是看不到的。（a）代理觀測到了黃色指示器。（b）代理看向左邊，看到了藍色街道。（c）但先前看到了黃色指示器，它決定繼續直行。（d）最終，它到達了紅色街道，並獲得了一份正面獎勵。

最近，研究人員已經探索了需要高水平認知能力的問題（例如，推斷簡短的一般用途演算法）。然而，大部分進展都受阻於監督學習設定，它會提供明顯錯誤的信號。在此論文中，我們對將這一成果拓展至類似地認知啟發（cognition-inspired）增強學習任務非常的感興趣。特別的是，這一論文介紹了「我的世界 1」中的一組任務，這是一個可靈活變動的 3D 世界，在裡面一個代理可以收集資源、建造建築並與敵人對戰。我們的增強學習任務（Figure 1 展示了一個樣例）不只包含了常見的部分可觀測性（由於第一人稱視角）、延遲回報、高維視角感知這樣的增強學習挑戰，也需要代理通過學習如何使用主動感知開發移動規則，從而觀測有用信息、收集獎勵。另外，我們的增強學習任務需要代理學會使用掌握的記憶知識，包括它與主動感知的互動。主動感知能提供對記憶知識的觀察。我們發現將這些認知啟發任務當做認知任務過於簡單了，但確認它們最多形成了對人類認知能力範圍的一個有限探索。

在這一研究中，我們的目的不只是系統的評估不同神經網路在我們的任務上的表現；而且還要測試這些架構在未知的或更大的拓撲結構（我的世界地圖）中的泛化能力。經驗性的結果顯示現有的深度增強學習架構在未知的或更大的地圖中的表現相比於訓練地圖而言表現要差。由於現有架構在我們的任務上缺乏泛化能力，受其驅動我們也提出了一種新型的基於記憶的深度增強學習架構。我們提出的架構能夠將近期觀測儲存在記憶中，並能基於時間環境檢索相關記憶，然而增強學習問題中用到的現有架構中的記憶檢索還未將環境作為條件。總而言之，通過利用它們的新的記憶機制，我們展示的架構在大部分任務上要勝過現有的架構，在未知地圖上的泛化能力也要更強。

結構

從記憶中檢索先前觀測經驗的重要性由當前環境決定。例如，在 Figure 1 的迷宮中，指示器街道的顏色決定了期望目標的顏色，只有在代理看到潛在目標的情況下，指示燈信息才很重要，並且需要決定是否接近它，還是尋找一個不同的目標。由於現有架構缺乏「環境決定的記憶檢索」能力，受其驅動我們展示了三種新型基於記憶的架構。我們提出的架構包含：從圖片中提取高水平特徵的卷積網路，一個存儲近期觀測歷史的記憶器，一個用於記憶檢索和 action-value評測的環境矢量。由環境矢量如何建造決定，我們得到三種新的架構：Memory Q-Network (MQN)，Recurrent Memory Q-Network (RMQN)和 Feedback RecurrentMemory Q-Network (FRMQN)

討論

這篇文章中，我們介紹了「我的世界」中的三類認知啟發任務，將兩個現有的架構和我們提出的三種架構進行了性能比較。我們強調，與幾乎所有的增強學習演算法評估不同，我們在並無交集的幾組地圖上進行訓練、評估，以便特別考慮在未知（內插和外推）地圖上學習價值函數的適用性。總之，我們主要的經驗性結論是，取決於環境的記憶檢索，特別是從記憶檢索中獲得反饋連接，能更有效的解決我們的任務。這些任務要求掌握主動感知和外部物理移動行為。我們的架構，特別是 FRQMN，在學習價值函數時，也顯示出相比於基線架構更為優越的能力，能夠更好地從訓練泛化到未曾見過的環境中去。未來研究中，我們傾向於利用「我的世界」的靈活性來建構更加具有挑戰性的認知任務，進一步評估我們的架構情況。

請您繼續閱讀更多來自 機器之心 的精彩文章:

40家正在顛覆世界的創業公司

想在火星上種土豆？機器學習可以幫你分析表層化學成分

未來法庭——機器學習讓最高法院判決更透明

為什麼你大腦的90％都像中了沉睡魔咒？

您可能感興趣

※Redis Cluster探索與思考
※Angelababy鹿晗實力演繹AdidasOriginals，帶你探索時尚
※探索Python F-strings是如何工作
※一個 Reentrant Error 引發的對 Python 信號機制的探索和思考
※Acne Studios飄逸又實穿，Comme des Gar?ons用廓形探索未來
※#KissMyAirs 東西時尚探索－Eugene Tong by Jonathon Lim
※#KissMyAirs 探索東西時尚 - Eugene Tong by Jonathon Lim
※Shades of Green 探索綠之魅
※Oculus聯手Crytek，探索8大VR行動機制
※時間和運動的藝術探索 by Christian Hook！
※添柏嵐 (Timberland) SLS潮運動系列席捲上市，攜手休閑 Mix & Match探索未知，彰顯態度
※《Photographing the Female 》：探索身為女性的意義的攝影展
※Legend of Adventure 探索者，現代修行者
※「DeepMind最新Nature论文」探索人类行为中的强化学习机制
※與闖入的來客一起探索未知的Minimal City
※Apple Store 免費兌換福利：infltr-無限濾鏡，探索 P 圖無限可能
※DeepMind最新Nature論文：探索人類行為中的強化學習機制
※Louis Vuitton 先锋态度探索最纯粹的旅行｜时装周
※BBC成立Reality Labs，探索VR/AR