DeepMind 最新Science論文：生成查詢網路GQN

最新 06-19

DeepMind 剛剛在Science上發表一篇《Neural scene representation and rendering》論文，提出一種像人類一樣具備「腦補」世界能力的AI：GQN（Generative Query Network）。

Amusi 將對論文中部分重要的內容進行介紹，如下所述：

場景表徵（Scene representation）- 即將視覺感測數據轉換為簡潔描述的過程 - 是智能行為的基本要求。最近的工作表明，當為神經網路提供大量帶標記的數據集時，它在這項任務中表現突出。但是，消除對人工標籤的依賴仍然是一個重要的公開問題。為此，我們介紹了生成查詢網路（Generative Query Network，GQN），在這個框架中，機器學習將學習如何僅使用自己的感測器來表徵場景。GQN將從不同視角拍攝的場景圖像作為輸入，用來構建內部表示，並使用此表示預測以前未觀察到的視角下的場景外觀。GQN演示了在沒有人類標籤或領域知識的表示學習，為自動學習以及了解周圍世界的機器鋪平了道路。

GQN 模型由兩部分構成：一個表徵網路（representation network）以及一個生成網路（generation network）。表徵網路將智能體的觀察作為輸入，並生成一個描述潛在場景的表徵（向量）。然後生成網路從之前未觀察過的視角來預測（想像）該場景。

我們在實驗中表明，GQN 具有幾個重要的特性：

GQN 的生成網路可以從新的視角非常精確地「想像」以前未見過視角下的場景。當給定場景表徵和新視角時，它會生成清晰的圖像，而不需要預先規定角度、遮擋或照明的規律。因此，生成網路是從數據中學習的近似渲染器（renderer）：

GQN 的表徵網路可以學習計數、定位和分類目標，並且不需要任何目標級的標註。即使它的表徵可能是很小的，GQN 在查詢視角的預測也能達到很高的準確率，幾乎和真實場景無法分辨。這意味著該表徵網路可以準確地感知，例如識別積木塊的精確配置。

DeepMind的上述工作展示了機器學習物理場景的基礎表示的強大方法，以及從圖像整體提取這些表示的相關感知系統，為完全無監督的場景理解，想像力，計劃和行為鋪平了道路。

全面的場景理解不僅涉及場景3D結構的表徵。未來，重要的是要考慮場景理解的更廣泛的方面 - 例如，通過在時空上查詢動態和互動式場景的建模，以及虛擬和增強現實中的應用以及探索同時場景表示和本地化的觀察，這涉及到計算機視覺中的同時定位和映射（simultaneous localization and mapping ，SLAM）的概念。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 深度學習與神經網路 的精彩文章:

TAG:深度學習與神經網路 |