DeepMind發布新演算法：生成查詢網路GQN，可將2D照片渲染成3D模型

最新 06-15

AiTechYun

編輯：chux

谷歌子公司DeepMind發布了一種新型計算機視覺演算法，可以從2D快照生成場景的3D模型：生成查詢網路（GQN）。

GQN的詳細信息發表在Science雜誌上，無需任何人工監督或訓練即可「想像」並從任何角度渲染場景。如果只給出一小部分場景的圖片，例如，地板上有一個彩色的球體的牆紙裝飾房間，這個演算法可以呈現出相反的、不可見的物體側面，並從多個角度產生一個3D視圖，甚至可以考慮到像陰影中的光線。

它旨在複製人類大腦了解其周圍環境和物體之間物理交互的方式，並消除AI研究人員在數據集中注釋圖像的需求。大多數視覺識別系統都需要人員標記數據集中每個場景中每個對象的每個方面，這是一個費時費力的過程。

GQN從靜態圖像中想像出這個迷宮

「與嬰兒和動物一樣，GQN通過嘗試理解從周圍世界觀察到的事物來學習，」DeepMind的研究人員在一篇博客文章中寫道。「在這樣做的時候，在沒有任何人對場景內容的標註的情況下，GQN了解了看似合理的場景及其幾何屬性。」

該系統由兩部分組成：表示網路和生成網路。前者獲取輸入數據並將其轉換為描述場景的數學表示（矢量），後者則對場景進行圖像處理。

GQN從2D採樣數據創建可操作的虛擬對象

為了訓練這個系統，DeepMind的研究人員從不同角度提供了GQN場景圖像，用這些圖像中物體的紋理，顏色和光照以及它們之間的空間關係來進行訓練。然後預測了這些物體的外觀，即看起來是側面還是後面。

利用其空間理解，GQN可以控制物體（例如，通過使用虛擬機器人手臂來拾取球體）。當它在場景中移動時，它會自我修正，當出現問題時它會調整預測。

由GQN設想的另一個3D迷宮（訪問原文查看）

GQN並非沒有限制，它只在包含少量對象的簡單場景中進行了測試，而且它無法生成複雜的3D模型。但DeepMind正在開發更強大的系統，這些系統需要更少的處理能力和更小的語料庫，以及可處理更高解析度圖像的框架。

研究人員表示，「雖然我們的方法在實踐部署之前還有很多需要完善，但我們相信這項工作對於完全自動的場景理解來說是相當重要的。」

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 ATYUN訂閱號 的精彩文章: