DeepMind新論文：給側面照片，AI給你腦補出正面

最新 06-15

用小立方體搭一個幾何體，使它的主視圖和俯視圖如圖所示，這樣的幾何體最多需要多少個小立方體？最少需要多少個小立方體？

大家在學生時代可能都面對過這些涉及空間想像的幾何題。從根本上，它們考驗的是2D圖像和3D場景間的轉換能力。如今，人工智慧也成功打破了這種「次元壁」。

一手打造史上最強圍棋AI「阿爾法狗」的英國DeepMind團隊，宣布其新開發的一種機器學習系統能在無人監督的情況下，從幾個角度「觀察」特定場景，然後生成該場景在其他角度上的樣子。

相關論文發表在北京時間6月15日凌晨的世界頂級學術期刊《科學》上。

GIF

人工智慧「看」到的2D幾何體圖片（左）和生成的3D幾何體（右）

具體來說，這個名為生成查詢網路（Generative Query Network, GQN）的系統分為兩個部分：表示網路和生成網路。表示網路負責從2D樣本圖像中提取出一套用來表現場景的編碼，而生成網路則可以輸出該場景在新視角上的可能圖像。在這個過程中，網路也會考慮到不確定因素，比如場景圖像存在部分模糊。

Seyed Mohammadali Eslami團隊用電腦合成了虛擬的場景，其中包含不同物體和多個光源。他們用幾張不同角度的場景圖片訓練計算機後，系統就能夠生成該場景在任意角度上的圖像。

甚至，當研究團隊去除、增加場景中的物體，或者更改部分物體的形狀或顏色後，系統依然能夠得出相應的結果，並不需要人類向計算機解釋「形狀」和「顏色」的概念。研究團隊認為，這表明人工智慧並不是僅僅是在「拼湊」場景。

現在的機器學習方法需要大量經人類標註的數據進行訓練，比如輸入成千上萬張貓的照片教會計算機識別出「貓」這個物種。而這種新的神經網路只需要少數幾張2D圖片，無需人類標註。這為未來人工智慧開闢了一條自主的新道路：人工智慧可以通過自身攜帶的感測器觀察並還原這個世界。

GIF

人工智慧通過虛擬迷宮不同地點的圖片，還原出相應場景。

比如，把這套系統應用在機械臂控制上的話，計算機只需要一個固定的攝像頭記錄2D圖像，就能理解機械臂的運動情況。定位和控制機械臂所需採集的數據量就會大大減少。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 澎湃新聞 的精彩文章:

※沒有緊跟美聯儲加息，中國央行暫維持公開市場利率不變
※「賽博格」正來臨：浙大腦機介面專家和他的大鼠X戰警軍團

TAG:澎湃新聞 |