當前位置:
首頁 > 最新 > 來自Google DeepMind神經網路具有驚人的場景渲染技巧

來自Google DeepMind神經網路具有驚人的場景渲染技巧

本文由Rehoo團隊Leery原創,無授權禁轉!(圖片來自網路)

位於英國的谷歌旗下DeepMind子公司的最新研究表明,深度神經網路具有理解場景,以緊湊格式表現的能力,然後「想像」從網路的角度來看,同一場景看起來會是什麼樣子前面看過。

人類擅長這一點。如果顯示一張只有前面三條腿可見的桌子的照片,大多數人直觀地知道,桌子可能在相反一側有第四條腿,而桌子後面的牆可能與他們可以看到的部分顏色相同。通過練習,我們可以學習從另一個角度來描繪場景,同時考慮透視,陰影和其他視覺效果。

由Ali Eslami和Danilo Rezende領導的DeepMind團隊開發了基於深度神經網路的軟體,這些軟體具有相同的功能 ,至少適用於簡化的幾何場景。鑒於虛擬場景的一些「快照」,稱為生成查詢網路(GQN)的軟體使用神經網路來構建該場景的緊湊數學表示。然後,它使用該表示從新的角度呈現房間的圖像,這是網路以前從未見過的視角。

研究人員並沒有對他們將呈現在GQN中的環境的任何先前知識進行硬編碼。人類有多年的經驗看待現實世界的物體。DeepMind網路通過檢查來自類似場景的一系列圖像來開發自己的類似直覺。

Eslami在周三接受電話採訪時告說道:「當我們看到它可以做透視和遮擋以及照明和陰影等事情時,最令人驚訝的結果之一是我們知道如何編寫渲染器和圖形引擎,」他說。然而,DeepMind軟體的卓越之處在於程序員沒有試圖將這些物理定律硬編碼到軟體中。Eslami說,該軟體開始時是一張空白的平板,能夠通過查看圖像來有效地發現這些規則。

這是深度神經網路令人難以置信的多功能性的最新演示。我們已經知道如何使用深度學習對圖像進行分類,在Go上獲勝,甚至可以玩Atari 2600遊戲。現在我們知道他們對三維空間的推理具有非凡的能力。


以下是DeepMind提供的一個簡單示意圖,可幫助您直觀了解GQN的組合方式:

在GQN實際上是連接在一起的兩個不同的深層神經網路。在左邊,表示網路接收場景的圖像集合(連同關於每個圖像的相機位置的數據)並將這些圖像壓縮成場景的緊湊數學表示(基本上是數字的矢量)。

然後,生成網路的任務就是逆轉這一過程:從表示場景的矢量開始,接受攝像機位置作為輸入,並生成一個圖像,表示從該角度看場景的樣子。顯然,如果生成網路被給予對應於輸入圖像之一的攝像機位置,則它應該能夠再現原始輸入圖像。但是該網路也可以與其他相機位置一起提供 ,網路從未見過對應圖像的位置。GQN能夠從這些位置生成圖像,與來自相同位置的「真實」圖像非常匹配。

「這兩個網路都是以端到端的方式聯合訓練的,」DeepMind論文稱。

該團隊使用隨機梯度下降的標準機器學習技術來迭代地改進兩個網路。該軟體將一些訓練圖像送入網路,生成輸出圖像,然後觀察該圖像與預期結果的差異。傳統的神經網路使用外部提供的標籤來判斷輸出是否正確,而GQN的訓練演算法使用場景圖像作為表示網路的輸入,並作為判斷發電網路輸出是否正確的一種方法。

如果輸出與期望的圖像不匹配,則軟體反向傳播錯誤,更新數千個神經元上的數字權重以改善網路的性能。然後,軟體多次重複該過程,並且在每次傳遞時,網路在獲得輸入和輸出圖像以匹配方面會更好一些。

你可以把它看作是兩個相互連接的漏斗,這樣瓶頸就可以連接到中間。因為瓶頸很緊張,兩個網路學會一起工作,以確保內容緊密交流。


在訓練過程中,神經網路提供了多個圖像,每個圖像來自具有相似特徵的一堆不同「房間」。在一個實驗中,團隊生成了一組包含多個幾何形狀(如球體,立方體和錐體)的程式化方形「房間」。每個房間也有隨機選擇的光源和牆壁顏色和紋理。由於網路是通過來自多個「房間」的數據進行培訓的,因此它必須設法以一種通用的方式來表示房間內容。

一旦GQN得到訓練,就可以從一個以前從未見過的新「房間」提供一個或多個圖像。經過一系列具有類似特徵的其他房間的訓練後,該網路對房間的正常外觀有一個很好的直覺,因此能夠對房間中不直接可見的部分進行有根據的猜測。

例如,GQN可以預測牆上的重複圖案可能會繼續在被其他物體遮擋的部分牆上。它可以預測場景中的物體如何在牆壁,地板和其他物體上投射陰影。而且,這一切都沒有研究人員對光的物理或被分析場景的特徵進行任何明確的規定。它可以學習我們不知道如何手工學習的東西,桌子通常位於椅子旁邊的事實 - 這是我們直覺知道的事情,但很難量化和編碼,神經網路可以學習,就像學習物體投下陰影一樣。

換句話說,假設一個GQN是用一堆家庭內部的圖像進行訓練的,然後從之前沒有見過的房子給出圖像。如果可用的圖像只顯示餐桌的一半,網路可能會弄清楚桌子另一半的樣子 .並且桌子旁邊可能有椅子。如果一間卧室的樓上有一間房間,但其內部不在其中一個圖像中,網路可能會猜測它內部會有一張床和一個梳妝台。

這不是因為網路對桌子和椅子或床是什麼概念性的理解。簡單地說,從統計學的角度來看,桌子形狀的物體傾向於在其旁邊有椅子形狀的物體,而卧室形狀的房間傾向於在其內部具有床形物體。


DeepMind團隊構建的網路可以從數量非常有限的數據中獲得豐富的推論。在另一項實驗中,研究人員通過向網路展示一堆隨機生成的形狀來訓練網路,這些形狀看起來像三維俄羅斯方塊。在訓練過程中,網路顯示了一系列不同的隨機生成的片段,每個片段有幾個圖像。

一旦網路被訓練,研究人員就給網路一個新的俄羅斯方塊形狀的圖像,這是以前從未見過的。從這張單張照片中,網路常常能夠從任何其他角度生成逼真的三維圖像。

當然,這並不總是可能的。如果單個示例圖像是從某個片段的某個片段被隱藏的角度拍攝的,則網路無法知道被遮擋的片段是什麼樣子。在這種情況下,網路將隨機生成與觀察到的圖像部分一致的許多形狀之一。但是,如果所有片段在示例圖像中都可見,則網路非常適合推斷片的形狀並從任何角度呈現其圖像。

GQN可以處理令人驚訝的複雜場景。在另一個實驗中,研究人員構建了三維迷宮,看起來有點像微型厄運水平。由於這些虛擬環境具有多個房間和通道,因此沒有任何一個圖像可以顯示整個環境的一小部分。但是如果它給出了一個新的迷宮的六張快照,GQN能夠組裝一個整個迷宮的精確模型 ,或者至少是那些至少在一個圖像中顯示的那些部分。


到目前為止,我們所描述的所有實驗都使用表示和生成網路來重現特定場景的圖像。但研究人員還發現,網路對場景的緊湊表示(由表示網路產生,然後由代網路使用)可以有用。

機器學習中的一個標準問題是控制機器人手臂執行一個簡單的任務,比如拿起一個球。理想情況下,演算法應該能夠僅使用機器人當前位置的視頻輸入作為輸入。一種稱為強化學習的技術允許軟體學習如何自主地執行這樣的任務 ,沒有來自操作員的明確指導。

這不是一個新問題:機器學習研究人員在使用其他技術之前已經解決了這個問題。但DeepMind的研究人員發現,GQN對機器人手臂的表示為學習過程提供了非常有用的輸入。與其試圖分析原始視頻饋送,強化學習演算法可以使用GQN矢量表示機器人手臂的位置來了解當前情況。

由於這個矢量比原始輸入圖像具有更低的維度,我們觀察到實際上更加健壯和數據有效的策略學習,獲得了收斂級別的控制性能,與使用原始像素的標準方法相比,接近四分之一的環境交互。值得強調的是,研究人員在將其提供給強化學習演算法之前沒有以任何方式注釋GQN的場景矢量表示。強化學習演算法最初並不知道GQN的場景矢量表示中的值如何與機器人手臂的當前位置相對應。儘管如此,使用GQN的矢量表示作為輸入,通過反覆試驗學習這些信息相比試圖僅基於原始視頻饋送學習要容易得多。

埃斯拉米向我們強調,這是遠未實際應用的初步研究。它幾乎完全在計算機渲染的虛擬「房間」和對象上進行測試。它沒有在我們在現實世界中遇到的更複雜的環境中進行測試,這些技術概括得還不清楚。事實上,GQN成功的關鍵在於能夠將複雜的場景凝聚成緊湊的數字表示。但是這隱含地假定場景足夠簡單,以至於它可以用相對少量的數值表示。但是,如果一個典型的場景要表現出幾十個,幾百個或幾千個對象呢?而如果其中一些是樹木,貓和汽車等複雜的物體呢?

在某些情況下,場景可能會變得太複雜,無法有效地表示DeepMind軟體所基於的那種緊湊的數學表示形式。研究人員將不得不弄清楚是否可以放大相同的技術,用更多更多的物體代表更複雜的場景。

但是,如果這些技術可以推廣到現實世界的對象,並且似乎有人會想出如何這樣做。自駕車似乎是一個明顯的應用。目前,自動駕駛軟體在很大程度上依賴於人類開發的模型,甚至明確道路場景的人類注釋,以了解特定場景中的哪些物體是汽車,行人,自行車,樹木,建築物等等。今天的自動駕駛軟體需要這些標籤,因為它們可以幫助車輛預測附近的物體(行人,自行車,William Shatner)可能會突然進入巷道,哪些(灌木,垃圾袋)幾乎肯定會停留在原地。

類似GQN的網路可以幫助自動駕駛汽車開發更多類似於駕駛情境的直覺,直覺可以直接從原始感測器數據中學習,而不依賴於人類在每個場景中費力地標記物體。我們不能確切地說明如何將這樣的網路整合到現有的自駕車中,但如果這種強大的技術不能幫助自駕車更好地理解世界,我們會感到惋惜。


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 Rehoo科技 的精彩文章:

大規模的火星沙塵暴迫使機遇號探測器置於低功率睡眠狀態

TAG:Rehoo科技 |