谷歌最新人工智慧研究:僅利用稀疏輪廓位置重構圖像
原文來源:arXiv
作者:Tali Dekel、Chuang Gan、Dilip Krishnan、Ce Liu、William T. Freeman
「雷克世界」編譯:嗯~阿童木呀、KABUDA
我們研究這樣一個問題,根據稀疏輪廓位置存儲的信息重構圖像。研究結果證明,我們可以從稀疏輸入中獲得對源圖像的高保真度的高質量重構,例如,包括少於6%的圖像像素。與現有的基於輪廓的重構方法相比,這是一個重大改進,它需要更密集的輸入以捕捉細微紋理信息並確保圖像質量。我們的模型是基於生成式對抗網路的,在沒有提供輸入信息的區域內合成紋理和細節。編碼到我們模型中的語義知識和輸入的稀疏性允許使用輪廓作為用直觀界面,以進行語義感知的圖像處理:輪廓域中的局部編輯轉換為像素空間中的長期和連貫變化。我們可以執行複雜的結構變化,比如通過縮放和移動等對輪廓進行簡單編輯以改變面部表情。對各種數據集的實驗驗證了我們模型的多功能性和便利性。
我們的方法通過在稀疏輪廓位置的值的形式從輸入表示中產生圖像的高質量重構:一個 (512×512)的源圖像(a)根據(b)中彩色輪廓集合中的梯度信息被重構為圖像(c)。非零像素小於5%。即使在沒有輸入信息的區域,該模型也能合成頭髮紋理、面部線條和陰影。我們的模型允許在輪廓域中進行語義上的直觀編輯。右上角:一個類似於漫畫的結果(e)是通過對(d)的輪廓進行移動和縮放創建而來的。右下:通過粘貼一組從參考圖像中拷貝出來的毛髮輪廓,進而合成頭髮。經過編輯的輪廓用綠色標出,而原輪廓用紅色標出。
輪廓是對圖像的一種簡潔而具有意義的表示,因為它們編碼的是「事物」(」things」)而非「東西」(」stuff」)。從而這使得他們更適用於進行圖像重構和操作。由於輪廓捕捉的是形狀和目標的邊界,因此我們希望能夠操縱它們(如平移、縮放、複製、粘貼),並使得相關像素得以適應相應的變化,從而使得編輯後的圖像能夠保持原始圖像的結構和紋理細節,正如藝術家那樣,僅用簡單的草圖作,就能完成複雜的畫作。這一開放性問題起源於David Marr的開創性工作,以較高的保真度從稀疏輪廓中重構對圖像進行重構是非常有趣的,這是編輯和處理的基礎。
圖2.從稀疏輪廓中進行圖像重構(圖a中用紅色標出)通過以下方式獲得:(b)輸入均勻擴散在每個邊緣位置兩側的RGB採樣值;(c)Pin2pix將二進位邊緣映射作為輸入;使用存儲在(a)中紅色位置的梯度信息生成圖像(f);源圖像如圖3所示,(d-e)密集輪廓以及相應的重構可以通過通過均勻擴散獲得重構。與(b-c)和(e)相比,我們的方法提供了更優越的重構,並且提供了更密集的輸入。
二進位輪廓圖通常不足以保留圖像的保真度(如圖2-c)。因此,局部圖像信息(如梯度或顏色)已經與輪廓位置相結合,並且已經在基於擴散方法的文獻中被廣泛研究。
然而,這種基於擴散的方法不適用於圖像編輯,因為它們不能合成紋理和缺失性內容。高質量的重構往往需要密集的輪廓,這剛好違背了原先簡潔和易操作的初衷。當輪廓稀疏時,重構失去重要的圖像細節,如紋理(見圖2中a-b)。
我們的模型使用兩個「U-Nets」的級聯從一個稀疏N—信道的特徵映射中(通常N = 3或N = 6)進行圖像重構:(a)低頻網路(LFN)用一個L1像素損失進行訓練,從而恢復圖像的整體結構和顏色;(b)以LFN輸出和輸入特徵映射為條件的高頻網路(HFN),產生紋理和細節重構; HFN是經像素損失和對抗式損失的組合進行訓練的。(c)我們的條件性鑒別器,它包含擴大的卷積和圖像塊之間的聚合,以更好地捕捉高頻率。「Concat」是指沿深度軸連接相同空間解析度的信道。
在本文中,我們提出了一種基於深度生成式模型的新方法,從而解決了高保真與高稀疏之間的矛盾。即使在沒有提供輸入信息的大區域,我們的模型也只是從稀疏的輪廓表示中適當地學習對其進行處理,而不是強制用輪廓對紋理、細節和精細結構進行建模(見圖1中a-c)。具體來講,我們假設輪廓和紋理之間的相關性被很好地封裝在一類圖像當中,例如面孔、狗和鳥。例如,已知一個輪廓是人臉輪廓,那麼我們的模型可以基於一組面部圖像訓練統計的相關性來填充毛髮和面部表情細節。為此,我們開發了兩個網路的級聯,將整個任務分解為兩個更容易處理的問題。第一個網路重構整個圖像的結構和顏色,而第二個網路恢復紋理和細節。
源圖像(a)是對(b)中標記為紅色的相同邊緣像素中的不同稀疏表示進行重構得到的,使用的方法如下:(c)基於擴散的解決方案對在輪廓兩側採樣的RGB值進行傳播;(d)僅使用二進位輪廓作為輸入的Pix2pix;(e)使用稀疏梯度的LFN輸出和(f)我們的最終HFN輸出。
大量的實驗表明,利用我們的模型,高保真圖像重構可以從存儲在輪廓像素中的一小部分信息中獲得,對於512×512的圖像來說,這一部分信息可以縮小至至3%(參見圖1中a-c)。這基本上使輪廓成為圖像編輯的強大工具。除此之外,我們的研究結果表明,我們的模型可以對關於訓練數據的語義信息進行編碼。因此,輪廓域中的局部編輯被轉換為像素空間中的相干變化(例如,拖動人的眉毛會導致連接眉毛和鼻子的面部線條發生變化,參見圖1中d-e)。我們展示各種圖像編輯的例子,如創建漫畫、改變面部表情或生成頭髮和毛髮紋理。
我們提出了一個深度網路模型,它可以從稀疏的輪廓表示中實現高質量的圖像重構和有效語義感知編輯。由於在我們的模型中含有稀疏性和編碼於其中的高級信息,因此這種表示方法能夠很容易地進行大量連貫編輯的操作。這是對現有研究成果的重大改進。
局限性: (a)在進行面部訓練時,使用我們的模型重構小狗的圖像(b)相反顯示(c)與極端編輯的效果相同,由於輪廓限制導致結果沒有語義含義。
我們的模型存在局限性,因為特定域的紋理和細節不能由一個域很好地轉換到另一個域中。例如,將一個基於小狗圖像訓練的模型應用於人臉,將導致犬樣外觀(圖10-b),反之亦然(圖10-a)。在這兩種情況下,輸入輪廓對重構提供了強有力的約束,但我們的模型主要是依靠訓練數據合成紋理。在某些情況下(如極端編輯操作)可以防止在語義上有意義的重構(圖10-c)。


※機器人行業未來走勢如何?這有「30+2」篇研究報告全方位剖析
※安卓手機如何玩轉動作手勢檢測?有TensorFlow就夠了,附實用教程
※佛蒙特大學給機器人口述形態學,使其理解人類指令
※航天信息總經理於亮:為什麼人工智慧≠大數據?
※MIT開發出高效查詢方法,以尋找黑盒機器學習分類器的對抗樣本
TAG:雷克世界 |