當前位置:
首頁 > 科技 > 英偉達、UC伯克利聯合研究:條件GAN高解析度圖像合成與語義編輯pix2pixHD(論文+代碼)

英偉達、UC伯克利聯合研究:條件GAN高解析度圖像合成與語義編輯pix2pixHD(論文+代碼)

原標題:英偉達、UC伯克利聯合研究:條件GAN高解析度圖像合成與語義編輯pix2pixHD(論文+代碼)



來源:arxiv.org

編譯:馬文


【新智元導讀】英偉達和UC Berkeley的研究者最近公開一個名為pix2pixHD的項目,並公開了論文和代碼。pix2pixHD能夠利用條件GAN進行2048x1024解析度的圖像合成和處理,輸入語義標註圖生成接近真實的現實世界圖像,例如街景圖、人臉圖像等,並且只需簡單的操作即可修改和搭配圖像,效果優於pix2pix和CRN等先前的方法。


英偉達和UC Berkeley的研究者最近公開一個名為pix2pixHD的「用條件GAN進行2048x1024解析度的圖像合成和處理」項目,並公開了論文和代碼。pix2pixHD能夠利用語義標註圖還原接近真實的現實世界圖像,例如街景圖、人臉圖像等,並且只需簡單的操作即可修改和搭配圖像。


作者發布的視頻介紹中,可以看到,你可以選擇更換街景中車輛的顏色和型號,給街景圖增加一些樹木,或者改變街道類型(例如將水泥路變成十字路)。類似地,利用語義標註圖合成人臉時,給定語義標註的人臉圖像,你可以選擇組合人的五官,調整大小膚色,添加鬍子等。



圖:左下角是人臉的語義標註圖,pix2pixHD合成各種不同五官、接近真實的人臉圖像。


視頻介紹:


論文:High-Resolution Image Synthesis and Semantic Manipulation with Conditional GANs


作者:Ting-Chun Wang1, Ming-Yu Liu1, Jun-Yan Zhu2, Andrew Tao1, Jan Kautz1, Bryan Catanzaro1


1NVIDIA Corporation 2UC Berkeley


摘要


本文提出了一種利用條件生成對抗網路(conditional GANs)來合成高解析度、照片級真實的圖像的新方法。條件GAN已經實現了各種各樣的應用,但是結果往往是低解析度的,而且也缺乏真實感。在這項工作中,我們的方法生成了2048x1024解析度的視覺上非常棒的效果,利用新的對抗損失,以及新的多尺度生成器和判別器架構。此外,我們還將我們的框架擴展到具有兩個附加特徵的互動式可視化操作。首先,我們合併了對象實例分割信息,這些信息支持對象操作,例如刪除/添加某個對象或更改對象類別。其次,我們提出了一種方法,可以在給定相同輸入條件下生成不同的結果,允許用戶互動式地編輯對象的外觀。人類意見研究(human opinion study)表明,我們的方法顯著優於現有的方法,既提高了圖像的質量,也提高了圖像合成和編輯的解析度。


圖1:我們提出了一個利用語義標註圖(上圖(a)的左下角)合成2048×1024解析度圖像的生成對抗框架。與以前的工作相比,我們的結果表現出更自然的紋理和細節。(b)我們可以在原始標籤地圖上改變標籤來創建新的場景,例如用建築物替換樹木。(c)我們的框架還允許用戶編輯場景中單個對象的外觀,例如改變汽車的顏色或道路的紋理。請訪問網站進行更多的對比和互動式編輯演示。



圖2:生成器的網路架構。我們首先在較低解析度的圖像上訓練一個殘差網路G?。 然後,將另一個殘差網路G?附加到G?,然後兩個網路在高解析度圖像上進行聯合訓練。具體來說,G?中的殘差塊的輸入是來自G?的特徵映射和來自G?的最後一個特徵映射的元素和。


圖3:使用實例圖(instance map):(a)一個典型的語義標籤圖。請注意,所有汽車都有相同的標籤,這使得它們很難區分開來。(b)提取的實例邊界圖。有了這些信息,更容易區分不同的對象。



圖4:沒有實例映射(instance map)和帶有實例映射的結果之間的比較。可以看出,當添加實例邊界信息時,相鄰車輛的邊界更加清晰。



圖5:除了用於生成圖像的標籤之外,還使用 instance-wise特徵。


結果



表1:Cityscapes 數據集上不同方法得出的結果的語義分割得分。我們的結果大大優於其他方法,並且非常接近原始圖像的準確率(即Oracle)。



圖7:在Cityscapes數據集上的比較(語義標註圖顯示在(a)的左下角)。對於有VGG損失和沒有VGG損失,我們的結果比其他兩種方法更接近真實。可以放大圖片查看更多細節。



圖8:在NYU數據集上的比較。我們的方法比其他方法生成的圖像更加逼真、色彩更豐富。


討論和結論


本研究的結果表明,條件GAN(conditional GAN)能夠合成高解析度、照片級逼真的圖像,而不需要任何手工損失或預訓練的網路。我們已經觀察到,引入perceptual loss可以稍微改善結果。我們的方法可以實現許多應用,並且可能對需要高解析度結果,但是預訓練的網路不可用的領域有潛在的用處,例如醫學成像和生物學領域。


本研究還表明,可以擴展圖像-圖像的合成流程以產生不同的輸出,並且在給定適當的訓練輸入 - 輸出對(例如本例中的實例圖)的情況下實現互動式圖像處理。我們的模型從未被告知什麼是「紋理」,但能學習將不同的對象風格化,這也可以推廣到其他數據集(即,使用一個數據集中的紋理來合成另一個數據集中的圖像)。我們相信這些貢獻拓寬了圖像合成的領域,並可以應用於許多其他相關的研究領域。


論文:https://arxiv.org/pdf/1711.11585.pdf


代碼:https://github.com/NVIDIA/pix2pixHD


歡迎讀者朋友加入新智元讀者群一起交流探討,請加微信(備註名字+學校/企業+研究/關注領域):aiera2015


備註(名字+學校/企業+視覺),加入計算機視覺討論群。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 新智元 的精彩文章:

【NIPS 2017】英偉達、谷歌研究盤點,谷歌45篇論文、28個Workshop搶先看(論文下載)
【無人駕駛量產得靠128線廉價激光雷達,中國將是最大市場】專訪Velodyne自動駕駛VP
深度學習頂會「無冕之王」ICLR 2018評審結果出爐,斯坦福大學對抗訓練研究得分第一
康奈爾大學王飛: 醫學人工智慧真正落地面臨的三大挑戰

TAG:新智元 |