英偉達、UC伯克利聯合研究：條件GAN高解析度圖像合成與語義編輯pix2pixHD（論文+代碼）

科技 12-05

原標題：英偉達、UC伯克利聯合研究：條件GAN高解析度圖像合成與語義編輯pix2pixHD（論文+代碼）

來源：arxiv.org

編譯：馬文

【新智元導讀】英偉達和UC Berkeley的研究者最近公開一個名為pix2pixHD的項目，並公開了論文和代碼。pix2pixHD能夠利用條件GAN進行2048x1024解析度的圖像合成和處理，輸入語義標註圖生成接近真實的現實世界圖像，例如街景圖、人臉圖像等，並且只需簡單的操作即可修改和搭配圖像，效果優於pix2pix和CRN等先前的方法。

英偉達和UC Berkeley的研究者最近公開一個名為pix2pixHD的「用條件GAN進行2048x1024解析度的圖像合成和處理」項目，並公開了論文和代碼。pix2pixHD能夠利用語義標註圖還原接近真實的現實世界圖像，例如街景圖、人臉圖像等，並且只需簡單的操作即可修改和搭配圖像。

作者發布的視頻介紹中，可以看到，你可以選擇更換街景中車輛的顏色和型號，給街景圖增加一些樹木，或者改變街道類型（例如將水泥路變成十字路）。類似地，利用語義標註圖合成人臉時，給定語義標註的人臉圖像，你可以選擇組合人的五官，調整大小膚色，添加鬍子等。

圖：左下角是人臉的語義標註圖，pix2pixHD合成各種不同五官、接近真實的人臉圖像。

視頻介紹：

論文：High-Resolution Image Synthesis and Semantic Manipulation with Conditional GANs

作者：Ting-Chun Wang1, Ming-Yu Liu1, Jun-Yan Zhu2, Andrew Tao1, Jan Kautz1, Bryan Catanzaro1

1NVIDIA Corporation 2UC Berkeley

摘要

本文提出了一種利用條件生成對抗網路（conditional GANs）來合成高解析度、照片級真實的圖像的新方法。條件GAN已經實現了各種各樣的應用，但是結果往往是低解析度的，而且也缺乏真實感。在這項工作中，我們的方法生成了2048x1024解析度的視覺上非常棒的效果，利用新的對抗損失，以及新的多尺度生成器和判別器架構。此外，我們還將我們的框架擴展到具有兩個附加特徵的互動式可視化操作。首先，我們合併了對象實例分割信息，這些信息支持對象操作，例如刪除/添加某個對象或更改對象類別。其次，我們提出了一種方法，可以在給定相同輸入條件下生成不同的結果，允許用戶互動式地編輯對象的外觀。人類意見研究（human opinion study）表明，我們的方法顯著優於現有的方法，既提高了圖像的質量，也提高了圖像合成和編輯的解析度。

圖1：我們提出了一個利用語義標註圖（上圖（a）的左下角）合成2048×1024解析度圖像的生成對抗框架。與以前的工作相比，我們的結果表現出更自然的紋理和細節。（b）我們可以在原始標籤地圖上改變標籤來創建新的場景，例如用建築物替換樹木。（c）我們的框架還允許用戶編輯場景中單個對象的外觀，例如改變汽車的顏色或道路的紋理。請訪問網站進行更多的對比和互動式編輯演示。

圖2：生成器的網路架構。我們首先在較低解析度的圖像上訓練一個殘差網路G?。然後，將另一個殘差網路G?附加到G?，然後兩個網路在高解析度圖像上進行聯合訓練。具體來說，G?中的殘差塊的輸入是來自G?的特徵映射和來自G?的最後一個特徵映射的元素和。

圖3：使用實例圖（instance map）：（a）一個典型的語義標籤圖。請注意，所有汽車都有相同的標籤，這使得它們很難區分開來。（b）提取的實例邊界圖。有了這些信息，更容易區分不同的對象。

圖4：沒有實例映射（instance map）和帶有實例映射的結果之間的比較。可以看出，當添加實例邊界信息時，相鄰車輛的邊界更加清晰。

圖5：除了用於生成圖像的標籤之外，還使用 instance-wise特徵。

結果

表1：Cityscapes 數據集上不同方法得出的結果的語義分割得分。我們的結果大大優於其他方法，並且非常接近原始圖像的準確率（即Oracle）。

圖7：在Cityscapes數據集上的比較（語義標註圖顯示在（a）的左下角）。對於有VGG損失和沒有VGG損失，我們的結果比其他兩種方法更接近真實。可以放大圖片查看更多細節。

圖8：在NYU數據集上的比較。我們的方法比其他方法生成的圖像更加逼真、色彩更豐富。

討論和結論

本研究的結果表明，條件GAN（conditional GAN）能夠合成高解析度、照片級逼真的圖像，而不需要任何手工損失或預訓練的網路。我們已經觀察到，引入perceptual loss可以稍微改善結果。我們的方法可以實現許多應用，並且可能對需要高解析度結果，但是預訓練的網路不可用的領域有潛在的用處，例如醫學成像和生物學領域。

本研究還表明，可以擴展圖像-圖像的合成流程以產生不同的輸出，並且在給定適當的訓練輸入 - 輸出對（例如本例中的實例圖）的情況下實現互動式圖像處理。我們的模型從未被告知什麼是「紋理」，但能學習將不同的對象風格化，這也可以推廣到其他數據集（即，使用一個數據集中的紋理來合成另一個數據集中的圖像）。我們相信這些貢獻拓寬了圖像合成的領域，並可以應用於許多其他相關的研究領域。

論文：https://arxiv.org/pdf/1711.11585.pdf

代碼：https://github.com/NVIDIA/pix2pixHD

歡迎讀者朋友加入新智元讀者群一起交流探討，請加微信（備註名字+學校/企業+研究/關注領域）：aiera2015

備註（名字+學校/企業+視覺），加入計算機視覺討論群。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 新智元 的精彩文章:

※【NIPS 2017】英偉達、谷歌研究盤點，谷歌45篇論文、28個Workshop搶先看（論文下載）
※【無人駕駛量產得靠128線廉價激光雷達，中國將是最大市場】專訪Velodyne自動駕駛VP
※深度學習頂會「無冕之王」ICLR 2018評審結果出爐，斯坦福大學對抗訓練研究得分第一
※康奈爾大學王飛：醫學人工智慧真正落地面臨的三大挑戰

TAG:新智元 |