CVPR 2018 中國論文分享會之「GAN 與合成」

新聞 05-21

雷鋒網 AI 科技評論按：2018 年 5 月 11 日，由微軟亞洲研究院、清華大學媒體與網路技術教育部-微軟重點實驗室、商湯科技、中國計算機學會計算機視覺專委會、中國圖象圖形學會視覺大數據專委會合作舉辦了 CVPR 2018 中國論文宣講研討會，數十位 CVPR 2018 收錄論文的作者在此論壇中分享其最新研究和技術觀點。研討會共包含了 6 個 session（共 22 個報告），1 個論壇，以及 20 多個 posters，AI 科技評論將為您詳細報道。

雷鋒網註：全球計算機視覺頂級會議 IEEE CVPR 2018 將於 6 月 18 - 22 日在美國鹽湖城召開。據 CVPR 官網顯示，今年大會有超過 3300 篇論文投稿，其中錄取 979 篇；相比去年 783 篇論文，今年增長了近 25%。

更多報道請參看雷鋒網更多報道：

Session 1：GAN and Synthesis
Session 2: Deep Learning

Session 3: Person Re-Identification and Tracking
Session 4: Vision and Language
Session 5: Segmentation, Detection
Session 6: Human, Face and 3D Shape

本文為 Session 1，報告論文主要以使用 GAN 方法和生成方法為主，共有四場論文報道。

在第一個報告中，北京大學劉家瑛副教授介紹他們團隊使用 Attentive GAN 從單幅圖像中去除雨滴的工作；第二個報告由來自中科院自動化所的胡一博博士介紹他們通過 CAPG-GAN 演算法實現人臉旋轉任意角度的工作；隨後是由北京大學連宙輝副教授介紹了他們提出的互動式紋理變換的通用框架；最後由來自微軟亞洲研究院的傅建龍研究員介紹了他們提出的基於instance-level的 DA-GAN（深度注意生成對抗網路），該網路在圖像到圖像翻譯中能夠實現更精細的生成結果。

1、如何從單張圖片中去除雨滴？

論文：Attentive Generative Adversarial Network for Raindrop Removal from A Single Image
報告人：劉家瑛，北京大學
論文下載地址：https://arxiv.org/abs/1711.10098

去除圖片中的雨痕，一般有四種情景，如下圖所示，分別為：落下的雨滴（Rain Drop 1），落在鏡頭上的雨滴（Rain Drop 2），雨線（Rain Streak），以及雨霧（Mist）。

CVPR 2018 中國論文分享會之「GAN 與合成」

劉家瑛團隊在去年 CVPR 中曾發表過一篇關於去除雨痕的文章《Deep Joint Rain Detection and Removal From A Singal Image》，在這篇論文中他們主要研究如何去除圖片中的雨線。但在無人駕駛或相關研究中，更具挑戰性的一個任務是如何去除落在玻璃或者鏡頭上的雨滴。劉家瑛在本次分享會上介紹了她所指導的北大大二學生 Rui Qian 所做的該方面工作，也即去除單張圖片上隨機散布的雨滴（Rain Drop 2）。

在此之前僅有的一篇類似研究，是由 David Eigen 等人發表在 ICCV 2013 的一篇文章，在這篇文章中由於作者只使用了 3 層卷積網路，所以只能處理很少的 case，同時能夠處理的圖片上的雨滴也非常小，基本上可以視為灰塵。

在劉家瑛所分享的這篇文章中，其思路仍然延續去年文章的方法，即生成數據集，然後用生成的數據集來訓練模型。

1、數據集生成

數據集的生成方式是，本文作者 Rui Qian 使用單反+一個 3 毫米厚的玻璃片（或者直接把水噴在鏡頭上）收集了 1000 多對（有雨和無雨）在不同戶外環境、不同背景、不同尺寸和形狀的雨滴圖像，以模擬真實環境中雨滴的多樣性。使用一個數學公式來表達帶有雨滴圖像的話，如圖中公式所示：

CVPR 2018 中國論文分享會之「GAN 與合成」

2、模型框架

在該論文中作者選擇使用 GAN 的方法，整個模型的框架如下圖所示：

CVPR 2018 中國論文分享會之「GAN 與合成」

共包含三個部分，分別為：Generator（Attention-recurrent Network），Context Autoencoder 和 Dicriminator Network。

第一部分主要的工作是做檢測（即檢測雨滴在圖片中的位置），然後生成 attention map。首先使用 Residual block 從雨滴圖片中抽取 feature，漸進式地使用 Convs 來檢測 attentive 的區域。訓練數據集中圖片都是成對的，所以可以很容易計算出相應的 mask（M），由此可以構建出 Loss 函數；由於不同的 attention 網路刻畫 feature 的準確度不同，所以給每個 loss 一個指數的衰減。相應的 loss 函數如下：

隨後將 attention map 和雨滴圖像一起送給 autoencoder，生成去雨滴圖像。autoencoder 的結構用了 16 個 Conv 和 Relu。為了避免網路本身造成的 blur，作者使用了 skip connection，因為在低級層次這會帶來很好的效果。在構建 loss 方面，除了多尺度的考慮，還加上了一個高精度的 loss，即：Multi-scale loss + perceptual loss。

CVPR 2018 中國論文分享會之「GAN 與合成」

最後一個是 discriminator。這個步驟有兩種方式，一種是只使用 autoencoder 生成的無雨滴圖像，進行判斷；另一種則是加入 attention map 作為指導。如圖所示：

CVPR 2018 中國論文分享會之「GAN 與合成」

3、實驗結果

作者使用兩個數據集（PSNR 和 SSIM）進行了驗證，其中 PSNR 是他們自己收集的數據集。作者選用 Eigen 等人 2013 年發表的工作以及 Pix2Pix 的方法作為對比。結果如下：

CVPR 2018 中國論文分享會之「GAN 與合成」

其中 A 表示只有 Autoencoder，A+D 表示 Autoencoder+Discriminator，A+AD 表示 Autoencoder + Attention Discriminator，AA + AD 表示 Attention Autoencoder + Attention Discriminator。

實際去雨效果如圖所示：

CVPR 2018 中國論文分享會之「GAN 與合成」

2、如何旋轉圖像中的人臉？

論文：Pose-Guided Photorealistic Face Rotation
報告人：胡一博，中科院自動化所
論文下載地址：暫無

對於如何將圖像中的人臉旋轉任意角度，例如從一張正臉圖像生成側臉圖像，或反之從側臉恢復其正臉圖像，無論是學術界還是工業界都給予了很大的關注，因為這可以用於人臉編輯、姿態變換、數據增強、表示學習等當中。

CVPR 2018 中國論文分享會之「GAN 與合成」

視角旋轉有 x、y、z 三個方向，目前研究中主要考慮左右偏轉。如果從單張圖像進行旋轉的話，這其實是一種「無中生有」、一對多的病態問題。因此目前人臉旋轉存在真實性不高、解析度較低、身份信息保持較差的問題。

胡一博在介紹他們的工作之前，簡單介紹了人臉旋轉研究的歷程，如下圖所示：

CVPR 2018 中國論文分享會之「GAN 與合成」

1、啟發

從 2015 年的 CVPR 論文開始，人臉識別逐漸引起廣泛的關注。目前人臉識別主要分成兩個部分，一個是人臉正面化，一個是水平方向的任意角度旋轉。之所以將人臉正面化作為一個單獨的部分，是因為人臉正面化的過程中可以引入「對稱性」的強約束，從而降低一對多問題的困難。

CVPR 2018 中國論文分享會之「GAN 與合成」

其中的 TP-GAN 是人臉正面化中一個里程碑式的工作，這種方法出現之後使得人臉轉正能夠達到以假亂真的效果。TP-GAN 之所以能夠這麼有效是因為，它通過一條全局通路和 4 個局部通路（分別對應人的五官），最終讓局部和全局的通路進行融合。但是這種方法有兩點不足：1）它受限於最慢通路的約束存在一定的性能瓶頸；2）只適用於人臉正面化的問題中，而不能應用於更廣泛的人臉旋轉中。針對這兩個問題，胡一博認為我們需要提升其網咯性能以及實現任意姿態的人臉旋轉。

CVPR 2018 中國論文分享會之「GAN 與合成」

另一方面，全局優先拓撲感知理論指出生物視覺系統對全局拓撲結構非常敏感。人臉五官包含著很豐富的全局拓撲信息，因此以人臉全局拓撲信息作為一個條件指導整個人臉的過程。

2、模型

基於上面兩方面的啟發，胡一博等人提出了 CAPG-GAN 的方法，該方法能夠進行二維空間中任意角度的人臉旋轉。選擇人臉全局拓撲信息作為條件有兩個優勢，首先它可以提供人臉的結構信息促使生成的圖像更加的逼真，其次在判別器中它可以作為先驗知識，可以提高判別器對於人臉結構的判別性，進而促使生成器生成解析度較高的圖像。CAPG-GAN 的結構圖如下：

CVPR 2018 中國論文分享會之「GAN 與合成」

輸入包括原始圖像 I^a，原始圖像的五個關鍵點 P^a，以及目標姿態的關鍵點 P^b，通過生成器 G 輸出目標圖像。判別器採用的是 couple-agent 的結構，本質上就是兩個獨立的判別器，agent 1 判別旋轉角度的真實性，agent 2 判斷的是拓撲結構的真實性。

針對兩個 agent，對應的損失函數如下圖所示：

CVPR 2018 中國論文分享會之「GAN 與合成」

3、實驗對比

胡一博團隊針對人臉正面化以及旋轉任意角度的任務在多種數據集上進行實驗驗證，其結果表現優異。效果如下：

CVPR 2018 中國論文分享會之「GAN 與合成」

[1]中科院自動化所赫然：大規模人臉圖像編輯理論、方法及應用

[2] 中科院自動化所智能感知與計算研究中心11篇論文被CVPR接收 | CVPR 2018

3、如何給字體添加多樣風格？

論文：A Common Framework for Interactive Texture Transfer
報告人：連宙輝，北京大學
論文下載地址：http://www.icst.pku.edu.cn/F/zLian/papers/CVPR18-Men.pdf

研究來源於需求。連宙輝副教授來自北京大學計算機科學技術研究所（該研究所是由）的字形計算技術實驗室。傳統上，字形設計需要人工對每個字進行手寫或者設計，然後輸入系統才能夠被利用。但是由於中文有大量的漢字，且很多漢字的結構非常複雜，所以這項工作艱難且費時。一種解決方法就是，設計一個特定風格的字，然後通過變換遷移到別的字上。

CVPR 2018 中國論文分享會之「GAN 與合成」

那麼是否可以將任意紋理的圖像風格通過變換遷移到一個目標漢字上呢？更廣義一點，是否可以將任意紋理風格遷移到任意圖像上呢？基於這些思考，連宙輝團隊在其論文中提出一種互動式的紋理遷移通用框架。

CVPR 2018 中國論文分享會之「GAN 與合成」

如上圖所示，該通用框架能夠：（a）將塗鴉轉換為藝術品，（b）編輯裝飾模式，（c）生成特殊效果的文本，（d）控制文本中的效果分布圖像，（e）交換紋理。

1、方法

CVPR 2018 中國論文分享會之「GAN 與合成」

紋理遷移的問題其實就是，如何輸入原始紋理圖像、原始圖像的語義圖以及目標圖像的語義圖後，從而輸出目標紋理圖像。

CVPR 2018 中國論文分享會之「GAN 與合成」

其中較為關鍵的問題是，如何將兩張語義圖進行匹配。例如上圖中，對於邊緣由於有豐富的語義信息指引，因此可以較為容易地進行匹配；但是對於內部大面積的區域（d、e），同一個點有很多地方可以去匹配，作者選擇利用從邊緣傳過來的信息（紋理一致和結構引導）可以實現很好的匹配效果。

CVPR 2018 中國論文分享會之「GAN 與合成」

整個流程如上圖所示，共分為三大部分 7 個步驟。需要說明的是，基於互動式結構的圖像合成是由語義映射和結構信息來指導的，其中用戶可以對語義通道進行注釋來控制目標圖像中風格化紋理的空間分布。在結構提取環節，通過內容感知顯著性檢測自動提取結構通道，並將其從源樣式圖像傳遞到目標。具體而言，傳播步驟通過在源圖像和目標圖像之間的關鍵輪廓點的配准來獲取內部結構對應關係。結合語義和結構信息進行動態指導，可以使轉換過程產生具有內容意識和低級細節的高質量紋理。

2、實驗結果

CVPR 2018 中國論文分享會之「GAN 與合成」

3、結論

本文提出了一個結構指導的互動式紋理傳遞的一般框架。該方法可以自動將樣式從給定的源圖像遷移到用戶控制的目標圖像，同時保持結構的完整性和視覺豐富性。更具體地說，作者引入了通過自動提取顯著區域和傳播結構信息獲得的結構指導。通過將結構通道與語義和紋理一致性結合起來，可以實現指導紋理轉移。實驗結果表明，所提出的框架廣泛適用於許多紋理轉移挑戰。儘管目前大多數模型都傾向於使用基於神經的方法進行樣式轉換，但本文的結果表明，簡單的傳統的紋理合成框架仍然可以表現出優異的性能。

4、如何進行更細緻的圖像到圖像翻譯？

論文：DA-GAN: Instance-level Image Translation by Deep Attention Generative Adversarial Network

報告人：傅建龍，微軟亞洲研究院
論文下載地址：https://arxiv.org/abs/1802.06454

本文是另外一篇將 Attention 機制與 GAN 相結合，以生成更高質量目標的工作。

1、啟發

傅建龍在報告中認為，CV 中的圖像到圖像的翻譯任務（Image2Image Translation）是一個比較廣泛的概念，即根據 source domain 中的圖像生成 target domain 中的對偶圖像，同時在翻譯過程中約束生成的樣本和 source 中的樣本有盡量一致的分布。事實上有許多基本的 CV 問題都屬於圖像到圖像的翻譯問題，例如白天到黑夜的圖像轉換、黑白照到彩色照的轉換、低像素到高像素的轉換、去除水印、圖像分割、2D 到 3D、梵高風格化、木炭風格、缺失部分復原等。

CVPR 2018 中國論文分享會之「GAN 與合成」

更高級的如下圖這些：

CVPR 2018 中國論文分享會之「GAN 與合成」

在這所有的任務中，根據是否是一對一的學習對，將這些任務劃分為 pair data 任務和 unpair data 任務。（如下圖所示）

CVPR 2018 中國論文分享會之「GAN 與合成」

其中前者在訓練數據集中具有一對一的數據對，x 作為輸入，y 用來計算輸出的 loss 函數，目前效果最好的網路是 Pix2Pix 網路；而後者則是兩個獨立的數據集之間的訓練，模型應該能夠從兩個集合中自動地發現集合之間的關聯，從而來學習出映射函數，其中目前效果最好的網路是 CycleGAN 模型。

但是以上這些都是基於圖像級的特徵學習，若想完成更高質量要求的生成任務（例如要求改變圖像區域的風格）則較為困難。於是有人便提出了基於 instance-level 的圖像到圖像的翻譯方法——PatchGAN：

CVPR 2018 中國論文分享會之「GAN 與合成」

如傅建龍所說，做研究就是要找到前人所沒有填補的空缺。通過畫出上圖，可以很明白地看出，對應的也應該有基於 unpaired instance-level 的圖像到圖像的翻譯方法。這正是本文的工作，即能否自動地發現 source domain 和 target domain 的 instance 之間的關聯，同時這是一種 unpair 的方法，不需要任何人類標註。

2、模型

既然是基於 instance-level 的方法，那麼首先就要問：什麼是 instance？

CVPR 2018 中國論文分享會之「GAN 與合成」

事實上，這是一個比較寬泛的概念，在不同的任務中可以有不同的定義。例如在生成鳥的任務中，鳥本身是一個 instance，鳥的嘴、腿、翅膀、尾巴等也都可以是 instance；如果想要建立更細緻的生成模型，也可更加細緻地去定義更多種 instance。

CVPR 2018 中國論文分享會之「GAN 與合成」

介紹了以上的思路後，模型本身的構建就很清晰了。如上圖所示，首先通過一個深度 Attention 編碼器（DAE）來自動地學習各個 instance，然後將不同的部分分別投射到一個「隱空間」，最後通過 GAN 網路進行生成。

3、實驗結果

定量的比較可以看出，DA-GAN 相比於其他方法有較大的提升。

CVPR 2018 中國論文分享會之「GAN 與合成」

在定性比較方面，有下面三種：

Text to Image

CVPR 2018 中國論文分享會之「GAN 與合成」

object configuration

CVPR 2018 中國論文分享會之「GAN 與合成」

pose morphing

CVPR 2018 中國論文分享會之「GAN 與合成」

從左到右分別為 source bird、target bird 和 DA-GAN 生成的鳥。一個疑問是：鳥腿缺失是因為什麼呢？

4、結論

本文提出了一種無監督的圖像翻譯的方法，即通過更細緻化的 instance-level 的 GAN 生成來獲得更高質量的翻譯圖像。通過實驗結果可以很明顯地看出 DA-GAN 相較於其他網路在性能上的提升。但是需要注意的是，在生成結果中仍然存在一些失敗的地方（例如前面提到的「缺失的鳥腿」），這可能由於模型中的 instance 是通過弱監督 Attention 機制學到的，這與完全監督下的學習還是有一定的差距。如何彌補，或許要靜等傅建龍團隊接下來的工作了。

[1] DA-GAN技術：計算機幫你創造奇妙「新物種」

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 雷鋒網 的精彩文章:

※百花齊放的 AI 時代，地平線如何用 AI 晶元賦能安防？丨AI 安防峰會 2018
※世界最大BT伺服器本周死了三回，海盜灣要涼涼？

TAG:雷鋒網 |