當前位置:
首頁 > 知識 > CVPR 2018論文:「隨心所欲」換裝換姿態

CVPR 2018論文:「隨心所欲」換裝換姿態

AI 研習社按:本文作者 Liqian Ma,他為 AI 科技評論撰寫了他作為第一作者被 CVPR 2018 錄用的 Spotlight 論文解讀稿件,該工作由比利時魯汶大學、德國馬普所、瑞士蘇黎世聯邦理工大學共同合作完成。

下面要介紹的論文發表於 CVPR 2018,題為??「Disentangled Person Image Generation」。

我們的目標是在無監督數據的情況下生成自然人體圖像。為此,我們提出了一種基於自監督的解耦表達人體前景、背景、姿態特徵的生成式模型。其中,我們首先基於重建過程對人體圖像的三個弱相關成分, 即前景人體(foreground),背景(background)和人體姿態點(pose)進行分解,壓縮和解碼重建原圖像,從而提取對應的三類特徵。之後則分別以這三類特徵作為目標,訓練對抗性生成網路實現從高斯雜訊生成新的對應特徵,同時利用前一步訓練得到的圖像解碼器對新特徵解碼得到新的人體圖像。該模型可以用於多種應用:人體圖片修改與採樣,樣本插值,行人重識別,姿態指導的人體圖像生成。

一、為什麼要做解耦表達的人體生成模型?有什麼優點?

在之前的圖像轉換工作中(圖 1),CVPR17 的 pix2pix [1] 通過使用帶監督信息的訓練數據來學習一個可以進行外觀轉換的 image-to-image 模型。之後,ICCV17 的 cycleGAN [2] 提出使用 cycle-consistency 的約束使得無監督學習 image-to-image 模型成為可能。以上兩個主流的模型主要針對圖像的外觀信息進行遷移,而沒有進行結構信息的遷移。我們 NIPS17 的工作 PG2[3] 則可以通過將人體姿態關節點和圖像一起作為網路輸入,然後利用有監督學習對人體圖像進行結構信息的遷移。而在今天介紹的論文中,我們為了同時進行外觀和結構信息的遷移,將人體圖片分解為前景、背景、姿態三個弱相關因素,從而可以單獨控制各個因素。此外,我們還提出一種「高斯雜訊-> 特徵 ->圖像」的映射方式,使得模型可以分別從高斯空間採樣得到對應的前景、背景、姿態。該論文採用自監督的方式來訓練模型,因此不需要帶監督信息的訓練數據。總結來講,模型有如下優點:

1)單獨控制前景、背景、姿態;

2)可以從高斯空間採樣;

3)不需要帶監督信息的訓練數據。

圖 1. 圖像轉換相關工作對比。


二、如何解耦表達人體前景、背景、姿態特徵?如何採樣新的人體圖像?

該論文提出了一種分階段學習方法(圖2)。在第一階段,通過包含編碼器、解碼器的重構網路來學習三種弱相關人體圖像特徵,即前景、背景和姿態。在第二階段,則將之前訓練好的編碼器、解碼器固定,通過對抗式學習來分別訓練三個映射函數,來將高斯空間分別映射到三個特徵空間。在測試階段採樣時,我們可以先通過第二階段學習到的映射函數來將高斯雜訊映射到特徵空間,然後利用第一階段學習到的解碼器將特徵解碼成圖像。相比於直接將高斯空間映射到圖像空間,這種兩階段映射降低了映射難度:相比於圖像空間,特徵空間的分布更加接近於圖像數據,因此可以更容易通過對抗學習得到映射函數。此外,第二階段的映射函數可以在第一階段訓練完成後進行,並不需要對第一階段的特徵空間加任何假設,因此可以應用於任何高斯空間到圖像特徵空間的映射。

我們已經驗證:當使用類似 VAE[4] 和 AAE[5] 的方式直接在第一階段的 bottleneck 層(即特徵空間)加約束,會導致訓練不穩定或者學到的特徵空間存在模型坍塌的問題。因此,我們提出將第一階段特徵空間的高斯約束轉換成學習一個從高斯雜訊到特徵空間的映射函數。

圖 2. 整體框圖,包含階段一和階段二。

階段一是一個重構網路的結構,包含編碼器和解碼器兩部分(圖3)。

1)在編碼器部分,我們將圖像分為前景,背景,姿態三種因素,並用三個分支網路進行分別編碼。這一過程由自動檢測得到的人體姿態關節點來引導:通過對人體姿態關節點進行連接及一些圖像形態學操作(如腐蝕和膨脹)來得到一個粗糙的 mask(紅色虛線框),來顯式地分割前景與背景信息。需要注意的是我們在 feature map 層而不是 image 層進行前景、背景分割,主要因為我們的 mask 並不精確,直接在 image 層分割累計的誤差會影響生成效果。而在 feature map 層分割,則可以通過重建網路的引導使得輸出 feature map 的卷積層自行學習糾正這些誤差,改善生成效果。進一步,在前景分支上,我們利用人體 7 個 Body ROI [6] 來進行局部編碼後再將 7 個部分的特徵向量合併成一個。此過程中的 7 個局部編碼器之間共享權重。

2)在解碼器部分,我們將前景特徵和背景特徵進行拼接並在空間域上平鋪成和圖像解析度一致的外觀特徵立方體,最後將外觀特徵立方體與人體姿態關節點拼接再輸入具有 U-net 結構的解碼器(藍色虛線框)。這種外觀和結構信息的融合方式可以幫助解碼器學習如何根據人體關節點信息引導來選擇「填充」合理的外觀信息 [3]。

圖 3. 階段一詳細結構。


三、解耦表達的人體生成模型可以應用在哪些任務?

1)人體圖片修改與採樣

如圖 4 所示,該模型在 128x64 解析度的行人重識別資料庫 Market-1501 和 256x256 解析度的時尚資料庫 DeepFashion 上進行了測試。我們可以看到在 Market-1501 上,該模型可以通過固定兩個因素(如,背景和姿態)對應的高斯雜訊輸入來單獨修改剩餘的一種(如,前景),或者同時採樣三種因素的雜訊生成三種因素截然不同的圖像。在 DeepFashion 上,該模型則可用於從高斯空間採樣出新的衣服樣式(前景)。

圖 4. 人體圖片修改與採樣結果。

2)樣本插值

如圖 5 所示,我們可以使用簡單的梯度下降方法找到真實圖片 x1,x2 在高斯空間中對應的編碼,然後進行線性插值,並將插值得到的編碼解碼成圖像。我們可以看到,插值得到的中間結果可以在一定程度上反應兩幀之間的變化。

圖 5. 人體圖片樣本插值(x1 和 x2 是真實圖片)

3)行人重識別

如圖 6 所示,為了驗證我們的生成數據對行人重識別的幫助,我們在 Market-1501 資料庫上通過固定前景,採樣背景和姿態,來得到一個人工生成的 ID(前景)對應的不同圖片。我們構建了一個包含 500 個 ID,每個 ID 有 24 張圖片的 Virtual Market(VM) 資料庫。使用該虛擬資料庫來訓練行人重識別的模型,之後在實際測試數據上我們的虛擬資料庫訓練的模型可以達到 state-of-the-art 的非監督 re-id 模型的識別率(見表 1 第四排第五排),甚至超過有些在標記資料庫上進行預訓練的模型(見表 1 第一排第二排)。

圖 6. 生成的 Virtual Market(VM) 資料庫。每一列對應一個 ID 的一對不同圖片。

表 1. 行人重識別結果對比。Rank-1 和 mAP 都是越高越好。

4)姿態指導的人體圖像生成

如圖 7 所示,我們的模型同樣可以根據輸入的目標姿態來改變輸入人體圖片的姿態。相比於使用帶監督信息數據進行學習的 PG2 [3] 模型,我們提出的自監督學習模型同樣達到可媲美的效果,而我們的優勢在於我們的模型不需要任何帶監督信息的訓練數據。從表 2 的量化結果來看,PG2 因為採用 U-net 結構,編碼器和解碼器之間有 skip-connection,可以更好地保留原圖像的細節,生成的圖像和真值圖片的相似度(SSIM score)更高。而我們提出的模型用編碼器將圖像空間映射到特徵空間,並沒有使用 skip-connection 將原圖的細節傳給解碼器,故出現了一些外觀不一致的細節,但生成的圖像更加逼真,有更高的 inception score。因此,如果要用我們的模型來做「姿態指導的人體圖像生成」,還需要使用類似 skip-connection 的方式來將原圖的細節更好地傳達給生成結果。

如圖 8 所示,給定目標姿態的序列,我們也可以將一幅圖像轉換成一個視頻序列(未使用時域信息)。這裡我們展示的是交叉姿態驅動的結果,即使用 B 的姿態序列來驅動 A 的外觀,反之亦然。

圖 7. 姿態指導的人體圖像生成可視化結果對比。

表 2. 姿態指導的人體圖像生成量化結果對比。(Mask-)SSIM 和 IS 都是越高越好。

圖 8. 基於骨架驅動的人體視頻生成。

另外,在我們的最新工作「Exemplar Guided Unsupervised Image-to-Image Translation」中,我們提出了針對兩個內容相關 domain 圖像的基於樣例的無監督轉換方法,可以根據樣例來將原始圖像轉換到目標 domain 的特定風格,並同時保持圖像語義結構的一致性(天還是天,路還是路),實現了多對多的映射。歡迎大家圍觀 https://arxiv.org/abs/1805.11145

參考文獻:

[1] P. Isola, J.-Y. Zhu, T. Zhou, and A. A. Efros. Image-to-image translation with conditional adversarial networks. In CVPR, 2017.

[2] J.-Y. Zhu, T. Park, P. Isola, and A. A. Efros. Unpaired image-to-image translation using cycle-consistent adversarial networks. In ICCV, 2017.

[3] L. Ma, J. Xu, Q. Sun, B. Schiele, T. Tuytelaars, and L. Van Gool. Pose guided person image generation. In NIPS, 2017.

[4] D. P. Kingma and M. Welling. Auto-encoding variational bayes. In ICLR, 2014.

[5] A. Makhzani, J. Shlens, N. Jaitly, I. Goodfellow, and B. Frey. Adversarial autoencoders. In arXiv, 2015.

[6] H. Zhao, M. Tian, S. Sun, J. Shao, J. Yan, S. Yi, X. Wang, and X. Tang. Spindle net: Person re-identification with human body region guided feature decomposition and fusion. In CVPR, 2017.

[7] H. Fan, L. Zheng, and Y. Yang. Unsupervised person re-identification: Clustering and fine-tuning. In arXiv, 2017.

論文地址:

https://homes.esat.kuleuven.be/~liqianma/pdf/CVPR18_Ma_Disentangled_Person_Image_Generation.pdf

項目地址:

https://homes.esat.kuleuven.be/~liqianma/CVPR18_DPIG/

知乎:

https://zhuanlan.zhihu.com/p/35626735


CVPR18 最佳論文演講:研究任務之間的聯繫才是做遷移學習的正確姿勢


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 AI研習社 的精彩文章:

2018 NAACL語言學習建模競賽:英語組冠軍先聲教育展望自適應學習技術
微軟研究院發布開放數據項目,公開 15 類內部研究數據集

TAG:AI研習社 |