學界 | 給動漫人物輕鬆換裝、編舞，這家遊戲公司用GAN做到了！

科技 09-14

選自

DeNA

作者：

Koichi Hamada 等

機器之心編譯

參與：

李詩萌、路

日本遊戲公司 DeNA 利用漸進式結構條件生成對抗網路（PSGAN）這一新框架生成高解析度全身動漫人物圖像，該方法能夠生成高解析度圖像，且具備結構一致性。此外，該方法還可以輕鬆實現動漫人物換裝和添加動作。

論文：Full-body High-resolution Anime Generation with Progressive Structure-conditional Generative Adversarial Networks

論文鏈接：https://drive.google.com/file/d/1uLvdkEWUzb4Qgtg_abelaLoSkj3zcsD2/edit

摘要

：我們提出的漸進式結構條件生成對抗網路（Progressive Structure-conditional Generative Adversarial Network，PSGAN）是一種根據結構信息生成高解析度全身人物圖像的新框架。最近的生成對抗網路可以通過漸進式訓練生成高解析度的圖像。但是現有的方法無法同時滿足高圖像質量和結構一致性。我們提出的方法通過在訓練過程中漸進地增強生成圖像解析度和結構條件，突破了之前方法的局限性。我們比較了現有方法和解析度為 1024*1024 的不同動漫形象基於目標姿勢序列生成的視頻結果，論證了本文提出方法的有效性。我們還用 Unity 3D Avatar 模型創建了新的數據集，該數據集包含 1024*1024 的高解析度全身圖像以及精確的 2D 姿勢關鍵詞。

生成 1024*1024 的全身動漫人物

我們展示了使用測試姿勢序列通過 PSGAN 生成的解析度為 1024*1024 的不同動漫形象和動畫視頻示例。1. 我們先根據隨機隱變數用 PSGAN 生成了許多動漫人物，通過插入這些人物來創建新的動漫形象。2. 接下來我們給 PSGAN 網路提供連續的姿勢序列信息，通過這些信息為每一個動漫形象生成一段動畫視頻。在這段視頻中我們多次重複了 1 和 2 步驟。

生成新的動漫人物全身圖像

我們用 PSGAN 插入對應身穿不同服飾的動漫形象（人物 1 和人物 2）的隱變數，來生成新的動漫人物的全身圖像。注意，這裡只需要一個姿勢。

給動漫人物的全身像添加動作

下圖展示了使用特定動漫人物和目標姿勢生成一段動畫的示例：

通過調整隱變數和給 PSGAN 提供連續的姿勢序列，我們可以為每一個動漫人物生成一段動畫。更具體地說，我們將特定的動漫人物的表徵映射到隱空間的隱變數中，作為 PSGAN 的輸入向量。

通過將指定的動漫人物映射到隱空間，並生成隱變數作為 PSGAN 的輸入，就可以生成特定動漫形象的任意動畫視頻。

漸進式結構條件 GAN（PSGAN）

我們的關鍵思想是漸進地學習帶有結構條件的圖像表徵。上圖展示了 PSGAN 中生成器 G 和鑒別器 D 的結構。PSGAN 在每個尺度下根據結構條件增強了生成圖像的解析度，並生成了高解析度的圖像。我們採用了和 Progressive GAN [Karras+18] 中圖像生成器和辨別器相同的結構，但我們通過添加每個尺度對應解析度的姿勢映射，在生成器和鑒別器上添加了結構性條件，這顯著地穩定了訓練。帶有結構條件的 GAN 之前也有人提出過[Ma+17,Ma+18,Balakrishnan+18,Siarohin+18,Si+18,Hu+18,Qiao+18]。他們用的是單尺度條件，而我們用的是多尺度條件。具體而言，我們在每一個尺度上下採樣了全解析度的結構條件映射，組成多尺度條件映射。就每個尺度而言，生成器根據帶有結構條件的隱變數生成一張圖像，而鑒別器根據結構條件區分生成圖像和真實圖像。N*N 的白色框表示在 N*N 的空間解析度上進行可學習的卷積層操作。N*N 的灰色框表示結構條件的不可學習下採樣層，這樣的操作將結構條件映射的空間解析度降到了 N*N。我們用 M 個通道表示 M 維結構條件（例如 M 個關鍵點）。

AVATAR 動漫形象數據集

我們用包含 600 個姿勢和 69 類服飾的 Unity 3D Avatar 模型創建了一個全新的數據集，該數據集包含解析度為 1024*1024 的全身圖像以及精準的 2D 姿勢關鍵詞。下圖是創建數據的示例。動漫形象（每對圖的左側）和姿勢圖像（每對圖的右側）如下圖所示。

對比

結構一致性對比

上圖所示是用 Progressive GAN [Karras+18] 和 PSGAN 在 DeepFashion [Liu+16] (256*256) 數據集上生成的圖像。通過觀察可以看出 Progressive GAN 不能生成與全局結構一致的自然圖像（例如左邊四張圖）。而 PSGAN 可以通過在每個尺度上添加結構條件生成與全局結構一致的合理圖像。

基於姿勢條件生成圖像的質量對比

上圖所示是 PSGAN 和姿勢引導的人像生成模型（Pose Guided Person Image Generation，PG2）[Ma+17] 在 256*256 版的 Avatar 數據集和 DeepFashion 數據集上生成的圖像。從上圖可以看出，由於在每個尺度上添加了結構條件，PSGAN 生成的圖像比 PG2 更清晰，細節也更多。

PG2 需要源圖像和對應的目標姿勢，來將源圖像轉換成具有目標姿勢的圖像。與此同時，PSGAN 利用隱變數和目標姿勢生成帶有目標姿勢的圖像，且無需成對的訓練圖像。