GAN如此簡單的PyTorch實現，一張臉生成72種表情（附代碼）

新聞 07-29

新智元報道

編譯：三石、肖琴、大明

【新智元導讀】隨著GAN的發展，單憑一張圖像就能自動將面部表情生成動畫已不是難事。但近期在Reddit和GitHub熱議的新款GANimation，卻將此技術提到新的高度。GANimation構建了一種人臉解剖結構（anatomically）上連續的面部表情合成方法，能夠在連續區域中呈現圖像，並能處理複雜背景和光照條件下的圖像。

GAN如此簡單的PyTorch實現，一張臉生成72種表情（附代碼）

若是能單憑一張圖像就能自動地將面部表情生成動畫，那麼將會為其它領域中的新應用打開大門，包括電影行業、攝影技術、時尚和電子商務等等。隨著生成網路和對抗網路的流行，這項任務取得了重大進展。像StarGAN這樣的結構不僅能夠合成新表情，還能改變面部的其他屬性，如年齡、發色或性別。雖然StarGAN具有通用性，但它只能在離散的屬性中改變面部的一個特定方面，例如在面部表情合成任務中，對RaFD數據集進行訓練，該數據集只有8個面部表情的二元標籤（binary label），分別是悲傷、中立、憤怒、輕蔑、厭惡、驚訝、恐懼和快樂。

GANimation的目的是建立一種具有FACS表現水平的合成面部動畫模型，並能在連續領域中無需獲取任何人臉標誌（facial landmark）而生成具有結構性（anatomically-aware）的表情。為達到這個目的，我們使用EmotioNet數據集，它包含100萬張面部表情(使用其中的20萬張)圖像。並且構建了一個GAN體系結構，其條件是一個一維向量：表示存在/缺失以及每個動作單元的大小。我們以一種無監督的方式訓練這個結構，僅需使用激活的AUs圖像。為了避免在不同表情下，對同一個人的圖像進行訓練時出現冗餘現象，將該任務分為兩個階段。首先，給定一張訓練照片，考慮一個基於AU條件的雙向對抗結構，並在期望的表情下呈現一張新圖像。然後將合成的圖像還原到原始的樣子，這樣可以直接與輸入圖像進行比較，並結合損失來評估生成圖像的照片級真實感。此外，該系統還超越了最先進的技術，因為它可以在不斷變化的背景和照明條件下處理圖像。

最終，構建了一種結構上連續的面部表情合成方法，能夠在連續區域中呈現圖像，並能處理複雜背景和光照條件下的圖像。它與其他已有的GAN方法相比，無論是在結果的視覺質量還是生成的可行性上，都是具有優勢的。

GAN如此簡單的PyTorch實現，一張臉生成72種表情（附代碼）

圖1：根據一張圖像生成的面部動畫

無監督學習+注意力機制

讓我們將一個輸入RGB圖像定義為 GAN如此簡單的PyTorch實現，一張臉生成72種表情（附代碼），這是在任意麵部表情下捕獲的。通過一組N個動作單元對每個手勢表達式進行編碼，其中每個表示0到1之間的歸一化值，表示第n個動作單元的大小。值得指出的是，由於這種連續的表示，可以在不同表情之間進行自然插值，從而可以渲染各種逼真、流暢的面部表情。

我們的目標是學習一個映射 GAN如此簡單的PyTorch實現，一張臉生成72種表情（附代碼），將轉換成一個基於動作單元目標的輸出圖像，即：我們希望估計映射：

GAN如此簡單的PyTorch實現，一張臉生成72種表情（附代碼）

圖2. 生成照片級真實條件圖像方法的概述

所提出的架構由兩個主要模塊組成：用於回歸注意力和 color mask 的生成器G; 用於評估所生成圖像的真實度 GAN如此簡單的PyTorch實現，一張臉生成72種表情（附代碼）和表情調節實現的評論家（critic） D。

我們的系統不需要監督，也就是說，不需要同一個人不同表情的圖像對，也不假設目標圖像是已知的。

生成器G

生成器器 GAN如此簡單的PyTorch實現，一張臉生成72種表情（附代碼）被訓練來逼真地將圖像中的面部表情轉換為期望的。

我們系統的一個關鍵要素是使G只聚焦於圖像的那些負責合成新表情的區域，並保持圖像的其餘元素如頭髮、眼鏡、帽子、珠寶等不受影響。為此，我們在生成器中嵌入了一個注意力機制。

GAN如此簡單的PyTorch實現，一張臉生成72種表情（附代碼）

圖3：Attention-based的生成器

給定一個輸入圖像和目標表情，生成器在整個圖像上回歸併注意mask A和RGB顏色變換C。attention mask 定義每個像素強度，指定原始圖像的每個像素在最終渲染圖像中添加的範圍。

具體地說，生成器器不是回歸整個圖像，而是輸出兩個mask，一個color mask C和一個attention mask A。最終圖像可表示為：

GAN如此簡單的PyTorch實現，一張臉生成72種表情（附代碼）

實驗評估

首先測試主要組件，即單個和多個AU編輯。然後將我們的模型與離散化情緒編輯任務中的當前技術進行比較，並展示我們的模型處理野外圖像的能力，可以生成大量的解剖學面部變換的能力。最後討論模型的局限性和失敗案例。

值得注意的是，在某些實驗中，輸入的面部圖像是未被裁剪的。在這種情況下，我們首先使用檢測器2來對面部進行定位和裁剪，利用（1）式進行表達式的轉換，以應用於相關區域。最後，將生成的面部圖像放回原圖像中的原始位置。注意力機制（attention mechanism）可以確保經過變換處理的裁剪面部圖像和原始圖像之間的平滑過渡。

稍後圖中可見，與以前的模型相比，經過這三個步驟的處理可以得到解析度更高的圖像（鏈接見文末）。

GAN如此簡單的PyTorch實現，一張臉生成72種表情（附代碼）