嘿嘿，想變成會跳舞的小哥哥或小姐姐嗎？超簡單！

科技 08-27

選自

arXiv

機器之心編譯

作者：

Caroline Chan、Shiry Ginosar、Tinghui Zhou、Alexei A. Efros

參與：張倩、王淑婷

此前，機器之心整理了 GitHub 上一篇關於用 DanceNet 生成舞蹈視頻的文章（DanceNet：幫你生成會跳舞的小姐姐），吃瓜群眾直呼厲害。這回，UC 伯克利的一項研究更不得了——給你一個舞蹈視頻，按照本文提出的方法，你可以直接把視頻里的人換成自己了。就問你，厲不厲害，流不流皮？

該研究提出一種遷移不同視頻中人物動作的方法。給出兩個視頻，一個視頻中是研究者想要合成動作的目標人物，另一個是被遷移動作的源人物，研究者通過一種基於像素的端到端流程在人物之間進行動作遷移（motion transfer）。該方法與這二十年來使用最近鄰搜索 [4, 9] 或 3D 重定位運動 [7, 13, 26, 30] 的方法不同。研究者用該框架創建了多個視頻，使未經訓練的業餘人員也能像專業芭蕾舞演員那樣做出旋轉等舞蹈動作，像流行明星那樣跳舞。

圖 1：從源人物到兩個目標人物的動作遷移。

為了逐幀地實現兩個視頻中人物之間的動作遷移，研究者必須學習兩個人物圖像之間的映射。該研究的目標是發現源集合和目標集合之間的圖像轉換方法 [14]。但是，研究者並不具備執行同樣動作的兩個人物的對應圖像對，來直接監督圖像轉換。即使兩個人物按同樣的方式執行動作，仍然有可能不具備幀到幀的身體姿態對應關係，因為每個人物的身材和風格都存在差異。

研究者觀察到基於關鍵點的姿勢可以作為兩個人物之間的中間表示，關鍵點姿勢本質上編碼了身體位置而非外表。這些姿勢與該研究的目標一致，能夠保持隨時間變化的運動特徵，同時儘可能多地抽象人物特質。因此研究者把中間表示設計成姿勢簡筆畫（見圖 2）。研究者從目標視頻中獲取每一幀的姿勢檢測 [5, 27, 35]，得到對應（姿勢簡筆畫，目標人物圖像）對集合。使用該對齊數據，研究者以監督的方式學習姿勢簡筆畫和目標人物圖像之間的圖像轉換模型。因此，該模型經過訓練後可以生成特定目標人物的個性化視頻。接下來就是動作遷移，研究者將姿勢簡筆畫輸入訓練好的模型中，以獲取目標人物持同樣姿勢的圖像。研究者在模型中添加了兩個組件來改善結果的質量：為了增強生成視頻的時間流暢度（temporal smoothness），研究者每一幀的預測都基於前一個時間步的預測結果；為了增強結果的面部逼真程度，研究者在模型中納入了一個專門化 GAN，用於生成目標人物的面部。

圖 2：姿勢簡筆畫和目標人物幀之間的對應。

該方法可以生成不同視頻人物之間的動作遷移視頻，無需昂貴的 3D 或運動捕捉數據。該研究的主要貢獻是提出了一種基於學習的流程，用於視頻間人物的動作遷移，結果在真實、詳細的視頻中實現了複雜的動作遷移。研究者還對提出的模型進行了模型簡化測試（ablation study），並與基線模型進行對比。

論文：Everybody Dance Now

論文鏈接：https://arxiv.org/abs/1808.07371

摘要：

本文提出了一種簡單的方法，用於「do as I do」的動作遷移：給出一個人跳舞的源視頻，我們可以在目標人物執行標準動作的幾分鐘之後，將該表演遷移到一個新的（業餘）目標人物上。我們將該問題看作一個具有時間平滑的逐幀圖像轉換問題。我們使用姿勢檢測作為源和目標之間的中間表示，學習從姿勢圖像到目標人物外觀圖像的映射。我們將此設置用於時間相干視頻生成，包括逼真的人臉合成。

方法

給出一個源人物視頻和一個目標人物視頻，我們的目標是生成目標人物執行源視頻同樣動作的新視頻。為了完成這一任務，我們將工作流程分成以下三個步驟：姿勢檢測、全局姿勢歸一化、從歸一化的姿勢簡筆畫映射到目標人物。在姿勢檢測階段，我們用一個預訓練的當前最優姿勢檢測器，基於源視頻中的幀來創建姿勢簡筆畫。全局姿勢歸一化階段考慮了幀內源人物和目標人物的身材、位置差異。最後，我們設計了一個系統，通過對抗訓練學習從歸一化姿勢簡筆畫到目標人物圖像的映射。

圖 3.（上圖）訓練：我們的模型利用姿勢檢測器 P，基於目標人物的視頻幀創建姿勢簡筆畫。訓練期間，我們學習映射 G 和對抗鑒別器 D，後者嘗試區分「真」對應對 (x, y) 和「假」對應對 (G(x), y)。（下圖）遷移：我們使用姿勢檢測器 P：Y ′ → X ′來獲取源人物的姿勢關節，然後通過歸一化過程 Norm 將這些姿勢關節遷移到目標人物的關節，為目標人物創建對應的姿勢簡筆畫。接下來我們使用訓練好的映射 G 來生成目標人物的新視頻。

圖像轉換的對抗訓練

我們修改了 pix2pixHD [33] 的對抗訓練設置來生成時間相干視頻幀、合成逼真的人臉圖像。

為了創建視頻序列，我們修改了單個圖像生成設置來增強相鄰幀之間的時間連貫性，如圖 4 所示。

圖 4：時間平滑設置。當合成當前幀 G(x_t ) 時，我們基於對應的姿勢簡筆畫 x_t 和之前合成的幀 G(x_t?1)，獲得時間平滑的輸出。然後鑒別器 D 嘗試將「真」時間相干序列 (x_t?1, x_t , y_t?1, y_t ) 與「假」序列 (x_t?1, x_t , G(x_t?1), G(x_t )) 區分開來。

我們添加了專門的 GAN 設置，旨在為面部區域添加更多細節和真實感，如圖 5 所示。結果顯示該 GAN 設置產生了比較真實的面部特徵，模型簡化測試顯示其改善了完整圖像 GAN 的結果。

圖 5：Face GAN 設置。殘差由生成器 G_f 來預測，並從主生成器添加到原始人臉預測中。

圖 6：遷移結果。每一部分展示了五個連續幀。頂部一行顯示源人物，中間一行顯示標準化的姿勢簡筆畫，底部一行顯示目標人物的模型輸出。

表 4：每張圖像的漏檢平均值，數值越小越好。

圖 7：不同模型合成結果的比較。圖像被裁剪成圍繞原始姿勢的邊界框。T.S. 表示具有時間平滑設置的模型，T.S. + Face 是具有時間平滑設置和 Face GAN 的完整模型。時間平滑設置為手、頭、上衣和陰影添加了細節。這些細節在完整的模型中延續，包括臉部和周圍區域的附加細節，從而產生最逼真的合成結果。