有了這款DVD-GAN，DeepMind就生成了逼真視頻

新聞 07-17

選自arXiv

作者：Aidan Clark等

機器之心編譯

參與：一鳴、路、思

DVD-GAN，用 GAN 來生成 DVD 放映？

生成對抗網路已經能生成極其逼真的圖像，甚至人類並都分不太出生成圖的真假。像 StyleGAN 生成的人像，即使這些「人」並不存在，但生成結果已經逼真到讓我們相信 Ta 曾來過地球。那麼視頻生成是不是也能這麼逼真？讓我們相信 Ta 不僅來過，還曾有一段生動的記憶。

近日，來自 DeepMind 的研究者則嘗試在視頻建模領域實現逼真的效果，他們認為除了圖像生成，GAN 在視頻生成上也是沒啥問題的。類似 BigGAN 的思路，研究者在複雜的 Kinetics-600 數據集上訓練一種大型生成對抗網路（GAN），並期待該網路生成的視頻樣本複雜度大大高於之前的研究。

論文：Efficient Video Generation on Complex Datasets
論文地址：https://arxiv.org/pdf/1907.06571.pdf

DeepMind 提出的模型叫作 Dual Video Discriminator GAN (DVD-GAN)，可以利用計算高效的判別器分解，擴展到時間更長、解析度更高的視頻。該研究是邁向逼真視頻生成的一次探索，連 Ian Goodfellow 也轉推了這篇論文。

有了這款DVD-GAN，DeepMind就生成了逼真視頻

DVD-GAN 效果怎麼樣

那麼靠 GAN 生成的視頻是怎樣的，到底是高清畫面的堆砌還是說也會包含一些連貫語義。在下面三個動圖中，研究者展示了 DVD-GAN 生成不同解析度視頻的效果，它們都是在 Kinetics-600 訓練後得到的結果。

有了這款DVD-GAN，DeepMind就生成了逼真視頻

DVD-GAN 在 12 幀 256 × 256 Kinetics-600 樣本上訓練得到的視頻幀。

Emmm… 頗為詭異。

有了這款DVD-GAN，DeepMind就生成了逼真視頻

DVD-GAN 在 48 幀 128 × 128 Kinetics-600 樣本上訓練得到的視頻幀。

看得出有些視頻里發生了些什麼，但想要真正理解卻又有些困難。

有了這款DVD-GAN，DeepMind就生成了逼真視頻

DVD-GAN 在 12 幀 128 × 128 Kinetics-600 樣本上訓練得到的視頻幀。

從整體上來說，DVD-GAN 能夠生成一段連續的視頻。但是還有很多問題：

視頻中的物體和人不符合幾何關係（近大遠小等），忽大忽小、物體形變的情況非常多。
有些視頻不符合常理，如一個人突然變成別的東西、有些物體突然消失，或者有些物體直接穿過其他物體（很像《哈利波特》里的魔法）。
很少有鏡頭拉近畫面或者遠離畫面的視頻，大多數情況下鏡頭固定，偶爾在畫面左右搖晃。
視頻生成效果較好的集中於草地、廣場、比賽場地等運動行為非常明確的場景，而在室內或人物運動幅度較小的時候生成的效果較差（是數據集的問題？）。

不過，這已經是 GAN 目前能夠做到的最好水平了。

視頻生成要高清

目前 BigGAN 或 StyleGAN 等深度生成模型已經能生成極其逼真的圖像，而且這種圖像還是高解析度的，種類也非常豐富。然而生成自然連貫的視頻仍然是極具挑戰的領域，它要求更複雜的數據與更多的計算力。因為這樣的原因，視頻生成領域的前沿工作都圍繞著相對簡單的數據集展開，或者採用非常有限的時間信息來降低任務的複雜度。

在這項研究中，Deepmind 的研究者關注更精細的視頻合成和視頻預測任務，他們希望將圖像生成領域的高逼真結果遷移到視頻領域中。具體而言，研究者提出的 DVD-GAN 建立在當前最優的 BigGAN 架構之上，並引入了一系列用於視頻生成的修正，包括更高效的可分離注意力和判別器的時空分解。

這些修正令研究者在 Kinetics-600 上訓練的模型取得了很好的效果，其中 Kinetics-600 是自然視頻的複雜數據集，它要比當前常用的視頻數據集大了一個數量級。最終，研究者的 Dual Video Discriminator GAN (DVD-GAN) 能生成時間上連貫、高解析度、高保真度的視頻。

前面已經欣賞過簡要的生成樣本，下圖 1 展示了生成視頻的一些樣本幀，它們在連續性和語義性上都有很好的體現。

有了這款DVD-GAN，DeepMind就生成了逼真視頻

圖 1：在 Kinetics-600 數據集上訓練 DVD-GAN 所生成的一些樣本幀，從上到下生成的視頻解析度分別為 256、128 和 64。

DeepMind 研究人員在相關的視頻合成和預測任務上對該模型進行了評估，結果表明它在 Kinetics-600 數據集視頻預測任務中獲得了當前最優的 FID 得分，在 UCF-101 數據集視頻合成任務中獲得了當前最優的 Inception Score，同時它在 Kinetics-600 視頻合成任務中構建了強大的基線模型。

無自回歸的 GAN 結構

DVD-GAN 能夠生成高解析度和具備時間一致性的視頻。它將大型圖像生成模型 BigGAN 擴展到視頻領域，同時使用多項技術加速訓練。

與之前的研究不同，該模型的生成器不包含前景、背景或光流的顯式先驗信息，而是依賴於大容量的神經網路，以數據驅動的方式學習這些信息。DVD-GAN 包含自注意力和 RNN，但是它在時間或空間中並不具備自回歸屬性。RNN 按順序為每個視頻幀生成特徵，然後 ResNet 並行地輸出所有幀，聯合生成每一幀中的所有像素。也就是說，每一幀中的像素並不直接依賴於視頻中的其他像素，這與自回歸模型並不相同。

DVD-GAN 模型架構如下圖所示：

有了這款DVD-GAN，DeepMind就生成了逼真視頻

圖 3：DVD-GAN 模型架構圖示。左圖為生成器，右圖為判別器（D_S/D_T）。

雙判別器

DVD-GAN 使用兩個判別器：空間判別器（Spatial Discriminator：D_S）和時間判別器（Temporal Discriminator：D_T）。

D_S 對視頻隨機採樣 k 個全解析度幀，並對單個幀的內容和結構進行評價。研究人員使用了 k=8 的參數。和 TGANv2 一樣，D_S 的最終分數是每個幀的分數之和。

D_T 則向模型提供生成動作的學習信號（動作是 D_S 無法評價的）。研究人員對整個視頻使用了一種空間降採樣函數 φ(·)，並將函數的輸出作為 D_T 的輸入。這個降採樣函數是一個 2 × 2 平均池化函數。

可分離自注意力

研究人員使用了一種名為可分離自注意力（Separable Attention）的機制。研究人員沒有選擇同時注意所有位置上的特徵，而是將三個注意力層排為一行，一個接一個分別對視頻的高、寬和時間軸進行注意力計算。這可以被視為是因式注意力（Factorized Attention）的一種特殊情況。

實驗結果

DVD-GAN 建立在 BigGAN 架構之上。每個 DVD-GAN 都使用 TPU v3 進行訓練，從 32 個 cores 到 512 個 cores 不等。研究者使用 Adam 優化器，最多訓練 300000 步。研究人員使用了 TF-Replicator 進行數據並行訓練。耗費的時間在 12 小時到 96 小時不等。

DVD-GAN 主要在Kinetics-600 數據集上進行實驗，其中 Kinetics 是一個由10秒 YouTube 高清視頻片段組成的大型數據集。研究人員使用了它的第二個迭代版本——Kinetics-600。該數據集包含 600 個類別，每一類至少有 600 個視頻。數據集總共有大約 50 萬個視頻。

在視頻合成任務中的性能

有了這款DVD-GAN，DeepMind就生成了逼真視頻