當前位置:
首頁 > 新聞 > 有了這款DVD-GAN,DeepMind就生成了逼真視頻

有了這款DVD-GAN,DeepMind就生成了逼真視頻

選自arXiv

作者:Aidan Clark等

機器之心編譯

參與:一鳴、路、思


DVD-GAN,用 GAN 來生成 DVD 放映?

生成對抗網路已經能生成極其逼真的圖像,甚至人類並都分不太出生成圖的真假。像 StyleGAN 生成的人像,即使這些「人」並不存在,但生成結果已經逼真到讓我們相信 Ta 曾來過地球。那麼視頻生成是不是也能這麼逼真?讓我們相信 Ta 不僅來過,還曾有一段生動的記憶。

近日,來自 DeepMind 的研究者則嘗試在視頻建模領域實現逼真的效果,他們認為除了圖像生成,GAN 在視頻生成上也是沒啥問題的。類似 BigGAN 的思路,研究者在複雜的 Kinetics-600 數據集上訓練一種大型生成對抗網路(GAN),並期待該網路生成的視頻樣本複雜度大大高於之前的研究。

  • 論文:Efficient Video Generation on Complex Datasets
  • 論文地址:https://arxiv.org/pdf/1907.06571.pdf

DeepMind 提出的模型叫作 Dual Video Discriminator GAN (DVD-GAN),可以利用計算高效的判別器分解,擴展到時間更長、解析度更高的視頻。該研究是邁向逼真視頻生成的一次探索,連 Ian Goodfellow 也轉推了這篇論文。

有了這款DVD-GAN,DeepMind就生成了逼真視頻

DVD-GAN 效果怎麼樣

那麼靠 GAN 生成的視頻是怎樣的,到底是高清畫面的堆砌還是說也會包含一些連貫語義。在下面三個動圖中,研究者展示了 DVD-GAN 生成不同解析度視頻的效果,它們都是在 Kinetics-600 訓練後得到的結果。

有了這款DVD-GAN,DeepMind就生成了逼真視頻

DVD-GAN 在 12 幀 256 × 256 Kinetics-600 樣本上訓練得到的視頻幀。

Emmm… 頗為詭異。

有了這款DVD-GAN,DeepMind就生成了逼真視頻

DVD-GAN 在 48 幀 128 × 128 Kinetics-600 樣本上訓練得到的視頻幀。

看得出有些視頻里發生了些什麼,但想要真正理解卻又有些困難。

有了這款DVD-GAN,DeepMind就生成了逼真視頻

DVD-GAN 在 12 幀 128 × 128 Kinetics-600 樣本上訓練得到的視頻幀。

從整體上來說,DVD-GAN 能夠生成一段連續的視頻。但是還有很多問題:

  • 視頻中的物體和人不符合幾何關係(近大遠小等),忽大忽小、物體形變的情況非常多。
  • 有些視頻不符合常理,如一個人突然變成別的東西、有些物體突然消失,或者有些物體直接穿過其他物體(很像《哈利波特》里的魔法)。
  • 很少有鏡頭拉近畫面或者遠離畫面的視頻,大多數情況下鏡頭固定,偶爾在畫面左右搖晃。
  • 視頻生成效果較好的集中於草地、廣場、比賽場地等運動行為非常明確的場景,而在室內或人物運動幅度較小的時候生成的效果較差(是數據集的問題?)。

不過,這已經是 GAN 目前能夠做到的最好水平了。

視頻生成要高清

目前 BigGAN 或 StyleGAN 等深度生成模型已經能生成極其逼真的圖像,而且這種圖像還是高解析度的,種類也非常豐富。然而生成自然連貫的視頻仍然是極具挑戰的領域,它要求更複雜的數據與更多的計算力。因為這樣的原因,視頻生成領域的前沿工作都圍繞著相對簡單的數據集展開,或者採用非常有限的時間信息來降低任務的複雜度。

在這項研究中,Deepmind 的研究者關注更精細的視頻合成和視頻預測任務,他們希望將圖像生成領域的高逼真結果遷移到視頻領域中。具體而言,研究者提出的 DVD-GAN 建立在當前最優的 BigGAN 架構之上,並引入了一系列用於視頻生成的修正,包括更高效的可分離注意力和判別器的時空分解。

這些修正令研究者在 Kinetics-600 上訓練的模型取得了很好的效果,其中 Kinetics-600 是自然視頻的複雜數據集,它要比當前常用的視頻數據集大了一個數量級。最終,研究者的 Dual Video Discriminator GAN (DVD-GAN) 能生成時間上連貫、高解析度、高保真度的視頻。

前面已經欣賞過簡要的生成樣本,下圖 1 展示了生成視頻的一些樣本幀,它們在連續性和語義性上都有很好的體現。

有了這款DVD-GAN,DeepMind就生成了逼真視頻

圖 1:在 Kinetics-600 數據集上訓練 DVD-GAN 所生成的一些樣本幀,從上到下生成的視頻解析度分別為 256、128 和 64。

DeepMind 研究人員在相關的視頻合成和預測任務上對該模型進行了評估,結果表明它在 Kinetics-600 數據集視頻預測任務中獲得了當前最優的 FID 得分,在 UCF-101 數據集視頻合成任務中獲得了當前最優的 Inception Score,同時它在 Kinetics-600 視頻合成任務中構建了強大的基線模型。

無自回歸的 GAN 結構

DVD-GAN 能夠生成高解析度和具備時間一致性的視頻。它將大型圖像生成模型 BigGAN 擴展到視頻領域,同時使用多項技術加速訓練。

與之前的研究不同,該模型的生成器不包含前景、背景或光流的顯式先驗信息,而是依賴於大容量的神經網路,以數據驅動的方式學習這些信息。DVD-GAN 包含自注意力和 RNN,但是它在時間或空間中並不具備自回歸屬性。RNN 按順序為每個視頻幀生成特徵,然後 ResNet 並行地輸出所有幀,聯合生成每一幀中的所有像素。也就是說,每一幀中的像素並不直接依賴於視頻中的其他像素,這與自回歸模型並不相同。

DVD-GAN 模型架構如下圖所示:

有了這款DVD-GAN,DeepMind就生成了逼真視頻

圖 3:DVD-GAN 模型架構圖示。左圖為生成器,右圖為判別器(D_S/D_T)。

雙判別器

DVD-GAN 使用兩個判別器:空間判別器(Spatial Discriminator:D_S)和時間判別器(Temporal Discriminator:D_T)。

D_S 對視頻隨機採樣 k 個全解析度幀,並對單個幀的內容和結構進行評價。研究人員使用了 k=8 的參數。和 TGANv2 一樣,D_S 的最終分數是每個幀的分數之和。

D_T 則向模型提供生成動作的學習信號(動作是 D_S 無法評價的)。研究人員對整個視頻使用了一種空間降採樣函數 φ(·),並將函數的輸出作為 D_T 的輸入。這個降採樣函數是一個 2 × 2 平均池化函數。

可分離自注意力

研究人員使用了一種名為可分離自注意力(Separable Attention)的機制。研究人員沒有選擇同時注意所有位置上的特徵,而是將三個注意力層排為一行,一個接一個分別對視頻的高、寬和時間軸進行注意力計算。這可以被視為是因式注意力(Factorized Attention)的一種特殊情況。

實驗結果

DVD-GAN 建立在 BigGAN 架構之上。每個 DVD-GAN 都使用 TPU v3 進行訓練,從 32 個 cores 到 512 個 cores 不等。研究者使用 Adam 優化器,最多訓練 300000 步。研究人員使用了 TF-Replicator 進行數據並行訓練。耗費的時間在 12 小時到 96 小時不等。

DVD-GAN 主要在Kinetics-600 數據集上進行實驗,其中 Kinetics 是一個由10秒 YouTube 高清視頻片段組成的大型數據集。研究人員使用了它的第二個迭代版本——Kinetics-600。該數據集包含 600 個類別,每一類至少有 600 個視頻。數據集總共有大約 50 萬個視頻。

在視頻合成任務中的性能

有了這款DVD-GAN,DeepMind就生成了逼真視頻

表 1:DVD-GAN 在 Kinetics-600 視頻合成任務中的 FID/IS 得分。

有了這款DVD-GAN,DeepMind就生成了逼真視頻

表 2:模型在 UCF-101 數據集上的 IS 得分(分值越高越好)。

在視頻預測任務上的性能

有了這款DVD-GAN,DeepMind就生成了逼真視頻

表 3:DVD-GAN-FP 在 Kinetics-600 數據集樣本(16 幀視頻)上的視頻預測得分(訓練數據不存在跳幀)。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 機器之心 的精彩文章:

ICML 最佳論文提名論文:理解詞嵌入類比行為新方式
超越MnasNet、Proxyless:小米開源全新神經架構搜索演算法FairNAS

TAG:機器之心 |