DeepMind把GAN玩出新花樣!基於BigGAN,生成高保真視頻
新智元報道
來源:venturebeat
編輯:大明
【新智元導讀】DeepMind把GAN又玩出了新花樣!這次推出的是雙視頻判別器GAN,通過對判別器更高效的分解,生成的視頻樣本在長度和解析度上都遠高於此前最好水平,在多個合成和預測視頻數據集上刷新了SOTA。
也許你聽說過FaceApp,這是一款利用AI來改變自拍的移動應用程序,你可能也聽說過「這些人物都不存在」網站,它可以顯示計算機生成的虛構人物照片。但是生成完完全全的新視頻的演算法你聽說過嗎?最近,DeepMind的一篇最新論文詳細介紹了AI剪輯生成領域的最新進展。
論文地址:
https://arxiv.org/pdf/1907.06571.pdf
研究人員表示,由於「高效計算」組件和技術的使用,再加上新的定製數據集,他們訓練出的最佳性能模型:雙視頻鑒別器GAN(DVD-GAN)可以生成「高保真度」的連貫256 x 256像素視頻,幀數高達48幀。
DVD-GAN這個簡稱由Ian Goodfellow「欽定」
「生成自然視頻對於生成建模任務來說是一個明顯更困難的挑戰,受到數據複雜性和計算要求增加的困擾,」共同作者寫道。「出於這個原因,許多關於視頻生成的先前研究都圍繞著相對簡單的數據集或可獲得強時間條件信息的任務。我們的研究則關注視頻合成和視頻預測的任務......並將生成圖像模型的成果擴展到視頻領域。」
研究人員圍繞尖端AI架構構建系統,並專門針對視頻進行了特定的調整,使其能夠在Kinetics-600上進行訓練,這是一個比常用語料庫大一個數量級的自然視頻數據集。具體來說,研究人員利用擴大的生成對抗網路(GAN),它已應用於多種轉換任務,比如將字幕轉換為逐個場景的情節板,生成人造星系的圖像等。本文中採用的是BigGAN,以大批量和數百萬個參數而著稱。
DVD-GAN:雙判別器,非約束數據集無需擔心過擬合
一組4秒合成視頻剪輯,由Kinetics-600在128×128幀上訓練
DVD-GAN包含兩個判別器:一個空間判別器,通過隨機採樣全解析度幀並單獨處理,來評判單幀的內容和結構,還有一個是時間判別器,負責提供學習信號來生成運動。此外還有一個單獨的模塊:變換器,讓學習到的信息在整個AI模型中傳播。
至於訓練數據集(Kinetics-600),這是根據最初為人類行為識別策劃的500,000個10秒高解析度YouTube剪輯編製的,研究人員稱該數據集具有「多樣化」和「非受限」的特點,他們聲稱這些特徵消除了過擬合的風險。(在機器學習中,過擬合是指與特定數據集過於緊密對應的模型,因此無法可靠地預測未來的觀測結果。)
該團隊在論文中表示,在經過Google加速的第三代TPU訓練12到96小時後,DVD-GAN成功創建了包括目標結構、移動,甚至是複雜紋理的視頻。模型還儘力在更高的解析度下創建連貫的物體,物體的運動組成像素更多。但研究人員指出,在UCF-101(13,320個人類行為視頻的較小數據集)上評估時,DVD-GAN生成的樣本的最好成績分數為32.97。
「我們希望進一步強調在大型複雜視頻數據集(如Kinetics-600)上訓練生成模型的好處,」論文中寫道。「我們想通過DVD-GAN在此數據集上建立的強大基線標準,作為生成建模社區的參考標杆。雖然在非約束的環境下,要想始終如一地生成逼真的視頻還有很多工作要做,但我們相信,DVD-GAN是朝這個方向邁出的堅實一步。」
參考鏈接:
https://venturebeat.com/2019/07/19/deepminds-ai-learns-to-generate-realistic-videos-by-watching-youtube-clips/
論文地址:
https://arxiv.org/pdf/1907.06571.pdf
※台積電5納米EUV晶元已開始生產,全球僅兩家能做到
※學界激辯!IEEE限令下該以打促談還是邊合作邊抗爭?
TAG:新智元 |