谷歌AI動畫接龍:只用頭尾兩幀圖像,片刻生成完整視頻!
新智元報道
來源:VentureBeat
編輯:大明
【新智元導讀】谷歌研究人員利用3D卷積網路打造視頻生成新系統,只需要視頻的第一幀和最後一幀,就能生成完整合理的整段視頻,是不是很神奇?
漫畫書秒變動畫片了解一下?
想像一下,現在你的手中有一段視頻的第一幀和最後一幀圖像,讓你負責把中間的圖像填進去,生成完整的視頻,從現有的有限信息中推斷出整個視頻。你能做到嗎?
這可能聽起來像是一項不可能完成的任務,但谷歌人工智慧研究部門的研究人員已經開發出一種新系統,可以由視頻第一幀和最後一幀生成「似是而非的」視頻序列,這個過程被稱為「inbetween」。
「想像一下,如果我們能夠教一個智能系統來將漫畫自動變成動畫,會是什麼樣子?如果真實現了這一點,無疑將徹底改變動畫產業。「該論文的共同作者寫道。「雖然這種極其節省勞動力的能力仍然超出目前最先進的水平,但計算機視覺和機器學習技術的進步正在使這個目標的實現越來越接近。」
原理與模型結構
這套AI系統包括一個完全卷積模型,這是是受動物視覺皮層啟發打造的深度神經網路,最常用於分析視覺圖像。它由三個部分組成:2D卷積圖像解碼器,3D卷積潛在表示生成器,以及視頻生成器。
圖像解碼器將來自目標視頻的幀映射到潛在空間,潛在表示生成器學習對包含在輸入幀中的信息進行合併。最後,視頻生成器將潛在表示解碼為視頻中的幀。
研究人員表示,將潛在表示生成與視頻解碼分離對於成功實現中間視頻至關重要,直接用開始幀和結束幀的編碼表示生成視頻的結果很差。為了解決這個問題,研究人員設計了潛在表示生成器,對幀的表示進行融合,並逐步增加生成視頻的解析度。
圖2:模型生成的視頻幀序列圖,對於每個數據集上方的圖表示模型生成的序列,下方為原視頻,其中首幀和尾幀用於生成模型的採樣。
實驗結果
為了驗證該方法,研究人員從三個數據集中獲取視頻 - BAIR機器人推送,KTH動作資料庫和UCF101動作識別數據集 - 並將這些數據下採樣至64 x 64像素的解析度。每個樣本總共包含16幀,其中的14幀由AI系統負責生成。
研究人員為每對視頻幀運行100次模型,並對每個模型變數和數據集重複10次,在英偉達Tesla V100顯卡平台上的訓練時間約為5天。結果如下表所示:
表1:我們報告了完整模型和兩個基線的平均FVD,對每個模型和數據集重複10次,每次運行100個epoch,表中FVD值越低,表示對應生成視頻的質量越高。
RNN(SDVI)或光流(SepConv和SuperSloMo),數值越高越好。
研究人員表示,AI生成的視頻幀序列在風格上與給定的起始幀和結束幀保持一致,而且看上去說得通。「令人驚喜的是,這種方法可以在如此長的時間段內實現視頻生成,」該團隊表示,「這可能給未來的視頻生成技術研究提供了一個有用的替代視角。」
參考鏈接:
https://venturebeat.com/2019/05/28/googles-ai-can-create-videos-from-start-and-end-frames-alone/
論文鏈接:
https://arxiv.org/pdf/1905.10240.pdf


※谷歌、微軟聯合出品《量子計算機編程》公開課,教你怎麼寫量子代碼
※為什麼谷歌微軟亞馬遜搶著把AI研發中心放在台灣?
TAG:新智元 |