當前位置:
首頁 > 最新 > 更高解析度更連貫!麻省理工、英偉達聯合發布視頻合成新方法

更高解析度更連貫!麻省理工、英偉達聯合發布視頻合成新方法

最近,英偉達和麻省理工學院合作發布了一篇新論文,該成果研究了由視頻合成視頻的問題,其目標是學習從輸入視頻到輸出視頻的映射函數,最終,輸出視頻中準確包含了輸入視頻中的內容。

目前,從視頻到視頻的合成問題在業內鮮有涉及。在不對時間進行動態建模的情況下,如果直接將現有的圖像合成方法應用到視頻合成中,往往會導致生成的視頻效果較差。

圖一:Cityscapes. 數據集上由分割掩碼生成視頻,左上圖:輸入視頻,右上圖:pix2pixHD 的效果,左下圖:COVST 的效果,右下圖:論文方法的效果

這篇論文在生成對抗學習的框架下,提出了一種新的由視頻合成視頻的方法。通過精心設計的生成模型和判別模型,加上時空對抗目標,該論文的方法在分割掩碼、草圖和姿態圖等多種格式的輸入上都生成了高解析度、真實感強和時間連貫的視頻。在多個基準測試上的實驗表明,該方法優勢明顯。特別地,該模型能夠合成長達 30 秒的 2K 解析度的街景視頻,大大提高了視頻合成的技術水平。

圖二:Apolloscape 數據集。左:pix2pixHD 的效果(左下角的小圖是分割掩碼),中:COVST 的效果,右:論文方法的效果

其中,對現實世界的景象進行動態構建的能力對於智能體來說是至關重要的。合成連續的視覺影像在計算機視覺、機器人和計算機圖形學中有著廣泛的應用。例如,在基於模型的強化學習中,在真實訓練數據較少的情況下,合成模型生成的視頻可以用來訓練智能體。訓練好的視頻合成模型可以在沒有明確指定幾何場景、材料、照明和各種轉換的情況下生成逼真的視頻,而使用標準圖形繪製技術時就需要指定上述條件,較為麻煩。

圖三:視頻多模態融合,合成視頻的路面發生變化

視頻合成問題有多種形式,比如視頻預測和無條件視頻合成。在這篇論文中,研究者探究了一種新的形式:由視頻生成視頻。

圖四:修改分割掩碼以生成不同的視頻,原始視頻見圖三,左:樹轉換成了建築,右:建築轉換為樹

此次成果的核心之處在於學習一個映射函數,將輸入視頻轉換為輸出視頻。研究者把由視頻合成視頻的問題看作是一個分布匹配問題,其目標是訓練一個模型,對輸入視頻構建一個條件分布,然後近似合成類似於輸入視頻的真實視頻。為此,研究者利用生成對抗學習框架,給定成對的輸入和輸出視頻,學習如何將輸入視頻映射到輸出域。通過精心設計的生成模型和判別模型以及一種新穎的時空學習目標函數,該方法可合成高解析度、真實感強和時間連貫的視頻。此外,研究者還將這種的方法擴展到視頻多模態融合。對於相同的輸入視頻,該模型可以生成不同的視頻。

圖五:由人臉草圖生成視頻

圖六:由姿勢圖生成視頻

研究者在多個數據集上進行了實驗,驗證了模型將分割掩碼轉換為真實視頻的效果。定量和定性結果都表明,該方法合成的畫面看起來比那些來自強基線的畫面更逼真。論文中的方法還能對視頻生成結果進行靈活的高層控制。例如,在街景視頻中,用戶可以很容易地用樹木替換所有的建築物。在實驗時,研究者以時空漸進的方式訓練模型。實驗從生成低解析度和少數幀開始,一直到生成全解析度和 30 或更多幀。生成器由粗到精分為 512*256、1024*512 和 2048*1024 三種解析度。實驗中使用 LSGAN loss,使用 ADAM 優化器進行了 40 epochs 的訓練,lr = 0.0002, (?1,?2)=(0.5,0.999)。實驗中使用的設備是 NVIDIA DGX1。由於圖像解析度高,即使每個 batch 只有一段短視頻,也必須使用 DGX 1 中的所有 GPU(8V100 GPU,每個 GPU 有 16 GB 顯存)。生成模型占 4 個 GPU,判別模型占另外 4 個 GPU。訓練 2K 解析度需要大約 10 天。

圖七:視頻預測 左上:真實視頻,右上:PredNet 的效果,左下:MCNet 的效果,右下:論文模型的效果

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 DeepTech深科技 的精彩文章:

《超能隊長的奇異冒險》免費登陸Steam 配置要求公布
揭秘AI識別虛假新聞背後的原理

TAG:DeepTech深科技 |