黑白草圖就能生成2K視頻？NVIDIA超狂AI模型了解一下

新聞 09-09

Esther｜撰文

近日，NVIDIA與MIT CSAIL（計算機科學與人工智慧實驗室）發表了一篇論文，論文中闡釋了一個全新的開源視頻到視頻合成模型：Video-to-Video Synthesis，它使用生成對抗網路（GAN）學習框架，這款模型能夠生成高解析度、時間相干的逼真視頻，可輸入的內容格式包括分割掩模、草圖和動作。

名詞解釋：

生產對抗網路：一種用於無監督學習的機器學習框架，這個概念最初由Ian Goodfellow提出，這種框架由神經網路構成判別器和生成器構成，通過一種互相競爭的機制組成。

時間一致性/相干性：百度百科定義：「時間一致性與波傳播時間差有關，由不確定的為相差導致，只有傳播時間差在一定範圍內的波才具有相對固定的位相差從而一致的特性叫波的時間一致性。」

語義分割：字面的意思是讓計算機根據圖像的語義進行分割，理解圖片的意思。

掩模（mask）：是一種圖形操作，用於部分或完全隱藏對象或元素的部分，簡單來講，將掩模應用於圖形對象的效果相當於圖形對象通過遮罩塗在背景上，完全或部分掩蓋了圖形對象的各部分，遮罩內圖像不會改變，在圖像處理中常用掩模來提取ROI區域。

論文中寫道，圖像轉譯技術是很火的研究話題，但是極少有人去探索視頻到視頻合成這一領域。建模與合成動態的視覺圖像對於構建AI來說非常重要，視頻到視頻合成技術在計算機視覺、機器人學和電腦繪圖上都能得到廣泛應用。

比如，在強化學習模型中，使用視頻合成模型來預測動態環境，那訓練AI就不需要使用那麼多真實數據了。與傳統的圖像渲染技術不同，使用這種經過訓練的視頻合成模型，不需要明確設定場經濟和、材料、光線和動作，就可以合成逼真的視頻。

這組科研人員研究視頻到視頻合成的目標是，通過學習源視頻的繪圖原理（比如一系列語義分割掩模），利用分布匹配原理，輸出能精準捕捉源視頻內容的合成視頻。他們發現不使用時間動態建模，而直接將現有的圖像合成方法應用在源視頻上，常常只會生成時間不一致的低畫質低視頻。

科研人員利用精心設計的生成器與識別器（生成器和識別器都是神經網路，共同組成了生成對抗網路框架。在生成器中輸入隨機噪音，輸出目標向量，而識別器是分類器，輸入向量，輸出的內容是判斷向量是否真實。），以對抗時空學習為目標（去模糊），在多次實驗後，成功將長達30秒的街景視頻合成了2048×1024解析度的視頻，效果大大超越了目前市面上最先進的其他視頻合成技術。

據悉，使用者可以靈活地從多方面調整模型合成的視頻，比如將街景視頻中的建築替換成樹。

左上角是源視頻，右下角是NVIDIA與CSAIL的模型合成效果

原理

論文中提到，為了簡化視頻到視頻合成問題，科研人員利用了馬爾科夫模型（一種統計模型，在語音識別應用廣泛），一張張生成視頻的每一幀，但是許多幀視頻中包含大量無用的信息，如果兩幀圖像之間的光流（用於描述相對於觀察者的運動所造成的觀測目標、表面或邊緣的運動）已知，就可以用這個光流去預測下一幀。從實驗結果來看，模型預測遮擋區域外的圖像準確率很高。

此外青亭網還了解到，這組科學人員用於實驗使用的數據組包括：

Cityscapes（城市風光）：2975個、30幀、解析度為2048x1024的德國城市街景視頻。

Apolloscape：73段拍攝於北京的街景視頻，幀數從100到1000不等。

Face video dataset（人臉視頻數據集）：854段來自不同記者的新聞報道視頻，用於訓練將草圖合稱為面部視頻的任務。

Dance video dataset（跳舞視頻數據集）：一些從YouTube上下載的動作視頻，用於合成人的跳舞視頻，每段視頻約3-4分鐘，解析度為1280x720，科研人員截取去了視頻中間512x720大小的人的部分。看這段動圖，很容易聯想到前不久青亭網曾報道過，美國加州大學伯克利分校利用NVIDIA TITAN Xp顯卡和GeForce GTX 1080 Ti顯卡，製作了一款將舞蹈動作通過虛擬人像呈現出來的AI技術。

在論文中科研人員寫道，雖然這款模型超越了市面上許多類似的視頻到視頻合成技術，但目前還有一些局限。比如，因為缺少景深地圖信息，這款模型很難合成視頻中轉彎的車。此外，這款模型也沒辦法保證視頻中同一個物體會從頭到尾保持外觀一直，有時候會有汽車逐漸改變顏色，如果從頭到尾採用物體追蹤技術，就能緩和這個問題。

另外一個問題是，在進行語義操縱時，比如將樹變成建築，一些被建築和樹替代的物體會改變標籤形狀，如果使用粗略一些的語義標籤來訓練模型，就可以減少其對標籤形狀的敏感度。

正如你看到的這樣，這套技術未來可以用用在很多的領域，顯而易見的是，例如蘋果正在研發的自動駕駛汽車，就可以直接疊加至夜間HUD平視顯示器中。

除此之外，這樣技術還有很多應用場景。例如，電視/視頻服務商可通過該技術模擬計算出中間幀的圖像，來彌補卡頓，提升畫面流暢性等；醫生們則可以提高MRI核磁共振圖像的清晰度、成像質量等細節；谷歌則可以提升谷歌地圖、衛星地圖的信息密度，讓細節更加豐富。未來，還可能會擴展更多的領域。

參考：https://arxiv.org/pdf/1808.06601.pdf

（END）

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 青亭網 的精彩文章:

※三星為Note 9用戶免費提供Gear VR適配器
※昂貴器材可盡情使用，谷歌虛擬科學實驗室發布

TAG:青亭網 |