視頻內容消除新突破——「Deep Flow-Guided」
雷鋒網 AI 科技評論按:視頻內容消除的關鍵在於對視頻缺失區域的填充,但由於視頻相比圖片多了時間維度,因此難以保持視頻內容空間與時間的一致性,當前該項技術仍極具挑戰性。但本文將展示由香港中文大學的周博磊等研究學者們,提出的一種新型 Deep Flow-Guided 方法進行視頻內容消除。該技術不再是直接填充每個幀的 RGB 像素,而是將其轉化為像素點擴充問題,這項研究成果被選入 CVPR 2019 論文之列。
具體實現步驟
第一步,使用新設計的深度光流場合成神經網路(DFC-Net)在視頻幀上合成表示空間與時間關係的光流場,即整個視頻圖像中各像素點隨時間的運動情況;然後將這個光流場作為像素擴充的導向,使其精確填充視頻中的缺失區域。DFC-Net 在合成光流場的過程中遵循粗略到精細的細化原則,結合光流量的難樣本挖掘,整個神經網路的質量得到了進一步的提高。
最終,以合成光流場作為導向則可精確填充缺失的視頻區域。將這個方法在 DAVIS 和 YouTube-VOS 數據集上進行定性和定量評估,結果顯示其運行質量和速度都表現出了超常的技術水平。
框架結構
此方法框架包含兩步——第一步是合成缺失的光流場,第二步是以合成光流場為導向,對像素點進行擴充。
在第一步中,DFC-Net 用來對光流場進行由粗略到精細的合成。DFC-Net 由名為 DFC-S 的三個類似的子網路組成;第一個子網以相對粗略的比例估計光流量,並將它們反饋到第二個和第三個子網路中進一步細化。在第二步中,以合成的光流場為導向,通過不同幀的光流對已知區域中的像素點進行擴充,從而填充大部分缺失區域。然後採用傳統的圖像修復神經網路來填充在整個視頻中剩餘的一些細節區域。
正是因為在第一步中這個方法對光流的估計較為精確,所以可以很容易得到部分視頻內容消除後連貫的完整視頻。
消除結果
圖 3 展示了使用 Deep Flow-Guided 進行視頻內容消除的過程。對於每個輸入序列(奇數行),圖片上顯示了帶有缺失區域覆蓋掩膜的代表幀;在偶數行中則顯示了最終的消除結果。
圖 4 與其他方法的結果對比
圖 4 則向我們展示了 Deep Flow-Guided 方法與 Huang et al 方法進行視頻內容消除後的結果對比,可以看出該方法的消除結果更加精準,消除部分的銜接更加自然。
更多內容,雷鋒網 AI 科技評論將其整理如下:
論文地址
Github 開源地址
雷鋒網 AI 科技評論


※蘋果產品的真正賣點是什麼?
※watch OS 6發布:Apple Watch終於成年了
TAG:雷鋒網 |