當前位置:
首頁 > 最新 > Petuum提出對偶運動生成對抗網路:可合成逼真的視頻未來幀和流

Petuum提出對偶運動生成對抗網路:可合成逼真的視頻未來幀和流

選自arXiv

作者:Xiaodan Liang、Lisa Lee、Wei Dai、Eric P. Xing

機器之心編譯

對於自動駕駛系統而言,準確預測駕駛場景的未來情況對於駕駛安全而言至關重要。卡內基梅隆大學和 Petuum 的一項研究試圖通過對偶對抗學習機制來解決這一問題,他們提出的對偶運動生成對抗網路在合成逼真的視頻未來幀和流上都取得了很好的表現。機器之心對該研究的論文進行了編譯介紹。

儘管用於監督學習的深度學習架構取得了很大的進展,但用於通用和可擴展的視覺任務的無監督視頻表徵學習仍然很大程度上仍未得到解決——儘管這也是一個關鍵的研究問題。最近,預測視頻序列中的未來幀 [22,20,28] 已經成為了視頻數據的無監督學習的一個很有希望的方向。

由於自然場景具有複雜的外觀和運動動態,所以視頻幀預測本身是一項很有挑戰性的任務。直觀上講,為了預測未來幀中的實際像素值,模型必須要能理解像素層面的外觀和運動變化,這樣才能讓之前幀的像素值流入到新的幀中。但是,大多數已有的當前最佳方法 [20,28,18,16,26,37] 都使用了生成式神經網路來直接合成未來視頻幀的 RGB 像素值,無法明確建模固有的像素方面的運動軌跡,從而會導致預測結果模糊。儘管最近有些研究 [23,16,26] 試圖通過設計能從之前的幀複製像素的運動場層(motion field layer)來緩解這一問題,但因為中間流不準確,預測結果往往有顯著的偽影問題。

在這項工作中,我們開發了一種對偶運動生成對抗網路(dual motion Generative Adversarial Network)架構,可以使用一種對偶對抗學習機制(dual adversarial learning mechanism)來學習明確地將未來幀中的合成像素值與像素上的運動軌跡保持連貫。具體來說,它能同時根據一種共享的概率運動編碼器而解決原始的未來幀預測(future-frame prediction)問題和對偶的未來流預測(future-flow prediction)問題。受 GAN [6,13] 的成功的啟發,我們在兩個未來幀和未來流生成器以及兩個幀和流鑒別器之間建立了一種對偶對抗訓練機制,以便得到與真實數據難以區分的預測結果。通過互相的彼此審查,這種基本的對偶學習機制將對未來像素的想像和流預測聯繫到了一起。我們的對偶運動 GAN 由如下三個完全可微分的模塊構成:

概率運動編碼器可以獲取可能出現在不同位置的運動不確定性並為之前的幀產生隱含的運動表徵,然後這些表徵會被用作兩個生成器的輸入。

然後未來幀生成器會預測未來的幀,預測結果會在兩個方面得到評估:幀鑒別器會對幀的逼真度進行評估,流鑒別器會根據之前幀和預測幀之間的估計的流而評估流的逼真度。

未來流生成器又會預測未來的流,這也會在兩個方面得到評估:流鑒別器會對流的逼真度進行評估,幀鑒別器會根據推算得到的未來幀(是通過一個嵌套的流變形層(flow-warping layer)計算的)來評估幀的逼真度。

通過從兩個對偶的對抗鑒別器學習對稱的反饋信號,未來幀生成器和未來流生成器可以受益於彼此互補的目標,從而得到更好的識別預測。在使用了 KITTI 數據集 [5] 中車載攝像頭拍攝的視頻和來自 UCF-101 數據集 [27] 的消費者視頻訓練之後,我們的對偶運動 GAN 在合成接下來的幀以及自然場景的長期未來幀上的表現超過了所有已有的方法。我們還通過在另一個汽車攝像頭拍攝的 Caltech 數據集 [3] 以及一個來自 YouTube 的行車記錄儀原始視頻集合上的測試證明了它的泛化能力。此外,我們還通過大量 ablation study(註:指移除模型和演算法的某些功能或結構,看它們對該模型和演算法的結果有何影響)表明了每個模塊的設計選擇的關鍵性。我們還在流估計、流預測和動作分類上進行了進一步的實驗,結果表明了我們的模型在無監督視頻表徵學習上的優越性。

對偶運動 GAN

我們提出了對偶運動 GAN,這是一種用於視頻預測的完全可微分的網路架構,能夠聯合解決原始的未來幀預測和對偶的未來流預測。圖 1 給出了這種對偶運動 GAN 架構。我們的對偶運動 GAN 以視頻序列為輸入,通過融合未來幀預測與基於未來流的預測來預測下一幀。

圖 1:我們提出的對偶運動 GAN 使用了一種對偶對抗學習機制來解決未來幀預測和未來流預測任務。首先將一個視頻序列 I1,…, It 送入概率運動編碼器 E 以得到隱含表徵 z。對偶運動生成器(左側的 Future-frame G 和 Future-flow G)對 z 進行解碼,以合成未來幀和流。對偶運動鑒別器(右側的 Frame D 和 Flow D)分別學習分類真實的和合成的幀或流。流估計器 QI→F 根據預測幀和真實幀 It 來估計流,這又會進一步得到 Flow D 的評估。流變形層 QF→I 會使用預測得到的流來對真實幀 It 進行變形操作,從而生成變形後的幀,然後又會通過 Frame D 評估。上圖中的下部分是測試階段。

網路架構

圖 2 和圖 3 分別給出了生成器和鑒別器網路的詳情。為了簡潔,圖中略去了池化層、批規範化層和中間卷積層之後的 ReLU 層。

圖 2:對偶運動生成器。給定序列中的每一幀都會被循環地送入概率運動編碼器 E,其中包含 4 個卷積層、1 個中間 ConvLSTM 層和 2 個用於得到均值圖和方差圖的 ConvLSTM 層,以用於對 z 採樣。接下來,未來幀生成器 GI 和未來流生成 GF 會分別解碼 z 以得到未來幀和未來流。然後流估計器 QI→F 會生成 It 和之間估計的流。執行差分 2D 空間變換的流變形層 QF→I 會根據將 It 變形為。

圖 3:兩個對偶運動鑒別器的架構。幀鑒別器和流鑒別器分別學習分類真實的和合成的幀和流。

實驗

表 1:經過 KITTI 數據集的訓練之後,在 Caltech 和 YouTube 剪輯上的視頻幀預測表現(MSE 和 SSIM)

表 2:在 UCF-101 和 THUMOS-15 上的視頻幀預測表現(PSNR 和 SSIM)

圖 4:在 YouTube 剪輯上的定性結果。為了更好地比較,我們用紅色框和藍色框突出展示了兩輛以相反方向前進的車輛的預測區域

圖 5:在來自 Caltech 數據集的車載攝像頭視頻上,與 Prednet [18] 的下一幀預測結果的定性比較

圖 6:在 Caltech 數據集上的多幀預測表現的比較

圖 7:我們的模型在 Caltech 序列上的 5 個時間步驟的多幀預測結果

圖 8:我們的模型在來自 KITTI 數據集的兩個序列上得到的一些未來幀預測和未來流預測示例

表 3:在 KITTI 數據集上的流估計和預測的終點誤差。這裡值更低表示表現更好。

表 4:在 UCF-101 上的動作識別的分類準確度

論文:用於未來流嵌入式視頻預測的對偶運動生成對抗網路(Dual Motion GAN for Future-Flow Embedded Video Prediction)

鏈接地址:https://arxiv.org/abs/1708.00284

視頻的未來幀預測是無監督視頻表徵學習的一個很有前途的研究方向。視頻幀是基於視頻中的外觀和運動動態,根據之前的幀通過固有的像素流而自然生成的。但是,已有的方法都重在直接想像像素值,從而會得到模糊的預測。在這篇論文中,我們開發了一種對偶運動生成對抗網路架構,可通過一種對偶學習機制來學習明確地強制未來幀預測與視頻中像素層面的流一致。其原始的未來幀預測和對偶的未來流預測可以形成一個閉環,從而能為彼此生成信息豐富的反饋信號,進而實現更好的視頻預測。為了使合成的未來幀和流都與現實情況難以區分,我們提出了一種對偶訓練方法以確保未來流預測能夠幫助推理逼真的未來幀,而未來幀預測又反過來能幫助得到逼真的光流。我們的對偶運動 GAN 還能使用一種新的概率運動編碼器(基於變分自編碼器)來處理不同像素位置的自然的運動不確定性。我們進行了大量實驗,結果表明我們提出的對偶運動 GAN 在合成新視頻幀和預測未來流上表現優於之前最佳的方法。我們的模型能很好地泛化到不同的視覺場景上,並且表現出了在無監督視頻表徵學習方面的優越性。

本文為機器之心編譯,轉載請聯繫本公眾號獲得授權。

?------------------------------------------------

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 機器之心 的精彩文章:

吳恩達宣布啟動AI Fund:1.75億美金進軍AI創投
結合感知和概念思維,DeepMind提出可微歸納邏輯框架?ILP

TAG:機器之心 |