當前位置:
首頁 > 新聞 > CVPR 2019:港中大等打造新模型SelFlow,自監督學習攻克遮擋難題

CVPR 2019:港中大等打造新模型SelFlow,自監督學習攻克遮擋難題

CVPR 2019:港中大等打造新模型SelFlow,自監督學習攻克遮擋難題

【新智元導讀】對光流的學習和跟蹤是計算機視覺領域的基本任務。在3D目標跟蹤、處理和重建等實際任務中,經常需要對被遮擋的光流進行預測。本文介紹在CVPR2019上發表的一篇論文,在多個數據集的光流預測任務上大幅提升了預測性能。

光流是計算機視覺的一個基本任務,它描述了視頻中的運動信息,相關技術廣泛應用於視頻理解和處理、物體跟蹤、三維重建、自動駕駛等場景。近日,來自香港中文大學和騰訊AI實驗室團隊的一篇論文入選了CVPR2019。

論文題為《一種自監督的光流學習方法》。論文團隊探索了使用卷積神經網路估計光流的一個關鍵挑戰:預測被遮擋像素的光流。

CVPR 2019:港中大等打造新模型SelFlow,自監督學習攻克遮擋難題

論文地址:

https://arxiv.org/abs/1904.09117

論文第一作者劉鵬鵬詳細闡述了該論文的意義:「首先,我們提出了一種從沒有標註的數據中學習光流的自監督訓練框架。這個方法會人為創造一些遮擋,然後利用已經學習到的比較準確的沒有被遮擋像素的光流去指導神經網路學習被遮擋像素的光流。其次,我們設計一個可以利用多幀圖像時序連續性的網路結構來更好地學習光流。

基於這兩個原則,我們的方法在MPI Sintel, KITTI 2012和KITTI 2015等數據集上取得了最好的無監督學習效果。更重要的是,我們的無監督方法得到的模型為有監督的微調提供了一個很好的初始化,消除了訓練光流神經網路對模擬數據的依賴。經過有監督微調,我們的模型在以上三個數據集上取得了目前最優的性能,這是光流研究歷史上第一次不使用額外模擬數據達到的最高準確度。

我們在寫這篇文章的時候(2018年11月),我們的模型在Sintel評測集上取得EPE=4.26,超過來自世界各地研究機構的所有180多種已經提交的方法。直到今天,我們的演算法在Sintel榜單上還是第一。」


自監督光流學習框架SelFlow:刷新多項預測精度紀錄

CVPR 2019:港中大等打造新模型SelFlow,自監督學習攻克遮擋難題

表1:與基於最先進學習的光流估計方法的比較。我們的方法優於所有數據集上的所有無監督光流學習方法。我們的監督微調模型在Sintel Final數據集和KITTI 2012數據集上實現了最高精度。除KITTI 2012和KITTI 2015測試集的最後一列外,所有數字均為EPE,我們報告了所有像素(Fl-all)上的錯誤像素百分比。( - )表示未報告相應方法的結果。括弧表示訓練和測試是在同一數據集上執行的。粗體字為無監督和監督方法中的最佳結果。

CVPR 2019:港中大等打造新模型SelFlow,自監督學習攻克遮擋難題

圖2 在每個級別的網路架構(類似於PWC-Net)。˙wl表示水平l的初始粗流,F l表示翹曲的特徵表示。在每個級別,將初始流量和成本量作為輸入交換,以便同時估計前向流量和後向流量。再將這些估計傳遞到l-1層上,估計更高解析度的流。

CVPR 2019:港中大等打造新模型SelFlow,自監督學習攻克遮擋難題

圖3 多幀自訓練的數據流。為了估計三幀流學習的遮擋圖,我們使用五個圖像作為輸入。這樣,我們可以進行前後一致性檢查,以分別估計I t和I t + 1之間,I t和I t-1之間的遮擋圖。

CVPR 2019:港中大等打造新模型SelFlow,自監督學習攻克遮擋難題

圖4 在Sintel和KITTI數據集上對無監督結果進行抽樣。圖中由上至下依次為在Sintel Final,KITTI 2012和KITTI 2015數據集上的取樣。

CVPR 2019:港中大等打造新模型SelFlow,自監督學習攻克遮擋難題

圖5 在Sintel Clean培訓和Sintel Final測試數據集的不同設置下的定性比較。遮擋處理,多幀制定和自我監督不斷提高性能


實驗結果與分析:多項數據集預測性能顯著

如表1所示,我們在所有評估指標下的所有數據集上實現了無監督和監督光流學習的最新結果。圖4所示為Sintel和KITTI的樣本結果。

無監督學習

本文中的方法在基準測試中實現了無監督學習方法的最高精度。在Sintel Final基準測試中,將之前的最佳EPE從7.40 降低到6.57,相對提升幅度為11.2%。這甚至比包括FlowNetS,FlowNetC和SpyNet在內的幾種完全監督方法更優秀。在KITTI數據集上的改進更為明顯。

對於訓練數據集,我們實現了EPE = 1.69,KITTI 2012的相對改進幅度為28.1%,EPE = 4.84,與之前最佳無監督方法DDFlow相比,KITTI 2015的相對改進為15.3%。在KITTI 2012測試集中,實現了Fl-all = 7.68%,這比包括FlowNet2,PWC-Net,ProFlow和MFF在內的最先進的監督學習方法實現了更好的性能。在KITTI 2015基準測試中,實現了Fl-all=14.19%,優於所有無監督方法。其中一些無監督學習的結果也優於一些完全監督的方法,包括DCFlow和ProFlow等。

監督式微調

使用Ground-truth流程進一步對無監督學習模型進行微調後,模型在所有三個數據集上都獲得了最先進的結果,KITTI 2012上的Fl-all = 6.19%,KITTI 2015上的Fl-all = 8.42%。最重要的是,我們的方法在Sintel Final數據集上實現了EPE = 4.26 ,在所有提交的方法中實現Sintel了基準測試的最高精度。所有這些都表明,我們的方法減少了預訓練對合成數據集的依賴,不必再遵循不同數據集來專門制定訓練計劃。

結論與未來方向:有效降低對標記數據集的依賴

本文提出了一種自我監督的方法來學習準確的光流估計,此方法將雜訊注入到超級像素中以創建遮擋,讓一個模型引導另一個模型來學習遮擋像素的光流。我們通過簡單的CNN有效地聚合來自多個幀的時間信息,改進流量預測精度。大量實驗表明,我們的方法明顯優於所有現有的無監督光流學習方法。在使用我們的無監督模型進行微調後,模型在所有領先的基準測試中實現了最先進的流量估算精度結果。我們的研究可以完全降低預訓練過程對合成標記數據集的依賴,並通過對未標記數據進行自監督的預訓練,實現優異的預測性能。

論文鏈接:

SelFlow: Self-Supervised Learning of Optical Flow

https://arxiv.org/abs/1904.09117

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 新智元 的精彩文章:

為什麼谷歌微軟亞馬遜搶著把AI研發中心放在台灣?
人臉識別技術禁令再來!美國又一城市禁止面部識別軟體

TAG:新智元 |