當前位置:
首頁 > 最新 > 無監督視頻物體分割新思路:實例嵌入遷移

無監督視頻物體分割新思路:實例嵌入遷移

【導讀】近日,針對視頻物體分割中缺乏訓練樣本和準確率較低的問題,來自美國南加州大學、谷歌公司的學者發表論文提出基於實例嵌入遷移的無監督視頻物體分割方法。其通過遷移封裝在基於圖像的實例嵌入網路(instance embedding network)中的知識來實現。 實例嵌入網路為每個像素生成一個嵌入向量,可以識別屬於同一個物體的所有像素。本文將在靜態圖像上訓練的實例網路遷移到視頻對象分割上,將嵌入向量與物體和光流特徵結合,而無需模型再訓練或在線微調。 所提出的方法優於DAVIS數據集和FBMS數據集中最先進的無監督分割方法。

摘要

我們提出一種無監督的視頻物體分割方法,其通過遷移封裝在基於圖像的實例嵌入網路(instance embedding network)中的知識來實現。 實例嵌入網路為每個像素生成一個嵌入向量,可以識別屬於同一個物體的所有像素。 儘管是在靜態圖像上訓練的,但實例嵌入在連續的視頻幀上也是穩定的,這使得我們能夠按照時間序列將物體鏈接在一起。 因此,我們將在靜態圖像上訓練的實例網路遷移到視頻對象分割上,將嵌入向量與物體和光流特徵結合,而無需模型再訓練或在線微調。 所提出的方法優於DAVIS數據集和FBMS數據集中最先進的無監督分割方法。

介紹

視頻理解中的一個重要任務是在時間和空間上定位物體。 理想情況下,它應該能夠隨著時間的推移使用一個物體mask(sharp object mask),來定位已有的或新的物體,這種情況被稱為視頻物體分割(VOS)。 如果沒有給出要分割哪個物體的指示,則該任務被稱為無監督視頻物體分割或主要物體分割(primary object segmentation)。 一旦物體被分割,則後續的視覺效果工具和視頻理解工具就可以利用這些信息。

目前,靜態圖像中的物體分割任務主要是基於全卷積神經網路(FCN)的方法。 這些神經網路需要在大數據集上進行物體分割任務,如PASCAL和COCO。 視頻分割數據集一般較小,因為其標註非常昂貴。 因此,訓練神經網路來解決視頻分割更困難。 經典的視頻分割工作使用光流法和基於淺層表觀模型來生成分割結果,而最新的方法通常在圖像分割數據集上預先訓練網路,然後將網路應用到視頻領域,有時也會結合光流。

圖1:根據運動來改變視頻中分割目標(前景)的示例。 在第一行,汽車是視頻中的前景,在第二行,汽車則是視頻中的背景。 為了解決這個問題,提出的方法首先獲得物體實例的嵌入,並識別用於區分前景/背景的代表性嵌入,然後基於代表性嵌入來分割幀。 左: groundtruth。 中:通過PCA投影到RGB空間的嵌入的可視化,以及用於前景(洋紅色)和背景(藍色)的代表性點。 右:由所提出的方法產生的分割mask。

在本文中,作者提出了一種知識轉換方法,通過遷移從靜態圖像中學習到的實例分割嵌入中的知識,並將其與物體和光流相結合來分割視頻中的運動物體。 本文沒有像其他方法那樣直接將每個像素分類為前景/背景來訓練FCN。而是在訓練FCN的時候,從圖像中同時學習物體實例的嵌入和語義類別。利用學習的嵌入之間的距離來編碼像素之間的相似度。 作者認為,相比於前景/背景預測,從圖像到視頻遷移的實例嵌入是一個更有用的特徵。 如圖1所示,汽車出現在兩個視頻中,但是屬於不同的類別(第一個視頻是前景和第二個視頻是背景)。 如果網路訓練的時候,直接將汽車分類為第一個視頻的前景,則它在第二個視頻中也傾向於將汽車也分類為前景。因此,網路需要對每個序列進行微調。 相反,實例嵌入網路可以在兩個視頻序列中分別為汽車產生獨特的嵌入,而不會干擾其他預測或需要額外微調。 然後該任務就變成了如何選擇正確的嵌入以用作表觀建模。本文依靠嵌入來編碼物體實例信息,提出了一種基於物體分數和光流識別前景(目標物體)和背景的可表示性嵌入方法。可表示性嵌入的例子在圖1的中間列中。最後,通過在一組代表性的前景或背景嵌入中找到最近鄰來對所有像素進行分類。 這是一個非參數化的過程,在訓練或測試時不需要監督信息。

在DAVIS數據集和FBMS數據集上對提出的方法進行評估。 即使不對目標數據集上的嵌入網路進行微調,提出的方法性能比以前最先進的方法還要好。 具體地,本文分別在DAVIS數據集和FBMS數據集上得到了78.5%和71.9%的平均交叉聯合(intersectionover-union, IoU)。

主要貢獻如下:

模型簡介

這是所提出的方法概覽圖。 給定視頻序列,通過在靜態圖像上訓練的實例分割網路來獲得密集嵌入。 然後獲得代表性的嵌入,稱為種子。 種子在整個序列中連接起來(我們在這裡顯示連續3幀)。 選擇基於物體和運動顯著性得分最高的種子作為初始種子(品紅色)以產生初始分割。 最後,識別更多的前景種子以及背景種子來改善分割。

圖中:第一行:左邊是一幅圖像。 中間:將嵌入圖投影到RBG空間(通過PCA),其中初始背景種子SBG標記為藍色,其他種子為紅色。 右:嵌入圖中每個種子附近的區域。 第二行:左邊是光流。 中間:每個區域內的平均流量。 右:運動顯著性分數圖。

▌實驗結果

表1:在DAVIS 2016數據集的評價結果。 提出的方法在兩個評估指標上都達到了最高水平,並且勝過了在DAVIS上進行微調的方法。每個視頻的結果放在文末的補充材料中。

圖5:在DAVIS數據集的定性結果示例。 提出的方法對於外觀變化大的視頻(第一行),混淆的背景(第二行,有人在背景中),視角變化(第三行,不同的視角)和看不見的語義類別(第四行,以山羊為前景)具有較好的效果。

表2:在FBMS數據集測試集上的結果。 提出的方法在評估指標上達到了最高水平。

圖6:錯誤分類的前景嵌入與相對時間步的比例。 隨著時間的推移,更多的前景嵌入比前景本身更接近第一幀的背景。

表3:分段性能與在線自適應頻率。 在DAVIS訓練集上進行的實驗。 請注意,k = 1表示沒有在線自適應。

表4:分割性能與前景排名策略。 在DAVIS訓練集上進行實驗。

表5:採用該方法對DAVIS 評價數據集上進行半監督的視頻物體分割結果。

結論

本文提出了一種將靜態圖像學習的實例嵌入轉換到視頻的無監督物體分割的方法。 為了適應視頻物體分割問題的前景變化,本文訓練網路來生成嵌入(該嵌入封裝了實例信息),而不是訓練直接輸出前景/背景分數的網路。 在實例嵌入中,通過物體和運動顯著性進行建模來識別代表性的前景/背景嵌入。 然後,根據前景/背景的嵌入相似性對像素進行分類。 與許多需要對目標數據集進行微調的方法不同,提出的方法在無監督的視頻物體分割實現了最好的性能,並且沒有任何微調,節省了大量的標註工作。

參考鏈接:

https://arxiv.org/abs/1801.00908

-END-


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 專知 的精彩文章:

阿里巴巴人工智慧機器閱讀理解能力創新紀錄
深度學習需要了解的四種神經網路優化演算法

TAG:專知 |