阿里文娛資深演算法專家：視頻物體分割演算法的三個方向與最新應用

新聞 07-31

機器之心專欄

作者：阿里巴巴資深演算法專家任海兵

在此文章中，阿里巴巴資深演算法專家為我們介紹了視頻物體分割的三個研究方向，然後結合阿里文娛摩酷實驗室的探索，分享了他們在視頻領域的最新應用。

視頻物體分割（Video Object Segmentation，簡稱 VOS)，顧名思義就是從視頻所有圖像中把感興趣的物體區域完整的分割出來。

視頻物體分割結果是進行內容二次創作的重要素材。例如目前火爆的「裸眼 3D 視頻」，基於視頻中主要物體與觀眾之間的距離，利用蒙皮遮擋的變化產生 3D 效果。其核心點是將前景物體從視頻中分割出來，這部分會花費創作者 99% 以上的時間。

因此，對於優酷這樣的視頻類網站，視頻物體分割是非常有價值的演算法，能夠賦能內容生產者，提升內容生產效率。特別是互動式視頻物體分割演算法，能利用用戶少量交互，逐步提高視頻物體分割正確率，提升用戶觀感體驗。這是任何無監督視頻物體分割演算法所不能達到的。

目前，CV 學術界在視頻物體分割方面的研究主要分為三個方向：

半監督視頻物體分割 (Semi-supervised video object segmentation)
互動式視頻物體分割 (Interactive video object segmentation)
無監督視頻物體分割（Un-supervised video object segmentation）

這三個研究方向對應於 Davis Challenge 2019 on Video Object Segmentation[1] 中的三個賽道。其中，學術界更傾向於研究半監督視頻物體分割，因為這是視頻物體分割的最基礎演算法，也是比較純粹的一個研究點。接下來，我首選介紹視頻物體分割的三個研究方向，然後結合阿里文娛摩酷實驗室的探索，分享在視頻領域的最新應用。

一、半監督視頻物體分割

半監督視頻物體分割，又稱為單一樣本視頻物體分割 (one-shot video object segmentation, 簡稱 OSVOS)。在半監督視頻物體分割中，給定用戶感興趣物體在視頻第一幀圖片上的分割區域，演算法來獲取在後續幀上的物體分割區域。物體可以是一個，也可以是多個。在視頻中，存在物體和背景運動變化、光照變化、物體旋轉變化、遮擋等，因此半監督視頻物體分割演算法研究的重點是演算法如何自適應獲取變化的物體表觀信息。一個示例如下圖所示：

阿里文娛資深演算法專家：視頻物體分割演算法的三個方向與最新應用

圖 1. 半監督視頻物體分割示例。

在圖 1 中，第一行為序列的 RGB 圖片，第二行為感興趣物體區域。其中（a）為視頻第一幀圖像，駱駝區域是給定物體的 ground-truth。（b）(c) 和 (d) 是後續的第 20、40 和 60 幀，後續的圖像只有 RGB 圖片，需要演算法去估計物體的區域。該示例的難點是：(1) 前景背景顏色非常相似；（2）隨著目標駱駝的運動，背景中出現一個新的駱駝，需要分割出這兩個不同的駱駝區域。

目前半監督視頻物體分割演算法分為兩大類：有在線學習、無在線學習。

基於在線學習的演算法根據第一幀物體的 ground-truth，利用 one-shot learning 的策略來 fine-tune 分割模型。經典的在線學習演算法包括 Lucid data dreaming[2]，OSVOS[3]，PreMVOS[4] 等。在線學習演算法針對每個物體單獨訓練模型，可以達到很高的分割正確率。但是在線學習本身是深度學習模型的 fine-tuning，需要耗費大量的計算時間。在 2019 年之前，在線學習演算法是主流。今年出現了不少無在線學習的演算法，它的模型是事先訓練好的，不需要針對樣本進行 fine-tune，具有更好的時效性，例如 CVPR2019 的 FEELVOS[5]，Space-time memory network[6] 等。

半監督視頻物體分割的最主要的結果評估標準是平均 Jaccard 和 F-measurement. 平均 Jaccard 值是所有物體在所有幀上分割精度 Jaccard 的均值。F-measurement 為分割區域邊緣的準確度。半監督視頻物體分割由於其需要第一幀物體區域的 ground-truth，因此無法直接應用於實際應用。但它是互動式和無監督視頻物體分割演算法的核心組成部分。

二、互動式視頻物體分割

互動式視頻物體分割是從去年開始興起的、更貼近實用的視頻物體分割方法。在互動式視頻物體分割中，輸入不是第一幀物體的 ground-truth，而是視頻任意一幀中物體的用戶交互信息。交互信息可以是物體 bounding box、物體區域的劃線（scribble)、外邊緣的極值點等。

基本流程如下圖所示：

阿里文娛資深演算法專家：視頻物體分割演算法的三個方向與最新應用

圖 2. 互動式視頻物體分割流程。

互動式視頻物體分割通常包括以下 5 個步驟：

用戶輸入交互信息，標記感興趣物體，例如物體的 bounding box，scribble 信息、邊緣點等;
根據用戶輸入的交互信息，利用互動式圖像物體分割演算法分割出物體在該幀圖像上的物體區域；
根據前一幀物體區域，利用半監督視頻物體分割演算法向視頻其他幀圖像逐幀傳遞，進行物體分割，得到所有幀圖像上物體區域。然後，用戶檢查分割結果，在分割較差幀上，給出新的交互信息；
演算法根據新的交互信息，修改該幀圖像上的分割結果；
重複步驟 3 和 4，直到視頻物體分割結果讓用戶滿意。

互動式視頻物體分割不是一個單一演算法，而且多種演算法有機融合的解決方案，包括互動式圖像物體分割、半監督視頻物體分割、互動式視頻物體區域傳遞演算法等。其主要評估方法為 Davis Challenge on Video Object Segmentation 中提出的 Jaccard&F-measurement@60s(簡稱 J&F@60s) 和 Area Under Curve（簡稱 AUC)。Davis 競賽提出限定 8 次用戶交互，建立準確度隨時間的變化曲線圖，曲線下方區域的面積就是 AUC，t=60s 時刻曲線插值就是 J&F@60s。下圖為一個 J&F 隨時間變化曲線圖。

阿里文娛資深演算法專家：視頻物體分割演算法的三個方向與最新應用

圖 3. 互動式分割結果 J&F 曲線示例。

從評估指標可以看出，互動式視頻物體分割強調分割演算法的時效性，不能讓用戶長時間等待。所以，在互動式視頻物體分割中一般不採用基於在線學習方法的半監督視頻物體分割演算法。目前還沒有互動式視頻物體分割的開源代碼。但是互動式視頻物體分割演算法對工業界有非常重要的意義，其原因是：

半監督視頻物體分割需要物體第一幀的 ground-truth，實用中獲取比較麻煩。而互動式視頻物體分割只需要用戶的簡單交互，非常容易達到；
互動式視頻物體分割可以通過多次交互，達到非常高的分割正確率。高精度的分割結果能夠提供更好的用戶體驗，才是用戶需要的結果。

三、無監督視頻物體分割

無監督視頻物體分割是全自動的視頻物體，除了 RGB 視頻，沒有其他任何輸入。其目的是分割出視頻中顯著性的物體區域。在上述三個方向中，無監督視頻物體分割是最新的研究方向。

Davis 和 Youtube VOS 競賽今年第一次出現無監督賽道。從演算法層面上說，無監督視頻物體分割需要增加顯著性物體檢測模塊，其他核心演算法沒有變化。

半監督和互動式視頻物體分割中，物體是事先指定的，不存在任何歧義。而在無監督視頻物體分割中，物體顯著性是主觀概念，不同人之間存在一定的歧義。因此，在 Davis VOS 中，要求參賽者總共提供 N 個物體的視頻分割結果（在 Davis Unsupervised VOS 2019 中，N=20)，與數據集 ground-truth 標記的 L 個顯著物體序列計算對應關係。對應上的物體和遺漏的物體參與計算 J&F 的均值。N 個物體中多餘的物體不做懲罰。

四、阿里文娛摩酷實驗室的研究現狀

目前很多半監督視頻物體分割演算法在學術上有很好的創新，但是實用中效果不佳。我們統計了今年 CVPR 的論文，在 Davis 2017 val 數據集上，沒有一篇正會論文 J&F>0.76。FEELVOS[5]、siamMask[7] 等演算法理論上有很好，實用中卻存在多種問題。互動式視頻物體分割更是沒有開源代碼。

所以，阿里文娛摩酷實驗室從 2019 年 3 月底開始從事半監督和互動式視頻物體分割演算法的研究。

2019 年 5 月，我們完成一版基礎的半監督視頻物體分割演算法和互動式視頻物體分割解決方案，並以此參加了 DAVIS Challenge on Video Object Segmentation 2019，在互動式視頻物體分割賽道獲得第四名。

我們提出的 VOS with robust tracking 策略 [8]，可以較大幅度的提高基礎演算法的魯棒性。在 Davis 2017 驗證集上，我們互動式視頻物體分割演算法 J&F@60s 準確率從 3 月底的 0.353 提高到 5 月初的 0.761。現在，我們的半監督視頻物體分割演算法也達到了 J&F=0.763。可以說，在這個集合上我們的結果已經接近業界一流水準。

五、阿里文娛摩酷實驗室的後續計劃

目前，我們在繼續探索複雜場景下的演算法應用，這些複雜場景包括小物體、前景背景高度相似、物體運動速度很快或表觀變化很快、物體遮擋嚴重等。後續，我們計劃在 online learning、space-time network、region proposal and verification 等策略上發力，以提高視頻物體分割演算法在複雜場景下的分割精度。

另外，圖像物體分割演算法、多目標物體跟蹤演算法也是視頻物體分割演算法的重要基礎，我們也將在這些方面持續提升精度。

Reference

[1] The 2019 DAVIS Challenge on VOS: Unsupervised Multi-Object Segmentation. S. Caelles, J. Pont-Tuset, F. Perazzi, A. Montes, K.-K. Maninis, and L. Van Gool .arXiv:1905.00737, 2019

[2] A. Khoreva, R. Benenson, E. Ilg, T. Brox, and B. Schiele. Lucid data dreaming for object tracking. In arXiv preprint arXiv: 1703.09554, 2017. 2

[3] S. Caelles, K.-K. Maninis, J. Pont-Tuset, L. Leal-Taix′e,D. Cremers, and L. Van Gool. One-shot video object segmentation. CVPR, 2017

[4] J. Luiten, P. Voigtlaender, and B. Leibe. PReMVOS: Proposal-generation, refinement and merging for video object segmentation. arXiv preprint arXiv:1807.09190, 2018.

[5] Paul Voigtlaender, Yuning Chai, Florian Schroff, Hartwig Adam, Bastian Leibe, Liang-Chieh Chen. FEELVOS: Fast End-to-End Embedding Learning for Video Object Segmentation. CVPR 2019

[6]. Seoung Wug Oh, Joon-Young Lee, Ning Xu, Seon Joo Kim.Fast User-Guided Video Object Segmentation by Interaction-and-Propagation Networks. CVPR2019

[7]. Wang, Qiang，Zhang, Li，Luca Bertinetto, Weiming Hu, Philip H.S. Torr.Fast Online Object Tracking and Segmentation: A Unifying Approach. CVPR2019

[8] H. Ren, Y. Yang, X. Liu. Robust Multiple Object Mask Propagation with Efficient Object Tracking. The 2019 DAVIS Challenge on Video Object Segmentation - CVPR Workshops, 2019

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 機器之心 的精彩文章:

※50億美元：Facebook因泄露隱私接受史上最大罰單
※3天上手，30天精通！——深度學習FPGA加速器設計

TAG:機器之心 |