「視頻行為理解新邊界」上交團隊ActivityNet競賽兩項冠軍，技術分享

新聞 08-25

1新智元專欄

「視頻行為理解新邊界」上交團隊ActivityNet競賽兩項冠軍，技術分享

理解視頻中人的動作和行為，是計算機視覺領域的挑戰性問題，也是視頻內容理解的關鍵，極具應用前景。ActivityNet挑戰賽旨在催生視頻行為理解的新演算法和新技術，是目前視頻行為理解領域數據規模最大、最具影響力的技術競賽，已成功舉辦三屆，吸引了全球計算機視覺領域諸多強隊積極參賽。

近日，ActivityNet Challenge主辦方在競賽官網上正式公布了ActivityNet Challenge 2017的成績。來自上海交通大學計算機視覺實驗室的團隊（自動化系研究生林天威，導師趙旭副教授；合作者：哥倫比亞大學壽政博士），獲得了未修剪視頻序列時序動作提名和時序動作定位兩項任務的冠軍。

在時序動作提名任務上，微軟亞洲研究院團隊獲得第二名，馬里蘭大學團隊獲得第三名；在時序動作定位任務上，來自香港中文大學、蘇黎世聯邦理工學院等學校的聯合團隊獲得第二名，倫敦帝國理工學院團隊獲第三名。本文將分享冠軍團隊在兩項競賽任務中的演算法思路和方案。

ActivityNet挑戰賽

ActivityNet名字與ImageNet相似，不同的是ImageNet是最大的圖像識別資料庫，而ActivityNet是目前視頻動作分析方向最大的數據集。目前ActivityNet數據集的版本為1.3，包括20000個Youtube 視頻（訓練集包含約10000個視頻，驗證集和測試集各包含約5000個視頻），共計約700小時的視頻，平均每個視頻上有1.5個動作案例，涵蓋了共200個動作類別。今年的比賽數據在規模、多樣性和自然度（用戶生成的視頻）上較往年均有顯著提升，比賽任務也由去年的兩項增加到了五項，包括：

任務1: 未修剪視頻動作分類；
任務2: 修剪視頻動作識別（Kinetics數據）；
任務3: 時序動作片段候選提名；
任務4: 時序動作定位；
任務5: 視頻事件檢測和描述。

圍繞上述5項競賽任務，今年的挑戰賽吸引了來自全球四大洲14個國家、42個團隊參賽，比賽由阿卜杜拉國王科技大學視覺計算中心在CVPR 2017會議上舉辦，得到谷歌、英偉達、松下、高通等公司的贊助。

任務及方案

本次競賽中，上交團隊參加了任務3：時序動作片段候選提名，以及任務4：時序動作定位的比賽。其中，任務4要求在視頻序列中確定動作發生的時間區間（包括開始時間與結束時間）以及動作的類別。這個問題與二維圖像中的目標檢測問題有很多相似之處。相關演算法的演算法內容一般可以分為兩個部分：(1) 時序動作提名，產生候選視頻時序片段，類似於Faster-RCNN中的RPN網路的作用；(2) 動作分類: 即判斷候選視頻時序片段的動作類別。兩個部分結合在一起，即實現了視頻中的時序動作檢測。在今年的競賽中，時序動作提名作為單項競賽任務被單獨列出（任務3）。

1. 任務測評方式

在時序動作定位問題中，mean Average Precision (mAP) 是最常用的評估指標。此次競賽計算0.5到0.95, 以0.05為步長的多個IoU閾值下的mAP，稱為 Average mAP，作為最終的測評以及排名指標。相較於使用mAP@0.5 作為測評指標，Average mAP 更看重在較嚴格IoU閾值下的檢測精度。時序動作提名任務由於無需對時序片段進行分類，所以通常使用average recall (AR) 來進行評估。在此次競賽中，Average Recall vs. Average Number of Proposals per Video (AR-AN) 曲線下的面積被作為最終的評測指標。舉個例子，AN=50 時的AR分數可以理解為對於每個視頻，使用proposal set中分數最高的前50個proposal時，所能達到的召回率。

2.任務分析

如上所述，時序動作定位任務主要可以分解為時序動作提名和動作分類兩個部分。後者，也就是動作識別方向，在最近一兩年時間，準確率已經較高。在ActivityNet 的未修剪視頻動作分類任務中，去年最高的Top-1 精度大概在88%，今年的第一名則提高到了92%左右。然而，時序動作定位方向的性能指標依舊很低，各個數據集中，0.5 IoU閾值下的mAP都還沒有超過 50%。基於上述情況，我們認為問題的關鍵在於提高時序動作提名環節的效果，因此，此次競賽我們主要專註於時序動作提名任務。

3.方案介紹

此次競賽我們主要對我們此前投稿在ACM Multimedia 2017的 SSAD模型（Single shot temporal action detection）[1] 進行了改進。具體的方法介紹可以見競賽演算法報告(http://activity-net.org/challenges/2017/program.html)。演算法的整體框架如下圖1所示。下面分別對各個部分進行簡要介紹。

「視頻行為理解新邊界」上交團隊ActivityNet競賽兩項冠軍，技術分享

圖 1 ：整體方法框架。（a）特徵提取；（b）動作片段提名生成；（c）提名修正與動作定位。

特徵提取。在特徵提取階段，我們主要將視頻切分成16幀不重疊的單元，然後採用 two-stream network 提取特徵。對於spatial network, 我們使用每個單元的中心幀提取特徵；對於temporal network，我們則使用每個單元的中心6幀圖像計算得到的光流圖像提取特徵。之後將兩部分特徵拼合即得到了最終的特徵。

提名生成與修正。在該階段，我們對SSAD模型進行了改進，改進後的模型稱為Prop-SSAD。使用Prop-SSAD模型，對每個視頻我們可以生成一個提名視頻片段集合, 該方法得到的集合在高IoU閾值下的AR較低，即邊界不夠準確。因此，我們還實現了CUHK 今年在[2]中提出的 TAG (Temporal Action Grouping) 方法來生成另外一組proposal 集合, 該方法得到的proposal的邊界相對準確，但由於TAG方法缺乏對於每個proposal的評價，因此該方法在AN 較小時的AR比較差，導致最終的AR-AN 面積指標不高。因此，我們以SSAD為主體，使用TAG來進行邊界的修正。經過候選提名的生成和邊界修正兩個步驟，我們就可以獲得一個未修剪視頻上的時序動作提名集合。該結果即為此次競賽時序動作提名任務的提交結果。

時序動作定位。在獲得了動作提名後，我們還需要對其進行分類從而得到最終的時序定位結果。由於ActivityNet上大部分視頻中只有一類動作，因此我們直接使用了視頻級別的分類結果作為對應視頻所有提名片段的類別。

結果

對於時序動作提名任務，由於在測試集上只能看到最終的AR-AN面積指標，所以實驗部分我們給出的是驗證集上的結果。下表中是提名任務的基準方法、Prop-SSAD方法和修正的Prop-SSAD方法的性能，可以看出邊界的修正對於提名的召回率有進一步的提高效果。

「視頻行為理解新邊界」上交團隊ActivityNet競賽兩項冠軍，技術分享

表格 1：驗證集上時序動作提名的結果比較

對於修正的Prop-SSAD方法，使用官方提供的測試代碼，我們還可以得到AR-AN曲線，如下圖所示。

「視頻行為理解新邊界」上交團隊ActivityNet競賽兩項冠軍，技術分享

圖 2： AR-AN曲線

對於時序動作定位任務，我們的方法在驗證集上的效果如下表所示。其中Ours@n 代表每個視頻使用提名集合中的前n個提名。從表中可以看出，提名集合中分數最靠前的一小部分提名貢獻了大部分的時序定位mAP。

「視頻行為理解新邊界」上交團隊ActivityNet競賽兩項冠軍，技術分享

表格 2：驗證集上的時序動作定位結果比較

下表所示是我們的方法在測試集上的效果，對照方法為此前該數據集上相關論文的效果，不包括此次競賽的方法。可以看出，我們的方法比起此前的方法提高了大約5%的mAP。

「視頻行為理解新邊界」上交團隊ActivityNet競賽兩項冠軍，技術分享

表格 3：測試集上的動作定位結果比較

總結

通過參加此次ActivityNet挑戰賽，我們主要有以下幾點收穫：

（1）動作提名的質量對後續動作定位的效果有很大的影響, 目前改進動作定位的重點在於提高提名集的質量；

（2）提名集中最靠前的一小部分提名片段貢獻大部分的定位mAP；

（3）時序卷積以及錨點機制在時序動作提名與檢測任務中能起到很好的效果。

在後續的工作中我們會對此次競賽的方案進行進一步的改進與優化，希望大家關注我們的工作。

參考文獻

[1] T. Lin, X. Zhao, and Z. Shou. Single shot temporal action detection. 25nd ACM international conference on Multimedia, 2017.

[2] Y. Xiong, Y. Zhao, L. Wang, D. Lin, and X. Tang. A pursuit of temporal accuracy in general activity detection. arXiv preprint arXiv:1703.02716, 2017.

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 新智元 的精彩文章:

※「MIT研究」AI自動生成維基百科，智能組合互聯網信息
※IJCAI趨勢：周志華當選首位華人程序主席，LAMDA俞揚專訪
※解決3D重建難題，伯克利大學根據單張平面彩圖重建高精度3D結構
※AI編曲震撼人心，RNN生成流行音樂
※「深度學習預測極端天氣」更好捕捉颱風「天鴿」軌跡

TAG:新智元 |

您可能感興趣

※微軟The Initiative工作室公布宣傳短片志在拓展行業邊界
※谷歌大腦科學家Hugo LaRochelle：不要為AI劃定邊界
※Oculus Quest設置指南視頻曝光，展示邊界防護系統
※智美無邊界 ColorOS 6助力OPPO Reno重磅來襲
※Matebook X Pro輕體驗：突破筆記本邊界的全面屏設計
※聯想Mirage AR Play：讓虛擬與現實再無邊界
※突破遊戲邊界英偉達SHIELD全遊戲掌控力耀眼ChinaJoy
※突破設計和性能的邊界，阿斯頓·馬丁 DBS Superleggera 實拍
※AI智能服務無邊界美學，Reno確認搭載ColorOS 6
※Greater Dog | 無邊界的探討
※「無邊界」ColorOS 6加持 OPPO Reno新機不僅有配置強悍
※走近攝影師/世俗與修行的邊界之人：攝影師Antevasin
※無邊界-從7-Eleven的發展理解新零售
※紐約最高院設禁令「邊界」，Tether除正常業務外不得給Bitfinex貸款
※瑞士藝術家 Not Vital 設計『巴丹教堂』，挑戰藝術與建築邊界
※Flying Solo春夏系列（二）觸摸與突破邊界柔和色調裁質感十足
※北大、清華、微軟聯合提出RepPoints，比邊界框更好用的目標檢測方法
※OPPO正式公布ColorOS 6：無邊界設計
※智美無邊界，ColorOS 6正式發布，Reno將首發
※OPPO ColorOS 6發布：無邊界流暢