國科大CVPR 2020論文：自監督學習新方法，讓數據更複雜的視頻表徵學習性能大提升

科技 07-09

新智元推薦

編輯：元子

【新智元導讀】自監督表徵學習由於無需人工標註，特徵較好的泛化性等優勢受到了越來越多的關注，並不斷有研究在圖像、語言等領域取得了較大進展。本論文則立足於數據形式更為複雜的視頻表徵學習，介紹了一種簡單且有效的自監督學習方法，並在視頻動作分類和檢索這兩個常見的目標任務中提升了性能，該論文入選了CVPR2020.

近年來，自監督表徵學習由於無需人工標註，特徵較好的泛化性等優勢受到了越來越多的關注，並不斷有研究在圖像、語言等領域取得了較大進展。本論文則立足於數據形式更為複雜的視頻表徵學習，介紹了一種簡單且有效的自監督學習方法，並在視頻動作分類和檢索這兩個常見的目標任務中提升了性能，該論文入選了CVPR2020.

論文題目為《一種基於視頻播放速率感知的自監督時空表徵學習方法》，類似圖像在空域具有多解析度特性，視頻在時域同樣具有多解析度特性，基於此，該論文通過設計一種關於速率感知的自監督任務來進行較為全面的視頻時空表徵學習。

論文地址：

https://arxiv.org/abs/2006.11476

視頻的多解析度特性

如圖1所示，人們在觀看一段運動視頻，通常會採用兩種播放方式：快進和慢放，通過快進了解運動概貌；通過慢放聚焦某個運動細節。這其實就對應視頻的多解析度特性：不同採樣間隔下的有限視頻幀在內容描述上具有時間跨度和精細程度的差異。大間隔採樣（類似快進）：時間跨度大，一般可以覆蓋較為完整的運動過程，但精細程度低（低解析度），更多反映的是整體運動的主要變化。小間隔採樣（類似慢放）：時間跨度小，一般只能局限於運動過程中的某一時段，但精細程度高（高解析度），能夠反映該時段更多的運動細節。

圖1：兩種常見的視頻播放模式：快進和慢放

因此，對於一般輸入幀數固定的·CNN視頻網路模型而言，通過視頻多分辨特性以得到更加豐富完善的特徵表達是一種非常有效的方法，目前已有一些工作進行了探索和驗證。而本論文則是把這種特性結合到自監督學習中，設計了一種新的視頻自監督任務。

PPR（Playback Rate Perception）自監督任務框架

如圖2所示，PRP首先在Dailed Sampling中使用不同的採樣間隔採樣得到不同倍率的快進視頻段作為網路輸入，之後通過基於間隔分類的判別感知和基於慢放重構的生成感知這兩種模式進行視頻的表徵學習。對於輸入的快進視頻，判別感知通過進行採樣間隔的分類促使網路注重前景運動的主要變化（低解析度特性）；生成感知通過進行一定倍率的插值重構促使網路還原更多的運動細節（高解析度特性）；最終二者通過共享網路主幹和聯合優化來達到表徵學習的協同互補。

圖2：PRP整體框架

另外在生成感知中，不同於直接使用MSE損失，PPR通過對各個像素點的loss賦予不同的權值來促進網路更注重對特定區域（前景運動區域）的重構。該權值形成的運動激活圖通過圖3所示的幾個步驟簡單得到。其中包括：幀差（提取運動信息），下採樣（抑制雜訊），激活（穩定響應值），上採樣（恢復到重構視頻大小）。

圖3：運動激活圖計算過程

實驗結果與分析

我們將PRP作為代理任務進行預訓練，保留網路主幹部分作為下游目標任務的初始化模型，通過評估在目標任務中的性能來驗證我們自監督方法的有效性。這裡選擇了action recognition和video retrieval作為目標任務，並在兩種數據集UCF101和HMDB51上分別使用三種網路主幹C3D，R3D，R(2 1)D進行驗證。通過表1和表2可以看到相比之前的視頻自監督方法，PRP在大部分測試中都取得了性能提升。

表1：action recognition在UCF101和HMDB51的性能

表2：video retrieval分別在UCF101和HMDB51上的性能

表徵可視化

為了進一步理解網路在PRP自監督任務學習到的表徵，我們對不同設置下的PPR進行預訓練，將從網路主幹部分輸出的特徵激活圖可視化，如圖4所示：

圖4：特徵激活圖可視化

DP，GP(w/o MA)，GP(w/ MA)，DG-P(w/ MA)分別表示只有判別感知，只有生成感知（無motion attention），只有生成感知（有motion attention）以及完整的PRP。可以看到判別感知可以促使網路激活運動劇烈區域，一般包含主要的運動信息；生成感知可以促使網路激活前景附近的上下文區域，可以補充更多細節；結合motion attention的生成感知對前景的運動區域的激活得到增強；而最終結合所有設置的PRP則能夠激活一個更加完整的前景運動區域。

總結

我們根據視頻的多解析度特性設計了一種關於播放速率感知的視頻自監督任務，其中通過判別感知和生成感知兩部分促進了網路對前景運動更全面的理解和對視頻表徵更完善的學習。最終我們對於不同的目標任務，在不同的數據集上使用不同的網路主幹均驗證我們方法的有效性。

作者介紹

姚遠：國科大3年級在讀博士生，主要研究方向深度特徵學習、時空特徵子監督學習。

劉暢：國科大5年級在讀博士生，主要研究方向深度特徵學習、時空特徵子監督學習。

羅德昭：國科大2年級在讀碩士生，主要研究方向深度特徵學習、時空特徵子監督學習。

周宇：中科院信工所研究員，博士生導師，主要研究方向計算機視覺、目標識別與深度特徵學習。

葉齊祥：國科大教授，博士生導師，主要研究方向視覺目標感知、弱監督視覺建模、深度特徵學習。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

請您繼續閱讀更多來自 新智元 的精彩文章:

※知乎熱議：中國重新開發MATLAB要多久？網友：至少十年
※YOLOv5來了！基於PyTorch，體積比YOLOv4小巧90％，速度卻超2倍