斯坦福&Adobe CVPR 19 Oral：全新通用深度網路架構CPNet

新聞 05-22

【新智元導讀】斯坦福大學和Adobe研究院的研究者們提出了全新的通用深度網路架構CPNet，用於學習視頻中圖片之間的長程對應關係，來解決現有方法在處理視頻長程運動中的局限性。在三大視頻分類數據集上取得了優於之前結果的性能。相關論文獲CVPR 2019 oral。

這是一款全新的通用深度網路架構。

現有的視頻深度學習架構通常依賴於三維卷積、自相關、非局部模塊等運算，這些運算難以捕捉視頻中幀間的長程運動/相關性。

近日，來自斯坦福和Adobe的研究人員，受到點雲上深度學習方法的啟發，提出了一個通用的深度網路架構CPNet，用於學習視頻中圖片之間的長程對應關係，來解決上述問題。

斯坦福&Adobe CVPR 19 Oral：全新通用深度網路架構CPNet

arXiv地址：

https://arxiv.org/abs/1905.07853

研究人員們所提出的CPNet是一個全新的通用的視頻深度學習框架。該網路通過尋找對應的表徵來學習視頻中圖片之間稀疏且不規則的對應模式，並且可以融合進現有的卷積神經網路架構中。

研究人員在三個視頻分類數據集上進行了實驗，結果表明，CPNet在性能上取得了較大的突破。

CPNet：對應提議網路

視頻是由一串圖片組成。然而，視頻並不是任意圖片隨機的堆砌，其前後幀有強烈的相關性，表現為一幀圖片中的物體通常會在其它幀中出現。

相比於單張靜態的圖片，這樣的對應關係構成了視頻中動態的部分。我們總結視頻中圖片之間的對應關係有如下三大特點：

對應位置有相似的視覺或語義特徵。這也是我們人類判定兩幀中的像素是否屬於同一物體的標準之一。
對應位置在空間維和時間維上都可以有任意長的距離。空間維上，物體可以很快從圖片的一端運動到另一端；時間維上，物體可以在視頻中存在任意長的時間。
潛在的對應位置所佔比例為少數。對於一個像素/表徵，在其它幀中通常只有極少的相似像素/表徵是可能的對應，其它明顯不相似的像素/表徵則可以忽略掉。換言之，對應關係存在不規則性和稀疏性。

那麼什麼樣的網路架構可以滿足上述特點呢？

三維卷積無法檢測相似性；自相關是局部操作，無法勝任長程對應；非局部模塊側重於注意力機制，無法適應稀疏性和不規則性，也無法學到長程運動的方向。因此我們需要全新的網路架構。

斯坦福&Adobe CVPR 19 Oral：全新通用深度網路架構CPNet

圖1

我們提出了對應提議網路CPNet（Correspondence Proposal Network），其架構能同時滿足上述三種特點。

核心思想如圖1所示：深度網路架構中，我們將視頻表徵張量視為一個點雲，在語義特徵空間中（而非一般的時空空間），對於表徵張量中的每一個表徵即「點」，我們尋找其在其它幀里最近的k個「點」，並將其視為該表徵的潛在對應。然後類似於點雲上的深度學習，對於這k對「點」中的每一對，我們使用相同且互相獨立的神經網路處理他們的特徵向量和位置，然後用最大池化操作從k個輸出中提取出最強的響應。本質上，我們的網路架構可以學到從這k對潛在對應中選擇出最有趣的信息。如此一來，最後的輸出表徵向量就包含了視頻中的動態信息。

CPNet的架構

我們將網路的核心命名為」CP模塊「，其結構如下，大致分為兩個部分。輸入和輸出都是一個THW x C的視頻表徵張量，我們將這兩者都視為一個THW個點的帶C維特徵向量的點雲。

第一個部分為語義特徵空間k最近鄰演算法，如圖2所示。我們先求出所有表徵對之間的負L2語義距離得到THW x THW形狀的矩陣；然後將對角線上的T個HW x HW子矩陣的元素置為負無窮，這樣位於同一幀的表徵就可以排除在潛在對應表徵之外了。之後對每一行進行arg top k操作就可以得到潛在對應表徵的下標。

斯坦福&Adobe CVPR 19 Oral：全新通用深度網路架構CPNet

圖2

第二個部分為對應關係的學習。我們用上一步得到的下標從輸入視頻表徵張量中提取出表徵。對於每一個輸入表徵和其k個最近鄰表徵組成的k對錶征對中的一對，我們將這一對錶征的語義特徵向量以及其之間的時空相對位置連在一起，得到k個長向量。然後我們將這k個長向量送入相同且互相獨立的多層感知器（MLP），然後再用元素級的最大池化操作（element-wise max-pooling）得到輸出向量，也就是輸出視頻表徵張量該表徵位置的語義特徵向量。

斯坦福&Adobe CVPR 19 Oral：全新通用深度網路架構CPNet

圖3

為了防止訓練時梯度爆炸或消失，類似於ResNet中的跳躍連接，我們將上一步的輸出表徵張量加回到了輸入表徵張量中。可以看到，該模塊可以無縫銜接進現有的卷積神經網路架構如ResNet中。在實驗中，所有CP模塊一開始初始化為全等操作，這樣我們就可以使用ImageNet預訓練模型來初始化網路其它部分的參數。

實驗結果

我們在大規模視頻分類數據集上進行了實驗。首先，我們在Kinetics數據集上進行了小規模模型的實驗來研究CP模塊的數量、位置以及k值的大小對視頻分類結果的影響。由結果可知，模型的性能隨CP模塊數量增多而提高並趨於飽和；CP模塊放置的位置對性能有影響；k值在訓練時和推理時保持一致且合適的值可以得到最佳性能。

斯坦福&Adobe CVPR 19 Oral：全新通用深度網路架構CPNet