快慢結合效果好：FAIR何愷明等人提出視頻識別SlowFast網路

知識 12-12

選自 arxiv

作者：Christoph Feichtenhofer、Haoqi Fan、Jitendra Malik、Kaiming He

機器之心編輯部

在本文中，FAIR何愷明等人介紹了用於視頻識別的 SlowFast 網路，提出要分開處理空間結構和時間事件。該模型在視頻動作分類及檢測方面性能強大：在沒有使用任何預訓練的情況下，在 Kinetics 數據集上實現了當前最佳水平；在 AVA 動作檢測數據集上也實現了 28.3 mAP 的當前最佳水準。

在圖像識別中對稱地處理圖像 I(x, y) 中的空間維度 x、y 是約定俗成的做法，自然圖像的統計數據證明了其合理性。自然圖像在第一次近似時具備各向同性（所有方向具有相同的可能性）和平移不變性 [38, 23]。那麼視頻信號 I(x, y, t) 呢？動作是方向的時空對應 [1]，但並非所有的時空方向都擁有相同的可能性。慢動作比快動作的可能性大（確實，我們所看到的世界在給定的時刻大多是靜止的），這已經在使用貝葉斯模型描述人類如何感知運動刺激中得到利用 [51]。例如，如果我們看到一個孤立的移動邊緣，我們認為它垂直於自身移動，儘管原則上它也可能有一個與自身相切的任意移動組件（光流中的孔徑問題）。如果前者傾向於慢動作，這種感知就是合理的。

如果並非所有的時空方向都擁有相同的可能性，那麼我們就沒有理由像基於時空卷積的視頻識別方法 [44, 3] 那樣，對稱地看待空間和時間。相反，我們需要「分解」該架構，分開處理空間結構和時間事件。將這一想法放到識別的語境中。視覺內容的類別空間語義變化通常非常緩慢。例如，揮手並不會在這個動作進行期間改變「手」的識別結果，某個人始終在「人」這一類別下，即使他/她從走路切換到跑步。因此類別語義（及其色彩、紋理和光線等）的識別可以以比較慢的速度進行刷新。另一方面，執行動作可以比其主體識別變化速度快得多，如鼓掌、揮手、搖頭、走路或跳躍。需要使用快速刷新幀（高時間解析度）來有效建模可能快速變化的運動。

基於這種直覺，本研究展示了一種用於視頻識別的雙路徑 SlowFast 模型（見圖 1）。其中一個路徑旨在捕獲圖像或幾個稀疏幀提供的語義信息，它以低幀率運行，刷新速度緩慢。而另一個路徑用於捕獲快速變化的動作，它的刷新速度快、時間解析度高。儘管如此，該路徑的體量卻非常輕，例如，只佔總計算開銷的 20% 左右。這是因為第二個路徑通道較少，處理空間信息的能力較差，但這些信息可以由第一個路徑以一種不那麼冗餘的方式來提供。根據二者不同的時間速度，研究者將其分別命名為 Slow 路徑和 Fast 路徑。二者通過側連接（lateral connection）進行融合。

這一概念為視頻模型帶來了靈活、高效的設計。由於自身較輕，Fast 路徑不需要執行任何時間池化——它能以高幀率在所有中間層運行，並保持時間保真度。同時，由於時間速率較低，Slow 路徑可以更加關注空間域和語義。通過以不同的時間速率處理原始視頻，該方法允許兩種路徑以其特有的方式對視頻建模。研究者在 Kinetics [27, 2] 和 AVA [17] 數據集上對該方法進行了全面評估。在 Kinetics 動作分類數據集上，該方法在沒有任何預訓練（如 ImageNet）的情況下達到了 79% 的準確率，大大超過了文獻中的最佳水平（超出 5.1%）。控制變數實驗證明了 SlowFast 概念帶來的改進。在 AVA 動作檢測數據集上，SlowFast 模型達到了新的當前最佳水平，即 28.3% mAP。

該方法部分受到靈長類視覺系統中視網膜神經節細胞的生物學研究啟發 [24, 34, 6, 11, 46]，儘管這種類比有些粗糙、不成熟。研究發現，在這些細胞中，~80% 是小細胞（P-cell），~15-20% 是大細胞（M-cell）。M-cell 以較高的時間頻率工作，對時間變化更加敏感，但對空間細節和顏色不敏感。P-cell 提供良好的空間細節和顏色，但時間解析度較低。SlowFast 框架與此類似：i）該模型有兩條路徑，分別以低時間解析度和高時間解析度工作；ii）Fast 路徑用來捕捉快速變化的運動，但空間細節較少，類似於 M-cell；iii）Fast 路徑很輕，類似於較小比例的 M-cell。研究者希望這些關係能夠啟發更多用於視頻識別的計算機視覺模型。

論文：SlowFast Networks for Video Recognition

論文鏈接：?https://arxiv.org/pdf/1812.03982.pdf

摘要：本文提出了用於視頻識別的 SlowFast 網路。該模型包含：1）一個以低幀率運行、用來捕捉空間語義的 Slow 路徑；2）一個以高幀率運行、以較好的時間解析度來捕捉運動的 Fast 路徑。我們可以減少 Fast 路徑的通道容量，使其變得非常輕，但依然可以學習有用的時間信息用於視頻識別。我們的模型在視頻動作分類及檢測方面性能強大，而且我們的 SlowFast 概念實現的巨大改進是對這一領域的重要貢獻。我們在沒有使用任何預訓練的情況下在 Kinetics 數據集上實現了 79.0% 的準確率，遠遠超過此類問題的之前最佳水平。在 AVA 動作檢測數據集上，我們實現了 28.3 mAP 的當前最佳水準。代碼將會公開。

SlowFast 網路

這一通用架構包含一個 Slow 路徑、一個 Fast 路徑，二者由側連接聯繫起來。詳見圖 1。

圖 1：SlowFast 網路包括低幀率、低時間解析度的 Slow 路徑和高幀率、高時間解析度（Slow 路徑時間解析度的 α 倍）的 Fast 路徑。使用通道數的一部分（β，如 β = 1/8）來輕量化 Fast 路徑。Slow 路徑和 Fast 路徑通過側連接來連接。該樣本來自 AVA 數據集 [17]（樣本標註是：hand wave）。

表 1：SlowFast 網路的實例化示例。內核的維度由表示，T 表示時間解析度、S 表示空間語義、C 表示通道數。步長由表示。此處速度比例是α = 8，通道比例是 β = 1/8。τ = 16。綠色表示 Fast 路徑較高的時間解析度，橙色表示 Fast 路徑較少的通道數。下劃線為非退化時間濾波器（non-degenerate temporal filter）。方括弧內是殘差塊。骨幹網路是 ResNet-50。

實驗：Kinetics 動作分類

表 2：在 Kinetics-400 動作分類任務上進行的控制變數實驗。上表展示了 top-1 和 top-5 分類準確率 (%)，以及空間大小為 2242 的單 clip 輸入的計算複雜度（單位為 GFLOPs）。

圖 2：Slow-only（藍色）vs. SlowFast（綠色）網路在 Kinetics 數據集上的訓練過程。上圖展示了 top-1 訓練誤差（虛線）和驗證誤差（實線）。這些曲線均為 single-crop 誤差，視頻準確率為 72.6% vs. 75.6%（見表 2c）。

表 3：SlowFast 網路與當前最優模型在 Kinetics-400 數據集上的對比結果。

表 4：SlowFast 網路與當前最優模型在 Kinetics-600 數據集上的對比結果。

實驗：AVA 動作檢測

圖 3：在 AVA 數據集上的 Per-category AP：Slow-only 基線模型 (19.0 mAP) vs. 對應的 SlowFast 網路 (24.2 mAP)。黑色加粗類別是凈增長最高的 5 個類別，橙色類別是和 Slow-only AP > 1.0 對比相對增長最高的 5 個類別。類別按照樣本數來排序。注意，該控制變數實驗中的 SlowFast 實例並非我們的性能最優模型。