當前位置:
首頁 > 最新 > RASNet視頻目標跟蹤論文筆記

RASNet視頻目標跟蹤論文筆記

1. 論文信息

論文題目:Learning Attentions: Residual Attentional Siamese Network for High Performance Online Visual Tracking

論文出處:CVPR 2018

論文作者:Qiang Wang等人

在線閱讀:http://openaccess.thecvf.com/content_cvpr_2018/papers/Wang_Learning_Attentions_Residual_CVPR_2018_paper.pdf

2. 概述

論文基於Siamese network網路結構,加入了注意力機制(包括Residual Attention、General Attention和通道注意力),這項注意力機製作為一個layer嵌入到Siamese network網路中,緩解了深度網路訓練中的過擬合問題,還提升了網路的判別能力和適應性。

3. 研究思路(重要)

3.1 相關濾波跟蹤

相關濾波跟蹤的目標函數(嶺回歸):

(1)

求解,得:

(2)

由於矩陣求逆過程很慢,因此可以將其轉換到非線性空間,用對偶形式求解,得:

(3)

有關相關濾波具體思想介紹,可以參考目標跟蹤經典論文High-Speed Tracking with Kernelized Correlation Filters(KCF),此處不再贅述。

從上述求解公式可以看出,傳統相關濾波演算法在建模過程中並沒有考慮到目標物體圖像特徵的學習(主流相關濾波方法基本採用了HOG特徵、CN特徵,或者預訓練好的CNN特徵,嚴格來說,對於跟蹤演算法本身而言,沒有特徵學習的過程),而僅僅考慮了判別器的在線學習。

小結。傳統相關濾波方法的特點:隔斷了特徵表示與判別學習。

3.2 Siamese network跟蹤方法

Siamese網路tracking方法的總體結構圖如下所示:

圖中的z表示模板圖像,可以認為是跟蹤器中存儲的目標樣本,x表示搜索圖像,相當於目標及周圍一定範圍內的區域圖像,用於搜索、確定目標的位置。

Siamese network基本公式建模:

(4)

從上述公式(4)可以看出,與相關濾波方法不同,Siamese網路需要在函數φ(?)中同時進行特徵學習和判別學習,其判別結果體現在f(z,x),另一方面,結合示意圖可和公式以看出,Siamese網路的訓練,只利用了單一樣本z。

小結。傳統Siamese網路跟蹤方法的特點:

同時進行特徵學習和判別學習

訓練樣本比較少,容易形成過擬合

3.3 CFNet跟蹤演算法

為了解決傳統Siamese網路的少樣本容易形成過擬合問題,CFNet在Siamese網路中引入循環矩陣(虛擬的多樣本),並且藉助循環矩陣的優勢提升計算性能。但是和標準相關濾波方法類似,CFNet中也不可避免地帶來了邊界效應(boundary effect)。

小結。CFNet跟蹤方法的特點:

結合Siamese網路和相關濾波方法

具有邊界效應,一定程度上限制了演算法性能

3.4 本文提出的方法(RASNet)

為了更好地解決過擬合問題,本文基於Siamese網路,將特徵學習與判別學習分離。如何分離?通過多種注意力機制的cross correlation來進行分離。

4. RASNet目標跟蹤方法

4.1 RASNet總體結構

從上圖可以看出,本文基於Siamese網路進行改進,且本文最重要的創新點對應於圖中的三個部分:① Residual Attention;② General Attention;③ Channel Attention,各個部分的作用如下所示:

Residual Attention:表示目標物體的全局信息(疊加、綜合多幀視頻畫面中的目標信息)

General Attention:表示目標的「空間信息」,可以理解為傳統相關濾波中的期望的高斯響應map

Channel Attention:表示特徵通道信息,可以理解為對不同通道的特徵進行加權處理

4.2 Residual Attention

論文用p~表示Residual Attention,它是一個二維的map,本質上是某種置信圖,用於估計目標的共同(全局)特徵。

論文原文:The intuition behind this idea is that any one estimation might not capture both the common characteristics and distinctions of targets in different videos while a superposition of estimations might. The residual attention encodes the global information of the target and has low computation complexity. (from Section 3.3)

個人對Residual Attention作用的理解:由於物體形狀可能不是特別規範,難以簡單粗暴地用一個矩形框來進行描述,因此在進行圖像採樣時,很容易就將背景圖像也一併包含進來了,這樣就對跟蹤器的訓練產生困擾,這些邊邊角角的圖像成分究竟是不是物體?然而我們能夠想到一種規律或者稱為一種假設:物體在持續運動過程中,其自身特徵成分應該是穩定的(色彩啊紋理啊什麼的),背景部分很可能千變萬化,如果我們能夠想到將這種共同的部分提取出來,那麼演算法也就能夠大體得到物體的形狀輪廓了。如下圖所示:

論文的解決思路是利用Residual Attention,將眾多幀中採樣圖像的共同部分提取出來,形成較為穩定的形狀輪廓,這部分也是本文最大的亮點。聯想到之前的CSR-DCF演算法,本文在這方面期望達到的目的與之類似,但個人感覺本文的思路更進了一步,CSR-DCF通過顏色成分來確定物體的形狀輪廓,在處理顏色不太單一的目標時可能會出現不理想(這只是本人初步理解,具體還需要進行真實測試才能完全下結論),本文通過多幀畫面中的共同成分來進行輪廓分析,理論上更優越一些。

值得注意的是,論文在計算Residual Attention時,用到了沙漏網路(Hourglass Networks),這種網路最明顯的特點是:先對圖像進行下採樣,再對圖像進行上採樣,因此呈沙漏形。關於這種網路結構,可以參考論文Stacked hourglass networks for human pose estimation(Newell, A., Yang, K., & Deng, J. (2016, October). Stacked hourglass networks for human pose estimation. InEuropean Conference on Computer Vision(pp. 483-499). Springer, Cham.) 在線閱讀:https://arxiv.org/pdf/1603.06937.pdf

4.3 General Attention

論文用ρˉ表示,該變數也是一個二維矩陣,表示空間區域中的某種置信分布,其物理意義與相關濾波中基於高斯分布的期望輸出比較類似,兩者的區別在於:傳統相關濾波中的期望輸出通常為固定數值的二維矩陣,而本文的general attention是通過學習得到的。

4.4 Dual Attention = Residual Attention + General Attention

這個沒什麼好說的,dual attention ρ就是將上述residual attention和general attention進行疊加:

(5)

兩種Attention進行疊加的示意圖下所示:

Dual Attention的實際效果如下圖所示:

在上圖中,圖(a)描述General Attention的學習狀況,可以發現,迭代次數達到50次後,效果可以達到最好。

4.5 Channel Attention

一般情況下,經過卷積神經網路提取的特徵通常都包含很多channel,其中每一層channel都代表了某種特定的模式,在不同的場景下,不同的channel可能具有相異的顯著性(重要性),因此可以通過引入注意力機制對各個channel進行選擇(這部分思想的出發點與CSR-DCF比較接近)。該部分的示意圖如下所示:

這裡,論文用i表示channel層號,第i層的特徵輸出為

(6)

4.6 融合

論文將上述三種Attention融合的思路示意圖:

該融合思路,可以認為:首先將Residual Attention和General Attention進行「疊加」,得到Dual Attention,然後將Dual Attention與Channel Attention進行加權相乘。以下是論文的公式:

(7)

其中,ρ表示Dual Attention,β表示Channel Attention,z表示模板圖像,x表示搜索圖像。

在論文中,這樣的融合思想就是Weighted Cross Correlation,其中weighted就體現在論文創新的Attention機制。

回顧本博客中的公式(4)——SiamFC跟蹤演算法的基本建模:

(4)

通過比較可以發現,論文所做的工作主要是:基於SiamFC,在模板圖像中增加了注意力機制處理,以解決邊界效應,實現更加魯棒的目標跟蹤方法。

4.7 網路結構

首先回顧SiamFC網路的loss function,下面是一個樣本對的損失函數:

(8)

這種方式可能存在過擬合的問題,如下圖所示:

從圖中可以看出,論文選擇了8幀畫面,對於SiamFC演算法而言,一個training pair可能隨機地包含了兩幀畫面,比如,#1和#4就有可能被選擇為一組training pair,然而#4是目標處於完全遮擋下的狀態,用這種方式來訓練會導致過擬合,降低跟蹤器的性能。

基於SiamFC跟蹤演算法的上述不足,論文採用了一種類似加權的思路進行改進,以下是論文中所有樣本對的loss function:

(9)

其中

(10)

表示時間上的有效性權重,其基本思想是:兩幀之間隔得越遠,權重就越低。如此,就可以很大程度上避免SiamFC演算法存在的上述訓練過擬合問題。

5. 演算法效果

論文在OTB-2013數據集上的success score為0.672,在OTB-2015數據集上的success score為0.642。整體上與CREST演算法接近,超過了SINT/SRDCF/SiamFC/CFNet/CSR-DCF等演算法

論文演算法的跟蹤速度為83fps,稍高於SiamFC演算法的75fps,遠高於CSR-DCF的24fps

6. 總結

論文在Siasmes Network基礎上,通過引入了三種注意力機制(Residual Attention、General Attention和Channel Attention),進一步描述了目標物體的外觀輪廓,優先選擇了更加強有力的特徵通道,並對它們進行加權融合,作為一個layer嵌入到Siamese Network中進行end-to-end訓練,最終取得了良好的效果。


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 全球大搜羅 的精彩文章:

我們的波音797,大家的波音797
我們被「挖礦劫持」了嗎?

TAG:全球大搜羅 |