亮風台推出全球最大單目標跟蹤數據集 LaSOT | CVPR 2019

新聞 06-27

雷鋒網 AI 科技評論消息，計算機視覺和模式識別領域頂級會議 CVPR 2019 於上周在美國落下帷幕，各大企業和科研機構紛紛發布自家最新成果，其中，不乏諸多來自中國的研究成果。接下來，雷鋒網 AI 科技評論將為大家介紹亮風台在 CVPR 2019 上展示的大規模單目標跟蹤高質量數據集 LaSOT，這一數據集包含超過 352 萬幀手工標註的圖片和 1400 個視頻，這也是目前為止最大的擁有密集標註的單目標跟蹤數據集。以下為亮風台所提供的詳細解讀：

論文《LaSOT: A High-quality Benchmark for Large-scale Single Object Tracking》詳細闡述了 LaSOT 數據集的構造原理和評估方法，由亮風台、華南理工大學、美圖-亮風台聯合實驗室等單位共同完成，收錄於 CVPR 2019。

LaSOT 貢獻

視覺跟蹤是計算機視覺中最重要的問題之一，其應用領域包括視頻監控、機器人技術、人機交互等。隨著跟蹤領域的巨大進步，人們提出了許多演算法。在這一過程中，跟蹤基準對客觀評估起到了至關重要的作用。LaSOT 的推出，也是希望為行業提供一個大規模的、專門的、高質量的基準，用於深度跟蹤訓練和跟蹤演算法的真實評估。

亮風台推出全球最大單目標跟蹤數據集 LaSOT | CVPR 2019

圖 1：常用跟蹤數據集統計示意圖。包括 OTB-2013、OTB-2015、TC-128、NUS-PRO、UAV123、UAV20L、VOT-2014、VOT-2017 和 LaSOT。圓直徑與數據集的總幀數數成比例。所提出的 LaSOT 比所有其他基準都要大，並且專註於長期跟蹤。

觀察和比較不同的跟蹤演算法發現，其進一步發展和評估受到現有評測集的限制，存在的問題主要包括：

1. 規模小。現有數據集很少有超過 400 個序列，由於缺乏大規模的跟蹤數據集，很難使用跟蹤特定視頻訓練深度跟蹤器。

2. 短時跟蹤。理想的跟蹤器能夠在相對較長的時間內定位目標，目標可能消失並重新進入視圖。然而，大多數現有的基準都集中在短期跟蹤上，其中平均序列長度小於 600 幀（即 20 秒左右），而且目標幾乎總是出現在視頻幀中。

3. 類別偏見。一個穩健的跟蹤系統應該表現出對目標所屬類別的不敏感性，這意味著在訓練和評估跟蹤演算法時都應該抑制類別偏差（或類別不平衡）。然而，現有的基準通常只包含幾個類別，視頻數量不平衡。

許多數據集被提議處理上述問題，然而，並沒有解決所有的問題。

亮風台推出全球最大單目標跟蹤數據集 LaSOT | CVPR 2019

基於上述動機，亮風台為社區提供了一個新的大型單目標跟蹤（LaSOT）基準，並提供了多方面的貢獻：

1. LaSOT 包含 1400 個視頻，每個序列平均 2512 幀。每一幀都經過仔細檢查和手動標記，並在需要時對結果進行目視檢查和糾正。這樣，可以生成大約 352 萬個高質量的邊界框標註。

此外，LaSOT 包含 70 個類別，每個類別包含 20 個序列。據了解，LaSOT 是迄今為止最大的具有高質量手動密集注釋的對象跟蹤數據集。

2. 與之前的數據集不同，LaSOT 提供了可視化邊界框注釋和豐富的自然語言規範，這些規範最近被證明對各種視覺任務都是有益的，包括視覺跟蹤。這樣做的目標是鼓勵和促進探索集成視覺和語言功能，以實現強大的跟蹤性能。

3. 為了評估現有的跟蹤器，並為將來在 LaSOT 上的比較提供廣泛的基準，團隊在不同的協議下評估了 35 個具有代表性的跟蹤器，並使用不同的指標分析其性能。

LaSOT 大規模多樣化的數據採集

LaSOT 數據集的構建遵循大規模、高質量的密集注釋、長期跟蹤、類別平衡和綜合標記五個原則。

LaSOT 基準數據採集涵蓋了各種不同背景下的各種對象類別，包含 70 個對象類別。大多數類別是從 ImageNet 的 1000 個類別中選擇的，但少數例外（如無人機）是為流行的跟蹤應用程序精心選擇的。以往的數據集通常含有的類別少於 30 個，並且一般分布不均勻。相比之下，LaSOT 為每個類別提供相同數量的序列，以減輕潛在的類別偏差。

在確定了 LaSOT 中的 70 個對象類別之後，研究人員從 YouTube 中搜索了每個類的視頻。最初，收集了 5000 多個視頻。考慮到追蹤視頻的質量和 LaSOT 的設計原則，挑選了 1400 個視頻。但是，由於大量無關內容，這 1400 個序列不能立即用於跟蹤任務。例如，對於個人類別的視頻（例如，運動員），它通常在開始時包含每個運動員的一些介紹內容，這不適合跟蹤。因此，研究人員仔細過濾掉每個視頻中不相關的內容，並保留一個可用於跟蹤的剪輯。此外，LaSOT 的每一個分類都包含 20 個目標，反映了自然場景中的分類平衡和多樣性。

最終，研究人員通過收集 1400 個序列和 352 萬幀的 YouTube 視頻，在 Creative Commons 許可下，編譯了一個大規模的數據集。LaSOT 的平均視頻長度為 2512 幀（即 30 幀每秒 84 秒）。最短的視頻包含 1000 幀（即 33 秒），最長的視頻包含 11397 幀（即 378 秒）。

LaSOT 提供可視化邊界框標註

為了提供一致的邊界框標註，團隊還定義了一個確定性標註策略。對於具有特定跟蹤目標的視頻，對於每個幀，如果目標對象出現在幀中，則標註者會手動繪製/編輯其邊界框，使其成為最緊的右邊界框，以適合目標的任何可見部分；否則，標註者會向幀提供一個「目標不存在」的標籤，無論是不可見還是完全遮擋。請注意，如任何其他數據集中所觀察到的那樣，這種策略不能保證最小化框中的背景區域。然而，該策略確實提供了一個一致的標註，這對於學習物體的運動是相對穩定的。

雖然上述策略在大多數情況下都很有效，但也存在例外情況。有些物體，例如老鼠，可能有細長和高度變形的部分，例如尾巴，這不僅會在物體的外觀和形狀上產生嚴重的雜訊，而且對目標物體的定位提供很少的信息。在 LaSOT 中仔細識別這些對象和相關的視頻，並為它們的注釋設計特定的規則（例如，在繪製它們時不包括老鼠的尾部）。

亮風台推出全球最大單目標跟蹤數據集 LaSOT | CVPR 2019

圖 2：LaSOT 示例序列和標註

序列的自然語言規範由描述目標的顏色、行為和環境的句子表示。對於 LaSOT，為所有視頻提供 1400 個描述語句。請注意，語言描述旨在為跟蹤提供輔助幫助。例如，如果追蹤器生成進一步處理的建議，那麼語言規範可以作為全局語義指導，幫助減少它們之間的模糊性。

亮風台推出全球最大單目標跟蹤數據集 LaSOT | CVPR 2019

構建高質量密集跟蹤數據集的最大努力顯然是手動標記、雙重檢查和糾錯。為了完成這項任務，亮風台組建了一個注釋小組，包括幾個在相關領域工作的博士生和大約 10 名志願者。

35 個代表性跟蹤器的評估

沒有對如何使用 LaSOT 進行限制，提出了兩種協議來評估跟蹤演算法，並進行相應的評估。

方案一：使用 1400 個序列來評估跟蹤性能。研究人員可以使用除了 LaSOT 中的序列以外的任何序列來開發跟蹤演算法。方案一旨在對跟蹤器進行大規模評估。

方案二：將 LaSOT 劃分為訓練和測試子集。根據 80/20 原則（即帕累托原則），從每類 20 個視頻中選出 16 個進行培訓，其餘的進行測試。具體來說，訓練子集包含 1120 個視頻，2.83m 幀，測試子集包含 280 個序列，690k 幀。跟蹤程序的評估在測試子集上執行。方案二的目標是同時提供一大套視頻用於訓練和評估跟蹤器。

根據流行的協議（如 OTB-2015[53]），使用 OPE 作為量化評估標準，並測量兩個協議下不同跟蹤演算法的精度、標準化精度和成功率。評估了 LaSOT 上的 35 種演算法，以提供廣泛客觀的基準，Tab. 3 按時間順序總結這些跟蹤器及其表示方案和搜索策略。

亮風台推出全球最大單目標跟蹤數據集 LaSOT | CVPR 2019

表 3：已評估跟蹤程序的摘要

方案一評估結果

方案一旨在對 LaSot 的 1400 個視頻進行大規模評估。每個跟蹤器都按原樣用於評估，沒有任何修改。使用精度、標準化精度和成功率在 OPE 中報告評估結果。

亮風台推出全球最大單目標跟蹤數據集 LaSOT | CVPR 2019

圖 3：利用精度、歸一化精度和成功率對一號方案下的演算法量化評估。

亮風台推出全球最大單目標跟蹤數據集 LaSOT | CVPR 2019

圖 4：在協議 I 下，追蹤器在三個最具挑戰性的屬性上的代表性結果。

亮風台推出全球最大單目標跟蹤數據集 LaSOT | CVPR 2019

圖 5：六大典型挑戰序列上的的定性評價結果。

方案二評估結果

亮風台推出全球最大單目標跟蹤數據集 LaSOT | CVPR 2019

圖 6：使用精度、標準化精度和成功率對方案 II 下的跟蹤演算法評估。

根據方案二，將 LaSOT 分為訓練集和測試集。研究人員可以利用訓練集中的序列來開發他們的跟蹤器，並評估他們在測試集中的表現。為了提供測試集的基線和比較，評估了 35 種跟蹤演算法。每個跟蹤器都被用於評估，沒有任何修改或再培訓。使用精度、歸一化精度和成功率的評價結果如圖 6 所示。

除了對每一種跟蹤演算法進行評估外，還對兩種具有代表性的深跟蹤演算法 MDNET[42] 和 SIAMFC 進行了重新培訓，並對其進行了評估。評估結果表明，這些跟蹤器在沒有重訓練的情況下具有相似的性能。一個潛在的原因是重新培訓可能和原作者使用配置不同。

文中又對 SiamFC 的 LaSOT 訓練集進行了再培訓，以證明使用更多的數據如何改進基於深度學習的跟蹤器。Tab. 4 報告了 OTB-2013 和 OTB-2015 的結果，並與在 ImageNet 視頻上培訓的原始 SIAMFC 的性能進行了比較。請注意，論文中使用彩色圖像進行訓練，並應用 3 個比例的金字塔進行跟蹤，即 SIAMFC-3S（彩色）。所有訓練參數和跟蹤在這兩個實驗中保持不變。最後在兩個評測集上觀察到了一致的性能提升，顯示了針對深度追蹤器的特定大規模訓練集的重要性。

亮風台推出全球最大單目標跟蹤數據集 LaSOT | CVPR 2019

表 4：在 LaSOT 上對 SiamFC 進行再訓練

LaSOT 主頁：https://cis.temple.edu/lasot/

數據集下載：https://cis.temple.edu/lasot/download.html

演算法測評和工具包：https://cis.temple.edu/lasot/results.html

論文：https://arxiv.org/abs/1809.07845

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 雷鋒網 的精彩文章:

※強網杯：周鴻禕表示網路戰時代要提升網路安全軟實力
※關於360的 ISC 2019，有這麼一些爆料

TAG:雷鋒網 |