無人機為基礎的對象檢測和跟蹤

最新 05-29

隨著人工智慧的快速發展，對高效的要求越來越高，有效的智能視覺系統正在提出。為了解決更高的計算機視覺中的任務，如對象識別，行為分析和運動分析，在過去的幾十年研究人員已經開發了許多基礎檢測器和跟蹤演算法。為了公平地評估這些演算法，計算機視覺團體開發了大量包括檢測數據集和追蹤數據集。這些數據集的共同缺點是視頻是由固定的或移動的車載攝像頭拍攝的，這在監視場景中的視角上受到限制。

來自全球無人機行業的無限飛行器（UAV）已經應用於安全監控，搜索和救援以及運動分析等領域。與傳統監控攝像機不同，具有移動攝像機的無人機具有天生的幾個優點，例如易於部署，移動性高，視野範圍大，尺寸統一。因此它為現有的檢測和跟蹤技術帶來了新的挑戰：（1）高密度，由於無人機攝像機可以在比廣角攝像機更寬的視角捕捉視頻，從而導致大量的物體數量；（2）小物件，由於無人機視野高度高，物體通常很小或很小，導致難以檢測和跟蹤它們；（3）相機運動，由於高速運動，對象移動速度非常快，或者劇烈旋轉無人機或相機旋轉的無人機；（4）實時問題，該演算法應考慮實時問題並在實際應用中保持嵌入式無人機平台的可比準確性。

為了研究這些問題，收集了有限的無人機數據集，如Campus和CARPK。但是，他們只關注特定的任務，例如視覺跟蹤或在受限場景（例如校園或停車場）中進行檢測。社區需要在無限制的場景中提供更全面的無人機基準，以進一步加強相關任務的研究。為此，Du等人【1】針對3個重要的基本任務構建了大規模具有挑戰性的無人機檢測和跟蹤（UAVDT）基準（即，來自10小時原始視頻的大約80,000個代表性幀），即對象檢測（DET），單個對象跟蹤（SOT）和多目標跟蹤（MOT）。他們的數據集由UAVs1在各種複雜場景中捕獲。由於目前大多數數據集都集中在行人身上，作為補充，他們基準中感興趣的對象是車輛。而且，這些幀用邊界框和一些有用的屬性（例如車輛類別和遮擋）手動注釋。這些幀如下圖1所示：

圖1：UAVDT基準中帶注釋幀的示例。三行分別表示DET，MOT和SOT任務。無人機的拍攝條件顯示在右下角。粉紅色區域在數據集中被忽略。不同的邊界框顏色表示不同類別的車輛。

這樣，（1）他們收集完整注釋的數據集，用於在無人機監視中應用的3個基本任務。（2）他們對每個任務的各種屬性最新演算法提供了廣泛的評估。

根據不同的無人機拍攝條件，他們首先定義MOT任務的3個屬性：天氣條件、飛行高度、拍攝角度。為了徹底評估DET演算法，他們還標註了另外3個屬性，包括車輛類別，車輛遮擋和視野外。具體如下圖2：

圖2：UAVDT中DET和MOT任務的屬性分布。

對於SOT任務，為每個序列注釋8個屬性，即背景雜波（BC），相機旋轉（CR），對象旋轉（OR），小對象（SO），照明變化（IV），對象模糊（OB），比例變化（SV）和大阻塞（LO）。 SOT屬性的分布如表1所示。具體而言，74％的視頻至少包含4個視覺挑戰，其中51％有5個挑戰。同時，27％的幀有助於長期跟蹤視頻。因此，可以在各種殘酷的環境中估計候選SOT方法，很可能在相同的框架下，保證提出的數據集的客觀性和區分性。

表1：SOT屬性的分布，顯示所有視頻中重合屬性的數量。對角線表示僅具有一個屬性的序列的數量。

表2總結了擬議數據集與其他相關作品的詳細比較。儘管提出的數據集與現有數據集相比並不是最大的數據集，但它可以更有效地反映無人機視頻的特點:

表1：現有相關數據集的摘要。 D = DET，M = MOT，S = SOT。

與相關作品（例如UAV123 [31] 1:00，Campus [39] 0:02，DETRAC [46] 8:64和KITTI [19] 5:35）相比，他們的數據集提供了更高的對象密度10：524。[22]是一個基於圖像的數據集來檢測停車車輛，這不適合視覺跟蹤。與專註於特定場景的相關作品[31,39,22]相比，他們的數據集是從不同情況下收集的不同天氣狀況，飛行高度和相機視圖等。

他們為每項任務運行一組具有代表性的最新演算法。這些方法的代碼可以在線或從作者處獲得。所有演算法都在訓練集上訓練並在測試集上進行評估。有趣的是，他們發現其他數據集中的一些高級演算法可能會在複雜場景中失敗。

目前基於深度的頂層物體檢測框架主要分為兩大類：基於區域的（例如，Faster-RCNN和R-FCN）和無區域的（如SSD和RON）。因此，他們在UAVDT數據集中評估上述4個檢測器。指標：他們遵循PASCAL VOC挑戰中的策略來計算Precision-Recall圖中的平均精度（AP）分數，以評估DET方法的性能。如在KITTI-D [19]中執行的那樣，一對檢測到的和地面實際邊界框之間的重疊的命中/未命中閾值被設置為0：7。實施細節: 他們使用CPU i9 7900x和64G內存以及Nvidia GTX 1080 Ti GPU在一台機器上訓練所有DET方法。更快的RCNN和R-FCN分別在VGG-16網路和Resnet-50上進行了調整。他們使用0：001作為第一個60k迭代的學習速率，在接下來的20k迭代中使用0：0001。對於無區域方法，512的批量大小為5 512型號根據GPU容量而定。對於SSD，他們使用0：005作為120k迭代的學習速率。對於RON，他們使用0：001作為前90k迭代的學習速率，然後他們將其衰減到0：0001，並繼續訓練接下來的30k次迭代。對於所有的演算法，他們使用0：9的動量和0：0005的權重衰減。總體評估：圖3顯示了DET方法的定量比較，顯示沒有有前途的準確性。例如，R-FCN即使在KITTI-D5的強硬組合中也能獲得70：06％的AP分數，但他們只有34：35％數據集。這也許是他們的數據集包含了大量的小對象以拍攝視角來看，這是對象檢測中的一個難題。另一個原因是更高的海拔會帶來更多混亂的背景。

圖3：UAVDT-DET數據集測試集上的Precision-Recall圖。圖例分別給出了每種DET方法的AP分數和GPU / CPU速度。

為了進一步探索DET方法在不同情況下的有效性，他們還對圖4中的不同屬性進行了評估。對於前3個屬性，DET方法在對象具有更多細節的序列上執行得更好，例如，低 - 鹽和側視圖。雖然物體數量較大，背景在日光下比夜晚更加混亂，導致日光下的表現更差。對於其他屬性，在檢測大型車輛時性能下降非常顯著，以及處理遮擋和視野不良。結果可歸因於兩個因素。首先，大型車輛的訓練樣本非常有限，難以訓練探測器識別它們。如圖2所示，卡車和公共汽車的數量只有整個數據集的10％以下。此外，檢測有其他干擾的小物體更加困難。在遮擋或視野不足的情況下，需要做大量的工作來檢測小物體。

圖4：每個屬性中DET方法的定量比較結果。

MOT方法通常分為在線或批處理方式。因此，他們評估了包括在線方法（CMOT，MDP，SORT和DSORT）和基於批次的方法（GOG，CEM，SMOT和IOUT）。總體評估如表3所示，具有Faster-RCNN的MDP在所有組合中具有最佳43：0的MOTA得分和61：5的IDF得分。此外，他們的數據集中的SORT的MOTA得分遠遠低於其他具有Faster-RCNN的數據集，例如59：8 10：3在MOT16。由於無人機視頻中的物體密度很大，他們數據集上的FP和FN值也比相同演算法的其他數據集大得多。同時，IDS和FM更頻繁出現。這意味著提出的數據集比現有的數據集更具挑戰性。

表3：UAVDT數據集測試集中MOT方法的定量比較結果。最後一列顯示GPU / CPU速度。最佳表演者和實時方法（> 30fps）以粗體突出顯示。 ?「表示數據不可用。

基於屬性的評估圖5顯示了MOT方法在不同屬性上的表現。大多數方法在日光下比夜間或霧更好（參見圖5（a））。在日光下的物體提供更清晰的跟蹤線索是公平合理的。在其他照明條件下，物體外觀很混亂，因此考慮更多運動線索的演算法會獲得更好的性能，例如SORT，SMOT和GOG。值得注意的是，在夜晚的序列中，即使夜間提供的檢測具有良好的AP分數，方法的表現也差得多。這是因為物體很難在夜間混亂的環境中跟蹤。在圖5（b）中，大多數MOT方法的性能隨著身高的下降而增加。當無人機捕獲較低高度的視頻時，在該視圖中捕獲的對象較少以促進對象關聯。就如圖5（c）所示的攝像機視圖而言，前視圖和側視圖中的車輛更詳細地區分與鳥瞰相比的不同目標，從而導致更好的準確性。

圖5：每個屬性中MOT方法的定量比較結果。

在本文中，他們為3個基礎視覺任務構建了一個新的具有挑戰性的無人機基準，包括DET，MOT和SOT。該數據集由100個視頻（80k幀）組成，無人機平台從複雜場景中捕獲視頻。所有幀均使用手動標記的邊界框和3種情況屬性進行注釋，即天氣狀況，飛行高度和攝像頭視圖。 SOT數據集還有8個屬性，例如背景雜波，相機旋轉和小物體。此外，還提供了對最新和最先進方法的廣泛評估。他們希望提出的基準測試將為計算機視覺社區做出貢獻，建立一個評估真實場景檢測和跟蹤方法的統一平台。在未來，他們期望擴展當前數據集以包括用於計算機視覺的其他高級任務的更多序列，以及用於評估相應演算法的更豐富的注釋。

參考文獻：

Dawei Du, Yuankai Qi, Hongyang Yu, Yifan Yang, Kaiwen Duan, Guorong Li, Weigang Zhang, Qingming Huang, Qi Tian. Object Detection and Tracking arXiv:1804.00518v1 [cs.CV] 26 Mar 2018.

認知與腦沙龍

公眾號ID：jsrzynkxyjs

關注

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 認知與腦沙龍 的精彩文章:

※使用卷積神經網路為基礎的帶有時空注意機制的單目標跟蹤器在線跟蹤多目標

TAG:認知與腦沙龍 |