清華等機構提出基於內部一致性的行人檢索方法，實現當前最優

新聞 06-20

選自arXiv

作者：Yifan Sun等

機器之心編譯

參與：劉曉坤、路

利用部分級特徵進行行人圖像描述提供了細粒度的信息，已在近期文獻中被證明對於人物檢索很有用。相對於外部線索方法，清華大學、悉尼大學和德克薩斯大學的研究者採用內部一致性假設，提出新的基線網路和精鍊部分池化方法，實現了更好的人物檢索性能，並超越了當前最佳結果。

行人檢索又叫行人重識別（person re-identification，re-ID），即基於給定行人，從大型資料庫中檢索特定相關人行道的圖像。目前，深度學習方法主導該領域，性能超過人工檢索者 [40]。深度學習得到的表徵提供高度判斷力，尤其是該表徵是從深度學習得到的部分特徵聚合而來時。在 re-ID 基準上最新的當前最優性能是使用 part-informed 深層特徵獲得的 [35, 27, 37]。

清華等機構提出基於內部一致性的行人檢索方法，實現當前最優

圖 1：多個行人檢索深度部分模型的分區策略。（a）到（e）：GLAD [31]、PDC [27]、DPL [35]、Hydra-plus [22] 和 PAR [37] 的分區部分，分別截選自對應論文。（f）：本論文提出的方法使用了一種統一的分區方式，然後對每個條狀框進行精鍊。PAR [37] 和本論文的方法都實施了「軟」分區，但是二者有很大區別。

學習判別性部分特徵的先決條件是對這些部分進行準確定位。近期的 SOTA 方法的分區策略有所不同，可以分為兩大類。第一類 [38, 27, 31] 利用外部線索，如利用人體姿勢估計最近進展的幫助 [23, 32, 15, 25, 2]。它們依賴於外部人體姿勢估計數據集和複雜的姿勢估計器。姿勢估計和行人檢索之間的底層數據集偏差是對行人圖像進行完美語義分區的一大障礙。另一類 [35, 37, 22] 不使用語義部分的線索。它們不需要進行部分標註，但其準確率與第一類相差無幾。部分分區策略已在圖 1 中列出。與學習部分級深度特徵的進步相反，本論文研究者重新思考構成良好對齊的部分的機制。語義分區或許能夠提供良好對齊的穩定線索，但是可能出現雜訊姿勢檢測。本論文從另一個角度出發，把每一部分的一致性作為重點，研究者認為這是空間對齊的關鍵因素。然後，本研究的目標是，給定一些粗糙分區的部分，精鍊並強化部分內部的一致性。具體來說，本論文做出了以下貢獻：

首先我們提出了一個名為基於部分的卷積基線（PCB）網路，它在卷積層上進行統一的分區，並藉此學習部分級的特徵。但這種方法並不會明確對圖像進行分區，PCB 輸入整張圖像並輸出卷積特徵。作為分類網路，PCB 的架構是非常簡潔的，在只是在主幹網路上做一點修改。訓練過程同樣也是非常標準的，不需要過多花俏的技巧。研究者表示卷積描述器比常用的全連接（FC）描述器有更高的判別能力。在 Market-1501 數據集中，網路性能從 85.3% 的 rank-1 準確率和 68.5% 的 mAP 提升到 92.3% (+7.0%) 的 rank-1 準確率和 77.4% (+8.9%) 的 mAP，超過了很多當前最優方法。

其次，研究者提出一種適應性池化方法來精鍊統一的分區。他們考慮到每個部位的信息應該是一致的，但觀察到在同一划分下，每個部分都存在異常值。這些異常值實際上可能更接近於其它部分的信息，它們也就表明了內部的不一致性。因此，研究者通過重新定位這些異常值到最相近的分區部分而精鍊了統一分區，這樣就能加強內部一致性了。圖 1（f）展示了經過精鍊後的部分的示例。通過本文提出的精鍊部分池化（RPP），模型在 Market-1501 上的表現進一步提升到了 93.8% (+1.5%) 的 rank-1 準確率和 81.6% (+4.2%) 的 mAP。

研究者結合這兩種方法，在人物檢索上實現了新的當前最優水平。重要的是，實驗證明，精鍊部分要優於注意部分，即通過注意力機制學習到的部分。

清華等機構提出基於內部一致性的行人檢索方法，實現當前最優

圖 2：PCB 的結構。輸入圖像從主幹網路到形成 3D 張量的前向傳播中通過堆疊的卷積層。PCB 用卷積池化層取代了原來的全局池化層，以在空間上將 T 下採樣為 p 個列向量 g。一個隨後的 1x1 核大小的卷積層減少了 g 的維度。最後，每個維度減少的列向量 h 被分別輸入一個分類器。每個分類器用一個全連接層和一個序列 softmax 層實現。在訓練過程中，每個分類器預測輸入圖像的身份，並由交叉熵損失所監督。在測試過程中，g 或 h 的 p 個部分被拼接以構成輸入圖像的最終描述子。

清華等機構提出基於內部一致性的行人檢索方法，實現當前最優

圖 3：部分的內部不一致性的可視化。圖左：T 在訓練過程中被平等地分為 p=6 個水平條（部分）。圖右：T 中的每個列向量用一個小矩形表示，並以和它最接近部分的顏色著色。

清華等機構提出基於內部一致性的行人檢索方法，實現當前最優

圖 4：PCB 結合精鍊部分池化方法。由於這裡僅關心空間分區，3D 張量 T 簡單地由一個矩形而不是方塊表示。在 T 之前的曾被忽略，因為它們和圖 2 中的相比沒有變化。一個部分分類器預測每個列向量屬於 p 部分的概率。然後每個部分從所有列向量中按對應概率（作為採樣權重採樣）。GAP 表示全局平均池化。

論文：Beyond Part Models: Person Retrieval with Refined Part Pooling (and A Strong Convolutional Baseline)

清華等機構提出基於內部一致性的行人檢索方法，實現當前最優

論文鏈接：https://arxiv.org/pdf/1711.09349.pdf

摘要：利用部分級特徵進行行人圖像描述提供了細粒度的信息，已在近期文獻中被證明對於人物檢索很有用。基於部分檢索的先決條件是每個部分都需要良好定位。本文沒有使用外部線索（例如姿態估計）來直接定位部分，而是假設每個部分存在內容一致性。具體來說，我們的目標是學習判別性的 part-informed 的特徵用於人物檢索，並作出了兩項貢獻。（i）提出了一種稱為基於部分的卷積基線網路（PCB）。給定一幅圖像輸入，它輸出輸出一個有多個部分級特徵構成的卷積描述子。利用統一的分區策略，PCB 相比當前最佳方法達到了更有競爭力的性能，使其能作為人物檢索的強大卷積基線。（ii）提出了一種精鍊的部分池化（RPP）方法。統一的分區不可避免地會在每個部分導致異常值，這些異常值在實際上和其它部分更相似。RPP 重新分配這些異常值到它們最接近的部分中，得到增強部分內部一致性的精鍊部分。實驗表明 RPP 允許 PCB 獲得另一輪性能提升。例如，在 Market-1501 數據集中，我們達到了（77.4+4.2）%mAP 和（92.3+1.5）% 的 rank-1 準確率，遠遠超越了當前最佳方法。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 機器之心 的精彩文章:

※康奈爾&英偉達提出多模態無監督圖像轉換新方法

TAG:機器之心 |