DeepFashion2數據集：87.3萬對買家秀-賣家秀圖像+海量標註

科技 02-11

選自

github

作者：switchablenorms

機器之心編譯

參與：

Nurhachu Null、張倩

DeepFashion 是當前最大的時尚數據集，但它也有一些缺陷，使其與現實場景存在巨大差距。為此，本文作者提出了 DeepFashion2，其標註數量是 DeepFashion 的 3.5 倍，買家秀-賣家秀圖像對數量也是前者的數倍。

近年來，由於在產業中的巨大潛力，時尚圖像分析成為了活躍的研究課題。但是，由於巨大的變形、遮擋，以及消費者和商業圖像之間存在的服裝域的差異，在實際應用中，理解時尚圖像仍然是一個挑戰。一些挑戰可能根植於最近的基準和實際場景之間的差異。例如，現有的最大的時尚數據集 DeepFashion 就有其自身的缺點，比如說每個圖像只有一件服裝，稀疏的標記和姿態定義（每個服飾類別會共享 4~8 個關鍵點），如圖 1.(a) 所示，沒有每個像素的掩膜標註。

圖 1.DeepFashion（a）和 DeepFashion 2（b）的對比。（a）每幅圖像只有一件衣服，用 4~8 個稀疏標誌標註。邊界框是基於標籤標記估計出來的，使得它們看起來很亂。在圖（b）中，每張圖像最少有一件服飾，最多有七件服飾。每件服飾都被手動標記了邊界框、掩膜和密集的標註（平均每件服飾 20 個標記），還有賣家秀-買家秀圖像對。

為了解決上述缺陷，這項工作提出了 DeepFashion2，這是一個大規模的基準集，具有全面的任務和時尚圖像理解的標註。DeepFashion2 包含 49.1 萬張圖像，包含 13 種流行的服飾類別。在這個數據集上定義了全面的任務，包括服飾檢測和識別、標記和姿態估計、分割以及驗證和檢索。所有的這些任務都有豐富的標註支持。

例如，DeepFashion2 總共有 80.1 萬件服飾，如圖 1（b）所示，其中每件都標有比例、遮擋、縮放、視角、邊界框、密集標註和像素掩膜。這些服飾可以被歸類為 4.38 萬個服飾標識，其中服飾標識代表一類具有幾乎相同裁剪、圖案和設計的服飾。擁有同一類服飾標識的圖像既有買家秀，也有賣家秀，賣家秀和買家秀組成圖像對。該數據集中總共有 87.3 萬買家秀-賣家秀圖像對，比 DeepFashion 大 3.5 倍。上述詳細的注釋助力開發強大的演算法來理解時尚圖像。

這項工作有三個主要貢獻：（1）構建了具有全面任務和標註的大規模時尚數據集基準來推動時尚圖像分析。DeepFashion2 擁有最豐富的任務定義和最大數量的標籤。它的標註至少是 DeepFashion[14] 的 3.5 倍，是 ModaNet [21] 的 6.7 倍，是 FashionAI [1] 的 8 倍。（2）在本文提出的數據集上仔細定義了全部任務。例如，據本文研究者所知，服飾姿態估計是首次在文獻中通過對 13 個類別的姿態和標記進行定義來提出，這些姿態要比人類的姿態更多樣化，更加豐富。（3）研究者用 DeepFashion2 廣泛地評測了 Mask R-CNN [6]，這是最近提出的一個用於視覺感知的框架。本文還提出了一個新的 Match R-CNN 來聚合所有從服飾類別、姿態以及掩膜中學習到的特徵，用一種端到端的方式解決服飾圖像檢索的問題。DeepFashion2 和 Match R-CNN 的實現即將發布。

論文：DeepFashion2: A Versatile Benchmark for Detection, Pose Estimation, Segmentation and Re-Identification of Clothing Images

論文地址：https://arxiv.org/abs/1901.07973

摘要

：理解時尚圖像已經通過通過具有豐富的標註的基準數據集進行了提升，例如 DeepFashion，它的標籤包含服飾類別、標記和賣家秀-買家秀圖像對。但是，DeepFashion 有它不可忽視的問題，例如，一副圖像只有一個單獨的服飾，稀疏的標記（僅有 4~8 個），以及沒有像素掩膜，這使得它與現實場景之間存在巨大的差距。我們通過提出 DeepFashion2 填補這種差距，以解決這些問題。它是一個含有 4 個任務的多功能基準集，包括服飾檢測、姿態估計、分割以及檢索。它有 80.1 萬件服飾，每件都有豐富的標註，例如風格、比例、視角、遮擋、邊界框、密集標記和掩膜。其中也有 87.3 萬對買家秀-賣家秀圖像。我們還提出了一個強大的基線模型，叫做 Match R-CNN，它是在 Mask R-CNN 的基礎上構建的，用來以一種端到端的方式解決上述四種任務。我們用不同的標準在 DeepFashion2 上開展了評估。

2 DeepFashion2 數據集和基準

與現有的時尚數據集相比，DeepFashion2 有 4 個獨特的特點：

大規模：它包括 49.1 萬張圖像，總共是 4.38 萬個服飾標識（購物店展示的獨特服飾）。

多功能：DeepFashion2 面向多種時尚理解任務。它豐富的標註支持服飾檢測和分類、密集標註和姿態檢測、實例分割以及跨域實例級別的服飾檢索。

表達能力：這主要反映在兩個方面。首先，單幅圖像中存在多個服飾；其次，本研究有 13 種不同類別的標識和姿態。

多樣性：研究者通過控制它們的 4 個屬性變數來收集數據，包括尺寸、遮擋、縮放和視角，如圖 2 所示，這使得 DeepFashion2 成為了一個具有挑戰性的基準。

圖 3（a）展示了 DeepFashion2 中不同變數屬性的統計數據。（b）是 DeepFashion2 中 13 種類別的數目。（c）展示了 DeepFashion[14] 中類別的含糊不清。例如，很難區分開衫（cardigan）和外套（coat），很難區分慢跑者（joggers）和運動褲（sweatpants）。這在給數據打標籤的時候會造成歧義。（d）上：出現複雜的姿態時，掩膜可能不準確。下：掩膜都是由人工精調的。

3 Match R-CNN

研究者在 DeepFashion2 上基於 Mask RCNN [6] 提出了一個強大的基線模型，名為 Match R-CNN，它是一個端到端的訓練框架，聯合學習了服飾檢測、標誌估計、實例分割和買家秀-賣家秀的檢索。