1460萬個目標檢測邊界框：谷歌開源Open Images V4數據集

新聞 11-13

選自Google AI，機器之心編譯，作者：Alina Kuznetsova等，參與：Geek AI、張倩。

Open Images 是谷歌開源的一個大型數據集，包含大約 900 萬張圖像，這些圖像用圖像級別的標籤和目標邊界框進行了標註。最近，谷歌發布了該數據集的第四個版本——Open Images V4，圖像數量增加到 920 萬，其訓練集包含 1460 萬個邊界框，用於標識從屬於 600 個目標類別的 174 萬張圖像中的目標，這使它成為了現有的含有目標位置標註的最大數據集。

這些邊界框大部分由專業的標註人員手工繪製，以確保準確性和一致性。數據集中的圖像非常多樣化，通常包含存在多個目標的複雜場景（平均每張圖像 8.4 個）。此外，數據集用逾數千個類別的圖像級標籤進行標註。

數據集地址：https://storage.googleapis.com/openimages/web/visualizer/index.html?set=train&c=%2Fm%2F06mf6

數據組織

數據集被分成了訓練集（9,011,219 張圖像）、驗證集（41,620 張圖像）和測試集（125,436 張圖像）三部分。這些圖像用圖像級的標籤和邊界框進行了標註，如下所述。

圖像級標籤

表 1 為 Open Images V4 數據集所有部分（訓練集、驗證集、測試集）的圖像級標籤的概述。所有圖像都帶有由機器通過類似於谷歌雲視覺 API（https://cloud.google.com/vision/）的計算機視覺模型自動生成的圖像級標籤。這些自動生成的標籤有很大的假正例率。

1460萬個目標檢測邊界框：谷歌開源Open Images V4數據集

打開今日頭條，查看更多精彩圖片

表 1：圖像級標籤。

此外，驗證集、測試集以及部分訓練集都帶有經過人驗證的圖像級別標籤。大多數驗證工作都是由谷歌內部的標註人員完成的。一小部分數據標註工作是通過圖像標註程序（Image Labeler）進行眾包完成的：如 Crowdsource app 和 g.co/ imagelabeler。這個驗證過程實際上消除了假正例（但不能消除假負例：圖像中可能缺少一些標籤）。最終得到的標籤基本上是正確的，我們認為這些數據可以很好的被用於訓練計算機視覺模型。我們使用了多個計算機視覺模型來生成樣本（不僅僅是用於機器生成標籤的模型），辭彙表因此得到了顯著的擴展（表 1 中的 #Classes 列）。

總的來說，數據集包含 19,995 個具有圖像級標籤的不同類。注意，這個數字略高於上表中經過人工驗證的標籤的數量。原因是機器生成的集合中有少量的標籤沒有出現在人工驗證的集合中。在 V4 訓練集中，至少含有 100 個人工驗證的正類才能算得上可訓練的類。根據這個定義，我們可以認為有 7186 個類是可訓練的。

邊界框

表 2 為 Open Images V4 數據集所有部分（訓練集、驗證集、測試集）中逾 600 類邊界框標註的概述。這些數據比 ILSVRC 和 COCO 目標檢測挑戰賽的數據類別範圍更大，包括「fedora」和「snowman」等新對象。

1460萬個目標檢測邊界框：谷歌開源Open Images V4數據集

表 2：邊界框。

對於訓練集，我們在 174 萬張經過人類驗證的帶有正類圖像級別標籤的圖像上標註了邊界框。我們關注的是最具體的標籤。例如，如果一個圖像帶有標籤 {car，limousine，screwdriver}，我們會為「limousine」和「screwdriver」兩類標註邊界框。對於圖像中的每個標籤，我們都詳盡地標註了圖像中從屬於該目標類的每個實例。我們一共標註了 1460 萬個邊界框。平均每個圖像有 8.4 個帶有邊界框的目標。90% 的邊界框都是由谷歌的專業標註人員使用高效的「extreme clicking」界面手動繪製的 [1]。我們使用 [2] 中方法的增強版半自動地生成了剩下 10% 的邊界框。經過人類驗證，這些邊界框的 IoU>0.7，在相應目標上有一個完美的邊界框，它們在實際中的準確率非常高（平均的 IoU 大約為 0.82）。由於實例過多（95,335 張圖片上共有 1,327,596 個實例），我們僅為 95,335 張圖像繪製了人體部分和「哺乳動物」的邊界框。

對於驗證集和測試集，我們為所有目標實例所有可能的正類圖像級標籤提供了詳盡的邊界框標註信息。所有的邊界框都是手工繪製的。我們儘可能在語義層次結構中最具體的層次上標註邊界框。在驗證集和測試集中，平均每個圖像都有大約 5 個邊界框。

在所有部分（訓練集、驗證集、測試集）中，標註人員還為每個框標記了一組屬性。例如，說明該目標是否被遮蓋（請參閱「download」部分（https://storage.googleapis.com/openimages/web/download.html#attributes）的完整描述）。

類的定義

圖像的類別由 MID（機器生成的 ID）來標識，這些 MID 可以在「Freebase」或「Google Knowledge Grapg API」（https://developers.google.com/knowledge-graph/）中找到。在「class-description.csv」（https://storage.googleapis.com/openimages/2018_04/class-descriptions.csv）文件中可以找到每個類的簡短描述。

統計和數據分析

600 個邊界框可標識的類的層次結構

在這裡，我們將一組可以用邊界框標識出來的類以一種層次結構表示出來（https://storage.googleapis.com/openimages/2018_04/bbox_labels_600_hierarchy_visualizer/circle.html），或者可以以 JSON 文件的方式下載它們（https://storage.googleapis.com/openimages/2018_04/bbox_labels_600_hierarchy.json）：

1460萬個目標檢測邊界框：谷歌開源Open Images V4數據集

標籤分布

下圖顯示了標註結果在數據集中的分布情況。注意，標籤分布嚴重傾斜（註：y 軸為對數刻度）。根據正類樣本的數量對各類排序。綠色代表正類樣本，紅色代表負類樣本。

1460萬個目標檢測邊界框：谷歌開源Open Images V4數據集

論文：The Open Images Dataset V4: Unified image classification, object detection, and visual relationship detection at scale

1460萬個目標檢測邊界框：谷歌開源Open Images V4數據集

論文鏈接：https://arxiv.org/abs/1811.00982

摘要：在本文中，我們發布了 Open Images V4，這是一個包含 920 萬張圖像的數據集，對於圖像分類、目標檢測和視覺關係檢測等任務有統一的標註。這些圖像都具有允許共享和修改素材的創作共用許可證（Creative Commons Attribution license），收集自 Flickr，上面沒有事先定義的類名或標籤列表。這使得數據集具備自然的類的統計性質，避免了初始設計偏差。Open Images V4 提供了多個維度上的大規模數據：為 19800 個概念提供了 3010 萬個圖像級標籤，為 600 個目標類提供了 1540 萬個邊界框，為 57 個類提供了 375000 個視覺關係標註。特別是目標檢測方面，我們提供了比僅次於我們的第二大數據集多 15 倍的邊界框。在這些圖像中經常出現一些包含多個目標的複雜場景（平均每個圖像有 8 個帶標註的目標）。我們標註了它們之間的視覺關係，用來支持視覺關係檢測，這是一個需要結構化推理的新興任務。我們提供了關於數據集的深入、全面的統計數據，驗證了標註信息的質量，並研究了隨著訓練數據的增加，目前流行的一些模型的性能會如何變化。我們希望 Open Image V4 的規模、質量和種類能夠促進進一步的研究和創新，甚至在圖像分類、目標檢測和視覺關係檢測等領域之外也能有所助益。

1460萬個目標檢測邊界框：谷歌開源Open Images V4數據集

圖 1：Open Image 中用於圖像分類、目標檢測和視覺關係檢測的標註示例。對於圖像分類任務，正類標籤（出現在圖像中）是綠色的，而負類標籤（沒有出現在圖像中）是紅色的。對於視覺關係檢測任務，帶有虛線輪廓的邊界框將兩個具有特定視覺關係的目標圈在一起。

1460萬個目標檢測邊界框：谷歌開源Open Images V4數據集

圖 17：每類邊界框的數量。橫軸是按邊界框數量對各類進行排序的結果，為了提高可讀性，我們將該結果用對數刻度表示。我們還標明了最常見的類的名稱。

1460萬個目標檢測邊界框：谷歌開源Open Images V4數據集

圖 18：每張圖像中的類別數量。每張圖像不同類別數量歸一化（左）和非歸一化（右）直方圖。

1460萬個目標檢測邊界框：谷歌開源Open Images V4數據集

圖 20：訓練集中標註過的目標區域的比例：PASCAL、COCO、Open Images 中標註過的目標占圖像區域百分比的累積分布；即面積低於某個值的實例的百分比。作為對比基線，我們繪製了面積和邊長均勻分布的邊界框對應的函數。我們忽略了在 COCO 中標記為人群的邊界框和在 Open Image 中標記為群組的邊界框。

1460萬個目標檢測邊界框：谷歌開源Open Images V4數據集

圖 15：包含大量標註過的邊界框的示例：分別包含 348、386 和 743 個邊界框的圖像。在很多這樣的情況下可以使用 GroupOf，但實際上它們還是對此很感興趣。

1460萬個目標檢測邊界框：谷歌開源Open Images V4數據集

圖 19：含有大量不同類別的標註的圖像（左圖中有 11 類標註，右圖中有 7 類標註）。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 機器之心 的精彩文章:

※Diss所有深度生成模型，DeepMind說它們真的不知道到底不知道什麼
※3D形狀補全新突破：MIT提出結合對抗學習形狀先驗的ShapeHD

TAG:機器之心 |