谷歌發布迄今最大注釋圖像數據集，190萬圖像目標檢測挑戰賽啟動

新聞 05-01

新智元編譯

來源：research.googleblog.com

編譯：小潘

【新智元導讀】今天，谷歌宣布開放Open Images V4數據集，包含190萬張圖片，共計600個類別，共標記了1540萬個邊界框，這是迄今的有對象位置注釋的最大數據集。基於此數據集，谷歌將在ECCV 2018舉辦大型圖像挑戰賽。

谷歌發布迄今最大注釋圖像數據集，190萬圖像目標檢測挑戰賽啟動

2016年，谷歌推出一個包含900萬張圖片的聯合發布資料庫：Open Images，其中標註了成千上萬個對象類別。從它發布以來，谷歌的工程師一直在努力更新和重新整理數據集，以為計算機視覺研究領域提供有用的資源來開發新的模型。

今天，谷歌宣布開放Open Images V4，其中包含190萬張圖片，共計600個類別，共標記了1540萬個邊界框。這個數據集成為現有的帶有對象位置注釋的最大數據集。這些邊界框大部分是由專業的注釋人員手工繪製的，以確保準確性和一致性。這些圖像非常多樣，通常包含有幾個對象的複雜場景（平均每個圖像包含8個邊界框）。

谷歌發布迄今最大注釋圖像數據集，190萬圖像目標檢測挑戰賽啟動

谷歌發起大型開放圖像挑戰賽

與此同時，谷歌還推出Open Image Challenge（開放圖像挑戰賽），這是一項新的目標檢測挑戰，將在2018年歐洲計算機視覺會議（ECCV 2018）上舉行。Open Image Challenge遵循了PASCAL VOC、ImageNet和COCO的傳統，但規模空前：

在170萬張訓練圖片中，有1220萬個有框注釋，共500個類別。
比以前的檢測挑戰更廣泛，包括諸如「fedora」和「snowman」之類的新對象。
除了對象檢測這個任務之外，挑戰還包括一個視覺關係檢測跟蹤人物，即在特定關係中檢測對象的配對情況，例如「女人彈吉他」。

訓練集現在已經可以使用了。一組包含10萬個圖像的測試集將於2018年7月1日由Kaggle發布。提交結果的截止日期是2018年9月1日。我們希望這些大型的訓練集能夠激發對更精密的探測模型的研究，這些模型將超過目前最先進的性能，並且500個類別將能夠更精確地評估不同的探測器在哪裡表現得最好。此外，有大量的圖像和許多對象的注釋使我們能夠探索視覺關係檢測，這是一個正在發展的分支領域的熱門話題。

除此之外，Open Images V4還包含3010萬的人工驗證的圖像級標籤，共計19794個類別，這並不是挑戰的一部分。該數據集包括550萬個圖像級標籤，由來自世界各地的成千上萬的用戶在crowdsource.google.com上生成。

Open Images V4數據集

Open Images是一個由900萬張圖片組成的數據集，這些圖像被標註為圖像級標籤和對象邊界框。V4的訓練集包含了600對象類的1460萬個圖像，其中共標記了174萬個標記目標，這使得它成為現有的最大包含對象位置注釋的數據集。這些物體的邊界框大部分是由專業的注釋器手工繪製的，以確保準確性和一致性。這些圖像非常多樣，通常包含有多個對象的複雜場景（平均每個圖像有8.4個標記）。此外，數據集還帶有數千個類的圖像級標籤。

谷歌發布迄今最大注釋圖像數據集，190萬圖像目標檢測挑戰賽啟動

數據組織結構

數據集被分割為一個訓練集（9,011,219圖像），一個驗證集（41620個圖像）和一個測試集（125,436張圖片）。這些圖像被標註了圖像級標籤和邊界框，如下所述。

谷歌發布迄今最大注釋圖像數據集，190萬圖像目標檢測挑戰賽啟動

表1

表1顯示了數據集的所有子集中的圖像級標籤的概述。所有的圖像都有機器生成的圖像級標籤，這些標籤是由類似於Google Cloud Vision API的計算機視覺模型自動生成的。這些自動生成的標籤有一個很大的假正率。

此外，驗證和測試集，以及部分訓練集都包含經過人工驗證的圖像級標籤。大多數驗證都是由Google內部的注釋者完成的。更小的部分是通過圖片標籤軟體來完成的，如Crowdsource app, g.co/imagelabeler。這個驗證過程實際上消除了假陽性（但不是傳統意義上的假陰性，這種方式會導致一些標籤可能在圖像中丟失）。由此產生的標籤在很大程度上是正確的，我們建議使用這些標籤來訓練計算機視覺模型。使用多個計算機視覺模型來生成樣本，這樣做是保證在訓練時不僅僅用機器生成的標籤數據，這就是為什麼辭彙表被顯著擴展的原因，如表一所示。

總的來說，有19995個不同的類和圖像級標籤。請注意，這個數字略高於上表中人工驗證的標籤的數量。原因是在機器生成的數據集中有少量的標籤並沒有出現在人工驗證的集合中。可訓練的類是那些在V4訓練集中至少有100個正例的人工驗證類。基於這個定義，7186個類被認為是可訓練的。

邊界框

谷歌發布迄今最大注釋圖像數據集，190萬圖像目標檢測挑戰賽啟動

表2

表2顯示了數據集的所有分割中邊界框注釋的概述，它包含了600個對象類。這些服務提供的範圍比ILSVRC和COCO探測挑戰的範圍更廣，包括諸如「fedora」和「snowman」之類的新對象。

對於訓練集，我們在174 萬的圖像中標註了方框，用於可用的陽性人工標記的圖像級標籤。我們關注最具體的標籤。例如，如果一個圖像包含汽車、豪華轎車、螺絲刀，我們為豪華轎車和螺絲刀提供帶注釋的標註方框。對於圖像中的每一個標籤，我們詳盡地注釋了圖像中的對象類的每個實例。數據集共包含1460萬個的邊界框。平均每個圖像有8.4個標記對象。

對於驗證和測試集，針對所有可用的正圖像級標籤，我們提供了所有對象實例詳盡的邊界框注釋。所有的邊界框都是手工繪製的。我們有意地嘗試在語義層次結構中儘可能詳盡地標註注釋框。平均來說，在驗證和測試集中，每個圖像標記了5個邊界框。

在所有的子集中，包括訓練集、驗證集和測試集中，注釋器還為每個邊界框標記了一組屬性，例如指出該對象是否被遮擋。

類定義（Class definitions）

類別由MIDs（機器生成的id）標識，可以在Freebase或Google知識圖的API中找到。每個類的簡短描述都可以在類中CSV中找到。

統計和數據分析

谷歌發布迄今最大注釋圖像數據集，190萬圖像目標檢測挑戰賽啟動