谷歌內建300M圖像數據集探索大規模數據的影響

知識 07-13

選自Google Research

機器之心編譯

參與：蔣思源、路雪

自殘差網路以來，深度模型擁有了極大的容量，同時 GPU、TPU 等硬體為深度學習提供了巨大的計算力。但計算機視覺最主要的數據集還是僅擁有 1M 圖片的 ImageNet，因此谷歌希望利用 300M 的大數據集進一步檢驗模型的能力和提升空間。

過去十年，計算視覺領域取得了巨大成就，其中許多成果應歸功於深度學習模型在該領域的應用。自 2012 年起，這些系統的能力取得了極大的進步，這應歸功於（a）模型複雜度更高，（b）持續增強的計算力，（c）擁有大量標註數據。但是，儘管計算能力和模型複雜度每年都在提升（從 7 層的 AlexNet 到 101 層的 ResNet），但可使用的數據集並未隨之增加。101 層的 ResNet 比 AlexNet 的容量（神經網路深度）大得多，但是仍然只能使用從 ImageNet circa 2011 獲取的 1M 圖像。作為研究者，我們一直在思考：如果訓練數據擴展到原來的 10 倍，正確率是否會大量提升？100 倍或者 300 倍呢？正確率停滯不前，還是更多的數據將帶來更多的成果？

過去五年中，GPU 計算力和模型大小持續增加，但是最大訓練數據集的大小卻保持不變。

在論文「Revisiting Unreasonable Effectiveness of Data in Deep Learning Era」中，我們初步採取措施試圖理解「巨量數據」和深度學習的關係。我們的目標是研究：（a）向現有演算法提供更多帶有雜訊標註的圖像是否可以改善視覺表徵效果；（b）分類、目標檢測和圖像分割等標準視覺任務中，數據與效果之間的本質關係；（c）使用大規模學習方法找到適用於計算機視覺領域所有任務的最優模型。

當然，一個顯而易見卻往往被忽略的事情是我們從何處獲取相當於 ImageNet 300 倍大小的數據集。在谷歌，我們一直致力於自動構建此類數據集以改善計算機視覺演算法。具體來說，我們已經構建包含 300M 圖像的內部數據集（JFT-300M），這些圖像被標註為 18291 個類別。圖像標註演算法使用了原始網路信號的複雜混合體和網頁與用戶反饋之間的連接，這導致 300M 圖像擁有 10 億多標籤（一個圖像可具備多個標籤）。10 億圖像標籤中，谷歌通過將所選圖像的標籤精度最大化而獲取了 375M 標註。然而，標籤中仍然存在大量雜訊：所選圖像的標籤中約有 20% 帶有雜訊。由於缺乏詳細注釋，我們無法評估標籤的召回率。

我們的實驗結果證實了部分假設，但是也產生了一些意想不到的結果：

表徵學習有所幫助。我們的第一個觀察是大量數據有助於表徵學習，同時表徵學習也幫助改善我們研究的每一個視覺任務的表現。我們發現協力構建可用於預訓練的大規模數據集非常重要，這也說明非監督和半監督表徵學習方法前景無限。看起來數據規模可以戰勝標籤雜訊。

任務表現與訓練數據數量級呈線性增長關係。或許最令人震驚的發現是視覺任務的表現和用於表徵學習的訓練數據量級（對數尺度）之間的關係竟然是線性的！即使擁有 300M 的大規模訓練圖像，我們也並未觀察到訓練數據對所研究任務產生任何平頂效應（plateauing effect）。

預訓練模型在 JFT-300M 不同子數據集中的目標檢測性能。其中 x 軸代表數據集的大小，y 軸代表在 mAP@[.5,.95] 中 COCO-minival 子數據集上的檢測性能。

模型容量是關鍵。我們同樣觀察到為了完全開發 300M 圖像，模型需要更高的容量，即更深的神經網路。例如，在 COCO 目標檢測基準上使用 ResNet-50（1.87%）要比使用 ResNet-152（3%）更少一些。

新的最優結果。我們的論文展示了在 JFT-300M 上訓練的模型，該模型在多個基準上獲得了最佳的結果。例如，單模型（沒有任何附加技巧）在 COCO 檢測基準上獲得了 37.4 AP（相對於原來的 34.3 AP）。

我們需要重點強調模型的訓練機制，我們使用的學習計劃和參數都是基於我們在 ImageNet 1M 圖像中使用卷積網路訓練的理解。因為我們在該項工作中並不會搜索最優超參數集（這需要相當大的計算量），所以在使用這種規模的數據下，可能模型的表現並不是最佳的，我們模型的性能還可以通過搜索超參數而達到更優。因此我們認為量化性能其實還低估了數據的實際影響。

該項研究工作並不會關注特定任務的數據集，例如探索更多的邊界框是否會影響模型性能等。我們認為雖然獲取大規模特定該項研究工作並不會關注特定任務的數據集，例如探索更多的邊界框是否會影響模型性能等。我們認為雖然獲取大規模特定任務的數據是很困難的，但它應該會成為未來研究的關注重點。此外構建300M圖像的數據集不應該是我們的最終目標，作為機器視覺社區這樣一個整體，只要模型的性能繼續提升，我們就應該構建更大的數據集，即使是構建數十億張圖像的數據集也是值得的。

論文：Revisiting Unreasonable Effectiveness of Data in Deep Learning Era

論文地址：https://arxiv.org/abs/1707.02968

摘要：深度學習在機器視覺上的成功主要可以歸功於三部分：（a）模型的複雜度足夠高，（b）持續增強的計算力，（c）擁有大量標註數據。從 2012 年開始，模型表徵數據的能力和 GPU 計算力都有顯著的提升。但令人驚訝的是，是大數據集的規模卻仍保持不變。如果我們將數據集的大小擴展到 10 倍、100 倍會發生什麼？本論文主要論述和描述「巨量數據」和深度學習之間的關係。我們應用和探索擁有 300M 圖像超過 375M 雜訊標註（noisy label）的 JFT-300M 數據集，並探討如果我們將該數據集應用於表徵學習，那麼目前的視覺任務表現將會有什麼樣的改變。

我們的論文提供了一些令人驚訝和一些期望中的結果。首先，我們發現視覺任務的表現隨著訓練數據規模的增長而成線性增長。其次我們發現表徵學習（或預訓練模型）仍然有很多提升餘地。我們可以通過訓練更好的基礎模型而提升任何視覺任務的性能。最後如預期那樣，我們展示了包含圖像分類、目標檢測、語義分割和人體姿態估計等不同視覺任務的最佳結果。我們真的希望機器視覺社區不要低估數據量的重要性，並期待通過集體的努力構建更大的數據集。