10億＋數據，ImageNet千倍：深度學習，谷歌說數據為王

新聞 07-12

【新智元導讀】數據重要還是演算法重要？一篇新的論文或許給出了答案。使用一個 300 倍於 ImageNet 的新數據集，谷歌研究人員發現，隨著數據增長，模型完成計算機視覺任務的性能直線上升。即使在 300 倍 ImageNet 這麼大規模的情況下，性能都沒有遭遇平台。谷歌研究人員表示，構建超大規模的數據集應當成為未來研究的重點，他們的目標是朝 10 億+ 級別的數據進發。

新智元編譯

來源：research.googleblog.com；reddit

編譯：文強；胡祥傑；劉小芹

今年 3 月，谷歌大腦負責人 Jeff Dean 在 UCSB 做了一場題為《通過大規模深度學習構建智能系統》的演講。

Jeff Dean 在演講中提到，當前的做法是：

解決方案 = 機器學習（演算法）+ 數據 + 計算力

未來有沒有可能變為：

解決方案 = 數據 + 100 倍的計算力？

由此可見，谷歌似乎認為，機器學習演算法能被超強的計算力取代。

現在，谷歌和 CMU 合作的一篇最新論文，又從數據的角度探討了這個問題。

過去十年中，計算機視覺領域取得了顯著的成功，其中大部分可以直接歸因於深度學習模型的應用。此外，自 2012 年以來，這些系統的表徵能力也因下面 3 個因素取得了大幅進步：

（a）具有高複雜性的更深的模型

（b）增加的計算能力和

（c）大規模標籤數據集的可用性

然而，儘管每年計算能力和模型複雜性都在進一步增加（從 7 層的 AlexNet 到 101 層的 ResNet），可用的數據集卻沒有相應的擴大。與 AlexNet 相比，101 層的 ResNet 的容量也大大增加，可後者訓練時仍然使用的是大約 2011 年建立的 ImageNet——一個百萬級的圖像數據集。

雖然計算力（GPU）和模型大小不斷增長，數據集的規模一直停步不前

於是，谷歌的研究人員便想：如果將訓練數據的量增加 10 倍，精度是否會翻倍？增加 100 倍甚至 1000 倍呢？準確性會上升到某一水平就不再提高，還是會隨著數據的增加越來越高？

谷歌 JFT-300M：構建比 ImageNet 大 300 倍的數據集

在最新上傳到 arXiv 的論文《再探深度學習時代數據的超凡有效性》（Revisiting Unreasonable Effectiveness of Data in Deep Learning Era）中，谷歌研究人員朝著解答大數據與深度學習間的疑問邁出了第一步。作者表示，他們的目標是探索：

（a）向現有的演算法饋送越來越多帶有雜訊標籤的圖像，是否能改善視覺表徵；

（b）了解在分類、物體檢測和圖像分割等標準視覺任務中，數據和性能之間關係的性質；

（c）使用大規模學習的計算機視覺任務中當前最先進的模型的表現。

不過，要做到這一點，最大的問題是：在哪裡能找到比 ImageNet 大 300 倍的數據集？

答案——不出意外——當然是「在谷歌」。

在今天發表於 Google Research 的文章里，谷歌機器感知組成員 Abhinav Gupta 介紹，為了改善計算機視覺演算法，谷歌一直在開發建立這樣的數據集。現在，他們已經建立了一個名叫「JFT-300M」的內部數據集，含有 18291 個類別。顧名思義，JFT-300M 有 300M 圖像，是 ImageNet 的 300 倍。

這 300M 圖像有 10 多億個標籤（單個圖像可以有多個標籤）。標記這些圖像的演算法結合了原始 Web 信號，網頁間的連接和用戶的反饋。在此基礎上，谷歌研究人員還使用了一個演算法，在這些 10 億圖像標籤中，挑選出了大約 375M 精度最大的標籤。

但是，經過這樣的操作後，標籤上仍有相當大的噪音：所選圖像 20％左右的標籤是噪音標籤。Abhinav Gupta 表示，由於沒有詳盡的注釋，他們無法估計實驗中標籤的召回率。

模型性能隨訓練數據量呈線性增長

最後，實驗結果驗證了一些假設，但同時也產生了一些驚喜：

首先，更好的表徵學習有助於提升性能。研究人員的第一個觀察是，大規模數據有助於進行表徵學習，從而提高實驗中每個視覺任務的表現。研究結果表明，共同構建一個大規模的預訓練數據集十分重要。這也表明，無監督和半監督表徵學習方法的前景光明。

此外，從實驗結果看，數據的規模會在一定程度上抵消標籤空間中的噪音。

其次，性能隨訓練數據的數量級呈線性增長。谷歌研究人員表示，也許最令他們驚訝的發現是，模型性能與用於表徵學習的訓練數據數量（log-scale）間的關係呈線性！即使在 300M 的規模，也沒有觀察到什麼平台。

在 JFT-300M 不同子集上的預訓練後，進行物體檢測的性能。x 軸表示對數刻度的數據集大小，y 軸是 COCO-minival 子集中 mAP@[0.5，0.95]中的檢測性能。

容量至關重要。為了充分利用 300M 的圖像，需要更高容量（更深）的模型。例如，COCO 對象檢測基準的增益，使用 ResNet-50（1.87％）相比 ResNet-152（3％）要小得多。

此外，使用 JFT-300M 的新數據集，谷歌研究人員在好幾個基準上都取得了當前最佳結果。例如，單一模型 COCO 檢測基準從 34.3 AP 提升為 37.4 AP。

谷歌的目標：10億+ 規模數據集

Gupta 補充強調說，由於沒有搜索最佳的超參數集合（因為需要相當大的計算量），所以本次實驗得出的結果很可能還不是最佳。也就是說，這次他們的實驗可能還沒有完全將數據對性能的影響表現出來。

由此，Gupta 指出，雖然難度很大，但獲取針對某一任務的大規模數據應當成為未來研究的重點。

在模型越來越複雜的現在，谷歌的目標是——朝著 10 億+ 的數據集前進。

Reddit 評論：不需要那麼大的數據集，需要更高效的演算法模型

Reddit 上網友對谷歌這篇新論文有很多討論。新智元摘選其中有代表的觀點。其中，獲得點贊數最多的評論來自網友 gwern：

「性能提升的表格看起來很棒。他們也提到，斜線很可能比看起來的更陡（改進的程度可能比看起來的高），因為他們既沒有訓練多個模型來進行收斂，也沒有進行超參數搜索。聽到「數據的非理性效應」依然有效，這很好。

「但是，另一方面，在回答問題的方法上。這一研究使用了50 顆 K80 GPU（計算等於8.3 GPU年），但是他們還不能訓練一個101層的Resnet模型，來實現收斂或者是回答計劃的問題，更不用說進行超參數搜索或使用1000層的Resnet或者Densenet或者Attention以及其他的你用最新的CNN能夠完成的事，來進行實驗。

「如果一個谷歌聯合CMU的團隊，再加上如此強大的計算資源，都不能利用好300M的圖像，那其他人為什麼會需要這一數據集，或者其他類似的東西。確實，GPU和模型大小已經在增長，但是，最開始的ImageNet都需要好幾天的訓練才能完成，所以，在300M的的數據集變得可行前，你需要擁有許多英偉達的產品。

「所以，答案是：一般的數據用於圖像處理任務已經足夠，所以，更大型的，類似ImageNet的數據集其實是不需要的，因為沒有人可以用這些數據集產生有意義的結果。實際上，人們需要的是一個現有計算能力更能支撐的、聯網效果更好的、更加高效的模型、更高質量的綜合數據集（例如，清洗過的標籤、更濃密的注釋等），或者更加專業化的數據。」

此外，網友 bbateman2011 回復：

「我的觀點是，巨頭公司們可以利用的資源是我們大多數人永遠得不到的。因此，機器學習的大部分工作中，並沒有足夠的資源來使用超巨量的數據。因此，重要的是少量數據的邊際改進，即，假如有一個學習曲線，對於給定類別的數據和演算法，它可以怎樣改進。這是有價值的。老實說，我沒有仔細閱讀論文，不清楚它具體做了什麼。但是，在改進中達到一個 noise floor 之後，再使用更多的數據會更好。」

論文：再探深度學習時代數據的超凡有效性

摘要

深度學習在視覺上的成功要歸功於：（a）高容量的模型；（b）越來越強的計算能力；（c）可用的大規模標籤數據。從2012年開始，業界在實現模型能力和GPU的計算能力上獲得了顯著的進步。但是，令人震驚的是，最大的數據集的規模卻一直沒發生多大的變化。如果我們將數據集的大小增加10倍或100倍，會發生什麼？本研究在掃清圍繞「海量數據」和深度學習之間的關係的烏雲邁進了一步。

JFT-300M數據集包含了對3億張圖片的3.75億個標籤，通過對這一數據集進行研究，我們調查了，如果這些數據被用於表徵學習的話，當下的視覺任務表現會迎來哪些改變。研究發現了幾個意外（也有期待之中）的結果：第一，根據訓練數據規模的數量級增長，視覺任務的表現依然會有線性的增長；第二，研究也證明，表徵學習（或者預訓練）仍然還有很大的潛力。任何一個人都能僅僅通過訓練一個更好的基礎模型改進任何視覺任務的表現。我們用這一大型數據集得到了提不同視覺任務的新的最新技術結果，包括圖像分類，對象檢測，語義分割和人體姿態估計。

我們真誠的希望，這將激發視覺界不要低估數據的價值，並形成共同的努力來構建更大的數據集。

點擊閱讀原文查看新智元招聘信息

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 新智元 的精彩文章:

※孫劍團隊提出移動端神經網路，優於谷歌MobileNet
※AI TOP10 華為推AI處理器李彥宏首度回應五環違章
※「10億+數據集，ImageNet千倍」深度學習未來，谷歌認數據為王
※「谷歌大腦實習一周年」50 篇論文看機器學習、計算機視覺和自然語言趨勢
※CVPR清華大學研究，高效視覺目標檢測框架RON

TAG:新智元 |

您可能感興趣

※Metricstory獲200萬美元融資，用AI和機器學習解讀數據
※AMD 7nm Vega 20為深度學習優化：Vega 12或接班北極星
※Github 「stars」平均 3558，最棒的 30 個機器學習實例
※請收下這份2018學習清單：150個最好的機器學習，NLP和Python教程
※強化學習訓練Chrome小恐龍Dino Run：最高超過4000分
※Wikibon：2018大數據和機器學習的預測
※對比了 18000 個 Python 項目，這 TOP45 值得學習！
※P52-II拍攝計劃 Week10-我生命中最美的兩個字：學習！
※2018 年學習 Python 的理由
※為AI創企搭建自我學習網路，Mist Systems獲4600萬美元C輪融資
※谷歌利用機器學習刪除了Google Play中的70萬個垃圾應用，同比2016年增加了70％
※CVPR 2018論文解讀 | 學習在黑暗中看世界（Learning to See in the Dark）
※Gartner：2018年數據科學和機器學習平台魔力象限
※教程 | 強化學習訓練Chrome小恐龍Dino Run：最高超過4000分
※吳恩達最新深度學習課程：斯坦福2018—Andrew Ng、Kian Katanforoosh主講
※深度學習GPU環境Ubuntu16.04＋GTX1080＋CUDA9＋cuDNN7＋TensorFlow1.6環境配置
※為什麼要在2018年學習Python？
※2018年為什麼要學習Python？Python還有前景嗎？
※《跟隨霄，LAMMPS源碼學習06》Atom：grow
※視頻線上學習平台Career Anna完成3000萬盧比融資