「數據為王」是真的嗎?谷歌輕撫著100倍的數據量點了點頭
雷鋒網 AI 科技評論按:過去十年里,研究人員在計算視覺領域取得了巨大的成功,而這其中,深度學習模型在機器感知任務中的應用功不可沒。此外,2012 年以來,由於深度學習模型的複雜程度不斷提高,計算能力大漲和可用標記數據的增多,此類系統的再現能力也有了較大進步。
不過在這三個輔助條件中,可用數據集的發展速度並沒有跟上模型複雜度(已經從7 層的 AlexNet 進化到了 101 層的 ResNet)和計算能力的提高速度。2011 年時,用於訓練 101 層 ResNet 模型的依然是只有 100 萬張圖片的 ImageNet。因此,研究人員一直有個想法,如果能將訓練數據擴容 10 倍,準確率能翻番嗎?那麼擴容 100 倍或 300 倍又能得到什麼樣的成果呢?我們能突破現有的準確率平台期嗎?數據的增多是否能帶來更多突破?
過去五年中,GPU 的計算能力和模型的大小在不斷提高,但數據集的規模卻在原地踏步
在《重新審視深度學習時代數據的非理性效果》(Revisiting Unreasonable Effectiveness of Data in Deep Learning Era)這篇論文中,研究人員先是吹散了圍繞在海量數據和深度學習關係周圍的迷霧。他們的目標是探尋如下問題:
1. 如果給現有演算法源源不斷的加標籤圖片,它們的視覺再現能力會繼續提高嗎?
2. 在類似分類、目標檢測和圖像分割等視覺任務中,數據和性能間關係的本質是什麼?
3. 在計算視覺應用中,能應對所有問題的頂尖模型是否用到了大規模學習技術呢?
不過,在考慮以上這些問題前,我們先要考慮去哪找這個比 ImageNet 大 300 倍的數據集。谷歌一直在努力搭建這樣一個數據集,以便提升計算視覺演算法。具體來說,谷歌的數據集 JFT-300M 已經有 3 億張圖片,它們被分為 18291 個大類。負責為這些圖片加標籤的是一個專用演算法,它用到了原始網路信號、網頁關係和用戶反饋等一系列信息。
完成加標籤的工作後,這 3 億張圖片就有了超過 10 億個標籤。而在這些標籤中,大約有 3.75 億個被負責標籤精度的演算法選了出來。不過即使這樣,整個數據集中的標籤依然存在不少雜訊(noise)。初步估算的數據顯示,被選中圖片的標籤中有 20% 都屬於雜訊範圍,由於缺乏詳盡的注釋,因此研究人員無法精確判斷到底那些標籤應該被取消。
進行了一番實驗後,研究人員驗證了一些假設,同時實驗還帶來一些意想不到的驚喜:
1. 更好的表徵學習輔助效果。實驗顯示,大規模數據集的使用能提升表徵學習的效果,反過來還提高了視覺任務的表現。因此,在開始訓練前搭建起一個大規模的數據集還是相當有用的。同時,實驗也表明,無監督和半監督表徵學習前途無量。此外,只要數據規模起來了,雜訊問題就變得不再重要了。
2. 性能會隨著訓練數據數量級實現線性增長。也許整個實驗最驚人的發現就是視覺任務中的性能和用於表徵學習的訓練數據規模間的關係了。它們之間居然有著異常線性的關係,即使訓練圖片多達 3 億張,實驗中也沒有出現平台期效應。
3. 容量非常重要。在實驗中,研究人員還發現,想要充分利用這個巨大的數據集,模型的深度和容量必須足夠大。舉例來說,ResNet-50 在 COCO 目標檢測基準上就只有 1.87%,而 ResNet-152 就有 3%。
4. 新成果。在本篇論文中,研究人員還在 JFT-300M 數據集訓練的模型中發現了不少新成果。舉例來說,單個模型已經可以達到 37.4 AP,而此前的 COCO 目標檢測基準只有 34.3 AP。
需要注意的是,在實驗中用到的訓練制度、學習安排和參數設置都是基於此前對 ConvNets 訓練的理解,當時的數據集還是只有 100 萬張圖片的 ImageNet。在工作中,研究人員並沒有用到超參數的最優組合,因此最終得到的結果可能並不完美,所以數據的真實影響力在這裡可能還被低估了。
這項研究並沒有將精力集中在特定任務數據上。研究人員相信,未來獲取大規模的特定任務數據將成為新的研究重心。
此外,谷歌那個擁有 3 億張圖片的數據集並不是終極目標,隨著技術的發展,建設 10 億+圖片數據集的任務應該提上日程了。雷鋒網 AI 科技評論表示對此拭目以待。
論文地址:https://arxiv.org/abs/1707.02968
via Google Research,雷鋒網 AI 科技評論編譯


TAG:雷鋒網 |
※這是一份數據量達41.7萬開源表格數據集
※FB泄露數據量超8700萬 用戶數據或在俄羅斯
※重磅!上交大知識圖譜AceKG發布,超1億實體,近100G數據量
※未來中國數據量將超美國;巴菲特四季度股票資產縮水380億美元;
※美國大批博彩網站信息泄露,數據量多達1.08億條
※數據量爆發的時代,一款14TB硬碟能做什麼?
※未來中國數據量將超美國;巴菲特四季度股票資產縮水380億美元,減持蘋果甲骨文
※如何在萬億級別規模的數據量上使用Spark
※統覽整個學術圈:上交大發布知識圖譜AceKG,超1億實體,近100G數據量
※指紋中隱藏的龐大數據量!
※統覽學術圈:上交大發布知識圖譜AceKG,超1億實體,近100G數據量
※數據量太大?用資料庫水平切分搞定!
※IDC:2021年雲上數據量超過傳統數據中心,All in Cloud是趨勢
※IDC:2021年雲上數據量超過傳統數據中心 All in Cloud是趨勢
※如何減少R-CNN的計算數據量和內存要求?
※博世中國徐大全:跨界聯手為了擴大數據量,中國車市未來10年保持低增長
※自媒體內容創作中哪些熱點不能追?提升數據量要注意這些問題!水墨自媒體分享
※加密貨幣可望擺脫專業礦機?MIT人員開發Vault,數據量減少99%
※雲存儲和雲備份廠商Backblaze數據量突破500PB
※威馬汽車沈暉:只要數據量夠了機器會比人開車安全