當前位置:
首頁 > 科技 > 全球最大的圖像識別資料庫ImageNet不行了?谷歌DeepMind新方法提升精度

全球最大的圖像識別資料庫ImageNet不行了?谷歌DeepMind新方法提升精度

新智元原創

編輯:元子

【新智元導讀】來自蘇黎世谷歌大腦和DeepMind London的研究人員認為,世界上最受歡迎的圖像資料庫之一ImageNet需要改造。ImageNet是一個無與倫比的計算機視覺數據集,擁有超過1400萬張標記圖像。它是為對象識別研究而設計的,並按照WordNet的層次結構進行組織。層次結構的每個節點都由成百上千的圖像描述,目前每個節點平均有超過500個圖像。

將時間倒回15年前,2005年,還是一個被演算法統治的年代。

剛剛拿到加州理工電子工程學博士學位,到伊利諾伊州香檳分校擔任教職的李飛飛敏銳的發現了「演算法為王」的局限性,開始研究演算法的基石:數據集。

此後,全世界最大的圖像識別數據集「ImageNet」誕生。

ImageNet的出現,伴隨著一個非常宏大的野心。完整版ImageNet擁有超過1400多萬幅圖片,涉及2萬多個類別標註,超百萬邊界標註。

2010年到2017年期間,圍繞ImageNet共舉辦了8屆 Large Scale Visual Recognition Challenge,包括圖像分類,目標檢測,目標定位單元。

?

2017年,挑戰賽完結。八年來,參賽選手將演算法正確識別率從71.8%提升到97.3%,這樣的精度甚至已經將我們人類自己都遠遠的甩在後面。同時,也證明了數據集越大、效果越好。

近十年來,ImageNet一直是人工感知研究的核心測試平台,它的規模和難度凸顯了機器學習領域的里程碑式成就。

但Google和DeepMind的科學家卻認為,已有的ImageNet有些落伍了。他們發現,原始的ImageNet標籤不再是新標註的最佳預測者,已經被最近的高績效模型系統性地超越了。

ImageNet標籤出了哪些問題?

每幅圖像只有單一標籤

現實世界中的圖像通常包含很多標籤,但是ImageNet對每幅圖像只分配了一個標籤,這就導致圖像內容的嚴重表達不足。比如下圖第一行,每幅圖只標記了一個物體,圖中很多物體都被遺漏了。

標籤建議限制性過強

ImageNet注釋流程是在互聯網上查詢制定類的圖像,然後詢問人工評審員該類是否確實存在於當前圖像中。

雖然這個過程會產生合理的圖像描述,但也會導致不準確的情況。當單獨考慮時,一個特定的標籤建議,看起來可能是對圖像的合理描述;然而當與其他ImageNet類一起考慮時,這種描述馬上就顯得不那麼合適了。

比如上圖中間一行第二個更準確的標註應該是「水瓶」,然而從單張圖片來看,你說它是水桶也說得過去。最後一個其實是「校車」,但校車上的人,不論是學生還是老師,也都是passenger呀。

分類時的消歧義

例如最下一行中間,laptop的分類雖然是沒錯,但卻忽略了notebook、Computor也同樣可以指代同一個對象。如果我們能夠將這些標籤都用上,顯然可以更精準的描述一個物體。

新方法如何改進ImageNet的缺陷

知道了癥結所在,接下來就對症下藥了。

考慮到孤立地分配一個標籤所產生的偏差,Google和DeepMind的研究團隊設計了一個標籤程序,它能捕獲ImageNet數據集中內容的多樣性和多重性。

並尋求一種範式,允許人類注釋者同時評估一組不同的候選標籤,又能保持proposal的數量足夠小,以實現穩健的注釋。

? ?

?

在模型子集上進行窮盡式搜索,以找到一組能達到最高精度,同時保持97%以上的召回率的模型子集。

在此基礎上,科學家找到了一個6個模型的子集,它生成的標籤proposal具有97.1%的召回率和28.3%的精度,將每個圖像的平均proposal標籤數從13個降低到7.4個。從這個子集中,使用上述相同的規則,為整個驗證集生成proposal標籤。

在獲得了整個驗證集的新的候選標籤集後,首先評估哪些圖像需要由人工進行評估。在所有模型都與原始ImageNet標籤一致的情況下,就可以安全地保留原始標籤而不需要人工重新評估,這樣就將需要標註的圖像數量就從50000張減少到24889張。

進一步根據WordNet的層次結構,將超過8個標籤建議的圖像分成多個標籤任務。這就導致了37988個標籤任務。

使用眾包平台,將每個任務分配給5個獨立的真人工標註者執行。

實驗效果

下圖是在ImageNet上,由Google和DeepMind科學家提出的sigmoid loss和clean label set的Top-1精度(百分比)。

可以看出,無論是sigmoid loss還是clean label set都比Benchmark優秀,而同時使用這兩種方法獲得了最好的性能。新方法在較長的訓練計划下,其改進更為明顯。

但是在存在雜訊數據的情況下,較長的訓練計劃可能是有害的,科學加期望清洗 ImageNet 訓練集(或使用 sigmoid 損失)能在這種情況下產生額外的好處。

在後續的實驗中,科學家發現ReaL標籤可以更正超過一半的ImageNet標籤錯誤,這意味著ReaL標籤提供了對模型準確性的更優越估計。

論文地址:

https://arxiv.org/pdf/2006.07159.pdf

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!


請您繼續閱讀更多來自 新智元 的精彩文章:

SpaceX正式開啟「太空拼車」時代:第九批一箭61顆,起步價僅100萬美元
薄言AI再升級,全面改進Transformer類預訓練模型,自然語言任務超越BERT