CVPR專題：大規模視覺理解競賽WebVision冠軍分享

新聞 07-24

新智元報道 - CVPR 2017 專題

作者：聞菲

【新智元導讀】ImageNet 競賽在今年正式完結。那麼，圖像識別未來的重點將是什麼，ImageNet 競賽之後又會出現什麼呢？WebVision 競賽被譽為接棒 ImageNet的大規模圖像識別競賽，今年有 100 多個團隊參與。本文介紹 WebVision 競賽，後附冠軍團隊碼隆科技的技術分享。

GIF/38K

2017 年 7 月 26 日，CVPR 2017 研討會「超越 ILSVRC」將正式宣布 ImageNet 競賽結束。然而，這並不代表著領域對圖像識別興趣的消退。實際上，相關的關注度正在走高。

ImageNet 競賽對計算機視覺尤其是圖像識別技術的發展起到了很大貢獻，其中，擁有大規模人工標註數據集這一點十分關鍵。但是，收集由人工精心標註的數據用於訓練成本高昂。很多實際領域，如商業、金融、醫療等，面臨的問題不是缺少數據，而是數據缺乏專家標註和標註不統一。因此，越來越多的研究者開始關注利用低成本數據（比如不含人工注釋的數據）來訓練圖像識別系統。

在不同的解決方案中，從互聯網抓取數據和使用網路作為學習深度表徵的監督來源在各種計算機視覺應用中都顯示出了很強的實用性。

今年上半年，蘇黎世聯邦理工大學聯合谷歌蘇黎世研究院等機構發布了一個名為 WebVision 的大規模 Web 圖像數據集，用於視覺識別。基於此數據集，他們還舉辦了一個視覺理解挑戰「Challenge on Visual Understanding by Learning from Web Data」，也即 WebVision 競賽。

接棒 ImageNet 的 WebVision 競賽：難度更高，更貼近實用

WebVision 競賽由蘇黎世聯邦理工（ETH）、Google Research、卡耐基梅隆大學（CMU）等共同組織，被譽為接棒 ImageNet 的競賽。ImageNet 和 WebVision 皆專註於物體識別，使用相同的 1000 個物體類別進行識別競賽；但兩者數據的純度和平衡度有根本差異。

WebVision 所用數據集直接從互聯網爬取，沒有經過人工標註，數據含有很多噪音，且數據類別的數量存在著極大不平衡，相較於 ImageNet 比賽數據都屬乾淨數據（完全人工標註），WebVision 難度提高許多，但同時也更加貼近於實際應用中的場景。

據悉，WebVision 資料庫涵蓋了直接從網路收集到的 240 萬張圖像，包括來自谷歌搜索的 100 萬張，以及來自 Flickr 的 140 萬張圖像。

此次WebVision資料庫有極大的不平衡性

這次全球有超過 100 個團隊註冊參加 WebVision 競賽，並因為參賽團隊過多一度將比賽截止日期延期。一些團隊在比賽後選擇匿名並不公開結果，在公開提交結果的團隊中，SnapChat、清華大學、上海科技大學、UCF 等來自世界各國的頂尖學術和研發機構均榜上有名。

全球有超過 100 個團隊註冊參加此次 WebVision 競賽

有越來越多的觀點認為，最近兩屆的 ImageNet 挑戰賽更多比拼的是人力與機器算力，而不是演算法本身。 ImageNet 的既定資料庫已經很難催生突破性深度學習技術。或許，這也是 WebVision 競賽有眾多團隊參與的原因之一。WebVision 更加複雜和不平衡的資料庫更具有演算法挑戰性，也會驅動演算法的創新。

冠軍團隊技術分享

值得一提，來自中國的初創公司團隊碼隆科技取得了這次 WebVision 競賽的第一名，他們提交的五次識別結果正確率，佔據了全部識別結果正確率排名的前五名，並且最佳結果（94.78%）比第二名高出 2.5%，這在計算機視覺的技術競賽領域是很大優勢（去年 ImageNet 圖像識別比賽第一名只比第二名高出 0.04%）。

碼隆科技的演算法工程師在接受新智元採訪時表示，由於 WebVision 和 ImageNet 相比，主要挑戰是數據沒有經過人工標註，含有大量的噪音，所以他們採用了半監督學習的方式。

研究人員首先利用所有的元數據訓練一個粗模型，利用這種粗模型對所有元數據提取一種特徵表示。然後，引入課程學習（curriculum learning），設計了一種聚類演算法，將每一個元數據類別聚成了不同層次的類別，其中有一個類別屬於比較乾淨的類別。然後，利用這個這組乾淨的數據訓練一個精細模型。通過逐步增加雜訊數據的數量，提升模型複雜度和泛化能力。

對於獲勝得到的最大啟發，碼隆演算法團隊表示：

「這個比賽最大的目的就是如何利用非人工標註的數據來訓練一個更好的深度模型。在比賽初期，我們通過仔細審查的舉辦方的數據，發現數據裡面有非常大比例的數據標註是錯誤的。於是，我們摸索了一種針對含有雜訊數據的訓練策略，該訓練策略第一次將半監督學習（Semi-Supervised Learning）與課程學習（curriculum learning （2009 年由 Y. Bengio 等提出）這種學習方式引入到大規模的雜訊數據訓練中。

「新設計的演算法策略有效地抑制錯誤標註的負面影響。最重要的是，這種演算法能夠有效地利用這些錯誤標籤來大大提升模型的魯棒性，同時讓所訓練的模型比用 ImageNet 人工標註數據所訓練的模型具有更好的泛化能力，具有更強的通用性，能夠更好的遷移到其他相關任務。」

WebVision 競賽結果表明，現代深度學習技術可以不完全以人工標註數據為基礎，為今後研究通用的半監督和無監督學習打開了一扇門，也為弱人工智慧到強人工智慧的發展邁出重要一步。

超越 ILSVRC：側重圖像學習和理解的 WebVision 競賽

摘要

我們提出 2017 年 WebVision 競賽，這是一項公開的圖像識別挑戰賽，旨在基於網頁圖像進行深度學習，而無需人手工對實例進行標註。此前的計算機視覺挑戰賽，如 ILSVRC、Places2 和 PASCAL VOC，通過提供大量的注釋數據，用於模型設計和標準化的基準測試，為計算機視覺的發展發揮了關鍵作用。為了延續它們的精神，我們在本屆 CVPR 2017 舉辦研討會，進行一項基於大規模網路圖像數據集的公開競賽。WebVision 數據集包含從互聯網上用爬蟲收集的 240 多萬的網路圖像，方法是使用從 ILSVRC 2012 基準中的 1000 個語義概念生成的查詢（query）。元信息（Meta information）也包含在內。

此外，WebVision 數據集也提供檢驗數據集和測試數據集，這些數據集中的數據都帶有人手工標註的標籤，從而便於演算法的開發。2017 年 WebVision 挑戰賽分為兩類，一是在 WebVision 測試數據集上進行圖像分類，以及在 PASCAL VOC 2012 數據集上進行遷移學習。在本文中，我們描述了數據收集和注釋的細節，突出了 WebVision 數據集的特點，並介紹了相關評估指標。

【號外】新智元正在進行新一輪招聘，飛往智能宇宙的最美飛船，還有N個座位

點擊閱讀原文可查看職位詳情，期待你的加入~

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 新智元 的精彩文章:

※新智元百人會：七高手縱論人機交互與終端智慧化現狀與痛點
※谷歌官方CVPR最強總結：5位主席21篇論文，最關注數據
※自然語言處理領軍人劉兵：沒有終身學習，機器不可能智能｜新智元專訪
※科技部：歡迎谷歌、亞馬遜等人工智慧領先企業在華設立研發機構
※「致敬ImageNet」ResNet 6大變體：何愷明，孫劍，顏水成引領計算機視覺這兩年

TAG:新智元 |

您可能感興趣

※如何理解 NVIDIA新GPU 架構 Turing的Tensor Core？
※代碼詳解：通過模擬API來理解TensorFlow
※Windows PowerShell進階理解Module
※用汽車比喻理解OOP-Jonathan Kuhl
※簡單理解Vue中的nextTick
※阿里CEO張勇：我們理解AI是Alibaba Intelligence
※深入理解 Web Server 原理與實踐：Nginx
※如何理解華為榮耀的CPU Turbo和GPU Turbo？
※何愷明CVPR演講：深入理解ResNet和視覺識別的表示學習（41 PPT）
※我所理解的 Smartisan OS
※Kaggle 新賽：第二屆 YouTube-8M 視頻理解挑戰賽
※從消費者心理，理解CMF在產品設計的角色【Henry專欄 vol.3】
※理解並實現 ResNet（Keras）
※我所理解的＃ShotoniPhone
※Cookie，Session和Token概念的正確理解
※Naturali CTO、ACL Fellow林德康：探索問答系統和機器閱讀理解
※快速理解Token，Cookie，Session
※深入理解 ES Modules
※Foreign Policy：中美對國際秩序的理解迥異
※宏鏈CSM＠Customer雲服務管理解決方案