當前位置:
首頁 > 新聞 > 李飛飛深情回顧ImageNet 8年:改變AI和世界的數據

李飛飛深情回顧ImageNet 8年:改變AI和世界的數據

【新智元招聘】AI 盛夏,星艦啟航。《新一代人工智慧發展規劃》發布之際,新智元也正式入駐融科資訊中心 B 座,整裝待發。天時地利,星辰大海,我們召喚你——新船員的加入!COO、總編、主筆、內容運營、客戶總監、客戶經理、視覺總監(兼職) 7 大職位招聘全新啟動。點擊文末 閱讀原文 查看詳情。

簡歷投遞:jobs@aiera.com.cn HR 微信:Dr-wly

1 新智元專訪

來源:QZ

作者:Dave Gershgorn

編譯:聞菲 熊笑

【新智元導讀】今天,ImageNet 創始人李飛飛在 CVPR「超越 ILSVRC」 workshop 介紹了最後一屆 ImageNet。回顧過去 8 年,計算機視覺中一個最艱深的學術命題物體識別被攻克,神經網路和深度學習重新定義了人工智慧的方法論。李飛飛在接受新智元採訪時談了這 8 年裡她印象最深的兩件事——在線眾包平台 Amazon Mechanical Turk 的發現和深度學習的應用,前者令她意識到構建 ImageNet 大規模數據集的可行性,後者開啟了深度學習乃至人工智慧新的篇章。

在 CVPR 會議期間,計算機視覺期刊 IJCV 舉辦了 IJCV Asia Night 學術主題活動,李飛飛作為當晚嘉賓,對一些曾給予她幫助的朋友和同事表示了真摯的感謝,其中包括 UC 伯克利教授 Jitendra Malik,李飛飛稱他是在 CV 和 AI 方面對她啟發最大的人之一;UCLA 終身教授朱松純,李飛飛認為他在計算機視覺領域的思考和研究對她也有巨大的啟發;中國工程院、中國科學院外籍院士黃煦濤,李飛飛在 UIUC 獲得的第一份教授職位在很大程度上得到了他的提攜;微軟全球執行副總裁沈向洋,他在李飛飛去谷歌時給出了很好的建議;普林斯頓大學的李凱,他在李飛飛開始做 ImageNet 時給予了巨大的鼓勵和支持。另外,李飛飛特別提到了,她一共有 23 個學生和博士後是亞洲血統,他們來自中國、印度、日本、韓國、伊朗等等。李飛飛特別對她的兩個學生鄧嘉和李佳表示了感謝。李飛飛引用了蜘蛛俠的名言「能力越大,責任越大」,指出人工智慧工作者重任在肩。李飛飛同時指出,中國是世界上第一個發布人工智慧白皮書的國家,領先於美國、英國和所有業界力量看到人工智慧的潛能。李飛飛引用了現代哲學家 Shannon Vallor 的話作為她分享的結束語:機器沒有獨立的價值觀,機器的價值觀就是人類的價值觀。

如今看,ImageNet 及其競賽的重要性已經不言而喻,但實際上,從更長的周期看,ImageNet 系列工作對計算機視覺、機器學習、人工智慧乃至人類進步的影響都更為巨大——ImagNet 數據集讓人們意識到,構建優良數據集的工作是 AI 研究的核心,數據和演算法一樣至關重要。ImageNet 開源開放的原則也代表了 AI 研究的根本,我們需要讓所有人都參與開發更好的 AI 演算法和模型。

本文後附李飛飛今天在最後一屆 ImageNet workshop 的演講 PPT。

GIF/38K

2006 年,李飛飛開始反覆思考一個問題。

當時的李飛飛才剛剛在伊利諾伊大學香檳分校(UIUC)任教,她看到整個學界和工業界普遍流行一種想法,都在致力於打造更好的演算法,認為更好的演算法將帶來更好的決策,不論數據如何。

但李飛飛意識到了這樣做的局限——即使是最好的演算法,如果沒有好的、能夠反映真實世界的訓練數據,也沒辦法用。

李飛飛的解決方案是:構建一個更好的數據集。

「我們決定我們想做一件史無前例的事情,」李飛飛說,這裡的「我們」指的是最初與她合作的一個小團隊。「我們要詳細描繪出整個世界的物體。」

由此生成的數據集名叫 ImageNet。相關論文發表於 2009 年,最初作為一篇研究海報在邁阿密海灘會議中心的角落展示出來。但沒過多久,這個數據集就迅速發展成為一項年度競賽,衡量哪些演算法可以以最低的錯誤率識別數據集圖像中的物體。 許多人都認為 ImageNet 競賽是如今席捲全球 AI 浪潮的催化劑。

ImageNet 競賽的歷屆參賽成員散布在科技界的每一個角落。2010 年比賽第一名的獲獎者,之後依次在百度、谷歌和華為擔任要職。2013 年 ImageNet 獲獎者 Matthew Zeiler 根據他的獲獎方案建立了 Clarifai,現在得到了 4000 萬美元的風險投資支持。2014 年,來自牛津大學的兩名研究人員和谷歌共同獲得了 ImageNet 競賽,他們迅速被吸收然後加入了 DeepMind。

李飛飛現在是谷歌雲的首席科學家、斯坦福大學教授,斯坦福 AI 實驗室的主任。

今天,她在 CVPR 上介紹 2017 年 ImageNet 的成果——而 2017 年是比賽的最後一年。在短短 7 年時間裡,物體分類冠軍的精確度從 71.8% 上升到 97.3%,超越了人類物體分類水平,也有力證明了更大的數據會帶來更好的決策。

就算 ImageNet 競爭結束,其遺產已經形成。自 2009 年以來,在計算機視覺、自然語言處理和語音識別等子領域,研究人員也引入了幾十種新的 AI 研究數據集。

「ImageNet 思維所帶來的範式轉變是,儘管很多人都在注意模型,但我們要關心數據,」李飛飛說:「數據將重新定義我們對模型的看法。

ImageNet 數據集:起初不被看好的偉大成功

在 20 世紀 80 年代後期,普林斯頓心理學家喬治·米勒(George Miller)創建了一個名為 WordNet 的項目,旨在建立一個英語層級結構。WordNet 像字典一樣,但其中單詞會被顯示為與其他單詞相關的形式,而不是依照字母順序排列。例如在 WordNet 中,「狗」這個詞將被嵌套在「犬」這個類別下,而「犬」又被嵌套在「哺乳動物」下,以此類推。這是按照機器可讀的邏輯組織的語言的一種方式,WordNet 積累了超過 155,000 個有索引的單詞。

李飛飛在 UIUC 的第一份教學工作中,一直在努力解決機器學習中的一個核心矛盾:過擬合和泛化。過擬合就是指演算法只能處理與之前見過的數據類似的數據;變化稍微大一點的問題就不能理解。另一方面,如果一個模型無法在數據之間找到正確的模式,那麼它就屬於 overgeneralizing。

李飛飛說,要找到完美的演算法似乎還很遙遠。她發現以前的數據集並沒有反映出世界的多變,就連只是識別貓的圖片都是件無限複雜的事情。但是,通過給演算法更多的樣本,向演算法展示世界是多麼複雜,演算法在數學意義上對現實有了更好的理解。如果你只看 5 張貓的照片,那麼你只知道這 5 個攝像機角度、照明條件和最多 5 種不同種類的貓。但是,如果你看過 500 張貓的照片,你就能從更多的例子中發現共同點。

李飛飛開始閱讀其他人如何構建數據集對世界進行真切表示的文獻。在這個搜索的過程中,她發現了 WordNet。

看過 WordNet 的方法後,李飛飛在 2006 年訪問普林斯頓期間,見到了 Christiane Fellbaum 教授,後者在持續構建 WordNet 方面有很大的影響力。Fellbaum 認為,WordNet 可以可以讓每個單詞都有一張相關聯的圖像,更多地作為參考而不是一個計算機視覺數據集。這次會見後,李飛飛產生了一個更宏大的想法——一個大規模的數據集,每個單詞都有很多張圖像例子。

幾個月後,李飛飛加入了她的母校普林斯頓大學任職,並於 2007 年初開始從事 ImageNet 項目。她開始建立一個團隊來做這件事情,首先找到了同校的 Kai Li 教授,後者說服博士生 Jia Deng 轉入李飛飛的實驗室。Jia Deng 一直參與 ImageNet 項目,直到 2017 年。

「對我而言,這顯然與其他人正在做的事情有很大的不同,與其他人當時關注的焦點有很大不同。」 Jia Deng 說:「我很清楚地知道這將為整個視覺研究帶來改變,但我不知道具體會如何改變。」

ImageNet 數據集中的物體(對象)將覆蓋實物(如大熊貓或教堂)到抽象概念,比如愛情。

李飛飛首先想到僱用本科生,10 美元一小時,手動查找圖像並將其添加到數據集中。但簡單的數學很快就讓李飛飛意識到,以本科生收集圖像的速度,項目需要 90 年才能完成。

在本科生工作團隊解散後,李飛飛和她的團隊又開始重新思考。如果讓計算機視覺演算法從互聯網上收集照片,人類只負責標註呢?但經過數月修改演算法後,團隊得出的結論,這種方法也不可持續——當使用這種方法構建的數據集弄好以後,未來的演算法將只能判斷演算法能夠識別的圖像。

本科生耗費時間,演算法有缺陷,團隊沒有錢——李飛飛說,項目不僅沒有贏得任何聯邦撥款,還收到很多負面評論,稱普林斯頓研究這課題太浪費(shameful),項目申請唯一可以稱道的點就是李飛飛是女人。

最終,李飛飛在跟研究生閑聊的時候意外浮現出了一個解決方案。這個研究生問李飛飛有沒有聽說過 Amazon Mechanical Turk,這項服務讓世界各地坐在電腦前的人完成一小筆小筆的在線工作。

「他向我展示了網站,就是那一天,我知道 ImageNet 項目一定能成功,」李飛飛說:「突然間,我們發現了一個可以擴展的工具,這是招聘普林斯頓的大學生完全不能想像的。」

眾包平台 Mechanical Turk 本身也帶來了一大堆問題,其中許多工作都是由李飛飛的兩名博士生學生,Jia Deng 和 Olga Russakovsky 完成的。例如,每張圖像需要多少個眾包工人來看?也許兩個人就能確定一隻貓是一隻貓,但是一張微型哈士奇的圖片可能需要 10 輪驗證。如果一些眾包工人胡亂標註怎麼辦?李飛飛的團隊最終為眾包工人的行為創建了一批統計模型,幫助確保數據集只包含正確的圖像。

即使在發現 Mechanical Turk 這個平台後,數據也花了兩年半的時間才完成。ImageNet 數據集由 320 萬個標記圖像組成,分為 5,247 個類別,歸到 12 個子例里,比如「哺乳動物」,「車輛」和「傢具」。

2009 年,李飛飛和她的團隊發表了 ImageNet 數據集的論文,基本沒有引發什麼反響。李飛飛回憶說,計算機視覺研究領域的頂級會議 CVPR,只給了那篇論文一張海報展示(poster)的位置,而不是口頭介紹(oral)。李飛飛和她的團隊在會場髮帶有 ImageNet 字樣的筆來吸引人們的興趣。當時的人都很懷疑他們更多的數據有助於開發更好演算法的看法。

「當時有人說『如果你連一個物體都做不好,為什麼要做上千乃至上萬個呢?」Jia Deng 說。

如果數據是新的原油,那麼在 2009 年,它還處於恐龍化石的形態。

ImageNet 競賽:深度學習等待已久的機遇

2009 年晚些時候,在京都舉行的計算機視覺會議上,一位名叫 Alex Berg 的研究員找到李飛飛,建議在比賽中增加一個命題,讓演算法找到圖片中物體(對象)所在的位置,而不僅僅說圖中有這麼個東西。李飛飛回應說:那你來和我一起工作吧。

於是,李飛飛、Berg 和 Deng 一起,根據數據集撰寫了 5 篇論文,探討了演算法如何解釋這樣大量的數據。第一篇論文後來成為如何處理幾千種圖像的基準,這也是 ImageNet 競賽的前身。

對於這第一篇論文,李飛飛說,「我們意識到要把這個想法推廣出去,我們需要找到更多人。」

然後,李飛飛聯繫了歐洲知名圖像識別大賽 PASCAL VOC,後者同意與 ImageNet 合作,在宣傳 ImageNet 競賽時帶上他們的名字。PASCAL 是業界知名的競賽和數據集,但代表的是以前的思維方式。這個數據集只有 20 個類別,而 ImageNet 的這個數字是 1000。

隨著 ImageNet 在 2011 年和 2012 年連續舉辦,它很快成為圖像分類演算法在處理當時最複雜視覺數據集時的基準。

不僅如此,研究人員也開始注意到更多的事情,不僅僅是競賽——他們的演算法在使用 ImageNet 數據集訓練時表現更好。

「令人驚喜的是,你可以用在 ImageNet 上訓練的模型啟動其他識別任務。你從 ImageNet 模型開始,然後微調來進行另一個任務,」Berg說:「這是神經網路的突破,也是整個視覺識別的突破。」

在第一次 ImageNet 競賽的兩年後,2012 年,發生了一件更大的事情。事實上,如果我們今天看到的人工智慧繁榮可以歸功於一個事件,那麼這件事就是 2012 年 ImageNet 競賽結果的公布。

多倫多大學的 Geoffrey Hinton,Ilya Sutskever 和 Alex Krizhevsky 提交了一個名為 AlexNet 的深度卷積神經網路架構——至今仍在研究中使用——實現了準確率 10.8% 的大幅提升,高出第二名 41%。

對於 Hinton 和他的兩個學生來說,ImageNet 的出現恰逢其時。自 20 世紀 80 年代以來,Hinton 一直致力於人工神經網路的研究,儘管有些像 Yann LeCun 一樣,能夠通過貝爾實驗室的影響將這項技術應用於 ATM 支票識別,但是 Hinton 的研究卻無處可用。幾年前,顯卡製造商英偉達的研究讓這些網路的處理速度更快,但神經網路仍然不如其他技術。

Hinton 和他的團隊表明,他們的網路可以在較小的數據集上執行較小的任務,如手寫字元檢測。但是,他們需要更多的數據才能在現實世界中有用。

「如果你在 ImageNet 上做得很好,你就能解決圖像識別問題,這是再清楚不過的。」Sutskever 說。

今天,這些卷積神經網路已經無處不在——LeCun 現在是 Facebook AI Research 的主管,Facebook 使用它們來標記你的照片,自動駕駛汽車在使用它們來檢測物體,基本上任何識別圖像和視頻的系統都使用卷積神經網路(CNN)。CNN 可以通過抓取抽象特徵分辨圖像中的內容,找到模式與新輸入的圖像模式相匹配。Hinton 幾十年來一直試圖說服同行他的研究有用,現在他終於有了證據。

「更令人驚奇的是,人們能夠通過深度學習來不斷改進,」Sutskever 說,指多層神經網路能夠處理更複雜的模式,也是現在最受歡迎的人工智慧技術。「深度學習就是我們要的東西(Deep learning is just the right stuff)。」

2012 年 ImageNet 競賽的結果使計算機視覺研究人員紛紛開始復現這一過程。紐約大學的博士生 Matthew Zeiler 曾經跟著 Hinton 學習,他發現了 ImageNet 競賽的結果,並通過多倫多大學的聯繫很早獲知了論文和代碼。他開始與 Rob Fergus 合作,Fergus 是紐約大學的教授,也一直研究神經網路。兩人開始為 2013 年的 ImageNet 競賽設計自己的方案,Zeiler 最後提前幾周結束了在谷歌實習,專註於提交 ImageNet 競賽結果。

2014 年,也就是 Zeiler 和 Fergus 獲勝那一年,所有的高分結果使用的方法都是深度神經網路。

「2012 年的 ImageNet 競賽無疑引發了 AI 大爆炸,」Zeiler 表示:「在此之前,語音識別有一些非常有希望的結果(其中許多是由多倫多大學開啟的),但是都沒有像 2012 年和接下來的 ImageNet 競賽冠軍一樣廣為流傳。」

競賽雖然結束,但 ImageNet 精神永存

現在,許多人都認為 ImageNet 已經被解決了——誤差率在 2% 左右真的很低了。但是,這是分類的結果,也就是識別圖像中的物體是什麼。這並不代表演算法知道這個物體的屬性,它來自哪裡、功能是什麼、如何使用,或者如何與其周圍環境進行交互。總之,演算法實際上並不理解它看到了什麼。這在語音識別中,甚至在很多自然語言處理中也是如此。雖然 AI 今天在分辨事物上十分厲害,但接下來要在現實世界情景中理解事物是什麼。至於怎麼做到這一點,AI 研究人員目前還不清楚。

儘管 ImageNet 競賽結束了,但 ImageNet 數據集——經過多年來更新,現在已經超過 1300 萬張圖片將會繼續。

Berg 表示,團隊試圖在 2014 年結束競賽的一個子命題,但卻遭到了來自包括谷歌和 Facebook 等公司的阻力。產業界非常喜歡這個基準,他們可以指著一個數字說:「看我們這麼牛。」

自 2010 年以來,谷歌、微軟和 CIFAR 推出了其他一些數據集,因為事實表明深度學習需要像 ImageNet 這樣的大數據。

數據集已經變得非常重要。創始人和風險投資家會在 Medium 寫文章介紹最新發布的數據集,以及他們的演算法在 ImageNet 上的表現。互聯網公司,比如谷歌、Facebook 和亞馬遜已經開始創建自己的內部數據集,數據都來自每天在他們的平台上輸入和共享的數百萬圖像、語音片段和文本片段。即使是初創公司也開始構建自己的數據集——TwentyBN,一個專註於視頻理解的 AI 初創公司,發布了兩個免費的學術數據集,每個數據集有超過 100,000 個視頻。

李飛飛說:「各種數據集,從視頻到語音到遊戲,都有很大的發展。」

有時人們理所當然的認為這些花了大力氣收集、組合、檢驗的數據集是免費的。開放和自由使用是 ImageNet 的原始宗旨,這一宗旨也將超越 ImageNet 競賽,甚至數據集傳承下去。

2016 年,谷歌發布了 Open Images 數據集,其中包含 6000 多個類別的 900 萬張圖像。谷歌最近更新了數據集,在每個圖像中包含了特定對象所在的標籤,這個特點在 2014 年的ImageNet 競賽後成了圖像數據集的標配。DeepMind 最近也發布了人類進行各種行為的視頻數據集。

「ImageNet 讓 AI 領域發生的一個重大變化是,人們突然意識到構建數據集這個苦活累活是 AI 研究的核心,」李飛飛說: 「人們真的明白了,數據集跟演算法一樣,對研究都至關重要。」

演講 PPT:IMAGENET—Where have we been?Where are we going?

李飛飛演講開始:IMAGENET,我們做了哪些事情?現在將去向何方?

開端: CVPR 2009,邁阿密

IMAGENET 的影響

IMAGENET on Google Scholar

從參賽者到初創企業

深度學習的革命,深度學習為何突然改變了你的生活

「The IMAGENET of x」

數據集的爆發 Kaggle

李飛飛演講中

「數據集—而非演算法—可能是人類水平人工智慧發展的關鍵性限制因素」

IMAGENET,不為人知的歷史

「幾乎不算是第一個圖像數據集」

視覺學習的機器學習問題

Complexity, Generalization, Overfitting

One-Shot Learning

李飛飛演講中

One-Shot Learning 演算法:貝葉斯變分推斷

孩子是如何學習去看的?

互聯網數據增長(1990-2010)

WordNet 是什麼?

Christiane Fellbaum

「Individually Illustrated WordNet Nodes」

IMAGENET Comrades

ImageNet 的建設

啟動 IMAGENET 的三次嘗試

第一次嘗試:精神物理學實驗

第二次嘗試:「人為介入」解決方案

第三次嘗試:天賜良機

2009 年,IMAGENET "Goes Live"

我們做對的一件事是...

當其他人追求細節時...

我們追求的是規模(scale)

IMAGENET 的其他目標

IMAGENET,ILSVRC 2010-2017

ILSVRC 的貢獻者

我們的靈感來源:PASCAL VOC

我們的靈感來源:PASCAL VOC,Mark Everingham

性能表現

性能表現

性能表現

我們做了什麼讓 ImageNet 變得更好

缺少細節

缺少細節...ILSVRC 檢測挑戰

ILSVRC 檢測任務的評估

10K+ classes 分類告訴了我們什麼

細粒度識別

細粒度識別

預期結果

非預期結果

Neural Nets are Cool Again!

Cooler and Cooler...

深度學習革命三要素:神經網路、互聯網圖像數據、GPU

Ontological Structure 用得不那麼多

使用 Ontology 的工作相當少

大多數工作仍在用 1M 圖像做預訓練

「我們發現在視覺任務中的表現和訓練數據集的 size 數量級成正比.」

比起人類如何?

接下來的工作

從對象識別

到人類水平的理解

Inverse Graphics

計算機視覺理解

視覺基因數據集(Visual Genome Dataset)

通過網路數據學習的視覺理解 Workshop

視覺和智能的未來

8 年 IMAGENET 競賽

IMAGENET+Kaggle

IMAGENET:貢獻者/夥伴/顧問

「這並非結束,結束甚至還沒有開始,但也許,我們已經起步。」

【號外】新智元正在進行新一輪招聘,飛往智能宇宙的最美飛船,還有N個座位

點擊閱讀原文可查看職位詳情,期待你的加入~


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 新智元 的精彩文章:

「無監督學習」我們如何教人類嬰兒學習,也如何教AI
專訪阿里AI Labs王剛:谷歌一個模型解決所有問題是不現實的
阿里AI Labs王剛:谷歌一個模型解決所有問題是不現實的
馬斯克為AI懟上扎克伯格:人工智慧威脅人類文明,歷史爭論總結

TAG:新智元 |

您可能感興趣

世界最大:Integral Memory推512GB microSD存儲卡
Integral Memory的512GB內存卡,擁有世界最大容量
Style Log | 停下快速世界,再尋那一位better woman
世界彈!BTS《MIC Drop》連續7周打入Billboard Hot 100榜
Around the World in Eighty Days環遊世界80天(2)
IKEA 創始人 Ingvar Kamprad 逝世,他讓美好設計進入全世界的尋常百姓家
跟隨87歲的Gillian Ayres,航向明媚未知的藝術世界
NF Sneaker的漫畫世界
Air 科技是世界上為數不多的新創意之一 | 專訪 Tinker Hatfield
Tinker Hatfield: Air 科技是世界上為數不多的新創意之一
Todd Hessert的數字化時裝世界
幻想世界 | 插畫設計師 Eli(quest_bread ) ?
Lux Research:未來十年,這18項技術將改變世界
世界最小VR座椅Yaw VR登陸Kickstarter,可實現3DoF追蹤
Foster The People:通過美好的聲音,讓世界變得更好一點!
世界銀行發起「AI數樹」挑戰,研究AI如何指導救災;Google Flights可預測航空公司的延誤
世界級人體工學設計:HyperX Pulsefire FPS逆火滑鼠評測
淺析minecraft我的世界
2018,不容錯過的世界人工智慧大會——AI Conference
MIT 啟動 Intelligence Quest 計劃:研究人類智能,讓全世界的機構共同合作