李飛飛深情回顧ImageNet 8年：改變AI和世界的數據

新聞 07-27

【新智元招聘】AI 盛夏，星艦啟航。《新一代人工智慧發展規劃》發布之際，新智元也正式入駐融科資訊中心 B 座，整裝待發。天時地利，星辰大海，我們召喚你——新船員的加入！COO、總編、主筆、內容運營、客戶總監、客戶經理、視覺總監（兼職） 7 大職位招聘全新啟動。點擊文末閱讀原文查看詳情。

簡歷投遞：jobs@aiera.com.cn HR 微信：Dr-wly

1 新智元專訪

來源：QZ

作者：Dave Gershgorn

編譯：聞菲熊笑

【新智元導讀】今天，ImageNet 創始人李飛飛在 CVPR「超越 ILSVRC」 workshop 介紹了最後一屆 ImageNet。回顧過去 8 年，計算機視覺中一個最艱深的學術命題物體識別被攻克，神經網路和深度學習重新定義了人工智慧的方法論。李飛飛在接受新智元採訪時談了這 8 年裡她印象最深的兩件事——在線眾包平台 Amazon Mechanical Turk 的發現和深度學習的應用，前者令她意識到構建 ImageNet 大規模數據集的可行性，後者開啟了深度學習乃至人工智慧新的篇章。

在 CVPR 會議期間，計算機視覺期刊 IJCV 舉辦了 IJCV Asia Night 學術主題活動，李飛飛作為當晚嘉賓，對一些曾給予她幫助的朋友和同事表示了真摯的感謝，其中包括 UC 伯克利教授 Jitendra Malik，李飛飛稱他是在 CV 和 AI 方面對她啟發最大的人之一；UCLA 終身教授朱松純，李飛飛認為他在計算機視覺領域的思考和研究對她也有巨大的啟發；中國工程院、中國科學院外籍院士黃煦濤，李飛飛在 UIUC 獲得的第一份教授職位在很大程度上得到了他的提攜；微軟全球執行副總裁沈向洋，他在李飛飛去谷歌時給出了很好的建議；普林斯頓大學的李凱，他在李飛飛開始做 ImageNet 時給予了巨大的鼓勵和支持。另外，李飛飛特別提到了，她一共有 23 個學生和博士後是亞洲血統，他們來自中國、印度、日本、韓國、伊朗等等。李飛飛特別對她的兩個學生鄧嘉和李佳表示了感謝。李飛飛引用了蜘蛛俠的名言「能力越大，責任越大」，指出人工智慧工作者重任在肩。李飛飛同時指出，中國是世界上第一個發布人工智慧白皮書的國家，領先於美國、英國和所有業界力量看到人工智慧的潛能。李飛飛引用了現代哲學家 Shannon Vallor 的話作為她分享的結束語：機器沒有獨立的價值觀，機器的價值觀就是人類的價值觀。

如今看，ImageNet 及其競賽的重要性已經不言而喻，但實際上，從更長的周期看，ImageNet 系列工作對計算機視覺、機器學習、人工智慧乃至人類進步的影響都更為巨大——ImagNet 數據集讓人們意識到，構建優良數據集的工作是 AI 研究的核心，數據和演算法一樣至關重要。ImageNet 開源開放的原則也代表了 AI 研究的根本，我們需要讓所有人都參與開發更好的 AI 演算法和模型。

本文後附李飛飛今天在最後一屆 ImageNet workshop 的演講 PPT。

GIF/38K

2006 年，李飛飛開始反覆思考一個問題。

當時的李飛飛才剛剛在伊利諾伊大學香檳分校（UIUC）任教，她看到整個學界和工業界普遍流行一種想法，都在致力於打造更好的演算法，認為更好的演算法將帶來更好的決策，不論數據如何。

但李飛飛意識到了這樣做的局限——即使是最好的演算法，如果沒有好的、能夠反映真實世界的訓練數據，也沒辦法用。

李飛飛的解決方案是：構建一個更好的數據集。

「我們決定我們想做一件史無前例的事情，」李飛飛說，這裡的「我們」指的是最初與她合作的一個小團隊。「我們要詳細描繪出整個世界的物體。」

由此生成的數據集名叫 ImageNet。相關論文發表於 2009 年，最初作為一篇研究海報在邁阿密海灘會議中心的角落展示出來。但沒過多久，這個數據集就迅速發展成為一項年度競賽，衡量哪些演算法可以以最低的錯誤率識別數據集圖像中的物體。許多人都認為 ImageNet 競賽是如今席捲全球 AI 浪潮的催化劑。

ImageNet 競賽的歷屆參賽成員散布在科技界的每一個角落。2010 年比賽第一名的獲獎者，之後依次在百度、谷歌和華為擔任要職。2013 年 ImageNet 獲獎者 Matthew Zeiler 根據他的獲獎方案建立了 Clarifai，現在得到了 4000 萬美元的風險投資支持。2014 年，來自牛津大學的兩名研究人員和谷歌共同獲得了 ImageNet 競賽，他們迅速被吸收然後加入了 DeepMind。

李飛飛現在是谷歌雲的首席科學家、斯坦福大學教授，斯坦福 AI 實驗室的主任。

今天，她在 CVPR 上介紹 2017 年 ImageNet 的成果——而 2017 年是比賽的最後一年。在短短 7 年時間裡，物體分類冠軍的精確度從 71.8％上升到 97.3％，超越了人類物體分類水平，也有力證明了更大的數據會帶來更好的決策。

就算 ImageNet 競爭結束，其遺產已經形成。自 2009 年以來，在計算機視覺、自然語言處理和語音識別等子領域，研究人員也引入了幾十種新的 AI 研究數據集。

「ImageNet 思維所帶來的範式轉變是，儘管很多人都在注意模型，但我們要關心數據，」李飛飛說：「數據將重新定義我們對模型的看法。」

ImageNet 數據集：起初不被看好的偉大成功

在 20 世紀 80 年代後期，普林斯頓心理學家喬治·米勒（George Miller）創建了一個名為 WordNet 的項目，旨在建立一個英語層級結構。WordNet 像字典一樣，但其中單詞會被顯示為與其他單詞相關的形式，而不是依照字母順序排列。例如在 WordNet 中，「狗」這個詞將被嵌套在「犬」這個類別下，而「犬」又被嵌套在「哺乳動物」下，以此類推。這是按照機器可讀的邏輯組織的語言的一種方式，WordNet 積累了超過 155,000 個有索引的單詞。

李飛飛在 UIUC 的第一份教學工作中，一直在努力解決機器學習中的一個核心矛盾：過擬合和泛化。過擬合就是指演算法只能處理與之前見過的數據類似的數據；變化稍微大一點的問題就不能理解。另一方面，如果一個模型無法在數據之間找到正確的模式，那麼它就屬於 overgeneralizing。

李飛飛說，要找到完美的演算法似乎還很遙遠。她發現以前的數據集並沒有反映出世界的多變，就連只是識別貓的圖片都是件無限複雜的事情。但是，通過給演算法更多的樣本，向演算法展示世界是多麼複雜，演算法在數學意義上對現實有了更好的理解。如果你只看 5 張貓的照片，那麼你只知道這 5 個攝像機角度、照明條件和最多 5 種不同種類的貓。但是，如果你看過 500 張貓的照片，你就能從更多的例子中發現共同點。

李飛飛開始閱讀其他人如何構建數據集對世界進行真切表示的文獻。在這個搜索的過程中，她發現了 WordNet。

看過 WordNet 的方法後，李飛飛在 2006 年訪問普林斯頓期間，見到了 Christiane Fellbaum 教授，後者在持續構建 WordNet 方面有很大的影響力。Fellbaum 認為，WordNet 可以可以讓每個單詞都有一張相關聯的圖像，更多地作為參考而不是一個計算機視覺數據集。這次會見後，李飛飛產生了一個更宏大的想法——一個大規模的數據集，每個單詞都有很多張圖像例子。

幾個月後，李飛飛加入了她的母校普林斯頓大學任職，並於 2007 年初開始從事 ImageNet 項目。她開始建立一個團隊來做這件事情，首先找到了同校的 Kai Li 教授，後者說服博士生 Jia Deng 轉入李飛飛的實驗室。Jia Deng 一直參與 ImageNet 項目，直到 2017 年。

「對我而言，這顯然與其他人正在做的事情有很大的不同，與其他人當時關注的焦點有很大不同。」 Jia Deng 說：「我很清楚地知道這將為整個視覺研究帶來改變，但我不知道具體會如何改變。」

ImageNet 數據集中的物體（對象）將覆蓋實物（如大熊貓或教堂）到抽象概念，比如愛情。

李飛飛首先想到僱用本科生，10 美元一小時，手動查找圖像並將其添加到數據集中。但簡單的數學很快就讓李飛飛意識到，以本科生收集圖像的速度，項目需要 90 年才能完成。

在本科生工作團隊解散後，李飛飛和她的團隊又開始重新思考。如果讓計算機視覺演算法從互聯網上收集照片，人類只負責標註呢？但經過數月修改演算法後，團隊得出的結論，這種方法也不可持續——當使用這種方法構建的數據集弄好以後，未來的演算法將只能判斷演算法能夠識別的圖像。

本科生耗費時間，演算法有缺陷，團隊沒有錢——李飛飛說，項目不僅沒有贏得任何聯邦撥款，還收到很多負面評論，稱普林斯頓研究這課題太浪費（shameful），項目申請唯一可以稱道的點就是李飛飛是女人。

最終，李飛飛在跟研究生閑聊的時候意外浮現出了一個解決方案。這個研究生問李飛飛有沒有聽說過 Amazon Mechanical Turk，這項服務讓世界各地坐在電腦前的人完成一小筆小筆的在線工作。

「他向我展示了網站，就是那一天，我知道 ImageNet 項目一定能成功，」李飛飛說：「突然間，我們發現了一個可以擴展的工具，這是招聘普林斯頓的大學生完全不能想像的。」

眾包平台 Mechanical Turk 本身也帶來了一大堆問題，其中許多工作都是由李飛飛的兩名博士生學生，Jia Deng 和 Olga Russakovsky 完成的。例如，每張圖像需要多少個眾包工人來看？也許兩個人就能確定一隻貓是一隻貓，但是一張微型哈士奇的圖片可能需要 10 輪驗證。如果一些眾包工人胡亂標註怎麼辦？李飛飛的團隊最終為眾包工人的行為創建了一批統計模型，幫助確保數據集只包含正確的圖像。

即使在發現 Mechanical Turk 這個平台後，數據也花了兩年半的時間才完成。ImageNet 數據集由 320 萬個標記圖像組成，分為 5,247 個類別，歸到 12 個子例里，比如「哺乳動物」，「車輛」和「傢具」。

2009 年，李飛飛和她的團隊發表了 ImageNet 數據集的論文，基本沒有引發什麼反響。李飛飛回憶說，計算機視覺研究領域的頂級會議 CVPR，只給了那篇論文一張海報展示（poster）的位置，而不是口頭介紹（oral）。李飛飛和她的團隊在會場髮帶有 ImageNet 字樣的筆來吸引人們的興趣。當時的人都很懷疑他們更多的數據有助於開發更好演算法的看法。

「當時有人說『如果你連一個物體都做不好，為什麼要做上千乃至上萬個呢？」Jia Deng 說。

如果數據是新的原油，那麼在 2009 年，它還處於恐龍化石的形態。

ImageNet 競賽：深度學習等待已久的機遇

2009 年晚些時候，在京都舉行的計算機視覺會議上，一位名叫 Alex Berg 的研究員找到李飛飛，建議在比賽中增加一個命題，讓演算法找到圖片中物體（對象）所在的位置，而不僅僅說圖中有這麼個東西。李飛飛回應說：那你來和我一起工作吧。

於是，李飛飛、Berg 和 Deng 一起，根據數據集撰寫了 5 篇論文，探討了演算法如何解釋這樣大量的數據。第一篇論文後來成為如何處理幾千種圖像的基準，這也是 ImageNet 競賽的前身。

對於這第一篇論文，李飛飛說，「我們意識到要把這個想法推廣出去，我們需要找到更多人。」

然後，李飛飛聯繫了歐洲知名圖像識別大賽 PASCAL VOC，後者同意與 ImageNet 合作，在宣傳 ImageNet 競賽時帶上他們的名字。PASCAL 是業界知名的競賽和數據集，但代表的是以前的思維方式。這個數據集只有 20 個類別，而 ImageNet 的這個數字是 1000。

隨著 ImageNet 在 2011 年和 2012 年連續舉辦，它很快成為圖像分類演算法在處理當時最複雜視覺數據集時的基準。

不僅如此，研究人員也開始注意到更多的事情，不僅僅是競賽——他們的演算法在使用 ImageNet 數據集訓練時表現更好。

「令人驚喜的是，你可以用在 ImageNet 上訓練的模型啟動其他識別任務。你從 ImageNet 模型開始，然後微調來進行另一個任務，」Berg說：「這是神經網路的突破，也是整個視覺識別的突破。」

在第一次 ImageNet 競賽的兩年後，2012 年，發生了一件更大的事情。事實上，如果我們今天看到的人工智慧繁榮可以歸功於一個事件，那麼這件事就是 2012 年 ImageNet 競賽結果的公布。

多倫多大學的 Geoffrey Hinton，Ilya Sutskever 和 Alex Krizhevsky 提交了一個名為 AlexNet 的深度卷積神經網路架構——至今仍在研究中使用——實現了準確率 10.8% 的大幅提升，高出第二名 41%。

對於 Hinton 和他的兩個學生來說，ImageNet 的出現恰逢其時。自 20 世紀 80 年代以來，Hinton 一直致力於人工神經網路的研究，儘管有些像 Yann LeCun 一樣，能夠通過貝爾實驗室的影響將這項技術應用於 ATM 支票識別，但是 Hinton 的研究卻無處可用。幾年前，顯卡製造商英偉達的研究讓這些網路的處理速度更快，但神經網路仍然不如其他技術。

Hinton 和他的團隊表明，他們的網路可以在較小的數據集上執行較小的任務，如手寫字元檢測。但是，他們需要更多的數據才能在現實世界中有用。

「如果你在 ImageNet 上做得很好，你就能解決圖像識別問題，這是再清楚不過的。」Sutskever 說。

今天，這些卷積神經網路已經無處不在——LeCun 現在是 Facebook AI Research 的主管，Facebook 使用它們來標記你的照片，自動駕駛汽車在使用它們來檢測物體，基本上任何識別圖像和視頻的系統都使用卷積神經網路（CNN）。CNN 可以通過抓取抽象特徵分辨圖像中的內容，找到模式與新輸入的圖像模式相匹配。Hinton 幾十年來一直試圖說服同行他的研究有用，現在他終於有了證據。

「更令人驚奇的是，人們能夠通過深度學習來不斷改進，」Sutskever 說，指多層神經網路能夠處理更複雜的模式，也是現在最受歡迎的人工智慧技術。「深度學習就是我們要的東西（Deep learning is just the right stuff）。」

2012 年 ImageNet 競賽的結果使計算機視覺研究人員紛紛開始復現這一過程。紐約大學的博士生 Matthew Zeiler 曾經跟著 Hinton 學習，他發現了 ImageNet 競賽的結果，並通過多倫多大學的聯繫很早獲知了論文和代碼。他開始與 Rob Fergus 合作，Fergus 是紐約大學的教授，也一直研究神經網路。兩人開始為 2013 年的 ImageNet 競賽設計自己的方案，Zeiler 最後提前幾周結束了在谷歌實習，專註於提交 ImageNet 競賽結果。

2014 年，也就是 Zeiler 和 Fergus 獲勝那一年，所有的高分結果使用的方法都是深度神經網路。

「2012 年的 ImageNet 競賽無疑引發了 AI 大爆炸，」Zeiler 表示：「在此之前，語音識別有一些非常有希望的結果（其中許多是由多倫多大學開啟的），但是都沒有像 2012 年和接下來的 ImageNet 競賽冠軍一樣廣為流傳。」

競賽雖然結束，但 ImageNet 精神永存

現在，許多人都認為 ImageNet 已經被解決了——誤差率在 2％左右真的很低了。但是，這是分類的結果，也就是識別圖像中的物體是什麼。這並不代表演算法知道這個物體的屬性，它來自哪裡、功能是什麼、如何使用，或者如何與其周圍環境進行交互。總之，演算法實際上並不理解它看到了什麼。這在語音識別中，甚至在很多自然語言處理中也是如此。雖然 AI 今天在分辨事物上十分厲害，但接下來要在現實世界情景中理解事物是什麼。至於怎麼做到這一點，AI 研究人員目前還不清楚。

儘管 ImageNet 競賽結束了，但 ImageNet 數據集——經過多年來更新，現在已經超過 1300 萬張圖片將會繼續。

Berg 表示，團隊試圖在 2014 年結束競賽的一個子命題，但卻遭到了來自包括谷歌和 Facebook 等公司的阻力。產業界非常喜歡這個基準，他們可以指著一個數字說：「看我們這麼牛。」

自 2010 年以來，谷歌、微軟和 CIFAR 推出了其他一些數據集，因為事實表明深度學習需要像 ImageNet 這樣的大數據。

數據集已經變得非常重要。創始人和風險投資家會在 Medium 寫文章介紹最新發布的數據集，以及他們的演算法在 ImageNet 上的表現。互聯網公司，比如谷歌、Facebook 和亞馬遜已經開始創建自己的內部數據集，數據都來自每天在他們的平台上輸入和共享的數百萬圖像、語音片段和文本片段。即使是初創公司也開始構建自己的數據集——TwentyBN，一個專註於視頻理解的 AI 初創公司，發布了兩個免費的學術數據集，每個數據集有超過 100,000 個視頻。

李飛飛說：「各種數據集，從視頻到語音到遊戲，都有很大的發展。」

有時人們理所當然的認為這些花了大力氣收集、組合、檢驗的數據集是免費的。開放和自由使用是 ImageNet 的原始宗旨，這一宗旨也將超越 ImageNet 競賽，甚至數據集傳承下去。

2016 年，谷歌發布了 Open Images 數據集，其中包含 6000 多個類別的 900 萬張圖像。谷歌最近更新了數據集，在每個圖像中包含了特定對象所在的標籤，這個特點在 2014 年的ImageNet 競賽後成了圖像數據集的標配。DeepMind 最近也發布了人類進行各種行為的視頻數據集。

「ImageNet 讓 AI 領域發生的一個重大變化是，人們突然意識到構建數據集這個苦活累活是 AI 研究的核心，」李飛飛說：「人們真的明白了，數據集跟演算法一樣，對研究都至關重要。」

演講 PPT：IMAGENET—Where have we been？Where are we going？