谷歌微軟的圖像識別行不行，還得斯坦福的這位美女說了算

知識 06-28

每年，斯坦福都會舉辦一個比賽，叫作ImageNet視覺識別挑戰……

這個比賽的參與者不是學生團隊，而是全球的科技巨頭，比如谷歌呀、微軟呀、百度啊啥的。

谷歌微軟的圖像識別行不行，還得斯坦福的這位美女說了算點擊播放 GIF/25K

怎麼比呢，簡單說來，ImageNet相當於一個演算法考場，而大公司就可以利用它家的龐大題庫進行考試，正確率越高，當然就是本場比賽的冠軍了。

順嘴一說，去年六月的時候，百度因涉嫌在測試過程中作弊，而被ImageNet組織方禁賽一年了。

谷歌微軟的圖像識別行不行，還得斯坦福的這位美女說了算

而很多人打死都不會想到，這個「引無數英雄競折腰」的ImageNet，背後的「終極考官」竟然是個大美女！還是個華人美女！

她就是李飛飛，一個集才華與美貌於一身的女子。

谷歌微軟的圖像識別行不行，還得斯坦福的這位美女說了算

|明明可以靠臉吃飯，卻偏要拼才華

出生在北京的李飛飛，16歲隨父母移居美國。或許對科學的愛就是這樣不分性別，李飛飛在1999年以最高榮譽獲普林斯頓大學物理學學士學位，輔修工程物理專業。

隨後，她在加州理工攻讀電子工程的碩博學位，並在2005年順利畢業。她的研究興趣主要集中在視覺研究領域，包括計算機視覺和視覺心理學，例如物體識別、場景分類和事件分類等。

2009年，李飛飛來到了斯坦福，僅僅三年，李飛飛就晉陞為終身教授，並成為斯坦福大學人工智慧實驗室（SAIL）及斯坦福大學視覺實驗室的主管。

谷歌微軟的圖像識別行不行，還得斯坦福的這位美女說了算

在李飛飛2014年的簡歷上，有95篇在Nature、PNAS、Journal of Neuroscience、CVPR、ICCV、NIPS等頂級期刊與會議上發表的文章；聯合發表文章32篇。

懷疑論文太水？Na?ve。隨便列舉幾個李飛飛獲得的獎項吧：

2006年微軟學者新星獎以及谷歌研究獎

2009年NSF傑出青年獎

2011年美國斯隆學者獎

2012年雅虎實驗室學者獎

2014年IBM學者獎

不過比起那些只埋頭工作的學者，李飛飛靠著自己的顏值才華參加了不少演講，在她19頁的簡歷里，有四頁是關於參加過的各種演講。她和媒體的關係也一直不錯，上過New York Times和TED。

谷歌微軟的圖像識別行不行，還得斯坦福的這位美女說了算

「明明可以靠臉吃飯，卻偏要拼才華」，李飛飛就是這句話的最佳代言人……而現在，她又搖身一變，成為了谷歌微軟等一眾科技公司在圖像識別的終極考官。

|ImageNet，圖像識別的考場

作為全球計算機視覺領域的知名專家，李飛飛的主要貢獻在於參與建立了兩個被AI研究者廣泛使用來教機器分類物體的資料庫：Caltech 101和ImageNet，而後者，目前已經成為了全球最大的圖像識別資料庫。

如果說李飛飛是圖像識別的大考官，那麼她一手創建的ImageNet就是科技公司在圖像識別的考場。

為什麼不從演算法上優化機器的「眼睛」，而是從「大腦」入手？

以往，計算機識別的邏輯是：

教計算機看到「對象」。研究者將訓練圖片抽象成一些模型，並借演算法告訴計算機：

「有著圓臉、胖身子、兩個尖尖的耳朵，還有一條長尾巴的東西，就是貓。」

谷歌微軟的圖像識別行不行，還得斯坦福的這位美女說了算

然而，如果小貓是以這種形態存在的呢？

谷歌微軟的圖像識別行不行，還得斯坦福的這位美女說了算

雖然一個3歲小孩都可以輕易地判斷，這也是一隻貓，但計算機就已經蒙圈了：它並不符合「貓」所代表的模型特徵。

這就陷入了一個難題：即使是再常見的寵物，都可能呈現出多變的形態，只通過歸納模型來做機器識別，是不科學也不現實的。

所以，以ImageNet為代表的圖像識別資料庫提供了一種更接近人類識別物體過程的方式：

沒有人教嬰兒怎麼看，但他們在3歲的時候就能認得很多東西，這是因為人是從真實世界中汲取經驗的。

「如果你把孩子的眼睛都看作是生物照相機，那他們每200毫秒就拍一張照。 ——這是眼球轉動一次的平均時間。所以到3歲大的時候，一個孩子已經看過了上億張的真實世界照片。這種『訓練照片』的數量是非常大的。」

利用互聯網，ImageNet提供了一個龐大的圖片資料庫，讓計算機系統能夠在1500萬張照片里認識22000種物品。

而教會了計算機看東西還只是第一步，我們還需要演算法的力量！

谷歌微軟的圖像識別行不行，還得斯坦福的這位美女說了算

作為和大腦神經原理類似的卷積神經網路，用ImageNet來訓練實在是再合適不過了。卷積神經網路，最早由Kunihiko Fukushima，Geoff Hinton，和Yann LeCun三人在上世紀七八十年代開創。

就像神經的最小運算單元是神經元一樣，神經網路的最小單位也是一個小節點。節點通過連結不同的結點，能夠輸入輸出信息，實現「思考」。如果將一張圖片以不同維度分為各種層次，每個層次用來識別不同的內容，比如花色、顏色、形狀等等。

想像一下，如果有30種不同的維度進行過濾和篩選……準確度是不是有著令人驚訝的提高？

谷歌微軟的圖像識別行不行，還得斯坦福的這位美女說了算

在一個用來訓練對象識別模型的典型神經網路中，有著2400萬個節點，1.4億個參數，及150億個聯結。藉助ImageNet提供的巨大規模數據支持，研究者可以通過大量最先進的CPU和GPU，來訓練這些模型。這兩者相輔相成，在對象識別領域發展成為一個成功的體系。

通過讓計算機讀出谷歌街景，實際上能得到很多有意思的結果。比如道路上的汽車價格與家庭收入，甚至是和犯罪率的關係。

然而計算機能讀懂了圖片，這一切就到此為止了嗎？

當然不。在大數據和機器學習演算法的合力協作下，我們可以讓計算機這個剛剛認識一些事物的baby慢慢組織語言，並用完整的句子表達出來——就像一個真正的小孩一樣。

谷歌微軟的圖像識別行不行，還得斯坦福的這位美女說了算

雖然有時候會鬧一些笑話……

谷歌微軟的圖像識別行不行，還得斯坦福的這位美女說了算

雖然計算機目前還不能像人一樣，在看到圖片的一瞬就能理解它想要表達的情緒，還有各種事物背後所隱含和傳遞的訊息……

谷歌微軟的圖像識別行不行，還得斯坦福的這位美女說了算

但，它已經在努力了不是嗎。

更何況，還有那麼多以「考官」李飛飛為代表的，一直在為圖像識別而努力的研究者們。他們或作為出卷人殫精竭慮，收集不同的圖片而完善演算法的精度；或作為應試者，忐忑不安地讓計算機接受系統的「考驗「；但不論作為哪一方，他們都朝著同樣的方向，都在努力讓計算機能獲得更好的「成績」。

谷歌微軟的圖像識別行不行，還得斯坦福的這位美女說了算

或許，終極考官李飛飛面臨的是這樣的境地：

一方面，她希望ImageNet考場里的「試題」能難倒前來應試的計算機們，因為這說明演算法的突破口就在這裡；

而另一方面，如果計算機成功答出了試題，說明圖像識別的技術又進步了一分。哪怕是攻克了一道「難題」，正確描述出了某張圖片上的內容，都值得雙方歡呼雀躍；而這樣甜蜜的煩惱，也是考官李飛飛所享受的。

而最最重要的是，ImageNet——這個集合了全球智慧和力量的資料庫——是免費的。這也就意味著，全球所有致力於圖像識別的公司，都可以免費對自己的演算法進行反覆測試。這就好像一個龐大的試題庫，只要願意，任何公司都可以一直接受考官的檢驗。

谷歌微軟的圖像識別行不行，還得斯坦福的這位美女說了算

請您繼續閱讀更多來自 雷鋒網 的精彩文章:

機器人專家中的財神爺：參與月球機器人項目

看谷歌和OpenAI聯合發布五條AI定律如何打臉霍金

無人機馱著捕蚊器？微軟真會玩

宇宙的禮物：兩次確鑿、一次疑似引力波事件！

上天的成本越來越低了，印度成功發射低成本可回收穿梭機原型機

TAG:雷鋒網 |

您可能感興趣

※別磨嘰，學完這篇你也是圖像識別專家了
※入局企業不斷，圖像識別的對手可不止那些巨頭
※她是斯坦福教授，谷歌的圖像識別技術總管，但是16歲來美國的時候，她做過清潔工，洗衣工………
※0基礎也能建自己的圖像識別系統
※圖像識別之「以圖搜圖」，安防＋AI又有哪些新動向？
※趙勇、宋森：視覺與圖像識別
※「掌上計算機視覺大有可為」智能終端圖像識別、美化、生成應用盤點
※智能終端圖像識別、美化、生成應用盤點
※在圖片中加入噪點就能騙過Google最頂尖的圖像識別AI
※用衛星圖像識別貧困指導扶貧行動
※揭秘「圖像識別」的工作原理
※0基礎建自己的圖像識別系統2
※上課啦！AI 圖像識別如何應用於視頻分發平台
※圖普科技：利用AI鑒黃凈化直播用圖像識別技術連接內容和人
※海信發布AI計劃：「無人駕駛」的核心是圖像識別
※人工智慧圖像識別大賽最後一年舉辦，勝者多是中國團隊
※地平線機器人楊銘：深度神經網路在圖像識別應用中的演化
※圖像識別和分類競賽，數據增強及優化演算法
※谷歌IO走進TF開源模型世界：從圖像識別到語義理解