圖像識別的前世今生
你有沒有遇到過這樣的情況?
刷微博刷著刷著,發現圖片里小姐姐穿的衣服特別好看,但是一點都看不出來是哪兒買的。這種時候,你突然想起來X寶有一個「識圖」功能,然後,存下圖片打開X寶,上傳圖片,成了~
類似的功能還有很多,比如說某度的識圖功能,專門教你識別朋友發的照片是真人還是網圖…
這些功能,都是「圖片識別技術」應用於現實社會的實例。那麼,圖像識別技術的內涵到底是什麼樣子的呢?今天,我們就來科普一下!
什麼是圖像識別和圖像分類?
以這張圖片為例,第一個問題就是:這張圖片里有沒有車?
這個問題放在學術研究中叫做圖像檢測。如果有,那麼第二個問題就是,把車的位置找出來,這就是定位。
第三個問題就是對圖片內物體的分類和識別,指出這是車,這是貓。研究中可能還會對整張照片做一個場景的分類,比如說這張照片是在什麼環境下照的……
基本上一張圖片的識別和分類就會涉及到這些可能會需要研究到的問題。
圖像識別和分類有什麼其他應用?
除了開頭我們說到的兩個例子,還有很多可以應用的場景:
無人駕駛汽車:無人駕駛汽車可以說是如今各大公司研究的熱門,無人駕駛汽車一般自帶一個帶攝像頭的輔助系統,該系統能夠識別駕駛場景下所有情況,包括車道線、交通標示、障礙物等等……
相機自動人臉對焦:在我們用手機拍照的時候,尤其是拍人像,相機對焦往往會主動對到人臉上,這也是圖像識別的一種應用;
圖片分類:作為重度攝影愛好者,我的計算機里有成千上萬的照片。一旦我想要找一張圖片,搜尋就是一個大問題。一旦有一個更為優秀智能的圖像識別系統,我就可以更快速簡便地找到答案。
圖像識別和分類的困難在哪裡?
對目前來說,圖像識別有很多難點。
視點問題:當我們對同樣一個物體拍照的時候,因為視點不同,得到的圖像外觀是不一樣的。所以對同一個物體這樣看或者那樣看,看外觀非常不一樣。但是也許兩個不同的物體,外觀又可能會很相近,這對於計算機識別圖像來說有一定困難;
距離問題:物體在圖像中近大遠小,這給我們做圖像識別會帶來一定的難度。
光影問題:光影的變化一向是計算機視覺特別關心的一個問題,光影變化是圖像識別的第三個難點。有時候,同一個人在不同光照下看起來也會不一樣。
背景複雜:在成百上千人中,讓計算機找一個戴帽子的人,遠比在一堆雞中找一隻天鵝來得困難;
遮擋問題:對於如今計算機的能力來說,讓它在熙熙攘攘的人群中識別一個人的性別,會比較困難;
變形問題:非鋼體在運動的時候會產生變性,如何讓計算機識別變形的物體也是一個難點。
圖像識別和分類的發展歷史
圖像識別剛開始的時候是從單一的物體識別做起。
上圖是識別出的簡單的剃鬚刀。這些人造的非常規範的幾何體的組合,只要識別出長方形、矩形、正方形、三角形等,就會把剃鬚刀,工具檢測和識別得非常好。
另外一種方法,是根據外觀識別。我不考慮要識別的物體的幾何結構,僅僅看它外觀長什麼樣。比如說人臉識別,不過人臉識別的研究歷史相對比較長,大概幾十年前就開始有這樣的研究工作了。當然了,直到現在仍然有很多人臉識別的研究工作發表。
在2000年之前,圖像識別曾經採用過幾何的方法、結構的方法、規則的方法,當然也用了一些比較簡單的模式識別的方法。
然而隨著時間和技術的發展,機器學習突飛猛進,出現了支持向量機方法,AdaBoosting方法,計算學習理論等大量優秀的成果,這些都使得機器學習和識別大大的往前走。
在2002年後的一段時間裡,一個華人女科學家,叫李飛飛,開始用一個新的思路做圖像識別。他們希望設計一個統一的框架做圖像識別,而不是就事論事地針對一種圖像識別任務設計一套專門的方法。他們希望這個統一的框架能識別成千上萬種物體。
在2000年之後,機器學習在做什麼事?
機器學習仍然是做基礎研究,出現了很多優秀成果。而2012年,將圖像分類的最高級別的比賽ImageNet中橫空出現了深度學習應用於圖像識別的成功例子,並且成功率高達85%。
雖然本文主要是科普圖像識別,但是圖像識別背後用的很多方法都是基於深度學習的。作為深度學習中應用最廣泛的部分,圖像分類的意義可以說舉足輕重。
如果你對圖像識別感興趣,我們結合南加州大學導師提供了科研課題:深度學習在圖像識別和分類中的應用,來探究深度學習的來龍去脈。
GIF
最新課題


TAG:Embark有方博雅 |