當前位置:
首頁 > 最新 > 談論圖像識別時在談論什麼?

談論圖像識別時在談論什麼?

「圖像識別」是人每天自然而然會做的事情,比如早上起來洗臉刷牙,我們可以很輕鬆的判斷出浴室柜上哪個是牙膏、哪個是洗手液,看起來很直接,人類卻經過了數億年才獲得如此強大的大腦,對於各種物體才有了如此精準的視覺理解力。計算機沒有辦法像人一樣「看」到整個場景,它只能一步步來,一張圖片對它而言是一張3維的大矩陣,包含很多像素點,每個像素點又有紅綠藍3個顏色通道的值,每個值在0-255之間,它需要根據這些信息來判斷這是什麼。

其實人也是拿看到的景象與頭腦中的模式去匹配,比如最近家裡買了一些按壓瓶子的牙膏,樣子真的很像洗手液瓶子,我有時用的時候就會去確認一下。

以下問題都屬於「計算機視覺」範疇。

圖像分類

圖像分類是根據不同物體在圖像中反映的不同特徵,把不同類別的目標區分開來,所以如何提取圖像的特徵至關重要。

世界各地經常會舉辦多種多樣的圖像分類比賽,PASCAL VOC是2005年發起的一個視覺挑戰賽,而ILSVRC大規模視覺識別競賽從2010年開始,ImageNet是ILSVRC的數據集,約有1400萬張圖像,擁有超過20000個圖像標籤,由斯坦福大學計算機視覺實驗室維護。

圖像分類領域大量的研究成果都是建立在PASCAL VOC、ImageNet等公開的數據集上,很多圖像分類演算法通常在這些數據集上進行測試和比較。

在2012年之前的傳統圖像分類方法可以用底層特徵抽取、特徵編碼、分類器設計三步完成,但通常完整建立圖像識別模型一般包括底層特徵學習、特徵編碼、空間約束、分類器設計、模型融合等幾個階段。

底層特徵提取,通常從圖像中按照固定步長、尺度提取大量局部特徵描述。常用的局部特徵包括SIFT(Scale-Invariant Feature Transform, 尺度不變特徵轉換)、HOG(Histogram of Oriented Gradient, 方向梯度直方圖)、LBP(Local Bianray Pattern, 局部二值模式)等,一般採用多種特徵描述,防止丟失過多的有用信息。

特徵編碼,底層特徵中包含了大量冗餘與雜訊,為了提高特徵表達的魯棒性,需要使用一種特徵變換演算法對底層特徵進行編碼,稱作特徵編碼。常用的特徵編碼包括向量量化編碼、稀疏編碼、局部線性約束編碼、Fisher向量編碼等。

空間特徵約束,特徵編碼之後一般會經過空間特徵約束,也稱作特徵匯聚。特徵匯聚是指在一個空間範圍內,對每一維特徵取最大值或者平均值。金字塔特徵匹配是一種常用的特徵聚會方法,這種方法提出將圖像均勻分塊,在分塊內做特徵匯聚。

通過分類器分類,經過前面步驟之後一張圖像可以用一個固定維度的向量進行描述,接下來就是經過分類器對圖像進行分類。通常使用的分類器包括SVM(Support Vector Machine, 支持向量機)、隨機森林等。而使用核方法的SVM是最為廣泛的分類器,在傳統圖像分類任務上性能很好。這種方法在PASCAL VOC競賽中的圖像分類演算法中被廣泛使用。NEC實驗室在ILSVRC2010中採用SIFT和LBP特徵,兩個非線性編碼器以及SVM分類器獲得圖像分類的冠軍。

2012年Alex Krizhevsky突破性的提出AlexNet的網路結構,藉助深度學習的演算法,將圖像特徵的提取、篩選和分類三個模塊集成於一體,設計5層卷積層加3層全連接層的深度卷積神經網路結構,逐層對圖像信息進行不同方向的挖掘提取,譬如淺層卷積通常獲取的是圖像邊緣等通用特徵,深層卷積獲取的一般是特定數據集的特定分布特徵。AlexNet以15.4%的創紀錄低失誤率奪得2012年ILSVRC的年度冠軍,值得一提的是當年亞軍得主的錯誤率為26.2%。AlexNet超越傳統機器學習的完美一役被公認為是深度學習領域裡程碑式的歷史事件,一舉吹響了深度學習在計算機領域爆炸發展的號角。

圖像中的物體檢測

圖像分類任務的實現可以讓我們粗略的知道圖像中包含了什麼類型的物體,但並不知道物體在圖像中哪一個位置,也不知道物體的具體信息,在一些具體的應用場景比如車牌識別、交通違章檢測、人臉識別、運動捕捉,單純的圖像分類就不能完全滿足我們的需求了。

圖像中的目標檢測涉及識別各種子圖像並且圍繞每個識別的子圖像在周圍繪製一個邊界框,這個問題與分類相比稍微複雜一點,必須對圖像進行更多的操作和處理。

一個典型的案例是利用HOG(Histogram of Gradient)特徵來生成各種物體相應的「濾波器」,HOG濾波器能完整的記錄物體的邊緣和輪廓信息,利用這一濾波器過濾不同圖片的不同位置,當輸出響應值幅度超過一定閾值,就認為濾波器和圖片中的物體匹配程度較高,從而完成了物體的檢測。

四年後參與物體檢測工作的Ross B. Girishick已經成長為AI行業內獨當一面的神級人物,他繼承了深度學習先驅的意志,在2014年CVPR會議上發表題為Rich Feature Hirarchies for Accurate Object Detection and Semantic Segmentation的文章。RCNN,一時無兩,天下皆知。

RCNN的核心思想在於將一個物體檢測任務轉化為分類任務,RCNN的輸入為一系列利用selective search演算法從圖像中抽取的圖像塊,我們稱之為region proposal。

經過warping處理,region proposals被標準化到相同的尺寸大小,輸入到預先訓練好並精細調參的卷積神經網路中,提取CNN 特徵。得到了每一個proposal的CNN特徵後,針對每一個物體類別,訓練一個二分類器,判斷該proposal是否屬於該物體類別。2015年,為了縮短提取每一個proposal的CNN特徵的時間,Girishick借鑒了Spatial Pooling Pyramid Network(SPPnet)中的pooling技術,首先利用一整幅圖像提取CNN特徵圖譜,再在這張特徵圖譜上截取不同的位置的proposal,從而得到不同尺寸的feature proposals,最後將這些feature proposals通過SPPnet標準化到相同的尺寸,進行分類。這種改進,解決了RCNN中每一個proposal都需要進行CNN特徵抽取的弊端,一次性在整圖上完成特徵提取,極大的縮短了模型的運行時間,因而被稱作「Fast R-CNN」,同名文章發表於ICCV 2015會議。

2015年,Girishick大神持續發力,定義RPN(region-proposal-network)層,取代傳統的region proposal截取演算法,將region proposal的截取嵌入深度神經網路中,進一步提高了fast R-CNN的模型效率,因而被稱作「Faster R-CNN」,在NIPS2015上Girishick發表了題為「Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks」的關鍵文章。

圖像分割

圖像分割的目標是對圖像中的不同對象進行分類,並確定對象邊界。它使用了一種叫做Mask R-CNN的技術,實際上就是前面看到的R-CNN技術上的幾個卷積層。

還有一個概念——光學字元識別

OCR(Optical character recognition)光學字元識別,是對掃描文檔、文本或場景文字照片等進行處理,獲取其中的字元的操作。OCR廣泛應用於銀行卡號識別、身份證識別、快遞單號識別、掃描文檔字元識別、驗證碼識別、文本電子化等場景。OCR是一個多學科交叉領域,涉及到計算機視覺、機器學習、神經網路等方面的知識。

最近試用了一下「Tesseract」,1985年惠普開發的一個專利軟體,2005以後交由Google維護,識別的效果不錯。目前在想,對於一張複雜點的圖片,如何找到特定信息呢?比如先找到「小明」這個用戶名,再識別小明右邊的得分。

參考來源:圖鴨Tucodec、PaddlePaddle


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 全球大搜羅 的精彩文章:

關於相親的一些閑言閑語,歡迎對號入座!

TAG:全球大搜羅 |