「一圖看懂」計算機視覺識別簡史：從 AlexNet、ResNet 到 Mask RCNN

新聞 05-01

新智元編譯

「一圖看懂」計算機視覺識別簡史：從 AlexNet、ResNet 到 Mask RCNN

最近，物體識別已經成為計算機視覺和 AI 最令人激動的領域之一。即時地識別出場景中所有的物體的能力似乎已經不再是秘密。隨著卷積神經網路架構的發展，以及大型訓練數據集和高級計算技術的支持，計算機現在可以在某些特定設置（例如人臉識別）的任務中超越人類的識別能力。

我感覺每當計算機視覺識別方面有什麼驚人的突破發生了，都得有人再講一遍是怎麼回事。這就是我做這個圖表的原因。它試圖用最簡潔的語言和最有吸引力的方式講述物體識別的現代史。故事開始於2012年 AlexNet 贏得了 ILSVRC（ImageNet大規模視覺識別挑戰賽）。信息圖由2頁組成，第1頁總結了重要的概念，第2頁則勾畫了歷史。每一個圖解都是重新設計的，以便更加一致和容易理解。所有參考文獻都是精挑細選的，以便讀者能夠知道從哪裡找到有關細節的解釋。

「一圖看懂」計算機視覺識別簡史：從 AlexNet、ResNet 到 Mask RCNN

計算機視覺 6 大關鍵技術

「一圖看懂」計算機視覺識別簡史：從 AlexNet、ResNet 到 Mask RCNN

圖像分類：根據圖像的主要內容進行分類。數據集：MNIST, CIFAR, ImageNet
物體定位：預測包含主要物體的圖像區域，以便識別區域中的物體。數據集：ImageNet
物體識別：定位並分類圖像中出現的所有物體。這一過程通常包括：划出區域然後對其中的物體進行分類。數據集：PASCAL, COCO
語義分割：把圖像中的每一個像素分到其所屬物體類別，在樣例中如人類、綿羊和草地。數據集：PASCAL, COCO
實例分割：把圖像中的每一個像素分到其物體類別和所屬物體實例。數據集：PASCAL, COCO
關鍵點檢測：檢測物體上一組預定義關鍵點的位置，例如人體上或者人臉上的關鍵點。數據集：COCO

關鍵人物

這種圖列出了物體識別技術中的關鍵人物：J. Schmidhuber； Yoshua Bengio ；Yann Lecun； Georey Hinton ；Alex Graves ；Alex Krizhevsky ；Ilya Sutskever ；Andrej Karpathy； Christopher Olah ；Ross Girshick； Matthew Zeiler ；Rob Fergus ；Kaiming He ；Pierre Sermanet ；Christian Szegedy ；Joseph Redmon ；Shaoqing Ren ；Wei Liu ；Karen Simonyan；Andrew Zisserman；Evan Shelhamer ；Jonathan Long ；Trevor Darrell； Springenberg ；Mordvintsev ；V. Dumoulin ；Francesco Visin； Adit Deshpande ……

重要的 CNN 概念

1. 特徵（圖案，神經元的激活，特徵探測）

「一圖看懂」計算機視覺識別簡史：從 AlexNet、ResNet 到 Mask RCNN

當一個特定的圖案（特徵）被呈現在輸入區（接受域）中時，一個隱藏的神經元就被會被激活。

神經元識別的團可以被進行可視化，其方法是：1）優化其輸入區，將神經元的激活（deep dream）最大化；2）將梯度（gradient）可視化或者在其輸入像素中，引導神經元激活的梯度（反向傳播以及經引導的反向傳播）3）將訓練數據集中，激活神經元最多的圖像區域進行可視化。

2. 感受野（特徵的輸入區）

「一圖看懂」計算機視覺識別簡史：從 AlexNet、ResNet 到 Mask RCNN

輸入圖像區會影響特徵的激活。換句話說，它就是特徵參考的區域。

通常，越高層上的特徵會的接受域會更寬，這能讓它能學會捕捉更多的複雜/抽象圖案。ConvNet 的架構決定了感受野是如何隨著層數的改變而改變的。

3. 特徵地圖（feature map，隱藏層的通道）

「一圖看懂」計算機視覺識別簡史：從 AlexNet、ResNet 到 Mask RCNN

指的是一系列的特徵，通過在一個滑動窗口（例如，卷積）的方式，在一個輸入地圖中的不同位置應用相同的特徵探測器來創造。在相同的特徵地圖上的特徵，有著一致的可接收形狀，並且會尋找不同位置上的相同圖案。這構成了ConvNet的空間不變性。

4. 特徵量（卷積中的隱藏層）

「一圖看懂」計算機視覺識別簡史：從 AlexNet、ResNet 到 Mask RCNN

這是一組特徵地圖，每一張地圖會在輸入地圖中的一些固定位置搜尋特定的特徵。所有的特徵的接受域大小都是一樣的。

5.作為特徵量的全連接層

「一圖看懂」計算機視覺識別簡史：從 AlexNet、ResNet 到 Mask RCNN

全連接層（fc layers，在識別任務中通常粘附在一個ConvNet的尾端），這一特徵量在每一張特徵滴入上都有一個特徵，其接收域會覆蓋整張圖像。全連接層中的權重矩陣W可以被轉化成一個CNN核。

將一個核wxhxk 卷積成一個CNN 特徵量wxhxd會得到一個1x1xk特徵量（=FC layer with k nodes)。將一個1x1xk 的過濾核卷積到一個1x1xd特徵量，得到一個1x1xk的特徵量。通過卷積層替換完全連接的圖層可以使ConvNet應用於任意大小的圖像。

6. 反卷積

這一操作對卷積中的梯度進行反向傳播。換句話說，它是卷積層的反向傳遞。反向的卷積可以作為一個正常的卷積部署，並且在輸入特徵中不需要任何插入。

「一圖看懂」計算機視覺識別簡史：從 AlexNet、ResNet 到 Mask RCNN

左圖，紅色的輸入單元負責上方四個單元的激活（四個彩色的框），進而能從這些輸出單元中獲得梯度。這一梯度反向傳播能夠通過反卷積（右圖）部署。

7. 端到端物體識別管道（端到端學習/系統）

這是一個包含了所有步驟的物體識別管道（預處理、區域建議生成、建議分類、後處理），可以通過優化單個對象函數來進行整體訓練。單個對象函數是一個可差分的函數，包含了所有的處理步驟的變數。這種端到端的管道與傳統的物體識別管道的完全相反。在這些系統中，我們還不知道某個步驟的變數是如何影響整體的性能的，所以，么一個步驟都必須要獨立的訓練，或者進行啟發式編程。

重要的目標識別概念

1. Bounding box proposal

提交邊界框（Bounding box proposal，又稱興趣區域，提交區域，提交框）

輸入圖像上的一個長方形區域，內含需要識別的潛在對象。提交由啟發式搜索（對象、選擇搜索或區域提交網路RPN）生成。

「一圖看懂」計算機視覺識別簡史：從 AlexNet、ResNet 到 Mask RCNN

一個邊界框可以由4 元素向量表示，或表達為 2 個角坐標（x0,y0,x1,y1），或表達為一個中心坐標和寬與高（x,y,w,h）。邊界框通常會配有一個信心指數，表示其包含對象物體的可能性。

兩個邊界框的區別一般由它們的向量表示中的 L2 距離在測量。w 和 h 在計算距離前會先被對數化。

2. Intersection over Union

「一圖看懂」計算機視覺識別簡史：從 AlexNet、ResNet 到 Mask RCNN

重疊聯合比（Intersection over Union，又稱 IoU，Jaccard 相似度）

兩個邊界框相似度的度量值=它們的重疊區域除以聯合區域

3. 非最大抑制（Non Maxium Suppression，又稱 NMS）

「一圖看懂」計算機視覺識別簡史：從 AlexNet、ResNet 到 Mask RCNN

一個融合重疊邊界框（提交或偵測出的）的一般性演算法。所有明顯和高信度邊界框重疊的邊界框（IoU > IoU_threshold）都會被抑制（去除）。

4. 邊界框回歸（邊界框微調）

「一圖看懂」計算機視覺識別簡史：從 AlexNet、ResNet 到 Mask RCNN

觀察一個輸入區域，我們可以得到一個更適合隱含對象的邊界框，即使該對象僅部分可見。下圖顯示了在只看到一部分對象時，得出真實邊界框（ground truth box）的可能性。因此，可以訓練回歸量，來觀察輸入區域，並預測輸入區域框和真實框之間的 offset △（x,y,w,h）。如果每個對象類別都有一個回歸量，就稱為特定類別回歸量，否則就稱為不可知類別（class-agnostic，一個回歸量用於所有類別）。邊界框回歸量經常伴有邊界框分類器（信度評分者），來評估邊界框中在對象存在的可信度。分類器既可以是特定類別的，也可以是不可知類別的。如果不定義首要框，輸入區域框就扮演首要框的角色。

5. 首要框（Prior box，又稱默認框、錨定框）

「一圖看懂」計算機視覺識別簡史：從 AlexNet、ResNet 到 Mask RCNN

如果不使用輸入區域作為唯一首要框，我們可以訓練多個邊界框回歸量，每一個觀測相同的輸入區域，但它們各自的首要框不同。每一個回歸量學習預測自己的首要框和真實框之間的 offset。這樣，帶有不同首要框的回歸量可以學習預測帶有不同特性（寬高比，尺寸，位置）的邊界框。相對於輸入區域，首要框可以被預先定義，或者通過群集學習。適當的框匹配策略對於使訓練收斂是至關重要的。

6. 框匹配策略

「一圖看懂」計算機視覺識別簡史：從 AlexNet、ResNet 到 Mask RCNN

我們不能指望一個邊界框回歸量可以預測一個離它輸入區域或首要框（更常見）太遠的對象邊界框。因此，我們需要一個框匹配策略，來判斷哪一個首要框與真實框相匹配。每一次匹配對回歸來說都是一個訓練樣本。可能的策略有：（多框）匹配每一個帶有最高 IoU 的首要框的真實框；（SSD，FasterRCNN）匹配帶有任何 IoU 高於 0.5 的真實框的首要框。

7. 負樣本挖掘（Hard negative example mining）

對於每個首要框，都有一個邊界框分類器來評估其內部含有對象的可能性。框匹配之後，所有其他首要框都為負。如果我們用了所有這些負樣本，正負之間本會有明顯的不平衡。可能的解決方案是：隨機挑選負樣本（FasterRCNN），或挑選那些分類器判斷錯誤最嚴重的樣本，這樣負和正之間的比例大概是3：1 。

重要視覺模型發展：AlexNet→ZFNet→VGGNet→ResNet→MaskRCNN

一切從這裡開始：現代物體識別隨著ConvNets的發展而發展，這一切始於2012年AlexNet以巨大優勢贏得ILSVRC 2012。請注意，所有的物體識別方法都與ConvNet設計是正交的（任意ConvNet可以與任何對象識別方法相結合）。 ConvNets用作通用圖像特徵提取器。

2012年 AlexNet：AlexNet基於有著數十年歷史的LeNet，它結合了數據增強、ReLU、dropout和GPU實現。它證明了ConvNet的有效性，啟動了ConvNet的光榮回歸，開創了計算機視覺的新紀元。

「一圖看懂」計算機視覺識別簡史：從 AlexNet、ResNet 到 Mask RCNN

RCNN：基於區域的ConvNet（RCNN）是啟發式區域提案法（heuristic region proposal method）和ConvNet特徵提取器的自然結合。從輸入圖像，使用選擇性搜索生成約2000個邊界框提案。這些被推出區域被裁剪並扭曲到固定大小的227x227圖像。然後，AlexNet為每個彎曲圖像提取4096個特徵（fc7）。然後訓練一個SVM模型，使用4096個特徵對該變形圖像中的對象進行分類。並使用4096個提取的特徵來訓練多個類別特定的邊界框回歸器來改進邊界框。

「一圖看懂」計算機視覺識別簡史：從 AlexNet、ResNet 到 Mask RCNN

OverFeat：OverFeat使用AlexNet在一個輸入圖像的多個層次下的多個均勻間隔方形窗口中提取特徵。訓練一個對象分類器和一個類別不可知盒子回歸器，用於對Pool5層（339x339接收域窗口）中每5x5區域的對象進行分類並對邊界框進行細化。OverFeat將fc層替換為1x1xN的卷積層，以便能夠預測多尺度圖像。因為在Pool5中移動一個像素時，接受場移動36像素，所以窗口通常與對象不完全對齊。OverFeat引入了詳盡的池化方案：Pool5應用於其輸入的每個偏移量，這導致9個Pool5卷。窗口現在只有12像素而不是36像素。

2013 年 ZFNet：ZFNet 是 ILSVRC 2013 的冠軍得主，它實際上就是在 AlexNet 的基礎上做了鏡像調整（mirror modification）：在第一個卷積層使用 7×7 核而非 11×11 核保留了更多的信息。

SPPNet：SPPNet（Spatial Pyramid Pooling Net）本質上是 RCNN 的升級，SFFNet 引入了 2 個重要的概念：適應大小池化（adaptively-sized pooling，SPP 層），以及對特徵量只計算一次。實際上，Fast-RCNN 也借鑒了這些概念，通過鏡像調整提高了 RCNN 的速度。

「一圖看懂」計算機視覺識別簡史：從 AlexNet、ResNet 到 Mask RCNN

SPPNet 用選擇性搜索在每張圖像中生成 2000 個區域（region proposal）。然後使用 ZFNet-Conv5 從整幅圖像中抓取一個共同的全體特徵量。對於每個被生成的區域，SPPNet 都使用 spatial pyramid pooling（SPP）將該區域特徵從全體特徵量中 pool 出來，生成一個該區域的長度固定的表徵。這個表徵將被用於訓練目標分類器和 box regressor。從全體特徵量 pooling 特徵，而不是像 RNN 那樣將所有圖像剪切（crops）全部輸入一個完整的 CNN，SPPNet 讓速度實現了 2 個數量級的提升。需要指出，儘管 SPP 運算是可微分的，但作者並沒有那麼做，因此 ZFNet 僅在 ImageNet 上訓練，沒有做 finetuning。

「一圖看懂」計算機視覺識別簡史：從 AlexNet、ResNet 到 Mask RCNN

MultiBox：MultiBox 不像是目標識別，更像是一種基於 ConvNet 的區域生成解決方案。MultiBox 讓區域生成網路（region proposal network，RPN）和 prior box 的概念流行了起來，證明了卷積神經網路在訓練後，可以生成比啟發式方法更好的 region proposal。自此以後，啟發式方法逐漸被 RPN 所取代。MultiBox 首先將整個數據集中的所有真實 box location 聚類，找出 200 個質心（centroid），然後用將其用於 prior box 的中心。每幅輸入的圖像都會被從中心被裁減和重新調整大小，變為 220×220。然後，MultiBox 使用 ALexNet 提取 4096 個特徵（fc7）。再加入一個 200-sigmoid 層預測目標置信度分數，另外還有一個 4×200-linear 層從每個 prior box 預測 centre offset 和 box proposal。注意下圖中顯示的 box regressors 和置信度分數在看從整幅圖像中抓取的特徵。

2014 年 VGGNet：雖然不是 ILSVRC 冠軍，VGGNet 仍然是如今最常見的卷積架構之一，這也是因為它簡單有效。VGGNet 的主要思想是通過堆疊多層小核卷積層，取代大核的卷積層。VGGNet 嚴格使用 3×3 卷積，步長和 padding 都為1，還有 2×2 的步長為 2 的 maxpooling 層。

2014 年Inception：Inception（GoogLeNet）是2014 年 ILSVRC 的冠軍。與傳統的按順序堆疊卷積和 maxpooling 層不同，Inception 堆疊的是 Inception 模塊，這些模塊包含多個並行的卷積層和許多核的大小不同的 maxpooling 層。Inception 使用 1×1 卷積層減少特徵量輸出的深度。目前，Inception 有 4 種版本。

「一圖看懂」計算機視覺識別簡史：從 AlexNet、ResNet 到 Mask RCNN

Fast RCNN：Fast RCNN 本質上 SPPNet，不同的是 Fast RCNN 帶有訓練好的特徵提取網路，用 RolPooling 取代了 SPP 層。

「一圖看懂」計算機視覺識別簡史：從 AlexNet、ResNet 到 Mask RCNN

YOLO：YOLO（You Only Look Once）是由 MultiBox 直接衍生而來的。通過加了一層 softmax 層，與 box regressor 和 box 分類器層並列，YOLO 將原本是區域生成的 MultiBox 轉為目標識別的方法，能夠直接預測目標的類型。

2015 ResNet：ResNet以令人難以置信的3.6％的錯誤率（人類水平為5-10％）贏得了2015年ILSVRC比賽。ResNet不是將輸入表達式轉換為輸出表示，而是順序地堆疊殘差塊，每個塊都計算它想要對其輸入的變化（殘差），並將其添加到其輸入以產生其輸出表示。這與boosting有一點關。

「一圖看懂」計算機視覺識別簡史：從 AlexNet、ResNet 到 Mask RCNN

Faster RCNN：受 Multibox 的啟發，Faster RCNN 用啟發式區域生成代替了區域生成網路（RPN）。在 Faster RCNN 中，PRN 是一個很小的卷積網路（3×3 conv → 1×1 conv → 1×1 conv）在移動窗口中查看 conv5_3 全體特徵量。每個移動窗口都有 9 個跟其感受野相關的 prior box。PRN 會對每個 prior box 做 bounding box regression 和 box confidence scoring。通過結合以上三者的 loss 成為一個共同的全體特徵量，整個管道可以被訓練。注意，在這裡 RPN 只關注輸入的一個小的區域；prior box 掌管中心位置和 box 的大小，Faster RCNN 的 box 設計跟 MultiBox 和 YOLO 的都不一樣。

「一圖看懂」計算機視覺識別簡史：從 AlexNet、ResNet 到 Mask RCNN

2016 年 SSD：SSD 利用 Faster RCNN 的 RPN，直接對每個先前的 box 內的對象進行分類，而不僅僅是對對象置信度（類似於YOLO）進行分類。通過在不同深度的多個卷積層上運行 RPN 來改善前一個 box 解析度的多樣性。

2017 年 Mask RCNN：通過增加一支特定類別對象掩碼預測，Mask RCNN 擴展了面向實例分割的Faster RCNN，與已有的邊界框回歸量和對象分類器並行。由於 RolPool 並非設計用於網路輸入和輸出間的像素到像素對齊，MaskRCNN 用 RolAlign 取代了它。RolAlign 使用了雙線性插值來計算每個子窗口的輸入特徵的準確值，而非 RolPooling 的最大池化法。

參考文獻

「一圖看懂」計算機視覺識別簡史：從 AlexNet、ResNet 到 Mask RCNN

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 新智元 的精彩文章:

※量產在即：特斯拉Model3細節曝光，ModelS和X評價降級
※「Nature」人工「迷你大腦」，首次揭示人腦神經網路建模機制
※麥肯錫萬字報告對比中美AI競爭力：學術、產業生態、演算法、數據、計算力（下載）
※AI 怎麼硬起來？硬蛋與雲知聲發布智能家居「新聲態」，角逐智能語音百億市場
※從英特爾支持DE超聲機器人開發，看人工智慧在醫療影像領域的價值和機遇

TAG:新智元 |

您可能感興趣

※《Avengers: Infinity War》導演表示 Peter Dinklage 在電影中是可以識別的
※Adrian小哥教程：如何使用Tesseract和OpenCV執行OCR和文本識別
※12.7 VR掃描：《AstroBot Rescue Mission》獲TGA最佳VR遊戲大獎；蘋果公布AR識別新專利
※KITH 除了 NIKE 最近還和 Bergdorf Goodman聯名上了！識別度這麼高適合你嗎？
※谷歌AI圖像識別功能Google Lens上線iOS平台 Android版也快了
※東芝選用Cadence Tensilica Vision P6 DSP 提高ADAS晶元的圖像識別性能
※IDEMIA、英飛凌和pmdtechnologies將合力提供端到端的3D Face人臉識別解決方案
※Westwood Bioscience視覺識別設計欣賞
※語音識別＋FaceID HomePod2有望趕超Alexa
※Crunchfish & Nibiru 於MWC19發布手勢識別AR系統方案
※Machine Learning（一）：基於 TensorFlow 實現寵物血統智能識別
※基於TensorFlow和Keras的圖像識別（第一部分）
※Apple Pencil 將可用在 iPhone上/OPPO 人臉識別技術或比 iPhone X 更高級
※Valve 使用深度學習識別 CSGO 的作弊者；Android Studio 3.1 正式發布
※使用Python和Tesseract來識別圖形驗證碼
※用 Hinton 的膠囊神經網路來識別空間關係 Part1：CNNs及其缺點
※用 Hinton 的膠囊神經網路來識別空間關係 Part1：CNNs及其缺點
※iPhone8Plus成最後一款搭載指紋識別的iPhone！
※西澳大學：NovelPerspective：人物視角識別
※IDEMIA基於生物識別和移動的CloudCard＋解決方案榮獲JUNIPER research頒發的「最佳支付認證解決方案獎」