基於遞歸注意力模型的卷積神經網路：讓精細化物體分類成為現實

知識 07-26

如今，計算機視覺領域常見物體的圖像識別和圖像分類對大家來說已不再陌生，但提及精細化物體分類，或許不少人還不太了解。我們先放點圖來一起感受一下精細化物體分類的「威力」~

大家先看看這兩張圖是同一種鳥嗎？

先別急說答案，看了下面兩張局部高清圖再做決定。

類似的例子還有很多，它們看起來整體外觀十分相似，但細節特徵反映了它們的差別。

就在前幾日，最後一屆ImageNet榜單剛剛公布，最新的模型在圖像分類任務上已經達到了top-5結果預測錯誤率2.3%的水平。然而儘管分類精度如此之高，但由於類別不夠精細化（註：ImageNet競賽包含常見的1000個物體類別），使得這些模型在實際應用中往往無法滿足用戶的實際需求。

在日常生活中，我們可以很容易地識別出常見物體的類別（比如：計算機、手機、水杯等），但如果進一步去判斷更為精細化的物體分類名稱，比如去公園遊覽所見的各種花卉、樹木，在湖中划船時遇到的各種鳥類，恐怕是專家也很難做到無所不曉。不過，也可見精細化物體分類所存在的巨大需求和潛在市場。

雖然精細化物體分類擁有廣闊的應用前景，但同時也面臨著艱巨的挑戰。如下圖所示，每一行的三種動物都屬於不同種類，但其視覺差異卻非常微小。要分辨他們，對於普通人來說絕非易事。

通過觀察我們不難發現，對於精細化物體分類問題，其實形態、輪廓特徵顯得不那麼重要，而細節紋理特徵則起到了主導作用。目前，精細化分類的方法主要有以下兩類：

基於圖像重要區域定位的方法。該方法集中探討如何利用弱監督的信息自動找到圖像中有判別力的區域，從而達到精細化分類的目的。

基於圖像精細化特徵表達的方法。該方法提出使用高維度的圖像特徵（如：bilinear vector）對圖像信息進行高階編碼，以達到準確分類的目的。

微軟亞洲研究院副研究員傅建龍在CVPR 2017進行報告分享

從開篇的幾張局部高清圖中，我們已經可以感受到有判別力的區域對精細化物體分類的巨大幫助。

其實，這樣的情況在精細化物體分類問題中非常普遍。看似相似的兩張圖片，當我們把有判別力的區域放大後卻發現大相徑庭。而「RA-CNN」網路則有效地利用了這一特點，通過將不同尺度圖像的重要區域特徵融合，以確保重要信息充分發揮作用：有用的信息不丟失，同時雜訊得到抑制。

只需輸入一張圖片，「RA-CNN」便可自動找到不同尺度下的有判別力區域：上圖中藍色部分是分類子網路，它們將多個尺度的圖片用相應的卷積層提取出特徵後送入softmax 分類器，再以類別標籤作為監督對卷積層和分類器參數進行優化，當最終分類時，將各個尺度的特徵拼接起來，用全連接層將信息充分融合後進行分類。

上圖中的紅色部分則是定位子網路，其輸入是一張圖片的卷積層特徵，而輸出的是這張圖片有判別力區域的中心坐標值和邊長。定位子網路以層間的排序損失函數作為監督，優化下一尺度的圖片子區域在正確類別上的預測概率大於本尺度的預測概率，這樣可以促使網路自動找到最有判別力的區域。有了重要區域的坐標，再對原圖進行裁剪和放大操作便可得到下一尺度的輸入圖片，而為了使網路可以進行端到端的訓練，研究員們設計了一種對裁剪操作進行近似的可導函數來實現。以下是「RA-CNN」在三個公開數據集上找到的有判別力區域的例子及對應的分類精度：

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 微軟亞洲研究院 的精彩文章:

※微軟AI發布會，集齊六大亮點召喚黑科技！
※微軟沈向洋：以人工智慧服務人類社會，微軟責無旁貸

TAG:微軟亞洲研究院 |

您可能感興趣

※無人機航拍葉片缺陷識別模型——基於卷積神經網路的實現
※八卦模型比正負數象限體系，更能表達物質和反物質的關係
※清華大學：基於實體的神經信息檢索模型-理解實體在神經信息檢索模型中的作用
※從傢具模型製作看四種快速成型技術的差異！
※運用「五力模型」確保諮詢項目的成功
※超全總結：神經網路加速之量化模型
※使用經典模型進行圖像分類
※如何利用增長模型，實現精細化運營？
※循環神經網路不需要訓練？復現「世界模型」的新發現
※研究提出基於圖神經網路的會話序列推薦模型
※以線蟲為模型模擬的神經網路，讓機器人無需訓練即可自動避開障礙物
※基於模型的嵌入式軟體開發模式
※谷歌大腦發現神經網路的「牛頓法」：網路足夠寬，就可以簡化成線性模型
※目標鎖定！科學家用物理模型打擊網路極端組織和虛假賬戶
※利用晶體狀態模型尋找自組織的答案
※更好的體外模型：類器官
※使用RFM模型實現精細化運營
※無人機傾斜影像三維建模中的模型精細化
※組成心理諮詢與發展模型的十個因素
※溶血卵磷脂在內皮細胞泡沫化模型中的作用探討