「分段映射」幫助利用少量樣本習得新類別細粒度分類器

最新 05-22

選自arXiv

作者：Xiu-Shen Wei等

機器之心編譯

參與：Pedro、路

近日，來自南京大學、曠視和阿德萊德大學的研究者在 arXiv 上發布論文，提出一種利用少量樣本學習新類別細粒度分類器的新方法 FSFG 模型，該方法包含兩個模塊：雙線性特徵學習模塊和分類器映射模塊。後者中的「分段映射」功能是該模型的關鍵部分，它通過一種參數更少的方式學習一組相對易實現的子分類器，進而生成決策邊界。

細粒度圖像識別是一個重要的計算機視覺問題。得益於複雜深層網路結構的應用，該問題解決方案的表現也越來越好。訓練這種分類演算法所需的大規模細粒度數據量限制了其應用範圍（例如對於稀有鳥類，可收集的訓練樣本較少），而人類卻能夠在缺乏監督的條件下學習新的細粒度概念。為了模仿人的這種能力，本論文在少樣本的設置下研究細粒度圖像識別問題，也就是說，本論文的研究目標是從數量極少的訓練樣本中學習新型細粒度類別的分類器（樣本（sample）又叫範例（exemplar），數量通常為 1 或 5）。

圖 1：少樣本的細粒度圖像識別（FSFG）任務圖示。任務目標是從少數範例中學習得到細粒度類別分類器（本示例中是從少量範例中學習得到鳥類品種分類器）。研究者使用輔助數據集 B 訓練得到範例到分類器的映射，並在另一個數據集 N 上測試 FSFG 的性能。這兩個數據集間沒有類別重疊。

如何基於少量訓練樣本學習得到細粒度類別分類器是個難題，因為我們對學得分類器的期望是：能夠捕獲類別之間的細微差別，並且可泛化至有限監督之外。為了實現這樣的範例到分類器映射，本論文研究者提出一個為 FSFG 任務量身定製的端到端可訓練網路，該網路受當前最優的細粒度識別模型的啟發。具體而言，該網路由雙線性特徵學習模塊和分類器映射模塊組成。前者將樣本圖像的分類信息編碼為特徵向量，而後者是整個網路的關鍵部分，它將中間圖像特徵映射到類別級別決策邊界。這種映射存在兩個問題。一方面，圖像級別表徵的分布可能很複雜，會對後續映射造成困難。另一方面，雙線性池化生成的特徵維數非常大，它可能造成的參數爆炸進一步阻礙了後續映射。

本文提出模型的新穎之處在於分類器映射模塊中的「分段映射」功能，該功能用一種參數更少的方式學習一組相對易實現的子分類器，進而生成決策邊界。由於雙線性池化中的外積計算，其獲得的特徵本質上可以看作是一組子向量，每個子向量都隱性地表示圖像的一部分。研究者使用高度非線性映射來執行子向量到子分類器的映射。然後，將這些子分類器重新組合為全局分類器，這樣就能給樣本分類了。直觀來看，研究者利用隱性表示「部分」的子向量學習得到了特徵到分類器的映射，子向量可以編碼更簡單純粹的信息，最終使分類變得更容易。此外，分段映射顯著減少了模型參數的數量，使計算更加高效。研究者用元學習的方式藉助輔助數據集學習得到範例到分類器的映射，如圖 1 所示。元學習過程的目的是學習得到一個「映射原型」，研究者希望這個原型能泛化至新的類別。

實驗中，研究者在三個細粒度基準數據集（CUB Birds [23]、Stanford Dogs [9] 和 Stanford Cars [11]）上運行上述 FSFG 方法。實證結果表明，FSFG 模型顯著優於其他基線方法。

本論文的主要成果如下：

研究了少樣本條件下細粒度圖像識別問題，並提出一種新型元學習策略來解決這個問題。

設計了一種名為分段映射的新型範例到分類器映射方法，它採用雙線性 CNN 特徵的特殊結構，利用相對較少的參數學習得到分類器。

利用三個細粒度基準數據集進行了全面的實驗，發現 FSFG 模型的性能比其他所有的解決方案都要好。

圖 2：FSFG 模型的思路。在每個 episode 中，研究者從 B 中抽取樣本集合 E，它由一個類別子集（本例中一共有三個類別）組成，每個類別包含很少的範例（紅色邊框的圖像）。研究者希望學習得到映射 M，它可以將這些範例映射到相應的類別分類器（虛線）。學習得到的映射參數能夠使這些分類器準確地區分待識別圖像（黃色邊框圖像）。

圖 3：FSFG 模型的架構圖示。左邊是表徵學習的第一個組件（雙線性池化模塊）。右邊是第二個組件（分類器映射模塊），它將中間圖像特徵映射到類別分類器。

表 2：三個細粒度數據集上的對比結果（平均值 ± 標準差）。每列的最大平均精度用粗體標出。「?/」表示 FSFG 模型優於／差於其他方法（通過置信水平為 0.05 的成對 t 檢驗來比較）。「FB」表示使用完全雙線性池化表徵，「CB」表示使用緊湊雙線性池化。

表 3：全局映射和分段映射的對比結果。每列的最大平均精度用粗體標出。「?」表示分段映射性能優於全局映射（通過置信水平為 0.05 的成對 t 檢驗來比較）。

圖 4：全局映射和分段映射生成的類別分類器利用 t-SNE [21] 得到的二維可視化結果。每個點表示一個生成的分類器，不同的顏色表示不同的類別。每個類別顯示五十個分類器，每個分類器都是通過學習隨機抽樣的五個範例獲得的。該可視化基於 CUB Birds 數據集。

圖 5：不同層數的模型簡化測試。在每個子圖中，橫軸代表層數，縱軸代表準確率。

論文：Piecewise classifier mappings: Learning fine-grained learners for novel categories with few examples

論文鏈接：https://arxiv.org/pdf/1805.04288.pdf

摘要：人類能夠在缺乏監督的情況下學習新的細粒度概念，而最好的深度學習系統卻需要成百上千的標註數據來訓練。我們試圖通過研究少樣本條件下的細粒度圖像識別問題（FSFG）來縮小人類與深度學習系統之間的上述差距。FSFG 要求學習系統利用少量樣本（只有一個樣本或者樣本數小於 5）為新的細粒度類別構建分類器。為解決上述問題，我們提出了一個為 FSFG 任務量身定製的端到端可訓練深度網路。

具體而言，我們的網路由雙線性特徵學習模塊和分類器映射模塊組成：前者將示例圖像的分類信息編碼為特徵向量，後者將中間特徵映射到新類別的決策邊界。模型的新穎之處在於分類器映射模塊中的「分段映射」功能，該功能通過一種參數更少的方式學習一組相對易實現的子分類器，進而生成決策邊界。基於輔助數據集我們用元學習的方式學習範例到分類器的映射，它可以泛化至新類別中。我們在三個細粒度基準數據集上進行了相關測試，實驗結果表明，我們的 FSFG 模型顯著優於其他方法。

本文為機器之心編譯，轉載請聯繫本公眾號獲得授權。

------------------------------------------------

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 機器之心 的精彩文章:

※阿里量子實驗室量子電路模擬器「太章」：模擬81比特40層量子電路
※什麼是最大似然估計、最大後驗估計以及貝葉斯參數估計

TAG:機器之心 |