CVPR Spotlight論文：當零示例學習遇上網路數據

新聞 07-20

雷鋒網 AI 科技評論按：本文由美國萊斯大學博士後牛力為 AI 科技評論提供的獨家稿件，未經許可不得轉載。

細粒度分類是分類問題中一個非常有挑戰性的子問題。和傳統的粗粒度分類不同，細粒度分類不是區分不同的大類，而是區分一個大類下面的子類，比如不同品種的貓。由於不同子類之間的差異非常微小，所以細粒度分類比粗粒度分類難度更大。並且，為細粒度分類收集訓練數據也是一項十分艱巨的任務，原因如下。

首先，一個大類下面往往有大量子類。據統計，世界上有 14000 種鳥，很難為每一種鳥都收集足夠的訓練數據。其次，為子類標註需要專業的知識。比如標註不同種類的鳥就需要知道每一類鳥的具體細節，比如嘴、翅膀、尾巴的顏色形狀等等。大多數人並不具備這種專業知識，因而能做細粒度標註的專家非常稀缺。

由於為細粒度分類收集訓練數據異常困難，註定會有很多子類沒有對應的訓練數據。對於某些種類缺乏訓練數據的情況，現有的研究工作主要集中於以下兩個領域：第一，收集弱監督數據，也就是標籤不準確的數據，比如從網路上獲取免費但標籤有噪音的數據 (webly supervised learning)；第二，藉助類別的語義信息，把知識從有標註數據的種類轉移到沒有標註數據的種類，比如零示例學習 (zero-shot learning)。但上述兩個領域的研究都有各自的缺陷。具體來說，基於網路數據學習會受到標籤噪音以及網路訓練數據和測試數據之間分布差異問題的影響，而零示例學習性能不佳且忽視了大量免費可用的網路數據。基於以上觀察，我們嘗試將基於網路數據學習和零示例學習結合起來用來做細粒度分類，工作發表在 CVPR 2018 (spotlight)：「Webly Supervised Learning Meets Zero-shot Learning: A Hybrid Approach for Fine-grained Classification」。

我們的做法如下，先選取一部分子類進行人工標註，然後為剩餘的子類從網上下載圖片。為了描述方便，我們把人工標註的子類稱為標註子類，把利用網路圖片的子類稱為網路子類。標註子類和網路子類構成了所有的子類。之前提到了網路數據有標籤噪音和數據分布差異的問題，而人工標註的子類沒有這兩個問題。為了解決基於網路數據學習的兩個問題，我們藉助於類別的語義信息，將知識從標註子類轉移到網路子類。類別的語義信息有很多種，包括特徵 (attribute) 和詞向量 (word vector) 等等。因為特徵需要專家進行標註，比較難獲取，所以我們使用從免費的維基文本中學到的詞向量。

我們方法的流程圖如下，給定一個大類，我們為標註子類收集人工標註的精確數據，為剩餘的網路子類從網路上下載圖片，然後獲取所有子類的詞向量。藉助詞向量，我們建立起標註子類和網路子類之間的聯繫，將知識從標註子類遷移到網路子類，用來解決網路子類存在的標籤噪音和數據分布差異問題。同時，我們在訓練階段也使用了無標籤的測試圖片，用來減小網路訓練圖片和測試圖片在數據分布上的差異。總之，我們的學習模型把所有子類的詞向量以及標註子類、網路子類和測試圖片的視覺特徵作為輸入，輸出測試圖片的種類。

第一步：學習基於標註子類的詞典 (dictionary)

我們用標準的詞典學習得到基於標註子類的詞典。

第二步：從標註子類轉移知識到網路子類用來解決網路子類存在的問題

在上面的表達式中，第一項是標準的詞典學習，第二項讓基於標註子類的詞典和基於網路子類的詞典接近，也就是把標註子類的知識轉移到網路子類，第三項期望測試集上的詞向量矩陣是低秩的，因為相同子類測試圖片的詞向量應該彼此相似，第四項是在網路訓練圖片上賦予不同的權重以拉近加權網路數據的中心和測試數據的中心之間的距離，也就是減少網路圖片和測試圖片在數據分布上的差異，第五項是用同樣的權重解決標籤噪音的問題，注意到我們用group lasso迫使分類損失矩陣的某些行稀疏，也就是強制某些網路圖片的分類損失很小。這些分類損失小的網路圖片對應著標籤準確的圖片，相應的權重也會更大，因為他們對訓練魯棒的分類器更重要。同時，我們對權重加了限制條件，希望在限制的搜索空間內找到最優的權重，可以選出標籤準確並且離測試圖片分布較近的網路圖片。上述問題可以通過交替的方式求解，也就是固定其他變數，求解剩下的一個變數。通過求解上述問題，我們可以獲得測試數據的詞向量。最後，把測試數據的詞向量和測試子類的詞向量作比較，我們就可以得到測試數據的子類標籤。

在實驗部分，我們用了零示例學習常用的三個資料庫：CUB、SUN和Dogs。對每個資料庫，我們把可見子類 (seen categories) 作為標註子類，把未見子類 (unseen categories) 作為網路子類和測試子類。和零示例學習不同的是，我們為未見子類從Flickr下載了網路圖片，也就是說為未見子類提供了弱監督的訓練數據。所以我們的學習範式可以看成弱監督的零示例學習，或者有額外子類的弱監督學習。以下是我們的實驗設定和實驗結果。我們比較了只使用網路子類 (web subcategories) 的方法、只使用標註子類 (labeled subcategories)的方法、和二者簡單的結合。結果表明，我們的方法相比較基於網路數據學習和零示例學習的簡單結合，效果取得了顯著的提升，也說明了從標註子類轉移知識到網路子類用來解決網路訓練數據存在的問題是一套行之有效的方法。

除了定量分析，我們還提供了一些定性分析。記得在我們學習模型的第二步，我們為網路訓練圖片分配了不同的權重，期望選出標籤準確並且離測試圖片分布較近的網路圖片。接下來，我們拿Dogs資料庫舉例，從網路訓練圖片中選出權重最大和最小的幾張圖片（我們把權重範圍設定在[0, 1.5]）。從下圖中可以看出我們方法選出的高權重圖片都標籤準確，並且物體佔據圖片的中間大部分區域，這也從另一個角度證明了我們方法的有效性。更多細節請參照我們的論文http://openaccess.thecvf.com/content_cvpr_2018/CameraReady/3280.pdf。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 雷鋒網 的精彩文章:

※Mark 趙情斷烏克蘭，竟是黑客惹的禍
※自然語言處理的下一個十年將在哪裡？CCF-GAIR 2018將給你答案

TAG:雷鋒網 |