當前位置:
首頁 > 新聞 > 利用特權信息、語義信息和多源信息輔助基於網路數據的學習

利用特權信息、語義信息和多源信息輔助基於網路數據的學習

雷鋒網 AI 科技評論按:本文由美國萊斯大學博士後牛力為 AI 科技評論提供的獨家稿件,未經許可不得轉載。

傳統的機器學習尤其是深度學習,需要大量的標註數據,但是標註數據的獲取非常費時費力。考慮到每天都有大量的圖片和視頻被上傳到網上可供免費下載,為了有效地避免由於標註數據不足帶來的對傳統機器學習模型的不利影響,我們利用互聯網上已有的、大量標註得比較粗糙的網路圖片或視頻來訓練模型,用於物體識別、人體動作識別、視頻事件檢測等應用。

然而,用網路圖片或視頻來訓練模型存在諸多問題,比如:

1.網路圖片或視頻標籤是由用戶提供的,非常不準確。有雜訊的訓練集對模型訓練有非常負面的影響;

2. 網路圖片視頻和測試集的圖片視頻在數據分布上存在巨大差異,如果用網路數據訓練模型,得到的模型在數據分布差別很大的測試集上,效果會很不理想。

但是,基於網路數據學習也有一些優勢,比如:

1.網路圖片和視頻通常會配有標籤、標題等文字信息,但測試圖片和視頻沒有這種文字信息。這種只有訓練數據有但測試數據沒有的信息稱為特權信息 (privileged information),我們可以利用特權信息來幫助訓練圖片或視頻的分類模型;

2. 網路上有可以免費獲得的語義信息,比如我們可以從維基百科上獲取每一個類別的語義信息,用來輔助訓練更魯棒的圖片或視頻的分類模型;

3. 網路數據具有多源性。不論是圖片還是視頻,我們都可以從很多不同的網站下載大量免費的數據,比如從 Google、Bing 上獲取圖片,從 YouTube、Flickr 中獲取視頻。然而,每一個數據源的數據分布都會有很大的差異,因此如何利用多源網路數據進行學習也是很重要的研究課題。

為了充分利用網路數據的優勢,解決基於網路數據學習中存在的關鍵問題,我們提出了一系列基於網路數據的學習方法,使得網路圖片和視頻能被用於訓練更魯棒的模型,在物體識別、人體動作識別、視頻事件識別等應用上取得了很好的效果。接下來就分別介紹如何利用上述網路數據的三個優勢(特權信息、語義信息和多源信息)來解決基於網路數據學習的兩大主要問題(標籤噪音和數據分布差異)。


一、利用特權信息輔助基於網路數據的學習

為了解決網路數據的標籤噪音問題,我們參照多示例學習 (multi-instance learning) 把網路圖片分成若干個包。對於二分類問題,我們用類名作為關鍵詞可以搜索得到很多相關樣本,然後用其他關鍵詞搜索得到很多無關樣本。我們把相關樣本分成正包,無關樣本分成負包。我們只知道每個包的標籤,但不知道每個包裡面樣本的真實標籤。因而,我們對樣本的標籤做了如下假設:每個負包裡面的樣本都是負樣本,但對於每個正包,至少有一定比例的樣本是正樣本而其他是負樣本。其中提到的比例屬於先驗信息,可以根據實驗觀察人為設定。根據以上假設,我們就可以提出多實例學習的模型來解決標籤噪音的問題。

另外,我們同時使用特權信息來進一步減弱標籤噪音的影響。受 SVM+的啟發,我們用基於特權信息的損失函數 (loss function) 來代替多實例學習模型中的損失變數,從而用特權信息控制損失的大小。一般來說,在特權信息的約束下,噪音樣本的損失函數值較大,也就說我們允許它們的損失比較大;而非噪音樣本的損失函數值比較小,也就是說我們強制要求它們的損失比較小。綜上,我們將特權信息用於多種多示例學習方法,提出一種新的學習框架,如下圖所示。

在上述框架的基礎上,我們進一步解決網路訓練數據和用戶測試數據的分布性差異問題。我們給不同的訓練樣本分配不同的權重。具體來說,離測試數據中心比較近的被分配較高的權重,而離測試數據中心較遠的被分配較低的權重,從而拉近加權的訓練數據中心和測試數據中心的距離。經過公式推導,我們有一個有意思的發現:對於每一個訓練樣本,它和訓練數據中心的相似度減去它和測試數據中心的相似度可以被看成另外一種特權信息。至此,我們將學習框架拓展為可以同時解決基於網路數據學習的兩大問題。在實驗部分,我們用 Flickr 圖片或視頻作為訓練集,在圖片分類、人體動作識別和視頻事件檢測的標準測試集上做了大量的實驗,結果證明了特權信息的有效性。我們的論文發表在 ECCV 2014 [1],後來被拓展到 IJCV [2]。


二、利用語義信息輔助基於網路數據的學習

在網上我們可以免費獲得每一種類別的語義信息 (semantic information)。比如給定一個類名,我們可以從它的維基主頁上抽取文本信息作為該類別的語義信息,也可以用類名的詞向量 (word vector) 作為該類別的語義信息。我們的方法建立在差分自編碼器 (variational auto-encoder (VAE)) 的基礎上,出於以下兩點考慮:1. 自編碼器可以用來檢測噪音;2. 自編碼器的隱藏層 (hidden layer) 可以加入語義信息。

我們方法的框架見下圖,分成上下兩個子網路。下面的子網路是 VAE,輸入是圖片的 CNN 特徵,輸出是重建概率,可以用來指示該圖片是不是噪音。具體來講,噪音的重建概率比較低而非噪音的重建概率比較高。上面的子網路是分類器,輸入是類別的語義信息和 VAE 的隱藏變數,輸出是類別種類,這也相當於用分類器來約束 VAE 的隱藏層。在這種情況下,分類器和 VAE 可以聯合利用語義信息來抵制噪音。從我們最終的目標函數可以看出,我們旨在減少加權的分類損失。具體來說,更可能是非噪音的圖片的損失被分配更高的權重,因為非噪音的圖片對訓練魯棒的模型貢獻更大。在訓練階段,我們訓練一個端到端的網路以優化 CNN、VAE 和分類器的參數。在測試階段,我們輸入測試圖片和所有測試類別的語義信息,預測測試圖片的類別。

在上述網路結構的基礎上,我們做了兩點改進用來解決網路訓練數據和用戶測試數據的分布性差異問題:

首先,我們用 VAE 同時重建網路訓練數據和無標籤的測試數據,該方法已被之前域遷移 (domain adaptation) 的論文證明有效。

其次,我們用網路訓練數據的隱藏變數 (hidden variable) 來重建測試數據的隱藏變數。

具體來說,我們假設測試數據的隱藏變數可以由網路訓練數據的隱藏變數線性表示,並且表示矩陣是低秩的。藉助低秩表示 (low-rank representation) 的學習方法,我們可以更新測試數據的隱藏變數並用更新後的數據重新預測。在實驗部分,我們用 Google 圖片作為訓練集,在三個圖片分類的標準測試集上做測試。結果表明類別的語義信息可以輔助解決基於網路數據學習的兩大問題。我們的論文發表在 CVPR 2018 [3]。

三、利用多源信息輔助基於網路數據的學習

網路上的數據多模態且多源。比如圖片可以從 Google, Flickr, Bing 等網站下載,視頻可以從 Flickr, YouTube 等網站下載,並且從網上下載的圖片或視頻都帶有文本信息。從不同網站下載的數據有很大的分布差異性。如果用網路數據作為訓練集,我們希望選取和測試集分布比較接近的網路源作為訓練集,這樣訓練出來的模型在測試集上能取得更好的效果。所以我們想要在不同的網路源上分配不同的權重,具體來講,給和測試集分布比較接近的網路源分配更高的權重。

我們的流程圖如下,給定若干個網路源,其中一部分是圖片源,另一部分是視頻源。我們從圖片中抽取 2D 視覺特徵,從視頻中抽取 3D 視覺特徵,從文本信息中抽取文本特徵,輸入到我們的學習模型。同時,我們的方法也需要輸入無標籤的測試視頻,從測試視頻中同時抽取 2D 視覺特徵和 3D 視覺特徵。基於視覺特徵,我們在每個源上訓練一個分類器。給定一個測試樣本,每個分類器會產生一個預測值。我們把所有的預測值加權平均,和測試樣本的標籤作比較。然而,測試樣本的標籤在訓練階段是未知的,所以我們還需要推斷測試樣本的偽標籤。綜上,在訓練階段,我們需要同時學習每個源的權重,每個源上的分類器以及測試樣本的偽標籤。這樣就可以解決網路訓練數據和用戶測試數據分布的差異性問題。

在流程圖中,我們還可以看到所有的圖片和視頻都有附帶的文本信息。我們利用附帶的文本信息作為特權信息來幫助解決網路數據標籤噪音的問題。如何利用特權信息去噪已經在第一部分講過,技術細節比較相似,在此就不重複了。在實驗部分,我們把 Google 和 Bing 作為圖片源,把 Flickr 作為視頻源,在人體動作識別和視頻事件檢測的標準測試集上做了大量的實驗。實驗證明我們的方法可以更好地利用多模態多源的網路數據。我們的論文發表在 CVPR 2013 [4],然後拓展到 T-NNLS [5].


總結

基於網路數據學習存在兩大主要問題:標籤噪音和數據分布差異性,所以和基於精確標註數據的學習相比在性能上仍有一定的差距。但是考慮到網路數據的諸多優勢,基於網路數據學習有著很大的提升空間和廣闊的應用前景。在這篇文章中,我們結合過去嘗試的方法,講述了如何利用特權信息、語義信息和多源信息幫助解決基於網路數據學習的主要問題。在未來工作中,我們會繼續探索如何充分利用網路數據的優勢去提升基於網路數據學習的性能,並把應用擴展到物體檢測,語義分割、文本和圖片的雙向檢索以及其他領域。

[1] Li Niu *, Wen Li *, and Dong Xu, 「Exploiting Privileged Information from Web Data for Image Categorization」, ECCV, 2014.

[2] Li Niu, Wen Li, and Dong Xu, 「Exploiting Privileged Information from Web Data for Action and Event Recognition」, IJCV, 2016.

[3] Li Niu, Qingtao Tang, Ashok Veeraraghavan, and Ashu Sabharwal,「Learning from Noisy Web Data with Category-level Supervision」, CVPR, 2018.

[4] Lin Chen, Lixin Duan, and Dong Xu,「Event recognition in videos by learning from heterogeneous Web sources」, CVPR, 2013.

[5] Li Niu, Xinxing Xu, Lin Chen, Lixin Duan, and Dong Xu, 「Action and Event Recognition in Videos by Learning from Heterogeneous Web Sources」, T-NNLS, 2017.


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 雷鋒網 的精彩文章:

蘋果成立新的 AI/ML 團隊,由 John Giannandrea 領導
攜手德賽西威,小鵬汽車2020年L3級自動駕駛量產落地

TAG:雷鋒網 |