當前位置:
首頁 > 最新 > 基於多特徵多核哈希學習的大規模圖像檢索

基於多特徵多核哈希學習的大規模圖像檢索

本文發表於《中國科學: 信息科學》2017年 第47卷 第8期: 1109–1126

德先生整理編輯,如需轉載請註明來源

Large-scale image retrieval based on multi-feature andmulti-kernel hashing learning

Xianhua ZENG1,2*, Zhihong YUAN1,2, Guoyin WANG1,2& Jie YANG1,2

1. College of Computer Science and Technology, Chongqing University of Posts and Telecommunications,Chongqing 400065, China;

2. Chongqing Key Laboratory of Computational Intelligence, Chongqing University of Posts andTelecommunications, Chongqing 400065, China

* Corresponding author. E-mail:zengxh@cqupt.edu.cn

AbstractHashing methods can overcome the problems of low retrieval efficiency and high storage cost. Existing hashing methods use either only one feature or multiple features as the input of one kernel function. The fact that different kernel functions have different roles and different characteristics and contain different information is ignored. In this paper, an adaptive multi-feature and multi-kernel hashing learning (MFMKH) algorithm is proposed, which can adaptively combine the feature weight coefficient and the kernel weight coefficient and double combine the multi-feature and multi-kernel advantages. The fusion of these features in the algorithm solves the disadvantage of single feature containing insufficient information. In addition, the use of a variety of different kernel functions can compensate for the lack of a single-kernel learning ability and has the dual advantages of multi-feature fusion and multi-kernel learning. Experiments on the standard datasets IRMA, Ultrasound, and Cifar10 have shown that the retrieval performance of the proposed method clearly outperforms other similar kernel-based hashing learning methods. In addition, compared to the supervised deep hashing, the retrieval performance of the proposed method is competitive on the Cifar10 dataset in the case of the reduced training time.

Keywords:dimension reduction, multi-feature fusion, multi-kernel learning, hashing learning, adaptive learning, image retrieval

1

引言

在大數據時代,大數據的應用所涉及的領域越來越廣。由於大數據的重要性,它已經成為國家重要的戰略資源,對大數據的存儲、管理和分析也已經成為學術界和工業界高度關注的熱點[1,2]。而圖像作為大數據信息來源的主要成分,它已成為視覺領域研究的熱點。而機器學習技術[3]對於解決大規模圖像檢索中數據量大、維度高等問題起著關鍵的作用。

傳統的圖像檢索分為基於文本的圖像檢索(TBIR)[4]和基於內容的圖像檢索(CBIR)[5]。如今CBIR是當前圖像檢索的研究重點,對於CBIR而言,建立低層次圖像特徵和高層次的語義特徵之間的聯繫是很困難的,檢索精度也相對較低。為此,Shao等[4]在2004年提出了一種基於文本和內容的醫學圖像檢索方法,該方法能夠將高層次的語義特徵和低層次的圖像特徵結合起來,使得檢索效果比僅僅基於內容的圖像檢索方法要好。He等[6]在2006年提出一種基於廣義的流形排序的圖像檢索方法,通過人工反饋的方法進一步提高了圖像檢索的精度。Wang等[7]在2008年提出一種基於內容的非對等的流形排序圖像檢索方法,通過增加可靠數據點的權重,避免雜訊的影響從而使得演算法更具魯棒性。然而上述提到的圖像檢索方法中都不能很好地應用於大規模的圖像檢索中,當圖像數據規模足夠大時,它們都面臨著存儲空間大,檢索速度慢等缺點,因此哈希學習方法應運而生。其中一個最著名的哈希方法就是局部感知哈希(LSH)[8],該方法由於採用的是隨機映射的方式,因此不能很好地解決線性不可分問題以及「維度災難」問題。為了解決這個問題,Kulis等[9]在2009提出了基於核的局部敏感哈希(KLSH),將其擴展為能夠處理高維空間中的數據;緊接著Raginsky等[10]提出了平移不變性核局部敏感哈希(SKLSH);以及Liu等[11]在2012年提出一種有監督的核哈希方法(KSH),該方法能夠巧妙處理哈希碼的內積,從而可以更有效地優化漢明距離;考慮到多特徵融合的優勢,Liu等[12]在2014年提出一種多特徵核哈希方法(MFKH)。Li等[13]在2015年提出一種基於標籤對的深度監督哈希(DPSH),使用標籤對信息使得該深度哈希方法能夠同時進行特徵學習和哈希編碼學習。Liu等[14]在2016年提出一種深度監督哈希方法(DSH),該方法使用卷積神經網路模型,使得最終學到緊湊的相似性保留的哈希碼。Shi等[15]在2016年提出一種基於核的離散監督哈希(KSDH),使用非對稱鬆弛策略,使得哈希函數學習和線性函數鬆弛能夠同步進行,從而減少累計的量化誤差。在大規模圖像檢索中,大多數方法的計算時間主要是映射過程,為了能夠儘可能地減少存儲空間和降低計算代價,Xu等[16]在2017年提出一種監督稀疏哈希(SSH),使用稀疏正則化方法減少映射矩陣的參數數量,避免過擬合問題。Gui等[17]在2017年提出一種快速監督離散哈希(FSDH),採用將訓練樣本的類別標籤回歸到相應的哈希碼的策略來加速演算法,使得FSDH不僅速度快,而且具有很好的檢索性能。

哈希學習作為近年來大數據學習的一個研究熱點[18],它能夠將數據表示成二進位碼的形式,不僅能顯著減少數據的存儲和通信開銷,還能降低數據維度,從而顯著提高大數據學習系統的效率[19]。近幾年,哈希方法在許多計算機視覺[20,21]任務中受到廣泛的重視的主要原因在於哈希學習能夠降低數據維度,減少存儲空間,加快檢索速度。

儘管前面提到的這些基於核哈希的方法[9~12]在視覺檢索中取得了很大的進展,但是已有的基於核的哈希方法由於在學習哈希函數的過程中只是利用了某個單一的核函數以及某種特徵而使其學習能力受到限制。而現有的多特徵哈希方法[22,23]通過融合多種特徵雖然已經取得了很好的效果,但是在處理這些多特徵的過程中,多特徵串聯成一種特徵一方面會導致特徵維度非常高,增加計算量;另一方面無法發現不同特徵之間的內在聯繫。它們都沒有綜合考慮不同的特徵包含著不同的圖像信息以及不同的核函數有不同的作用與適用領域1)。

對於上述存在的問題,本文提出一種自適應的多特徵多核的哈希學習方法,該方法先將每一種特徵映射到不同的核空間中,然後將這些高維核空間的特徵進行融合構造出一種多特徵多核的哈希學習方法。在該方法中,不同特徵和不同核都有不同的權重,這種方法的思想結合了多視圖局部線性嵌入方法[24]和多核學習方法[25,26],該方法具有多特徵和多核的雙重優點。本文的主要創新點在於:

(1)使用基於學習的方法來學習線性組合的核函數中的每一個核函數的比重係數,而非人為設定,從而使該方法中每個核函數的選擇具有更高的可信度。

(2)使用基於學習的方法來學習線性組合中的每一種特徵的比重係數,從而能夠更好地學習到特徵之間的關聯性以及每種特徵的重要程度。

(3)採用的是自適應的學習方法,從而能夠自動選擇性能較優的核以及效果較好的特徵。

2

相關工作

目前,由於醫院裡每天會產生大量的醫學圖像,這使得醫學圖像診斷的相關工作人員的工作壓力非常大。雖然現有的CBIR系統在一定程度上緩解了工作人員的壓力[24,27],但是該系統無法應用於大規模的醫學圖像的檢索中,而且其精度也有待提高。隨著基於哈希學習的圖像檢索技術的出現,該問題逐漸得到解決。然而這些基於哈希的方法[9~11]也受到了一些限制,使得哈希函數的學習僅僅是通過單一特徵或單一的核函數得到。而多特徵的哈希學習方法[22,23]通過融合不同的特徵雖然取得了很好的效果,但是這些方法是將這些特徵預先串聯在一起作為一種特徵向量或者是通過簡單的線性組合構成一種特徵向量。一方面無法充分利用不同的特徵之間的作用,另一方面這種將多特徵連在一起的方法使得特徵維度增大,從而在訓練和檢索時,計算代價增大。因此將這些方法應用於大規模的維度很高的視覺圖像中是不可行的[12]。

譜哈希SH[28]方法的基本思想是將原始數據編碼成緊湊的二進位哈希碼的同時並在漢明空間中保證原始數據的相似性,該方法可以看作是譜聚類[29]方法的一種擴展。它的目標函數如下:

其中Sij表示樣本i和j的相似度,yi表示第i個樣本的哈希碼,b代表哈希碼的Bit數。由於式(1)中問題的求解是一個NP難題,通過譜鬆弛後將離散限制條件轉化為連續的就可以通過圖的Laplace矩陣特徵值分解方法求得最終的解。

另一個相關工作就是多特徵核哈希[12],它的基本思想是不同特徵對應同一種核,然後再將這些映射後的特徵線性組合起來構成一種融合的特徵。它的目標函數如下:

其中Sij表示樣本i和j的相似度,N和P分別表示訓練樣本數與每個樣本的哈希碼數,Yi表示二進位哈希碼矩陣Y中的第i列即第i個樣本的哈希碼。

從上述論述中可以發現,多特徵核哈希[12]只利用核方法將不同特徵融合在一起,並沒有考慮到同一種特徵被映射到不同的核空間後再融合的效果。考慮到不同核函數的不同作用,不同特徵包含不同的信息,本文將不同特徵,不同核函數進行線性組合,構造一種雙重的多特徵多核方法,使得它能夠融合任意特徵以及任意核函數之間的雙重組合。接下來將主要介紹本文多特徵多核哈希學習方法。

3

自適應多特徵多核哈希學習

在已有的基於核的哈希學習方法中,要麼僅使用一特徵對應一核如KLSH[9],SKLSH[10]和KSH[11],要麼就是多特徵中的每一特徵對應同一個核函數如MFKH[12]。這些方法中並沒有充分考慮到不同特徵所含有的不同信息以及不同核函數所具有的不同作用。

結合多特徵核哈希[12]以及多核學習[25,26]的兩種思想,本文提出一種自適應的多特徵多核哈希學習方法,其哈希學習示意圖如圖1所示。圖1主要闡述了多特徵多核哈希學習方法的流程:首先,對於圖像庫中的每一幅圖像,提取M1種不同的特徵,然後將提取的每一種特徵映射到M2個不同的核空間中,接著將映射到核空間的特徵進行組合構造出多特徵多核空間,然後進行哈希學習,最後將學習到的哈希碼保存起來。本文提出一種自適應的多特徵多核哈希學習方法,其多特徵多核雙重組合結構圖如圖2所示,圖2表明將每一種特徵分別映射到不同的核空間中,然後將這些映射到核空間中的特徵進行組合,構造一種雙重組合的多特徵多核空間,最後在組合後的核空間中學習哈希函數。本文提出的自適應的多特徵多核哈希學習方法不僅能夠解決單個特徵包含的信息量不足問題,而且能夠將不同的核函數具有不同功能考慮進來,又因為核函數的特性,並不會因為特徵的維度增加而導致「維度災難」問題。其中特徵的權重係數和核函數的權重係數是能夠自學習的而不是人為指定的,因此具有更高的可信度。

3.1 目標函數的構造

本文令訓練集的樣本數為N,特徵圖的個數為M1,核函數的個數為M2。訓練集的第n個樣本的第m種特徵可以表示為,則表示所有訓練樣本的第m種特徵。在第二部分相關工作的基礎上 , 構造多特徵多核表達形式如下:

其中αt表示第t個核函數的權重,μm表示第m種特徵的權重係數,Kt(x,y)表示圖像x和y的第t個核函數的函數值.由式(3)可知定義核映射函數如下:

該式中是第i個訓練樣本的第j種特徵通過映射函數φ(·) 後的高維表達形式,表示第j種特徵所佔的權重。第p個哈希函數的線性映射定義如下:

其中第i個樣本的第p個哈希碼為Ypi= hp(Xi)。

定義超平面向量Vq可由R個映射到對應的核空間中的Zr基點表示而成,即

其中W是一個R×B的權重矩陣,B為哈希碼長度,基點或錨點可以通過隨機樣本[30]或者聚類[31]的方法獲得。由上述式子可知所有訓練樣本的哈希碼Y可以寫成如下核形式,即

其中Kj為R個基點與N個樣本點構成的大小為R×N的核矩陣KR×N的第j列,偏置b=[b1,b2,. . . ,bB],B為哈希碼長度。

對於所有訓練樣本,令需要學習的哈希函數的個數為B,哈希函數表示為,學習到的哈希碼為Y(B×N的矩陣)並且哈希碼能夠保持圖像之間的某種相似性S(稀疏矩陣),令Sij表示任意兩個樣本點i和j之間的相似度,對於多特徵多核中的監督方法而言,相似度矩陣S定義如下:

在譜哈希[28]和多特徵核哈希[12]的基礎上,基於上述所列的式子,本文構造出如下的一種自適應的多特徵多核哈希學習的目標函數:

使用Laplace矩陣L=D?S(其中D為對角矩陣,)。目標函數就可以轉化為如下形式:

對於目標函數(10),通過優化權重矩陣W,權重係數μ以及權重係數α,使得學習到的哈希函數能夠保留原始圖像的相似性。雖然將不同的特徵映射到不同的核空間後再將它們連接起來會導致特徵維度非常高,但是使用核技巧後最終的特徵維度只有R維,而且。同現有的將多特徵串聯成一個特徵[22,23]的方法相比,計算量並不會因為特徵維度的增加而顯著增加。

3.2 目標函數的求解方法

由於目標函數具有離散性和非凸性約束條件,使得它的求解過程非常困難。使用類似譜哈希[28]的思想,將離散約束條件鬆弛後就轉化為Yi=WTKi+b。通過譜鬆弛後,目標問題就有了凸性質,也就是有了極值。因此,在優化求解過程中只需分幾個步驟就可以求出最優解。首先,固定係數μ和α,求解W,b的過程可以通過特徵值分解的方法。然後固定W,b,α求解μ,最後求解α時固定W,b,μ。

3.2.1 求解權重矩陣和偏置W,b

固定μ和α,由限制條件可得將b代入到Yi中,根據式(6)將V代入到目標函數(10)中,目標函數可以重寫為

因,則約束條件可以變形為

令。於是限制條件就轉化為了WTGW = I。因此,W,b的求解就可以轉化為

式(11)的求解過程可通過特徵值分解方法[29]求得。

3.2.2 求解特徵權重係數μ

當固定W,b和α,目標函數(10)中特徵權重係數μ求解過程如下:

其中,。於是目標函數 (10) 求解係數可以轉化為如下 :

因此求 μ 的過程可以看作是二次規劃問題的求解過程。

3.2.3 求解核函數權重係數α

當固定W,b和μ,目標函數(10)中核權重係數α求解過程如下:

其中

於是通過目標函數(10)求解係數α可以簡化如下:

式(13)的求解過程同樣可通過二次規劃方法求出α。

3.2.4 哈希編碼過程

對於新的待檢索樣本x, 它的哈希碼錶達形式為

其中Zi表示R個基點中的第i個基點樣本。使用漢明距離排序或者哈希查找表的方法,求出待檢索的樣本與資料庫中的樣本的距離,可以在次線性時間內檢索出相似圖像。

綜上分析,本文的MFMKH演算法步驟描述如演算法1:

4

演算法分析

本節主要對提出的多特徵多核哈希學習演算法(MFMKH)進行演算法複雜度分析和空間複雜度分析。本演算法通過隨機樣本法選取基點後能夠降低時間複雜度,不會因為特徵融合後的維度增加而導致計算量增大,其複雜度只與選擇的基點數和樣本的規模有關。

4.1 時間複雜度分析

本文提出的多特徵多核哈希學習演算法的時間複雜度由多特徵多核哈希編碼訓練過程的時間複雜度決定,訓練時每次迭代的時間複雜度由3部分構成,分別是固定μ和α時,求解W,b的時間複雜度;固定W,b,α時,求解μ的時間複雜度以及固定W,b,μ時,求解α的時間複雜度共同決定。其中求解權重矩陣W和偏置b的時間複雜度主要是3個矩陣的乘積即計算,(其中L是通過k近鄰計算得到的每列只有k個非零元素的對稱稀疏矩陣——Laplace矩陣,k為常數,,所以計算需要進行k×M1×M2×R×R×N次乘法運算(k為常數),故其時間複雜度為O(M1M2R2N);求解特徵權重係數μ的時間複雜度主要是計算,同求解W,b的時間複雜度類似,其時間複雜度為;同理,求解核函數權重係數α的時間複雜度為。所以當迭代次數為T時,本演算法的總時間複雜度為。

4.2 空間複雜度分析


4.3 演算法收斂性分析


5

實驗結果

本節將本文提出的方法與相關方法進行實驗比對,從而驗證本文提出方法的有效性。主要比對的方法有核局部感知哈希[9]、平移不變性核局部感知哈希[10]、多特徵核哈希[12]、譜哈希[28]以及基於標籤對的深度監督哈希[13]。此外,本文還進行了自我對比的實驗即多特徵多核實驗中將任意單特徵單核的組合形式和多特徵多核方法進行對比。實驗過程中,為了減少隨機性的影響,所有的方法進行了10次實驗。

本文實驗中使用GIST特徵、HOG特徵、線性核、Laplace核及Gauss核的組合包括理論分析和多次實驗驗證。

(1)本文從特徵和核函數的物理特性進行分析說明選擇該組合的合理性,由於特徵的選擇多種多樣,本文主要從全局特徵和局部特徵進行考慮。全局特徵主要考慮的是圖像的宏觀特徵而忽略圖像的局部特徵(如GIST特徵);而局部特徵是圖像特徵的局部表達,它只能反應圖像上具有的局部特殊性(如HOG特徵)。核函數主要分為全局核函數和局部核函數,全局核函數(如線性核函數)具有全局特性,其允許相距很遠的數據點對核函數的值有影響,而局部核函數具有局部性,只允許相距很近的數據點對核函數的值有影響。Laplace核作為一種局部核只保證數據在原始空間中是近鄰關係的點通過映射後依然保持近鄰關係,而沒有保證非近鄰的點通過映射後儘可能的保持遠,這就導致非近鄰的點通過映射後可能變成了近鄰點。Gauss核表示兩個樣本點的距離,它能夠保證非近鄰點通過映射後還是非近鄰關係,彌補了Laplace核函數的不足。因此從特徵的全局性和特徵的局部性,以及核函數的局特性和局部特性考慮,本文選擇了這兩種特徵3種核函數的結合方法。

(2)通過實驗表明,將HOG特徵和GIST特徵與線性核、Gauss核和Laplace核進行組合時效果比僅僅將HOG特徵或者GIST特徵單獨與3種核函數組合時效果要好。

(3)未來將其他手工特徵和深度特徵結合探索更有利於實際應用場景的特徵融合,並探索更多的核函數,總體上應該沒有適合一切應用問題的某一個或幾個特徵,也沒有適合一切應用問題的一種或幾種核函數度量,都需要根據實驗場景進行具體分析與測試。

本文主要用兩種常用的檢索方法來評估哈希學習的性能:漢明排序和哈希查找表。用哈希演算法進行檢索主要就是利用了漢明空間離散的特點,在漢明空間中可以用機器指令或查表來計算距離(減法),相比於歐氏距離計算其速度相當快,有幾十甚至上百倍的差距。漢明排序是將待檢索樣本同資料庫中所有的樣本點的漢明距離按升序排序,而哈希查找表使用的是二進位哈希碼查找方法,將所有的查詢結果中漢明距離小於2的樣本返回作為查詢結果。

5.1 數據集

本文在IRMA數據集3)、Ultrasound數據集4)以及Cifar105)數據集上進行了實驗驗證,實驗過程中本文主要採用兩種特徵和3種核的組合方式。其中特徵為HOG特徵和GIST特徵,核函數為線性核、Laplace核和Gauss核。IRMA數據集包含了193個類共12677張有注釋的灰度射線圖。其中有57個類別共10902張圖具有標籤信息,由於IRMA數據集中只有2005年的數據集是有標籤的數據,其他為無標籤的數據,而本文中採用的是有監督的方法,所以選取了IRMA數據集中2005年的數據。該數據集共57類10000張,由於該數據集中每個類別的數量參差不齊,大部分類別中數量低於50張,而為了能夠更好地訓練模型,本文選取的每種數據樣本集在150張以上,而滿足要求的只有15種,從這15種中隨機選取10類共2673張,對於每個類別大約按3:1的比例隨機分訓練樣本和測試樣本,具體分布情況如表1。

Ultrasound數據集總量為2682分10個類別,每個類大約按3:1的比例隨機選取樣本作為訓練集和測試集,具體分布情況如表1。對於Cifar10數據集,本文隨機選取1000張(每類100張)作為測試集,從剩餘的圖像中隨機選擇5000張(每類500張)作為訓練集。

5.2 實驗分析

在IRMA,Ultrasound和Cifar10數據集上驗證了本文提出的自適應多特徵多核哈希方法(MFMKH)。本文在IRMA數據集上驗證了核哈希方法之間的準確率、召回率與返回檢索樣本數和哈希碼長度之間的關係。另外,本文又將核哈希和深度哈希在MAP(mean average precision)指標和訓練時間做了對比實驗。

核哈希對比方法中本文採用隨機樣本法從訓練集中選擇了300個樣本作為基點,實驗過程中採用了GIST[32]特徵和HOG[33]特徵,其中GIST特徵維度為384維,HOG特徵維度為324維;核函數採用了Gauss核、Laplace核和線性核。在核哈希和深度哈希的對比實驗中,本文採用隨機樣本法從訓練集中選擇了300個樣本作為基點。實驗過程中採用了GIST特徵和HOG特徵,其中GIST特徵維度為512維,HOG特徵維度為324維;核函數採用了Gauss核、Laplace核和線性核。本文在上述3個數據集中從MAP指標上對它們進行了比較分析。在這3個對比實驗中,SH[28],SKLSH[10],KLSH[9]對應的特徵為512維的GIST特徵,MFKH[12],M2FM3K對應的特徵為512維的GIST特徵和324維的HOG特徵的組合,DPSH[13]輸入的為原始圖像。在IRMA,Ultrasound和Cifar10數據集上,Gauss核、Laplace核和線性核的參數分別為5,1,10;0.5,5,1;25,0.1,10。

本文主要對比的方法有多特徵核哈希(MFKH)[12]、譜哈希(SH)[28]、平移不變核局部感知哈希(SKLSH)[10]、核局部感知哈希(KLSH)[9]以及基於標籤對的深度監督哈希(DPSH)[13]。

5.2.1 核哈希方法的實驗對比分析

本小節主要對核哈希方法在IRMA數據集上進行實驗對比分析,主要對比的方法有多特徵核哈希(MFKH)、譜哈希(SH)、平移不變核局部感知哈希(SKLSH)、核局部感知哈希(KLSH)。

圖4和5是在IRMA數據集上進行的實驗,主要比較本文方法中的多特徵多核方法(M2FM3KH中特徵為GIST和HOG)與其他對比方法在返回檢索樣本數為50時,不同長度的哈希碼下準確率與召回率的關係。當返回檢索樣本數為50,哈希碼長度大於等於32時,M2FM3KH準確率超過了其他對比方法,而召回率僅次於譜哈希方法,其中M2FM3KH中特徵為HOG和GIST,核函數為線性核、Laplace核以及Gauss核,核參數σ分別為0。5,100,1(此外,本文還將單個HOG特徵或GIST特徵同上述3種不同的核函數進行了組合(M1FM3KH)並與其他核哈希方法進行了實驗對比,從實驗中可看出M2FM3KH實驗結果比M1FM3KH實驗結果好,進一步驗證了融合後的特徵包含的圖像信息量更大,能夠進一步提高圖像檢索的準確率6))。

圖6和7是在IRMA數據集上進行的實驗,主要比較本文方法中的多特徵多核方法(M2FM3KH)與該方法中的單特徵單核組合方法(共6種)在返回樣本數為50時準確率和召回率上的關係。圖6和7中的對比實驗能夠進一步驗證本文提出的方法的可行性和優點。從圖6和7可以看出當哈希碼長度大於等於128時,M2FM3KH的準確率和召回率超過了單特徵單核的組合方法(其中M2FM3KH中特徵為HOG和GIST,核函數為線性核、Laplace核以及Gauss核,核參數σ分別為0.5,20,2;其他種對比方法為2種特徵3種核函數的任意一種組合)。

5.2.2 核哈希方法與深度哈希方法的實驗對比分析

本小節主要對核哈希方法與深度哈希方法(DSPH)在3個不同數據集上的實驗對比分析,主要對比的方法有多特徵核哈希(MFKH)、譜哈希(SH)、平移不變核局部感知哈希(SKLSH)、核局部感知哈希(KLSH)以及基於標籤對的深度監督哈希(DPSH)。

表2是在IRMA和Ultrasound數據集上進行的實驗,主要驗證本文方法(M2FM3KH)與其他對比方法包括深度哈希方法在不同哈希碼長度下的MAP。從IRMA數據集上的實驗結果中可以看出雖然本文的方法整體的MAP要高於其他核方法,但是同DPSH的MAP相比,仍有所差距。從Ultrasound數據集上的實驗結果可以看出右邊的MAP同左邊的MAP相比要低很多,進一步驗證了超聲圖像數據識別的難度。表3是在Cifar10數據集上進行的實驗,從中可以看出MFKH和本文的MFMKH方法的MAP整體上比其他核方法高一點,體現了多特徵核方法和多特徵多核方法比單特徵單核方法要好,但依然低於DPSH的MAP。從這3個實驗數據中可以看出本文方法雖然整體上比其他核方法要好,但是同DPSH相比,仍有所差距,體現了深度學習在圖像檢索方面的優勢。

5.3 實驗總結

表2和3的實驗結果表明本文演算法檢索性能雖然低於DPSH方法,但是明顯優於同類基於核的哈希學習方法。從表2和3可以看出DPSH的MAP整體上比核哈希方法要高出許多,但是DPSH的高MAP需要極大的時間代價。雖然本文的方法在MAP上比DPSH方法低,但本文方法充分利用了多特徵多核雙重組合的優點,通過多特徵融合的方法來提高圖像的信息量,通過核方法來解決線性不可分問題,通過選擇基點的方法使得其訓練過程不受總特徵維度的影響,只與選擇的基點個數和樣本規模有關。與DPSH方法相比在訓練時間顯著減少的情況下檢索性能在一定長度的哈希碼上是可競爭的。

6

結束語

本文提出了自適應多特徵多核哈希學習(MFMKH)演算法,該方法兼容基本的數據類型和各種相似性度量方法,能夠適用於多種形式的特徵和多種核函數的雙重組合方式,不存在數據需要具有某個分布的提前假設,也不需要知道特徵空間的映射形式。這種自適應的多特徵多核的哈希學習演算法架構能夠自適應學習特徵權重係數和多核權重係數,將多特徵和多核的優點進行了雙重融合。多特徵的融合解決了單特徵所包含的信息量單一不足的問題;多核的組合方式能夠彌補單核學習能力上的不足且解決了「維度災難」問題。實驗結果表明本文的方法具有多特徵融合[24]和多核學習[25,26]的雙重優點。實驗過程中,發現核函數的參數對實驗結果有一定的影響,而且所提供的特徵基本上是基於手工特徵。在後期的工作中,我們將MFMKH方法用於其他圖像數據集上進行測試,進一步研究核參數的問題以及深度特徵與手工特徵結合的效果。雖然本文方法在MAP上與DPSH相比有差距,但是本文方法充分利用了多特徵多核雙重組合的優點,通過多特徵融合的方法來提高圖像的信息量,通過核方法來解決線性不可分問題,通過選擇基點的方法使得其訓練過程不受總特徵維度的影響,只與選擇的基點個數和樣本規模有關。鑒於深度哈希學習的效果較好但所需的訓練時間極長,在後期的工作中,我們將會在本文的基礎上進一步研究深度學習方法與本文的方法結合的可能性,使得訓練時間能夠進一步減少。

論文下載地址:

http://engine.scichina.com/publisher/scp/journal/SSI/47/8/10.1360/N112016-00307?slug=full%20text

參考文獻:

1 Naimi A I, Westreich D J. Big data: a revolution that will transform how we live, work, and think. Am J Epidemiol,2014, 17: 181–183

2 Tu Z P. The Big Data Revolution. Guilin: Guangxi Normal University Press, 2013. 312–315 [塗子沛.大數據.桂林:廣西師範大學出版社, 2013. 312–315]

3 Zhou Z H. Machine learning and data mining. Commun China Compute Fed, 2007, 3: 35–44 [周志華.機器學習與數據挖掘.中國計算機學會通訊, 2007, 3: 35–44]

4 Shao H, Cui W, Zhao H. Medical image retrieval based on visual contents and text information. In: Proceedings of International Conference on Systems, Man and Cybernetics, Hague, 2004. 1098–1103

5 Rui Y, Huang T S, Chang S. Image retrieval: past, present, and future. J Vis Commun Image Represent, 1999, 10:1–23

6 He J, Li M, Zhang H J, et al. Generalized manifold-ranking-based image retrieval. IEEE Trans Image Process, 2006,15: 3170–3177

7 Wang F, Er G, Dai Q. Inequivalent manifold ranking for content-based image retrieval. In: Proceedings of International Conference on Image Processing, California, 2008. 173–176

8 Har-Peled S, Indyk P, Motwani R. Approximate nearest neighbor: towards removing the curse of dimensionality. Symp Theory Comput, 2012, 52: 604–613

9 Kulis B, Grauman K. Kernelized locality-sensitive hashing for scalable image search. In: Proceedings of International Conference on Computer Vision, Kyoto, 2009. 2130–2137

10 Raginsky M, Lazebnik S. Locality-sensitive binary codes from shift-invariant kernels. In: Proceedings of Advances in Neural Information Processing Systems, Vancouver, 2009. 1509–1517

11 Liu W, Wang J, Ji R, et al. Supervised hashing with kernels. In: Proceedings of Conference on Computer Vision and Pattern Recognition, Providence, 2012. 2074–2081

12 Liu X, He J, Lang B. Multiple feature kernel hashing for large-scale visual search. Pattern Recog, 2014, 47: 748–757

13 Li W J, Wang S, Kang W C. Feature learning based deep supervised hashing with pairwise labels. Comput Sci, 2015,2: 1711–1717

14 Liu H, Wang R, Shan S, et al. Deep supervised hashing for fast image retrieval. In: Proceedings of Conference on Computer Vision and Pattern Recognition, Las Vegas, 2016. 2064–2072

15 Shi X S, Xing F Y, Cai J Z, et al. Kernel-based supervised discrete hashing for image retrieval. In: Proceedings of European Conference on Computer Vision, Amsterdam, 2016. 419–433

16 Xu Y, Shen F, Xu X, et al. Large-scale image retrieval with supervised sparse hashing. Neurocomputing, 2017, 229:45–53

17 Gui J, Liu T L, Sun Z N, et al. Fast supervised discrete hashing. IEEE Trans Pattern Anal Mach Intel, 2017. doi:10.1109/TPAMI.2017.2678475

18 Li W J, Zhou Z H. Learning to hash for big data: current status and future trends. Sci Bull, 2015, 60: 485–490 [李武軍,周志華.大數據哈希學習:現狀與趨勢.科學通報, 2015, 60: 485–490]

19 Liu X L, Huang L, Deng C, et al. Multi-view complementary hash tables for nearest neighbor search. In: Proceedings of International Conference on Computer Vision, Santiago, 2015. 1107–1115

20 Xu H, Wang J, Li Z, et al. Complementary hashing for approximate nearest neighbor search. In: Proceedings of International Conference on Computer Vision, Barcelona, 2011. 1631–1638

21 Kan M, Xu D, Shan S, et al. Semisupervised hashing via kernel hyperplane learning for scalable image search. IEEE Trans Circ Syst Video Technol, 2014, 24: 704–713

22 Zhang D, Wang F, Si L. Composite hashing with multiple information sources. In Proceeding of International Conference on Research and Development in Information Retrieval, Beijing, 2011. 225–234

23 Song J, Yang Y, Huang Z, et al. Multiple feature hashing for real-time large scale near-duplicate video retrieval. In: Proceedings of International Conference on Multimedea, Scottsdale, 2011. 423–432

24 Shen H, Tao D, Ma D. Multiview locally linear embedding for effective medical image retrieval. Plos One, 2013, 8:e82409

25 Gonen M, Alpaydin E. Multiple kernel learning algorithms. J Mach Learn Res, 2011, 12: 2211–2268

26 Tzortzis G, Likas A. Greedy unsupervised multiple kernel learning. In: Proceedings of Hellenic Conference on Artificial Intelligence, Berlin, 2012. 73–80

27 Akgül C B, Rubin D L, Napel S, et al. Content-based image retrieval in radiology: current status and future directions. J Digit Imag, 2011, 24: 208–22228 Weiss Y, Torralba A, Fergus R. Spectral Hashing. In: Proceedings of Conference on Neural Information ProcessingSystems, Auckland, 2008. 1753–1760

29 Zelnik-Manor L, Perona P. Self-tuning spectral clustering. In: Proceedings of Advances in Neural Information Processing Systems, Vancouver, 2004. 17: 1601–1608

30 He J, Liu W, Chang S F. Scalable similarity search with optimized kernel hashing. In: Proceedings of International Conference on Knowledge Discovery and Data Mining, Washington, 2010. 1129–1138

31 Liu W, Wang J, Kumar S, et al. Hashing with graphs. In: Proceedings of International Conference on Machine Learning, Bellevue, 2011. 1–8

32 Oliva A, Torralba A. Modeling the shape of the scene: a holistic representation of the spatial envelope. Int J Comput Vision, 2001, 42: 145–175

33 Dalal N, Triggs B. Histograms of oriented gradients for human detection. In: Proceedings of Conference on Computer Vision and Pattern Recognition, San Diego, 2005. 886–893

往期文章推薦


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 德先生 的精彩文章:

多媒體技術研究:類腦計算的研究進展與發展趨勢

TAG:德先生 |