龔震霆,陳光喜,任夏荔,曹建收
(1.桂林電子科技大學(xué) 計(jì)算機(jī)與信息安全學(xué)院,廣西 桂林 541004; 2.廣西高校圖像圖形智能處理重點(diǎn)實(shí)驗(yàn)室,廣西 桂林 541004)
?
基于卷積神經(jīng)網(wǎng)絡(luò)和哈希編碼的圖像檢索方法
龔震霆1,2,陳光喜1,2,任夏荔1,2,曹建收1,2
(1.桂林電子科技大學(xué) 計(jì)算機(jī)與信息安全學(xué)院,廣西 桂林 541004; 2.廣西高校圖像圖形智能處理重點(diǎn)實(shí)驗(yàn)室,廣西 桂林 541004)
摘要:在圖像檢索中,傳統(tǒng)的基于人工特征的檢索方法并不能取得很好的效果。為此提出一種結(jié)合卷積神經(jīng)網(wǎng)絡(luò)和以前最好水準(zhǔn)的哈希編碼策略的圖像檢索方法。鑒于近幾年卷積神經(jīng)網(wǎng)絡(luò)在大量的計(jì)算機(jī)視覺任務(wù)上的巨大進(jìn)步,該方法首先使用在ILSVRC數(shù)據(jù)集上預(yù)訓(xùn)練過的VGGNet-D網(wǎng)絡(luò)模型對實(shí)驗(yàn)圖像數(shù)據(jù)集提取卷積特征來得到圖像的深層表示,再采用以前最好水準(zhǔn)的哈希策略將這些深層表示進(jìn)行編碼,從而得到圖像的二進(jìn)制碼,最后再進(jìn)行快速圖像檢索。在兩個(gè)常用的數(shù)據(jù)集Caltech101和Caltech256上的實(shí)驗(yàn)結(jié)果表明,本文方法的5個(gè)策略相比于以前最好水準(zhǔn)的相應(yīng)的圖像檢索策略在“精度-召回率”和“平均正確率值-編碼位數(shù)”兩個(gè)指標(biāo)上能獲得更優(yōu)異的性能,證明了本文方法在圖像檢索上的有效性。
關(guān)鍵詞:圖像檢索;人工特征;卷積神經(jīng)網(wǎng)絡(luò);卷積特征;哈希編碼
基于內(nèi)容的圖像檢索是通過對圖像內(nèi)容的分析來搜索相似的圖像,近些年一直被多媒體研究者廣泛地研究。隨著該研究領(lǐng)域的發(fā)展,雖然出現(xiàn)了許多新技術(shù),但由于機(jī)器獲得的低水平圖像像素和人類接受的高水平語義概念之間存在語義鴻溝問題,因此在當(dāng)前基于內(nèi)容的圖像檢索研究中從人類的感知方面把像素水平的信息和語義信息聯(lián)系起來仍然是最具有挑戰(zhàn)的問題[1-2]。近些年,研究者們使用了一些人工視覺特征去表示圖像[3-4],但基于這些人工特征的圖像檢索方法的性能一直不是很好。
這些挑戰(zhàn)來源于人工智能的根本難題。而機(jī)器學(xué)習(xí)是一個(gè)很有前景的技術(shù),可以解決這個(gè)長期的挑戰(zhàn)。深度學(xué)習(xí)作為機(jī)器學(xué)習(xí)發(fā)展的一個(gè)分支,其動(dòng)機(jī)在于建立模擬人腦進(jìn)行分析學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò),通過組合低層特征形成更加抽象的高層特征,模仿人腦的機(jī)制來解釋數(shù)據(jù),如圖像、聲音、信號和文本,近些年已得到廣泛應(yīng)用[5-7]。
卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)是人工神經(jīng)網(wǎng)絡(luò)的一種,由于它的權(quán)值共享結(jié)構(gòu)和生物神經(jīng)網(wǎng)絡(luò)更類似,可以減少權(quán)值的數(shù)量,從而降低網(wǎng)絡(luò)模型的復(fù)雜度,現(xiàn)已成為深度學(xué)習(xí)中的一個(gè)研究熱點(diǎn)。目前,CNN已經(jīng)應(yīng)用到視頻中的人體動(dòng)作識別信號重構(gòu)、人臉等目標(biāo)檢測識別、圖像分類等各個(gè)領(lǐng)域[8-11]。
鑒于CNN的這些進(jìn)步,我們可以在圖像檢索中利用它的優(yōu)點(diǎn)來提高檢索性能。
1相關(guān)工作
最近鄰搜索是機(jī)器學(xué)習(xí)算法的一個(gè)基本步驟。近些年,網(wǎng)上可使用的數(shù)據(jù)快速增加,而且數(shù)據(jù)很容易就達(dá)到幾百或幾千維度,因此,在這樣一個(gè)巨大的數(shù)據(jù)集上進(jìn)行窮極線性搜索是不可行的。但是,在一些應(yīng)用中,尋找近似最近鄰(approximate nearest neighbor,ANN)卻是十分有效的,其中基于樹的方法和哈希方法是兩個(gè)流行的框架。而哈希方法由于在速度和存儲(chǔ)方面的優(yōu)勢,它作為一種ANN方法廣泛用于大規(guī)模圖像的檢索中。哈希學(xué)習(xí)是學(xué)習(xí)一種保持圖像相似性的緊密位表示,使得相似的圖像能夠匹配到相近的二進(jìn)制哈希編碼。
目前,主要流行一些非監(jiān)督和監(jiān)督的哈希方法[12-18]。非監(jiān)督的哈希方法使用非標(biāo)簽數(shù)據(jù)來學(xué)習(xí)一組哈希函數(shù)[12-13,17]。其中,最具有代表性的是使用隨機(jī)映射構(gòu)造哈希函數(shù)的局部感知哈希(locality sensitive Hashing,LSH)[12],它意在把相似的數(shù)據(jù)匹配到相近的二進(jìn)制編碼的概率最大化。然而,LSH通常需要使用較長的哈希編碼才能達(dá)到令人滿意的精度,這導(dǎo)致了較大的存儲(chǔ)空間需求和召回率普遍偏低的問題。譜哈希(spectral Hashing,SH)[13]是另外一個(gè)具有代表性的方法,其利用非線性函數(shù)沿著數(shù)據(jù)的主成分分析(principal component analysis,PCA)方向通過設(shè)定閾值來產(chǎn)生二進(jìn)制編碼。
之后,大量的研究證明,使用監(jiān)督信息可以提高哈希編碼的學(xué)習(xí)性能。特別的,文獻(xiàn)[14,16,18]在學(xué)習(xí)中利用數(shù)據(jù)的標(biāo)簽信息來生成有效的哈希函數(shù)。
但是,圖像檢索中的這些哈希方法都是首先對圖像提取人工視覺特征,而人工特征不需要獲得圖像的相似性,因此這通常可能影響這些哈希方法的效果,從而降低了圖像檢索的性能。
隨著2012年Alex等[19]的CNN模型在ILSVRC數(shù)據(jù)集上訓(xùn)練120萬數(shù)量的帶標(biāo)簽圖像獲得了更高的圖像分類準(zhǔn)確率,最近幾年深度卷積特征得到廣泛研究,并在計(jì)算機(jī)視覺工作上取得了很大的突破[20-23]。2014年,Xia等[24]提出一種監(jiān)督哈希方法CNNH和CNNH+,該方法首先把訓(xùn)練圖像數(shù)據(jù)成對的語義相似度矩陣因式分解成近似哈希編碼,然后利用這些近似哈希編碼和圖像標(biāo)簽訓(xùn)練一個(gè)深度卷積網(wǎng)絡(luò),取得了更好的性能,但是,CNNH和CNNH+中的矩陣分解會(huì)帶來額外的錯(cuò)誤,使得訓(xùn)練目標(biāo)偏離。2015年,Guo等[25]提出一種直接基于CNN的哈希方法CNNBH,利用閾值0把一個(gè)全連接層的激活值二值化為二進(jìn)制結(jié)果,從而得到哈希編碼。同時(shí),文獻(xiàn)[26]提出一種簡單但是非常有效的深度學(xué)習(xí)框架,該框架在文獻(xiàn)[19]的深度CNN模型基礎(chǔ)上添加一個(gè)隱藏層來同時(shí)學(xué)習(xí)特定領(lǐng)域的圖像特征表示和一組類哈希函數(shù),并取得了最好的檢索性能。
如今這些優(yōu)秀的基于CNN的檢索方法雖然獲得了巨大的進(jìn)展,但是它們并沒有把以前最好水準(zhǔn)的哈希編碼策略聯(lián)系起來。
2CNN和哈希編碼相結(jié)合的方法
在圖像檢索中,如果開始對圖像提取的特征不出色的話,那么后面采用很高水準(zhǔn)的哈希編碼策略進(jìn)行編碼檢索也不一定能取得很好的效果。因此,本文提出一種CNN和以前最好水準(zhǔn)的哈希策略相結(jié)合的方法。我們采用文獻(xiàn)[28]在IMAGENET Large-scale visual recognition challenge(ILSVRC)數(shù)據(jù)集上預(yù)訓(xùn)練過的VGGNet-D網(wǎng)絡(luò)模型對目標(biāo)圖像集進(jìn)行特征提取,獲得圖像的深層卷積特征表示,然后對這些表示分別采用LSH[12]、SH[13]、SKLSH[15]、ITQ[16]、PCA-RR[16]、DSH[18]6種哈希編碼策略進(jìn)行編碼得到哈希碼,最后進(jìn)行快速檢索。將這些結(jié)合策略分別命名為LSH-VC、SH-VC、SKLSH-VC、ITQ-VC、PCA-RR-VC和DSH-VC。
2.1VGGNet-D網(wǎng)絡(luò)模型
最近幾年,CNN模型在一些目標(biāo)檢測和圖像識別中已經(jīng)獲得了令人印象深刻的結(jié)果。文獻(xiàn)[28]使用很小卷積核的網(wǎng)絡(luò)架構(gòu),對增加深度進(jìn)行了全面的評估;實(shí)驗(yàn)表明,把網(wǎng)絡(luò)的卷積層深度增加到16~19層時(shí)可以顯著提升性能,設(shè)計(jì)的網(wǎng)絡(luò)在ImageNet Challenge 2014的定位和分類項(xiàng)目上分別獲得了第一名和第二名的成績。此外,文獻(xiàn)[28]的模型特征對許多不同的計(jì)算機(jī)視覺任務(wù)和數(shù)據(jù)集有很強(qiáng)的泛化能力,能夠相比或者超過建立在較淺圖像特征上的更復(fù)雜的識別方法。
本文選用文獻(xiàn)[28]中優(yōu)異的VGGNet-D網(wǎng)絡(luò)模型。VGGNet-D的結(jié)構(gòu)及每層參數(shù)設(shè)置如表1。
表1 VGGNet-D網(wǎng)絡(luò)模型結(jié)構(gòu)及參數(shù)
VGGNet-D模型由13卷積層(conv1~13)和3個(gè)全連接層(FC14~16)構(gòu)成。表1中,卷積層的第一行參數(shù)表示卷積濾波器的數(shù)量和局部感受野的大?。弧皊t.”表示卷積的步幅,“pad”表示空間填充;“x2 pooling”表示max-pooling下采樣。接著,F(xiàn)C14和FC15使用dropout[19]方法來調(diào)整某些隱含層節(jié)點(diǎn)的權(quán)重不工作,最后的FC16是多路softmax分類器。其中,VGGNet-D的激活函數(shù)使用矯正線性單元(rectification linear unit,ReLU)。
2.2VGGNet-D模型的訓(xùn)練學(xué)習(xí)
(1)
2.3本文策略和以前最好水準(zhǔn)的哈希策略
針對圖像檢索中重要的哈希編碼部分,下面我們介紹本文方法的6種策略的核心技術(shù)。
1)LSH-VC:和LSH[27]一樣,首先使用高斯隨機(jī)矩陣將實(shí)數(shù)輸入空間Rd中的數(shù)據(jù)點(diǎn)隨機(jī)映射到一個(gè)Rt空間中,其中t是一個(gè)很小的超常量,接著使用球分割方法把這個(gè)t維實(shí)數(shù)空間分割成多個(gè)單元,然后用哈希函數(shù)返回含有數(shù)據(jù)映射點(diǎn)的球單元的索引,度量標(biāo)準(zhǔn)選用l1范數(shù)。
2)SH-VC:和SH[13]一樣,基于量化沿著數(shù)據(jù)PCA方向計(jì)算得到的解析特征函數(shù)值。
(2)
3)SKLSH-VC:和SKLSH[15]一樣,基于隨機(jī)映射,適應(yīng)任意分布的樣本數(shù)據(jù),在映射過程中不僅保留了原始數(shù)據(jù)之間的位置關(guān)系,而且考慮了生成的哈希碼之間歸一化的漢明距離的上下限。
4)ITQ-VC、PCA-RR-VC:和ITQ、PCA-RR[16]一樣,對數(shù)據(jù)集進(jìn)行PCA降維處理,問題轉(zhuǎn)化為將該數(shù)據(jù)集中的數(shù)據(jù)樣本點(diǎn)映射到一個(gè)以零為中心的二進(jìn)制超立方體的頂點(diǎn)上,不同的量化誤差得到對應(yīng)該數(shù)據(jù)集的不同的二進(jìn)制編碼。
5)DSH-VC:和DSH[18]一樣,通過k均值聚類的量化結(jié)果,尋找r-adjacent組,即利用數(shù)據(jù)的幾何結(jié)構(gòu)來指導(dǎo)哈希函數(shù)映射的選擇。
(3)
(4)
3實(shí)驗(yàn)結(jié)果與分析
本文將在Caltech101[17]和Caltech256[18]2個(gè)著名的圖像集上對LSH-VC、SH-VC、SKLSH-VC、ITQ-VC、PCA-RR-VC、DSH-VC等6種策略和LSH、SH、SKLSH、ITQ、PCA-RR、DSH這些以前最好水準(zhǔn)的圖像哈希檢索策略進(jìn)行對比實(shí)驗(yàn)。
我們通過精度-召回率(Precision-Recall)和平均正確率值-編碼位數(shù)(mAP-Number of bits)兩種標(biāo)準(zhǔn)對本文方法進(jìn)行性能評估。實(shí)驗(yàn)中,本文使用數(shù)據(jù)集第50個(gè)最近鄰的平均距離作為閾值來判斷一個(gè)查詢到的數(shù)據(jù)是否和查詢數(shù)據(jù)屬于同一類。
實(shí)驗(yàn)環(huán)境:64位Win8系統(tǒng),CPU主頻2.50 GHz,8 Gbyte內(nèi)存,MATLAB2014a。
3.1Caltech101
Caltech101數(shù)據(jù)集包含8 677張圖片,共101個(gè)類別,包括家具、動(dòng)物、運(yùn)動(dòng)器材、車輛等,每一類圖像的數(shù)量最少是31,最多是800。其中,圖片的大小各不相同。為了公平的對比,實(shí)驗(yàn)中,所有策略都是隨機(jī)選取1 000張作為測試圖像。
1)我們采用常用的32、64、128和256等4種哈希編碼位數(shù)在Precision-Recall這個(gè)標(biāo)準(zhǔn)上進(jìn)行實(shí)驗(yàn)分析,實(shí)驗(yàn)結(jié)果如圖1和圖2。
(a)32位編碼時(shí)Precision-Recall曲線
(b)64位編碼時(shí)Precision-Recall曲線
(c)128位編碼時(shí)Precision-Recall曲線
(d)256位編碼時(shí)Precision-Recall曲線圖1 以前最好水準(zhǔn)的策略在Caltech101上的Precision-Recall曲線Fig.1 The Precision-Recall curve of the previous state-of-the-art strategies on Caltech 101
(a)32位編碼時(shí)Precision-Recall曲線
(b)64位編碼時(shí)Precision-Recall曲線
(c)128位編碼時(shí)Precision-Recall曲線
(d)256位編碼時(shí)Precision-Recall曲線圖2 本文方法6種策略在Caltech101上的Precision-Recall曲線Fig.2 The Precision-Recall curve of the six strategies on Caltech 101
對比圖1和圖2,我們清楚地看到,本文的6種圖像檢索策略相比于以前最好水準(zhǔn)的對應(yīng)的策略有更優(yōu)的Precision-Recall曲線(64位編碼時(shí)SKLSH-VC略差于SKLSH);其中LSH-VC、ITQ-VC、PCA-RR-VC和DSH-VC的優(yōu)勢更明顯。依賴數(shù)據(jù)的策略(ITQ 、ITQ-VC、PCA-RR、PCA-RR-VC和SH、SH-VC)在gist和CNN特征下隨著編碼位數(shù)的增加都會(huì)遇到性能瓶頸,而獨(dú)立于數(shù)據(jù)的 SKLSH和SKLSH-VC策略就沒有這種限制。
此外,圖2表明ITQ-VC和PCA-RR-VC在編碼位數(shù)較小時(shí),相比于本文其他4種策略在相同召回率情況下的準(zhǔn)確率有更大的優(yōu)勢。
2)mAP 是反映一個(gè)方法在全部相關(guān)數(shù)據(jù)上性能的單值指標(biāo)。利用該方法檢索出來的相關(guān)數(shù)據(jù)的排位越靠前,mAP就可能越高。本文方法在mAP-Number of bits標(biāo)準(zhǔn)上的實(shí)驗(yàn)結(jié)果如圖3。
圖3中,使用CNN特征的本文6種策略的mAP值明顯高于以前最好水準(zhǔn)的對應(yīng)的使用gist特征的檢索策略(16和64位編碼時(shí)SKLSH-VC略差于SKLSH);同樣的,LSH-VC、ITQ-VC、PCA-RR-VC和DSH-VC的優(yōu)勢更明顯。其中ITQ-VC在不同的編碼位數(shù)時(shí)一直擁有最高的mAP值,相比于ITQ策略分別提升了103.0%、105.7%、97.2%、93.4%、89.3%,效果顯著。
(a)gist特征下不同編碼位數(shù)時(shí)mPA值
(b)cnn特征下不同編碼位數(shù)時(shí)mPA值圖3 所有策略在Caltech101上的mAP值Fig.3 The mean average precision of all strategies on Caltech 101
3.2Caltech256
Caltech256數(shù)據(jù)集包含29 780張圖片,共256個(gè)類別,相比于Caltech101,類與類之間和每類中圖像主體位置變化更明顯,十分適合于圖像檢索實(shí)驗(yàn)。為了公平地對比,實(shí)驗(yàn)中,所有策略同樣都是隨機(jī)選取1 000張作為測試圖像。
1)和3.1節(jié)一樣,在Precision-Recall這個(gè)標(biāo)準(zhǔn)上我們采用32、64、128和256這4種編碼位數(shù)進(jìn)行實(shí)驗(yàn)分析,實(shí)驗(yàn)結(jié)果如圖4、5。
(a)32位編碼時(shí)Precision-Recall曲線
(b)64位編碼時(shí)Precision-Recall曲線
(c)128位編碼時(shí)Precision-Recall曲線
(d)256位編碼時(shí)Precision-Recall曲線圖4 以前最好水準(zhǔn)的策略在Caltech256上的Precision-Recall曲線Fig.4 The Precision-Recall curve of the previous state-of-the-art strategies on Caltech 256
(a)32位編碼時(shí)Precision-Recall曲線
(b)64位編碼時(shí)Precision-Recall曲線
(c)128位編碼時(shí)Precision-Recall曲線
(d)256位編碼時(shí)Precision-Recall曲線圖5 本文方法6種策略在Caltech256上的Precision-Recall曲線Fig.5 The Precision-Recall curve of the six strategies on Caltech 256
對比圖4、5,可以看到本文方法的5種策略相比于以前最好水準(zhǔn)的對應(yīng)策略具有更好的Precision-Recall曲線(SKLSH-VC除外)。隨著編碼位數(shù)增加,ITQ-VC、PCA-RR-VC和SH-VC似乎達(dá)到了性能的上限,而LSH-VC在CNN特征下卻不受這個(gè)限制,性能提升迅速。同時(shí),可以清楚地看到結(jié)合CNN特征的ITQ-VC檢索策略在4種不同的編碼位數(shù)下都具有最優(yōu)的Precision-Recall曲線。
2)在mean Average Precision-Number of bits標(biāo)準(zhǔn)上的實(shí)驗(yàn)結(jié)果如圖6。分析圖6,相比以前最好水準(zhǔn)的對應(yīng)策略,使用CNN特征的本文5種策略獲得了更高的mAP值(SKLSH-VC除外)。ITQ-VC在所有編碼位數(shù)下一直有最高的mAP值,分別為0.401、0.665、0.785、0.849和0.886,在ITQ上提高了74.2%、116.8%、109.5%、107.4%和103.3%,效果顯著;結(jié)合前面的實(shí)驗(yàn)中ITQ-VC一直有最好的性能表現(xiàn),可以得知基于人工特征的性能較好的編碼策略在深層卷積特征下依舊能夠獲得較好的性能。
(a)Gist特征下不同編碼位數(shù)時(shí)mAP值
(b)cnn特征下不同編碼位數(shù)時(shí)mAP值圖6 所有策略在Caltech256上的mAP值Fig.6 The mean Average Precision of all strategies on Caltech 256
在Caltech101和Caltech256數(shù)據(jù)集上的兩組實(shí)驗(yàn)充分說明了使用CNN的卷積特征進(jìn)行哈希編碼檢索能夠獲得一定程度的性能提升。
4結(jié)束語
在圖像檢索上,本文提出一種結(jié)合CNN和以前最好水準(zhǔn)的哈希編碼策略的有效方法。首先,采用VGGNet-D網(wǎng)絡(luò)模型對目標(biāo)圖像集提取圖像的深層特征表示,再使用以前最好水準(zhǔn)的哈希編碼策略把這些特征編碼成二進(jìn)制碼。實(shí)驗(yàn)結(jié)果顯示,本文方法的LSH-VC、SH-VC、ITQ-VC、PCA-RR-VC和DSH-VC策略相比于以前最好水準(zhǔn)的對應(yīng)策略獲得了更高的性能。同時(shí)本文方法表明,當(dāng)CNN這種最先進(jìn)的技術(shù)在圖像檢索領(lǐng)域迅猛發(fā)展的時(shí)候,一些先前經(jīng)典的哈希編碼策略仍不能忽略,這將在圖像檢索應(yīng)用上具有一定的參考價(jià)值。另外,我們還有若干問題有待解決,如卷積特征并不是對所有的哈希編碼策略都有效,這些問題有待進(jìn)一步研究。
參考文獻(xiàn):
[1]SMEULDERS A W M, WORRING M, SANTINI S, et al. Content-based image retrieval at the end of the early years[J]. IEEE transactions on pattern analysis and machine intelligence, 2000, 22(12): 1349-1380.
[2]WAN Ji, WANG Dayong, HOI S C H, et al. Deep learning for content-based image retrieval: a comprehensive study[C]//Proceedings of the 22nd ACM international conference on multimedia. Orlando, USA, 2014: 157-166.
[3]LOWE D G. Distinctive Image features from scale-invariant keypoints[J]. International journal of computer vision, 2004, 60(2): 91-110.
[4]BAY H, TUYTELAARS T, VAN GOOL L. SURF: speeded up robust features[M]//LEONARDIS A, BISCHOF H, PINZ A. Computer vision-ECCV 2006. Berlin Heidelberg: Springer, 2006: 404-417.
[5]SARIKAYA R, HINTON G E, DEORAS A. Application of deep belief networks for natural language understanding[J]. IEEE/ACM transactions on audio, speech, and language processing, 2014, 22(4): 778-784.
[6]LANDECKER W, CHARTRAND R, DEDEO S. Robust sparse coding and compressed sensing with the difference map[C]//Proceedings of the 13th European conference on computer vision. Zurich, Switzerland, 2014: 315-329.
[7]GRAVES A, MOHAMED A R, HINTON G. Speech recognition with deep recurrent neural networks[C]//Proceedings of the IEEE international conference on acoustic speech and signal processing. Vancouver, British Columbia, Canada, 2013: 6645-6649.
[8]BRUNA J, SZLAM A, LECUN Y. Signal recovery from pooling representations[J]. Eprint Arxiv, 2013: 307-315.
[9]LI Haoxiang, LIN Zhe, SHEN Xiaohui, et al. A convolutional neural network cascade for face detection[C]//Proceedings of the 2015 IEEE conference on computer vision and pattern recognition. Boston, Massachusetts, USA, 2015: 5325-5334.
[10]GIRSHICK R, DONAHUE J, DARRELL T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C]//Proceedings of the 2014 IEEE conference on computer vision and pattern recognition. Columbus, OH, USA, 2014: 580-587.
[11]LIN Min, CHEN Qiang, YAN Shuicheng. Network in network[C]//Proceedings of international conference on learning representations. Banff, Canada, 2014.
[12]GIONIS A, INDYK P, MOTWANI R. Similarity search in high dimensions via hashing[C]//Proceedings of the 25th international conference on very large data bases. San Francisco, CA, USA, 1999: 518-529.
[13]WEISS Y, TORRALBA A, FERGUS R. Spectral hashing[C]//Proceedings of conference on neural information processing systems. Vancouver, British Columbia, Canada, 2008: 1753-1760.
[14]KULIS B, DARRELL T. Learning to hash with binary reconstructive embeddings[C]//Advances in neural information processing systems 22: 23rd annual conference on neural information processing systems 2009. Vancouver, British Columbia, Canada, 2010: 1042-1050.
[15]RAGINSKY M, LAZEBNIK S. Locality-sensitive binary codes from shift-invariant kernels[C]//Advances in neural information processing systems 22: conference on neural information processing systems 2009. Vancouver, British Columbia, Canada, 2009: 1509-1517.
[16]GONG Yunchao, LAZEBNIK S, GORDO A, et al. Iterative quantization: a procrustean approach to learning binary codes for large-scale image retrieval[J]. IEEE transactions on pattern analysis and machine intelligence, 2013, 35(12): 2916-2929.
[17]NOROUZI M, FLEET D J. Minimal loss hashing for compact binary codes[C]// Proceedings of the 28th international conference on machine learning. Bellevue, WA, USA, 2011: 353-360.
[18]JIN Zhongming, LI Cheng, LIN Yue, et al. Density sensitive hashing[J]. IEEE transactions on cybernetics, 2014, 44(8): 1362-1371.
[19]KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet classification with deep convolutional neural networks[C]//Advances in Neural Information Processing Systems 25. Lake Tahoe, Nevada, USA, 2012.
[20]DONAHUE J, JIA Yangqing, VINYALS O, et al. DeCAF: a deep convolutional activation feature for generic visual recognition[C]//Proceedings of the 31st international conference on machine learning. Beijing, China, 2014: 647-655.
[21]ZEILER M D, FERGUS R. Visualizing and Understanding Convolutional Networks[C]//Proceedings of the 13th European conference on computer vision. Zurich, Switzerland, 2014: 818-833.
[22]SERMANET P, EIGEN D, ZHANG Xiang, et al. OverFeat: integrated recognition, localization and detection using convolutional networks[J]. Eprint Arxiv, 2013.
[23]RAZAVIAN A S, AZIZPOUR H, SULLIVAN J, et al. CNN features off-the-shelf: an astounding baseline for recognition[C]//Proceedings of the 2014 IEEE conference on computer vision and pattern recognition workshops. Columbus, OH, USA, 2014: 512-519.
[24]XIA Rongkai, PAN Yan, LIU Cong, et al. Supervised hashing for image retrieval via image representation learning[C]//Proceedings of the 24th AAAI conference on artificial intelligence. Qubec City, Canada, 2014: 2156-2162.
[25]GUO Jinma, LI Jianmin. CNN Based Hashing for Image Retrieval[Z]. arXiv: 1509. 01354v1, 2015.
[26]LIN K, YANG H F, HSIAO J H, et al. Deep learning of binary hash codes for fast image retrieval[C]//Proceedings of the 2015 IEEE conference on computer vision and pattern recognition workshops (CVPRW). Boston, Massachusetts, USA, 2015: 27-35.
[27]ANDONI A, INDYK P. Near-optimal hashing algorithms for approximate nearest neighbor in high dimensions[C]//Proceedings of IEEE 54th annual symposium on foundations of computer science. Berkeley, CA, USA, 2006: 459-468.
[28]SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition[J]. Eprint Arxiv, 2014.
[29]LI Feifei, FERGUS R, PERONA P. Learning generative visual models from few training examples: an incremental Bayesian approach tested on 101 object categories[J]. Computer vision and image understanding, 2007, 106(1): 59-70.
[30]GRIFFIN G, HOLUB A, PERONA P. Caltech-256 object category dataset[R]. CaltechAUTHORS: CNS-TR-2007-001, 2007.
龔震霆,男,1991年生,碩士研究生,主要研究方向?yàn)橛?jì)算機(jī)視覺、機(jī)器學(xué)習(xí)。
陳光喜,男,1971年生, 博士生導(dǎo)師,主要研究方向?yàn)榭尚庞?jì)算、圖像處理。主持完成國家自然基金項(xiàng)目2項(xiàng)、廣西省科學(xué)基金及企業(yè)開發(fā)項(xiàng)目多項(xiàng)。獲桂林市科技進(jìn)步三等獎(jiǎng)1項(xiàng)、廣西教學(xué)成果獎(jiǎng)一等獎(jiǎng)1項(xiàng)。發(fā)表學(xué)術(shù)論文30余篇,主編教材1部。
任夏荔,女,1992年生,碩士研究生,主要研究方向?yàn)橛?jì)算機(jī)視覺、深度學(xué)習(xí)。
中文引用格式:龔震霆,陳光喜,任夏荔,等.基于卷積神經(jīng)網(wǎng)絡(luò)和哈希編碼的圖像檢索方法[J]. 智能系統(tǒng)學(xué)報(bào), 2016, 11(3): 391-400.
英文引用格式:GONG Zhenting,CHEN Guangxi,REN Xiali,et al. An image retrieval method based on a convolutional neural network and hash coding[J]. CAAI transactions on intelligent Systems, 2016,11(3): 391-400.
An image retrieval method based on a convolutional neural network and hash coding
GONG Zhenting1,2, CHEN Guangxi1,2, REN Xiali1,2, CAO Jianshou1,2
(1.School of Computer and Information Security,Guilin University of Electronic Technology,Guilin 541004, China; 2. Guangxi Colleges and Universities Key Laboratory of Intelligent Processing of Computer Images and Graphics, Guilin 541004, China)
Abstract:For image retrieval, traditional retrieval methods based on artificial features are not effective enough. Hence, we propose an image retrieval method, which combines a convolutional neural network and previous state-of-the-art hash coding strategies. In view of the great progress that convolutional neural networks have made in a large number of computer vision tasks in recent years, this method first uses the model "VGGNet-D" pre-trained on the ILSVRC′s dataset to extract the convolutional features from experimental image datasets to get the deep representations of images, then adopts previous state-of-the-art hash coding strategies to encode the deep representations to obtain the binary codes, and, finally, performs a quick image retrieval. The experimental results on the commonly used Caltech101 and Caltech256 datasets show that this method′s five strategies, compared with the previous state-of-the-art image retrieval strategies, can obtain better, indeed excellent, performance in both the "Precision-Recall" and "mean Average Precision-Number of bits" metrics, proving the effectiveness of the proposed method in image retrieval.
Keywords:image retrieval; artificial features; convolutional neural network; convolutional features;hash coding
作者簡介:
中圖分類號:TP391
文獻(xiàn)標(biāo)志碼:A
文章編號:1673-4785(2016)03-0391-10
通信作者:龔震霆.E-mail:gongxs7@163.com.
基金項(xiàng)目:國家自然科學(xué)基金項(xiàng)目(61462018);廣西學(xué)位與研究生教育改革和發(fā)展專項(xiàng)課題(JGY2014060);廣西數(shù)字傳播與文化軟實(shí)力中心開放項(xiàng)目(ZFZD1408008);廣西高校圖像圖形智能處理重點(diǎn)實(shí)驗(yàn)室開放基金項(xiàng)目(LD15042X).
收稿日期:2016-03-17.網(wǎng)絡(luò)出版日期:2016-05-13.
DOI:10.11992/tis.201603028
網(wǎng)絡(luò)出版地址:http://www.cnki.net/kcms/detail/23.1538.TP.20160513.0926.030.html