張超 林正春 姜允志 賈西平 王靜
摘 要:針對圖像檢索中多區(qū)域加權(quán)聚合算法局部特征提取過程較繁瑣、耗時及內(nèi)存占用高等問題,提出多區(qū)域深度特征加權(quán)聚合算法(MR-CroW)。該算法通過增大深度卷積神經(jīng)網(wǎng)絡(luò)(DCNN)最后一個卷積層池化窗口,調(diào)整預(yù)訓(xùn)練DCNN模型VGG16,得到全局特征提取器; 選擇子區(qū)域作為檢索對象響應(yīng)區(qū)域,抑制非主要目標(biāo)噪聲;引入跨維度加權(quán)聚合算法(CroW),將多個區(qū)域特征進(jìn)行加權(quán)聚合,得到最終的特征向量。在Oxford5K和Paris6K數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,MR-CroW平均準(zhǔn)確率(mAP)高于其它幾種算法,特征處理階段時間低于其它幾種算法。
關(guān)鍵詞:深度卷積神經(jīng)網(wǎng)絡(luò);特征提取;多區(qū)域;加權(quán)聚合
DOI:10. 11907/rjdk. 201032
中圖分類號:TP312文獻(xiàn)標(biāo)識碼:A 文章編號:1672-7800(2020)010-0133-05
Abstract:A weighted depth features of multi-region aggregation algorithm (MR-CroW) is proposed for image retrieval to solve the problem that multi-region weighted aggregation algorithms the local feature extraction process is cumbersome, time-consuming, and high memory usage. MR-CroW enlages the pooling window of the last convolutional layer of model VGG16 as the global feature extractor, selects the sub-region as the response region to denoise the non-primary target, uses cross-dimensional weighted aggregation algorithm (CroW) and aggregates weighted features of multi-region to get the final eigenvector. The experimental results on the Oxford5K and Paris6K datasets show that the average accuracy (mAP) of MR-CroW is higher than other algorithms; the time consumption of the feature processing phase is lower than others.
Key Words: deep convolution neural network; feature extraction; multi-region; cross weighted aggregation
0 引言
圖像檢索是計(jì)算機(jī)視覺研究領(lǐng)域熱點(diǎn)之一,早期的圖像檢索是基于文本(TBIR)的,隨著圖像數(shù)據(jù)量增加,TBIR已不能滿足時代需求,取而代之的是基于內(nèi)容的圖像檢索(content-based image retrieval,CBIR)[1-2]。傳統(tǒng)的CBIR使用顏色、紋理、形狀等全局描述子。以SIFT(scale-invariant feature transform)為代表的局部描述子以及詞袋模型BoW(bag of words),其不受尺度變換與旋轉(zhuǎn)影響,具有良好的魯棒性,可在不同目標(biāo)與場景下實(shí)現(xiàn)更可靠的匹配,逐漸取代全局描述子成為研究熱點(diǎn)[3-4]。這些方法在前期的圖像檢索中成績斐然,但始終未解決低層特征與高層語義之間的語義鴻溝問題[5]。
2012年AlexNet網(wǎng)絡(luò)在ImageNet大賽上取得令人驚訝的成績,此后DCNN(deep convolutional neural network)逐漸成為計(jì)算機(jī)視覺研究熱點(diǎn)[6]。人們發(fā)現(xiàn)通過DCNN訓(xùn)練可以學(xué)習(xí)到更深層次的圖像特征,并在一定程度上彌合低層特征與高層語義之間的語義鴻溝。研究表明,在ImageNet等足夠大且多樣化的數(shù)據(jù)集上訓(xùn)練DCNN可成功應(yīng)用到其它視覺任務(wù)上,如圖像分類[7]、目標(biāo)檢測[8]、語義分割[9]等領(lǐng)域。DCNN出色的特征提取與表達(dá)能力為圖像檢索研究帶來新思路。利用DCNN方法提取特征描述子取代傳統(tǒng)特征提取方法成為圖像檢索研究的主流,基于ImageNet等大規(guī)模數(shù)據(jù)集訓(xùn)練得到的預(yù)訓(xùn)練網(wǎng)絡(luò)模型廣泛應(yīng)用于圖像檢索的特征提取[10]。
本文提出基于DCNN的改進(jìn)多區(qū)域特征加權(quán)聚合方法MR-CroW,通過調(diào)整預(yù)訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型最后一個卷積層的池化方式得到圖片的全局特征,再對檢索對象可能出現(xiàn)的位置進(jìn)行局部采樣,整合有限個子區(qū)域特征,最后將多個區(qū)域特征進(jìn)行加權(quán)聚合得到最終的特征表示。實(shí)驗(yàn)表明,MR-CroW在不進(jìn)行重新訓(xùn)練網(wǎng)絡(luò)模型前提下, Oxford5K數(shù)據(jù)上的重排平均準(zhǔn)確率達(dá)0.804,在Paris6K數(shù)據(jù)上的重排平均準(zhǔn)確率達(dá)0.892。
1 相關(guān)工作
深度卷積神經(jīng)網(wǎng)絡(luò)主要由卷積層和全連接層兩大部分組成,形成以卷積層特征作為圖像描述子和以全連接層特征作為圖像描述子兩大分支。由于全連接層特征描述子作為高層特征在圖像分類任務(wù)中表現(xiàn)出色,因此早期利用DCNN進(jìn)行圖像檢索的研究一般采用全連接層特征作為描述子[11]。但該方法存在特征維度高、圖片輸入有限制等問題。隨著檢索任務(wù)復(fù)雜程度的增加以及研究的深入,發(fā)現(xiàn)相比于全連接層,卷積層特征包含一定的位置特征信息,使其更適合作為圖像描述子。因此,圖像特征描述子研究逐漸由全連接層轉(zhuǎn)向卷積層。
Babenko等[12]針對深度特征提出SPoC(Sum-Pooled Convolution)方法,通過預(yù)訓(xùn)練深度網(wǎng)絡(luò)得到最后一個卷積層輸出作為描述子,利用全局聚合池化結(jié)合白化PCA(Principal Component Analysis),獲得比最大池化方法更好的結(jié)果,有效降低特征維度;Kalantidis等[13]針對空間和通道特征,提出跨維度加權(quán)聚合方法CroW(Cross-Dimensional Weighting),顯著提高檢索性能。雖然以上方法都提出了區(qū)域加權(quán)思想,但本質(zhì)上還是全局特征,對局部檢索對象缺乏重視。Gong等[14]提出多尺度無序池化方法MOP(Multi-scale Orderless Pooling)用于解決DCNN缺乏幾何不變性問題;Tolias等[15]采用類似MOP的方法,提出局部最大池化聚合算法R-MAC,對圖像的多個子區(qū)域進(jìn)行采樣。不同的是,R-MAC(Retrieval with integral Max-pooling)使用卷積層特征作為全局特征表示,這種變換使R-MAC在性能上相對于MOP有大幅提升。雖然這種方法考慮到圖像的局部明顯特征,但是忽視了通道特征。
文獻(xiàn)[16-17]使用融合方法,將CroW與R-MAC兩種方法結(jié)合使用提升檢索結(jié)果,但在子區(qū)域選取方面,R-MAC使用大面積滑窗采樣方法。雖然這種采樣方法可以提取更多的細(xì)節(jié)特征,但是滑動采樣存在隨機(jī)性問題。隨著非目標(biāo)區(qū)域采樣增加,噪聲影響也變得明顯,同時過多的子區(qū)域選擇增加了特征提取與處理時間。為此,本文提出MR-CroW算法對傳統(tǒng)預(yù)訓(xùn)練網(wǎng)絡(luò)池化層進(jìn)行結(jié)構(gòu)調(diào)整,只提取和使用3個主要目標(biāo)子區(qū)域特征,在有效規(guī)避噪聲引入的同時,大幅縮減特征處理階段復(fù)雜度,提升檢索效率,取得較好的實(shí)驗(yàn)結(jié)果。
2 MR-CroW算法
將多區(qū)域加權(quán)聚合用于實(shí)例圖像檢索方法MR-CroW的圖像特征提取及檢索過程如下:
(1) 池化特征提取。使用一個去除全連接層的預(yù)訓(xùn)練DCNN模型作為特征提取器,設(shè)輸入圖像I的大小為HI×WI,經(jīng)過卷積層激活(響應(yīng))和池化,得到C×H×W 維的三維特征張量。H和W分別代表圖片的高度和寬度映射,C為輸出特征通道個數(shù),輸出特征圖尺寸將根據(jù)輸入圖片大小而變化,這是將卷積層特征作為描述子的優(yōu)點(diǎn)之一。獲取池化層特征方式不同于傳統(tǒng)VGG16的max pooling采用[2×2]窗口,而是采用[5×5]窗口,使特征更加稀疏。
(2) 子區(qū)域選擇。子區(qū)域選取采用文獻(xiàn)[18]提出的主要響應(yīng)區(qū)域法,在提取全局池化特征基礎(chǔ)上,在區(qū)域采樣時不是像R-MAC過多地選擇子區(qū)域,而是針對性采樣以減少子區(qū)域特征提取時間,提升檢索效率。
(3) 加權(quán)聚合。針對pool5特征以及選取的子區(qū)域特征,采用跨維度加權(quán)聚合方法CroW,對每個獨(dú)立區(qū)域的池化特征分別進(jìn)行空間和通道加權(quán),將子區(qū)域特征向量聚合形成緊湊的全局特征向量。
(4) 度量評估。為度量不同維度,對全局特征向量進(jìn)行白化和PCA處理,再進(jìn)行L2歸一化,得到不同維度的特征向量。將查詢特征向量與數(shù)據(jù)庫中特征向量進(jìn)行相似性比較,通過常用的擴(kuò)展查詢方法得到最終的檢索結(jié)果。
2.1 跨維度加權(quán)聚合算法CroW
對得到的三維特征張量,每個獨(dú)立通道特征是一個[H×W]的2D張量。設(shè)[C(k)]表示第[k]個通道的特征圖,[xkij]表示[C(k)]在坐標(biāo)[(i,j)]處的特征值,則該位置加權(quán)特征為
對各獨(dú)立通道特征進(jìn)行全局聚合池化,得到第[k]個獨(dú)立通道的聚合特征[fk]。
2.2 子區(qū)域選擇
Gong等[14]對圖片進(jìn)行裁剪后多次輸入預(yù)訓(xùn)練模型得到子區(qū)域特征。在每次提取子區(qū)域特征時都需要重新加載模型,重復(fù)的輸入輸出以及模型加載會消耗大量時間。針對這一問題,R-MAC使用卷積層特征作為全局特征。卷積層輸出特征較好保留了原圖尺寸和位置屬性,可在全局特征上進(jìn)行子區(qū)域選取,降低子區(qū)域特征選擇時間。雖然R-MAC比Gong提出的方法高效很多,但R-MAC提出的復(fù)雜窗口滑動檢測方法帶有一定的隨機(jī)性。隨著采樣區(qū)域增加,引入的非目標(biāo)區(qū)域噪聲也隨之增加,造成子區(qū)域特征選取耗時增加。文獻(xiàn)[12]利用對象通常出現(xiàn)在圖像幾何中心的特點(diǎn),提出SPoC算法,使用中心先驗(yàn)空間加權(quán)增強(qiáng)圖像中心出現(xiàn)的特征。本文采用類似方法著重對中心區(qū)域進(jìn)行子區(qū)域選擇,簡化子區(qū)域選擇流程,采用更少的子區(qū)域得到更好的檢索結(jié)果。
檢索對象的關(guān)鍵部分集中在圖片上半部,因此本文只采集左上部、右上部、上部3個子區(qū)域,采樣過程如圖2所示。
連同全局特征,本文一共使用4個區(qū)域特征聚合。R0代表pool5全局特征,選取3個子區(qū)域分別為R1、R2、R3,3個子區(qū)域高度相同,即[H1=H2=H3=H*β],其中R1和R2寬度相同,為[W1=W2=W*α],R3的寬度為[W3=W]。經(jīng)過試驗(yàn)得出[α]和[β]值,較合理取值為:[α=0.3],[β=0.6]。
2.3 特征聚合
聚合操作可看作是區(qū)域加權(quán)操作的另一種形式。在進(jìn)行特征聚合前,需要對每個獨(dú)立子區(qū)域特征進(jìn)行加權(quán)操作。令Fr為每個獨(dú)立子區(qū)域的特征向量,對選取的子區(qū)域特征Fr進(jìn)行對應(yīng)維度聚合操作,則最終圖像聚合特征F為:
2.4 白化
對不同維度特征進(jìn)行比較時,需要對數(shù)據(jù)進(jìn)行白化和PCA降維。白化使不同維度的數(shù)據(jù)具有相同的方差,同時使各個維度之間的相關(guān)性降低。本文采用的白化處理方法與文獻(xiàn)[13]中的交叉白化測試方法相同,對Oxford5K測試時使用Paris6K數(shù)據(jù)作為白化參數(shù),反之對Paris6K測試使用Oxford5K數(shù)據(jù)作為白化參數(shù)。
2.5 度量計(jì)算
向量與向量之間的相似性度量常用方法有歐氏距離與余弦距離。歐氏距離在孤立數(shù)據(jù)集表現(xiàn)良好,即便兩個向量沒有共同的屬性值,它們之間的數(shù)值距離也可能比另一對包含有相同屬性的向量要小。余弦距離計(jì)算兩個特征向量之間的夾角,更加注重數(shù)據(jù)維度之間的差異而不單單是數(shù)值上的差異,從而有效規(guī)避不同維度數(shù)值帶來的認(rèn)知差異。雖然經(jīng)過歸一化的余弦距離和歐式距離是等價的,但是歐氏距離計(jì)算量更大,計(jì)算時間更長[19]。使用余弦距離計(jì)算DCNN特征相似度,普遍比使用歐氏距離計(jì)算的準(zhǔn)確率高,因此本文采用余弦距離作為度量方法[20]。
2.6 擴(kuò)展查詢
檢索結(jié)果最終評估使用官方提供的評估代碼測試查詢(共110張圖片)的平均精度(mAP)。擴(kuò)展查詢[21](Query Expansion,QE)對TOP-K的結(jié)果聚合后做L2歸一化處理,再進(jìn)行檢索重排。這種方法計(jì)算簡單且能有效提升檢索效果,是圖像檢索常用的方法。最終結(jié)果比較使用相同的查詢擴(kuò)展方法,對擴(kuò)展查詢數(shù)據(jù)取TOP-10進(jìn)行比較,與其它文獻(xiàn)一樣。
3 實(shí)驗(yàn)
3.1 數(shù)據(jù)集描述
為驗(yàn)證本文方法的真實(shí)性與有效性,在Oxford5K[22]和Paris6K[23]兩個地標(biāo)數(shù)據(jù)集上進(jìn)行測試。兩個數(shù)據(jù)均從Flickr上收集得到,并且所有數(shù)據(jù)都被人工標(biāo)注。其中Oxford5k由5 062張圖片組成,Paris6k由6 392張圖片(提供的6 412張圖片中有20張已損壞)組成。根據(jù)官方提供的標(biāo)準(zhǔn)評價協(xié)議,兩個數(shù)據(jù)集分別含有11個類別55張查詢圖。每張圖像查詢結(jié)果都有3種可能:good、ok、junk。其中,good和ok圖像認(rèn)為是正例結(jié)果,junk作為負(fù)面結(jié)果在計(jì)算最終檢索結(jié)果時主動忽略不予考慮。
3.2 特征提取
本文使用Caffe[24]預(yù)訓(xùn)練模型VGG16作為特征提取器,對輸入圖片減去平均像素進(jìn)行歸一化處理,采用官方提供的坐標(biāo)數(shù)據(jù)進(jìn)行裁剪后再提取圖像的池化特征,采用最后一個池化層特征作為全局特征。與其它方法不同,本文對池化窗口進(jìn)行改進(jìn),使用更大的窗口([5×5]),將多個區(qū)域特征加權(quán)聚合得到的512維特征向量進(jìn)行降維以節(jié)省存儲空間,使后續(xù)子區(qū)域特征選取和計(jì)算的速度得到提升。
由圖3和圖4可以看出,當(dāng)選擇大小為[5×5]的池化窗口時,相對于其它尺寸窗口,CroW算法檢索準(zhǔn)確率較高。
3.3 實(shí)驗(yàn)結(jié)果與分析
表1為MR-CroW算法與其它幾種常見算法的比較結(jié)果。在3個數(shù)據(jù)維度上,MR-CroW均表現(xiàn)較好。使用擴(kuò)展查詢(QE)后,檢索效果進(jìn)一步提升。相比于Crow方法,本文在Oxford5K的3個維度平均準(zhǔn)確率提升約5%,使用TOP-10擴(kuò)展查詢(QE)后提升約7%;對Paris6K數(shù)據(jù),未使用QE的結(jié)果平均提升約4.3%,使用QE的結(jié)果則提升約5.5%。與Dong等提出的改進(jìn)方法相比,MR-CroW算法的準(zhǔn)確率也高出2%。
對MR-CroW和R-MAC提取整個數(shù)據(jù)集的多個子區(qū)域特征進(jìn)行測試,在相同實(shí)驗(yàn)環(huán)境下(虛擬機(jī):vmware workstation 14,系統(tǒng):Ubuntu-18.04.2,CPU:4核 Intel(R) Core(TM) i7-6700 CPU @3.4GHz,內(nèi)存:8GB,硬盤:120GB)使用不同大小的池化窗口和不同采樣方式對時間消耗進(jìn)行實(shí)驗(yàn)對比,驗(yàn)證MR-CroW算法在檢索任務(wù)中的有效性,改進(jìn)的池化層結(jié)構(gòu)在一定程度上提升了檢索效果。通過對多個目標(biāo)子區(qū)域提取特征進(jìn)行加權(quán)聚合,檢索結(jié)果得到顯著提升。此外,與R-MAC提出的滑動檢測法提取子區(qū)域特征不同,本文選擇指定子區(qū)域進(jìn)行特征提取,大大縮減了特征處理時間,提升了檢索效率。
4 結(jié)語
本文提出一種多區(qū)域深度特征加權(quán)聚合算法MR-CroW用于圖像檢索。該算法無需重新訓(xùn)練新的網(wǎng)絡(luò)模型,只是對預(yù)訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型進(jìn)行調(diào)整和改進(jìn)。在獲取全局特征時使用更大的池化窗口,針對檢索對象可能出現(xiàn)的區(qū)域進(jìn)行針對性采樣,得到多個子區(qū)域特征表示,通過加權(quán)聚合得到圖片的最終特征表示,使用度量計(jì)算比較以及擴(kuò)展查詢得到最終的檢索結(jié)果。與幾種常見的圖像檢索方法進(jìn)行比較實(shí)驗(yàn),結(jié)果表明本文方法效果更優(yōu)。后續(xù)可對子區(qū)域選擇及網(wǎng)絡(luò)微調(diào)進(jìn)行更深入研究,以進(jìn)一步提高檢索性能。
參考文獻(xiàn):
[1] 周文罡,李厚強(qiáng),田奇. 圖像檢索技術(shù)研究進(jìn)展[J]. ,2017,9(6):613-634.
[2] ZHENG L, YANG Y, TIAN Q. SIFT meets CNN: a decade survey of instance retrieval[J].? IEEE Transactions on Pattern analysis and Machine Intelligence, 2017, 40(5):1224-1244.
[3] LOWE D G. Distinctive image features from scale-invariant keypoints[J].? International Journal of Computer Vision,2004,60(2):91-110.
[4] SIVIC J, ZISSERMAN A. Video google: a text retrieval approach to object matching in videos[C]. Appearsin:Proceedings of International Conference on Computer Vision, 2003.
[5] WAN J, WANG D, HOI S C H, et al. Deep learning for content-based image retrieval: a comprehensive study[C]. Proceedings of the 22nd ACM International Conference on Multimedia, 2014:157-166.
[6] KRIZHEVSKY A, SUTSKEVER I, HINTON G E. Imagenet classification with deep convolutional neural networks[C]. Advances in Neural Information Processing Systems, 2012:1097-1105.
[7] SIMONYAN K,ZISSERMAN A. Very deep convolutional networks for large-scale image recognition[EB/OL]. https://arxiv.org/pdf/1409.1556. pdf.
[8] REN S, HE K, GIRSHICK R, et al. Faster R-CNN: towards real-time object detection with region proposal networks[C]. Advances in Neural Information Processing Systems, 2015:91-99.
[9] LONG J, SHELHAMER E, DARRELL T. Fully convolutional networks for semantic segmentation[C]. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2015:3431-3440.
[10] 張皓, 吳建鑫. 基于深度特征的無監(jiān)督圖像檢索研究綜述[J].? 計(jì)算機(jī)研究與發(fā)展, 2018, 55(9):1829-1842.
[11] BABENKO A,SLESAREV A, CHIGORIN A, et al. Neural codes for image retrieval[C]. European Conference on Computer Vision, 2014:584-599.
[12] BABENKO A, LEMPITSKY V. Aggregating deep convolutional features for image retrieval[J].? arXiv preprint arXiv,2015(1510): 74-93.
[13] KALANTIDIS Y, MELLINA C, OSINDERO S. Cross-dimensional weighting for aggregated deep convolutional features[C]. European Conference on Computer Vision, 2016:685-701.
[14] GONG Y, WANG L, GUO R, et al. Multi-scale orderless pooling of deep convolutional activation features[C]. European Conference on Computer Vision, 2014:392-407.
[15] TOLIAS G, SICRE R, J?GOU H. Particular object retrieval with integral max-pooling of CNN activations[DB/OL]. https://arxiv.org/pdf/1511.05879.pdf.
[16] 董榮勝, 程德強(qiáng), 李鳳英.? 用于圖像檢索的多區(qū)域交叉加權(quán)聚合深度卷積特征[J].? 計(jì)算機(jī)輔助設(shè)計(jì)與圖形學(xué)學(xué)報, 2018, 30(4):658-665.
[17] 袁暉, 廖開陽, 鄭元林,等.? 基于CNN特征加權(quán)和區(qū)域整合的圖像檢索[J].? 計(jì)算機(jī)工程與科學(xué), 2018,41(1):117-125.
[18] BABENKO A, SLESAREV A, CHIGORIN A, et al. Neural codes for image retrieval[C].? Proceedings of European Conference on Computer Vision, 2014:584-599.
[19] WANG H, CAI Y, ZHANG Y, et al. Deep learning for image retrieval: what works and what doesnt[C].? Proceedings of 2015 IEEE International Conference on Data Mining Workshop (ICDMW), 2015:1576-1583.
[20] 周曄,張軍平. 基于多尺度深度學(xué)習(xí)的商品圖像檢索[J]. 計(jì)算機(jī)研究與發(fā)展,2017,54(8):1824-1832.
[21] CHUM O, PHILBIN J, SIVIC J, et al. Total recall: automatic query expansion with a generative feature model for object retrieval[C]. 2007 IEEE 11th International Conference on Computer Vision, 2007:1-8.
[22] PHILBIN J, CHUM O, ISARD M, et al. Object retrieval with large vocabularies and fast spatial matching[C]. 2007 IEEE Conference on Computer Vision and Pattern Recognition, 2007:1-8.
[23] PHILBIN J, CHUM O, ISARD M, et al. Lost in quantization: improving particular object retrieval in large scale image databases[C]. 2008 IEEE Conference on Computer Vision and Pattern Recognition, 2008:1-8.
[24] JIA Y, SHELHAMER E, DONAHUE J, et al. Caffe: convolutional architecture for fast feature embedding[C]. Proceedings of the 22nd ACM International Conference on Multimedia, 2014:675-678.
[25] JIMENEZ A, ALVAREZ J M, GIRO-I-NIETO X. Class-weighted convolutional features for visual instance search[J].? arXiv preprint arXiv,2017(1701):25-81.
[26] XU J, SHI C, QI C, et al. Unsupervised part-based weighting aggregation of deep convolutional features for image retrieval[C]. Thirty-Second AAAI Conference on Artificial Intelligence, 2018.
(責(zé)任編輯:杜能鋼)