国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于深度特征與局部特征融合的圖像檢索

2020-12-21 09:55何涇沙
關(guān)鍵詞:類別檢索局部

黃 娜, 何涇沙

(北京工業(yè)大學(xué)信息學(xué)部, 北京 100124)

近年來,基于內(nèi)容的圖像檢索(content based image retrieval, CBIR)[1-2]受到了廣泛關(guān)注[3],在氣象、醫(yī)療、生物建模等諸多領(lǐng)域都有相關(guān)應(yīng)用. 隨著CBIR技術(shù)的不斷發(fā)展,各類應(yīng)用對圖像檢索技術(shù)有了越來越高的要求,不僅要有可靠的準(zhǔn)確性,還要有盡可能高的效率.

特征是圖像識別與檢索的基礎(chǔ),不同模態(tài)的圖像特征從不同角度反映了圖像屬性,如何有效應(yīng)用這些特征提高檢索的準(zhǔn)確率是一個值得研究的問題[4]. 局部特征對于描述圖像的局部內(nèi)容具有魯棒性,全局特征則更適合描述圖像的整體屬性. 然而,局部特征在量化過程中會丟失全局的信息,而全局特征難以反映圖像的內(nèi)容信息. 因此,將全局特征與局部特征結(jié)合使用能夠滿足圖像檢索應(yīng)用對準(zhǔn)確性的要求. 在理想狀態(tài)下,特征的維度越高所包含的信息越豐富,其在識別與檢索應(yīng)用中展現(xiàn)出的判別能力也越高,但是高維度特征同時會消耗較多時間,使準(zhǔn)確性與效率產(chǎn)生矛盾.

目前,在圖像識別與檢索領(lǐng)域,已經(jīng)有很多基于特征融合的研究. 韓昌剛等[5]在圖像語義特征提取中采用局部二值模式(local binary pattern,LBP)紋理特征與顏色特征相融合,有效提高了語義特征的準(zhǔn)確度. 羅元等[6]在人體面部表情識別中應(yīng)用LBP局部紋理與離散余弦變換(discrete cosine transform,DCT)全局特征相結(jié)合,這種方法比單獨使用DCT方法具有更高的準(zhǔn)確性. 另外,顏色特征[7-8]、邊緣特征[9]、方向梯度直方圖(histogram of oriented gradient,HOG)特征[10]等也都得到廣泛應(yīng)用. 現(xiàn)在流行的詞袋(bag-of-word,BoW)模型采用局部描述符對圖像的關(guān)鍵點進行描述[11-12],包括尺度不變特征變換(scale invariant feature transform,SIFT)[13]、顏色直方圖[14]特征等.

由于低級特征與高級語義特征之間存在隔閡,Yu等[15]研究了基于不同特征相結(jié)合的圖像檢索系統(tǒng),特征組合包括SIFT與LBP、HOG與LBP等. 將2種不同的特征通過拼接的方式融合是最為簡單直接的一種途徑,這種方式能夠保留所有的原始信息,但同時也可能導(dǎo)致維數(shù)災(zāi)難. Yue等[16]使用拼接的方式將顏色特征與紋理特征進行融合,并提出了一種基于融合特征的圖像檢索方法. Mehmood等[17]將加速不變特征(speeded up robust features,SURF)與HOG特征融合,在圖像檢索中實現(xiàn)了可觀的準(zhǔn)確性和效率. Salahuddin等[18]采用多核方法融合圖像的視覺和文本特征,用以實現(xiàn)圖像檢索.

卷積神經(jīng)網(wǎng)絡(luò)自出現(xiàn)以來在圖像應(yīng)用中展現(xiàn)出了明顯優(yōu)勢,并且在圖像識別的相關(guān)領(lǐng)域有許多應(yīng)用. 該深度特征能夠作為一種全局性特征,利用訓(xùn)練好的卷積神經(jīng)網(wǎng)絡(luò)提取圖像的深度特征[19].

本文將研究基于內(nèi)容的圖像檢索,提出一種基于深度特征與局部特征融合的圖像檢索方法,能夠提高特征的判別能力,實現(xiàn)更好的應(yīng)用.

1 基于特征融合的圖像檢索

1.1 特征提取

1) 局部特征

圖像的局部特征提取有多種方法,如SIFT、LBP等. SIFT是一種較為常用的局部特征提取算法,在SIFT算法的基礎(chǔ)上,Bay等[20]于2006年提出了SURF算法,改進了特征提取和描述的方式,不僅效率優(yōu)于SIFT算法,對抗圖像變換的魯棒性也更加優(yōu)越.

SURF算法主要包括關(guān)鍵點的檢測、局部鄰域描述和匹配3個實現(xiàn)部分. SURF算法的步驟分為三步:特征點檢測、關(guān)鍵點的尺度空間表示與定位以及特征描述,即首先構(gòu)建Hessian矩陣,檢測出所有的關(guān)鍵點,然后定義尺度空間和主方向,生成關(guān)鍵點的描述子.
圖1展示了2個不同類別的圖像SURF點檢測結(jié)果,標(biāo)記出了前20個最強的特征點.

LBP是描述圖像局部紋理特征的一種算法,依據(jù)不同像素點的像素值差異來描述圖像的局部特征,在醫(yī)學(xué)圖像處理和人臉識別等領(lǐng)域都有廣泛的應(yīng)用. LBP特征提取步驟為:設(shè)定大小為3×3的局部窗口,比較該區(qū)域內(nèi)中心的像素與周圍像素,當(dāng)周圍像素值大于或者等于中心像素值時,將該點賦值為1,否則賦值為0. 然后,使用一個權(quán)值模板與窗口區(qū)域進行乘和運算,得到中心值.
圖2展示了LBP特征的計算過程.

2) 深度特征

卷積神經(jīng)網(wǎng)絡(luò)在圖像識別領(lǐng)域應(yīng)用廣泛,并彰顯出優(yōu)勢. 卷積神經(jīng)網(wǎng)絡(luò)能夠根據(jù)特定的任務(wù)自動提取圖像的深度特征,免去傳統(tǒng)的特征選擇及處理步驟,并且網(wǎng)絡(luò)的深度和廣度都可以進行自主調(diào)整. 本文使用經(jīng)典的Alexnet卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)進行遷移訓(xùn)練,提取深度特征. Alexnet最初由Hinton及其研究團隊設(shè)計提出,基于著名的ImageNet數(shù)據(jù)集訓(xùn)練并發(fā)布了網(wǎng)絡(luò)模型[21]. ImageNet包含1 000種類別的樣本圖像,共超過1 400萬張圖像,Alexnet在訓(xùn)練及測試中展現(xiàn)了較高的準(zhǔn)確性. Alexnet主要由輸入層、卷積層、激活層、池化層、全連接層以及輸出層構(gòu)成.

本文使用預(yù)訓(xùn)練的Alexnet模型,在實驗所用數(shù)據(jù)集上進行遷移訓(xùn)練,用于提取圖像的深度特征. 遷移訓(xùn)練的過程如圖3所示.

在卷積神經(jīng)網(wǎng)絡(luò)提取深度特征的過程中,每一個卷積層基于前面一層的輸出結(jié)果提取更深層次的特征. 反向傳播機制使得卷積神經(jīng)網(wǎng)絡(luò)能夠根據(jù)特定的任務(wù)對卷積核的參數(shù)進行調(diào)整,因此,深度特征比其他人工提取的特征能更好地反映出學(xué)習(xí)任務(wù). 本文使用遷移訓(xùn)練完成的模型對實驗圖像提取深度特征,圖4展示了部分可視化的深度特征. 可以看出,第1層卷積層所提取的特征主要為顏色及輪廓,后面的層則基于淺層的特征提取出更加復(fù)雜的深度特征.

1.2 改進的特征融合方法

不同模態(tài)的特征除了包含相互獨立的信息以外,還會包含一些相關(guān)性信息,如圖5所示. 從樣本圖像集中提取2種不同模態(tài)的特征,由特征向量組成特征矩陣,分別表示為X和Y,圖5中重疊部分即為兩者所包含的相關(guān)信息. 如果通過級聯(lián)的方式將X和Y融合,融合特征中的相關(guān)性信息則會產(chǎn)生冗余.

典型相關(guān)分析(canonical correlation analysis,CCA)最初是一種用于分析不同變量之間相關(guān)性的方法,后來也被應(yīng)用于特征融合. CCA的基本思想為:求解特征矩陣X和Y的變換基,分別表示為WX和WY,使得變換后的和之間Pearson相關(guān)系數(shù)最大,和分別表示經(jīng)過投影變換后的特征矩陣.

=WTXX,=WTYY

(1)

CCA的目標(biāo)函數(shù)為

(2)

在不同模態(tài)的特征中,通常包含部分相關(guān)的信息以及部分相互獨立的信息. 基于CCA的特征融合僅保留2種特征中的相關(guān)信息,忽略了獨立性信息,同時保留兩者中的相關(guān)信息還會引起冗余. 為了解決以上問題,本文提出一種改進的特征融合方法,消除了由于相關(guān)性導(dǎo)致的冗余. 下面對改進的方法做具體描述. 首先將分析變換的目標(biāo)改為最小化特征之間的相關(guān)性,稱為最小相關(guān)分析(minimum correlation analysis,MCA),目標(biāo)函數(shù)表示為

(3)

用SXX和SYY分別表示X和Y的方差矩陣,SXY表示X和Y的協(xié)方差矩陣,根據(jù)協(xié)方差矩陣所具有的性質(zhì),可以得到如下推論:

cov(,)=cov(WTXX,WTYY)=WTXSXYWY

(4)

var()=WTXSXXWX=1

(5)

var()=WTYSYYWY=1

(6)

則目標(biāo)函數(shù)式(3)可轉(zhuǎn)化為

(7)

采用拉格朗日乘數(shù)法求解極值問題,在目標(biāo)函數(shù)中引入拉格朗日乘子λ,得到

(8)

分別對WX和WY求偏導(dǎo),可以得到

(9)

由方程組可得

(10)

同時有

(11)

(12)

根據(jù)變換基維度的變化,融合特征的維度也會發(fā)生變化. 若分別取前r(r≥1)個最小特征值所對應(yīng)的特征向量組成WX和WY,取前l(fā)(l≥1)個最大特征值所對應(yīng)的特征向量組成W′X,那么融合特征Z的維度為(2r+l). 不同維度對特征性能的影響將會在實驗部分討論.

本方法通過投影變換保留2種模態(tài)特征中相互獨立的信息,使融合特征更為全面地表征原始數(shù)據(jù),并且取其中一方所包含的相關(guān)性信息作為補充,能夠避免冗余.

1.3 基于特征融合的圖像檢索方法

采用深度特征作為全局性特征,與局部特征融合,作為本文圖像檢索的基礎(chǔ). 所提出的基于深度特征與局部特征融合的圖像檢索方法分為如下步驟:

1) 建立圖像庫,圖像庫為候選圖像的集合.

2) 設(shè)置檢索圖像作為目標(biāo).

3) 提取所有圖像的深度特征及局部特征SURF、LBP等,采用改進的方法進行融合.

4) 對融合后的特征進行相似性距離的度量,計算采用曼哈頓距離. 用x0表示檢索圖像的特征,xi表示候選圖像的特征,計算公式為

(13)

5) 根據(jù)距離排序得到檢索結(jié)果.

2 實驗及分析

實驗數(shù)據(jù)選用圖像識別領(lǐng)域常用的Caltech 101圖像集. Caltech 101適合驗證圖像識別和檢索算法,在計算機視覺研究中應(yīng)用非常廣泛,共包含101個不同的對象類別,如飛機、摩托車、螞蟻、人臉等,平均每個類別包含不同數(shù)量的圖像樣本,共9 146個圖像.

實驗環(huán)境為單個CPU 2.40 GHz,Windows 10 OS系統(tǒng)下Matlab 2018a,主要用到計算機視覺工具箱(computer vision system toolbox)、神經(jīng)網(wǎng)絡(luò)工具箱(neural network toolbox)、分類應(yīng)用程序(classification application)以及矩陣操作工具.

2.1 方法驗證

從Caltech 101數(shù)據(jù)集中隨機選取2個類別,并通過從網(wǎng)絡(luò)中收集圖像將每個類別的圖像數(shù)量擴展為200. 提取數(shù)據(jù)集的特征,組成特征矩陣,如表1所示.

表1 數(shù)據(jù)集特征的描述

對SURF與深度特征,分別使用CCA與MCA求得變換基(r=1),然后得到變換后的特征. 變換后特征之間的相關(guān)性如圖6所示. 通過對比可以看出,CCA使得變換后的2種特征呈線性相關(guān)分布,經(jīng)過MCA變換后的特征則沒有呈現(xiàn)明顯的關(guān)聯(lián),表明MCA有效地弱化了特征之間的相關(guān)性,能夠達到去除相關(guān)性冗余信息的目的. 式(12)在MCA的基礎(chǔ)上增加了X中的相關(guān)性信息,該相關(guān)性信息即為CCA分析變換的結(jié)果. 由圖6(b)中呈現(xiàn)的線性關(guān)系可知,此時X和Y中的相關(guān)性信息具有相同的意義,可以任意選擇其一作為獨立信息的補充.

2.2 圖像分類應(yīng)用

下面通過圖像分類的應(yīng)用對所改進的特征融合方法進行驗證,同時將選擇的特征與其他幾類常用的特征進行性能對比.

選取多種分類器進行測試,包括Fine Tree(F-Tree)、Boosting Tree(B-Tree)、Linear Discriminant(LD)、Logistic Regression(LR)、Linear SVM(L-SVM)、Cubic SVM(C-SVM)以及K最近鄰(Knearest nejhbour,KNN)等. 其中,深度特征與LBP特征進行融合,使用F-Tree作為分類器,取得了最好的分類效果,準(zhǔn)確率達到97.5%.
圖7給出了不同特征組合的平均準(zhǔn)確率. 可以看出,將深度特征與局部特征(SURF、LBP)融合能夠取得優(yōu)于其他全局性特征(邊緣特征、顏色特征)的分類準(zhǔn)確率,并且LBP作為局部特征的性能優(yōu)于SURF. 對比改進的融合方法與基于CCA的融合方法,可以看出,改進的方法在分類應(yīng)用中有更好的表現(xiàn),平均準(zhǔn)確率提高了4%,證明本文的改進方案與傳統(tǒng)的CCA方法相比能夠有效提高融合特征的判別能力.

表2展示了單一特征以及深度特征與LBP特征融合取得的分類準(zhǔn)確率. 深度特征的平均準(zhǔn)確率為99.2%,融合特征的平均準(zhǔn)確率為99.1%,兩者較為接近. 作為局部特征,LBP的分類準(zhǔn)確性明顯高于SURF. 通過拼接的方式將不同模態(tài)的特征融合是一種最為簡單的做法. 另外,先將特征采用主成分分析(principal component analysis,PCA)方法降維,再將降維后的特征拼接,也是一種常用的融合方案,可以解決拼接融合中維數(shù)災(zāi)難的問題. 表3將本文的融合方法與這2種傳統(tǒng)的融合方法相對比,可以看出,由于包含的信息最為全面,拼接融合的方法準(zhǔn)確性最高,PCA方法與本文的方法在降維過程中會損失部分信息,因此,準(zhǔn)確率會有所下降,但本文方法的準(zhǔn)確性仍然接近拼接融合的方法,而且明顯高于PCA方法.

表2 融合特征與單一特征的分類準(zhǔn)確性對比

圖8統(tǒng)計了表2及表3中所有對比方法的平均準(zhǔn)確率,可以看出本文的方法與單獨使用深度特征、拼接融合特征有較為接近的準(zhǔn)確性,都高于其他幾種方法. 但是,從表4統(tǒng)計的中央處理器(central processing unit,CPU)時間來看,本文方法比深度特征、拼接融合特征有更好的時間性能. 深度特征、拼接融合的特征維度較高,分別為4 096、4 152,會消耗較多CPU時間,由此得出結(jié)論,使用本文提出的融合方法既能保證可靠的準(zhǔn)確性,又能保證優(yōu)越的時間性能.

表3 不同融合方法的分類準(zhǔn)確性對比

在特征融合中可以選擇不同的維度,下面展開一組實驗,探索不同維度對融合特征性能的影響. 選擇變換基的維度從1到10,同樣使用多種分類器進行測試,基于CCA融合的測試結(jié)果如圖9所示,基于改進融合方法的測試結(jié)果如圖10所示.
圖中橫坐標(biāo)表示變換基的維度,而不是融合特征的維度. 變換基的維度增加,則融合特征的維度也會增加. 從結(jié)果可以看出,增加特征的維度有利于提高準(zhǔn)確率,不同的分類器會影響準(zhǔn)確率提高的幅度.

表4 不同特征在分類中的CPU時間對比

2.3 圖像檢索應(yīng)用

從Caltech 101圖像集中隨機選取了10個不同的類別作為實驗數(shù)據(jù),用Ci(0圖11為選取的檢索圖像,屬于C1類別,其他類別的示例圖像如圖12所示,包括摩托車、鋼琴、蝴蝶和恐龍等.

表5 實驗數(shù)據(jù)集描述

Caltech 101圖像集包括灰度圖像和RGB圖像. 因為Alexnet網(wǎng)絡(luò)的輸入要求為RGB圖像,在準(zhǔn)備遷移訓(xùn)練時,通過復(fù)制通道將灰度圖像轉(zhuǎn)化為RGB圖像.

計算各候選圖像與檢索圖像的相似性距離,越小說明兩者越相似,結(jié)果如圖13所示. 可以看出,檢索圖像與C1類別的候選圖像之間的距離最小,接近于0. 10個類別的平均檢索距離見表6,該實驗結(jié)果表明,在不同類別的圖像檢索中準(zhǔn)確率達到了100%,證明提出的特征融合方法具備可行性.

表6 在10個類別中的平均檢索距離

查全率Precision和查準(zhǔn)率Recall是評價圖像檢索的2個常用指標(biāo). 真陽性TP表示應(yīng)檢索的圖像數(shù)量,假陽性FP表示不應(yīng)檢索的圖像數(shù)量,真陰性TN表示已檢索的圖像數(shù)量,假陰性FN表示未檢索的圖像數(shù)量,查準(zhǔn)率和查全率的計算公式分別為

(14)

(15)

在上面的檢索中,將閾值設(shè)置為T=1,統(tǒng)計TP、FP、TN、FN的數(shù)量,計算得到查準(zhǔn)率為98.0%,查全率為46.0%. 為了對比融合特征與單一特征的性能,另外使用單獨的邊緣特征、顏色特征、SURF、LBP特征以及深度特征做了一組檢索實驗,查準(zhǔn)率和查全率的結(jié)果見表7. 可以看出,融合特征的檢索性能優(yōu)于單一的特征. 為了驗證改進的特征融合方法,使用拼接融合、CCA融合的特征進行檢索. 表8為統(tǒng)計出的查準(zhǔn)率和查全率,可以看出:本文的融合方法與基于PCA的融合方法相比檢索性能有明顯提高;拼接融合的方法查準(zhǔn)率與查全率略高于本文方法. 但是,從圖14中統(tǒng)計的CPU時間來看,深度特征和拼接融合的特征時間性能較低,而本文方法不僅能實現(xiàn)可靠的準(zhǔn)確性,還具有較高的時間效率.

表7 融合特征與單一特征的檢索性能對比

表8 不同融合方法的檢索性能對比

圖15列出了C1類別中的部分圖像. 為了測試在細粒度的圖像檢索中的應(yīng)用性能,比較了同一類別圖像的檢索距離,如圖16所示. 藍色曲線為檢索圖像和C1類別中所有候選圖像之間的檢索距離,將檢索距離小于閾值的圖像作為檢索結(jié)果.
圖中紅色虛線表示對檢索距離設(shè)置的閾值,T=0.5. 通過觀察和分析,可以看出距離較近的圖像與查詢圖像具有更多相似的屬性. 這一結(jié)果進一步驗證了所提方法的可用性與準(zhǔn)確性.

不同的閾值設(shè)置會對性能評估產(chǎn)生影響,圖17展示了設(shè)置不同閾值時的查準(zhǔn)率和查全率,并與其他融合特征的對比. 可以看出,深度特征與局部特征融合的檢索性能優(yōu)于其他融合特征. 閾值越高,查準(zhǔn)率越低,查全率越高;反之,查準(zhǔn)率越高,查全率越低. 因此,閾值的設(shè)置也會影響檢索性能.

3 結(jié)論

1) 提出一種基于深度特征和局部特征融合的圖像檢索方法,選取LBP算法提取圖像的局部特征,基于卷積神經(jīng)網(wǎng)絡(luò)Alexnet提取圖像的深度特征,將2類特征通過相關(guān)性分析進行融合,實現(xiàn)了較好的融合效果.

2) 提出一種改進的特征融合方案,在CCA的基礎(chǔ)上將目標(biāo)函數(shù)改進為最小化特征的相關(guān)性,取得相互獨立的信息,并將相關(guān)性信息作為補充,使融合特征更加全面地表征原始數(shù)據(jù)且消除冗余.

猜你喜歡
類別檢索局部
日常的神性:局部(隨筆)
爨體蘭亭集序(局部)
論陶瓷刻劃花藝術(shù)類別與特征
CNKI檢索模式結(jié)合關(guān)鍵詞選取在檢索中的應(yīng)用探討
一起去圖書館吧
凡·高《夜晚露天咖啡座》局部[荷蘭]
瑞典專利數(shù)據(jù)庫的檢索技巧
2019年第4-6期便捷檢索目錄
英國知識產(chǎn)權(quán)局商標(biāo)數(shù)據(jù)庫信息檢索
丁學(xué)軍作品
灌云县| 大庆市| 茌平县| 安阳县| 库伦旗| 曲周县| 台山市| 德令哈市| 余干县| 桃园市| 建阳市| 夏津县| 全州县| 阳春市| 石棉县| 迭部县| 静安区| 集贤县| 太谷县| 环江| 石景山区| 玛曲县| 儋州市| 奉化市| 宁蒗| 赤水市| 缙云县| 南木林县| 张家界市| 浙江省| 吐鲁番市| 凤凰县| 靖州| 龙泉市| 汽车| 抚松县| 临澧县| 山丹县| 大荔县| 安康市| 伊宁县|