甄 新,胡政發(fā)
(1.廈門理工學(xué)院應(yīng)用數(shù)學(xué)學(xué)院,福建 廈門 361024;2.湖北汽車工業(yè)學(xué)院理學(xué)院,湖北 十堰 442002)
?
特征傳導(dǎo)神經(jīng)反應(yīng)在圖像檢索中的應(yīng)用
甄新1,胡政發(fā)2
(1.廈門理工學(xué)院應(yīng)用數(shù)學(xué)學(xué)院,福建 廈門 361024;2.湖北汽車工業(yè)學(xué)院理學(xué)院,湖北 十堰 442002)
提出一種新的圖像特征表示方法-特征傳導(dǎo)神經(jīng)反應(yīng)(FCNR),并用于基于內(nèi)容的圖像檢索(CBIR).該方法的核心思想是通過建立一個模擬人類視覺感知系統(tǒng)的分層結(jié)構(gòu),在對圖像的局部特征進行深度學(xué)習(xí)的同時將圖像的語義成分引入到特征表示中.通用圖像數(shù)據(jù)集上的實驗結(jié)果顯示,無論是與經(jīng)典的NR算法還是與某些專門用于CBIR的其它圖像特征描述子相比,基于FCNR的圖像檢索方法都表現(xiàn)出較好的檢索效率和效果.
圖像檢索;神經(jīng)反應(yīng);局部特征;分層結(jié)構(gòu);特征傳導(dǎo)
受搜索服務(wù)市場需求的驅(qū)使,基于內(nèi)容的圖像檢索(content-based image retrieval,CBIR)方法,成為多年來模式識別和人工智能領(lǐng)域研究的熱點問題之一.近年來受人類視覺皮層神經(jīng)科學(xué)的啟發(fā)而提出的分層學(xué)習(xí)方法為研究這一問題提供了一個新的方向.為了在捕捉圖像的高級語義特征的同時提高檢索效率,本文針對CBIR的特點,在神經(jīng)反應(yīng)的有關(guān)理論的基礎(chǔ)上提出了特征傳導(dǎo)神經(jīng)反應(yīng)(feature conduction neural response,FCNR)的概念及算法.
1.1相關(guān)概念與記號
在神經(jīng)反應(yīng)的計算中總是默認(rèn)下面的性質(zhì)自行滿足[1].
公理1設(shè)f∈ISq,hv∈Hv,則f通過變換hv在v上的限制f°hv∈Iv,即圖像f中任取大小為v的子塊一定是Iv中的元素.類似地,fv°hu∈Iu.
1.2特征傳導(dǎo)神經(jīng)反應(yīng)算法
構(gòu)造特征傳導(dǎo)神經(jīng)反應(yīng)的第一步是對整個圖像進行簡單地分割,與其它基于區(qū)域的特征提取方法所采用的分割技術(shù)不同,這里只是用互相垂直的直線網(wǎng)將圖像分割成一些大小相同的矩形小區(qū)域.然后在每一個小區(qū)域上提取諸如顏色、紋理、形狀等特征,并將這些特征用一個向量來表示.這樣一幅圖像就可以表示為一個三維特征數(shù)組.特征傳導(dǎo)神經(jīng)反應(yīng)算法就是在這個三維數(shù)組的背景下,將這些底層的局部特征按照神經(jīng)反應(yīng)的模式逐級傳導(dǎo),最終得出圖像的特征傳導(dǎo)神經(jīng)反應(yīng),下面給出具體的過程.
對任意的f?ISq,用相互垂直的直線網(wǎng)將f分割成大小相等的M×N個矩形子塊fij(i=1,2,…,M;j=1,2,…,N),即
(1)
在每個矩形子塊fij上以相同的方式提取一些視覺特征,將這些特征組成的向量歸一化后記為wij,這樣得到圖像f的局部特征數(shù)組表示wf,即
(2)
其中wij(i=1,2,…,M;j=1,2,…,N)本身也是一個向量,其中的每一個分量代表一個特征.歸一化的一個明顯的作用是使得這種表示對圖像的亮度變化具有不變性.如果每個矩形圖像塊提取P個特征,則wf就是一個M×N×P的三維數(shù)組.因此wf可以簡單的表示為
(3)
其中wijk表示f的第i行第j列的圖像塊的第k個特征.
(4)
現(xiàn)在來定義特征傳導(dǎo)神經(jīng)反應(yīng).設(shè)wv∈Wv,對任意的hu∈Hu,根據(jù)公理1可知wv°hu∈Wu,任取模板tu∈Tu,稱
(5)
(6)
(7)
其中〈·,·〉表示通常意義下的兩個向量的內(nèi)積.
(8)
(9)
(10)
下面對上述概念做幾點說明:
說明1特征傳導(dǎo)神經(jīng)反應(yīng)是一個向量,其維數(shù)等于二級模板的個數(shù),與圖像本身的維數(shù)無關(guān).在研究圖像時,無論圖像大小是否相同,都可以轉(zhuǎn)化為相同維數(shù)的向量統(tǒng)一處理.
說明2由于在底層使用了圖像的低級視覺特征,FCNR模型有效地克服了NR模型像素對像素的窮竭算法的缺點:不僅可以大幅度減小計算量,而且和其他特征提取方法一樣,能夠在一定程度上縮小圖像低級特征和高級語義的差距.FCNR是圖像的底層視覺特征經(jīng)過神經(jīng)反應(yīng)傳導(dǎo)而得出含有高級語義成分的特征.因此,從某種意義上講,FCNR可以看成是圖像的“特征的特征”.
說明3從學(xué)習(xí)理論的觀點來看,上述FCNR的提取方法屬于非監(jiān)督學(xué)習(xí)的范疇,而分層結(jié)構(gòu)的引入則是為了對低層視覺特征進行深度學(xué)習(xí)[2].
對于給定的圖像庫,首先對庫中的圖像進行簡單分割,將每一幅圖像劃分為大小相同的矩形子塊,在每一個矩形子塊上按相同的方式提取特征,由此得到原始圖像的局部特征表示.在此基礎(chǔ)上利用如前所述的算法計算出所有圖像的特征傳導(dǎo)神經(jīng)反應(yīng),進而用這些特征傳導(dǎo)神經(jīng)反應(yīng)作為最終的圖像的特征表示,建立一個與原始圖像庫相對應(yīng)的FCNR特征庫.接下來在特征空間上定義一個恰當(dāng)?shù)南嗨菩远攘?基于這種相似性度量就可以進行圖像檢索了.
2.1局部低層特征提取
在將圖像用相互垂直的直線網(wǎng)分割成規(guī)格相同的矩形子塊以后,就開始在每一個子塊上提取相應(yīng)的低層特征.圖像可以提取的特征主要包括顏色特征、紋理特征和形狀特征等,每種特征的提取方法有很多.本文用簡單、穩(wěn)健的方法提取圖像顏色和紋理方面的十四個基本特征.
類似于許多CBIR相關(guān)文獻中所采用的方法,在提取顏色特征時,利用眾所周知的YCbCr色彩空間.在這種色彩空間中,亮度信息用單個分量Y來存儲,彩色信息用兩個色差分量Cb和Cr來存儲.我們在每一個子塊上計算出Y,Cb和Cr的均值和標(biāo)準(zhǔn)差,其中均值記為g1,g2,g3,標(biāo)準(zhǔn)差記為g4,g5,g6,獲得六個顏色方面的特征(對于單色圖像,只需提取兩個亮度特征).接下來利用Haar小波變換從圖像的Y分量中提取紋理特征.首先將矩形圖像塊再進一步分解為一些互相鄰接但不重疊的4×4的子塊,對每一個子塊進行一級Haar小波變換,一個4×4圖像塊被分解成四個頻帶,每個頻帶對應(yīng)一個2×2的矩陣,分別表示一個下取樣近似和三個方向(水平、豎直和對角線) 的細(xì)節(jié)矩陣.設(shè)三個細(xì)節(jié)矩陣分別為
令
(11)
則矩形圖像塊中的每一個4×4的子塊都對應(yīng)著這三個變量,然后在每個矩形子塊上分別求這三個變量的均值與方差,其中均值記為g7,g8,g9,標(biāo)準(zhǔn)差記為g10,g11,g12,這樣又可以得到矩形圖像塊的六個特征.
接下來的兩個特征按下述方式提取.注意前面已經(jīng)求出了矩形圖像塊的Y分量的標(biāo)準(zhǔn)差g4,選擇圖像的平滑度作為第十三個特征,記為g13,即
(12)
該值反映了區(qū)域中亮度的相對平滑度.最后一個特征取為矩形圖像塊Y分量的熵,記為g14,即
(13)
其中p(z)為矩形圖像塊的Y分量的灰度級直方圖,L是可能的灰度級數(shù).熵是圖像元素隨機性的度量.
這樣,將上述十四個特征組合在一起,得到了矩形圖像塊的一個特征表示,記為g,即有
(14)
對每一個矩形按相同的方式提取特征后就可以得到整個圖像的局部低層特征表示.在得到圖像庫中所有圖像的局部特征表示以后,利用前述特征傳導(dǎo)神經(jīng)反應(yīng)的算法就可以計算出圖像庫中所有圖像的特征傳導(dǎo)神經(jīng)反應(yīng).
2.2相似性度量
(15)
定義圖像f,f*∈ISq的相似度為
(16)
通過仿真實驗來驗證本文提出的算法在圖像檢索中的表現(xiàn).實驗中用到的數(shù)據(jù)庫為Corel-1 000圖像庫[3].該圖像庫包括1 000幅圖像,這些圖像選自Corel圖像庫,這是一個用于圖像檢索實驗的標(biāo)準(zhǔn)測試數(shù)據(jù)庫.
圖像庫中的1 000幅圖像分十個類別,每個類別包含100幅圖像.每一類都有一個高級的語義,如非洲人及其村落、建筑物、海濱、公交車、花、大象等.這些圖像的像素為384×256或256×384,統(tǒng)一按“JPG”格式保存.為了方便處理,在實驗中首先將384×256圖像通過旋轉(zhuǎn)轉(zhuǎn)化為規(guī)格為256×384的圖像,然后將每一幅圖像分割成大小為16×16的正方形子塊,共計16×24塊.從每一小塊上提取局部特征以后得到一個16×24×14的三維數(shù)組.實驗選用的測試環(huán)境如下:CPU為Intel(R)Core(TM)i5-3230M2.60GHz,4G內(nèi)存.實驗中的代碼由MATLAB軟件實現(xiàn),其間調(diào)用了圖像處理工具箱函數(shù).
此外,對檢索效果的評價,本文采用最常用的方式,即通過查準(zhǔn)率(precision)和查全率(recall)的關(guān)系圖(PR曲線)來反映.查準(zhǔn)率
(18)
其中k是輸出圖像數(shù),nk表示輸出的結(jié)果中包含的與查詢圖像相關(guān)的圖像數(shù).相應(yīng)地,查全率
(19)
其中N為圖像庫中所含相關(guān)圖像的總數(shù).一般情況下,隨著查全率升高,查準(zhǔn)率會下降.限定查全率,對一系列隨機選取的查詢圖像對應(yīng)的查準(zhǔn)率取平均值,就可得到平均查準(zhǔn)率.高的平均查準(zhǔn)率和高的查全率,意味著算法有好的表現(xiàn).這意味著在PR曲線圖中越靠近右上方的曲線對應(yīng)的算法表現(xiàn)越好.除此以外,由于CBIR實時性的要求,查詢速度也是衡量算法優(yōu)劣的一個重要指標(biāo),查詢時間越短意味著算法表現(xiàn)越好.
在實驗中,u的規(guī)格取為7×7,v的規(guī)格取為11×11時.圖3示例了兩個查詢的結(jié)果,其中排在最前面的為輸入的查詢圖像,后面是輸出結(jié)果中排在最前面的20幅圖像.從圖3可以看出,基于FCNR的CBIR方法在Corel圖像庫上有不俗的表現(xiàn).其中查詢主題為“花”的輸出結(jié)果中全是花的圖像,而且花的顏色、大小、背景各不相同,形態(tài)各異.這表明“花”的高級語義能被系統(tǒng)正確識別.查詢主題為“大象”的輸出結(jié)果中前13幅都是和查詢主題一致的,輸出的20幅圖像中有四幅是和查詢圖像不一致的(圖3中加邊框的圖像).
將基于特征傳導(dǎo)神經(jīng)反應(yīng)(FCNR-based)的CBIR方法與基于神經(jīng)反應(yīng)(NR-based)和基于局部神經(jīng)反應(yīng)(LNR-based)的CBIR方法進行了比較.局部神經(jīng)反應(yīng)是神經(jīng)反應(yīng)的一個改進版本,該方法在圖像及其子塊的表示上利用了稀疏化技術(shù)[2-4].在計算NR及LNR之前,需要對圖像做一個預(yù)處理.為了相對公平,采用相關(guān)文獻中報告的使得算法表現(xiàn)最佳的做法:將圖片轉(zhuǎn)化為60×90的灰度圖像,u的尺寸為15×15,v的尺寸為21×21.在模板選取上,三種方法采用類似的方式,即隨機截取258個一級模板和172個二級模板.表1給出了三種不同方法在不同過程中的時間消耗,而檢索效果則展示在圖4中.
從表1可以看出,基于FCNR的檢索方法在學(xué)習(xí)時間和總時間上都顯著低于基于NR和LNR的方法,這主要是因為后兩者使用的都是逐像素平移的窮竭算法.特別是LNR方法,由于其間引入了二次優(yōu)化問題的求解,使得該方法費時最多[5].因此,盡管基于FCNR的檢索方法會在局部特征提取上花費一定的時間,但學(xué)習(xí)時間得以大大的減少.
表1 3種不同方法的時間消耗
方法局部特征提取學(xué)習(xí)時間/s查詢時間/s總時間/sNR-based0437.421.62439.04LNR-baed0367.251.54368.79FCNR-baed321.4613.501.38336.34
另一方面,從圖4不難看出,基于FCNR的CBIR系統(tǒng)在檢索效果上也明顯優(yōu)于基于NR和LNR的檢索方法.這主要是因為基于FCNR的方法有效克服了NR和LNR方法在底層圖像塊上像素對像素進行比較的缺點,同時顏色信息的丟失也在一定程度上影響了NR和LNR的表現(xiàn).順便指出,基于LNR的檢索效果要優(yōu)于基于NR的檢索效果,這主要是因為LNR方法的局部化的稀疏編碼方式使得圖像上目標(biāo)出現(xiàn)的位置具有較高的神經(jīng)反應(yīng)值.
以上實驗結(jié)果表明,與基于經(jīng)典的NR算法及其改進的LNR算法相比,基于本文所提出的FCNR的圖像檢索算法在該圖像數(shù)據(jù)庫中表現(xiàn)出更好的檢索效果和效率.
本文提出了FCNR這一新的圖像特征表示以用于基于內(nèi)容的檢索.該算法首先對圖像的空間域進行簡單的劃分,然后在圖像的局部區(qū)域上提取顏色、紋理、輪廓等一些基礎(chǔ)特征,得到圖像的局部特征表示.接下來對圖像的局部特征表示建立一個分層結(jié)構(gòu),同時為每一層構(gòu)造一個局部特征表示的模板集.在這一分層結(jié)構(gòu)的一級子塊上利用圖像局部特征構(gòu)造神經(jīng)反應(yīng)并通過神經(jīng)反應(yīng)歸一化的內(nèi)積將這些特征逐層傳導(dǎo)到高級子塊,最終將圖像表達(dá)為一個稱之為FCNR的向量.在這一過程中,利用分層結(jié)構(gòu)實現(xiàn)對底層特征的深度學(xué)習(xí),并通過圖像各級子塊和模板集的交互作用將圖像的高級語義成分引入到圖像的特征表示中.這樣,在繼承NR算法優(yōu)良的辨識性和對圖像變換的不變性的同時,FCNR擺脫了像素對像素的窮竭算法的困境.一方面FCNR繼承了NR的一些優(yōu)良特性,例如可以對目標(biāo)進行深度學(xué)習(xí),在圖像表示中融入語義成分等,另一方面由于拋棄了NR中像素對像素的窮竭算法,使得該方法在大型圖像庫和高分辨率的圖像處理中切實可行.同時,由于在分層結(jié)構(gòu)的底層使用了圖像的視覺特征而不是像素值,使得FCNR在對復(fù)雜場景圖像的理解和對圖像高級語義的抽象和概括上能有更好的表現(xiàn).盡管理論分析和實驗結(jié)果均表明FCNR是一種適用于CBIR的圖像特征表示,但本文在模板的選取上采用的是隨機方式,模板數(shù)量通過交叉驗證的方式確定,這給檢索結(jié)果帶來了不確定因素.對模板選取的有效性和代表性進行定量分析仍然是值得進一步研究的.
[1]SMALE S,ROSASCO L,BOUVRIE J,et al.Mathematics of the neural response[J].Foundations of Computational Mathematics,2010,10(1):67-91.
[2]LI H,WEI Y,LI L C.Hierarchical feature extraction with local neural response for image recognition[J].IEEE Transactions on Cybernetics,2013,43(2):412-424.
[3]TANG Y Y,XIA T,WEI Y,et al.Hierarchical kernel-based rotation and scale invariant similarity[J].Pattern Recognition,2014,47(4):1 674-1 688.
[4]WEI Y.Research on object recognition based on manliford learning and derived kernel model[D].Wuhan:Huazhong University of Science and Technology,2012.
[5]LI L,WEI Y,YUAN Y.Similarity learning for object recognition based on derived kernel[J].Neurocomputing,2012,83:110-120.
(責(zé)任編輯李寧)
Image Retrieval Using Features Conduction of Neural Response
ZHEN Xin1,HU Zhengfa2
(1.School of Applied Mathematics,Xiamen University of Technology,Xiamen 361024,China; 2.School of Sciences,Hubei University of Automotive Technology,Shiyan 442002,China)
In this paper,a novel feature extraction method is proposed for content-based image retrieval (CBIR).The core idea of the proposed method was to make a thorough study of the low-lever visual features of image and to blend semantic component into the feature representation through a hierarchical architecture which was built to simulate human visual perception system.A new image feature descriptor of feature conduction of neural response (FCNR) was then constructed.The results of experiments on commonly used image databases demonstrate that,compared with classical NR algorithms or other image descriptors previously developed for CBIR,the proposed method has better performance and effect on retrieval efficiency.
image retrieval;neural response;local feature;hierarchical architecture;feature conduction
2016-01-03
2016-05-28
廈門理工學(xué)院高層次人才項目 (YKJ12017R)
甄新(1974-),女,副教授,碩士,研究方向為應(yīng)用數(shù)學(xué).E-mail: 2011111003@xmut.edu.cn
TP391
A
1673-4432(2016)03-0099-07