李志欣,李艷紅,張燦龍
(廣西師范大學(xué) 廣西多源信息挖掘與安全重點(diǎn)實(shí)驗(yàn)室,廣西 桂林 541004)(廣西區(qū)域多源信息集成與智能處理協(xié)同創(chuàng)新中心,廣西 桂林 541004)
圖像場(chǎng)景分類,顧名思義就是自動(dòng)判別一個(gè)語(yǔ)義類別集中的某一幅圖像屬于哪個(gè)場(chǎng)景類(如臥室、廚房和客廳).圖像場(chǎng)景分類技術(shù)的研究一直以來(lái)備受人們關(guān)注.根據(jù)描述圖像方法的不同,目前圖像分類方法大致可以分為:基于全局特征的描述方法、基于局部特征的描述方法和基于特征融合的描述方法.
在早期,場(chǎng)景分類主要是利用底層全局特征,例如:顏色、Gabor紋理、形狀等,由于它們實(shí)現(xiàn)簡(jiǎn)單且計(jì)算不復(fù)雜,因此得到廣泛使用.楊昭等[1]針對(duì)全局GIST特征網(wǎng)格劃分粗粒度問題,提出一種基于密集網(wǎng)格劃分的局部GIST特征,利用空間金字塔結(jié)構(gòu)加入空間信息,并引入RGB顏色空間信息,采用視覺詞袋(bag of visual words,BoW)設(shè)計(jì)模型來(lái)完成場(chǎng)景分類.文獻(xiàn)[2]提出一種改進(jìn)的小波金字塔能量分布特征,同圖像的PHOG特征動(dòng)態(tài)組合,利用SVM分類器對(duì)圖像進(jìn)行分類.但是,由于全局特征是對(duì)整幅圖像的一個(gè)整體描述,它并沒有注意各部分特征之間的局部細(xì)節(jié)對(duì)象,因此會(huì)造成對(duì)具有局部目標(biāo)的圖像場(chǎng)景分類精度下降.
由于圖像的局部特征能夠很好的描述圖像細(xì)節(jié)信息,因此廣受研究者的青睞.基于BoW方法缺少考慮場(chǎng)景中局部特征的空間信息,Lazebnik等人[3]采用空間金字塔(Spatial Pyramid matching,SPM)模型將圖像劃分為不同層次的子圖,不同層次賦予不同的權(quán)值,把不同層次上的圖像特征點(diǎn)進(jìn)行匹配,從而獲取圖像的空間分布信息.Yang等人[4]在SPM的基礎(chǔ)上,提出ScSPM(Sparse Coding SPM)利用稀疏編碼特征,對(duì)金字塔每一層的圖像子塊分別進(jìn)行稀疏編碼,最后將每一層的子塊按照從左到右、從上到下的順序級(jí)聯(lián)成圖像的稀疏向量表示,在一定程度上提高分類精度.文獻(xiàn)[5]使用局部約束線性編碼(Locality-constrained Linear Coding,LLC)在保證稀疏性的同時(shí),強(qiáng)調(diào)局部約束,以進(jìn)一步提高稀疏編碼中圖像局部特征的表示精度.雖然這些方法在一定范圍內(nèi)表現(xiàn)出很好的分類性能,但是它們都是基于圖像的底層特征,為了獲得更好的性能,研究者提出了基于中層語(yǔ)義信息來(lái)表述場(chǎng)景.在BoW模型基礎(chǔ)上運(yùn)用概率生成模型來(lái)發(fā)現(xiàn)圖像的潛在語(yǔ)義特性.現(xiàn)在常用的概率生成模型有概率潛在語(yǔ)義分析(probabilistic latent semantic analysis,PLSA)模型[6]和潛在狄利克雷分布(latent Dirichlet allocation,LDA)模型[7].然而大多數(shù)LDA算法由于弱監(jiān)督,一般只能獲取無(wú)關(guān)的生成規(guī)則,而無(wú)法獲得感興趣的語(yǔ)義規(guī)則[8].Ergul等人[9]提出基于SPM-PLSA模型的圖像場(chǎng)景分類算法,首先提取圖像在金字塔各層的特征,然后在各層上運(yùn)用PLSA來(lái)發(fā)掘潛在語(yǔ)義信息.Object Bank[10]是一種中層語(yǔ)義表示模型,它用Object作為特征,計(jì)算圖像對(duì)不同特征的響應(yīng),并根據(jù)其響應(yīng)情況進(jìn)行分類.總體而言,上述幾種方法都是先生成底層特征,然后結(jié)合分類器實(shí)現(xiàn)圖像場(chǎng)景分類.
由于圖像中包含的物體信息非常豐富,彼此之間的空間分布錯(cuò)綜復(fù)雜,基于單一特征的描述方法分類效果不佳.所以,如何恰當(dāng)、有效的利用已有數(shù)據(jù),融合圖像底層特征,已經(jīng)成為一個(gè)新的研究熱點(diǎn).文獻(xiàn)[11]利用局部SIFT特征結(jié)合圖像灰度特征跟Gabor特征,分別得到各自的視覺特征字典,通過字典來(lái)協(xié)同表示圖像.文獻(xiàn)[12]融合全局結(jié)構(gòu)特征和紋理特征,并聯(lián)合局部光譜信息,采用BOW模型實(shí)現(xiàn)高分辨率遙感圖像分類.文獻(xiàn)[13]利用WHGO(weighted histograms gradient orientation)特征代替SIFT特征,并與紋理特征相結(jié)合,利用非線性SVM分類器學(xué)習(xí)到結(jié)構(gòu)跟紋理特征的權(quán)值,在一定程度上提高了分類準(zhǔn)確性.賈世杰等[14]將具有互補(bǔ)特性PHOG特征和PHOW特征相結(jié)合,改進(jìn)最近鄰分類算法,實(shí)現(xiàn)商品圖像在線實(shí)時(shí)快速分類.許慶勇等[15]將圖像的顏色、紋理和形狀特征融合,利用構(gòu)建好的4層深度置信網(wǎng)絡(luò)(Deep Belief Network,DBN)分類器進(jìn)行訓(xùn)練并分類,解決單一特征分類算法準(zhǔn)確率不高的問題.文獻(xiàn)[16]的模型結(jié)合全局特征和局部區(qū)域特征,通過對(duì)無(wú)序特征詞袋添加一個(gè)簡(jiǎn)單的空間約束提高識(shí)別性能.文獻(xiàn)[17]組合多個(gè)特征和共同空間的空間鄰居,并最小化上下文相關(guān)的能量,利用不同類型的上下文關(guān)系提高識(shí)別精度,并在較大的數(shù)據(jù)集中取得很好的性能.
上述幾種方法都采用多特征融合的方式來(lái)描述圖像特征,由于多特征集成了各個(gè)特征的優(yōu)勢(shì),所以,在分類準(zhǔn)確性上要優(yōu)于單一特征.但是在多特征融合時(shí),以上方法只是將多個(gè)特征簡(jiǎn)單的線性組合,并沒有考慮對(duì)特征進(jìn)行降維,而圖像是由像素表達(dá)的,其本身具有稀疏性.通過對(duì)圖像進(jìn)行稀疏處理,得到的圖像編碼能更好的描述圖像特性.因此,本文提出一種多特征融合的圖像場(chǎng)景分類方法,該方法將圖像的GIST特征[18]、SIFT特征[19]稀疏向量表示和PHOG特征[20]采用直接串聯(lián)的方法進(jìn)行特征融合.最后將融合特征與類標(biāo)簽信息一起輸入到線性SVM進(jìn)行分類.本文方法將三者組合起來(lái)描述圖像,能夠提供更豐富的信息,特征之間能夠達(dá)到優(yōu)勢(shì)互補(bǔ),進(jìn)一步提高分類準(zhǔn)確性.在幾個(gè)常用數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果表明,與現(xiàn)有幾種模型相比,本文方法具有較好的分類性能.
高維數(shù)據(jù)的稀疏表示是一種無(wú)監(jiān)督學(xué)習(xí)方法,近幾年已經(jīng)成為圖像處理和計(jì)算機(jī)視覺領(lǐng)域的研究熱點(diǎn)之一.它采用一組“超完備”基向量來(lái)表示樣本數(shù)據(jù).在圖像處理領(lǐng)域中,圖像的稀疏表示是在SPM框架上,將圖像各個(gè)區(qū)域內(nèi)池化后的向量級(jí)聯(lián)起來(lái),從而表示一幅圖像的過程.本文采用LLC對(duì)SIFT特征進(jìn)行編碼,LLC的編碼滿足下式約束:
(1)
公式(1)可以按照加號(hào)的前后分成兩部分:加號(hào)前的項(xiàng)最小化是為了減少量化誤差,學(xué)習(xí)字典B并確認(rèn)投影系數(shù);加號(hào)后的項(xiàng)則是做出假設(shè)約束.其中X=[x1,x2,…,xN]∈RD×N,是一個(gè)包含N個(gè)D維局部特征的矩陣,xi為待編碼的向量B=[b1,b2,…,bM]∈RD×M,是一個(gè)包含M個(gè)視覺詞匯的詞典,經(jīng)過K-means算法所得.LLC編碼把所有X映射到B定義的編碼空間,ui為經(jīng)過LLC得到的編碼.λ為正則項(xiàng),用來(lái)平衡加號(hào)前后兩項(xiàng),并確保ui的稀疏性.‖di·ui‖是向量元素di和ui維度的相乘,體現(xiàn)了編碼的局部性.di為不同編碼的權(quán)重,用于衡量編碼中每個(gè)元素ui同詞典B中相應(yīng)列的關(guān)系.di可用下式計(jì)算:
(2)
其中:dist(xi,B)=[dist(ai,b1),…,dist(ai,bM)]T,dist(ai,bj)是局部特征ai到視覺詞匯bj的歐氏距離.每個(gè)元素代表向量xi與詞典B中每列向量的歐氏距離,σ為可調(diào)整的參數(shù),用于控制di的大小,即控制局部衰減性速度.
為了取得更優(yōu)的分類準(zhǔn)確率,編碼規(guī)則要求相似的描述符生成相似的編碼,按照這樣的規(guī)定,局部規(guī)則項(xiàng)‖di·ui‖2將發(fā)揮更重要的作用.綜上所述,LLC稀疏表示的優(yōu)點(diǎn)主要有:
1)更優(yōu)的重構(gòu).在向量量化編碼過程中,每一個(gè)描述符僅僅通過碼本中的單個(gè)基元(即基向量)表示.由于大量的量化誤差,對(duì)于相似的描述符,向量量化編碼可能導(dǎo)致不同的表示,因此非線性內(nèi)核需要投影來(lái)彌補(bǔ)此類信息損失.
2)局部平滑稀疏.類似于LLC,ScSPM通過使用多個(gè)基元減少重建誤差.然而正則化項(xiàng)L1范式在ScSPM中并不能保證平滑性.而LLC編碼中,每個(gè)描述符是由多個(gè)基元更準(zhǔn)確地表示.因此,LLC編碼能夠通過共享基元捕獲相似描述符之間的相關(guān)性.
在圖像處理中,池化是指把特征向量集映射為單個(gè)向量的過程.max-pooling是池化方式的一種.max-pooling函數(shù)的定義如下:
Z=F(U)
(3)
其中,U是描述符集X利用公式(1)稀疏編碼之后的結(jié)果.假設(shè)碼本B是提前訓(xùn)練好的,U=[u1,u2,…,uM]T,z=[z1,z2,…,zM],M為圖像特征描述符的個(gè)數(shù),zj是z的第j個(gè)元素,uij表示矩陣U的第i行第j列的元素.每個(gè)ui就是一個(gè)特征描述符的稀疏編碼.最大池化技術(shù)是根據(jù)人腦視覺皮層V1區(qū)中生物學(xué)方面來(lái)建立的,經(jīng)過稀疏編碼的自然圖像,綜合了圖像空間局部性、空間方向性、信息選擇性的特點(diǎn),因此比直方圖統(tǒng)計(jì)的平均池化具有更好的魯棒性.
在圖像場(chǎng)景分類中,全局特征主要描述一幅場(chǎng)景的整體輪廓,而局部特征則重點(diǎn)描述圖像局部形狀、光照條件等因素,兩類特征之間有不同的優(yōu)勢(shì).由于底層特征分類效果比較差,而圖像特征的優(yōu)劣直接影響分類的精度.因此,為了提高圖像的分類準(zhǔn)確率,本文在LLC稀疏表示的基礎(chǔ)上加入了多種底層特征,提出了一種基于多特征融合的場(chǎng)景分類方法.圖1為本文方法的分類框架圖,該方法主要分為兩個(gè)階段:訓(xùn)練階段和測(cè)試階段.
圖1 場(chǎng)景分類框架圖Fig.1 Scene classification framework
訓(xùn)練階段步驟如下:
1)首先分別提取訓(xùn)練圖像的GIST特征、SIFT特征和PHOG特征.
2)對(duì)樣本圖像的SIFT特征進(jìn)行LLC編碼,得到樣本圖像SIFT特征稀疏編碼;然后基于空間金字塔匹配模型進(jìn)行最大池化,得到樣本圖像的SIFT特征稀疏向量表示.
3)將樣本圖像的GIST特征、SIFT特征稀疏向量表示和PHOG特征進(jìn)行串行融合,形成樣本圖像最終的特征表示.并將樣本圖像最終的特征表示和類標(biāo)簽信息一起輸入到線性SVM進(jìn)行訓(xùn)練.
測(cè)試階段步驟如下:
1)首先分別提取待分類圖像的GIST特征、SIFT特征、PHOG特征.
2)對(duì)待分類圖像的SIFT特征進(jìn)行LLC編碼,得到待分類圖像SIFT特征稀疏編碼;然后基于空間金字塔匹配模型進(jìn)行最大池化,得到待分類圖像的SIFT特征稀疏向量表示.
3)將待分類圖像的GIST特征、SIFT特征稀疏向量表示和PHOG特征進(jìn)行串行融合,形成待分類圖像最終的特征表示.并將待分類圖像最終的特征表示輸入到已訓(xùn)練好的線性SVM進(jìn)行判別,得到最終的分類結(jié)果.
3.2.1 生成GIST特征
依據(jù)Oliva和Torralba的說(shuō)法,本文將圖像劃分為4×4的規(guī)則網(wǎng)格,用4尺度8方向共32個(gè)Gabor濾波器處理每一小塊圖像.再將經(jīng)過處理后的每一小塊圖像所得到的塊圖像GIST特征進(jìn)行級(jí)聯(lián)形成全局GIST特征,這樣就得到一個(gè)32×16大小的特征向量組.此一維特征向量組即為全局GIST特征向量,該特征是一個(gè)512維的特征向量組.
3.2.2 生成SIFT特征
以特征點(diǎn)為中心計(jì)算4×4小塊上8個(gè)方向的梯度方向直方圖,將采樣點(diǎn)與特征點(diǎn)的相對(duì)方向通過高斯濾波后歸入8個(gè)方向的直方圖,通過計(jì)算每個(gè)梯度方向的累加值,即可形成一個(gè)種子點(diǎn).在實(shí)際應(yīng)用中,SIFT特征描述符最好的分類結(jié)果是用4×4直方圖陣列來(lái)實(shí)現(xiàn),每個(gè)陣列有8個(gè)方向,進(jìn)而形成128維的SIFT特征描述符.因此,本文實(shí)驗(yàn)SIFT特征的每個(gè)關(guān)鍵點(diǎn)的維數(shù)為4×4×8=128維的特征向量.
3.2.3 生成PHOG特征
金字塔梯度方向直方圖(Pyramid Histogram of Oriented Gradients,PHOG)是由Bosch等人提出,PHOG描述符是一種對(duì)圖像空間形狀的描述符,不僅描述了圖像的整體形狀,而且還描述了圖像的局部形狀.
PHOG的形狀描述是用直方圖來(lái)表示的.首先得到圖像的部分或全部輪廓;然后計(jì)算輪廓點(diǎn)處的梯度模和梯度方向;再將梯度方向轉(zhuǎn)換成以度為單位,范圍為[0,180°]或[0,360°],并分成K個(gè)區(qū)間;最后累加各區(qū)間上梯度模的值作為該區(qū)間的權(quán)值,得到梯度方向直方圖.為了表示圖像的空間信息,將一幅圖像逐級(jí)劃分成小尺度,假設(shè)圖像級(jí)數(shù)為L(zhǎng),L取值根據(jù)實(shí)際需要而定.如果L=0,那么圖像沒有被劃分;當(dāng)L=1時(shí),圖像被劃分為4個(gè)子塊;當(dāng)L=2時(shí),圖像被劃分為16塊;當(dāng)L=…,以此類推,級(jí)數(shù)劃分的越細(xì),圖像子塊數(shù)越多,最后將各個(gè)層次上面的梯度方向直方圖級(jí)聯(lián),便得到最終的直方圖,PHOG特征維數(shù)共有K∑1∈L4L維,其中K為區(qū)間的個(gè)數(shù),L為劃分的層數(shù).本文方法中,梯度方向取值360°,區(qū)間取值為40,分為三層空間.所以,本文提取的PHOG特征的維度為3400.
從訓(xùn)練圖像集中隨機(jī)選取若干圖像,并提取SIFT特征,形成SIFT特征向量集L=[l1,l2,…,lN].其中l(wèi)i∈R128,N為SIFT特征向量的個(gè)數(shù).L=[l1,l2,…,lN]即對(duì)應(yīng)式(1)中的訓(xùn)練向量集X=[x1,x2,…,xN].利用迭代方法求解SIFT特征向量集L=[l1,l2,…,lN]的視覺詞匯庫(kù)Q∈R128×k,K表示視覺詞匯庫(kù)的大小,Q對(duì)應(yīng)式(1)中的過完備字典B.
利用字典B對(duì)每幅圖像的SIFT特征描述子L=[l1,l2,…,lN]進(jìn)行LLC編碼,從而獲得每幅圖像的編碼矩陣H=[h1,h2,…,hs]T.其中hi是每個(gè)特征描述子的編碼,s是描述子的個(gè)數(shù).將圖像分成3層,第0層將整幅圖像作為一個(gè)區(qū)域,對(duì)應(yīng)編碼矩陣H,對(duì)H的每一列應(yīng)用最大池化技術(shù),得到向量y0.緊接著,第1層將整幅圖像均勻劃分為4個(gè)區(qū)域.按從左往右、從上到下對(duì)應(yīng)的編碼矩陣分別為H00、H01、H10、H11,同樣對(duì)每個(gè)編碼矩陣按列運(yùn)用最大池化技術(shù),得到向量y1,y2,y3,y4.同樣地,第2層將整幅圖像均勻劃分為16個(gè)區(qū)域,最大池化后得到y(tǒng)5,y6,…,y20.將y0,y1,…,y20按第0層權(quán)值為1/4,第1層權(quán)值為1/4,第2層權(quán)值為1/2,加權(quán)后級(jí)聯(lián)起來(lái),得到圖像SIFT特征的稀疏向量表示.
圖2 SIFT稀疏向量表示Fig.2 SIFT sparse vector representation
特征融合是指將兩個(gè)或者多個(gè)特征向量按照某種規(guī)則組合成新的特征向量.具體特征融合方法包括串行融合方法和并行融合方法.假設(shè)三個(gè)特征空間A、B和C中有三個(gè)特征向量,α∈A,β∈B,λ∈C.串行特征融合方法就是將α、β和λ串成一個(gè)特征向量η,其公式為:
(4)
并行融合的方法是將α、β和λ三個(gè)特征向量合并成一個(gè)復(fù)合的η特征向量,其公式為:
η=α+iβ+jλ
(5)
其中i,j均為虛數(shù)單位,當(dāng)α、β和λ的維數(shù)不一致時(shí),低維的特征需要補(bǔ)0,三個(gè)特征才能并行融合.
本文采用的是串行融合,所以由式(4)可知,若GIST特征為n維,SIFT特征向量為m維,PHOG特征為z維.那么串行組合的特征量η為(n+m+z)維.因此串行融合而成的向量集構(gòu)成(n+m+z)維的融合特征空間.
(6)
通過一對(duì)多的策略得到L個(gè)二元線性SVM,主要是為了解決如公式(7)所示的無(wú)約束凸優(yōu)化問題.
(7)
由于標(biāo)準(zhǔn)的hinge loss函數(shù)是不可微的,它阻礙了基于梯度優(yōu)化方法的使用.所以采用下面公式(8)所示的可分辨的二次hinge loss函數(shù)來(lái)優(yōu)化基于梯度的方法.
(8)
本文方法將在圖像場(chǎng)景分類的四個(gè)小規(guī)模數(shù)據(jù)集,包括三種經(jīng)典數(shù)據(jù)集:OT數(shù)據(jù)集[21]、FP數(shù)據(jù)集[4]、LSP數(shù)據(jù)集[12],以及Caltech-101數(shù)據(jù)集[22]上分別測(cè)試其分類精度.同時(shí),還對(duì)所提出的方法在中等規(guī)模的數(shù)據(jù)集上進(jìn)行了評(píng)估,包括Caltech-256數(shù)據(jù)集[5]和MIT67數(shù)據(jù)集[23].
圖3 三種經(jīng)典數(shù)據(jù)集的部分示例圖像(其中帶有MIT前綴的是OT數(shù)據(jù)集)Fig.3 Partial sample image of three classic datasets (where the OT data set with MIT prefix)
三種經(jīng)典數(shù)據(jù)集部分示例圖,如圖3所示.OT數(shù)據(jù)集包含8類場(chǎng)景:coast、forest、highway、insidecity、mountain、opencountry、street、tallbuilding,總共2688幅圖像.FP數(shù)據(jù)集是在OT數(shù)據(jù)集中增加了suburb、bedroom、livingroom、kitchen、office五類場(chǎng)景,一共包含13類場(chǎng)景,3895幅圖像;LSP數(shù)據(jù)集在FP數(shù)據(jù)集上進(jìn)行了擴(kuò)充,增加了store和industrial場(chǎng)景,總共包含15類場(chǎng)景,4485幅圖像.三種經(jīng)典數(shù)據(jù)集中每一類場(chǎng)景均包含200到400幅圖像,圖像的平均大小約為300×250像素.Caltech-101數(shù)據(jù)集包含102類9144幅圖像,例如動(dòng)物、車輛、飛機(jī)等.每類包含圖像數(shù)目31~800幅不等,平均尺寸為300×300像素.Caltech-256數(shù)據(jù)集是由Griffin等人在Caltech-101數(shù)據(jù)集上擴(kuò)充組成的,總共256類30607幅圖像.每類的圖像從80到827不等,它在物體尺寸、位置等方面比Caltech-101呈現(xiàn)出更高的可變性.MIT67包含67類室內(nèi)場(chǎng)景,總共15620幅圖像.
本文實(shí)驗(yàn)運(yùn)行環(huán)境為Visual Studio 2010和MATLAB 2012a,硬件配置為一臺(tái)Intel Xeon X5670處理器,48G內(nèi)存的計(jì)算機(jī).
圖4 Caltech-101數(shù)據(jù)集部分示例圖像Fig.4 Caltech-101 dataset part of the sample image
實(shí)驗(yàn)過程中,所有圖像均轉(zhuǎn)化成灰度圖像.對(duì)每一個(gè)數(shù)據(jù)集重復(fù)進(jìn)行10輪實(shí)驗(yàn),每一輪隨機(jī)劃分訓(xùn)練集和測(cè)試集,對(duì)于不同的數(shù)據(jù)集,劃分的訓(xùn)練集跟測(cè)試集有所不同,在下面會(huì)有具體說(shuō)明.最終的分類精度由10輪結(jié)果的均值表示.對(duì)于每一類數(shù)據(jù)集,提取圖像的SIFT特征和PHOG特征時(shí),圖像尺寸調(diào)整在300×300以內(nèi).而提取GIST特征時(shí),圖像的尺寸調(diào)整為256×256.SIFT特征通過LLC編碼時(shí)視覺詞典大小為1024,視覺字典使用K-means算法直接聚類生成,SIFT特征稀疏編碼、池化過程中knn的大小為5.
圖5 Caltech-256數(shù)據(jù)集部分示例圖像Fig.5 Caltech-256 dataset part of the sample image
圖6 MIT67數(shù)據(jù)集部分示例圖像Fig.6 MIT67 dataset part of the sample image
4.3.1 本文方法與經(jīng)典算法性能對(duì)比
為了驗(yàn)證多特征融合方法的可行性,將本文方法與經(jīng)典場(chǎng)景分類方法在四種小規(guī)模的數(shù)據(jù)集上進(jìn)行對(duì)比.對(duì)比方法包括Lazebink[3]的空間金字塔(SPM),Ergul等人[8]的SPM和PLSA模型結(jié)合(SPM-PLSA),Yang等人[4]的ScSPM模型以及Wang等人[5]的局部約束線性編碼(LLC),中級(jí)語(yǔ)義的潛在主題模型LDA[8],Object Bank[10]的擴(kuò)展模型.上述大多數(shù)方法不能使用在大規(guī)模數(shù)據(jù)集中,所以我們分開比較小規(guī)模數(shù)據(jù)集和中等規(guī)模數(shù)據(jù)集.
實(shí)驗(yàn)結(jié)果如表1至表4所示.在三種經(jīng)典數(shù)據(jù)集上,每類隨機(jī)選取100幅圖像作為訓(xùn)練集,其余圖像作為測(cè)試集.
表1 OT數(shù)據(jù)集上不同算法平均分類準(zhǔn)確率對(duì)比Table 1 Comparison of mean classification accuracy of different algorithms on OT data set
Caltech-101數(shù)據(jù)集上每類訓(xùn)練圖像是30幅,剩余為測(cè)試圖像.從表1-4中可以看出,在同等參數(shù)設(shè)置下,本文方法在OT數(shù)據(jù)集上分類準(zhǔn)確率達(dá)到88.8%,在FP場(chǎng)景圖像上分類準(zhǔn)確率達(dá)到86.4%,在LSP場(chǎng)景圖像上分類準(zhǔn)確率達(dá)到82.8%,在Caltech-101場(chǎng)景圖像上分類準(zhǔn)確率達(dá)到74.9%,與其他6種方法相比,分類性能均有所提高.實(shí)驗(yàn)結(jié)果也驗(yàn)證了特征融合分類模型的有效性與穩(wěn)定性.并且隨著數(shù)據(jù)集的擴(kuò)大,整體的分類性能在降低.即OT數(shù)據(jù)集的分類性能要優(yōu)于FP數(shù)據(jù)集,FP數(shù)據(jù)集的分類性能則優(yōu)于LSP數(shù)據(jù)集.LSP數(shù)據(jù)集的分類性能則優(yōu)于Caltech-101數(shù)據(jù)集.
表2 FP數(shù)據(jù)集上不同算法平均分類準(zhǔn)確率對(duì)比Table 2 Comparison of mean classification accuracy of different algorithms on FP data set
表3 LSP數(shù)據(jù)集上不同算法平均分類準(zhǔn)確率對(duì)比Table 3 Comparison of mean classification accuracy of different algorithms on LSP data set
4.3.2 本文方法與多特征融合方法性能對(duì)比
為驗(yàn)證本文方法的有效性和新穎性,將它和現(xiàn)有的幾種多特征融合場(chǎng)景分類方法進(jìn)行比較,其中包括文獻(xiàn)[13]、文獻(xiàn)[14]、文獻(xiàn)[15]、文獻(xiàn)[16]和文獻(xiàn)[17].三種經(jīng)典數(shù)據(jù)集上,每類隨機(jī)選取100幅圖像作為訓(xùn)練集,其余圖像作為測(cè)試集,在同等參數(shù)設(shè)置下的實(shí)驗(yàn)結(jié)果如表5到表7所示.
表4 Caltech-101數(shù)據(jù)集上不同算法分類準(zhǔn)確率對(duì)比Table 4 Comparison of mean classification accuracy of different algorithms on caltech-101 data set
表5 OT數(shù)據(jù)集上多特征融合方法平均分類準(zhǔn)確率對(duì)比Table 5 Comparison of mean classification accuracy of multi-feature fusion method on OT data set
表6 FP數(shù)據(jù)集上多特征融合方法平均分類準(zhǔn)確率對(duì)比Table 6 Comparison of mean classification accuracy of multi-feature fusion method on FP data set
表7 LSP數(shù)據(jù)集上多特征融合方法平均分類準(zhǔn)確率對(duì)比Table 7 Comparison of mean classification accuracy of multi-feature fusion method on LSP data set
從上面3個(gè)表格數(shù)據(jù)可以看出,在三個(gè)數(shù)據(jù)集上本文方法的分類準(zhǔn)確率均優(yōu)于其他五種方法.其中,在OT數(shù)據(jù)集上,比文獻(xiàn)[14]高出7個(gè)百分點(diǎn);在FP數(shù)據(jù)集上,比文獻(xiàn)[16]高出13個(gè)百分點(diǎn);在LSP數(shù)據(jù)集上,比文獻(xiàn)[16]高出15個(gè)百分點(diǎn).這是由于本文方法綜合考慮了全局和局部特征,并進(jìn)行了有效的稀疏,因而比其他多特征融合方法獲得了更好的分類性能.
為了進(jìn)一步驗(yàn)證本文方法的性能,將本文方法與現(xiàn)有幾種方法在中等規(guī)模的MIT67數(shù)據(jù)集和Caltech-256數(shù)據(jù)集進(jìn)行評(píng)估.在Caltech-256數(shù)據(jù)集上,每類隨機(jī)選取60幅圖像作為訓(xùn)練集,其余圖像作為測(cè)試集,在MIT67數(shù)據(jù)集數(shù)據(jù)集上,每類選取80幅圖像作為訓(xùn)練集,在剩下的圖像中隨機(jī)選取20幅圖像作為測(cè)試集,實(shí)驗(yàn)結(jié)果如表8和表9所示.
表8 MIT67數(shù)據(jù)集上不同方法平均分類準(zhǔn)確率對(duì)比Table 8 Comparison of mean classification accuracy of different methods on MIT67 data set
除文獻(xiàn)[17]外,本文方法的分類準(zhǔn)確率比其余對(duì)比方法都要好.Object Bank方法和文獻(xiàn)[16]屬于中層語(yǔ)義信息表示對(duì)象,能夠更好地利用外部數(shù)據(jù)量(例如ImageNet)來(lái)建模中層分類.本文方法使用稀疏編碼方法來(lái)建模,沒有利用外部數(shù)據(jù),因此性能更加優(yōu)越.由于中層語(yǔ)義方法對(duì)這些數(shù)據(jù)集進(jìn)行訓(xùn)練的數(shù)量有限,作為參考我們還與基于稀疏編碼框架的LLC方法作對(duì)比.雖然LLC同樣使用了稀疏編碼模型,但是多特征融合的方法要比單一特征的LLC編碼模型性能更優(yōu)越.由于中等規(guī)模數(shù)據(jù)集包含室內(nèi)場(chǎng)景,所以基于部分的表示方法能取得更好的分類性能.隨著類的數(shù)量越來(lái)越多,利用局部空間信息和多特征關(guān)系可以幫助發(fā)現(xiàn)一致模式并過濾噪聲,而文獻(xiàn)[17]利用不同類型的語(yǔ)境關(guān)系,所以在較大的數(shù)據(jù)集中分類精度始終要優(yōu)于本文方法.
表9 Caltech-256數(shù)據(jù)集上不同方法平均分類準(zhǔn)確率對(duì)比Table 9 Comparison of mean classification accuracy of different methods on caltech-256 data set
本文提出了一種多特征融合的圖像場(chǎng)景分類方法,通過串行融合全局特征和局部特征,有效緩解了單一特征在描述圖像時(shí)的局限性.在小規(guī)模數(shù)據(jù)集中,與現(xiàn)有幾種多特征融合方法相比,具有較好的分類性能.在中等規(guī)模數(shù)據(jù)集上,利用多種特征關(guān)系,并結(jié)合稀疏編碼對(duì)特征進(jìn)行降維處理,整體分類性能要優(yōu)于大多數(shù)分類方法.雖然在類別復(fù)雜的數(shù)據(jù)集上的分類效果不是很好,但是在類別較少的數(shù)據(jù)集上具有良好的分類性能,驗(yàn)證了特征融合分類模型的有效性與穩(wěn)定性.然而,為了進(jìn)一步提高場(chǎng)景分類的準(zhǔn)確率,下一步可以考慮如何動(dòng)態(tài)分配合理的權(quán)值,將各個(gè)特征進(jìn)行加權(quán)融合,以及考慮單詞之間的語(yǔ)義關(guān)系,并結(jié)合稀疏編碼對(duì)圖像特征進(jìn)行深層次的學(xué)習(xí).
:
[1] Yang Zhao,Gao Jun,Xie Zhao,et al.Scene categorization of local Gist feature match kernel [J].Journal of Image and Graphics (JIG),2013,18(3):264-270.
[2] Yuan Jie,Wei Bao-gang,Wang Li-dong.An image retrieval method synthesizing PHOG shape description and wavelet pyramid energy distribution [J].Acta Electronica Sinica,2011,39(9):2114-2119.
[3] Lazebnik S,Schmid C,Ponce J.Beyond bags of features:spatial pyramid matching for recognizing natural scene categories [C].Proceedings of IEEE Conference on Computer Vision and Pattern Recognition (CVPR),2006:2169-2178.
[4] Yang J,Yu K,Gong Y,et al.Linear spatial pyramid matching using sparse coding for image classification [C].Proceedings of IEEE Conference on Computer Vision and Pattern Recognition (CVPR),2009:1794-1801.
[5] Wang J,Yang J,Yu K,et al.Locality-constrained linear coding for image classification [C].Proceedings of IEEE Conference on Computer Vision and Pattern Recognition (CVPR),2010:3360-3367.
[6] Li Zhi-xin,Shi Zhong-zhi,Zhao Wei-zhong,et al.Learning semantic concepts from image database with hybrid generative/discriminative approach [J].Engineering Applications of Artificial Intelligence (EAAI),2013,26(9):2143-2152.
[7] Tang Ying-jun.Image scene classification model based on Dirichlet allocation with double inferences [J].Journal of Chinese Computer Systems (JCCS),2015,36(11):2578-2582.
[8] Rasiwasia N,Vasconcelos N.Latent Dirichlet allocation models for image classification [J].IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI),2013,35(11):2665-2679.
[9] Ergul E,Arica N.Scene classification using spatial pyramid of latent topics [C].Proceedings of the 20th International Conference on Pattern Recognition (ICPR),2010:3603-3606.
[10] Zhang L,Zhen X,Shao L.Learning object-to-class kernels for scene classification [J].IEEE Transactions on Image Processing (TIP),2014,23(8):3241-3253.
[11] Zou J,Li W,Chen C,et al.Scene classification using local and global features with collaborative representation fusion [J].Information Sciences,2016,348:209-226.
[12] Zhu Q,Zhong Y,Zhao B,et al.Bag-of-visual-words scene classifier with local and global features for high spatial resolution remote sensing imagery [J].IEEE Geoscience and Remote Sensing Letters,2016,13(6):747-751.
[13] Zhou L,Dewen H U,Zhou Z T.Scene recognition combining structural and textural features [J].Science China:Information Sciences,2013,56(7):1-14.
[14] Jia Shi-jie,Kong Xiang-wei,Fu Hai-yan,et al.Auto classification of product images based on complementary features and class description [J].Journal of Electronics and Information Technology,2010,32(10):2294-2300.
[15] Xu Qing-yong,Jiang Shun-liang,Huang Wei,et al.Image classification algorithm for deep belief network based on multi-feature fusion [J].Computer Engineering,2015,41(11):245-252.
[16] Li H,Wang F,Zhang S.Global and local features based topic model for scene recognition [C].Proceedings of IEEE International Conference on Systems,Man,and Cybernetics (SMC),2011:532-537.
[17] Song X,Jiang S,Herranz L.Joint multi-feature spatial context for scene recognition in the semantic manifold [C].Proceedings of IEEE Conference on Computer Vision and Pattern Recognition (CVPR),2015:1312-1320.
[18] Oliva A,Torralba A.Building the gist of a scene:the role of global image features in recognition [J].Progress in Brain Research,2006,155(2):23-36.
[19] Lowe D G.Distinctive image features from scale-invariant keypoints [J].International Journal of Computer Vision (IJCV),2004,60(2):91-110.
[20] Bosch A,Zisserman A,Munoz X.Representing shape with a spatial pyramid kernel [C].Proceedings of the 6th ACM International Conference on Image and Video Retrieval (CIVR),2007:401-408.
[21] Oliva A,Torralba A.Modeling the shape of the scene:a holistic representation of the spatial envelope [J].International Journal of Computer Vision (IJCV),2001,42(3):145-175.
[22] Li Fei-fei,Fergus R,Perona P.Learning generative visual models from few training examples:an incremental Bayesian approach tested on 101 object categories [C].In:Proceedings of IEEE Conference on Computer Vision and Pattern Recognition Workshop (CVPRW),2004:59-70.
[23] Quattoni A,Torralba A.Recognizing indoor scenes [C].In:Proceedings of IEEE Conference on Computer Vision and Pattern Recognition (CVPR),2009:413-420.
附中文參考文獻(xiàn):
[1] 楊 昭,高 雋,謝 昭,等.局部Gist特征匹配核的場(chǎng)景分類[J].中國(guó)圖象圖形學(xué)報(bào),2013,18(3):264-270.
[2] 袁 杰,魏寶剛,王李冬.一種綜合PHOG形狀和小波金字塔能量分布特征的圖像檢索方法[J].電子學(xué)報(bào),2011,39(9):2114-2119.
[7] 唐穎軍.基于二次推導(dǎo)狄里克雷分布的圖像場(chǎng)景分類模型[J].小型微型計(jì)算機(jī)系統(tǒng),2015,36(11):2578-2582.
[14] 賈世杰,孔祥維,付海燕,等.基于互補(bǔ)特征和類描述的商品圖像自動(dòng)分類[J].電子與信息學(xué)報(bào),2010,32(10):2294-2300.
[15] 許慶勇,江順亮,黃 偉,等.基于多特征融合的深度置信網(wǎng)絡(luò)圖像分類算法[J].計(jì)算機(jī)工程,2015,41(11):245-252.