彭娟
摘 要: 針對(duì)當(dāng)前圖像分類模型無(wú)法滿足實(shí)際應(yīng)用要求的難題,為了得到更優(yōu)的圖像分類效果,提出特征選擇和聚類分析相融合的圖像分類模型。首先提取圖像的原始特征,采用主成分分析對(duì)圖像特征進(jìn)行選擇,然后采用聚類分析算法對(duì)圖像樣本進(jìn)行處理,選擇與待分類圖像相關(guān)的樣本,減少訓(xùn)練樣本的規(guī)模,最后采用支持向量機(jī)建立圖像分類器,對(duì)標(biāo)準(zhǔn)圖像庫(kù)中的圖像進(jìn)行分類實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,該模型減少了圖像分類的特征和圖像分類的訓(xùn)練樣本,加快了圖像分類建模的速度,同時(shí)圖像分類正確率明顯高于其他圖像分類模型。
關(guān)鍵詞: 圖像處理; 原始特征; 聚類分析算法; 圖像分類器
中圖分類號(hào): TN911.73?34; TP181 文獻(xiàn)標(biāo)識(shí)碼: A 文章編號(hào): 1004?373X(2017)19?0079?04
Image classification model based on feature selection and clustering analysis
PENG Juan
(Chongqing Institute of Engineering, Chongqing 400056, China)
Abstract: Aiming at the problem that the current image classification model cannot meet the requirements of practical application, an image classification model based on feature selection and clustering analysis is proposed to obtain better results of image classification. First, the original image features are extracted and the principal component analysis (PCA) is used to select the image features. Then, the clustering analysis algorithm is adopted to process image samples, select samples relevant to the images waiting for classification, and reduce the scale of training samples. Finally, the support vector machine is used to construct the image classifier and classification experiments are carried out for images in the standard image database. The results show that, by using this model, the features and training samples of image classification are reduced, the image classification modeling is sped up, and the correctness of image classification is obviously higher than that of other image classification models.
Keywords: image processing; original feature; clustering analysis algorithm; image classifier
0 引 言
圖像分類是圖像處理研究領(lǐng)域中一個(gè)重要方向,廣泛應(yīng)用于軍事、工業(yè)生產(chǎn)、圖像分析、醫(yī)學(xué)以及環(huán)境保護(hù)等領(lǐng)域[1]。圖像分類過(guò)程十分復(fù)雜,到目前為止,圖像分類過(guò)程還存在一些待解決的難題,獲得理想的圖像分類效果面臨巨大挑戰(zhàn)[2?3]。
特征提取和選擇是獲得理想圖像分類結(jié)果的基礎(chǔ)[4]。當(dāng)前圖像分類特征很多,如紋理特征、顏色特征等,為了更好地描述圖像類別信息,人們盡可能多的提取圖像特征,使得圖像的特征數(shù)量急劇增加[5]。圖像特征數(shù)量大給圖像分類帶來(lái)兩個(gè)方面的難題:一是圖像分類器的輸入維數(shù)高,結(jié)構(gòu)十分復(fù)雜,設(shè)計(jì)合理結(jié)構(gòu)的圖像分類器難度增加,使圖像分類速度急劇變慢;二是特征數(shù)量增加,特征之間不可避免地存在一定的線性或者非線性關(guān)系,特征之間的信息冗余更加嚴(yán)重[6?7]。為了解決特征數(shù)量大的難題,通常情況下對(duì)圖像進(jìn)行降維處理,當(dāng)前特征降維方法眾多,如判別分析[8],由于判別分析只能選擇圖像分類的線性特征,特征選擇的速度慢,應(yīng)用效果不太明顯[9]。主成分分析(PCA)是一種性能優(yōu)異的特征降維算法,在有效降低特征維數(shù)的同時(shí),去除了圖像特征之間的相關(guān)性,成為當(dāng)前圖像分類特征主要選擇的算法。訓(xùn)練樣本選擇是保證獲得分類正確率高的關(guān)鍵技術(shù),訓(xùn)練樣本數(shù)量太多,圖像分類訓(xùn)練時(shí)間增加,而且一些無(wú)效訓(xùn)練樣本對(duì)圖像分類結(jié)果產(chǎn)生干擾,反而使得圖像分類正確率下降[10?11]。聚類分析算法可將訓(xùn)練樣本劃分為不同的類別,根據(jù)每一種類別與待分類圖像樣本間的關(guān)系,選擇最優(yōu)樣本組成訓(xùn)練樣本,降低訓(xùn)練樣本的規(guī)模,改善圖像分類的效率[12]。
針對(duì)當(dāng)前圖像分類模型無(wú)法滿足實(shí)際應(yīng)用要求的難題,為了得到更優(yōu)的圖像分類效果,提出特征選擇和聚類分析相融合的圖像分類模型。實(shí)驗(yàn)結(jié)果表明,該模型減少了圖像分類的特征和圖像分類的訓(xùn)練樣本,加快了圖像分類建模速度。
1 圖像分類模型的結(jié)構(gòu)
基于特征和聚類分析的圖像分類思想:采用主成分分析算法解決圖像分類特征選擇問(wèn)題,采用聚類算法解決圖像分類訓(xùn)練樣本的選擇問(wèn)題,最后采用支持向量機(jī)設(shè)計(jì)圖像分類器,該模型的結(jié)構(gòu)如圖1所示。
2 圖像分類模型的詳細(xì)描述
2.1 圖像特征
方向梯度直方圖可以很好地描述圖像信息,工作步驟如下:
Step1:由于采集圖像大小、顏色空間不一樣,首先對(duì)圖像大小進(jìn)行標(biāo)準(zhǔn)化處理,使它們的大小、尺寸相同,然后將全部圖像均轉(zhuǎn)換成為灰度圖像。
Step2:計(jì)算圖像的梯度,圖像梯度對(duì)提取圖像特征十分重要,通常采用Sobel算子計(jì)算圖像的差分,作為圖像梯度值。
Step3:計(jì)算圖像梯度方向的權(quán)值,具體為:
[x(i)=cosθ] (1)
[y(i)=sinθ] (2)
[θ=θ+πNdirection+1] (3)
式中:[i]表示方向編號(hào);[θ]表示角度;[x(i)]和[y(i)]表示[x]軸和[y]軸上[i]方向權(quán)值。
Step4:所有特征組合成一個(gè)特征向量,則有:
[B(x)=C(x)-B(size)+1B(step)] (4)
式中:[B(x)]和[B(size)]分別為[x]軸方向的塊數(shù)和大小;[C(x)]為單元格[x]軸的數(shù)值;[B(step)]表示塊變化步長(zhǎng)。
Step5:將不同方向和塊上的特征值相加,得到梯度直方圖,特征具體如圖2所示。
方向梯度直方圖特征在空間中高度耦合,需要對(duì)方向梯度直方圖特征進(jìn)行處理,消除它們的關(guān)聯(lián)性。對(duì)[d]維、[n]行的特征[X]進(jìn)行如下變換:
[Y=WX] (5)
式中:[Y]為變換后的特征;[W]是矩陣。
為了消除[W]的關(guān)聯(lián)度,必需滿足如下條件:
[YYT=(n-1)I] (6)
設(shè)[W=WT],那么[W]的計(jì)算公式為:
[W=n-1(XXT)-12] (7)
由于圖像尺度不相同,因此需要進(jìn)行隨機(jī)采樣,即有:
[Z=subsample(Y,m)] (8)
式中:[Z]表示采樣后的特征;[m]表示特征維數(shù);subsample表示采集函數(shù)。
2.2 PCA選擇特征
主成分分析通過(guò)K?L變換對(duì)信息量少的特征進(jìn)行抑制,有效減少特征的維數(shù),得到圖像特征的主成分,它們包含了圖像的原始信息,加快圖像分類速度。設(shè)[N]個(gè)特征為[{x1,x2,…,xN},]每個(gè)特征只屬于[C]類中的一類。對(duì)原始特征進(jìn)行線性變換,得到[m]維特征,且滿足[yk∈Rm,]線性變換具體為:
[yn=WTxk, k=1,2,…,N] (9)
式中[W]表示一個(gè)正交矩陣。
全部樣本的散點(diǎn)矩陣為:
[ST=k=1N(xk-μ)(xk-μ)T] (10)
式中[μ∈Rn]表示全部樣本的均值。
采用線性變換對(duì)特征降維結(jié)果進(jìn)行描述:
[Wopt=argmaxWWTSTW=[w1,w2,…,wm]] (11)
式中[wii=1,2,…,m]表示原始特征空間的[m]個(gè)特征向量。
2.3 訓(xùn)練樣本的選擇
均值聚類算法是一種性能較好的數(shù)據(jù)聚類分析算法,根據(jù)樣本與聚類中心之間的相似性度,確定最優(yōu)聚類,選擇最優(yōu)的圖像分類訓(xùn)練樣本。設(shè)圖像[I=f(x,y),0≤x [J(Q,P)=i=1Ck=1nqik(x,y)mDx(x,y)2] (12) 式中:[Q=qik(x,u)]表示分類矩陣;[P=[p1,p2,…,pC]]表示聚類中心;[m∈[1,∞)]表示權(quán)指數(shù);[Dx(x,y)]為[f(x,y)]與[pk]之間的距離,計(jì)算公式為: [Dx(x,y)2=f(x,y)-pk2] (13) 2.4 圖像分類器 采用支持向量機(jī)建立圖像分類器,最優(yōu)分類面可以描述為: [yiψ(xi),ω+b≥1, i=1,2,…,n] (14) 式中[n]為樣本的規(guī)模。 要確定最優(yōu)分類面,必須確定參數(shù)[ω,b]的值,引入負(fù)松弛變量,式(14)可以變?yōu)椋?/p> [yiψ(xi),ω+b≥1-ζi, i=1,2,…,n] (15) 式中[ζi(i=1,2,…,n)]表示負(fù)松弛變量。 引入懲罰因子[C>0]加快分類面的構(gòu)建,那么可以得到: [minψ(ω)=12ω2+Ci=1nζis.t. yiψ(xi),ω+b≥1-ζii=1,2,…,n] (16) 引入Lagrange算子[αi]得到: [maxW(α)=i=1nαi-12i,j=1nαiαjyiyjψ(xi)ψ(yj)s.t. 0≤αi≤Ci=1nαiyi=0] (17) 圖像分類的判別函數(shù)為: [f(x)=ωψ(x)+b=i∈SVαiψ(xi)ψ(x)+b] (18) 采用核函數(shù)代表內(nèi)積,[K(x,xi)=ψ(xi)ψ(x)],選擇RBF函數(shù),其為: [K(x,y)=exp-x-y22σ2] (19) 式中[σ]為核參數(shù)。 圖像分類為一個(gè)多分類問(wèn)題,采用“一對(duì)一”建立圖像分類器。設(shè)經(jīng)過(guò)樣本選擇和特征選擇的圖像訓(xùn)練集為[y1,x1,μx1,…,yn,xn,μxn,]圖像分類的最終分類面的解為: [Φ(ω,ξ)=12ω2+Ci=1nμ(xi)ξis.t. yiωT,zi+b-1+ξi≥0ξi≥0] (20)
引入核函數(shù),得到最優(yōu)分類面的判斷方程為:
[f(x)=sgnxi∈SVαiyiK(xi,x)+bs.t. 0≤αi≤μ(xi)Ci=1,2,…,n] (21)
3 圖像分類的實(shí)驗(yàn)結(jié)果與分析
為了分析特征選擇和聚類分析的圖像分類模型的性能,采用VC++進(jìn)行圖像分類程序。選擇PASCAL VOC 2012圖像數(shù)據(jù)中的圖像進(jìn)行仿真實(shí)驗(yàn),其包含20種圖像,它們的樣本分布如表1所示。
采用圖像分類的誤分率、正確率和拒分率的平均值對(duì)分類結(jié)果進(jìn)行分析,選擇沒(méi)有特征選擇+聚類分析(model1),主成分分析選擇特征+沒(méi)有聚類分析(model2)進(jìn)行對(duì)比測(cè)試,本文模型記為model3,每一種模型均進(jìn)行5次實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如圖3~圖5所示。對(duì)它們進(jìn)行對(duì)比和分析,可以得到:
(1) model1的圖像分類時(shí)間要多于model3,而且分類效果要差于model3,這是因?yàn)閙odel1只是采用主成分分析對(duì)特征進(jìn)行選擇和優(yōu)化,減少了分類器的輸入向量數(shù),但由于采用聚類分析處理訓(xùn)練樣本,導(dǎo)致訓(xùn)練樣本數(shù)量太大,增加了分類器的訓(xùn)練時(shí)間,再加上樣本之間的互相影響,對(duì)圖像分類結(jié)果產(chǎn)生干擾,導(dǎo)致圖像分類結(jié)果不理想。
(2) 相對(duì)于model2,model3(本文模型)提高了圖像分類的正確率,誤分率和拒分率也相應(yīng)得到了降低,這是因?yàn)閙odel2只對(duì)訓(xùn)練樣本進(jìn)行了選擇,沒(méi)有實(shí)現(xiàn)特征降維操作,而model3從特征降維和訓(xùn)練樣本兩個(gè)方面進(jìn)行了處理,減少了特征和訓(xùn)練樣本的規(guī)模,加快了圖像分類的速度,獲得了正確率更高的圖像分類結(jié)果。
4 結(jié) 論
在圖像分類的建模過(guò)程中,首先要解決圖像特征提取和選擇問(wèn)題,針對(duì)圖像特征數(shù)量大,對(duì)圖像分類效率和分類結(jié)果產(chǎn)生負(fù)面影響的難題,引入主成分分析對(duì)圖像分類特征進(jìn)行降維操作,減少特征數(shù),并保留一些重要特征實(shí)現(xiàn)圖像分類,然后針對(duì)訓(xùn)練樣本對(duì)圖像分類過(guò)程的影響,引入聚類分析算法對(duì)訓(xùn)練樣本進(jìn)行聚類,選取與分類圖像類別最相近的樣本組成訓(xùn)練集,大幅度減少訓(xùn)練樣本的規(guī)模,降低圖像分類的計(jì)算時(shí)間復(fù)雜度,最后通過(guò)支持向量機(jī)實(shí)現(xiàn)圖像分類,圖像分類結(jié)果表明,該模型的分類性能要明顯優(yōu)于其他圖像分類模型,驗(yàn)證了本文模型的優(yōu)越性。
在圖像分類過(guò)程中,由于分類器參數(shù)設(shè)計(jì)對(duì)圖像的分類結(jié)果也產(chǎn)生影響,因此如何對(duì)圖像分類器進(jìn)行優(yōu)化,進(jìn)一步提高圖像分類的效果是將來(lái)進(jìn)行研究的方向。
參考文獻(xiàn)
[1] LU D, WENG Q. A survey of image classification methods and techniques for improving classification performance [J]. International journal of remote sensing, 2007, 28(5): 823?870.
[2] 何友松,吳煒,陳默,等.基于Bag of Features算法的車輛圖像識(shí)別研究[J].電視技術(shù),2009,12(33):104?107.
[3] 陳凱,肖國(guó)強(qiáng),潘珍,等.單尺度詞袋模型圖像分類方法[J].計(jì)算機(jī)應(yīng)用研究,2011,28(10):3986?3988.
[4] 張江,王年,梁棟,等.基于非負(fù)矩陣分解與鄰接譜的圖像分類[J].中國(guó)科學(xué)技術(shù)大學(xué)學(xué)報(bào),2008,38(3):247?251.
[5] GOULD S. DARWIN: a framework for machine learning and computer vision research and development [J]. Journal of machine learning research, 2012, 13(1): 3533?3537.
[6] EVERINGHAM M, GOOL L V, WILLIAMS C K I, et al. The PASCAL visual object classes (VOC) challenge [J]. International journal of computer vision, 2010, 88(2): 303?338.
[7] 楊國(guó)慶,崔榮一.基于紋理特征的自然圖像鑒別方法[J].計(jì)算機(jī)應(yīng)用研究,2010,27(7):2784?2785.
[8] 朱飛,王興起.基于SIFT 算法的體育類圖像分類與應(yīng)用研究[J].計(jì)算機(jī)應(yīng)用與軟件,2011,28(10):232?234.
[9] 吳健,盛勝利,趙朋朋,等.最小采樣差異的主動(dòng)學(xué)習(xí)圖像分類方法[J].通信學(xué)報(bào),2014,35(1):107?114.
[10] 李大湘,彭進(jìn)業(yè),賀靜芳.基于EMD?CkNN多示例學(xué)習(xí)算法的圖像分類[J].光電子·激光,2010,21(2):304?306.
[11] 狄文羽,何明一,梅少輝.基于快速非負(fù)矩陣分解和RBF網(wǎng)絡(luò)的高光譜圖像分類算法[J].遙感技術(shù)與應(yīng)用,2009(3):385?390.
[12] 付巖,王耀威,王偉強(qiáng),等.SVM用于基于內(nèi)容的自然圖像分類和檢索[J].計(jì)算機(jī)學(xué)報(bào),2003,26(10):1261?1265.
[13] 謝文蘭,石躍祥,肖平.應(yīng)用BP神經(jīng)網(wǎng)絡(luò)對(duì)自然圖像分類[J].計(jì)算機(jī)工程與應(yīng)用,2010,46(2):163?166.