尚 麗,周 燕,孫戰(zhàn)里
(1. 蘇州市職業(yè)大學(xué) 電子信息工程學(xué)院, 江蘇 蘇州 215104;2. 安徽大學(xué) 電氣工程與自動(dòng)化學(xué)院, 安徽 合肥 230039)
稀疏表示(sparse representation,SR)是在超完備字典空間內(nèi),用少數(shù)原子的線性組合來表達(dá)大部分或者全部的原始信號(hào),這樣就可以大大減少計(jì)算量,節(jié)約存儲(chǔ)空間,目前已在數(shù)字信號(hào)處理、圖像處理及模式識(shí)別等領(lǐng)域被廣泛應(yīng)用[1~3]。雖然采用SR模型已成功實(shí)現(xiàn)人臉圖像分類[1],但這種模型不適用于具有相同方向的不同類數(shù)據(jù),即使是線性可分時(shí),分類效果仍舊不明顯。主要原因是特征基正則化后具有相同方向的數(shù)據(jù)存在重疊顯現(xiàn)[1,2],因此基于SR的分類方法的應(yīng)用范圍受到限制。如果在SR模型中引入一個(gè)合適的核函數(shù),即基于核函數(shù)的SR(kernel based SR,KSR)模型[4~7],則可以解決上述問題。通過核變換可以把原坐標(biāo)系中線性不可分的問題轉(zhuǎn)化為投影空間內(nèi)線性可分的問題[3~5],可以有效處理高維輸入,并且使得在高維空間中的SR提高識(shí)別率和判別性能[7~10],因此一些基于單核的分類方法陸續(xù)被提了出來并被用于圖像的特征分類[4~7]。由于不清楚選擇哪種核函數(shù)最適合具體分類任務(wù),所以考慮結(jié)合幾種核函數(shù)就很有意義。Huang H C等將基于多核的方法應(yīng)用于聚類問題,已取得了較好的結(jié)果[1,8~11]。
本文結(jié)合多核函數(shù)[8~11]和KSR的優(yōu)點(diǎn)[12~16],提出一種基于多核的稀疏表示(multipile kernels based SR,M-KSR)模型,并在多核映射空間內(nèi)采用具有二次約束的最小二乘化優(yōu)化方法訓(xùn)練稀疏系數(shù)[8,11,14],同時(shí)考慮多核權(quán)重系數(shù)和圖像殘差之間反比的關(guān)系來更新權(quán)重系數(shù),最后應(yīng)用所提出的基于M-KSR的特征分類方法在PolyU掌紋數(shù)據(jù)庫(kù)上驗(yàn)證了該方法的有效性。
機(jī)器學(xué)習(xí)中常遇到學(xué)習(xí)非線性模型的情況,使得非線性不可分的問題轉(zhuǎn)化為線性可分的問題。常用的做法是通過某非線性變換函數(shù)φ(·),將變量z所在的輸入空間Γ映射到1個(gè)高維特征空間H,即使得Γ中的變量z能夠通過φ映射得到H空間中的點(diǎn)h:h=φ(z)。若對(duì)所有的z,q∈Γ,存在1個(gè)函數(shù)κ(z,q)滿足式(1)條件[1,2],則稱κ(z,q)為核函數(shù)。
κ(z,q)=φ(z)·φ(q)
(1)
式中φ(z)·φ(q)為φ(z)和φ(q)的內(nèi)積。顯然,核函數(shù)是映射關(guān)系φ的內(nèi)積,并沒有增加維度的特性。但是,可以利用核函數(shù)的特性,構(gòu)造能夠增加維度的核函數(shù)。比如,由二維映射到三維,數(shù)據(jù)區(qū)分就會(huì)更容易,這也是聚類、分類中常用到核函數(shù)的原因。尤其是近幾年,隨著核函數(shù)在支持向量機(jī)的成功應(yīng)用[3,4],出現(xiàn)了更多的基于核的方法,例如核主成分分析、核Fisher判別分析、核SR方法等。概括地說,利用核函數(shù)或者核技巧,可以使得原本在低維空間線性不可分的數(shù)據(jù)集,在足夠高的維度中存在線性可分的超平面,從而解決數(shù)據(jù)非線性可分的問題;另外,利用核函數(shù)也可以省去高維空間里的繁瑣計(jì)算,甚至可以解決無限維空間無法計(jì)算的問題[6~8,17]。
核函數(shù)的選擇要滿足Mercer定理,常見的核函數(shù)有高斯核函數(shù)、線性核函數(shù)、多項(xiàng)式核函數(shù)、徑向基核函數(shù)、Sigmoid核函數(shù)、B樣條核函數(shù)、張量積核函數(shù)等[11~13]。但是在具體應(yīng)用時(shí),單個(gè)核函數(shù)往往不是最合適的核,因此基于多個(gè)核函數(shù)結(jié)合的方法被提出[3,8,14]。給定M個(gè)定義在ΓP×ΓN上的Mercer函數(shù)κm(·,·),P為每一樣本的維數(shù),N為樣本個(gè)數(shù),則對(duì)樣本xi和xj構(gòu)造如下的多重核函數(shù):
(2)
(3)
由式(3)知,對(duì)樣本y來說,映射函數(shù)φ將原空間的數(shù)據(jù)映射到一個(gè)高維多重核空間?!渲?即y在?!淇臻g內(nèi)的像為:
φ(y)=[φ1(y),φ2(y),…,φP(y)]T
(4)
(5)
(6)
(7)
Ek(S,D,y)=φ(y)Tφ(y)+STφ(D)Tφ(D)S-
2φ(y)Tφ(D)S=
K(y,y)+STK(D,D)S-
2K(y,D)S
(8)
式中K(·,·)∈ΓN×N為核函數(shù)κ(·,·)的半正定Gram矩陣;K(D,D)和K(y,D)可由式(9)計(jì)算。
(9)
根據(jù)式(8),在核空間內(nèi),類似SRC方法,根據(jù)樣本重構(gòu)最小誤差實(shí)現(xiàn)測(cè)試樣本的分類。
(10)
(11)
(12)
則多核函數(shù)表達(dá)式為:
W1κ1(u,v)+
W2κ2(u,v)+
W3κ3(u,v)
(13)
顯然,多核函數(shù)的性能和所選用的單核函數(shù)的權(quán)重系數(shù)有關(guān)。
(14)
引入核關(guān)系后,式(14)改寫為:
i?Lt
(15)
(16)
則第t步稀疏系數(shù)更新規(guī)則為:
(17)
固定稀疏系數(shù)S,則訓(xùn)練原子字典的目標(biāo)函數(shù)為:
(18)
對(duì)式(17)關(guān)于ai求導(dǎo)并引入核關(guān)系則得到ai的更新規(guī)則:
Δai=-2siφ(X)[φ(y)-φ(X)aisi]=
(19)
當(dāng)學(xué)習(xí)完稀疏系數(shù)后,第m個(gè)核函數(shù)對(duì)應(yīng)的殘差rm計(jì)算如下:
(20)
(21)
式中權(quán)重系數(shù)Wm和殘差rm成反比,當(dāng)殘差較大時(shí),權(quán)重系數(shù)就要調(diào)小,反之,權(quán)重系數(shù)則要調(diào)大。
結(jié)合第3.2節(jié)的K-SRC法和第4.2節(jié)的M-KSR學(xué)習(xí)規(guī)則,多核稀疏表示分類的算法歸納如下:
3) 根據(jù)式(17)和式(19)更新稀疏系數(shù)向量si和原子向量ai;
4) 根據(jù)式(20)計(jì)算第m個(gè)殘差rm,并根據(jù)式(21)更新權(quán)重系數(shù)Wm;
測(cè)試圖像選自香港理工大學(xué)PolyU掌紋數(shù)據(jù)庫(kù)中的100個(gè)人的600幅掌紋圖像[18]。每1幅圖像原始大小為284×384像素,所提取的矩形感興趣區(qū)域?yàn)?28×128像素。選擇每個(gè)人的前3幅圖像作為訓(xùn)練圖像,后3幅圖像作為測(cè)試圖像,每1幅圖像轉(zhuǎn)化為一個(gè)列向量,則訓(xùn)練集合Xtrain和測(cè)試集合Ytest的大小均為1282×300像素。為了減小計(jì)算量而不影響特征提取的精度,采用小波變換把每一幅掌紋圖像處理成64×64像素,則訓(xùn)練集合和測(cè)試集合的大小為4 096×300像素。為了進(jìn)一步減少核空間內(nèi)的計(jì)算量,本文首先采用主分量分析(principal component analysis,PCA)法進(jìn)行降維分析[14,18],得到的前16個(gè)特征基圖像如圖1所示;然后在不同的PCA維數(shù)下采用極端學(xué)習(xí)機(jī)(extreme learning machine,ELM)、徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)(radial basis function neural network,RBFNN)和距離分類器進(jìn)行特征分類,從而確定核空間內(nèi)較合適的主分量個(gè)數(shù)。分類結(jié)果如表1所示,可以看出,主分量個(gè)數(shù)越多,采用ELM分類器得到的特征識(shí)別率越高,但是對(duì)另外2種分類器卻不符合這種趨勢(shì)。當(dāng)主分量個(gè)數(shù)小于256時(shí),3種分類器的分類結(jié)果基本相同。但是,當(dāng)主分量個(gè)數(shù)大于256時(shí),ELM分類器的優(yōu)勢(shì)則非常明顯。綜合考慮計(jì)算量和分類效果,我們最終選擇主分量的個(gè)數(shù)為324,這樣用于SRC、K-SRC和 M-KSRC 算法的輸入集合大小為324×300像素,算法計(jì)算量被有效降低,可以加快特征尋優(yōu)速度。
圖1 PCA的前16個(gè)特征基圖像Fig.1 The first 16 feature base images of PCA
表1 不同主分量個(gè)數(shù)下特征分類結(jié)果(PCA算法)Tab.1 Feature classification results of the different number of principal components (the PCA algorithm)(%)
圖2 M_KSR算法得到的不同維數(shù)的特征基圖像Fig.2 Feature base images with different dimensions obtained by the M_KSR algorithm
表2 不同算法下的特征分類結(jié)果(主分量個(gè)數(shù)為324)Tab.2 Feature classification results of the different algorithms (324 principal components) (%)
考慮多核函數(shù)在模式識(shí)別中的應(yīng)用優(yōu)勢(shì),采用多項(xiàng)式核函數(shù)、高斯核函數(shù)和Sigmoid核函數(shù)的線性組合形式構(gòu)成多核函數(shù),提出一種改進(jìn)的基于多核函數(shù)的稀疏表示模型,并在PCA特征子空間內(nèi),把該模型應(yīng)用于PolyU掌紋數(shù)據(jù)庫(kù)的圖像分類。在相同實(shí)驗(yàn)條件下,采用不同的分類器進(jìn)行掌紋特征分類測(cè)試,仿真結(jié)果表明,多核稀疏表示模型的掌紋特征分類效果明顯優(yōu)于單核稀疏表示模型和典型的KSVD稀疏表示模型,特別是在ELM分類器下,采用較少特征即可得到較高的分類精度。由于構(gòu)成多核函數(shù)的核函數(shù)模型以及個(gè)數(shù)對(duì)特征分類結(jié)果影響較大,因此如何選擇最優(yōu)的多核函數(shù)將是進(jìn)一步的研究方向。