臧 飛,楊沁梅
(中國電子科技集團(tuán)公司第二十八研究所,南京 210007)
基于特征融合的目標(biāo)識別算法是從不同目標(biāo)中抽取反映目標(biāo)本質(zhì)屬性的特征信息,并將不同的目標(biāo)特征信息依據(jù)某種準(zhǔn)則或應(yīng)用背景進(jìn)行合理組合,以便對不同目標(biāo)類型進(jìn)行識別估計。在傳統(tǒng)的識別應(yīng)用領(lǐng)域,基于特征融合的目標(biāo)識別算法可以有效抽取不同類型數(shù)據(jù)的幾何本質(zhì)特征[1],從而對不同圖像進(jìn)行正確識別;在現(xiàn)代軍事應(yīng)用中,基于特征融合的目標(biāo)識別算法是威脅估計和態(tài)勢分析的前提,可用以獲得準(zhǔn)確可靠的目標(biāo)類型估計[2]。
在融合目標(biāo)識別算法中,基于圖的學(xué)習(xí)方法在近幾年得到長足發(fā)展,尤其以KNN 最近鄰方法為代表。KNN 的優(yōu)勢在于可較容易地計算出兩點(diǎn)間的歐幾里得距離,如在局部保持投影算法[3-4]中,采用高斯核度量樣本間的相似性;在局部線性嵌入[5-6]算法中,以最小化局部線性重構(gòu)誤差為代價。KNN 的不足之處在于實際應(yīng)用中鄰域參數(shù)難以確定以及受噪聲的影響較大,且這種學(xué)習(xí)方式中圖的結(jié)構(gòu)與圖中邊的權(quán)數(shù)未建立必然的聯(lián)系。
近年來,基于稀疏表示的分類算法與融合算法在各領(lǐng)域得到快速的發(fā)展。作為一種新型的監(jiān)督分類方法,稀疏表示分類(Sparse Representation-based Classification,SRC)[7]能有效處理圖像中的遮擋等問題;基于稀疏表征的單樣本識別方法[8]通過Shift 或主成份分析(Principal Component Analysis,PCA)重構(gòu)方法產(chǎn)生冗余樣本,在將生成的新樣本作為測試樣本的基礎(chǔ)上利用SRC 進(jìn)行目標(biāo)識別;基于PCA 特征基壓縮傳感算法[9]利用雙向二維主成份分析提取的特征作為后續(xù)融合分類的超完備基,以最小殘差為準(zhǔn)則對測試圖像進(jìn)行目標(biāo)識別;稀疏保持判別融合算法(Sparsity Preserving Discriminant Analysis,SPDA)[10]用訓(xùn)練樣本的稀疏重構(gòu)關(guān)系代替?zhèn)鹘y(tǒng)最近鄰關(guān)系,實現(xiàn)數(shù)據(jù)的稀疏重構(gòu)關(guān)系的保持;稀疏保持典型相關(guān)分析融合算法(Sparsity Preserving Canonical Correlation Analysis,SPCCA)[11]在典型相關(guān)方法的基礎(chǔ)上引入稀疏保持項,實現(xiàn)2 組特征判別信息的有效融合。
在SRC、SPDA 等算法中,關(guān)鍵是采用了樣本的稀疏表示,即在不同方法的學(xué)習(xí)過程中,均采用相同的方式構(gòu)造了稀疏圖[12-13]。在這種構(gòu)圖方式中,圖的結(jié)構(gòu)和相應(yīng)邊的權(quán)數(shù)通過求解l1范數(shù)同時得到,建立了兩者間的直接聯(lián)系。在稀疏表示自身具有的判別屬性條件下,稀疏圖比KNN 圖反映了更多的樣本間相似關(guān)系。對于某個被表示樣本,余下所有訓(xùn)練樣本或測試樣本均對該樣本起到表示作用,但表示系數(shù)較大的樣本所起作用較大,且系數(shù)較大的樣本與被表示樣本具有相同的類別屬性。因此,為了充分利用具有較大表示系數(shù)的樣本,削弱具有較小表示系數(shù)樣本的作用,本文為每個被表示樣本定義了稀疏鄰域,并通過該稀疏鄰域構(gòu)造基于圖的學(xué)習(xí)方法。
此外,基于單一數(shù)據(jù)特征的融合識別算法在良好限制條件下可以取得較好的實驗結(jié)果,但在圖像融合、態(tài)勢威脅估計等目標(biāo)識別應(yīng)用中,基于單一數(shù)據(jù)特征的融合識別算法往往會受到各種不利因素的干擾,造成算法或系統(tǒng)的融合性能與識別結(jié)果的下降。為此,本文提出基于稀疏鄰域的特征融合算法(Sparisity Preserving Discriminant Analysis Based on Sparse Neighborhood,SNSPDA)。該融合算法在保持傳統(tǒng)融合識別方法中數(shù)據(jù)本質(zhì)幾何結(jié)構(gòu)的同時,有效利用了訓(xùn)練樣本的稀疏重構(gòu)關(guān)系,使其既可以反映少量標(biāo)簽樣本的類信息,又能捕獲大量無標(biāo)簽樣本的自然屬性。
在本文中,特征融合算法的目的是從少量標(biāo)簽樣本和大量無標(biāo)簽樣本中抽取出適用于識別、聚類等不同應(yīng)用的融合特征。在圖像特征融合識別應(yīng)用中,標(biāo)簽樣本的個數(shù)遠(yuǎn)遠(yuǎn)地少于樣本自身的冗余維數(shù),為此,典型的特征融合方法如半監(jiān)督判別融合算法(Semi-supervised Discriminant Analysis,SDA)[14]和稀疏保持判別融合算法(SPDA)[6]等,均采用正則化技術(shù)解決算法中遇到的奇異性問題。
給定具有c 類的樣本集合X=[x1,x2,…,xn]∈Rm×n,這里假設(shè)樣本集X 中包含l 個標(biāo)簽樣本與u 個無標(biāo)簽樣本(n=l+u,l?u)。以識別為任務(wù)的特征融合算法的目的是將同類樣本聚合而不同類樣本分離。由于標(biāo)簽樣本個數(shù)較少,在這類特征融合算法中過擬合現(xiàn)象時有發(fā)生。為消除這種過擬合現(xiàn)象,典型的方法是在不同的特征融合算法增加不同的正則項。因此,這類特征融合算法具有下列形式:
Sb與St分別表示標(biāo)簽樣本集的類間散度與總體散度:
其中,mi與m 分別表示第i 類樣本和所有樣本的均值;gTg 表示Tikhonov 正則項;J(g)為不同特征融合算法中加入先驗知識提供可能;正則參數(shù)λ1與λ2均大于0。
在半監(jiān)督判別融合算法[8]中,通過增加光滑約束來最大限度地利用標(biāo)簽樣本與無標(biāo)簽樣本的信息。這種基于拉普拉斯圖正則約束的目的是增強(qiáng)相鄰樣本點(diǎn)間的相似性。因此,SDA 算法中的正則項為:
其中,Wi,j表示樣本xi與樣本xj的高斯相似性。
與SDA 算法不同,稀疏投影判別分析融合算法[6]在保持標(biāo)簽樣本判別信息的同時利用稀疏表示的自然屬性。因此,SPDA 算法中的正則項為:
其中,wi表示樣本集Xi=[x1,x2,…,xi-1,xi+1,…,xn]對樣本xi的稀疏重構(gòu)系數(shù)。
盡管SDA 與SPDA 都考慮了大量無標(biāo)簽樣本的作用,但在SDA 算法中僅利用了所有樣本的鄰域關(guān)系,SPDA 算法中只考慮了所有樣本間的稀疏關(guān)系。本文提出的基于稀疏鄰域的特征融合算法,在保持樣本間稀疏重構(gòu)關(guān)系的同時,刻畫了樣本間的本質(zhì)幾何結(jié)構(gòu),究其原因在于SNSPDA 算法采用了文中給出的稀疏鄰域。這使SNSPDA 在特征融合中可比SDA,SPDA 取得更好的實驗結(jié)果。
為保持?jǐn)?shù)據(jù)的本質(zhì)幾何結(jié)構(gòu)與樣本間的稀疏重構(gòu)關(guān)系,本文首先給出樣本間稀疏鄰域的概念。
對于給定的參數(shù)ε >0,樣本xi的稀疏鄰域定義如下:在稀疏重構(gòu)過程中,如果樣本xj(j≠i)的稀疏表示系數(shù)αj滿足條件αj>ε,則稱樣本xj(j≠i)在樣本xi的稀疏鄰域內(nèi),記為xj∈SN(xi)。
由稀疏鄰域的概念可以看出,對于給定的樣本,稀疏鄰域移除了對給定樣本重構(gòu)貢獻(xiàn)較小的樣本,保留了具有較大重構(gòu)系數(shù)的樣本,其原因在于較大重構(gòu)系數(shù)的樣本與被表示樣本具有很強(qiáng)的判別屬性,同時為具有較大重構(gòu)系數(shù)樣本對被表示樣本的再次重構(gòu)提供可能,本文4.1 節(jié)給出了稀疏鄰域作用的詳細(xì)描述與實驗對比。
基于稀疏鄰域特征融合算法的核心思想為:對于每個訓(xùn)練樣本,在選擇其稀疏鄰域的基礎(chǔ)上,構(gòu)造稀疏鄰域樣本集對訓(xùn)練樣本的稀疏重構(gòu)關(guān)系,并由此在兼顧數(shù)據(jù)本質(zhì)幾何結(jié)構(gòu)的同時考慮樣本間的稀疏重構(gòu)關(guān)系。
SNSPDA 算法的具體步驟如下:
(1)給定具有c 類的樣本集X=[x1,x2,…,xn]∈Rm×n,其包含l 個標(biāo)簽樣本與u 個無標(biāo)簽樣本,平衡參數(shù)為λ1,λ2>0,稀疏鄰域半徑ε >0。
(2)依據(jù)方程式(2)和式(3),分別計算類間散度矩陣Sb和總體散度矩陣St。
(3)通過求解下列最優(yōu)化問題選擇樣本xi的稀疏鄰域:
(4)求解下列最優(yōu)化問題,構(gòu)造樣本xi的稀疏鄰域圖的定點(diǎn)及其對應(yīng)邊的權(quán)數(shù):
其中,樣本集Ai由樣本xi的稀疏鄰域點(diǎn)構(gòu)成。
(5)計算正則項XLsnXT,其中:
I 為大小自適應(yīng)的單位矩陣。
(6)計算廣義特征問題:
投影矩陣G=[g1,g2,…,gd],其中,gi(i=1,2,…,d)為廣義特征問題的前d 個最大特征值對應(yīng)的特征向量。
在SDA 算法中,正則項JSDA(g)的目的是保持相鄰樣本間的相似性;在SPDA 算法中,正則項JSPDA(g)的目的是保持樣本間的稀疏重構(gòu)關(guān)系;在SNSPDA 算法中,JSNPDA(g)的表達(dá)式為:
其中,p 表示樣本xi的稀疏鄰域個數(shù);Ai表示樣本xi的稀疏鄰域集;wi反映了Ai對樣本xi的稀疏表示系數(shù)信息。
采用管路柜集成組裝,將EPCU、IPM、IRM、停車制動、撒砂裝置、踏面清掃、升弓控制等模塊安裝在制動柜中,方便操作和檢修。
在SNSPDA 算法中,JSNPDA(g)既保持了相似樣本間的幾何信息,又反映了樣本間的稀疏重構(gòu)關(guān)系。同時,在以分類為目的的特征融合算法中,JSNPDA(g)進(jìn)一步增強(qiáng)了稀疏鄰域內(nèi)樣本的表示作用(與被表示樣本具有相同的標(biāo)簽信息),突出了算法目標(biāo)函數(shù)在圖上的光滑性。此外,SNSPDA 算法中稀疏鄰域的作用及稀疏鄰域半徑選擇對算法的影響詳見后續(xù)的實驗分析部分。據(jù)此分析,SNSPDA 算法要優(yōu)于SDA 與SPDA 方法,后續(xù)的實驗結(jié)果也驗證了這一分析。
本文使用AR,F(xiàn)ERET,INDIAN 與CMU PIE(C09 與C29)數(shù)據(jù)庫對SNSPDA 算法進(jìn)行實驗驗證。對于每個數(shù)據(jù)庫,每類中選擇1 幅圖像為標(biāo)簽樣本,其余圖像為無標(biāo)簽樣本。AR 中包含100 類的1 400 幅圖像;FERET 中包含100 類,每類有7 幅不同的圖像;INDIAN 中包含21 類的231 幅圖像;CMU PIE(C09 與C29)中均包含68 類的1 632 幅不同圖像。在實驗前,AR 與CMU PIE(C09 與C29)中每幅圖像的大小重新調(diào)整為48 ×48,F(xiàn)ERET 與INDIAN 中每幅圖像的大小重新調(diào)整為32 ×32。
在稀疏重構(gòu)過程中,本文采用了常用的3 種優(yōu)化方法:
將上述3 種方法構(gòu)造的稀疏重構(gòu)圖分別記為l1-graph0、l1-graph1 與l1-graph2,其中,式(12)的參數(shù)λ固定為0.05。
SDA,SPDA 與SNSPDA 這3 種特征融合算法的平衡參數(shù)λ1與λ2均固定為0.01 和0.1,融合后特征空間的維數(shù)為c -1,SNSPDA 中稀疏鄰域半徑ε 等于1e-4。
從可視化的觀點(diǎn)看,稀疏鄰域采用了類似于SDA 方法中的鄰域技巧。不同之處在于,SNSPDA將訓(xùn)練樣本對測試樣本的稀疏表示貢獻(xiàn)看成局部標(biāo)準(zhǔn),這樣做的好處在于充分利用了稀疏表示的固有判別屬性與相對穩(wěn)健性。在大量實驗中,筆者發(fā)現(xiàn)那些稀疏重構(gòu)系數(shù)較小的或負(fù)值系數(shù)對應(yīng)的樣本與測試樣本具有不同的類標(biāo)簽信息。同時,通過稀疏鄰域內(nèi)樣本的二次表示,SNSPDA 算法進(jìn)一步強(qiáng)調(diào)了對測試樣本重構(gòu)貢獻(xiàn)大的那些樣本的作用,提升了那些樣本的重構(gòu)系數(shù)。在圖1 中,本文以AR 圖像數(shù)據(jù)為例演示了稀疏鄰域外的樣本被移除前后被表示樣本系數(shù)的變化情況,圖中從左至右分別表示測試樣本、移除稀疏鄰域外樣本前被表示樣本的系數(shù)和移除稀疏鄰域外樣本后被表示樣本的系數(shù)??梢钥闯?,和移除前相比,稀疏鄰域內(nèi)樣本的表示系數(shù)明顯變大,即表明它們的重構(gòu)作用得到增強(qiáng)。
圖1 不同測試樣本的稀疏表示系數(shù)變化情況
表1 給出了3 種融合算法在不同圖像數(shù)據(jù)庫中20 次隨機(jī)實驗的平均識別率,其中,括號中的數(shù)據(jù)是其對應(yīng)的標(biāo)準(zhǔn)差。從表中可以看出,SNSPDA 算法取得了較好的實驗結(jié)果,SPDA 方法其次,SDA 的實驗結(jié)果較差。以FERET 和C29 為例,SPSDA 算法比SPDA 方法分別提高了4.13%,2.61%,3.66%與2.14%,1.95%,2.26%。這說明結(jié)合數(shù)據(jù)本質(zhì)幾何結(jié)構(gòu)與稀疏重構(gòu)關(guān)系的SNSPDA 算法較好地捕獲了標(biāo)簽樣本與無標(biāo)簽樣本的特征屬性。
表1 3 種融合算法在不同數(shù)據(jù)中的正確識別率 %
綜上可得出以下結(jié)論:
(1)當(dāng)光照條件變化較大時(AR,C09,C29),基于KNN 構(gòu)圖方式的SDA 算法性能較差,基于稀疏圖、稀疏鄰域的SPDA,SNSPDA 算法的結(jié)果相對較好,這說明稀疏鄰域比稀疏圖、KNN 方法受光照影響較小。
(2)在相同的稀疏重構(gòu)優(yōu)化算法中,SNSPDA 算法比SPDA 方法取得了更好的實驗結(jié)果,這進(jìn)一步驗證了4.1 節(jié)分析的稀疏鄰域的作用,即在稀疏鄰域中能更好地反映樣本間的判別相似關(guān)系。
(3)由SDA、SPDA 及SNSPDA 的算法過程可以看出,3 種算法均轉(zhuǎn)化為特征值的求解問題,不同之處在于SPDA、SNSPDA 算法中利用了求解l1范數(shù)優(yōu)化方法,這說明SNSPDA 算法并沒有增加特殊的計算復(fù)雜性。
本節(jié)將分析稀疏鄰域半徑對算法的影響情況。圖2 給出了SNSPDA 算法在不同數(shù)據(jù)集中的平均結(jié)果隨稀疏鄰域半徑ε 的變化情況。當(dāng)半徑參數(shù)ε 從1e-3 變化到1e -7 時,SNSPDA 算法的平均結(jié)果并沒有明顯的波動,其原因在于稀疏表示與稀疏鄰域固有的性質(zhì),即ε 在一定范圍內(nèi)變化時,樣本點(diǎn)的稀疏鄰域并沒有明顯的變化,這說明稀疏鄰域?qū)Π霃溅?具有一定的穩(wěn)健性。但是,當(dāng)所有樣本都被使用時,具有較小表示系數(shù)或負(fù)值系數(shù)樣本對被表示樣本的非正面影響的累積效應(yīng)明顯地表現(xiàn)出來,這也是SNSPDA 算法優(yōu)于SPDA 算法的原因。
圖2 SNSPDA 算法性能在不同數(shù)據(jù)中隨半徑參數(shù)的變化
本文在給出稀疏鄰域概念的基礎(chǔ)上,提出基于稀疏鄰域的特征融合算法。該算法以分類為目的,不僅保持了數(shù)據(jù)的本質(zhì)幾何結(jié)構(gòu),而且反映了樣本間的稀疏重構(gòu)關(guān)系。單樣本的圖像融合識別實驗結(jié)果表明,SNSPDA 算法能合理地利用少量標(biāo)簽樣本與大量無標(biāo)簽樣本的自然屬性信息,有效解決圖像特征融合中的單樣本識別問題。下一步工作將在本文研究的基礎(chǔ)上,開展大數(shù)據(jù)背景下的融合識別算法研究。
[1]檀敬東,蘇雅茹,王儒敬.基于PCA 擴(kuò)展的判別性特征融合[J].模式識別與人工智能,2012,25(2):305-312.
[2]史紅權(quán),徐永杰.直覺模糊多特征融合目標(biāo)類型識別模型[J].艦船科學(xué)技術(shù),2012,34(1):95-98.
[3]He Xiaofei,Niyogi P.Locality Preserving Projections[C]// Thrun S,Saul L K,Sch'olkopf B.Advances in Neural Information Processing Systems.Vancouver,Canada:[s.n.],2003:327-334.
[4]He Xiaofei,Yan Shuicheng,Hu Yuxiao,et al.Face Recognition Using Laplacianfaces[J].IEEE Trans-actions on Pattern Analysis and Machine Intelligence,2005,27(3):328-340.
[5]Roweis S T,Sail L K.Nonlinear Dimensionality by Locally Linear Embedding [J].Science,2000,290(5500):2323-2326.
[6]Saul L K,Roweis S T.Think Globally,F(xiàn)it Locally:Unsupervised Learning of Low Dimensional Manifolds[J].Journal of Machine Learning Research,2003,4(1):119-155.
[7]Wright J,Allen Y,Ganesh A,et al.Roust Face Recognition via Sparse Representation [J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2009,31(2):210-227.
[8]暢雪萍,鄭忠龍,謝陳毛.基于稀疏表征的單樣本人臉識別[J].計算機(jī)工程,2010,36(21):175-177.
[9]張尤賽,趙艷萍,朱志宇.基于PCA 特征基壓縮傳感算法的人臉識別[J].計算機(jī)工程,2012,38 (13):152-155.
[10]Qiao Lishan,Chen Songcan,Tan Xiaoyang.Sparsity Preserving Discriminant Analysis for Single Training Image Face Recognition[J].Pattern Recognition Letters,2010,31(5):422-429.
[11]侯書東,孫權(quán)森.稀疏保持典型相關(guān)分析及在特征融合中的應(yīng)用[J].自動化學(xué)報,2012,38(4):659-665.
[12]Cheng Bin,Yang Jianchao,F(xiàn)u Yun,et al.Learning with l1-graph for Image Analysis[J].IEEE Transactions on Image Processing,2010,19(4):858-866.
[13]Yan Shuicheng,Wang Huan.Semi-supervised Learning by Sparse Representation[C]//Proceedings of the SIAM International Conference on Data Mining.Nevada,USA:[s.n.],2009:792-801.
[14]Cai Deng,He Xiaofeng,Han Jiawei.Semi-supervised Discriminant Analysis[C]//Proceedings of the 11th IEEE International Conference on Computer Vision.Rio de Janeiro,Brazil:IEEE Press,2007:1-7.