蘇樹智 謝 軍 平昕瑞 高鵬連
①(安徽理工大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院 淮南 232001)
②(合肥綜合性國(guó)家科學(xué)中心能源研究院(安徽省能源實(shí)驗(yàn)室) 合肥 230031)
③(安徽理工大學(xué)數(shù)學(xué)與大數(shù)據(jù)學(xué)院 淮南 232001)
特征提取[1,2]是解決分類和識(shí)別任務(wù)的一類主流方法,從模態(tài)數(shù)據(jù)種類角度劃分,可分為單模態(tài)方法和多模態(tài)方法。在單模態(tài)方法中主成分分析(Principal Component Analysis, PCA)[3,4]使用最為廣泛,其通過(guò)正交變換從原始單模態(tài)數(shù)據(jù)[5,6]的高維空間中抽取數(shù)據(jù)的低維表示形式,同時(shí)最大化低維數(shù)據(jù)的差異。但是PCA是一種線性特征提取方法,沒(méi)有考慮數(shù)據(jù)的內(nèi)在結(jié)構(gòu)信息,因此在很多實(shí)際應(yīng)用中難以抽取強(qiáng)鑒別力的低維特征。而多模態(tài)方法則是處理兩種或兩種以上模態(tài)數(shù)據(jù)的方法,典型相關(guān)分析(Canonical Correlation Analysis,CCA)[7]是多模態(tài)特征提取方法中的代表算法,能夠?qū)崿F(xiàn)高維多模態(tài)數(shù)據(jù)的特征提取和融合。
CCA旨在學(xué)習(xí)兩組模態(tài)數(shù)據(jù)的相關(guān)投影方向,使投影后的兩組模態(tài)間相關(guān)性最大,目前已應(yīng)用于圖像處理[8]、特征融合[9]等領(lǐng)域。但CCA本身和PCA均為線性方法,針對(duì)其難以提取高維非線性數(shù)據(jù)有效特征的問(wèn)題,文獻(xiàn)[10,11]中提出局部保持CCA(Locality Preserving Canonical Correlation Analysis, LPCCA),該方法考慮局部鄰域間的關(guān)系,利用局部的幾何結(jié)構(gòu)解決一些非線性問(wèn)題。雖然LPCCA比CCA更好地揭示了內(nèi)在數(shù)據(jù)結(jié)構(gòu),但是保留的局部信息多包含噪聲,揭示的近鄰結(jié)構(gòu)存在失真現(xiàn)象,因此僅在姿態(tài)估計(jì)任務(wù)中獲得了良好的實(shí)驗(yàn)結(jié)果,而分類能力較差。為了解決LPCCA的弱分類性能問(wèn)題,文獻(xiàn)[12]提出一種新的可替代局部保持CCA(Alternative Locality-Preserving Canonical Correlation Analysis, ALPCCA),該算法對(duì)LPCCA整體近鄰幾何結(jié)構(gòu)的嵌入方式加以改進(jìn),進(jìn)而提升了識(shí)別性能。
此外使用核的思想也可以解決非線性問(wèn)題,文獻(xiàn)[13,14]提出的核CCA(Kernel Canonical Correlation Analysis, KCCA)利用核函數(shù)在更高維空間中表示原高維數(shù)據(jù),令原高維數(shù)據(jù)在更高維空間中線性可分,盡管KCCA在分類性能上有所提升,但將高維數(shù)據(jù)映射到更高維大大增加了運(yùn)算過(guò)程的計(jì)算量。
除了考慮數(shù)據(jù)結(jié)構(gòu)信息外還可以利用標(biāo)簽信息和圖的思想提升算法的性能。標(biāo)簽信息即一種有效的監(jiān)督信息,鑒別CCA(Discriminative Canonical Correlation Analysis, DCCA)在文獻(xiàn)[15,16]被中提出,將監(jiān)督信息融合到特征提取的框架中,在子空間中類內(nèi)樣本分布更加緊密,類間樣本離散程度更大,從而使其在分類任務(wù)中擁有較好的類分離性。而圖多視角CCA(Graph Multiview Canonical Correlation Analysis, GMCCA)[17,18]則通過(guò)使用圖誘導(dǎo)的方式直接分析數(shù)據(jù)間的內(nèi)在關(guān)系,減少規(guī)范變量與常見(jiàn)的低維表示形式之間的距離。
上述方法是基于原始高維數(shù)據(jù)確定近鄰關(guān)系或構(gòu)建圖,但因噪聲和冗余信息,這種近鄰關(guān)系或圖揭示的幾何結(jié)構(gòu)會(huì)存在失真現(xiàn)象,降低特征的鑒別性。本文提出一種新的圖強(qiáng)化典型相關(guān)分析(Graph Enhanced Canonical Correlation Analysis, GECCA)算法。該算法使用譜聚類方法對(duì)原始高維數(shù)據(jù)進(jìn)行分割,獲取多種數(shù)據(jù)成分,并針對(duì)每種數(shù)據(jù)成分構(gòu)建對(duì)應(yīng)成分圖,可從不同成分的角度出發(fā)更好地揭示高維數(shù)據(jù)間復(fù)雜幾何流形;為了獲得益于分類和識(shí)別任務(wù)的信息,采用相似準(zhǔn)則構(gòu)建成分圖的權(quán)重矩陣,借助概率評(píng)估方法保留成分圖對(duì)應(yīng)的類監(jiān)督信息,以此構(gòu)建成分圖的類系數(shù)矩陣;通過(guò)圖強(qiáng)化方式將成分圖的權(quán)重矩陣和類系數(shù)矩陣進(jìn)行融合得到強(qiáng)化矩陣,并將其嵌入到典型相關(guān)分析的框架中。GECCA更好地揭示和保留了隱藏在原始高維數(shù)據(jù)中的幾何流形和鑒別信息,從而能夠更好地指導(dǎo)和輔助特征的提取。GECCA有以下特點(diǎn):(1)能更好地揭示數(shù)據(jù)的本質(zhì)幾何流形,解決非線性特征提取問(wèn)題;(2)有效地利用了監(jiān)督信息,使其在圖像識(shí)別任務(wù)中擁有良好的類分離性。
本節(jié)將簡(jiǎn)要回顧C(jī)CA算法的主要內(nèi)容。CCA為兩種模態(tài)數(shù)據(jù)學(xué)習(xí)一個(gè)相關(guān)子空間,使得在子空間中兩種模態(tài)數(shù)據(jù)的相關(guān)性最大。兩種模態(tài)數(shù)據(jù)集可分別用X和Y表示,且所有樣本均一一對(duì)應(yīng),其中X=[x1,x2,...,xn]∈Rp×n,Y=[y1,y2,...,yn]∈Rq×n。每種模態(tài)數(shù)據(jù)集都有n個(gè)樣本,xi,yi(i=1,2,...,n) 表示數(shù)據(jù)集X,Y中第i個(gè)樣本,且樣本均為均值化后的樣本數(shù)據(jù),X數(shù)據(jù)集中數(shù)據(jù)維度是p,Y數(shù)據(jù)集中數(shù)據(jù)維度是q。CCA可簡(jiǎn)化為使模態(tài)間相關(guān)性最大的投影方向(α,β)學(xué)習(xí)問(wèn)題
由于投影方向的尺度不變性,上述投影方向的學(xué)習(xí)問(wèn)題能夠進(jìn)一步簡(jiǎn)化如式(2)的優(yōu)化模型
CCA的優(yōu)化函數(shù)可等價(jià)于兩模態(tài)間樣本距離最小,因此可將其等價(jià)描述為
對(duì)于給定兩組對(duì)應(yīng)模態(tài)數(shù)據(jù)集X和Y,數(shù)據(jù)樣本間通常包含不同的幾何結(jié)構(gòu)信息,為了有效利用這些信息本文提出圖強(qiáng)化的方法。
每個(gè)模態(tài)數(shù)據(jù)集在原始高維數(shù)據(jù)中通常包含多種獨(dú)立數(shù)據(jù)成分,例如一張照片中人物和背景即為兩種不同數(shù)據(jù)成分,利用原始數(shù)據(jù)直接構(gòu)圖的方法無(wú)法反映不同數(shù)據(jù)成分間的關(guān)系。GECCA先將上述數(shù)據(jù)集X和Y采用譜聚類方法進(jìn)行分割,將不同數(shù)據(jù)中同一成分的數(shù)據(jù)分割在一塊,分割后得到原始高維數(shù)據(jù)的多重?cái)?shù)據(jù)成分集,并為每種數(shù)據(jù)成分構(gòu)建對(duì)應(yīng)成分圖,以此保留數(shù)據(jù)間的內(nèi)在聯(lián)系,使用相似準(zhǔn)則構(gòu)建成分圖權(quán)重矩陣,揭示原始數(shù)據(jù)中的復(fù)雜內(nèi)在流形結(jié)構(gòu),流程如圖1所示。從優(yōu)化角度來(lái)看沒(méi)有區(qū)分各成分的重要性,所以本文采用線性融合策略進(jìn)行圖強(qiáng)化,根據(jù)標(biāo)簽信息獲取類系數(shù)矩陣以此作為圖強(qiáng)化的優(yōu)化系數(shù)。
圖1 成分圖權(quán)重矩陣流程圖
為優(yōu)化模型,可將式(14)在代數(shù)運(yùn)算后重寫為(忽略一般性常數(shù))
對(duì)式(15)中模型進(jìn)行求解,首先為該模型構(gòu)建拉格朗日乘子函數(shù)
利用求得的相關(guān)投影矩陣A和B可得到數(shù)據(jù)集X和Y對(duì)應(yīng)的低維相關(guān)特征訓(xùn)練集ATX ∈Rd×n和BTY ∈Rd×n。本文采用并行特征融合策略完成特征融合
融合后獲得的訓(xùn)練集在子空間低維融合特征集可記作Z={Z1,Z2,...,Zn}∈Rd×n。采用同樣方法可得到測(cè)試集低維融合特征集。
為評(píng)估GECCA的圖像識(shí)別性能,分別在人臉數(shù)據(jù)集XM2VTS和手寫體數(shù)字?jǐn)?shù)據(jù)集Semeion上設(shè)計(jì)了針對(duì)性實(shí)驗(yàn)。利用模態(tài)策略[19]獲得上述數(shù)據(jù)集的模態(tài)數(shù)據(jù),具體為采用Coiflets和Daubechies兩種小波變換得到每個(gè)圖像的低頻子圖,為了弱化小樣本問(wèn)題,可用PCA將低頻子圖約簡(jiǎn)到100維,以此作為每幅圖形的兩種模態(tài)數(shù)據(jù)。在實(shí)驗(yàn)中將GECCA算法與DCCA[16], CCA[7], LPCCA[10], ALPCCA[12]算法作對(duì)比分析,并且所有算法的最終識(shí)別率均利用基于歐氏距離的最近鄰分類器來(lái)獲得。
XM2VTS人臉數(shù)據(jù)集包含來(lái)自295名志愿者每人4個(gè)會(huì)話中的8幅圖像,圖2為XM2VTS數(shù)據(jù)集中部分人臉圖片。本實(shí)驗(yàn)從每類樣本中進(jìn)行10次隨機(jī)抽取,每次抽取t(t=3,4,5,6)個(gè)樣本作為訓(xùn)練樣本,其余樣本作為本次實(shí)驗(yàn)的測(cè)試樣本。圖3展示了在人臉數(shù)據(jù)集上識(shí)別率隨維度變化情況。
圖2 XM2VTS部分人臉圖像
CCA沒(méi)有考慮數(shù)據(jù)間內(nèi)在幾何關(guān)系和類標(biāo)簽信息,只是將投影后兩模態(tài)間的相關(guān)性最大化,無(wú)法掌握數(shù)據(jù)中非線性幾何結(jié)構(gòu),學(xué)習(xí)的低維特征在圖像識(shí)別中鑒別力不足。LPCCA和ALPCCA都在一定程度上考慮了高維數(shù)據(jù)中的內(nèi)在聯(lián)系,在相關(guān)子空間中盡可能保留數(shù)據(jù)的幾何結(jié)構(gòu);但LPCCA直接利用原始的高維數(shù)據(jù)揭示的局部近鄰結(jié)構(gòu),會(huì)受到高維數(shù)據(jù)中包含的噪聲和冗余信息的影響,保留的局部近鄰結(jié)構(gòu)容易失真,所以識(shí)別效果較差;ALPCCA也使用原始高維數(shù)據(jù),與LPCCA不同,采用的是兩模態(tài)整體近鄰結(jié)構(gòu)的等權(quán)線性表示,因此識(shí)別率要高于LPCCA。DCCA在相關(guān)系分析框架中加入了監(jiān)督信息,對(duì)高維數(shù)據(jù)進(jìn)行約束,具有較高識(shí)別率。
表1 GECCA的算法步驟
GECCA利用成分圖的方式揭示數(shù)據(jù)中各成分之間的聯(lián)系,用成分圖權(quán)重矩陣保留數(shù)據(jù)的幾何流形,并借助類系數(shù)矩陣優(yōu)化成分圖權(quán)重矩陣,使得低維相關(guān)特征更具鑒別力。從圖3中不難看出,在不同個(gè)數(shù)訓(xùn)練樣本下GECCA均展示出最佳識(shí)別率,且識(shí)別率在較低維度時(shí)增幅最快說(shuō)明GECCA提取的特征鑒別能力更強(qiáng)。
圖3 在XM2VTS人臉數(shù)據(jù)集上識(shí)別率隨維度變化情況
Semeion手寫體數(shù)字?jǐn)?shù)據(jù)集包含大約80個(gè)人的1593個(gè)手寫體數(shù)字,每人寫出由0到9的所有數(shù)字。該數(shù)據(jù)集中每類有大量數(shù)據(jù)樣本,因此本實(shí)驗(yàn)從每類中選擇t(t=40, 60, 80, 100)個(gè)樣本用于訓(xùn)練,剩余樣本用作實(shí)驗(yàn)測(cè)試,并進(jìn)行10次隨機(jī)性測(cè)試。圖4為每次隨機(jī)實(shí)驗(yàn)各算法的最佳識(shí)別率立體圖,表2記錄各算法平均最佳識(shí)別率及標(biāo)準(zhǔn)差。
CCA是一種線性方法,無(wú)法發(fā)現(xiàn)隱藏在高維數(shù)據(jù)中的非線性幾何結(jié)構(gòu),因此會(huì)影響識(shí)別性能。LPCCA是將全局非線性轉(zhuǎn)化為局部線性,解決姿態(tài)估計(jì)中的非線性問(wèn)題,但鑒別能力受原始高維數(shù)據(jù)中的噪聲和冗余信息的影響,表現(xiàn)出了較差的識(shí)別性能。ALPCCA對(duì)LPCCA鄰域信息的利用加以改進(jìn),使之鑒別能力得以提升。類標(biāo)簽作為一種重要的監(jiān)督信息,可提升算法的識(shí)別和分類性能,但CCA, LPCCA和ALPCCA均未用到標(biāo)簽信息,因此識(shí)別率均低于包含類標(biāo)簽約束的DCCA。
GECCA通過(guò)圖強(qiáng)化方法將成分圖權(quán)重矩陣和類系數(shù)矩陣線性融合,并將其嵌入到相關(guān)特征學(xué)習(xí)的理論框架中,使其在保留成分?jǐn)?shù)據(jù)間關(guān)系的同時(shí)具有鑒別效果;此外,GECCA對(duì)模態(tài)內(nèi)樣本的散布進(jìn)行約束,使得同類樣本間的距離更近,分類性更強(qiáng)。如圖4所示,不難發(fā)現(xiàn)在訓(xùn)練樣本情況不同時(shí),10次隨機(jī)實(shí)驗(yàn)中GECCA均表現(xiàn)出最佳鑒別能力,這表明GECCA的識(shí)別效果優(yōu)于其他算法。在表2中,GECCA具有最高的平均識(shí)別率和更小的標(biāo)準(zhǔn)差,說(shuō)明GECCA在相同訓(xùn)練樣本下更加穩(wěn)定,有更小的誤差,實(shí)驗(yàn)對(duì)隨機(jī)樣本有更好的魯棒性。
表2 在Semeion手寫體數(shù)字?jǐn)?shù)據(jù)集上的識(shí)別率及標(biāo)準(zhǔn)差
圖4 在Semeion數(shù)據(jù)集中每次隨機(jī)實(shí)驗(yàn)的最佳識(shí)別率
CCA作為一種線性多模態(tài)特征學(xué)習(xí)方法,無(wú)法解決高維數(shù)據(jù)的非線性問(wèn)題。而基于局部領(lǐng)域的特征提取方法的幾何結(jié)構(gòu)往往會(huì)因噪聲和冗余信息存在失真現(xiàn)象,從而影響低維特征的類分離性。在原始高維數(shù)據(jù)中通常包含多種獨(dú)立的數(shù)據(jù)成分,僅使用一個(gè)圖難以反映不同數(shù)據(jù)成分之間的差異。為此,本文提出了一種新的GECCA算法,該方法考慮了原始數(shù)據(jù)中的幾何信息和監(jiān)督信息。采用成分圖權(quán)重矩陣揭示數(shù)據(jù)內(nèi)在本質(zhì)幾何流形;以類系數(shù)矩陣方式增加數(shù)據(jù)的可分類性;以此為基礎(chǔ),通過(guò)圖強(qiáng)化將成分圖權(quán)重矩陣和類系數(shù)矩陣進(jìn)行融合,并嵌入到相關(guān)特征提取框架中,減小直接使用原始數(shù)據(jù)而保留噪聲的影響,同時(shí)增強(qiáng)算法的識(shí)別和分類性能。在XM2VTS人臉數(shù)據(jù)集和Semeion手寫體數(shù)字?jǐn)?shù)據(jù)集上進(jìn)行實(shí)驗(yàn),良好的實(shí)驗(yàn)結(jié)果顯示GECCA是一種有效的圖像識(shí)別算法。
本文為未來(lái)的研究開辟了幾個(gè)有趣的方向。將兩模態(tài)數(shù)據(jù)融合擴(kuò)展至3個(gè)或3個(gè)以上模態(tài)值得進(jìn)一步探究。將全監(jiān)督改為半監(jiān)督也具有十分重要的現(xiàn)實(shí)意義。