王 超,潘正高,路紅梅,李雪竹
宿州學(xué)院信息工程學(xué)院, 宿州,234000
在人的情緒判別和人際交往中,人臉表情識(shí)別起到了重要作用[1,2],因此人臉表情識(shí)別在國(guó)內(nèi)外引起廣泛關(guān)注。目前多種模式識(shí)別的方法被應(yīng)用到人臉表情自動(dòng)識(shí)別中。主分量分析(PCA)[3]算法將人臉數(shù)字圖片轉(zhuǎn)換成一個(gè)矢量,大量樣本集組成一個(gè)矢量集,對(duì)這些矢量集的協(xié)方差矩陣求特征值特征向量。主要特征值對(duì)應(yīng)的特征向量映射下的人臉圖片作為特征人臉進(jìn)行分類。線性判別分析(LDA)[4]算法充分利用類別信息構(gòu)造一個(gè)類間散度矩陣和一個(gè)類內(nèi)散度矩陣并且通過(guò)尋找一組投影向量使得這兩個(gè)散度矩陣的跡之比最大。這組投影向量作用于每一個(gè)樣本使得投影后的人臉樣本稱為fisher臉,并使用這個(gè)fisher臉來(lái)進(jìn)行分類。此外線性特征提取方法還有獨(dú)立分量分析(ICA)[5]。以上算法是對(duì)人臉表情圖片整體直接做特征提取方法然后給分類器分類。
還有一些算法是對(duì)圖像求局部特征和整體特征融合的方法。文獻(xiàn)[6]人臉表情識(shí)別通過(guò)兩個(gè)階段的特征提取,第一階段通過(guò)限制的局部二值模式(LBP)將人臉圖片轉(zhuǎn)變成特征圖片,第二階段對(duì)這些特征圖片利用基于塊的中心對(duì)稱局部二值模式提取具有鑒別信息的特征,然后利用支持向量機(jī)(SVM)分類。文獻(xiàn)[7]融合了PCA和嘴巴部分的LBP特征進(jìn)行人臉表情識(shí)別,利用SVM進(jìn)行分類,在作者自己構(gòu)造的樣本數(shù)據(jù)上取得了比傳統(tǒng)特征提取效果更好的分類結(jié)果。文獻(xiàn)[8]利用了簡(jiǎn)化的局部梯度編碼算法,僅僅采用了水平方向和垂直方向的分量進(jìn)行編碼,在日本女子人臉表情數(shù)據(jù)集(JAFFE)上測(cè)試這個(gè)算法,比傳統(tǒng)的LBP和gabor特征具有更好分類效果而且運(yùn)行時(shí)間上更快。針對(duì)PCA和LBP融合算法對(duì)隨機(jī)噪聲和光照變化容易受影響的特點(diǎn),文獻(xiàn)[9]提出了融合PCA整體特征和局部方向模式(LDP)特征,LDP算子作用于眼部和嘴部提取其局部紋理特征,實(shí)驗(yàn)證明這種融合算法比單獨(dú)使用PCA提取特征或者PCA和LBP融合算法有更好的效果。
流形學(xué)習(xí)算法是非線性特征提取方法,文獻(xiàn)[10]提出一種流形學(xué)習(xí)的方法進(jìn)行人臉表情分類。它基于這樣一個(gè)假設(shè),不同的表情分布在不同的流形上(維數(shù)也未必相同),提出一個(gè)人臉表情建模和分類的整體框架。每種表情的本征特征單獨(dú)學(xué)習(xí),通過(guò)遺傳算法(GA)從分類角度獲取每個(gè)表情流形最佳維數(shù)。分類標(biāo)準(zhǔn)也是新定義的,在表情流形上最小的重建誤差作為分類的判別標(biāo)準(zhǔn)。文獻(xiàn)[11]提出使用改進(jìn)的LBP和類規(guī)則的局部保持投影(LPP),LBP強(qiáng)調(diào)了人臉在特定基準(zhǔn)點(diǎn)的部分信息,另外也增強(qiáng)了面部特征和表情類別的聯(lián)系。LPP通過(guò)降維使得不同類獨(dú)立性最大化,另外也保持了局部特征的相似性。文獻(xiàn)[12]提出了一種有偏的子空間學(xué)習(xí)算法來(lái)魯棒處理非對(duì)齊人臉表情圖片,同時(shí)提出有偏線性判別分析(BLDA),該算法對(duì)于差別很小的類間樣本給予很大的懲罰,對(duì)于差別很大的類間樣本給予很小的懲罰,這樣可有效提取鑒別特征。算法為了更好地利用測(cè)地信息,設(shè)計(jì)了一種加權(quán)有偏差異fisher分析(WBMFA)算法,利用圖嵌入準(zhǔn)則提取鑒別信息,該算法適用于數(shù)據(jù)集不滿足高斯分布的情況。約束差異最大化投影[13](CMVM)算法由2008年李波等提出,應(yīng)用于人臉識(shí)別等領(lǐng)域。該算法在構(gòu)造差異化判決式上利用類別信息,而且在構(gòu)造近鄰關(guān)系判決式上利用了近鄰信息。該算法主要目標(biāo)是保持同類的人臉表情樣本投影后更緊湊,不同類人臉表情樣本投影后更加離散。本文采用此算法在人臉表情識(shí)別領(lǐng)域,是首次嘗試。
CMVM算法的思想來(lái)源于差異最大化展開(kāi)(maxmum variance unfolding MVU)的流形學(xué)習(xí)算法[14,15]。該算法假設(shè)近鄰的樣本之間由剛性桿連接,算法的目標(biāo)是最大化兩樣本之間距離同時(shí)又不破壞近鄰樣本之間的剛性連接。CMVM算法從數(shù)據(jù)降維角度考慮,把原始輸入高維數(shù)據(jù)通過(guò)投影映射到低維空間。這個(gè)過(guò)程中保持了近鄰樣本之間的剛性連接,同時(shí)又最大化兩兩樣本之間的距離。
首先是近鄰樣本選擇,近鄰樣本之間的距離用歐式距離來(lái)度量。有兩種判斷近鄰的方法,一種是(K-Nearest Neighbor,KNN)就是在歐式距離度量的樣本之間尋找距離最小的前K個(gè)樣本。另一種方法叫ε-ball的方法,該方法以中心樣本為圓心,以一定長(zhǎng)度ε為半徑畫超球。超球范圍內(nèi)的樣本,統(tǒng)稱為中心樣本的近鄰樣本。表達(dá)近鄰關(guān)系樣本關(guān)系矩陣的元素定義如下:
(1)
(2)
CMVM算法目的是尋找一個(gè)投影矩陣W,使得投影后的樣本維數(shù)更低同時(shí)更有利于分類。輸入樣本xi∈RN是N維空間中的樣本矢量。投影后的樣本yi∈RM是M維空間中的樣本矢量。其中yi通過(guò)這樣一個(gè)投影關(guān)系式得到y(tǒng)i=WTxi,且滿足M =2tr{Y(P-L)YT} (3) CMVM算法假定同類樣本都嵌入在同一個(gè)流形上,不同類樣本嵌入在不同的流形上。歐式距離大小經(jīng)常來(lái)定義樣本間差異大小。此處用歐式距離平方來(lái)定義不同類的樣本所在流形的差異,使其在歐式距離度量下最大化展開(kāi)。首先構(gòu)造一個(gè)類別關(guān)系矩陣C定義如下: (4) 差異化判決式定義如下: (5) 由線性映射關(guān)系可以得到JL、JD關(guān)系式如下: (6) (7) 根據(jù)算法思想,即使不同類樣本在不同流形上嵌入差異最大,同時(shí)保持所有流形近鄰結(jié)構(gòu)不變??梢缘玫揭韵碌淖顑?yōu)化關(guān)系式。 如引言所述,把整幅圖像看作一個(gè)整體,例如一幅m×n的數(shù)字圖像可以看作是一個(gè)m×n維空間中的一個(gè)點(diǎn)。如何將這個(gè)高維空間中的點(diǎn)有效維數(shù)提取出來(lái),將無(wú)關(guān)的冗余特征除去,將是特征提取算法要完成的任務(wù)。這里使用的特征提取算法有CMVM、LPP、UDP、LDA、MVP等。這些算法將作用在JAFFE日本女人表情人臉數(shù)據(jù)庫(kù)和CK+人臉表情數(shù)據(jù)庫(kù)上。將這些算法作用在這兩個(gè)數(shù)據(jù)庫(kù)上之前,使用了PCA算法來(lái)降維,以避免小樣本問(wèn)題。降維后的數(shù)據(jù)使用KNN分類器來(lái)進(jìn)行分類預(yù)測(cè)類別。 JAFFE(The Japanses Female Facial Expression)數(shù)據(jù)庫(kù)即日本女性面部表情數(shù)據(jù)庫(kù),該數(shù)據(jù)庫(kù)共有213張表情圖片,由10個(gè)女性的7種表情圖片組成(見(jiàn)圖1)。每種表情圖片2-3張照片。算法表示總的識(shí)別率如表1所示??偣灿?13張圖片,前150張作為訓(xùn)練數(shù)據(jù),后163張作為測(cè)試數(shù)據(jù),構(gòu)成一組數(shù)據(jù)。這組數(shù)據(jù)樣本間的差異,不僅有不同表情之間的差異,而且相同的表情樣本之間還有不同個(gè)體之間的差異,相對(duì)來(lái)說(shuō)識(shí)別難度較大。 表1 LPP 、UDP、LDA、MVP、CMVM算法在JAFFE數(shù)據(jù)庫(kù)上總最高識(shí)別率對(duì)比 圖1 JAFFE數(shù)據(jù)庫(kù)七種表情圖片 由表1可知,最高識(shí)別率CMVM高出UDP接近6個(gè)百分點(diǎn),高出LPP接近9個(gè)百分點(diǎn),高出LDA接近11個(gè)百分點(diǎn),高出MVP接近18個(gè)百分點(diǎn)。而且CMVM算法達(dá)到最大識(shí)別率的維數(shù)很小比起LPP和MVP算法。所以本文中使用的CMVM算法在表情識(shí)別上有效。 將5種算法在JAFFE數(shù)據(jù)集的測(cè)試集上不同維度的識(shí)別率用圖2展示出來(lái)。分析圖2可知,CMVM算法總體識(shí)別率最高達(dá)到92.92%,而且識(shí)別率比較穩(wěn)定,在維度為6和7上都達(dá)到了92.92%的識(shí)別率。其他維度上的識(shí)別率也普遍高于LPP算法和UDP算法。UDP算法的識(shí)別率在一些維度上取得了和CMVM算法同樣的識(shí)別率,但是到了28維后,流形學(xué)習(xí)算法LPP,UDP,MVP包括本文算法CMVM下降比較快。高維度時(shí)識(shí)別率下降是值得探討的一個(gè)問(wèn)題。 該數(shù)據(jù)庫(kù)是在 Cohn-Kanade Dataset 的基礎(chǔ)上擴(kuò)展來(lái)的。該數(shù)據(jù)庫(kù)比起JAFFE 要大得多。包含表情的標(biāo)簽和動(dòng)作單元的標(biāo)簽。 該數(shù)據(jù)庫(kù)包括123個(gè)人,593 個(gè)圖像序列,每個(gè)圖像序列的最后一張圖片都有動(dòng)作單元的標(biāo)簽,而在這593個(gè)圖像序列中,有327個(gè)圖像序列有表情的標(biāo)簽。每個(gè)序列圖片都是從中性表情到這個(gè)表情標(biāo)簽的表情一個(gè)序列(圖3所示為CK+數(shù)據(jù)庫(kù)一個(gè)實(shí)驗(yàn)者的七種表情)。因此如何合理區(qū)別中性表情到這個(gè)表情標(biāo)簽是一個(gè)問(wèn)題。也是影響分類準(zhǔn)確度一個(gè)關(guān)鍵點(diǎn)之一。 圖2 LPP、UDP、LDA、MVP、CMVM算法在JAFFE數(shù)據(jù)庫(kù)上不同維度的識(shí)別率 每個(gè)表情選取7張圖片作為測(cè)試,其余5張作為測(cè)試樣本,使用表中列舉的5種算法分別進(jìn)行訓(xùn)練和測(cè)試得到識(shí)別率見(jiàn)表2。 圖3 CK+數(shù)據(jù)庫(kù)七種表情圖 算法LPPUDPLDAMVPCMVM最高識(shí)別率97.26%95.89%95.85%65.75%99.52%維度688168 圖4 LPP、UDP、LDA、MVP、CMVM算法在CK+數(shù)據(jù)庫(kù)上不同維度的識(shí)別率 分析表2可知最高識(shí)別率仍然是CMVM算法達(dá)到99.52%,其次分別是LPP最高識(shí)別率為97.26%,UDP最高識(shí)別率為95.89%,LDA識(shí)別率為95.85%,但是MVP識(shí)別偏低為65.75%。LPP在第6維就達(dá)到了最高識(shí)別率,CMVM、UDP、LDA這三種算法均在第8維達(dá)到了最高識(shí)別率。但是MVP卻在第16維才達(dá)到最高識(shí)別率。將本文所用到的5種算法在不同維度上的測(cè)試準(zhǔn)確率展示如圖4。由圖4分析可知CMVM在11個(gè)維度上都達(dá)到了99.52%的識(shí)別率,而且下降不明顯。LDA算法比較穩(wěn)健,達(dá)到最大值95.85%后則保持該識(shí)別率,且識(shí)別率不隨著維度上升而下降。LPP算法雖然最大識(shí)別率為97.26%,但無(wú)CMVM算法穩(wěn)定,隨著維度增加迅速下降。UDP算法的表現(xiàn)介于LPP和LDA算法中間。MVP算法表現(xiàn)最差,實(shí)驗(yàn)表明MVP算法不適合表情識(shí)別。 本文提出使用約束差異最大化投影這一流形學(xué)習(xí)算法來(lái)進(jìn)行人臉表情數(shù)據(jù)降維分析,通過(guò)在JAFFE和CK+這兩個(gè)數(shù)據(jù)庫(kù)上實(shí)驗(yàn),驗(yàn)證了流形學(xué)習(xí)算法的有效性。進(jìn)一步的工作是推廣這個(gè)算法在實(shí)時(shí)動(dòng)態(tài)的表情識(shí)別上的應(yīng)用,爭(zhēng)取在實(shí)時(shí)識(shí)別上可以達(dá)到每秒30幀的處理速度,識(shí)別效果可以達(dá)到98%以上。另外,差異最大化投影算法在表情識(shí)別數(shù)據(jù)集上表現(xiàn)較差差的原因還有待進(jìn)一步研究。1.3 差異化判決式構(gòu)造
1.4 關(guān)系式改寫
1.5 最優(yōu)化目標(biāo)式
2 實(shí) 驗(yàn)
2.1 JAFFE數(shù)據(jù)庫(kù)上實(shí)驗(yàn)
2.2 CK+數(shù)據(jù)庫(kù)上實(shí)驗(yàn)
3 結(jié) 論