付思亞 胡西川
(上海海事大學(xué)信息工程學(xué)院 上海 201306)
隨著人工智能、模式識(shí)別在人們生活中的應(yīng)用場(chǎng)景不斷增加,表情識(shí)別技術(shù)受到廣泛關(guān)注。人臉表情識(shí)別是一個(gè)復(fù)雜的過(guò)程,一般包括預(yù)處理、人臉檢測(cè)、特征提取描述和分類(lèi)識(shí)別等步驟。其中最重要的是對(duì)特征的描述方法。
當(dāng)下在人臉表情識(shí)別方面的常用特征描述方法有局部二值模式(Local Binary Pattern,LBP)[1]、主成分分析(Principal Component Analysis,PCA)[2]、Gabor小波變換[3]、尺度不變線(xiàn)性變換(Scale Invariant Feature Transform,SIFT)[4]、韋伯局部描述子(Weber Local Descriptor,WLD)[5]、線(xiàn)性判別分析(Linear Discriminant Analysis,LDA)[6]等。同時(shí),隨著深度學(xué)習(xí)的發(fā)展,借助神經(jīng)網(wǎng)絡(luò)提取特征并分類(lèi)的方法也層出不窮。
全局特征PCA[2]和LDA[6]方法的優(yōu)勢(shì)是對(duì)全臉輪廓的描述,但兩者在局部信息描述力、光照變化魯棒性方面都有所不足。而描述局部頻率信息的Gabor特征[3]所提取的是多尺度多方向特征,產(chǎn)生的高維特征不利于實(shí)時(shí)處理。LBP[1]局部特征具有灰度和旋轉(zhuǎn)不變性,受光照影響較小,但傳統(tǒng)的LBP算法很難精確描述不同表情區(qū)域的灰度變化,得到的特征不具有方向性,對(duì)圖像的描述力不足。神經(jīng)網(wǎng)絡(luò)提取特征并分類(lèi)的方法雖然具有較高的識(shí)別率,但是對(duì)訓(xùn)練樣本依賴(lài)度高。如何俊等[7]提出將深度殘差網(wǎng)絡(luò)與支持向量機(jī)結(jié)合以實(shí)現(xiàn)表情識(shí)別,徐琳琳等[8]提出構(gòu)建并行神經(jīng)網(wǎng)絡(luò)提取特征,這些方法均對(duì)訓(xùn)練樣本依賴(lài)度高,圖像預(yù)處理用時(shí)久,容易出現(xiàn)過(guò)擬合或欠擬合的情況。
SIFT局部特征提取方法在1999年由Lowe[4]提出,所提取的特征對(duì)旋轉(zhuǎn)、縮放、光照具有良好魯棒性,描述能力較強(qiáng),提出之后便得到廣泛的使用。如Soyel等[9]將SIFT方法選取的極值點(diǎn)作為特征點(diǎn),實(shí)現(xiàn)特征點(diǎn)匹配。然而原始的SIFT方法通過(guò)構(gòu)建尺度空間來(lái)獲取特征點(diǎn),這些特征點(diǎn)的分布位置隨機(jī),不一定分布在與表情密切相關(guān)的區(qū)域,同時(shí)提取的特征點(diǎn)個(gè)數(shù)不一,容易對(duì)后續(xù)的分類(lèi)造成困難。因而,Zheng等[10]提出基于分塊的SIFT特征提取方法,不用預(yù)先標(biāo)注特征點(diǎn),但分塊的數(shù)目及大小難以選擇,描述方法對(duì)姿態(tài)變化比較敏感;Hu等[11]用預(yù)先定義的83個(gè)特征點(diǎn)進(jìn)行SIFT描述,實(shí)現(xiàn)表情識(shí)別;黃忠等[12]提出用AAM[13](Active Appearance Models)定位特征點(diǎn)后進(jìn)行特征描述。這些方法針對(duì)特征點(diǎn)進(jìn)行描述,對(duì)面部特征描述不夠全面,識(shí)別率不足,過(guò)高的特征維數(shù)也導(dǎo)致實(shí)時(shí)性不佳。
2010年Chen等[5]基于韋伯定律提出WLD特征,通過(guò)像素點(diǎn)在鄰域中的灰度變化進(jìn)行描述以提取特征,WLD特征對(duì)光照和噪聲具有良好的魯棒性,在紋理分類(lèi)、人臉識(shí)別等方向受到廣泛應(yīng)用。但原始WLD特征僅描述中心像素點(diǎn)和周?chē)徲蛳袼氐淖兓?,?duì)圖像細(xì)節(jié)信息描述不足。許多針對(duì)原始WLD特征的改進(jìn)由此被提出。如Li等[14]對(duì)原始WLD的差分激勵(lì)算子進(jìn)行頻域加權(quán),增加激勵(lì)的對(duì)比度;Dawood等[15]提出基于多尺度WLD和多級(jí)信息融合的方法;Cui等[16]將WLD直方圖與方差直方圖結(jié)合以提取特征;Ojala等[18]采用高斯拉普拉斯算子提取局部窗內(nèi)的灰度變化,用均勻局部二值模式[19](uniform Local Binary Pattern,uLBP)代替方向算子,增強(qiáng)對(duì)噪聲的魯棒性;郭仙草等[20]利用局部窗內(nèi)像素點(diǎn)間灰度變化的正負(fù)梯度構(gòu)建紋理特征描述符,用uLBP提取灰度等級(jí)變化的空間分布結(jié)構(gòu)信息,將差分激勵(lì)算子與uLBP[19]結(jié)合進(jìn)行特征提取。
為了更好地對(duì)表情圖片進(jìn)行特征提取和表情分類(lèi),本文首先使用級(jí)聯(lián)回歸樹(shù)檢測(cè)關(guān)鍵點(diǎn),篩選與表情密切相關(guān)的關(guān)鍵點(diǎn)作為特征點(diǎn),進(jìn)行基于快版SIFT方法的特征描述,產(chǎn)生D-SIFT特征描述向量;同時(shí)將人臉劃分為四個(gè)表情關(guān)鍵子區(qū)域,使用Prewitt算子對(duì)原始WLD特征描述符作出改進(jìn),對(duì)每個(gè)子區(qū)域進(jìn)行改進(jìn)后的WLD特征描述。將得到的兩種特征進(jìn)行融合,送入SVM分類(lèi)器進(jìn)行最終的表情分類(lèi)。
級(jí)聯(lián)回歸樹(shù)(Ensemble of Regression Trees)方法由Kazemi等[21]在2014年提出。該方法使用兩層回歸來(lái)建立數(shù)學(xué)模型。
第一層回歸的迭代公式為:
(1)
式中:S是形狀向量,存儲(chǔ)著所有臉部關(guān)鍵點(diǎn)的位置;γt是一層的回歸器。每經(jīng)過(guò)一級(jí)級(jí)聯(lián)回歸器,就會(huì)對(duì)所有關(guān)鍵點(diǎn)位置進(jìn)行一次更新來(lái)達(dá)到更正確的位置。第二層回歸采用Gradient Tree Boosting Algorithm的方法得到一系列回歸樹(shù)。
級(jí)聯(lián)回歸樹(shù)的人臉圖像關(guān)鍵點(diǎn)檢測(cè)效果如圖1所示。
圖1 定位關(guān)鍵點(diǎn)
傳統(tǒng)SIFT方法首先通過(guò)高斯金字塔對(duì)圖像建立尺度空間提取特征點(diǎn),計(jì)算特征點(diǎn)在鄰域內(nèi)的梯度直方圖,將所有特征點(diǎn)的計(jì)算結(jié)果級(jí)聯(lián),得到具有尺度不變性、旋轉(zhuǎn)不變性的SIFT特征。
但傳統(tǒng)方法下提取的特征向量特征點(diǎn)數(shù)目過(guò)多,導(dǎo)致維數(shù)過(guò)高,特征提取的實(shí)時(shí)性有所欠缺,而且所提取出的特征點(diǎn)數(shù)量不一,不便于直接用于分類(lèi),快版變體Dense-SIFT特征因此被提出。Dense-SIFT算法指的是通過(guò)指定步長(zhǎng)和大小的patch塊對(duì)圖像進(jìn)行遍歷,以每個(gè)patch塊的中心作為特征點(diǎn),在每個(gè)patch塊中通過(guò)SIFT描述方法對(duì)特征點(diǎn)進(jìn)行描述。
Dense-SIFT算法解決了傳統(tǒng)SIFT算法得到的特征點(diǎn)數(shù)目過(guò)多且數(shù)目不一的問(wèn)題,有良好的實(shí)時(shí)性,并可以根據(jù)特征提取的需要調(diào)節(jié)步長(zhǎng)、patch塊大小,因此更加適合用于表情圖像的特征提取。
Prewitt算子是一階微分算子的邊緣檢測(cè)算子。利用像素點(diǎn)水平、垂直及對(duì)角線(xiàn)方向相鄰像素點(diǎn)的灰度差描述圖像,對(duì)噪聲具有平滑作用。
三種Prewitt算子如圖2所示。
(a) 垂直P(pán)rewitt算子 (b) 水平Prewitt算子
韋伯定律指出,刺激的增量閾值和原始刺激之間的比值是一個(gè)常量,Chen等[5]因此提出WLD特征,通過(guò)分別計(jì)算像素點(diǎn)的差分激勵(lì)ξ(xc)和梯度方向θ(xc)以描述圖像。
WLD特征使用兩個(gè)3×3算子f00和f01計(jì)算當(dāng)前像素在其鄰域內(nèi)的差動(dòng)激勵(lì)ξ(xc),使用兩個(gè)3×3算子f10和f11計(jì)算當(dāng)前像素的梯度方向。算子如圖3所示。
(a) 刺激變化算子f00 (b)原始刺激算子f01
利用算子求出該點(diǎn)差動(dòng)激勵(lì)ξ(xc)及梯度方向θ(xc)如下:
(2)
(3)
(4)
(5)
θ′由θ計(jì)算得出:
(6)
(7)
求出的WLD特征是一個(gè)2D直方圖{WLD(ξj,Φt)},不便直接用于分類(lèi)。因此對(duì)每個(gè)像素用T個(gè)梯度方向均勻劃分成為T(mén)個(gè)一維直方圖H(t)(t=0,1,…,T-1),每個(gè)一維直方圖H(t)(t=0,1,…,T-1)代表它在該方向的差分激勵(lì),再將H(t)(t=0,1,…,T-1)均勻劃分為M個(gè)區(qū)間,得到Hm,t(m=0,1,…,M-1)。
最后將每個(gè)差分激勵(lì)的子區(qū)間進(jìn)一步劃分為S個(gè)小段,即Hm,t={hm,t,s},s=0,1,…,S-1。hm,t,s的值計(jì)算公式如下:
(8)
(9)
有Kronecker差分方程:
得到最終M×T×S維WLD一維直方圖:
H={hm,t,s}m=0,1,…,M-1
t=0,1,…,T-1,s=0,1,…,S-1
(10)
雖然Dense-SIFT方法解決了傳統(tǒng)SIFT方法所提取的特征點(diǎn)數(shù)目不一的問(wèn)題,但Dense-SIFT方法是通過(guò)用patch塊遍歷圖像的方式提取特征點(diǎn),從而導(dǎo)致所提取的特征點(diǎn)位置是由patch塊大小和步長(zhǎng)決定,在圖像上呈現(xiàn)為均勻分布。因此可能存在與表情無(wú)關(guān)的特征點(diǎn)(比如個(gè)別特征點(diǎn)處于頭發(fā)區(qū)域),或是忽視對(duì)表情極為重要的特征點(diǎn),無(wú)法充分描述表情信息,也無(wú)法對(duì)和表情密切相關(guān)的五官處區(qū)域進(jìn)行細(xì)節(jié)的描述。
因此提出D-SIFT方法:預(yù)先通過(guò)級(jí)聯(lián)回歸樹(shù)方法提取出人臉關(guān)鍵點(diǎn),篩選出其中與表情密切相關(guān)的特征點(diǎn),用SIFT方法對(duì)這些特征點(diǎn)進(jìn)行描述。通過(guò)級(jí)聯(lián)回歸樹(shù)方法提取出68個(gè)人臉關(guān)鍵點(diǎn),并對(duì)其進(jìn)行標(biāo)號(hào),結(jié)果如圖4所示。
圖4 68個(gè)人臉關(guān)鍵點(diǎn)
由于人臉輪廓對(duì)于表情表達(dá)影響較小,只留下與表情表達(dá)相關(guān)度高的51個(gè)關(guān)鍵點(diǎn)作為特征點(diǎn)。將該51個(gè)特征點(diǎn)作為patch中心形成patch塊。
本文按照Lowe[4]建議,將所選patch塊劃分為4×4個(gè)子區(qū)域,每個(gè)子區(qū)域作為一個(gè)種子點(diǎn),得到16個(gè)種子點(diǎn),對(duì)每個(gè)種子點(diǎn)計(jì)算其梯度幅值m(x,y)、方向θ(x,y)和該區(qū)域內(nèi)每個(gè)像素點(diǎn)的權(quán)重值w(x,y)。w(x,y)計(jì)算如下:
(11)
將梯度方向均分為8個(gè)方向,通過(guò)求出的每個(gè)像素點(diǎn)梯度值,累計(jì)該種子點(diǎn)在8個(gè)方向上的權(quán)重值,得到該種子點(diǎn)的梯度直方圖。對(duì)每個(gè)種子點(diǎn)繪制其梯度直方圖,得到該特征點(diǎn)的4×4×8維的D-SIFT特征描述。
由圖3可知,原始WLD特征方法在計(jì)算梯度方向時(shí),僅考慮中心點(diǎn)像素上、下、左、右的四個(gè)鄰域像素,對(duì)圖像的局部紋理信息以及空間結(jié)構(gòu)信息描述有所欠缺,丟失了水平方向和垂直方向以外的其他鄰域像素的變化信息。
以圖5為例,對(duì)圖5(a)而言,其本身的像素變化平緩,根據(jù)原始WLD特征方法可求出:
(4-3)+(3-3)+(3-3)+(3-3)]=3
對(duì)圖5(b)而言,其本身像素變化差異很大,根據(jù)原始WLD特征方法可求出:
(1-5)+(1-5)+(1-5)+(1-5)]=-32
(a) 變化平緩 |(b) 跳躍變化圖5 像素變化不同的變化趨勢(shì)示意圖
可以看出,原始WLD特征方法的激勵(lì)算子對(duì)變化平緩的像素會(huì)求出較高的激勵(lì)值,對(duì)變化較大的像素則得到很低的激勵(lì)值,兩者結(jié)果均與圖像本身的變化不符??芍糤LD特征方法在計(jì)算時(shí),可能會(huì)出現(xiàn)正負(fù)相抵消等情況,導(dǎo)致對(duì)圖像灰度變化信息體現(xiàn)較差,對(duì)紋理細(xì)節(jié)的描述力度不足,而且無(wú)法很好地抑制噪聲。
由于Prewitt算子能夠考慮到中心像素的所有鄰域像素,相較原始WLD方法的方向算子和激勵(lì)算子而言,可以更好地提取圖像方向信息、空間結(jié)構(gòu)信息并抑制噪聲。因此本文提出PPWLD方法,使用對(duì)角線(xiàn)Prewitt算子代替原始WLD方法中的梯度方向算子,用垂直P(pán)rewitt算子和水平Prewitt算子代替原始WLD方法中的差分激勵(lì)算子,從而更加有效地提取出圖像的空間結(jié)構(gòu)信息及局部紋理信息。
PPWLD方法的差動(dòng)激勵(lì)ξ(xc)計(jì)算:
(12)
PPWLD方法的梯度方向θ(xc)計(jì)算:
(13)
由于PPWLD特征通過(guò)計(jì)算出的直方圖對(duì)圖像進(jìn)行特征描述,因此該特征對(duì)位置信息和直方圖的劃分區(qū)間較為敏感。兩幅不同的圖像在統(tǒng)計(jì)整幅圖的像素點(diǎn)所屬區(qū)間上或許會(huì)計(jì)算出相同的直方圖結(jié)果,從而造成分類(lèi)結(jié)果出現(xiàn)錯(cuò)誤。
同時(shí),人臉表情圖像本身具有一定相似性,在對(duì)表情進(jìn)行描述時(shí)更需要關(guān)注的是細(xì)節(jié)信息。而圖像拍攝條件、光照等因素也會(huì)對(duì)直方圖特征的識(shí)別結(jié)果造成影響。因此,相較于對(duì)整幅圖像利用直方圖描述,將圖像分塊之后對(duì)每個(gè)分塊分別進(jìn)行描述更加具有細(xì)節(jié)描述力和對(duì)噪聲的抑制力。
通過(guò)實(shí)驗(yàn)嘗試不同的分塊方式,根據(jù)不同分塊方式下的識(shí)別率,選擇使用對(duì)關(guān)鍵表情區(qū)域劃分的方式進(jìn)行區(qū)域PPWLD特征描述,將子區(qū)域描述符級(jí)聯(lián)得到4×(M×T×S)維的特征向量。
D-SIFT通過(guò)計(jì)算五官處特征點(diǎn)鄰域的梯度方向?qū)D像進(jìn)行特征描述,缺失對(duì)圖片中特征點(diǎn)以外的區(qū)域的描述,因此使用對(duì)關(guān)鍵表情區(qū)域進(jìn)行描述的PPWLD彌補(bǔ)D-SIFT的不足,提出結(jié)合預(yù)先提取關(guān)鍵點(diǎn),篩選后進(jìn)行描述的D-SIFT特征與通過(guò)Prewitt算子對(duì)原始WLD進(jìn)行改進(jìn)的PPWLD特征,將兩種特征向量融合,得到最終特征描述符的人臉表情識(shí)別方法。具體步驟如下:
(1) 使用級(jí)聯(lián)回歸樹(shù)提取出人臉圖像的68個(gè)關(guān)鍵點(diǎn),根據(jù)關(guān)鍵點(diǎn)與表情的相關(guān)度篩選出51個(gè)特征點(diǎn);
(2) 每個(gè)特征點(diǎn)的8×8鄰域劃分為該點(diǎn)對(duì)應(yīng)的patch塊,將每個(gè)patch塊分成4×4的子區(qū)域,計(jì)算每個(gè)子區(qū)域的梯度直方圖,級(jí)聯(lián)得到該特征點(diǎn)的4×4×8維D-SIFT特征;
(3) 對(duì)人臉圖像劃分出眉毛、眼睛、鼻子和嘴巴4個(gè)關(guān)鍵表情子區(qū)域;
(4) 計(jì)算出每個(gè)子區(qū)域的差分激勵(lì)和方向激勵(lì),將得到的2D直方圖轉(zhuǎn)化為一維直方圖,得到該子區(qū)域的M×T×S維描述向量;
(5) 將該圖像的所有子區(qū)域的描述向量按照五官分布順序直接進(jìn)行級(jí)聯(lián),得到4×(M×T×S)維的PPWLD特征;
(6) 將D-SIFT特征和PPWLD特征直接級(jí)聯(lián)得到最終的特征向量。
本文實(shí)驗(yàn)環(huán)境為Windows 10操作系統(tǒng),Intel Core i5處理器,8 GB內(nèi)存,用Python語(yǔ)言實(shí)現(xiàn)。
實(shí)驗(yàn)使用JAFFE人臉表情數(shù)據(jù)集、CK+人臉表情數(shù)據(jù)集進(jìn)行測(cè)試分析。
(1) JAFFE數(shù)據(jù)集。JAFFE數(shù)據(jù)集由10位日本女性的7種基本表情(憤怒、厭惡、恐懼、高興、悲傷、驚訝及中性)構(gòu)成,每人每種表情包括3~4幅圖像,總共213幅。部分原始圖像如圖6所示。
圖6 JAFFE數(shù)據(jù)集樣本
(2) CK+數(shù)據(jù)集。CK+數(shù)據(jù)集包括123個(gè)人,593個(gè)表情序列。每個(gè)表情序列均從平靜狀態(tài)開(kāi)始,情緒逐漸增強(qiáng),總共2 940幅。本文選取7種表情(憤怒、蔑視、厭惡、恐懼、快樂(lè)、悲傷及驚訝)進(jìn)行實(shí)驗(yàn)。部分原始圖像如圖7所示。
圖7 CK數(shù)據(jù)集樣本
首先使用級(jí)聯(lián)回歸樹(shù)在原始圖像上檢測(cè)出人臉區(qū)域,標(biāo)記出雙眼位置坐標(biāo)進(jìn)行人臉校正,使校正后的每幅圖像的雙眼均處于水平位置。校正效果如圖8所示。
(a) JAFFE數(shù)據(jù)集
對(duì)校正后的人臉圖像進(jìn)行裁剪,裁去與表情密切度不高的區(qū)域。對(duì)裁剪后的圖像進(jìn)行灰度化,得到預(yù)處理后的圖像,如圖9所示。
(a) JAFFE數(shù)據(jù)集
為了對(duì)比D-SIFT特征相對(duì)于原始SIFT特征的改進(jìn)效果,使用JAFFE數(shù)據(jù)集進(jìn)行測(cè)試。
選取每人每種表情2~3幅圖像進(jìn)行訓(xùn)練,余下進(jìn)行測(cè)試。以表情的識(shí)別率作為衡量指標(biāo),同時(shí)使用原始SIFT特征方法與D-SIFT特征描述方法進(jìn)行實(shí)驗(yàn),兩種方法的patch尺寸均取16。實(shí)驗(yàn)結(jié)果如表1所示。
表1 不同特征方法下的識(shí)別率(%)
可以看出,D-SIFT方法的識(shí)別率高于SIFT方法,說(shuō)明先提取關(guān)鍵點(diǎn),并結(jié)合Dense-SIFT的改進(jìn)方法提高了表情識(shí)別的識(shí)別率,是有效的改進(jìn)。
目前圖像識(shí)別領(lǐng)域常用的分塊方法為4×4分塊、行分塊、列分塊及關(guān)鍵區(qū)域分塊等,考慮到人臉圖像在水平方向具有對(duì)稱(chēng)性,列分塊方式會(huì)造成對(duì)稱(chēng)性的損失;同時(shí),表情識(shí)別的識(shí)別效果和面部五官區(qū)域的關(guān)聯(lián)度較高,因此選擇行分塊和關(guān)鍵區(qū)域分塊的方法在JAFFE數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)比較。
圖10所示為行分塊的結(jié)果圖像,本文采用1、3、6分塊數(shù)目下的識(shí)別結(jié)果進(jìn)行對(duì)比(1行分塊即為原始圖像)。
(a) 3行分塊
圖11所示為關(guān)鍵區(qū)域分塊的結(jié)果圖像(本文選取眉毛、眼睛、鼻子和嘴巴區(qū)域作為關(guān)鍵表情區(qū)域)。
圖11 JAFFE數(shù)據(jù)集眉眼唇鼻區(qū)域結(jié)果圖
實(shí)驗(yàn)選取每人每種表情2~3幅圖像進(jìn)行訓(xùn)練,余下進(jìn)行測(cè)試。以PPWLD特征描述方法的表情識(shí)別率作為衡量每種分塊方式優(yōu)劣的指標(biāo),同時(shí)使用WLD特征方法進(jìn)行同樣的實(shí)驗(yàn),兩者均使用相同的M、T、S值,以對(duì)比PPWLD的改進(jìn)效果。實(shí)驗(yàn)結(jié)果如表2所示。
表2 不同分塊方式下的識(shí)別率(%)
可以看出,PPWLD方法的效果整體優(yōu)于原始WLD方法,說(shuō)明引入Prewitt算子是有效的改進(jìn)方法。同時(shí),在PPWLD方法下,行分塊方式在1塊時(shí)識(shí)別效果最低,僅有64.28%,隨著分塊數(shù)目增加,識(shí)別率升高,6塊時(shí)PPWLD特征描述方法的識(shí)別率達(dá)到95.24%。與行分塊方式相比,關(guān)鍵表情區(qū)域分塊方式具有更高的識(shí)別率,對(duì)WLD方法也有同樣的結(jié)論??芍P(guān)鍵區(qū)域分塊效果優(yōu)于行分塊方式。因此采用關(guān)鍵區(qū)域分塊方式進(jìn)行人臉圖像的表情識(shí)別。
隨機(jī)將JAFFE數(shù)據(jù)集與分成5份,每次選擇其中4份為訓(xùn)練集,余下的作為測(cè)試集。采用5折交叉驗(yàn)證方式進(jìn)行實(shí)驗(yàn)。
使用patch尺寸為16的D-SIFT特征;使用M=6,T=8,S=3的PPWLD特征。將5次的平均識(shí)別率作為在JAFFE數(shù)據(jù)集上的識(shí)別結(jié)果。得到的表情識(shí)別率如表3所示。
表3 JAFFE數(shù)據(jù)集的表情識(shí)別率(%)
可以看出,本文算法在5次交叉實(shí)驗(yàn)中取得的平均識(shí)別率是97.39%,其中憤怒、厭惡、悲傷的錯(cuò)誤識(shí)別相對(duì)較多,出現(xiàn)將憤怒識(shí)別為中性,將厭惡識(shí)別為恐懼的情況,由此檢查原始圖片發(fā)現(xiàn),混淆表情多在五官表達(dá)方面有所類(lèi)似,比如都會(huì)撇下嘴角、皺起眉頭,情緒表達(dá)十分細(xì)微,容易造成誤判。
隨機(jī)將CK+數(shù)據(jù)集分成5份,每次選擇其中4份為訓(xùn)練集,余下的作為測(cè)試集。采用5折交叉驗(yàn)證方式進(jìn)行實(shí)驗(yàn)。使用patch尺寸為16的D-SIFT特征;使用M=6,T=8,S=3的PPWLD特征。將5次的平均識(shí)別率作為在CK+數(shù)據(jù)集上的識(shí)別結(jié)果。實(shí)驗(yàn)得到表情識(shí)別率如表4所示。
表4 CK+數(shù)據(jù)集的表情識(shí)別率(%)
可以看出,本文算法在5次交叉實(shí)驗(yàn)中取得的平均識(shí)別率是99.35%,其中憤怒和蔑視的錯(cuò)誤識(shí)別相對(duì)較多,出現(xiàn)將憤怒識(shí)別為恐懼,將蔑視識(shí)別為悲傷的情況,由此查看原始圖片發(fā)現(xiàn)誤識(shí)別的表情在情緒的表達(dá)中都有皺眉頭、皺鼻子的表現(xiàn),識(shí)別時(shí)容易出現(xiàn)誤判。
將本文算法和其他表情識(shí)別算法進(jìn)行比較,結(jié)果見(jiàn)表5。
表5 不同算法的分類(lèi)準(zhǔn)確率對(duì)比(%)
可以看出,本文算法在JAFFE數(shù)據(jù)集的識(shí)別率低于在CK+數(shù)據(jù)集上的識(shí)別率,這或許是因?yàn)镴AFFE數(shù)據(jù)集是針對(duì)日本女性采集,而亞洲人的表情相對(duì)來(lái)說(shuō)比較含蓄,不像CK+中包含的歐洲等國(guó)家的人的表情情緒明顯。同時(shí),在JAFFE數(shù)據(jù)集和CK+數(shù)據(jù)集的識(shí)別率優(yōu)于其他對(duì)SIFT特征和WLD特征方法進(jìn)行改進(jìn)的方法,與同樣利用Dense-SIFT進(jìn)行改進(jìn)的方法相比,具有更高的識(shí)別率;相較于兩種卷積神經(jīng)網(wǎng)絡(luò)方法的識(shí)別率也具有一定優(yōu)勢(shì)。
與單獨(dú)使用D-SIFT方法及單獨(dú)使用區(qū)域PPWLD方法的表情識(shí)別率對(duì)比,結(jié)合區(qū)域PPWLD和D-SIFT的識(shí)別效果更優(yōu),證明利用兩者結(jié)合的改進(jìn)是有效的。
針對(duì)傳統(tǒng)SIFT特征方法提取的特征點(diǎn)數(shù)目過(guò)多、位置隨機(jī),快版SIFT對(duì)表情識(shí)別針對(duì)性不足,以及傳統(tǒng)WLD特征算法無(wú)法充分反映圖像灰度變化的空間分布結(jié)構(gòu)信息,容易受噪聲干擾的問(wèn)題,提出結(jié)合D-SIFT特征描述和PPWLD特征描述的表情識(shí)別方法。將特征點(diǎn)D-SIFT特征和關(guān)鍵表情區(qū)域PPWLD特征進(jìn)行融合,使用SVM分類(lèi)器分類(lèi)。實(shí)驗(yàn)在CK+和JAFFE數(shù)據(jù)集分別得到99.35%和97.39%的識(shí)別率,說(shuō)明本文方法在改進(jìn)原有方法的不足的同時(shí)取得了較高識(shí)別率。然而,即使提前定位特征點(diǎn)已經(jīng)對(duì)SIFT算法的計(jì)算量進(jìn)行減少,D-SIFT方法的計(jì)算量相比于其他方法而言仍舊略高,如何進(jìn)一步降低計(jì)算量同時(shí)保持較高識(shí)別率仍有待研究;對(duì)于本身具有一定相似性的表情,會(huì)造成誤差的微表情的區(qū)分也需要加強(qiáng)。