邵 潔,董 楠
(1.上海電力學(xué)院電子與信息工程學(xué)院,上海 200090;2.中國科學(xué)院上海高等研究院城市公共安全研究中心,上海 201203)
人臉表情識別是人機(jī)互動中機(jī)器智能化的重要功能之一.通過“讀懂”人類的臉部表情,機(jī)器可以進(jìn)行情感預(yù)測,并根據(jù)預(yù)測的情感狀況做出相應(yīng)動作或表情等一系列行為.這一功能不僅可以在商業(yè)領(lǐng)域幫助銷售者預(yù)測顧客的需求或廣告投放的精準(zhǔn)率,還能夠在醫(yī)療領(lǐng)域幫助自閉癥患者更好地融入社會.
人的臉部表情是自然情感的對外表達(dá)方式,可以分為開始、頂峰、結(jié)束3個階段.通常情況下,表情僅僅會持續(xù)很短的時間,并且有時只包含臉部肌肉的微小變化,這使臉部表情的識別問題更加具有挑戰(zhàn)性.
現(xiàn)代科學(xué)針對人臉基本表情的識別始于1978 年,ESSA I A 和 PENTLAND A[1]開發(fā)了面部運(yùn)動編碼系統(tǒng)(Facial Action Coding System),將臉部區(qū)域劃分為46個運(yùn)動單元進(jìn)行分析,該系統(tǒng)針對高興、悲傷、驚訝、恐懼、憤怒、厭惡6種常見人臉表情進(jìn)行識別.其后的代表性研究主要有:CALDER A J等人[2]針對PCA在面部表情識別中的應(yīng)用進(jìn)行了分析;BARTLETT M S等人[3]提出了基于獨立分量分析算法(Independent Component Analysis,ICA)的人臉表情識別方法;COHEN I等人[4]將隱馬爾可夫模型(Hidden Malcov Models,HMMs)應(yīng)用于基于動態(tài)信息的面部表情識別;LYONS M J等人[5]通過提取二維小波變換特征,實現(xiàn)了面部表情識別算法等.
本文提出了一種新的基于人臉三維特征點建模,實現(xiàn)自然表現(xiàn)的6種常見表情(高興、悲傷、驚訝、恐懼、憤怒、厭惡)快速識別的算法.算法流程包括特征點提取、特征模型歸一化、基于支持向量機(jī)(Support Vector Machine,SVM)的人臉表情識別3部分.
算法的創(chuàng)新點在于:一是建立了臉部的三維特征點模型;二是實驗數(shù)據(jù)庫中包含中西方各種膚色、人種、年齡,且均為最接近自然狀態(tài)的表情圖像.實驗結(jié)果表明,本算法能夠?qū)崟r處理數(shù)據(jù),實現(xiàn)常見表情的快速識別,具有進(jìn)一步投入實踐的應(yīng)用價值.
臉部表情識別通常包含基于特征點模型的分析方法和基于外表特征的分析方法兩種不同的分析角度.本文的算法屬于第一類.基于特征點模型的人臉表情識別方法的第一步是臉部區(qū)域的特征點定位,一般采用模型匹配的方式實現(xiàn),傳統(tǒng)的臉部特征點模型中最常見的是動態(tài)外貌模型(Active Appearance Model,AAM)和有限局部模型(Constrained Local Model,CLM).[6-7]然而在臉部姿態(tài)多變、形狀差異較大的情況下,這兩類模型的魯棒性仍有不足.因此,本文采用了一種新的基于混合樹模型的臉部特征點定位算法.[8]這一算法將臉部特征點表示為以其為中心的特征模塊,并采用基于特征模塊組合的全局混合樹模型表示不同視角的臉部拓?fù)浣Y(jié)構(gòu),每一個視角的臉部拓?fù)浣Y(jié)構(gòu)與一組全局混合樹模型相對應(yīng).由此,將特征點的檢測過程轉(zhuǎn)化為全局混合模型的模塊全局匹配過程.
以某一全局混合樹模型m為例,將其表示為線性樹結(jié)構(gòu)Tm=(Vm,Em),Vm和 Em分別對應(yīng)該混合模型m的模塊組合方式和邊緣結(jié)構(gòu).將所有可能的特征點模塊組合表示為V,則有Vm?V.針對某臉部圖像 I,采用 li=(xi,yi)表示圖像I中第i個模塊的位置信息,則I中臉部的最優(yōu)模塊組合L={li:i∈V}可以通過下列公式計算得出:
由式(1)可知,最優(yōu)模塊組合方式L由外表特征Appm(I,L)和形狀特征Shapem(L)共同決定.φ(I,li)是圖像I在li位置的梯度特征描述,這里采用HOG算子實現(xiàn).ωmi為混合模型m中在li處出現(xiàn)模塊i的概率權(quán)值,Shapem(L)表示模塊組合L的空間分布,其中dx=xi-xj和dy=yi-yj分別表示第i個模塊和第j個模塊間的位移,采用(a,b,c,d)分別表示每一項的權(quán)值參數(shù).因此,Shapem(L)統(tǒng)計實現(xiàn)了L中任意兩個模塊間的中心點距離的加權(quán)和,由此體現(xiàn)任意模塊間相對位置的空間信息.
算法采用監(jiān)督學(xué)習(xí)的方法計算上述公式中的未知參數(shù).正樣本為標(biāo)注了特征點位置和混合樹模型標(biāo)號的臉部圖像,負(fù)樣本采用沒有人臉的圖像.在首先估計得到各混合模型的邊緣結(jié)構(gòu)Em的前提下,假設(shè)特征點符合高斯分布,采用CHOW C和LIU C[9]的算法確定混合模型中最優(yōu)特征點定位對應(yīng)的最大似然樹結(jié)構(gòu).圖1為12種不同姿態(tài)的人臉特征點模型.其中每一幅圖像對應(yīng)一個臉部姿態(tài),其中包含梯度特征的矩形框為特征點對應(yīng)模塊,矩形框中心連線勾勒出臉部輪廓.
圖1 不同角度人臉特征點模型
獲得臉部特征點位置后,需要建立臉部幾何特征模型.基準(zhǔn)臉部模型中包含83個特征點,分布于眉毛、眼睛、鼻子、嘴和臉部外側(cè)的輪廓上.臉部模型中的特征點位置如圖2所示.
圖2 臉部模型中的83個特征點位置示意
為了針對不同人的表情建立魯棒的匹配模型,需要在去除臉部大小、旋轉(zhuǎn)角度等幾何形變的基礎(chǔ)上提取歸一化形狀特征.本文采用廣義普魯克分析算法(Generalized Procrustes Analysis,GPA)來實現(xiàn)各測試模型的對應(yīng)特征點間的L2距離最小化.
假設(shè)第一個臉部模型為均值模型,以均值模型為參照,分別計算每個臉部模型與該參照的相對距離,并將該距離作為其新坐標(biāo)以實現(xiàn)校準(zhǔn);計算所有臉部模型的平均坐標(biāo),得到一個新的均值模型為參照值;重復(fù)計算各臉部距離與參照間的相對距離,并確定新的均值模型,直到相鄰兩次計算得到的均值模型差足夠小.
圖3顯示了采用GPA算法進(jìn)行臉部模型校準(zhǔn)后得到的6種表情的均值模型.由圖3可以看出,驚訝的表情模型與其他模型有明顯的區(qū)別,而厭惡與恐懼的臉部模型卻非常相似.由于每個臉部模型有83個特征點,每個特征點為3維坐標(biāo),因此最終對應(yīng)每一個臉部模型的特征維數(shù)為83×3=249維.
采用主成分分析算法(Principal Component Analysis,PCA)對特征降維.在實際應(yīng)用中,需要考慮無表情狀態(tài),因此在進(jìn)行表情識別前,要將無表情的面部狀態(tài)作為一種表情類型加入特征模型中.由于人在憤怒或悲傷時可能僅有細(xì)微的臉部肌肉變化,使其與無表情類型難以區(qū)分,因此增加了最終的識別難度.
最終的識別過程采用一對多徑向基函數(shù)核(Radial Basis Function Kernel,RBF)的支持向量機(jī)算法完成.對應(yīng)的核函數(shù)公式為:
訓(xùn)練過程中,以某一表情特征樣本為正樣本,其他所有表情樣本為負(fù)樣本.
驗證算法時采用紐約州Binghamton大學(xué)建立的BU-3DFE數(shù)據(jù)庫,[10]該數(shù)據(jù)庫中包含100個人的2 500個臉部表情樣本,其中有56名女性、44名男性、年齡為18~70歲,以及多個種族,如白人、黑人、東亞、中亞、印度和拉丁人種.數(shù)據(jù)庫中收集了每個人的7種不同表情,包括無表情、高興、厭惡、恐懼、憤怒、驚訝和悲傷.后面6種典型表情提供了4種不同表現(xiàn)程度的圖像,因此每個人有25個不同的表情樣本,每一個表情樣本對應(yīng)一張高清RGB圖像和一張3D網(wǎng)狀圖.樣本圖像如圖4所示.
圖3 6種表情的均值模型
圖4中,第1行圖像為數(shù)據(jù)庫中一組女性的表情樣本,第2行為與女性表情列對應(yīng)的一組男性樣本,圖4中從左到右依次為憤怒、厭惡、恐懼、高興、悲傷、驚訝6種表情.
由圖4可以看出,厭惡、高興和驚訝3種表情相對較易辨認(rèn),而另外3種表情不同的人會產(chǎn)生差距較大的表現(xiàn)形式.如第2行男性的生氣表情僅伴隨細(xì)微的皺眉和抿嘴,與無表情狀態(tài)非常接近.此外,圖4中男性的傷心表情和女性的恐懼表情也并沒有明顯的臉部特征變化.因此,該數(shù)據(jù)庫中的圖像可以被認(rèn)為非常接近人的自然狀態(tài)表情.
圖4 BU-3DFE數(shù)據(jù)庫中的樣本圖像
實驗中共使用了100個人的600張樣本圖像,為了更加客觀地驗證本算法的有效性,在每次實驗中依次取所有樣本的其中5人為測試樣本,其他為訓(xùn)練樣本,在所有樣本均測試過一次后,取平均值為最終識別率,結(jié)果如表1所示.表1中,第1列為測試樣本實際表情,第2至第7列分別為實驗中該表情實際被識別為每一種表情的概率.由表1可以看出,害怕和驚訝是識別率最高的兩種表情.識別率最低的為生氣,這是因為在很多男性樣本中,憤怒的表情僅僅表現(xiàn)為皺眉頭或垂下眼簾,這與悲傷的表情很相近,也非常容易與其他的表情混淆.
表1 6種表情的最終識別率 %
與已有的三維臉部表情識別研究結(jié)果相比,本文提出的算法不僅能夠針對多種不同姿態(tài)的臉部表情進(jìn)行識別,識別算法簡單且快速.
本文提出了一種基于臉部3D特征點模型匹配的人臉自然表情識別算法.區(qū)別于大量已有的研究成果,本算法不僅能夠針對不同角度臉部姿態(tài)中有魯棒性的特征點提取結(jié)果,還能夠針對自然表現(xiàn)的人臉表情進(jìn)行實時識別.算法通過混合樹模型提取臉部特征點,建立基于GPA算法的臉部特征歸一化模型,采用SVM實現(xiàn)臉部表情匹配識別.通過對BU-3DFE數(shù)據(jù)庫中的6種常見表情圖像樣本進(jìn)行測試,結(jié)果表明,該算法能夠有效識別各種年齡、種族、性別的人臉表情.但是算法在某些表情的識別上還有所欠缺,因此在今后的研究中將加入紋理特征,采用特征融合的方式進(jìn)一步提高識別精度.
[1] ESSA I A,PENTLAND A.Coding,analysis,interpretation,and recognition of facial expressions[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,1997,19(7):757-763.
[2] CALDER A J,BURTON A M,MILLER P,et al.A principal component analysis offacialexpressions[J].Vision Research,2001,41(9):1 179-1 208.
[3] BARTLETT M S,LADES H M,SEJNOWSKIT J.Independent component representations for face recognition[C].Proceedings of the SPIE Symposium on Electronic Imaging:Science and Technology,1998:528-539.
[4] COHEN I,GARG A,HUANG T S.Emotion recognition from facial expressions using multilevel HMM[C].NIPS Workshop on Affective Computing,2000:240-247.
[5] LYONS M J,BUDYNEK J,AUKAMATSU S.Automatic classification of single facial images[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,1999,21(12):1 357-1 362.
[6] COOTES T F,EDWARDSGJ,TAYLOR CJ.Active appearance models[J].IEEE Transactionson Pattern Analysis and Machine Intelligence,2001,23(6):681-685.
[7] CRISTINACCE D,COOTES T.Featuredetection and tracking with constrained local models[C].BMVC,2006:929-938.
[8] ZHU X X,RAMANAN D.Face detection,pose estimation,and landmark localization in the wild[C].CVPR,2012:2 879-2 886.
[9] CHOW C,LIU C.Approximating discrete probability distributions with dependence trees[J].IEEE Transactions on Information Theory,1968,14(3):462-467.
[10] YIN L J,CHEN X C,SUN Y,et al.A high-resolution 3D dynamic facial expression database[C].The 8th International Conference on Automatic Face and Gesture Recognition,2008:1-6.