朱原雨潤 王艷霞 張領(lǐng) 王晶儀
摘要:微表情是一種短暫且微弱的面部表情,它揭露了一個(gè)人試圖隱藏的真實(shí)情感,在公安、心理治療等各個(gè)領(lǐng)域都有很好的應(yīng)用前景。目前多數(shù)微表情的識別研究是對整個(gè)面部區(qū)域的運(yùn)動(dòng)特征進(jìn)行提取,實(shí)際上,微表情表現(xiàn)最豐富的部分位于人臉眉毛和嘴巴附近,針對此問題,提出了一種基于12分塊組合特征的降維LBP-TOP微表情識別方法,從微表情發(fā)生的關(guān)鍵部位選取分塊,通過級聯(lián)分塊特征及特征降維處理實(shí)現(xiàn)微表情的特征提取。為驗(yàn)證方法的有效性,進(jìn)行了兩類實(shí)驗(yàn),第一類是與基線的比較,第二類是與其他經(jīng)典微表情分類方法的比較,等價(jià)模式下SAMM數(shù)據(jù)集的3分類準(zhǔn)確率達(dá)到72.93%,F(xiàn)1分?jǐn)?shù)達(dá)到0.66,優(yōu)于現(xiàn)有方法。
關(guān)鍵詞:微表情識別;三正交平面動(dòng)態(tài)紋理特征;分塊特征級聯(lián);感興趣區(qū)域;支持向量機(jī)
中圖分類號:TP3? ? 文獻(xiàn)標(biāo)識碼:B
文章編號:1009-3044(2022)18-0067-04
開放科學(xué)(資源服務(wù))標(biāo)識碼(OSID):
微表情是一種自發(fā)式的表情,它發(fā)生在人類試圖壓抑或隱藏真實(shí)情感時(shí),其特點(diǎn)是發(fā)生迅速、表情強(qiáng)度低且不能自主控制,持續(xù)時(shí)間在1/25~1/5秒以內(nèi)[1],單靠人眼捕捉十分困難。并且在非語言交流形式中如面部表情、語調(diào)和身體姿勢,微表情最有可能揭示一個(gè)人最深層的情感[2]。目前針對微表情研究在現(xiàn)實(shí)生活中的應(yīng)用越來越廣泛如安全領(lǐng)域、臨床醫(yī)學(xué)等,而且近幾年來微表情識別在計(jì)算機(jī)視覺領(lǐng)域引起了研究者們的極大興趣。
采用計(jì)算機(jī)視覺方式的微表情相關(guān)研究方面,鄭亞男[3]提出使用Mo-SIFT算法進(jìn)行特征點(diǎn)定位,取代手工設(shè)定ROI(region of interest),利用尺度不變特征變換(Scale-invariant feature transform,SIFT)[4]定位空間特征點(diǎn),再用光流閾值對這些點(diǎn)進(jìn)行過濾,得到既有大的運(yùn)動(dòng)幅度,又有尺度不變和旋轉(zhuǎn)不變性的微表情特征點(diǎn)。Liong 等[5]利用光流應(yīng)變對各區(qū)域的特征進(jìn)行加權(quán),突出微表情,削減無關(guān)量。Huang等[6]提出了結(jié)合積分投影和LBP(Local Binary Pattern)的特征提取算法,將圖像序列中的各幀減去第一幀以突出微表情消去臉部無關(guān)信息,再向水平和垂直方向進(jìn)行累加投影,用LBP提取投影特征?;谕瑯拥乃悸罚琀uang等用低秩分解[7]提取圖像序列中的微表情,再進(jìn)行Radon變換提取LBP特征[8]。這種做法會比簡單地將各幀減去第一幀得到的微表情信息更加準(zhǔn)確。Wang等[9]提出的LBP-SIP(LBP with six points)只用了六點(diǎn)計(jì)算響應(yīng)值,比LBP-TOP少了兩點(diǎn),在一定程度上減少了特征提取的時(shí)間。
目前多數(shù)微表情識別研究沒有充分利用產(chǎn)生微表情局部區(qū)域的信息特征,而是對整個(gè)面部區(qū)域的運(yùn)動(dòng)特征進(jìn)行提取。整個(gè)面部區(qū)域特征地提取容易受到位置、光照、眨眼等不利因素的干擾,且高分辨率微表情視頻的特征提取計(jì)算資源耗費(fèi)巨大。為了降低LBP-TOP的信息冗余和計(jì)算復(fù)雜度,提出了一種基于12分塊組合特征的降維LBP-TOP微表情識別方法,選出眉毛、鼻子和嘴巴處對于微表情識別特征權(quán)重最高的感興趣區(qū)域,提取該局部區(qū)域的時(shí)空紋理三維度特征,級聯(lián)12個(gè)視頻紋理信息進(jìn)行特征拼接和降維處理。該方法僅在特定的面部區(qū)域內(nèi)提取特征來描述紋理變化,在消除不必要的時(shí)空冗余信息的基礎(chǔ)上保證了微表情識別的準(zhǔn)確率,大大縮短計(jì)算時(shí)間,獲得了更高的識別效率。
1 相關(guān)工作
1.1 局部二值模式
局部二值模式(LBP)[10]是一種常見的特征提取算法。LBP可以很好地處理光照變化圖像,主要解決紋理分析與識別問題。LBP算法主要被應(yīng)用于表情識別和人臉識別領(lǐng)域。該算法的原理是以一張灰度圖像中某一像素點(diǎn)c為中心,選取以R為半徑的P個(gè)鄰域點(diǎn)。如圖1所示,中心點(diǎn)c的LBP編碼LBPPR能夠通過與其鄰域像素點(diǎn)的灰度值比較得到?;叶戎荡蟮泥徲蛸x值為1,反之,賦值為0。從左上角將鄰域值展開得到一個(gè)Binary,將Binary轉(zhuǎn)換為一個(gè)十進(jìn)制數(shù)。
LBPPR的計(jì)算如公式(1)所示:
其中xc和yc為中心點(diǎn)c位置的橫縱坐標(biāo),gc和gp分別為中心點(diǎn)c和鄰域點(diǎn)p的灰度值,s為閾值函數(shù)。
根據(jù)公式(1)可提取二維圖像的空間特征,但微表情視頻圖像是動(dòng)態(tài)序列,具有時(shí)域的信息特征。為了能夠提取微表情視頻的時(shí)空信息特征,趙國英等人[11]提出了一種運(yùn)動(dòng)與外觀特征結(jié)合的動(dòng)態(tài)紋理特征算子(Local Binary Pattern From Three Orthogonal Planes,LBP-TOP)。方向X,Y表示空間坐標(biāo),方向T表示時(shí)間序列,三個(gè)方向軸形成了XY、XT、XY三個(gè)正交平面,LBP-TOP的本質(zhì)就是從以上三個(gè)正交平面中分別獲取特征后再進(jìn)行組合。
1.2 感興趣區(qū)域劃分
面部微表情最富有表現(xiàn)力的部分實(shí)際上是位于眉毛和嘴巴附近,所以在尋找感興趣區(qū)域或掩蔽的過程中,通常會圍繞這兩個(gè)區(qū)域的特定坐標(biāo)點(diǎn)作參考。這樣既可以消除不希望有的面部動(dòng)作引起的噪聲,又可以防止排除太多有意義的信息。表1是對CASME2微表情數(shù)據(jù)集中各個(gè)區(qū)域和動(dòng)作單元出現(xiàn)頻率的統(tǒng)計(jì)。從表中可以看出“眉毛+眼睛”和“嘴巴”區(qū)域是出現(xiàn)頻率最高的,也進(jìn)一步說明了這些區(qū)域是微表情最豐富的區(qū)域。
因此,相較于直接構(gòu)建人臉微表情特征結(jié)合分類器進(jìn)行微表情識別工作,提取人臉關(guān)鍵區(qū)域的聯(lián)合特征作為分類器的輸入更能凸顯出加強(qiáng)信息有效性和減少計(jì)算資源的優(yōu)勢。
2 基于12分塊組合特征的降維LBP-TOP微表情識別方法
2.1 基于12分塊組合特征的降維LBP-TOP微表情識別方法思想
為充分利用產(chǎn)生微表情的局部區(qū)域的信息特征,在眉毛和嘴角處選取了12個(gè)包含大量關(guān)鍵微表情特征的面部區(qū)域,進(jìn)行圖像序列紋理特征的提取、拼接和降維,獲得聯(lián)合的高權(quán)重特征?;?2分塊組合特征的降維LBP-TOP人臉微表情特征提取流程如圖2所示。以一個(gè)微表情視頻為例,以該視頻的第一幀圖像作為模型臉,對第一幀圖像進(jìn)行人臉檢測與人臉特征點(diǎn)定位,以左右眼中心水平夾角計(jì)算出旋轉(zhuǎn)變換矩陣,對微表情視頻所有幀應(yīng)用變換矩陣,將人臉姿態(tài)放水平。根據(jù)眼角與嘴角的特征點(diǎn)確定12分塊,在時(shí)間序列上的每一幀圖像進(jìn)行同樣的分塊定位,形成12個(gè)視頻序列,如圖2虛框(1)內(nèi)所示。每一個(gè)視頻序列可以得到三個(gè)維度的直方圖特征,如圖2虛框(2)內(nèi)所示。最后級聯(lián)12個(gè)直方圖特征進(jìn)行分類,如圖2虛框(3)內(nèi)所示。
2.2 關(guān)鍵面紋理特征提取
微表情變化強(qiáng)度低并且通常只涉及局部運(yùn)動(dòng),從整個(gè)面部提取特征將會引入許多無關(guān)信息,比如無論表情是否發(fā)生,眨眼動(dòng)作都可能出現(xiàn),所以眼睛區(qū)域的信息并不完全可靠。而且由于微表情的變化強(qiáng)度低,很容易受到局部信息的干擾。因此,需要排除無關(guān)區(qū)域的冗余信息,消除不符合預(yù)期面部動(dòng)作的部分。眉毛、嘴巴是微表情發(fā)生最相關(guān)的區(qū)域,含有微表情的關(guān)鍵特征,提供更多有效的表情變化信息;鼻子剛性的運(yùn)動(dòng)可以反映頭部動(dòng)作,選取少量的鼻子關(guān)鍵區(qū)域可以反映出頭部整體的運(yùn)動(dòng)變化,比如害怕情緒帶來的頭部微微后仰。特定區(qū)域提取特征可以排除弱相關(guān)或不相關(guān)信息的干擾,也減少特征提取的時(shí)間及準(zhǔn)確性。
眉毛、鼻子、嘴巴關(guān)鍵區(qū)域的選取如圖3所示,一共有12個(gè)區(qū)域分塊。其中每一個(gè)分塊的邊長等于被試左右內(nèi)眼角之間距離的1/5。以視頻第一幀圖像作為模型臉,對其進(jìn)行人臉檢測與人臉特征點(diǎn)定位,確定出分塊區(qū)域坐標(biāo),用該坐標(biāo)對第一幀以及后續(xù)幀進(jìn)行相同的關(guān)鍵面截取,得到12個(gè)微表情關(guān)鍵序列。然后提取這12個(gè)關(guān)鍵序列的三維度特征并拼接,得到12個(gè)頻次為3×256的直方圖,將其級聯(lián)得到12×3×256維的特征向量作為后續(xù)微表情分類器的輸入。
由于微表情樣本量少,其特征量的長度過長,會導(dǎo)致分類器泛化能力差,因此采用等價(jià)模式(Uniform Pattern)實(shí)現(xiàn)LBP算子的模式種類降維。對于3×3鄰域內(nèi)8個(gè)采樣點(diǎn),二進(jìn)制模式由原始統(tǒng)一模式(Basic Pattern)的256種減少為58種,再加上混合模式的1種,這樣直方圖從原來的256維變成59維,二進(jìn)制模式的種類大大減少,模式數(shù)量由原來的2P種減少為P(P-1)+2種,其中P表示鄰域集內(nèi)的采樣點(diǎn)數(shù)。統(tǒng)計(jì)性的降維方式可以在不丟失微表情運(yùn)動(dòng)關(guān)鍵信息的前提下,減少參數(shù)且不影響分類器的分類能力。
3 實(shí)驗(yàn)與評估
3.1 數(shù)據(jù)集
有效的人臉微表情識別模型依賴于高質(zhì)量微表情數(shù)據(jù)集的支撐,SMIC[12]、CASME2[13]和SAMM[14]微表情數(shù)據(jù)集在相關(guān)研究中被廣泛使用。CASME2數(shù)據(jù)集中所含微表情樣本數(shù)最多,包含249個(gè)微表情視頻樣本,所有的實(shí)驗(yàn)參與者均為中國人。SMIC的參與者來自3個(gè)不同種族,SAMM則克服了微表情數(shù)據(jù)集種族分布不廣泛的局限,擁有來自13個(gè)不同種族的參與者。CASME2和SAMM擁有高幀率數(shù)據(jù),視頻幀率達(dá)到200fps。三個(gè)微表情數(shù)據(jù)集的參與者數(shù)、樣本數(shù)以及幀率信息對比見表2。
其中,各數(shù)據(jù)集分類標(biāo)準(zhǔn)各不相同,CASME2分為了厭惡、高興、壓抑、驚訝和其他,SAMM分為了生氣、高興、輕蔑、驚訝和其他。通過將5分類的情緒類別映射積極、消極和驚訝3個(gè)通用的情緒類別,實(shí)驗(yàn)還將三個(gè)數(shù)據(jù)集合并為了一個(gè)混合數(shù)據(jù)集,將數(shù)據(jù)量擴(kuò)充到了426之多,混合數(shù)據(jù)集的3分類數(shù)目如下表3所示。
3.2 實(shí)驗(yàn)與分析
使用Dlib開源機(jī)器學(xué)習(xí)工具包進(jìn)行特征點(diǎn)定位,基于10代i5處理器16G內(nèi)存的實(shí)驗(yàn)環(huán)境,所有實(shí)驗(yàn)采用RBF核SVM分類器,留一法交叉驗(yàn)證。
3.2.1 與基線方法的比較
LBP-TOP通常作為微表情自動(dòng)識別領(lǐng)域的基線方法。文章實(shí)現(xiàn)了統(tǒng)一模式(降維前)和等價(jià)模式(降維后)下基于12分塊組合特征的降維LBP-TOP微表情識方法與基線方法LBP-TOP在不同數(shù)據(jù)集上的比較。
表4列出了統(tǒng)一模式和等價(jià)模式下所提方法與基線方法的對比實(shí)驗(yàn)結(jié)果,從表中可以看出所提方法在各個(gè)數(shù)據(jù)集上都比基線方法分類效果好。統(tǒng)一模式3分類下,SMIC數(shù)據(jù)集的分類準(zhǔn)確率提高了約22個(gè)百分點(diǎn),CASME2和SAMM數(shù)據(jù)集提高了約10個(gè)百分點(diǎn),SAMM數(shù)據(jù)集的分類F1分?jǐn)?shù)提高突出,上升了0.29,在混合數(shù)據(jù)集上的分類準(zhǔn)確率達(dá)到66.67%。
等價(jià)模式下每個(gè)微表情的特征向量維數(shù)由9216減少到2124,與統(tǒng)一模式相比,CASME2數(shù)據(jù)集的5分類成績提高了2個(gè)百分點(diǎn),SMIC和CASME2數(shù)據(jù)集的3分類效果保持一致。雖然混合數(shù)據(jù)集上的分類成績有略微降低,但換來的是維數(shù)減少帶來的計(jì)算資源的釋放和分類效率的提高。
3.2.2 與其他微表情識別方法的比較
表5給出了不同數(shù)據(jù)集上基于準(zhǔn)確率的不同方法的比較,在SMIC數(shù)據(jù)集上,所提方法的分類效果優(yōu)于方法1至8,但低于方法9和12,與表現(xiàn)最好的方法9 STCLQP相差約4個(gè)百分點(diǎn);在CASME2數(shù)據(jù)集上,所提方法5分類識別效果優(yōu)于8種方法,落后于表現(xiàn)最優(yōu)的STLBP-IP方法約4.5個(gè)百分點(diǎn),3分類識別效果落后Bi-WOOF方法較大,落后12.5個(gè)百分點(diǎn)左右;由于SAMM數(shù)據(jù)集是最新發(fā)布的,在該數(shù)據(jù)集上實(shí)現(xiàn)的方法只有LBP、LBP-TOP和 Bi-WOOF,在SAMM數(shù)據(jù)集上,所提方法5分類識別效果優(yōu)于LBP方法20個(gè)百分點(diǎn)以上,3分類識別效果優(yōu)于Bi-WOOF方法近15個(gè)百分點(diǎn);在混合數(shù)據(jù)集上,所提方法稍落后于Bi-WOOF方法。
所提方法在最新的SAMM數(shù)據(jù)集上的分類表現(xiàn)有著明顯的優(yōu)勢,但在CASME2的3分類上落后較多。經(jīng)過分析數(shù)據(jù)集,發(fā)現(xiàn)CASME2是三個(gè)數(shù)據(jù)集SMIC、CASME2和SAMM中戴眼鏡樣本數(shù)最多的數(shù)據(jù)集,戴眼鏡樣本數(shù)占總樣本的58%,SAMM數(shù)據(jù)集中只占了17%,而關(guān)鍵面的選取包含了鼻梁區(qū)域,鼻梁上的框架眼鏡與皮膚分割明顯,對微表情紋理特征提取影響較大。因此,所提方法更適用于佩戴框架眼鏡樣本較少或者戴眼鏡占比較小的微表情數(shù)據(jù)集,例如在眼鏡占比較小的混合數(shù)據(jù)集上,所提方法的有效性得到證實(shí)。
4 總結(jié)
在微表情識別中,眉毛與嘴巴部分的運(yùn)動(dòng)貢獻(xiàn)了大量的特征信息,因此文章選取眉毛、鼻子和嘴巴處對于微表情識別特征權(quán)重最高的感興趣區(qū)域,提取該局部區(qū)域的時(shí)空紋理特征,并做關(guān)鍵面特征級聯(lián)和統(tǒng)計(jì)性降維處理。在三個(gè)開放數(shù)據(jù)集和一個(gè)混合數(shù)據(jù)集上進(jìn)行了驗(yàn)證實(shí)驗(yàn),實(shí)驗(yàn)表明所提出的方法比較適合SAMM這種戴眼鏡被試占比較小的數(shù)據(jù)集的識別。在今后的工作中,著重改進(jìn)方法的普適性,例如降低鼻梁分塊的權(quán)值或繞過鏡框分塊的位置,以減小眼鏡剛性運(yùn)動(dòng)帶來的影響;使用關(guān)鍵特征與神經(jīng)網(wǎng)絡(luò)相結(jié)合的方式對微表情進(jìn)行分類,進(jìn)一步提高自動(dòng)人臉微表情的識別能力。
參考文獻(xiàn):
[1] Yan W J,Wu Q,Liang J,et al.How fast are the leaked facial expressions:the duration of micro-expressions[J].Journal of Nonverbal Behavior,2013,37(4):217-230.
[2] Ekman P.Telling lies: clues to deceit in the marketplace, politics, and marriage[M].New York: WW Norton & Company, 2009:16-18.
[3] 鄭亞男.微表情檢測與定位關(guān)鍵技術(shù)研究[D].北京:北京交通大學(xué),2016.
[4] Lowe D G.Distinctive image features from scale-invariant keypoints[J].International Journal of Computer Vision,2004,60(2):91-110.
[5] Liong S T, See J, Phan R C W, et al. Subtle expression recognition using optical strain weighted features[C]//Asian conference on computer vision. Springer, Cham,2014:644-657.
[6] Huang X H,Wang S J,Zhao G Y,et al.Facial micro-expression recognition using spatiotemporal local binary pattern with integral projection[C]//2015 IEEE International Conference on Computer Vision Workshop.December 7-13,2015,Santiago,Chile.IEEE,2015:1-9.
[7] Wright J, Ganesh A, Rao S, et al. Robust principal component analysis: Exact recovery of corrupted low-rank matrices via convex optimization[C]//Advances in neural information processing systems. 2009:2080-2088.
[8] Huang X H,Zhao G Y.Spontaneous facial micro-expression analysis using spatiotemporal local radon-based binary pattern[C]//2017 International Conference on the Frontiers and Advances in Data Science (FADS).October 23-25,2017,Xi'an,China.IEEE,2017:159-164.
[9] Wang Y,See J,Phan R C W,et al.Lbp with six intersection points: Reducing redundant information in lbp-top for micro-expression recognition[C]//Asian conference on computer vision. Springer, Cham,2014:525-537.
[10] Ojala T,Pietikainen M,Harwood D.Performance evaluation of texture measures with classification based on Kullback discrimination of distributions[C]//Proceedings of 12th International Conference on Pattern Recognition.October 9-13,1994,Jerusalem,Israel.IEEE,1994:582-585.
[11] Zhao G Y,Pietik?inen M.Dynamic texture recognition using local binary patterns with an application to facial expressions[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2007,29(6):915-928.
[12] Li X B,Pfister T,Huang X H,et al.A Spontaneous Micro-expression Database:Inducement,collection and baseline[C]//2013 10th IEEE International Conference and Workshops on Automatic Face and Gesture Recognition.April 22-26,2013,Shanghai,China.IEEE,2013:1-6.
[13] Yan W J,Li X B,Wang S J,et al.CASME II:an improved spontaneous micro-expression database and the baseline evaluation[J].PLoS One,2014,9(1):e86041.
[14] Davison A K,Lansley C,Costen N,et al.SAMM:a spontaneous micro-facial movement dataset[J].IEEE Transactions on Affective Computing,2018,9(1):116-129.
[15] Gan Y S,Liong S T,Yau W C,et al.OFF-ApexNet on micro-expression recognition system[J].Signal Processing:Image Communication,2019,74:129-139.
[16] Liong S T,Phan R C W,See J,et al.Optical strain based recognition of subtle emotions[C]//2014 International Symposium on Intelligent Signal Processing and Communication Systems (ISPACS).December 1-4,2014,Kuching,Malaysia.IEEE,2014:180-184.
[17] Oh Y H,le Ngo A C,See J,et al.Monogenic Riesz wavelet representation for micro-expression recognition[C]//2015 IEEE International Conference on Digital Signal Processing.July 21-24,2015,Singapore.IEEE,2015:1237-1241.
[18] Xu F,Zhang J P,Wang J Z.Microexpression identification and categorization using a facial dynamics map[J].IEEE Transactions on Affective Computing,2017,8(2):254-267.
[19] Huang X H,Zhao G Y,Hong X P,et al.Spontaneous facial micro-expression analysis using Spatiotemporal Completed Local Quantized Patterns[J].Neurocomputing,2016,175:564-578.
[20] Liong S T,See J,Wong K,et al.Less is more:micro-expression recognition from video using apex frame[J].Signal Processing:Image Communication,2018,62:82-92.
【通聯(lián)編輯:梁書】