摘要:微表情的微妙和微表情數(shù)據集的通病,對人臉微表情識別任務提出了巨大挑戰(zhàn),同時也使得該課題具有旺盛的生命力和極高的研究價值。文章闡述了人臉微表情識別的定義,介紹了主流的微表情數(shù)據集,并總結了微表情識別領域中基于三個正交平面局部二值模型的經典方法和基于深度學習的最新技術。
關鍵詞:微表情識別;微表情數(shù)據集;深度學習;面部動作編碼系統(tǒng);三個正交平面局部二值模型
中圖分類號:TP391.4
文獻標識碼:A
文章編號:1006-8228(2020)09-17-03
A survey of micro-expression recognition
Cheng Cun
(school of MathematicsandStatistics, Beijing Technology and Business Unirersity, Beijing 100048. China)
Abstract: Facial micro-expression recognition is faced with an enormous challenge because facial micro-expression is subtle andmicro-expression databases are limited. but in the meantime the significance of micro-expression recognition has posed a hugeattraction to researchers. In this paper, the definition of facial micro-expression recognition is introduced, the commonly used micro-expression databases are summarized, and the classic handcrafted method based on Local Binary Pattern From Three OrthogonalPlanes and the recent techniques based on deep learning in micro-expression recognition are elaborated.
Key words: micro-expression recognition; micro-expression database; deep learning; facial action coding system; Local Binary
Pattern From Three Orthogonal Planes
0引言
人臉表情識別(Facial Expression Recognition)是計算機視覺的一個重要研究課題。隨著深度學習技術的高速發(fā)展,近年來人臉表情識別技術取得了令人矚目的成果,但是本文探討的人臉微表情識別(Microexpression Recognition)不同于常規(guī)的人臉表情識別。微表情是一種自發(fā)式的表情,不同于普通表情,微表情不能隱藏和作假。因此,人臉微表情識別是判斷人主觀情緒的有效手段之一,在公共安全、司法系統(tǒng)、情感分析、心理治療等領域具有重要的應用價值,是智能識別任務中的一個新的研究熱點。
本文闡述了人臉微表情識別的定義,介紹主要的微表情數(shù)據集,并綜述了人臉微表情識別領域中基于三個正交平面局部二值模型的經典方法和基于深度學習的最新技術。
1微表情識別的定義
1.1宏表情與微表情
人臉表情可分類為宏表情和微表情。宏表情是人在日常生活中表現(xiàn)出來的或偽裝出來的表情,而微表情是一種自發(fā)式的表情,在人試圖掩蓋內在情緒時產生,既無法偽造也無法抑制[1]。不同于宏表情,微表情的幅度很小且持續(xù)時間很短,僅為1/25秒至1/5秒[2]。因此,僅憑肉眼識別微表情具有相當大的難度,借助計算機智能識別微表情的要求越來越高。
1.2微表情的分類標準
微表情識別任務是從一段人臉圖像序列中檢測出微表情,并對檢測出的微表情進行分類。微表情的分類有兩種標準:基于情緒的分類和基于面部動作編碼系統(tǒng)(Facial Action Coding System)的分類。
人類的面部表情7類基礎表情分類包括:生氣、厭惡、恐懼、開心、悲傷、驚喜(驚訝)和中立?;谇榫w的微表情分類,在7類基礎表情分類的基礎上對表情細分,通過將單一的基礎表情類別映射到二維空間,其橫軸為情感的正負程度,縱軸為情感的激烈程度,可以細分得到更多的表情類別。
另一種微表情分類的標準是用FACS(Facial ActionCoding System)對微表情進行編碼。FACS是一個面部動作的標注系統(tǒng),由一系列編碼組成,每個編碼是一個動作單元(Action Unit, AU)[]。由于面部動作編碼系統(tǒng)用一個或多個動作單元描述一個表情,從而可以將微表情的分類任務轉換為動作單元的識別。2微表情數(shù)據集
有效的人臉微表情識別模型的建立依賴于高質量的微表情數(shù)據集。目前主要有三個微表情數(shù)據集:SMICHl、CASMEIIm和SAMM[6】。
SMIC數(shù)據集是這三個數(shù)據集中最早發(fā)布的,由于SMIC數(shù)據集對每個微表情只使用了三種情緒分類進行標注,即正面表情、驚喜(驚訝)表情和負面表情,沒有標注FACS編碼,所以相比于CASMEII和SAMM數(shù)據集,SMIC數(shù)據集使用價值不高。而且SMIC數(shù)據集使用的是100幀/秒的攝像機,而CASMEII和SAMM數(shù)據集使用的是200幀/秒的高速攝像機,所以SMIC數(shù)據集的面部分辨率偏低。
CASMEII數(shù)據集在人臉微表情識別領域被廣泛使用。CASMEII數(shù)據集對每個微表情既使用了5種情緒分類進行標注:開心、厭惡、驚喜(驚訝)、壓抑和其他,也有標注FACS編碼,可信度較高。而且,由于CASMEII數(shù)據集使用的是200幀/秒的高速攝像機,面部分辨率可以達到280*340。但是,CASMEII數(shù)據集存在一個問題:由于被測試者都是中科院的學生,這導致年齡分布不均衡,并且只涉及一個種族。
SAMM數(shù)據集優(yōu)于前面兩個數(shù)據集,它的面部分辨率達到了400*400,對每個微表情不僅使用了7種基礎情緒分類進行標注:生氣、厭惡、恐懼、開心、悲傷、驚喜(驚訝)和輕蔑(取代中立),而且標注FACS編碼。SAMM數(shù)據集還有一個優(yōu)點:被測試者年齡分布均勻,種族分布廣泛,涉及到13個種族。雖然SAMM數(shù)據集的使用價值很高,但是它仍不可避免的存在微表情數(shù)據集的通病:樣本量不足和樣本分布不均。樣本量不足導致學習的分類模型欠擬合,樣本分布不均導致數(shù)據量多的標簽識別率明顯高于數(shù)據量少的標簽。
3微表情的識別方法
3.1基于LBP-TOP(Local Binary Pattern FromThree Orthogonal Planes)的經典方法[7]
近年來,人臉微表情的識別已經成為了學界的熱點問題之一,研究人員提出了很多方法解決微表情的識別問題,其中基于LBP-TOP(Local Binary PatternFrom Three Orthogonal Planes)的方法極具代表性,這種具有三個正交平面的局部二值模型是對傳統(tǒng)的LBP算法的時空擴展。早期的人臉微表情識別方法是提取單幀人臉圖像的LBP特征去識別微表情,LBP-TOP算法創(chuàng)新性地提出了對連續(xù)人臉圖像視頻的微表情識別,試圖從運動的角度描述人臉微表情。
在LBP-TOP算法中,引入時間軸T軸,從而得到水平時域平面XT和垂直時域平面YT,分別對XY平面(單幀人臉圖像)、XT平面和YT平面提取LBP特征,再拼接起來得到LBP-TOP特征。由于LBP-TOP特征記錄了微表情的動態(tài)紋理,從而可以更好地捕捉微表情的變化,比傳統(tǒng)的LBP特征有更強的描述能力。
3.2基于深度學習的最新方法
最新的微表情識別方法是將深度學習技術應用到微表情的識別任務中,主要有兩種方式:①傳統(tǒng)方法與深度學習相結合,提取人工特征,利用深度學習技術學習分類模型;②純深度學習的方法,學習深度特征,訓練分類網絡。
STSTNet(Shallow Triple Stream Three-dimensionalCNN) for Microexpression Recognition[3]是將傳統(tǒng)方法與深度學習結合的較優(yōu)秀的工作。該算法先用光流法對人臉視頻序列提取特征,然后用添加了時間維度的3DCNN訓練特征學習分類器。人工特征提取與深度學習技術相結合在理論上可以取長補短,但是受到光流法的影響,STSTNet不能應用于現(xiàn)實場景。光流法是計算相鄰幀之間物體運動信息的一種方法,該方法有兩個前提假設:①相鄰幀之間對應像素點的灰度值不變;②相鄰幀之間物體的運動微小。由于這兩個要求在真實場景下不能滿足,導致STSTNet模型的可靠性較差。
由于采集高質量的微表情數(shù)據集相當困難,應用深度學習技術識別人臉微表情時,為了從一定程度上解決數(shù)據量不足的問題,通常將數(shù)據集CASMEII、SMIC和SAMM整合在一起。并且,為了提高人臉微表情識別率,通常將復雜的人臉微表情識別任務簡化為3分類任務:正面、負面、驚喜或驚訝。論文Micrex-pression Action Unit Detection with Spatio-temporalAdaptive Pooling[9]是在基于深度學習的人臉微表情識別領域中極具開創(chuàng)性的工作,作者提出了通過檢測構成微表情的AUs去識別人臉微表情的方法?;贏Us檢測的情緒識別在宏表情識別領域廣泛流行,但是在微表情識別領域面臨巨大挑戰(zhàn)。雖然使用AUs而不是情緒標簽可以更加精準地描述微表情,但是基于AUs的人臉微表情識別主要困難如下:①微表情中的AUs微小且持續(xù)時間短,導致區(qū)別度過低;②微表情數(shù)據集中的AUs類別不平衡,導致學習的分類模型存在無法回避的誤差。在文獻[9]中,作者通過在時域上的adaptive pooling在一定程度上解決了人臉微表情AUs區(qū)別度過低的問題。并且,作者通過使用Fo-cal Loss[10]試圖解決樣本分布不均的問題。
Focal Loss是何凱明團隊在2018年提出了一種新的損失函數(shù)。
在二分類問題,正樣本xp的類別向量是(1,0),負樣本xn的類別向量是(1,0),網絡預測的分類結果是,(p,1-p)其中p是預測為正樣本的概率,1-p是預測為負樣本的概率。
對于正樣本xp,其交叉熵Loss為:
CE(xp)=一[1×log(p)+0×log(1-p)]=-log(p)(1)
對于負樣本xn,其交叉熵Loss為:
CE(xn)=-[0×log(p)+1×log(1-p)]=-log(1-p)(2)
所以,有
(3)其中y=l表示y是正樣本。
為方便起見,定義
(5)
現(xiàn)在,對交叉熵Loss添加一個調節(jié)因子(1一pt)γ,其中γ≥0,得到Focal Loss:
FL(pt)=-(1-pt)γlog(pt)
(6)
Focal Loss在交叉熵Loss的基礎上添加調節(jié)因子,是希望在Loss函數(shù)里,對分類清晰的樣本給一個小的權重,而對分類困難的樣本給一個大的權重,以使模型更加集中于困難的錯誤分類的樣本。在文獻[9]中,作者通過使用Focal Loss自適應地降低樣本數(shù)多的AU標簽的權重,從而注重樣本數(shù)低的AU標簽,從一定程度上解決了樣本分布不均的問題。
4結束語
在人臉微表情識別領域,傳統(tǒng)的方法已經取得了良好的性能,但是需要復雜的實驗設計和繁瑣的參數(shù)調整才能獲得理想的結果,所以這些傳統(tǒng)算法并不適用于脫離實驗室場景下的微表情識別任務。近年來,人臉微表情識別領域中的一個研究熱點是應用深度學習進一步提高微表情識別的準確性,并嘗試將微表情識別應用于真實場景。但是,微表情數(shù)據集的樣本量不足和樣本分布不均對基于深度學習的人臉微表情識別算法提出了巨大挑戰(zhàn)。
參考文獻(References):
[1]Ekman P.Darwin. Deception and Fical Expression. Annalsof the New York Academy of Sciences, 2003.1000:205-221
[2]Yan W J,Wu Q,Liang J,Chen Y H,F(xiàn)u X L.How fast arethe leaked facial expressions:the duration of microex-pressions. Journal of Nonverbal Behavior, 2013.37(4):217-230
[3]Ekman P,F(xiàn)riesen W V.Facial Action Coding System. PaloAlto: Consulting Psychologists Press, 1977
[4]Li X B,Pfister T,Huang X H,Zhao G Y,Pietikainen M.Aspontaneous micro-expression database: inducementcollection and baseline. In: Proceedings of the lOthIEEE International Conference and Workshops onAutomatic Face and Gesture Recognition. Shanghai,China: IEEE.2013:1-6
[5]Yan W J,Li X B,Wang S J,Zhao G Y,Liu Y J,Chen Y H,F(xiàn)u X L.CASMEII: An improved spontaneous microex-pression database and the baseline evaluation. PLoSOne, 2014.9(1):e86041
[6]Adrian K.Davison, Cliff Lansley, Nicholas Costen. KevinTan, MoinHoon Yap. SAMM:A spontaneous micro-facial movement dataset,IEEE Transactions on AffectiveComputing,2016.
[7]Zhao G Y,Pietikainen M.Dynamic texture recognitionusing local binay patterns with an application to facialexpressions. IEEE Transactions on Pattern Analysisand Machine Intelligence,2007.29(6):915-928
[8]Sze-Teng Liong,Y.S.Gan, John See, Huai-Qian Kher,Yen-Chang. Shallow Triple Stream Three-dimensionalCNN (STSTNet) for Micro-expression Recognition,arXiv: 1902.03634v2,2019.
[9] Yante Li, Xiaohua Huang, Guoying Zhao. Micro-expressionAction Unit Detection with Spatio-temporal AdaptivePooling, arXiv: 1907.05023v1,2019.
[10] Tsung-Yi Lin, Priya Goyal Ross Girshick, Kaiming He.Focal loss for dense object detection. arXiv:1708.02002v2,2018.
收稿日期:2020-05-27
作者簡介:程村(1977-),女,湖北安陸人,博士,講師,主要研究方向:圖像識別,高等數(shù)學教學研究。