劉冀偉,史尹嘉,白 羽,嚴朝雯
(1.北京科技大學自動化學院,北京 100083;2.北京科技大學計算機與通信工程學院,北京 100083)
目前對人狀態(tài)的識別主要有人臉表情的識別、語音語調的識別、人體姿態(tài)的識別以及人體生理信號(如肌肉電、脈搏波、皮膚電、血壓、呼吸等)的識別。相關的研究領域主要是駕駛員疲勞檢測分析。疲勞表情識別已成為國外學者及研究機構的研究熱點,日本、美國及歐洲國家的研究者最為活躍,研究主要有:文獻[1]旨在提出一種檢測是否疲勞駕駛的系統(tǒng),來阻止?jié)撛诘鸟{駛危險。這個系統(tǒng)通過網(wǎng)絡攝影來獲得駕駛員臉部圖像。綜述了現(xiàn)有常見的人臉識別和眼部跟蹤技術,通過在實驗室和現(xiàn)實中的測試給出了測試結果。文獻[2]基于眼瞼運動的算法來實現(xiàn)對是否疲勞駕駛的測定。文中利用層疊分類器的算法來識別人臉,然后通過分析不同圖片得出疲勞狀態(tài)下的眼瞼運動規(guī)則。文中更深層地建立了相應的規(guī)則來判斷一個司機是否疲勞駕駛。實驗結果表明,該算法滿足對駕駛員疲勞狀態(tài)檢測的需求。文獻[3]通過眼睛的狀態(tài)來判斷司機的疲勞駕駛狀況,為了提高實時反應和可靠性建立了一種基于眼部狀態(tài)的監(jiān)測疲勞駕駛狀態(tài)的算法。眼部的感興趣區(qū)域通過最優(yōu)幾何知識從臉部獲取,利用Sobel算子識別邊緣信息來判斷眼部狀態(tài)。文中利用了一種新的整數(shù)估計算法來定位眼部邊緣。
以上研究都是針對特征變化明顯的情況進行處理,兩極分化較為嚴重,處于中間過渡特征的情況較少。并且專注度的分析研究沒有客觀的監(jiān)督作為標準,只是使用人為設計的樣本。本文探索性地提出并設計了一種人臉表情識別和腦電信息監(jiān)督面部圖片專注度的對應模型,通過捕捉和識別任務人的面部表情判斷和理解任務中人的專注度。
本文主要采用與專注度判定關系非常密切的兩個生理指標:面部信息與腦電信息。腦電信息能夠準確地反映任務人的精神狀態(tài),首先對任務人不同狀態(tài)下人臉視頻和腦電信息標識的專注度進行樣本采集。接著對人臉視頻進行人臉檢測跟蹤和特征提取,并將同時刻對應的腦電波專注度作為客觀監(jiān)督。最后設計支持向量機SVM (Support Vector Machine)分類器進行樣本訓練和測試,得到專注度判定分類器,并分析人臉面部與專注度之間相關關系。
本文結構如下:第1節(jié)建立實驗樣本庫;第2節(jié)是面部信息建模;第3節(jié)是面部特征提取;第4節(jié)是SVM面部特征分類;第5節(jié)是實驗與結果分析;第6節(jié)是總結研究。
由于本文需要建立面部信息與腦電信息監(jiān)督下的專注度的相關關系,從而利用面部信息進行專注度判定,所以就需要專門建立一個面部信息與腦電信息標識的專注度相對應的樣本庫。所需硬件設備主要有單目攝像頭和腦電信息采集設備,腦電信息標識的專注度采集設備主要選用名為佰意通的便攜式腦電生物反饋系統(tǒng)。主要步驟如下:
(1) 調試設備,對腦電信息檢測設備以及攝像設備進行調試。樣本采集需要在同樣的環(huán)境條件下,保證被試者不受周圍環(huán)境干擾。
(2) 確定腦電信息誘發(fā)內容,刺激內容分別為放置于測試人員對面的劇情影片、愉快類影片等內容相對比較明確的視頻。
(3) 每次進行15 min錄像以及腦電信息標識的專注度記錄,需要注意表情與腦電信息標識的專注度采集時間必須嚴格同步。采集結束后明確腦電信息記錄數(shù)值的輸出位置以及攝像的每段時間。
(4) 獲取到足夠的樣本后,對視頻進行人臉跟蹤。通過30 fps(30幀/秒)的頻率,以1 s為間隔進行連續(xù)采樣并截取面部圖像。
(5) 將每張面部圖片以及對應1 s采樣的腦電信息標識的注意力數(shù)據(jù)進行整理,作為實驗樣本庫。
表情信息是人情緒的面部表現(xiàn),據(jù)美國心理學家阿爾伯特所列出的公式:表情=55%面部表情+38%語氣+7%語言,所以本文主要考慮人臉表情信息。據(jù)人臉面部表情編碼系統(tǒng)FACS(Facial Action Coding System)的實驗結果,在沒有其它誘導作用下,如果被試者對自己的體驗表達正確,從面部表情到單一的具體情緒狀態(tài)映射的正確率為88%[4],因此可以認為面部表情可以識別情緒狀態(tài)。Ekman設定了6種最基本的表情:驚奇、厭惡、恐懼、憤怒、高興和悲傷[5,6],在不同種族和文化的人中,該6種不同的表情都是比較常見的??紤]到判定注意力的特點,我們沒有必要研究所有的表情信息,只需能夠識別與注意力相關的表情信息即可。為了建模方便,又不失一般性,本文定義了專注、非專注和中性3種與專注度相關的表情,通過判斷這三種表情去判斷目標人的專注度。
對與注意力相關的特征分析后獲得如表1所示的結果。
根據(jù)表1內容分析可知,與專注度判定相關性最大的表情特征相對集中在任務人的眉毛、眼睛以及嘴巴這幾個主要部位。針對這些特征部位,我們定義如下特征表示:
(1)特征一:面部特征點坐標集合;
(2)特征二:眼睛大小,嘴巴張開大小,嘴巴寬度;
Table 1 Facial feature information classification analysis
(3)特征三:眼睛張開程度,嘴巴張開程度,嘴角上下朝向。
本文主要通過以上特征的變化,來進行專注度判定。
由于人臉檢測跟蹤算法已經相對成熟,所以本文直接采用以Harr[7]特征進行人臉檢測的Adaboost人臉識別算法,對樣本視頻人臉表情進行截取處理,得到表情圖片集。
由于采集圖像時人臉的偏轉容易造成特征點位置的變化,為了讓不同圖像的人臉區(qū)域盡量相符,消除不同特征點的位置差異。歸一化主要有兩個方面的要求:第一是圖像大小的歸一化,即圖像縮放到相同的大??;第二是人臉對齊的歸一化,將人臉的主要特征點放置在相同的位置[8]。具體步驟如下:
Step1以鼻尖為中心,做仿射變換,將左右偏移人臉拉正,保證人臉的方向一致性。
Step2設兩眼之間平均距離為d,其鼻尖點為O。
Step3根據(jù)面部特征點確定包含所有特征的最小矩形特征區(qū)域,以O為基準,按照左右各取d、上下各取1.5*d、1*d的矩形區(qū)域進行裁剪。
Step4將截取區(qū)域的圖像通過尺度變換形成統(tǒng)一尺寸,這樣即實現(xiàn)了圖像大小歸一化。得到一個長為2*d,寬為2.5*d的矩形區(qū)域作為歸一化的人臉圖片。
歸一化處理前后的圖片分別如圖1和圖2所示。
Figure 1 Face image before normalized圖1 歸一化前人臉圖片
Figure 2 Face image after normalized圖2 歸一化后人臉圖片
主動形狀模型ASM(Active Shape Model)[9,10]是一種點分布模型,最早被Cootes等人研究提出。ASM是一種基于模型的特征匹配方法,它不但可以靈活地改變模型的形狀來適應目標形狀不確定的特點,還可將形狀的變化控制在模型允許的范圍內,進而保證模型變化時不會受各種因素干擾而出現(xiàn)不合理的形狀。
ASM 實際使用時包含訓練和搜索兩步,其原理是:使用對目標形狀樣本訓練的方法獲得目標形狀的統(tǒng)計知識,用統(tǒng)計知識建立由一系列坐標點的集合表示的形狀模型[11]。ASM利用先前訓練得到的可變模型,去自動搜索由特征點組成的歸一化后的面部圖片。
如圖3所示,當對特征點定位后,提取情感幾何特征。
Figure 3 ASM matching facial feature points圖3 ASM匹配人臉特征點
與特征二、三相關的特征點分布如圖4和圖5所示。
Figure 4 Eye feature points distribution圖4 眼部特征點分布
Figure 5 Mouth feature points distribution圖5 嘴部特征點分布
(1)輸入人臉形狀77個特征點坐標:
(1)
其中,xi是第i個點的橫坐標,yi是第j個點的縱坐標。
(2)初步計算。
左右眼中心垂直高度:
zy=|y36-y32|
yy=|y46-y42|
(2)
左眼左右開度分別為:
zy1=|y35-y33|
zy2=|y37-y31|
(3)
右眼左右開度分別為:
yy1=|y45-y43|
yy2=|y47-y41|
(4)
左右眼寬度分別為:
zyk=|x34-x30|
yyk=|x44-x40|
(5)
嘴巴左右開度分別為:
zk1=|y69-y68|
zk2=|y71-y66|
(6)
(3)進一步計算。
由式(2)~式(6)可以得到整體眼睛張開程度:
(7)
眼睛平均大?。?/p>
yd=(zy+yy)/2
(8)
上嘴唇與下嘴唇的垂直距離:
zk=|y70-y67|
(9)
嘴巴左右邊角的水平距離:
zd=|x65-x59|
(10)
由式(6)、式(9)和式(10)可得到嘴巴張開程度:
(11)
嘴角的上下彎曲程度:
g=(y59+y65)-(y67+y70)
(12)
(4)最終輸出。
根據(jù)以上160維表情特征,構成人臉特征向量表達式:
X=[x1,…,xi,…,x77,y1,…,yj,…,y77,
e,f,g,yd,zk,zd]T
(13)
本文主要采用SVM[12,13]作為表情識別的分類器。由于專注度的監(jiān)督沒有客觀數(shù)據(jù)予以支持,所以為了訓練有監(jiān)督學習分類器,本文選取基于腦電波的專注度監(jiān)督方式,這使得分類器的訓練數(shù)據(jù)更具有客觀性。支持向量機剛開始是設計解決兩類分類問題,不能直接解決多類分類問題,而本文是人臉表情多類別分類問題。目前將SVM推廣到多分類問題的方法主要有兩種[14,15]:一種是通過設計和結合一系列的兩類分類器構成多類分類器;另一種是將多個分類面的參數(shù)求解融合到一個最優(yōu)化問題中,經過求解該最優(yōu)化問題一并解決多分類問題。第二種方法盡管感覺簡單,但在實際求解最優(yōu)問題時變量遠多于第一種方法,訓練速度不快,而且在分類精度上也不具優(yōu)勢。因此,本文采用第一種多分類SVM算法。用投票法來組合這些兩類分類器,所屬的類由得票最多的類判定。
實驗中共采集5個實驗者的面部視頻和腦電信息數(shù)據(jù),使用的表情數(shù)據(jù)集由6 000幅200*200的圖像組成,共展示了3類表情,分別為專注、非專注和中性。圖片選取相對垂直方向傾角在[-15°,+15°]的基本無遮擋的正面人臉,包括不同光照條件下的圖片。
所需實驗環(huán)境:佰意通腦電生物反饋系統(tǒng)、Opencv 2.4.9、VS2010、Libsvm-3.0。
本文SVM分類器采用Libsvm軟件進行訓練和測試,需要將數(shù)據(jù)處理成以下指定格式:[label][index1]:[value1][index1]:[value2]…。其中,label指分類的種類,通常取一些整數(shù)。本文將表情分為3類,則label的值分別定義為1、2和3。index為順序的索引,通常取實數(shù)。value是要訓練的數(shù)據(jù)值,即各個特征點對應的坐標值,用空格隔開各數(shù)據(jù)。最后使用分類器對測試樣本進行分類的結果也是通過生成label的方式。在訓練表情分類器之前,為了避免由于某個特征值過大或者過小,造成在訓練不平衡狀況,我們將對全部數(shù)據(jù)進行歸一化處理,也就是對原始樣本進行縮放。歸一化處理特征點,不但便于數(shù)據(jù)處理,而且能加速訓練網(wǎng)絡的收斂性。本文將縮放范圍設定在[-1,1]。值得注意的是,在歸一化處理過程中要將原始訓練集和原始測試集作為同一個數(shù)據(jù)集來處理。
根據(jù)佰意通對專注度指標的定義“eSense專注度參數(shù)”,指示使用者當前的專注度,該參數(shù)反映了使用者當前的注意力集中程度,eSense參數(shù)以1~100的具體數(shù)值來指示用戶的專注度水平。由此本文將采集到的腦電波專注度進行如下標記劃分:[0,30],[30,70],[70,100],其中,[0,30]為非專注,label設為1;[30,70]為中性,label設為2;[70,100]為專注,label設為3。
實驗中使用4個人的數(shù)據(jù)訓練,1個人的數(shù)據(jù)測試,進行輪換訓練和測試。訓練和測試數(shù)據(jù)比例為4∶1,對訓練數(shù)據(jù)5倍交叉驗證,得到最優(yōu)參數(shù)后進行訓練。本文采用的表情分類器核函數(shù)為徑向基函數(shù)RBF(Radial Basis Function),創(chuàng)建表情分類器使用核函數(shù)時,主要考慮c和γ兩個參數(shù),其中,c是懲罰系數(shù),γ隱含地決定了數(shù)據(jù)映射到新的特征空間后的分布。因參數(shù)的選取并不具有一定的先驗知識,所以要做參數(shù)搜索,以便獲得最優(yōu)的(c,γ)。選取適合創(chuàng)建本文分類器的c和γ,能使分類器更好地預測測試集數(shù)據(jù),從而提高分類器識別率。
本文在實驗過程中分別進行過兩種分類方式的實驗,首先是將專注度分為三類進行訓練和測試,實驗結果如表2所示。發(fā)現(xiàn)分類正確率十分高,經過分析主要是因為佰意通軟件在專注度標記中數(shù)據(jù)條的來回波動,導致數(shù)據(jù)條經常處于過渡中間范圍。數(shù)據(jù)中存在大量中性數(shù)據(jù),三種狀態(tài)數(shù)據(jù)比例相差過大,所以分類器正確率過高。
Table 2 Test results of three classes classifier
于是本文采取將中性值去掉,只保留專注和不專注的數(shù)據(jù)進行訓練和測試。嚴格控制數(shù)據(jù)比例,只對專注和非專注狀態(tài)進行分類識別,得到的結果如表3所示。
Table 3 Test results of two classes classifier
由以上分類結果可知:面部表情與專注度是存在一定的相關關系的,但為弱相關關系。本文訓練的分類器正確率為65%,識別率雖然沒有其他檢測方法高,但是由于使用在腦電信息監(jiān)督下的樣本,所以包含了很多基本狀態(tài)和中間狀態(tài),樣本內容更為豐富實際,基本可以滿足對專注度判定的要求。
本文主要介紹了一種利用人臉面部表情判斷專注度的方法,建立了連續(xù)的人臉面部圖像對應腦電信息的樣本庫,變化覆蓋范圍大,樣本信息豐富,更加符合實際應用。方法上主要通過預先的腦電信息專注度來監(jiān)督面部特征訓練,得到面部表情對應專注度的分類器。研究完成了面部表情與專注度對應關系的建立,解決了智能化判定專注度的問題,為后續(xù)的監(jiān)測評價系統(tǒng)提供了有力的數(shù)據(jù)支持。根據(jù)分類器的識別率,可以看出面部表情信息與專注度是存在一定的相關關系的。但是,從取得的數(shù)據(jù)結果來看,面部表情信息與專注度分類工作準確率有待提高,對于特征提取方面可以繼續(xù)改進,比如加入權值進行訓練。而且專注狀態(tài)的判斷和行為分析還有很多方面,需要后續(xù)對專注度判定行為進行更深一步的挖掘。
[1] Cristiani A,Porta M,Gandini D,et al.Driver drowsiness identification by means of passive techniques for eye detection and tracking [C]∥Proc of the 4th IEEE International Conference on Self-Adaptive and Self-Organizing Systems Workshop,2010:142-146.
[2] Liu Dang-hui,Sun Pen,Xiao Yan-qing,et al.Drowsiness detection based on eyelid movement[C]∥Proc of the 2nd International Workshop on Education Technology and Computer Science,2010:49-52.
[3] Sun Wei, Zhang Xiao-rui,Zhuang Wei,et al.Driver fatigue driving detection based on eye state [J].International Journal of Digital Content Technology & its Applications(JDCTA),2011,5(5):307-314.
[4] Ekman P,Friesen W V.Facial action coding system [M].Palo Alto,CA: Consulting Psychologists Press,1978.
[5] Ekman P,Friesen W.Unmaking the face,a guide to recognizing motions from facial expressions [M].Palo Alto,CA: Consulting Psychologists Press,1975.
[6] Ekman P.An argument for basic emotions [J].Cognition & Emotion,1992,6(3-4):169-200.
[7] Lienhart R,Maydt J.An extended set of Haar-like features for rapid object detection [C]∥Proc of ICIP 2002,2002: 900-903.
[8] Wu Ying-ming,Wang Hsueh-wu,Lu Yen-ling,et al.Facial feature extraction and applications: A review [M]∥Intelligent Information and Database Systems.Berlin:Springer Berlin Heidelberg,2012:228-238.
[9] Cootes T F,Taylor C J,Cooper D H,et al.Active shape models: Their training and application [J].Computer Vision and Image Understanding,1995,61(1): 38-59.
[10] Yu Zhi-wen, Wong Hau-san,Peng Hong,et al.ASM: An adaptive simplification method for 3D point-based models [J].Computer-Aided Design,2010,42(7):598-612.
[11] Sung J W,Kanade T,Kim D J,et al.A unified gradient-based approach for combining ASM into AAM [J].International Journal of Computer Vision,2007,75(2):297-310.
[12] Vapnik V. The nature of statistical learning theory [M].New York:Springer-Verlag,1995.
[13] Patil R A, Sahula V, Mandal A S. Features classification using geometrical deformation feature vector of support vector machine and active appearance algorithm for automatic facial expression recognition [J].Machine Vision and Applications,2014,25(3):747-761.
[14] Khan N M,Ksantini R,Ahmad I S,et al.A novel SVM+NDA model for classification with an application to face rec-ognition [J].Pattern Recognition: The Journal of the Pattern Recognition Society,2012,45(1):66-79.
[15] Owusu E,Zhan Yon-zhao,Mao Qi-rong.An SVM-AdaBoost facial expression recognition system [J].Applied Intelligence,2014.40(3): 536-545.