張 童,常佳薇
(北方工業(yè)大學(xué) 電子信息工程學(xué)院,北京 100144)
在計(jì)算機(jī)視覺(jué)和機(jī)器學(xué)習(xí)領(lǐng)域中,自動(dòng)識(shí)別人類自然交流時(shí)的表情已經(jīng)是可以實(shí)現(xiàn)的一件事。在之前的許多探究性研究中都在試圖去分類視頻和圖像中所謂的“基礎(chǔ)表情”(anger, disgust, fear, happiness, sadness and surprise),因?yàn)榛A(chǔ)情緒表情被認(rèn)為是普遍表達(dá)的,它們的動(dòng)態(tài)在日常生活中也是常見(jiàn)的,這就使得基礎(chǔ)情緒成為開(kāi)始訓(xùn)練表情識(shí)別系統(tǒng)的自然選擇。
但是不同的誘發(fā)刺激源,人臉常能表現(xiàn)出相同或相似的表情。在現(xiàn)實(shí)世界里,人們交談時(shí)觀察到對(duì)方臉部的表情變化,或許可以理解這種表情變化意味著什么,但在利用機(jī)器領(lǐng)域工具去分辨這方面還面臨著不少的挑戰(zhàn)。
在課堂的老師與學(xué)生的互動(dòng)中,可以觀察到很多同學(xué)產(chǎn)生了微笑的表情,但是這個(gè)微笑表情是否與課堂內(nèi)容相關(guān),有時(shí)候老師用肉眼根據(jù)經(jīng)驗(yàn)就可以直接判斷。在本實(shí)驗(yàn)研究中,本課題希望建立一套實(shí)驗(yàn),讓機(jī)器也能更好地理解學(xué)生在上課過(guò)程中發(fā)出的微笑背后,到底是一個(gè)怎樣的心理狀態(tài)。
論文的剩余部分如下:第1部分描述了前人相關(guān)的工作;第2部分描述了所做的數(shù)據(jù)實(shí)驗(yàn)和實(shí)驗(yàn)對(duì)象介紹;第3節(jié)描述了數(shù)據(jù)的處理、特征的選取以及對(duì)性能分析進(jìn)行了一般性的討論,并對(duì)問(wèn)題進(jìn)行了更深入的分析。第4節(jié)、第5節(jié)研究了“認(rèn)真學(xué)習(xí)的笑”和“不認(rèn)真學(xué)習(xí)的笑”的特征向量,并提出了一種算法來(lái)區(qū)分。
基礎(chǔ)情緒的研究以及分類已經(jīng)很成熟了,在研究基礎(chǔ)情緒的過(guò)程中,也極大地促進(jìn)了情緒識(shí)別分類等技術(shù)和工具的產(chǎn)生。這些用于將FACS與基礎(chǔ)情緒關(guān)聯(lián)的技術(shù)和工具可以與表演的數(shù)據(jù)或者其他有限制的數(shù)據(jù)有很好的效果。但是對(duì)于自然數(shù)據(jù),這些技術(shù)可能無(wú)法產(chǎn)生令人滿意的效果。在前期的數(shù)據(jù)采集上,可以采用基礎(chǔ)情緒研究所衍生的技術(shù)工具。谷歌、百度、曠世face++、騰訊等知名的公司就已經(jīng)有了開(kāi)源的成熟的API可供調(diào)用,這對(duì)前期的數(shù)據(jù)采集提供了便利。
圖1 現(xiàn)場(chǎng)課堂錄制狀態(tài)Fig.1 Classroom recording status
Mohammad(Ehsan)Hoque的研究在分類Frustrated和Delighted的笑容時(shí),也是基于自然引發(fā)的實(shí)驗(yàn)數(shù)據(jù)進(jìn)行的[1]。Mohammad和他的團(tuán)隊(duì)的工作是創(chuàng)造了兩個(gè)實(shí)驗(yàn)情景引出兩種情感狀態(tài),在區(qū)分這同一表情下的表現(xiàn)出的兩種情感狀態(tài)過(guò)程中,論文中提出的算法實(shí)現(xiàn)了總體準(zhǔn)確率為92%,比人類略高。此研究方法給了人們很大的參考借鑒意義,但是對(duì)于Mohammad在處理笑容強(qiáng)度的維度上,該項(xiàng)目做出了改變,提出了自己的創(chuàng)新性方法。
最主要的挑戰(zhàn)之一就是數(shù)據(jù)集的收集,這也是本實(shí)驗(yàn)最耗時(shí),最昂貴的部分。以往數(shù)據(jù)集的收集過(guò)程都是參與者表演、重現(xiàn)和互動(dòng)的,只有很少的數(shù)據(jù)集是自發(fā)的,而且也沒(méi)有一個(gè)數(shù)據(jù)集是專門針對(duì)上課場(chǎng)景的。
因?yàn)楸狙芯渴菂^(qū)分課堂上笑容表情的內(nèi)在狀態(tài),所使用的數(shù)據(jù)集也必須是來(lái)自課堂教學(xué)環(huán)境下學(xué)生的人臉表情數(shù)據(jù)資料,所以實(shí)驗(yàn)的目的也就是要錄取到學(xué)生上課和老師交流互動(dòng)時(shí)的臉部表情變化。
在實(shí)驗(yàn)視頻錄制方面,該項(xiàng)目采用的是??低暤腄S-2CC597P超寬動(dòng)態(tài)針孔攝像機(jī),輸出設(shè)置為1080p、28fps的實(shí)時(shí)圖像。
共有20名小學(xué)生(3名女生和17名男生)參與了這項(xiàng)研究。他們都不了解研究的假設(shè)。這20名參與者都是橫跨三年級(jí)到五年級(jí)的學(xué)生,年齡在9歲~13歲之間。在這20名參與者中,研究成員收集了71段“認(rèn)真學(xué)習(xí)”時(shí)的笑容表情和“不認(rèn)真學(xué)習(xí)”時(shí)的笑容表情(收集的每個(gè)參與者的片段數(shù)都是不固定的)。在數(shù)據(jù)集中,兩種狀態(tài)的笑容過(guò)程剪輯的平均時(shí)間長(zhǎng)度略多于7s左右。
在以上收集的這些數(shù)據(jù)中,面部表情是都存在的。下面是用于分類的面部特征的描述。
在收集到課題所需要的面部表情數(shù)據(jù)片段后,由于教室環(huán)境的復(fù)雜性,老師和同學(xué)的交流互動(dòng)過(guò)程中都會(huì)造成一個(gè)單獨(dú)攝像頭的視頻幀畫面不止是一個(gè)人臉的情況出現(xiàn),這就需要對(duì)視頻幀圖像進(jìn)行預(yù)處理。
圖2 學(xué)生課堂發(fā)生的一個(gè)微笑片段幀F(xiàn)ig.2 The frame of a smile clip in classroom
在人臉檢測(cè)及提取技術(shù)上,本課題采用的是于仕琪老師的人臉識(shí)別技術(shù);該API既可以檢測(cè)人臉,也可以提取人臉的關(guān)鍵點(diǎn)坐標(biāo)。
在收集到面部表情數(shù)據(jù)片段后,要將視頻內(nèi)容進(jìn)行一次預(yù)處理。將微笑視頻片段分幀并將圖片像素歸一化為400×400的規(guī)格。這里,每個(gè)視頻片段的時(shí)間長(zhǎng)短都是不一樣的,這就造成了訓(xùn)練數(shù)據(jù)維度不一致的問(wèn)題,這個(gè)問(wèn)題在本文后面的章節(jié)回答。
本研究使用于仕琪團(tuán)隊(duì)的面部特征跟蹤器來(lái)跟蹤人臉部的68個(gè)特征點(diǎn):20個(gè)點(diǎn)圍繞在嘴部,12個(gè)點(diǎn)代表眼部(每個(gè)眼睛分布6個(gè)點(diǎn),左右對(duì)稱),10個(gè)點(diǎn)代表眉毛,9個(gè)點(diǎn)顯示出鼻子的輪廓,17個(gè)點(diǎn)代表臉部輪廓。
本課題計(jì)算了原始距離(以像素為單位)、一些部位的角度值以及臉部某些部位的灰度值。這些特征點(diǎn)之間的距離等特征在每一幀中都得測(cè)量,當(dāng)作每一幀微笑圖片的備選特征,所有的特征都在每一幀被追蹤。
實(shí)驗(yàn)一共有71個(gè)片段。對(duì)于每個(gè)片段,研究者提取了每一個(gè)片段每一幀的特征值,連接他們作為一個(gè)向量,這樣每一幀特征值如下:
V={V1,V2,V3,V4.........VN},在這項(xiàng)研究中,由于微笑過(guò)程的隨機(jī)性,所以每一個(gè)微笑片段的幀數(shù)是不確定值。
本研究在提取微笑視頻片段時(shí),發(fā)現(xiàn)很多微笑視頻片段中,有學(xué)生微笑時(shí)頭部擺動(dòng)幅度太大,直接檢測(cè)不到人臉表情的情形。當(dāng)頭部擺動(dòng)幅度小時(shí),在計(jì)算每一幀圖片的微笑強(qiáng)度值的過(guò)程中,也發(fā)現(xiàn)誤差過(guò)大的情況,本項(xiàng)目也不希望廢棄這些偏轉(zhuǎn)角度在一定范圍內(nèi)的微笑視頻片段,畢竟這也是以后項(xiàng)目中要解決的實(shí)際問(wèn)題。
圖3 數(shù)據(jù)處理系統(tǒng)流程圖Fig.3 Data processing system program flow chart
本實(shí)驗(yàn)中采用龔衛(wèi)國(guó)的基于正弦變換的人臉狀態(tài)矯正的方法,通過(guò)這種方法,使得側(cè)面人臉姿態(tài)得到一定角度的姿態(tài)矯正,從而變換成接近正面人臉的數(shù)據(jù)[1]。矯正公式如下:
其中,ɑ是偏轉(zhuǎn)角度,n是人臉圖像的眉心點(diǎn)的坐標(biāo)y值。
在觀察兩種微笑模式數(shù)據(jù)集的特征向量后,發(fā)現(xiàn)不管是“認(rèn)真學(xué)習(xí)時(shí)的微笑”還是“不認(rèn)真學(xué)習(xí)時(shí)的微笑”,特征向量的維度的量級(jí)上沒(méi)有大的區(qū)別,都有不同長(zhǎng)短維度的特征向量。
在本部分,依舊采用了分析部分中的微笑模式的數(shù)據(jù)集,開(kāi)發(fā)一種利用時(shí)間模式將數(shù)據(jù)分類為適當(dāng)類的算法。
該研究運(yùn)用計(jì)算了每一幀微笑圖片的笑容強(qiáng)度值,并作為該幀的特征值[2]。
由于微笑的時(shí)間過(guò)程的不可控性,所以每一個(gè)微笑片段的特征向量是不一樣的。本研究并沒(méi)有采用Mohammad(Ehsan)Hoque的微笑序列的維度長(zhǎng)度不同的處理方式,即在特征向量后面添加零向量到相同的長(zhǎng)度[3]。本項(xiàng)目研究方法是以統(tǒng)計(jì)了微笑強(qiáng)度的柱狀圖作為笑容片段的特征向量。將微笑強(qiáng)度值域劃分成10個(gè)分值段,統(tǒng)計(jì)每一個(gè)分值段中的幀數(shù)占整個(gè)微笑片段幀數(shù)的百分比。這樣做的好處一個(gè)是降低了數(shù)據(jù)的維度,另一個(gè)是保證了數(shù)據(jù)的維度的一致性,可用于訓(xùn)練。這樣,每個(gè)微笑片段的特征數(shù)據(jù)就都變成了一個(gè)維度為10的特征向量。
該研究方法使用特征向量和標(biāo)簽進(jìn)行訓(xùn)練、驗(yàn)證和測(cè)試。Svm是使用的libSVM實(shí)現(xiàn)的[4],以7折交叉驗(yàn)證。
-s/svm類型選擇為2;-t核函數(shù)類型為2,對(duì)應(yīng)的是RBF核函數(shù);-c/cost參數(shù)選擇默認(rèn)為1;-g/gamma參數(shù)設(shè)置為0.7。
在系統(tǒng)迭代560次后,準(zhǔn)確達(dá)到81%,并且穩(wěn)定不變了。
這項(xiàng)實(shí)驗(yàn)的結(jié)果證明本文方法的工作是有效的。根據(jù)訓(xùn)練分類的結(jié)果,對(duì)分類成功的每一段微笑視頻數(shù)據(jù)進(jìn)行對(duì)比后發(fā)現(xiàn),認(rèn)真學(xué)習(xí)的笑容強(qiáng)度數(shù)值主要集中在0.6~0.85之間,且0.85以后幾乎無(wú)分布;不認(rèn)真學(xué)習(xí)時(shí)的微笑強(qiáng)度數(shù)值分布主要集中在0.75~1以上。
同時(shí)也比對(duì)了錯(cuò)誤分類的數(shù)據(jù),經(jīng)過(guò)圖片對(duì)比發(fā)現(xiàn),引起錯(cuò)誤分類的影響因素主要有兩個(gè)原因:一個(gè)是有的微笑的過(guò)程中伴隨著低頭向下看的動(dòng)作,該方向上的數(shù)據(jù)校正沒(méi)有解決;另一個(gè)是微笑過(guò)程中學(xué)生的嘴部仍處于說(shuō)話的狀態(tài)。