陳盛 戴建邦 高翔 嚴以哲 王強
摘? ?要:現(xiàn)代高校課堂教學大多仍是一對多的教學模式。受教師資源的限制,有些基礎(chǔ)課程的班級人數(shù)可達數(shù)百人。對于這種授課情境,教師難以實時獲取全體學生的學習反饋,因此提出采用基于陣列攝像頭獲取全體學生課堂面部表情、判斷知識點教學效果的實時反饋系統(tǒng),可以輔助教師動態(tài)了解學生的學習狀態(tài),以便及時調(diào)整教學方式或進度。通過課堂實驗及課后問卷調(diào)查結(jié)果,表明此反饋系統(tǒng)可有效提高教學質(zhì)量,從而達到更理想的教學效果。
關(guān)鍵詞:情緒識別;面部表情;課堂教學;反饋
中圖分類號:G642 文獻標志碼:A 文章編號:1673-8454(2019)13-0033-04
認知心理學告訴我們:認知加工和情緒加工在大腦的多個層面上是整合在一起的。[1]例如,有些皮質(zhì)結(jié)構(gòu)(如眶額皮質(zhì))通過與負責情緒加工的神經(jīng)結(jié)構(gòu)(如杏仁核)相互作用,將學習過程中的認知與情緒信息整合到一起。[2]部分藥物能夠降低或者增加焦慮對學習的破壞作用。[3]動物實驗表明,如果原本中性的感覺信號被杏仁核加工為具有明顯情緒意義的厭惡信息,老鼠的學習就會受到影響。[4]情緒體驗對學習效率的重要作用啟示我們:營造引導學生誘發(fā)積極情緒的課堂學習氛圍,可以更好地幫助學習者理解課程和進行更有效的學習。
為了更好地誘發(fā)學生積極情緒,需要教師能夠?qū)崟r準確把握學生的學習狀態(tài)。然而目前的高校課堂,特別是基礎(chǔ)課程通常人滿為患,教師難以全面地監(jiān)測學生的學習情緒。隨著近幾年計算機圖像技術(shù)的發(fā)展,基于人臉的情緒識別準確率不斷提高,這為我們構(gòu)建學生課堂學習情緒的實時反饋系統(tǒng)提供了有力的保障。本文在基于學習狀態(tài)的情緒分類基礎(chǔ)上,利用攝像頭陣列,構(gòu)建圖像采集系統(tǒng);實時動態(tài)識別人臉信息;通過特征提取以及情緒分類器完成情緒識別;通過計算機匯總識別信息給出統(tǒng)計結(jié)果并實時呈現(xiàn)給授課教師。這有效提高了教師的授課效果。
情緒作為心理學的一個復(fù)雜概念,在科學文獻中有很多不同的定義。比較通用的一種說法是:情緒是一種可以帶來心里和身體變化的復(fù)雜感覺狀態(tài),這些變化又能夠作用于思想和行為。情緒的分類有很多種,Ekman Paul最早建議將情緒分為厭煩、恐懼、驚嚇、生氣、開心和失望這六個主要類別。[5]2005年他拓展了諸如害羞、滿足、驕傲、愉悅等其他情緒。[6]Robert[7]通過輪式結(jié)構(gòu)總結(jié)了8種不同的情緒以及他們之間的相互關(guān)聯(lián)情況。何祎[8]建立了基于三維情緒模型的學習者情感模型,針對6種外顯表情進行量化表示,然而其對情緒的特征囊括仍不夠全面。目前主流的表情識別方法仍是基于“6+1”的主要分類模式給出對比結(jié)果。然而針對學生的課堂學習情況,還需要研究這6種情緒是否有利于學生學習。我們依據(jù)是否有利于學習設(shè)置了三類,包括對學習起積極作用、起消極作用,以及作用不明顯的情緒狀態(tài)。
為了動態(tài)實時識別出每個學生的情緒狀態(tài),首先需要能夠?qū)崟r檢測出每個學生的頭像信息。基于所選用的攝像頭觀測范圍及分辨率,并考慮到不同的班級學生容量以及教室大小,規(guī)劃出攝像頭的安裝位置。如果教室過大,可采用陣列式的攝像頭布局方式。圖1所示為兩個攝像頭的安裝布局。
面部情緒識別通常需要完成三個基本步驟。第一,進行人臉預(yù)處理;第二,進行人臉情緒特征提取;第三,通過分類器完成情緒類別篩選。其流程如圖2所示。
為了實現(xiàn)面部情緒識別,首先需要進行人臉檢測。人臉檢測是針對圖像中不同尺寸的人臉,給出人臉的位置和大小信息。然而由于一幅圖像中的人臉因前后位置不同,導致頭像大小尺寸不一,難以用統(tǒng)一的識別算法進行情緒分類。因此需要將人臉進行規(guī)范化處理。通過面部特征點定位,對人臉中的關(guān)鍵區(qū)域位置(如眉毛、眼睛、鼻子、嘴等)進行精確定位,再根據(jù)特征點的位置信息將人臉進行對齊到預(yù)先定義的模版,使規(guī)范化后的人臉具有統(tǒng)一的大小,并且人臉各個部位具有相應(yīng)的對應(yīng)關(guān)系。情緒特征提取根據(jù)規(guī)范化后的人臉圖像,提取人臉魯棒性的描述信息;分類器則根據(jù)提取特征信息與已知情緒特征進行相似度比較,判斷是否為所定義的情緒。
1.人臉預(yù)處理
根據(jù)上述攝像頭的安裝布局,每個攝像頭視野內(nèi)包含的學生人數(shù)都不少于1人。所以,為了準確識別每個學生的情緒狀態(tài),首先需要對單幅圖像內(nèi)的人臉信息進行識別。這里用到人臉檢測部分的相關(guān)方法——基于特征的方法、基于模版匹配的方法、基于子空間的方法、基于統(tǒng)計模型的方法、基于神經(jīng)網(wǎng)絡(luò)的方法等。[9]由于背景差異、光線明暗、不同的頭部姿勢等實際檢測情況,在預(yù)處理中,我們還需要對識別出的人臉部分進行對齊、數(shù)據(jù)增強和歸一化等處理。
目前,V&J和dlib是最廣泛使用的兩種人臉檢測器,計算相對簡明。然而這僅針對前臉十分有效,對于多視角的人臉檢測還存在一定問題。近期的一些工作,通過引入可變形零件模型(DPM)來實現(xiàn)人臉檢測,可以有效提高魯棒性和局部準確性。[10]進一步采用級聯(lián)策略,可以提升計算速度。圖3是本文采用人臉檢測算法得出的人臉定位檢測過程。
2.特征學習
對于面部表情識別系統(tǒng)來說,特征提取可以算是最為關(guān)鍵的一步。針對人臉的表情特征, Ekman P[11]提出的FACS人臉分類系統(tǒng)給出了32個面部肌肉動作和14個附加動作描述,如頭部姿勢、注視方向以及其他動作。Wang Y和Guan L[12]采用了1856個紋理特征庫,進行模式匹配。為了有效獲取這些面部特征,可采用Gabor濾波器和離散小波變換來描述。
Gabor小波變換是一種強大的圖像處理算法。它類似于人類視覺系統(tǒng)中的感知,可有效促進圖像邊緣檢測,表情分類嚴重依賴于面部特征的形狀,例如嘴巴、眼睛和眉毛。通過Gabor過濾器進行卷積,以獲得突出顯示這些感興趣區(qū)域的圖像表示。Gabor濾波器的核函數(shù)一般定義為:[13]
ψu,v(z)=e-||ku,v||2||z||2/2σ2eiku,vz-e-σ2/2
其中,u和v定義了Gabor濾波器的方向和比例,而ku,v=kveiφu、φu=πμ/8、kv=kmax/fv表示核函數(shù)的頻率(尺度),f是頻域中的內(nèi)核之間的間隔因子,σ為高斯核函數(shù)的標準差。通常σ=2π,kmax=π/2,而f=。
通過Gabor小波得到關(guān)于臉部表情的特征向量后,可采用目前較大的人臉表情識別公開數(shù)據(jù)庫fer2013數(shù)據(jù)集進行特征訓練,共包含35887張人臉圖片,其中訓練集28709張、驗證集3589張、測試集3589張。數(shù)據(jù)庫中各個樣本在年齡、面部方向等有比較大的差異性,具有一定的實際意義。同時,數(shù)據(jù)庫中的圖片均為灰度圖片,大小為48×48像素,樣本被分為生氣、厭惡、恐懼、開心、中性、傷心、驚訝7類,各種類型分布基本均勻。采用卷積核提取特征逐層由簡單變復(fù)雜,多層卷積核從低級特征,如眉毛的邊緣、眼角的形狀,提取出諸如眼睛、鼻子等高級特征。隨后,這些識別出的高級特征,被送入全聯(lián)通層,劃分為不同情緒。(見圖4)
3.MLP情緒分類器
一旦特征向量通過特征提取獲得,就需要利用所提取的特征向量對表情進行歸類?,F(xiàn)流行的做法是分為7類,包括傷心、生氣、厭惡、開心、驚訝、恐懼和失望等。這里我們采用成熟的多層感知器網(wǎng)絡(luò)(MLP)進行分類處理??疾榱艘幌盗胁煌木W(wǎng)絡(luò)拓撲結(jié)構(gòu)參數(shù)后,輸入層設(shè)計了8400個神經(jīng)元,隱藏層設(shè)計了93個神經(jīng)元,輸出層為7個神經(jīng)元,分別對應(yīng)這7種情緒狀態(tài)。MLP采用sigmoid函數(shù),并采用反向BP網(wǎng)絡(luò)進行訓練,從而減少了陷入局部最優(yōu)的可能。
為了進一步對各種情緒狀態(tài)做出教學改善措施,基于學習狀態(tài)空間將情緒分為三類:對學習起積極作用,起消極作用,影響不明確。通過簡單的情緒狀態(tài)映射,實現(xiàn)了課堂學生學習狀態(tài)的分類,即傷心、生氣、厭惡情緒對應(yīng)消極狀態(tài),開心和驚訝對應(yīng)積極狀態(tài),而正常和恐懼對應(yīng)不明顯的狀態(tài)。同時利用人臉檢測算法特性,檢查高等級人面部特征(包括雙眼、鼻子、兩側(cè)嘴角)。其中認為檢測到不足兩個特征的人臉為低頭,即完全不專注級別;識別出兩個或三個特征為有意識、抬頭,但未直視黑板/教師;識別出四個以上特征的認為注意力集中,直視黑板/教師。同時,情緒識別僅針對能夠識別出四個以上特征的面部進行情緒分類。分類模型如圖5所示。
根據(jù)上述理論搭建了系統(tǒng)測試平臺。測試采用兩個加拿大灰點(Point Grey)公司生產(chǎn)的GS3-U3-51S5M型號攝像頭采集學生頭像信息,其最大分辨率為2448×2048,幀頻可達75fps。處理的主機采用HP筆記本電腦,CPU為intel i7-8550U,內(nèi)存8G,顯卡為英偉達MX150。利用自主開發(fā)的軟件系統(tǒng)進行學生情緒的實時監(jiān)測,根據(jù)攝像頭的焦距和分辨率設(shè)定好拍攝范圍,一副圖像內(nèi)可同時進行辨識情緒的學生人數(shù)7人。
針對45分鐘一堂的《現(xiàn)代測試理論》課程,在教學過程中對學生的狀態(tài)進行跟蹤監(jiān)測,得到在一堂課程時間范圍內(nèi)的情緒變化曲線圖,如圖6所示,其中圖6(a)為正式上課前一段時間,學生并沒有處于聽課狀態(tài),注意力和敏感層次在最低點;圖6(b)為授課到關(guān)鍵內(nèi)容時刻,學生注意力高度集中,情緒以困惑和平靜/不明朗為主,注意力集中度到達最高峰;圖6(c)為知識難點過后的一段時期,學生注意力出現(xiàn)一定程度的下降。
可以看出,在課程前半階段,學生逐漸由課間的注意力低下狀態(tài)轉(zhuǎn)為注意力高度集中狀態(tài),此時困惑狀態(tài)占主導部分。在學生注意力高度集中狀態(tài)持續(xù)一段時間后出現(xiàn)了注意力下降的情況,情緒逐步恢復(fù)平靜。當?shù)秸n堂中后期時,學生的注意力再次提高到相當?shù)母叨龋藭r困惑和平靜占據(jù)主導地位,隨后注意力降低到中等程度。根據(jù)記錄的數(shù)據(jù)進行統(tǒng)計發(fā)現(xiàn),在此課程識別出的所有學生情緒中,積極情緒出現(xiàn)了231次,消極情緒出現(xiàn)了133次,平靜/不明朗的情緒出現(xiàn)了305次,統(tǒng)計結(jié)果如圖7所示。針對學生情緒狀態(tài)的實時變化,教師可以通過改進教學過程中知識點的分布來提高學生注意力。在容易出現(xiàn)注意力不集中或負面情緒時,引入一些改善學生學習情緒的積極措施,例如播放動畫、提問、分組討論等。從而提高學生在一堂課程中的積極情緒占比。
需要說明的是,對于Fer2013數(shù)據(jù)集,人眼的識別準確率也僅有65%左右。通過改進提取特征以及學習網(wǎng)絡(luò)的方法,可以進一步提高機器對表情的識別率。這將是本研究的進一步改進方向。
通過引入該套情緒觀測系統(tǒng),動態(tài)改進課程的教學方案,這樣一堂課程的教案形式不再單一以知識點系統(tǒng)為主線,考慮到學生的動態(tài)情緒變化規(guī)律,進行針對性的改進。例如,《現(xiàn)代測試理論》中的參數(shù)估計內(nèi)容,我們可以根據(jù)上述課程中學生的情緒波動曲線,如圖6(d)所示,有針對性地改進課程教案,如圖8所示。
在課程之初,通過設(shè)置提問環(huán)節(jié),吸引學生注意力,使學生能夠快速進入學習狀態(tài),在情緒波動曲線的低谷處(即較為困難的知識點三和知識點四之間),設(shè)計交互例題,幫助學生消化知識難點,或者通過引入科學典故來緩解學生的持續(xù)緊張情緒,增強學習的樂趣。最后在課程結(jié)尾時(此時情緒波動曲線顯示學生注意力較弱),可以設(shè)置案例視頻進行播放,通過視頻圖像、聲音等綜合感官信息,吸引學生注意力并緩解一整節(jié)課的緊張情緒。為了驗證教學方案改進的效果,我們設(shè)計了調(diào)查問卷,統(tǒng)計結(jié)果顯示改進的教學方案收到的好評比率比原教案高近15%,說明學生對改進的教學方案更加認可。通過上述情緒識別系統(tǒng),動態(tài)改進教學方案,使本學時內(nèi)容的教學效果得到了大幅改善。
[1]官群,姚茹.認知神經(jīng)科學:為教育打開大腦“黑匣子”[J].中國特殊教育,2017(2): 59-64.
[2]Csibra G,Gergely G.Social learning and social cog-nition:The case for pedagogy[M].Attention & Perform-ance,2006(21):249-274.
[3]Cools R,Roberts A C,Robbins T W.Serotoninergicregulation of emotional and behavioural control proces-ses[M].Trends in Cognitive Sciences,2008,12(1):31-40.
[4]Stutzmann G E,Ledoux J E.GABAergic antagonistsblock the inhibitory effects of serotonin in the lateralamygdala: A mechanism for modulation of sensoryinputs related to fear conditioning[J].Journal of Neuro-science,1999,19(11):RC8.
[5]Ekman P.Universals and cultural differences in facial expressions of emotion[J].Journal of Personality & Social Psychology, 1987,53(4):712.
[6]Ekman P.Basic Emotions[M].Handbook of Cognition and Emotion.John Wiley & Sons,Ltd,2005:45-60.
[7]Thamm R A.The classification of emotions[M].Handbook of the sociology of emotions. Springer,Boston,MA,2006:11-37.
[8]何祎.基于情感的課堂教學評價方法研究[D].錦州:渤海大學,2015.
[9]丁春輝.基于深度學習的暴力檢測及人臉識別方法研究[D].合肥:中國科學技術(shù)大學,2017.
[10]Orozco J,Martínez B,Pantic M.Empirical analysis of cascade deformable models for multi-view face detection[J].Image & Vision Computing,2015,42(C):47-61.
[11]Ekman P,& Rosenberg E L.What the face reveals:Basic and applied studies of spontaneous expression using the Facial Action Coding System (FACS)[M].Oxford University Press,USA,1997:425-434.
[12]Wang Y,Guan L.Recognizing Human Emotional State From Audiovisual Signals[J]. IEEE Transactions on Multimedia,2008,10(5):936-946.
[13]Chelali F Z,Djeradi A.Face Recognition Using MLP and RBF Neural Network with Gabor and Discrete Wavelet Transform Characterization: A Comparative Study[J]. Mathematical Problems in Engineering,2015:1-16.
(編輯:王天鵬)