蘇 悅,楊春金,王建霞
(1.河北科技大學(xué)信息科學(xué)與工程學(xué)院,河北石家莊 050018;2.河北太行機(jī)械工業(yè)有限公司,河北石家莊 052160)
隨著人工智能的快速發(fā)展和不斷完善,在線學(xué)習(xí)已成為各類教育教學(xué)的新常態(tài)[1]。特別是2019年新型冠狀病毒疾病爆發(fā)后,各大高校線下教學(xué)率大幅度下降。線上教學(xué)模式不斷地走進(jìn)學(xué)生們的日常生活中。與傳統(tǒng)的線下課堂教育模式相比,線上教學(xué)擁有更加豐富的學(xué)習(xí)資源,學(xué)生可以在課后重溫課上視頻進(jìn)行復(fù)習(xí)[2]。然而,對(duì)于教師來(lái)說(shuō),在線教學(xué)是一個(gè)單向的教學(xué)過(guò)程,這種教學(xué)形式導(dǎo)致師生之間缺乏交流,情感缺失現(xiàn)象嚴(yán)重[3]。若學(xué)生長(zhǎng)期一人面對(duì)屏幕,缺乏與教師之間的互動(dòng),情緒低落,學(xué)習(xí)效率低下,學(xué)習(xí)則易出現(xiàn)效果差等問(wèn)題[4]。
學(xué)生在課堂上對(duì)知識(shí)點(diǎn)的掌握與學(xué)習(xí)時(shí)的面部表情具有關(guān)聯(lián)性[5],國(guó)內(nèi)外研究者將表情識(shí)別技術(shù)應(yīng)用到學(xué)生課堂狀態(tài)監(jiān)測(cè)[6-9],通過(guò)學(xué)生面部表情數(shù)據(jù),判斷學(xué)生上課狀態(tài)。MONKARESI 等[10]采用 Kinect 人臉跟蹤器和心率檢測(cè)方法檢測(cè)學(xué)習(xí)者參與教育活動(dòng)的情況,發(fā)現(xiàn)面部表情識(shí)別的準(zhǔn)確性高于心率檢測(cè);ZALETELJ等[11]使用由Kinect One傳感器獲得的2D和3D數(shù)據(jù)來(lái)構(gòu)建學(xué)生面部和身體屬性的特征集,機(jī)器學(xué)習(xí)算法用于訓(xùn)練分類器,估算單個(gè)學(xué)生隨時(shí)間變化的注意力水平。然而目前將面部表情識(shí)別應(yīng)用于真實(shí)復(fù)雜場(chǎng)景中的智能教育領(lǐng)域,識(shí)別和分析學(xué)生在課堂上的面部表情的模型效果并不是非常理想。針對(duì)以上問(wèn)題,本文在人臉表情識(shí)別技術(shù)研究的基礎(chǔ)上設(shè)計(jì)實(shí)現(xiàn)在線學(xué)習(xí)表情識(shí)別系統(tǒng),提出基于mini_Xception[12]架構(gòu)添加通道注意力機(jī)制[13]的卷積神經(jīng)網(wǎng)絡(luò)[14](CNN)模型,提高網(wǎng)絡(luò)模型的質(zhì)量。對(duì)圖像進(jìn)行灰度化、數(shù)據(jù)增強(qiáng)[15]等處理以增加訓(xùn)練數(shù)據(jù),然后將圖像輸入到該網(wǎng)絡(luò)中進(jìn)行訓(xùn)練。實(shí)驗(yàn)表明,該網(wǎng)絡(luò)模型可以提高人臉識(shí)別的準(zhǔn)確性和增強(qiáng)表情識(shí)別效果,并能分析學(xué)生在課堂上的參與度和狀態(tài)。
在線學(xué)習(xí)表情識(shí)別系統(tǒng)實(shí)現(xiàn)了對(duì)學(xué)生表情的分析與反饋,為教師提供學(xué)生線上課堂期間的情感數(shù)據(jù),推出學(xué)生上課的幾種狀態(tài)(積極、消極、中性)。其不僅可以監(jiān)測(cè)學(xué)生學(xué)習(xí)狀態(tài)以及有效掌握教學(xué)節(jié)奏,還可以追蹤特定學(xué)生的學(xué)習(xí)狀態(tài)并進(jìn)行狀態(tài)評(píng)估,依據(jù)評(píng)估結(jié)果及時(shí)調(diào)整學(xué)習(xí)狀態(tài),也方便教師有針對(duì)性地調(diào)整上課節(jié)奏、課堂內(nèi)容以及課后知識(shí)補(bǔ)充內(nèi)容,及時(shí)改進(jìn)教學(xué)內(nèi)容和方法。
在線學(xué)習(xí)系統(tǒng)是結(jié)合了在線學(xué)習(xí)與表情識(shí)別技術(shù)的情感分析模型,通過(guò)攝像頭獲取學(xué)生人臉圖像,使用人臉表情識(shí)別技術(shù)進(jìn)行人臉表情分類,結(jié)合事先設(shè)定好的“情緒-狀態(tài)”分類,判定學(xué)生的學(xué)習(xí)狀態(tài),反饋給教師。在線學(xué)習(xí)系統(tǒng)設(shè)計(jì)的框架如圖1 a)所示。
圖1 在線學(xué)習(xí)系統(tǒng)整體實(shí)現(xiàn)架構(gòu)
在線學(xué)習(xí)系統(tǒng)模型由學(xué)習(xí)模塊、教學(xué)模塊及情感識(shí)別模塊組成,學(xué)習(xí)模塊供學(xué)生使用,學(xué)生首先完成注冊(cè),然后使用注冊(cè)的賬號(hào)登錄,便可按照課程安排進(jìn)行學(xué)習(xí);同樣在教學(xué)模塊中,教師首先需要進(jìn)行注冊(cè),其次登錄自己的賬戶,然后根據(jù)教學(xué)計(jì)劃安排課程,進(jìn)行線上授課;這2個(gè)模塊面向教師和學(xué)生,功能簡(jiǎn)單易懂,方便上手。在線學(xué)習(xí)系統(tǒng)中的核心是情感識(shí)別模塊,該模塊首先通過(guò)攝像頭定時(shí)截取學(xué)生人臉圖像進(jìn)行表情識(shí)別,得到學(xué)生在線學(xué)習(xí)時(shí)的學(xué)習(xí)狀態(tài),反饋給教師,教師通過(guò)反饋來(lái)掌握學(xué)生的課堂情況。設(shè)計(jì)該模型的主要目的是幫助教師通過(guò)學(xué)生的學(xué)習(xí)狀態(tài)改進(jìn)教學(xué)內(nèi)容和方法,來(lái)提高學(xué)生的學(xué)習(xí)興趣和熱情。
圖1 b)為圖1 a)下半部分學(xué)生學(xué)習(xí)系統(tǒng)情感分析的模塊圖,也是整個(gè)系統(tǒng)的核心技術(shù)。其中,數(shù)據(jù)采集模塊用于獲取學(xué)生知識(shí)學(xué)習(xí)序列,人臉檢測(cè)模塊和表情識(shí)別模塊用于情感識(shí)別,分析反饋模塊用于反饋學(xué)生上課狀態(tài)。該框架描述了學(xué)生登錄系統(tǒng)后獲取學(xué)生學(xué)習(xí)時(shí)的表情信息并進(jìn)行識(shí)別反饋的基本技術(shù)要點(diǎn)。
情感識(shí)別模塊的核心是表情識(shí)別,它的基本流程如圖2所示。過(guò)程為1)通過(guò)攝像頭獲取學(xué)生面部數(shù)據(jù);2)對(duì)圖像進(jìn)行預(yù)處理;3)檢測(cè)定位圖像中的人臉,若未檢測(cè)到人臉,則返回第1步,若檢測(cè)到人臉,則進(jìn)入第4步;4)進(jìn)行人臉表情特征提取和表情分類;5)輸出表情識(shí)別結(jié)果。
圖2 情感識(shí)別模塊的流程圖
人的面部表情是衡量人類情緒狀態(tài)的一種非常直觀的維度和外在表達(dá)方式,也是人際關(guān)系中一種非常重要的溝通方式[16]。1971年EKMAN等[17]建立了FACS,提出了“高興、厭惡、生氣、恐懼、吃驚、悲傷”6種基本表情。在之后的表情識(shí)別實(shí)驗(yàn)中,大多數(shù)人使用這6種基本表情,或者在這6種基本表情中添加一個(gè)中性表情作為研究基礎(chǔ)。本文中,表情識(shí)別的內(nèi)容主要包含以下幾項(xiàng):人臉圖像采集、圖像預(yù)處理、人臉檢測(cè)和基于深度學(xué)習(xí)的網(wǎng)絡(luò)模型的表情特征提取,基本流程圖如圖3所示。
圖3 人臉表情識(shí)別的流程圖
當(dāng)學(xué)生進(jìn)入課程時(shí),系統(tǒng)攝像頭會(huì)自動(dòng)打開(kāi),實(shí)時(shí)獲取學(xué)生在課堂上的表情數(shù)據(jù),設(shè)定固定時(shí)間,每隔幾幀截取一張圖像進(jìn)行檢測(cè)與識(shí)別。
在原始圖像采集過(guò)程中受拍攝角度、光照強(qiáng)度的影響,以及傳輸過(guò)程中噪聲或設(shè)備本身的影響,原始圖像的質(zhì)量會(huì)下降。直接進(jìn)行原始圖像檢測(cè)并進(jìn)行特征提取可能會(huì)導(dǎo)致差異偏大。因此,需要對(duì)原始圖像進(jìn)行初步處理,減少設(shè)備的計(jì)算量,處理過(guò)程中主要進(jìn)行圖像灰度化操作,將三通道彩色圖轉(zhuǎn)換成單通道灰度圖,灰度圖的轉(zhuǎn)化公式如式(1)所示。
Gray(x,y)=Red(x,y)×0.299+Green(x,y)×
0.587+Blue(x,y)×0.114,
(1)
式中(x,y)為圖像像素點(diǎn)的坐標(biāo)。
人臉的檢測(cè)方法有許多,例如使用dlib,OpenCV的Haar 級(jí)聯(lián)人臉檢測(cè)器[18]或多任務(wù)卷積神經(jīng)網(wǎng)絡(luò)(MTCNN)[19]等方法檢測(cè)人臉。OpenCV的檢測(cè)方法對(duì)光線不好、側(cè)面的人臉可能檢測(cè)不到;基于dlib的檢測(cè)方法檢測(cè)力度不夠;因此兩種方法都不適合在線學(xué)生人臉檢測(cè)。MTCNN檢測(cè)方法對(duì)光線不好、角度偏差大和人臉表情變化明顯的圖片檢測(cè)效果更好,并且內(nèi)存的消耗小,相對(duì)于前2種方法,更適合在線進(jìn)行學(xué)生人臉檢測(cè)。MTCNN是由P-Net,R-Net,O-Net構(gòu)成。
1)MTCNN使用到的損失函數(shù)
人臉識(shí)別采用交叉熵?fù)p失函數(shù),回歸框和關(guān)鍵點(diǎn)采用L2損失函數(shù),如式(2)—式(4)所示。
(2)
(3)
(4)
最終訓(xùn)練的損失函數(shù)綜合了人臉識(shí)別、回歸框、關(guān)鍵點(diǎn)的損失函數(shù)加權(quán)表示,如式(5)所示。
(5)
2)MTCNN檢測(cè)人臉效果
當(dāng)攝像頭打開(kāi)時(shí),MTCNN實(shí)時(shí)檢測(cè)人臉數(shù)據(jù)并繪制人臉框。圖4顯示了不同角度的人臉檢測(cè)結(jié)果。
圖4 MTCNN不同角度檢測(cè)人臉效果圖
表情特征提取是表情識(shí)別過(guò)程中的核心步驟,對(duì)正確實(shí)現(xiàn)表情識(shí)別分類有著非常大的作用,確保表情特征提取的精確度可以提高表情識(shí)別的準(zhǔn)確度,為獲取學(xué)生在線學(xué)習(xí)狀態(tài)提供依據(jù)。表情識(shí)別特征提取通常采用深度學(xué)習(xí)模型。
1)ResNet-18模型
ResNet[20]架構(gòu)是用于圖像識(shí)別的CNN模型之一,該架構(gòu)已被廣泛應(yīng)用于各種特征提取,在ResNet網(wǎng)絡(luò)被提出之前,傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)是由一系列卷積層和低采樣層疊加而成。然而,當(dāng)疊加到某個(gè)網(wǎng)絡(luò)深度時(shí),會(huì)出現(xiàn)2類問(wèn)題:①梯度消失或梯度爆炸。②退化問(wèn)題。在ResNet的論文中,通過(guò)數(shù)據(jù)預(yù)處理和使用BN(批量歸一化)層,可以解決第1類問(wèn)題;在網(wǎng)絡(luò)中添加殘差結(jié)構(gòu),搭建的網(wǎng)絡(luò)結(jié)構(gòu)能夠突破1 000層,同時(shí)使用批量歸一化加速訓(xùn)練,可以解決第2類問(wèn)題。本文首先采用ResNet-18網(wǎng)絡(luò)進(jìn)行訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)。
2)mini_Xception架構(gòu)模型
mini_Xception是以Xception[21]架構(gòu)為基礎(chǔ)的,圖5為該網(wǎng)絡(luò)架構(gòu)的結(jié)構(gòu)圖,含有4個(gè)殘差深度可分離卷積,且去除了全連接層,批標(biāo)準(zhǔn)化及ReLU激活函數(shù)添加到每個(gè)卷積之后,在預(yù)測(cè)模塊中使用全局平均池和soft-max激活函數(shù),且模型參數(shù)比傳統(tǒng)的CNN少幾十倍。在實(shí)驗(yàn)中mini_Xception網(wǎng)絡(luò)的訓(xùn)練速度和效果均比ResNet-18網(wǎng)絡(luò)要好。
圖5 mini_Xception網(wǎng)絡(luò)架構(gòu)
3)改進(jìn)的mini_Xception架構(gòu)模型
注意力機(jī)制是聚焦于局部信息的機(jī)制。通道注意力機(jī)制原理是通過(guò)建模每個(gè)特征通道的重要程度,然后針對(duì)不同的任務(wù)增強(qiáng)或抑制不同的通道。其結(jié)構(gòu)如圖6所示,關(guān)鍵操作是squeeze和excitation,在輸入SE注意力機(jī)制之前(左側(cè)空白圖),特征圖的每個(gè)通道的權(quán)重是一樣的,通過(guò)SENet之后(右側(cè)彩色圖),不同顏色代表不同的權(quán)重,使每個(gè)特征通道的重要性變得不一樣,讓神經(jīng)網(wǎng)絡(luò)重點(diǎn)關(guān)注權(quán)重值大一些的通道。
圖6 通道注意力機(jī)制結(jié)構(gòu)圖
為提高mini_Xception網(wǎng)絡(luò)的特征提取和表達(dá)能力,本文提出在mini_Xception網(wǎng)絡(luò)的基礎(chǔ)上添加通道注意力機(jī)制,得到一種改進(jìn)的網(wǎng)絡(luò)訓(xùn)練模型。通道注意力機(jī)制添加到mini_Xception網(wǎng)絡(luò)架構(gòu)中的示意圖如圖7所示。
圖7 添加通道注意力機(jī)制的mini_Xception網(wǎng)絡(luò)架構(gòu)
用這個(gè)網(wǎng)絡(luò)模型在Fer2013[22],CK+[23]上進(jìn)行訓(xùn)練,得到的效果均比原版的mini_Xception網(wǎng)絡(luò)要好。通過(guò)以上幾個(gè)網(wǎng)絡(luò)模型實(shí)驗(yàn)的對(duì)比,最終采用改進(jìn)的mini_Xception網(wǎng)絡(luò)模型訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)。
開(kāi)發(fā)環(huán)境:PyCharm;學(xué)習(xí)框架:Tensorflow;操作系統(tǒng):Windows 10(64位);程序語(yǔ)言:Python 3.7;實(shí)驗(yàn)中優(yōu)化器為Adam,epoch設(shè)為 200,batch_size 為 32。
本實(shí)驗(yàn)數(shù)據(jù)集采用Fer2013與CK+。
1)Fer2013數(shù)據(jù)集將含有大量非正臉圖片的灰度圖數(shù)據(jù)集分為訓(xùn)練集(80%)、測(cè)試集(10%)、驗(yàn)證集(10%),圖片大小為48×48,每張圖片都帶有標(biāo)簽,標(biāo)簽分為7種表情。圖8為Fer2013數(shù)據(jù)集表情示例圖。
圖8 Fer2013數(shù)據(jù)集表情示例圖
2)CK+數(shù)據(jù)集是從動(dòng)態(tài)視頻中提取出表情圖片組成的數(shù)據(jù)集,每一個(gè)圖片對(duì)應(yīng)一個(gè)標(biāo)簽,標(biāo)簽有7種。圖9 為CK+數(shù)據(jù)集表情示例圖。
圖9 CK+數(shù)據(jù)集表情示例圖
本文通過(guò)對(duì)CK+數(shù)據(jù)集進(jìn)行預(yù)處理,剪裁出人臉區(qū)域的同時(shí)刪除冗余信息,生成48×48大小的灰度圖。CK+數(shù)據(jù)集中可直接用于表情識(shí)別的圖片數(shù)量較少,在訓(xùn)練過(guò)程中很容易出現(xiàn)過(guò)擬合,因此,在實(shí)驗(yàn)當(dāng)中,對(duì)此數(shù)據(jù)集采用拉伸、平移、調(diào)節(jié)亮度等8種不同的方法進(jìn)行數(shù)據(jù)增強(qiáng),相比原始數(shù)據(jù)集擴(kuò)大了9倍。
本實(shí)驗(yàn)數(shù)據(jù)集采用Fer2013和CK+,在ResNet-18,mini_ Xception上進(jìn)行訓(xùn)練和測(cè)試,得到了表1所示的識(shí)別準(zhǔn)確率,從表1中可以看出mini_Xception上的識(shí)別準(zhǔn)確率比ResNet-18提高了將近7%和3%,表明在本實(shí)驗(yàn)中mini_Xception的識(shí)別準(zhǔn)確率要比ResNet-18好。
表1 不同數(shù)據(jù)集在不同網(wǎng)絡(luò)模型上的準(zhǔn)確率
本實(shí)驗(yàn)在mini_Xception的基礎(chǔ)上,又做了一些改進(jìn)的對(duì)比實(shí)驗(yàn),在mini_Xception上添加通道注意力機(jī)制(channel attention mechanism),并在數(shù)據(jù)集Fer2013,CK+上進(jìn)行訓(xùn)練和測(cè)試。實(shí)驗(yàn)結(jié)果如表2和表3所示,改進(jìn)的網(wǎng)絡(luò)模型在數(shù)據(jù)集Fer2013和CK+上的識(shí)別準(zhǔn)確率均有一定的提高,且相比于文獻(xiàn)[24—27]效果更好。
表2 mini_Xception與改進(jìn)的mini_Xception上的準(zhǔn)確率
表3 本文改進(jìn)的網(wǎng)絡(luò)模型與其他文獻(xiàn)網(wǎng)絡(luò)模型實(shí)驗(yàn)結(jié)果準(zhǔn)確率對(duì)比
最后,將訓(xùn)練好的模型導(dǎo)入表情識(shí)別系統(tǒng)進(jìn)行表情識(shí)別。表情識(shí)別系統(tǒng)應(yīng)用到在線教學(xué)模式進(jìn)行授課時(shí),攝像頭定時(shí)捕獲學(xué)生面部圖像進(jìn)行識(shí)別,如圖10和圖11所示,可以準(zhǔn)確定位到人臉并準(zhǔn)確識(shí)別學(xué)生的表情,再將可視化數(shù)據(jù)反饋給教師,教師根據(jù)可視化信息等了解學(xué)生的學(xué)習(xí)狀態(tài)和情況,進(jìn)而調(diào)整教學(xué)節(jié)奏,調(diào)動(dòng)學(xué)生上課的積極性,提高教學(xué)質(zhì)量。
圖10 人臉表情識(shí)別的部分效果圖
圖11 表情數(shù)據(jù)狀態(tài)數(shù)據(jù)可視化圖
圖10為學(xué)生上課過(guò)程中,攝像頭實(shí)時(shí)截取學(xué)生面部表情,將圖像導(dǎo)入表情識(shí)別網(wǎng)絡(luò)模型識(shí)別輸出的表情結(jié)果。圖11為上課過(guò)程中識(shí)別的所有表情和狀態(tài)的匯總餅狀圖,由此可觀察學(xué)生表情及狀態(tài)的占比情況,其中左側(cè)餅狀圖為表情餅狀圖,展示“高興、厭惡、生氣、恐懼、吃驚、悲傷、中性”7種表情所占百分比,右側(cè)餅狀圖為在7種表情的基礎(chǔ)上提出的“積極、消極、中性”3種學(xué)習(xí)狀態(tài)的餅狀圖,“高興、吃驚”表示學(xué)生的積極狀態(tài),“厭惡、生氣、恐懼、悲傷”表示學(xué)生的消極狀態(tài),“中性”表示學(xué)生的中間狀態(tài)。
人工智能與在線教育相結(jié)合的智慧學(xué)習(xí)是當(dāng)代新型智能教育模式,也是教育信息化的趨勢(shì)。為解決在線教育導(dǎo)致的學(xué)生情感信息缺失問(wèn)題,提出了能夠反饋學(xué)生情感狀態(tài)和學(xué)習(xí)狀態(tài)的模型,并詳細(xì)描述了其原理及流程。通過(guò)在課堂上采集學(xué)生學(xué)習(xí)時(shí)的表情數(shù)據(jù)構(gòu)建了學(xué)生面部表情識(shí)別數(shù)據(jù)集,采用添加通道注意力機(jī)制的mini_Xception網(wǎng)絡(luò)模型對(duì)學(xué)生面部表情進(jìn)行分類,再將分類結(jié)果與ResNet-18網(wǎng)絡(luò)、原始mini_Xception以及多個(gè)已有文獻(xiàn)[24—27]的分類結(jié)果進(jìn)行比較,經(jīng)過(guò)多次對(duì)比實(shí)驗(yàn)表明,本系統(tǒng)采用的方法獲得了較高的準(zhǔn)確率。應(yīng)用表情識(shí)別技術(shù),實(shí)時(shí)監(jiān)測(cè)學(xué)生表情,為教師提供可視化的課堂數(shù)據(jù),使教師能夠了解學(xué)生課堂狀態(tài),及時(shí)調(diào)整教學(xué)內(nèi)容和方法,增強(qiáng)學(xué)生上課積極性,提高在線學(xué)習(xí)的教學(xué)質(zhì)量。
本方法雖然能夠很好地識(shí)別人臉表情,但是在遮擋、側(cè)面以及光線不足等情況下,表情識(shí)別效果被影響的問(wèn)題仍未得到很好解決,為了解決這些因素的影響,未來(lái)的表情識(shí)別研究重點(diǎn)可以放在如何消除眼鏡框遮擋、臉部遮擋、側(cè)面人臉和光線不足等的影響上,以便于表情識(shí)別技術(shù)可以在更復(fù)雜的環(huán)境中使用[28]。