畢洪波 洪慶成 謝春麗 孫磊
摘要:學生的課堂表情常常反映了學生對知識的理解和掌握情況,這對分析學生的學習狀態(tài)是非常有幫助的。然而,這些微妙的表情變化往往不能被及時發(fā)現和引起關注。鑒于此,作者構建了深度學習標簽識別模型,利用采集的課堂圖像,實時捕捉每個學生的課堂表情,并分析學生的表情特征,對表情特征進行標識和分類,從而為線下、線上教學提供有價值的教學反饋。
關鍵詞:深度學習;微表情識別;教學分析;學習狀態(tài)分析;教學反饋
中圖分類號:TP391.1? 文獻標識碼:A? 論文編號:1674-2117(2022)05-0091-05
● 引言
目前,課堂教學多是以班級為單位,在一個固定的時間對幾十名學生進行教學,但學生存在個體差異,教師很難照顧到每個學生的學習情況,也無法及時了解學生的課堂學習狀態(tài)。
學生在課堂上的動作、微妙表情,都能體現出學生的聽課效果。盡管這些也能被有經驗的教師偶爾捕捉到和有效解讀,但是要捕獲大多數學生的表情、動作并分析其聽課效果還是非常困難的。近年來,隨著深度學習算法的日漸成熟,借助智能化技術改進學習行為、變革傳統(tǒng)課堂、提高教育教學質量已經成為一種必然趨勢,這也為有效改善教學環(huán)節(jié)、提高教學質量提供了新的科學方法。[1]
筆者利用深度學習的方法,通過圖像識別等技術實時捕獲學生的微妙課堂表情[2],實時分析學生課堂表情,以揭示學生對課堂知識的掌握情況。該方法實時采集課堂學生的圖像,建立相應的算法模型,利用深度學習的方法分析學生的課堂表情特征,并對相應的表情分類標識,以反映學生對課堂知識的學習情況,從而及時得到有價值的教學反饋。
● 相關工作
從心理學角度看,人的面部表情是情感信息表達的一種主要途徑,是情感最真實、最直接的反映,可以折射人的不同情感狀態(tài),如高興、悲傷、憤怒、恐懼、驚訝、厭惡等。[3-4]已有研究者嘗試把表情識別引入教育教學領域,用于分析學生的學習狀態(tài)。馮滿堂等人將表情識別技術引入傳統(tǒng)智能網絡教學系統(tǒng)中,實現了網絡環(huán)境下兼顧認知和情感兩方面的個性化教學,從而提高網絡環(huán)境下的教學效率。[5]程萌萌等人構建了包括教師、學生、課程、情感四部分的智能教學系統(tǒng)結構模型,利用表情識別與視線跟蹤技術實現情感模塊的反饋,為網絡學習中情感反饋機制的發(fā)展提供技術支持。[6]孫波等人通過將個體的人臉特征與表情特征相分離,排除無關因素對表情識別效果的干擾,提高了表情識別的準確性,并將此應用在師生情感交互系統(tǒng)上,成功實現了基于面部表情的學習者情感識別及情感干預功能。[7]詹澤慧等人開發(fā)的基于智能Agent的遠程學習者情感與認知識別模型,結合了表情識別和眼動追蹤技術,提高了遠程環(huán)境下學習者狀態(tài)判斷的準確率,改進了Agent對學習者的情感和認知支持。[8]楊金朋等人將人臉表情識別算法應用到在線學習平臺,對人臉表情數據進行實時收集和情感狀態(tài)計算,通過數據分析在線學習者的臉部表情會在一定程度上反映出其當前的學習狀態(tài),為學習者提供個性化的學習服務。[9]
以上列出的研究方法多數是屬于實證研究范疇[10-14],而隨著計算機視覺領域的快速崛起,利用人臉識別技術已經在某些領域,如人臉打卡、智能門禁、刑偵辦案、安全駕駛等領域產生了有效應用。但在教育領域,利用計算機技術識別學生課堂表情的研究還較少。周建國等人通過智能手機采集到課堂上學生上課時不同時刻的面部表情圖像,提出用卷積神經網絡與迭代決策樹融合的方法提取面部圖像特征,根據表情將其分為專心與不專心兩類樣本。[15]鐘志鵬等人提出了多核學習特征融合的人臉表情識別,并在學生聽課表情庫上做了實驗。[16]已有的課堂面部表情識別方法采用手工提取特征,隨著參數越來越多,模型訓練很容易陷入過擬合的狀態(tài)。而隨著深度學習計算能力的大幅度提高,可獲得的訓練數據量迅猛增加,尤其是卷積神經網絡在圖像識別方面的表現,使得課堂表情識別更加科學可行。[17-20]
● 表情識別系統(tǒng)
1.系統(tǒng)實現框架
系統(tǒng)通過學生對不同知識點的微表情變化,分析學生的課堂學習狀態(tài),從而為教師提供有價值的教學反饋,優(yōu)化教學過程和教學方法。系統(tǒng)主要包括數據收集和預處理、表情識別模型訓練以及基于該深度學習模型設計的表情識別模塊。
為了獲取課堂學生的面部特征,進而識別學生表情,設計了人臉表情識別系統(tǒng)的實現框架(如圖1)。本設計主要分兩部分功能:人臉識別和表情識別。首先收集人臉數據集和用于訓練的表情數據集。其次采用線上API的方式,實時采集課堂上學生的人臉,并將采集到的人臉數據按照指定要求上傳到服務端;然后將采集到的人臉數據劃分為測試集和訓練集,將訓練數據輸入到CNN模型進行訓練,當一輪訓練結束后,利用測試集對訓練結果進行測試,并評估表情識別的準確率,如果準確率沒有達到預期,則調整參數繼續(xù)訓練,直到找到最優(yōu)解并保存解集。最后,針對人臉識別和表情識別的軟件接口,設計相應的用戶服務接口,用于接收用戶輸入的參數,并將分析結果反饋給用戶。
2.數據預處理
對人臉識別和表情識別數據集采用不同的方法進行預處理。由于本設計中人臉識別數據集的數量并不大,所以主要采取人工篩選的方法篩掉內存過大、亮度過高或者過暗、遮擋過多等噪聲大的圖片。對于表情識別fer2013數據集,由于它已經是標準數據集,所以沒有再做關于圖片格式的相關預處理。但是為了進一步優(yōu)化模型性能,深度學習需要規(guī)模較大的數據。雖然fer2013數據集已經有了2萬多的數據量,但是實際情況反映這并不夠。因此,采用了數據增強技術,即一種通過讓有限的數據產生更多的等價數據來人工擴展訓練數據集的技術。它是克服訓練數據不足的有效手段。
3.人臉識別模型
由于現實生活中個人收集人臉數據集的難度大,如果自己訓練一定達不到理想的準確度,所以本設計采用了騰訊云的機器學習API的方式,以達成更為理想的識別率。騰訊云人臉識別API是基于騰訊優(yōu)圖的人臉分析技術,主要提供了人臉檢測與分析、五官定位、人臉對比、人員庫管理、人臉驗證、人臉搜索等功能。本設計中主要用到了該接口的人員庫管理以及人臉搜索功能,建立人員庫的好處在于將各個不同的數據集隔離開來,這樣既便于區(qū)分,也便于查找比對,當數據量足夠大時能大大提升查詢效率。本設計采用的是Python SDK的調用方式,能高效地完成工作。
4.表情識別模型
實驗選擇了mini_Xception和MobilenetV2兩種輕量級模型分別進行表情識別訓練。mini_Xception模型是卷積網絡的改進模型,增加了深度分離卷積(Separable Convolution)算法,此算法思想是將傳統(tǒng)的卷積運算分解為逐通道卷積與逐點卷積兩步進行。假設輸入層為一張4*64像素、3通道的圖片,對于常規(guī)卷積運算,經過一個包含4個過濾器的卷積層,每個分類器包含3個3*3的Kernel,最終輸出4個特征圖,且尺寸與輸入層相同,那么卷積層參數數量為108個。對于深度分離卷積運算,首先進行逐通道卷積,與常規(guī)卷積不同的是卷積完全在二維平面上進行,且分類器數量通道數相同,所以一個3通道圖像運算后生成了3個特征,參數個數只有27個,然后特征圖在深度方向上進行加權組合,生成新的特征圖,有幾個分類器就有幾個特征圖,這一步的參數個數為12。從以上分析可以看出可分離卷積的參數數量為27+12=29個,約為常規(guī)卷積的三分之一。因此,在參數量相同的情況下,采用可分離卷積的神經網絡層數可以更深,能獲得更好的性能。MobilenetV2模型是Google針對手機等嵌入式設備提出的一種輕量級的深層神經網絡,核心思想也是深度可分離卷積,此處不再贅述。
● 實驗與分析
1.數據集簡介
(1)人臉識別數據集
首先,本系統(tǒng)采集筆者所在的智慧教育學院17智(71)班的學生的照片作為人臉識別數據集。該數據集包含了40個人,每個人有15張左右的照片,其中5張上傳至騰訊云,其余為測試數據。本設計的人臉識別功能的實現主要依賴于騰訊云的人臉識別API,主要用到了該接口的人員庫管理以及人臉搜索功能。
(2)表情數據集與數據增強
本設計選擇的fer2013數據集是Kaggle為了舉辦人臉表情識別比賽而公開的。fer2013數據集一共包含了35000多張表情圖片,包含生氣、厭惡、害怕、高興、驚奇、中立七種類別的表情圖像,其中有近29000張訓練圖片。
眾所周知,在機器學習中,數據集可以說是最難解決的問題之一,其難處不在于數據集的優(yōu)化,而在于數據量。雖然fer2013數據集已經有了20000多的數據量,但并不夠。所以,筆者對fer2013數據集進行了數據增強,增強過后的數據集可以從原來的28000多增加到80000多,而七個表情準確度則平均上升了20%左右。
2.實驗設計和分析
(1)實驗設計
本設計的深度學習框架選擇了谷歌Tensorflow+Keras以及百度Paddlepaddle兩者對比實現。由于傳統(tǒng)的卷積神經網絡算法進行表情識別的準確率沒有達到最優(yōu),所以本設計的神經網絡算法選擇了MobilenetV2和mini_Xception兩種模型進行訓練,提高了表情識別的準確率。兩者都是新出的輕量級模型,運用到了深度分離卷積算法,在很大程度上簡化了運算量,從而減少了模型訓練所需要的時間。就最終實測的結果而言,Tensorflow+Keras+mini_Xception的組合更加高效準確。
(2)實驗結果
實驗結果如上表所示。MobilenetV2和mini_Xception兩個模型在測試數據集上的準確度都超過了70%,已經達到了相等條件下的最優(yōu)。實驗過程中筆者發(fā)現,mini_Xception模型對高興和驚訝這兩種表情的正確識別率最高,分別達到87%和77%,識別正確率最低的為害怕表情,只有42%。圖2和圖3分別是對GUI系統(tǒng)的展示,通過自定義圖片和調用實時攝像頭進行分析的結果。圖2是加載圖片的人臉識別結果和表情分類結果,圖3是實時捕獲攝像頭并識別的結果,雖然該學生并不在人臉庫中,但仍然能夠識別其表情狀態(tài)。
最后,關于表情與學生課堂學習效率的關系,筆者對錄入系統(tǒng)的學生進行了課后問卷調查。調查結果顯示,本系統(tǒng)對人臉的識別和表情識別的結果基本準確。在調查報告中,表情為中立的學生對知識的掌握效率要高于表現為其他的幾種表情的學生;其中表現為生氣、害怕、厭惡的學生對知識的掌握效率低于平均水平。由此可見,表情與學生對知識掌握效率有著一定的聯系。所以,可以通過對學生的面部表情特征的實時分析得到班級學生對當前知識掌握的總體情況,從而為線下、線上教學提供有價值的教學反饋數據,幫助教師進行針對性的教學方案修改,提高課堂效率。
● 結語
本設計作為“學習者的微表情研究”課題的一部分,在一定的理論基礎上,主要承擔三方面工作:其一是搜尋可用于實際使用和訓練的數據集,包括人臉數據庫和表情識別數據集;其二是選擇高效便捷的實現方案,建立準確度更高的模型并保存訓練結果;其三是在前兩項工作完成的情況下設計出直觀、可用的交互式應用程序,方便測試與使用。本設計基本完成了以上任務,并采用了許多成熟且實用的工具和模塊,如PyQt5、Python-OpenCV等。
參考文獻:
[1]鄭慶華,董博,錢步月,等.智慧教育研究現狀與發(fā)展趨勢[J].計算機研究與發(fā)展,2019,56(01):1-16.
[2]鄭怡文,陳紅星,白云暉.基于大數據在課堂教學中對學生精準關注的實驗研究[J].現代教育科學,2016(02):54-57.
[3]侯洪濤.一種課堂環(huán)境下學生表情識別系統(tǒng)的研究[D].北京:北京工業(yè)大學,2015.
[4]劉三女牙,劉智,高菊,等.慕課環(huán)境下學習者學習行為差異性分析研究[J].電化教育研究,2016(10):57-63.
[5]馮滿堂,馬青玉,王瑞杰.基于人臉表情識別的智能網絡教學系統(tǒng)研究[J].計算機技術與發(fā)展,2011(06):193-196.
[6]程萌萌,林茂松,王中飛.應用表情識別與視線跟蹤的智能教學系統(tǒng)研究[J].中國遠程教育,2013(03):59-64.
[7]孫波,劉永娜,陳玖冰,等.智慧學習環(huán)境中基于面部表情的情感分析[J].現代遠程教育研究,2015(02):96-103.
[8]詹澤慧.基于智能Agent的遠程學習者情感與認知識別模型——眼動追蹤與表情識別技術支持下的耦合[J].現代遠程教育研究,2013(05):100-105.
[9]楊金朋,薛耀鋒,李佳璇,等.基于人臉表情識別的在線學習情感計算研究[J].中國教育技術裝備,2017,18(35):35-43.
[10]李勇帆,李里程.情感計算在網絡遠程教育系統(tǒng)中的應用:功能、研究現狀及關鍵問題[J].現代遠程教育研究,2013(02):100-106.
[11]晉欣泉,王林麗,楊現民.基于大數據的在線學習情緒測量模型構建[J].現代教育技術, 2016(12):5-11.
[12]蘇耶亞塔·蘭尼.用以提升教學效果的情感分析系統(tǒng)[J].計算科學評論,2017,6(01):34-41.
[13]單存杰.教室場景中學生定位與身份識別[D].武漢:華中師范大學,2016.
[14]韓麗,李洋,周子佳,等.課堂環(huán)境中基于面部表情的教學效果分析[J].現代遠程教育研究,2017(04):97-103+112.
[15]周建國,唐東明,彭爭,等.基于卷積神經網絡的課堂表情分析軟件研究與實現[J].成都信息工程大學學報,2017,32(05):508-512.
[16]鐘志鵬,張立保.基于多核學習特征融合的人臉表情識別[J].計算機應用,2015,35(S2):245-249.
[17]Zhang T,Zheng W,Cui Z,Zong Y,Yan J and Yan K. A Deep Neural Network-Driven Feature Learning Method for Multi-view Facial Expression Recognition[J].IEEE Transactions on Multimedia,2016,18(12):2528-2536.
[18]Li S and Deng W. Reliable Crowdsourcing and Deep Locality-Preserving Learning for Unconstrained Facial Expression Recognition[J].IEEE Transactions on Image Processing,2019,28(01):356-370.
[19]Rao Y, Lu J and Zhou J.Attention-Aware Deep Reinforcement Learning for Video Face Recognition[Z].Proceedings of 2017 IEEE International Conference on Computer Vision (ICCV),Venice,2017:3951-3960.
[20]Arriaga O,Ploger P G.,Valdenegro M.Real-time Convolutional Neural Networks for Emotion and Gender Classification[C].ICRA,2017(10).
作者簡介:畢洪波,男,徐州市第二中學教師,徐州教育督導室專職督學,研究方向為教育信息化;謝春麗,通訊作者,女,副教授,研究方向為教育智能化;洪慶成,男,江蘇師范大學本科生;孫磊,男,江蘇師范大學本科生。
基金項目:江蘇省高等學校大學生創(chuàng)新創(chuàng)業(yè)訓練計劃項目(202010320035Z),教育部產學合作協同育人項目(d2a33dac-9bb7-4408-a778-19fbc71d68de)。
3797500589292