王永固 馬家榮 王瑞琳
(浙江工業(yè)大學(xué) 教育科學(xué)與技術(shù)學(xué)院,浙江杭州 310023)
體態(tài)語言是教師傳遞教學(xué)信息和組織課堂活動的重要途徑。教師利用不同的體態(tài)語言(如手勢、走動等)引發(fā)學(xué)生注意,增強教師語言表達,激活學(xué)生學(xué)習(xí)動機,輔助學(xué)生理解內(nèi)容,提高課堂教學(xué)效果(王繼新等,2020;Bosch et al.,2018;李爽等,2020)。相關(guān)研究發(fā)現(xiàn),職前師范生和在職教師在正確規(guī)范、恰當(dāng)運用體態(tài)語言方面存在較多問題(張倩等,2019;牟智佳等,2020)。為解決這一現(xiàn)實問題,學(xué)界采用人工視頻分析方法測評教師體態(tài)語言,使用手工標(biāo)記教師體態(tài)語言類型,統(tǒng)計不同類型體態(tài)語言運用頻次和方式等,提出相應(yīng)干預(yù)方法與改進建議(蔣立兵等,2018;周鵬生,2006)。但是,該方法存在效度低、反饋慢和耗時長等缺點。
教育部(2018)發(fā)布的《關(guān)于實施卓越教師培養(yǎng)計劃2.0的意見》強調(diào),利用大數(shù)據(jù)、深度學(xué)習(xí)等技術(shù),監(jiān)測課程教學(xué)實施情況,有效診斷評價職前教師學(xué)習(xí)狀況和教學(xué)質(zhì)量。因此,教師體態(tài)語言測評需與深度學(xué)習(xí)技術(shù)融合,探索測評的精準(zhǔn)化、個性化和規(guī)?;窂?,助力教師專業(yè)能力科學(xué)發(fā)展。隨著人工智能領(lǐng)域深度學(xué)習(xí)技術(shù)的發(fā)展,機器能夠自動識別和理解視頻中人物的體態(tài)語言動作(王萍,2020),這為教師體態(tài)語言智能測評提供了可行性。
鑒于此,本研究采用人體骨架和深度學(xué)習(xí)方法,設(shè)計教師體態(tài)語言智能識別與測評方案,建立真實教學(xué)情境下教師標(biāo)準(zhǔn)化體態(tài)語言數(shù)據(jù)集,生成教師體態(tài)語言智能識別深度學(xué)習(xí)模型,開發(fā)教師體態(tài)語言智能測評系統(tǒng),探索教師體態(tài)語言的精準(zhǔn)測評。
隨著人工智能技術(shù)與教師教育的深度融合,深度學(xué)習(xí)技術(shù)正在創(chuàng)新教師體態(tài)語言的智能測評方法與系統(tǒng),目前已取得階段性研究成果。
教師體態(tài)語言測評研究最先采用人工視頻分析技術(shù),包含主觀測量和客觀測量兩種方法。1)主觀測量法。它采用學(xué)習(xí)者主觀報告方式,評估人員記錄學(xué)習(xí)者對教師體態(tài)語言的主觀感受(Harrigan et al.,2008;McArthur,2022),其評測結(jié)果受評估者和學(xué)習(xí)者知識結(jié)構(gòu)和主觀經(jīng)驗的影響。巴爾馬克等(Barmaki et al.,2015)采用主觀測量方法,測評教師口頭語言和體態(tài)語言之間的和諧程度,發(fā)現(xiàn)數(shù)學(xué)教師的體態(tài)頻次明顯高于生物教師。2)客觀測量法。它通過自然情境的非參與式觀察,控制體態(tài)語言的要素變量,分析體態(tài)語言的特定要素對教學(xué)效果的影響機制。巴爾馬克(Barmaki,2014)應(yīng)用信息技術(shù)構(gòu)建客觀測量系統(tǒng),分析教師與虛擬學(xué)生的體態(tài)語言交互過程。研究發(fā)現(xiàn),更加開放、更長時間的體態(tài)語言與學(xué)生的學(xué)業(yè)表現(xiàn)正相關(guān)。以上兩種方法屬于人工視頻分析范疇,主觀性強、反饋慢和耗時長,難以實現(xiàn)教師體態(tài)語言評測的精準(zhǔn)、即時和高效。
深度學(xué)習(xí)技術(shù)正被應(yīng)用于教師體態(tài)語言的智能測評研究,它借助紅外成像和骨骼成像兩種姿態(tài)特征數(shù)據(jù)采集技術(shù),智能感知和測評教師體態(tài)語言教學(xué)行為(徐歡云等,2019)。在紅外成像技術(shù)方面,王繼新等(Wang et al.,2020)提出基于卷積神經(jīng)網(wǎng)絡(luò)的紅外體態(tài)估計方法,識別真實教室中教師的指示體態(tài),識別率為92%。但是,紅外成像技術(shù)需要專業(yè)的紅外成像設(shè)備,其教育場景應(yīng)用成本高。與紅外成像技術(shù)相比,骨骼成像技術(shù)不需要額外的成像設(shè)備,使用深度學(xué)習(xí)的人體姿態(tài)估計器,如AlphaPose、OpenPose等,提取二維空間的教師骨骼關(guān)節(jié)點及其坐標(biāo)信息,可以忽略服裝背景對人體的干擾,保持視覺不變,更適合真實教學(xué)場景的教師體態(tài)語言智能測評。巴爾馬克(Barmaki,2015)借助骨骼手勢生成器構(gòu)建閉合性手勢數(shù)據(jù)庫,自動統(tǒng)計專家型教師與新手教師閉合性手勢的頻次和時長差異。劉婷婷等(Liu et al.,2019)使用 OpenPose骨架估計技術(shù)構(gòu)建教師指示體態(tài)數(shù)據(jù)庫,通過神經(jīng)網(wǎng)絡(luò)自動檢測教師的指示體態(tài),識別準(zhǔn)確率達90%。陳少輝(2020)建立CCNU-Edu-Pose數(shù)據(jù)集,基于教師輪廓骨架融合特征識別教師的ok、安靜、豎起拇指、指向黑板等手勢,自動量化教師的教學(xué)手勢行為。以上兩種技術(shù)的先行探索為教師體態(tài)語言智能測評提供了方法論參考。然而,教師課堂體態(tài)語言智能測評研究存在兩個亟待解決的問題:1)缺乏真實課堂教師標(biāo)準(zhǔn)化體態(tài)語言行為大數(shù)據(jù)集樣本;2)智能測評模型的識別準(zhǔn)確率低于95%,達不到真實教學(xué)應(yīng)用標(biāo)準(zhǔn)。針對以上問題,本研究提出真實教學(xué)情境的教師體態(tài)語言數(shù)據(jù)集創(chuàng)建方法,即建立教師課堂教學(xué)五種類型體態(tài)語言數(shù)據(jù)集,構(gòu)建金字塔殘差深度神經(jīng)網(wǎng)絡(luò)模型,開展基于大數(shù)據(jù)集的識別模型訓(xùn)練與驗證實驗,優(yōu)化殘差深度神經(jīng)網(wǎng)絡(luò)模型,最后開發(fā)教師體態(tài)語言智能感知測評系統(tǒng),可視化分析教師體態(tài)語言的頻次、間隔和時序變化等測度指標(biāo),生成教師體態(tài)語言智能測評診斷報告。
教師體態(tài)語言智能測評研究方案由數(shù)據(jù)采集、數(shù)據(jù)集建立、識別模型構(gòu)建、識別模型訓(xùn)練與評估、測評系統(tǒng)開發(fā)五個關(guān)鍵環(huán)節(jié)組成(見圖1)。在數(shù)據(jù)采集環(huán)節(jié),研究人員使用視頻采集設(shè)備,拍攝專家型教師真實教學(xué)場景的教學(xué)視頻,采集教師標(biāo)準(zhǔn)化體態(tài)語言視頻素材數(shù)據(jù);在數(shù)據(jù)集建立環(huán)節(jié),研究人員使用人體目標(biāo)檢測技術(shù)、目標(biāo)追蹤技術(shù)和姿態(tài)估計技術(shù),將教師體態(tài)語言視頻轉(zhuǎn)換為人體骨架表征的圖片文件,開發(fā)并應(yīng)用體態(tài)語言類別標(biāo)簽標(biāo)注工具,為教師姿態(tài)骨骼特征圖片標(biāo)注類別標(biāo)簽,建立教師課堂體態(tài)語言大數(shù)據(jù)集;在識別模型構(gòu)建環(huán)節(jié),研究人員利用金字塔卷積單元優(yōu)化殘差網(wǎng)絡(luò),建立金字塔殘差神經(jīng)網(wǎng)絡(luò),提取教師體態(tài)圖像的細粒度特征;在識別模型訓(xùn)練與評估環(huán)節(jié),研究人員將環(huán)節(jié)二的數(shù)據(jù)集作為模型輸入,訓(xùn)練教師體態(tài)語言識別模型,計算識別模型的準(zhǔn)確率、損失率變化情況,評估模型的優(yōu)缺點;在測評系統(tǒng)開發(fā)環(huán)節(jié),研究人員應(yīng)用PyQt5和Pyecharts可視化工具包,設(shè)計可交互的教師體態(tài)語言智能測評系統(tǒng),將訓(xùn)練良好的識別模型應(yīng)用到教師體態(tài)語言測評實踐。經(jīng)過以上五個環(huán)節(jié),教師體態(tài)語言能夠被自動識別、準(zhǔn)確理解、智能測評,并為教師提供個性化反饋。
圖1 教師體態(tài)語言智能測評研究設(shè)計
教師體態(tài)語言智能識別需要應(yīng)用兩種關(guān)鍵技術(shù):人體骨架表征技術(shù)和金字塔殘差神經(jīng)網(wǎng)絡(luò)識別模型。前者用于提取二維空間的教師體態(tài)關(guān)節(jié)坐標(biāo)和骨架信息,即使用人體骨架信息表征教師體態(tài)特征,提高教師體態(tài)特征表征的準(zhǔn)確度;后者利用金字塔卷積模塊替換ResNet50特征提取網(wǎng)絡(luò)的卷積層,增強識別模型的語義信息表達能力。
1.教師體態(tài)語言的人體骨架表征
文獻分析顯示,2D骨架具有視覺不變性、抗干擾能力強、生成骨架圖像簡單等優(yōu)點。2D骨架生成方法為 OpenPose 實時檢測算法(Cao et al.,2017),該算法先檢測人體的若干關(guān)節(jié)點,將關(guān)節(jié)點連接形成骨架圖,再通過圖優(yōu)化方法剔除錯誤的連接,最終生成人體2D骨架圖。本研究即采用OpenPose人體姿態(tài)估計算法,將教師體態(tài)語言行為轉(zhuǎn)變成人體骨架圖的高級表征形式。人體骨架表征過程分三個步驟:首先,應(yīng)用VGG-19卷積神經(jīng)網(wǎng)絡(luò)提取教師體態(tài)語言的原始特征;其次,將原始特征作為兩個分支輸入,第一個分支獲取教師體態(tài)的25個關(guān)節(jié)點置信度圖,第二個分支獲取部分親和域,預(yù)測各關(guān)節(jié)點之間的關(guān)聯(lián)程度;最后,根據(jù)關(guān)節(jié)點置信度圖和關(guān)聯(lián)度繪制人體骨架圖。通過以上三個步驟,教師體態(tài)語言特征被轉(zhuǎn)換為骨架節(jié)點及其關(guān)系的骨架圖。
2.金字塔殘差神經(jīng)網(wǎng)絡(luò)模型構(gòu)建
教師體態(tài)語言特征提取的深度神經(jīng)網(wǎng)絡(luò)由ResNet50和金字塔卷積模塊組成(見圖2)。ResNet50網(wǎng)絡(luò)在加深層數(shù)的同時引入四組殘差單元,使神經(jīng)網(wǎng)絡(luò)在采樣過程中保留更多的原始特征,防止梯度爆炸問題(He et al.,2016)。特征提取過程包括三個環(huán)節(jié):第一,將輸入特征x同時輸送至兩個分支,第一個分支負責(zé)卷積核的乘積累加運算,輸入特征x依次經(jīng)過三個卷積層(其中3×3卷積層被金字塔卷積模塊代替),輸出教師體態(tài)特征圖F(x),另一個分支通過跳級連接方式橫跨三個卷積層,保留輸入特征x信息;第二,將特征圖F(x)與輸入特征x拼接;第三,利用relu激活函數(shù)輸出特征H(x),H(x)=F(x)+x。
圖2 金字塔殘差神經(jīng)網(wǎng)絡(luò)模型
金字塔卷積模塊通過改變卷積核的尺度和數(shù)量,保留教師體態(tài)圖像更多的層次特征,有效緩解采樣過程中的局部信息丟失問題,增強模型的學(xué)習(xí)能力(Duta et al.,2020)。首先,金字塔卷積模塊將ResNet50的3×3 卷積核替換成深度、尺度(9×9、7×7、5×5、3×3)不同的金字塔卷積模塊,每個模塊均對整個輸入數(shù)據(jù)進行卷積操作;然后,拼接9×9卷積核、7×7卷積核、5×5卷積核、3×3卷積核提取的特征,得到輸出特征圖。在金字塔卷積模塊中,3×3小尺度卷積核專注于學(xué)習(xí)教師體態(tài)的深層細節(jié)信息,5×5、7×7等大尺度卷積核學(xué)習(xí)教師體態(tài)淺層語言信息,這能使深度神經(jīng)網(wǎng)絡(luò)識別的語義信息更豐富。
本研究的實施過程分建立數(shù)據(jù)集、訓(xùn)練識別模型、確定評價指標(biāo)和開發(fā)測評系統(tǒng)四個環(huán)節(jié)。其中,建立數(shù)據(jù)集是基礎(chǔ),即為模型訓(xùn)練提供特征數(shù)據(jù)集;訓(xùn)練識別模型是核心,即基于數(shù)據(jù)集訓(xùn)練生成識別模型;確定評價指標(biāo)是保障,評估模型輸出結(jié)果,衡量前兩個環(huán)節(jié)的優(yōu)缺點;開發(fā)測評系統(tǒng)是關(guān)鍵,即為職前師范生和在職教師開展教學(xué)體態(tài)語言訓(xùn)練提供評價和改進建議。
教師體態(tài)語言數(shù)據(jù)集建立過程分?jǐn)?shù)據(jù)采集、數(shù)據(jù)處理、數(shù)據(jù)增強、標(biāo)簽定義、標(biāo)簽標(biāo)注五個步驟(見圖 3)。
圖3 教師體態(tài)語言數(shù)據(jù)集建立過程
1.數(shù)據(jù)采集
2.數(shù)據(jù)處理
教師體態(tài)特征數(shù)據(jù)處理采用人物目標(biāo)檢測、目標(biāo)追蹤和姿態(tài)骨架圖生成三種技術(shù),先檢測教師目標(biāo)所在區(qū)域,再追蹤特定區(qū)域的教師目標(biāo),最后生成教師體態(tài)骨架圖(見圖4)。
第一,檢測教師目標(biāo)。本研究采用目標(biāo)檢測算法 yolov3(Redmon et al.,2018),檢測課堂教學(xué)場景的教師和學(xué)生目標(biāo)(見圖4a)。具體過程分三步:1)調(diào)整幀圖片大小,使用OpenCV庫將課堂教學(xué)視頻流的幀圖片大小統(tǒng)一為416×416像素,將其輸入到特征提取網(wǎng)絡(luò),得到 13×13、26×26、52×52 三種幀圖片;2)結(jié)果解碼,確定邊界框坐標(biāo)值;3)確定人物目標(biāo)的位置,按照置信度得分排序預(yù)測邊界框,利用非極大值抑制篩選概率最大邊界框,得到每幅幀圖片的教師和學(xué)生位置。
第二,追蹤教師目標(biāo)。目標(biāo)追蹤算法監(jiān)測追蹤幀圖片的教師目標(biāo),過濾學(xué)生目標(biāo)(見圖4b)。具體過程分四步:1)鎖定第t-1幀教師目標(biāo)的坐標(biāo)。2)查看第t幀圖像是否存在。3)若第t幀圖像存在,鎖定第t幀教師位置坐標(biāo),將t-1幀和t幀的坐標(biāo)進行IOU匹配。若IOU匹配成功,將第t-1幀教師目標(biāo)位置坐標(biāo)更新為第t幀坐標(biāo),繼續(xù)執(zhí)行第一步直至第t幀圖像不存在;若IOU匹配失敗,借助卡爾曼濾波算法,預(yù)測第t幀教師目標(biāo)位置,并將第t-1幀教師目標(biāo)位置的坐標(biāo)更新為預(yù)測位置坐標(biāo),繼續(xù)執(zhí)行第一步直至第t幀圖像不存在。4)結(jié)束教師目標(biāo)追蹤,得到只包含教師目標(biāo)的圖片流。
第三,生成教師體態(tài)骨架圖。在課堂教學(xué)中,學(xué)生的視覺注意不會聚焦教師的腳部。因此,本研究改進OpenPose算法,得到能夠檢測19個教師關(guān)節(jié)點的姿態(tài)估計器(見圖4c)。
圖4 教師體態(tài)語言數(shù)據(jù)處理過程
3.數(shù)據(jù)增強
在保證圖像特征自然表達的情況下,研究人員采用水平翻轉(zhuǎn)、高斯模糊操作方法,增加數(shù)據(jù)樣本,減少模型過擬合,增強模型泛化能力。
4.標(biāo)簽定義
本研究參考埃克曼(Ekman)體態(tài)語言分類框架(孔令智,1987),結(jié)合團隊前期研究成果,界定課堂教學(xué)場景的教師體態(tài)語言的動作特征及其教學(xué)價值(徐佳吟,2021),將教師體態(tài)語言分為常規(guī)性、描述性、指示性、巡視性和工具性五類,界定每種體態(tài)語言的動作特征,描述教師體態(tài)語言教學(xué)效能(見表一)。
2.4.2 Tim-3與TGF-β、Smads mRNA的相關(guān)性分析 Tim-3與Smad3呈正相關(guān)(r=0.677,P=0.000)、但與Smad7呈負相關(guān)(r=-0.446,P=0.006)。Tim-3與TGF-β不相關(guān),差異無統(tǒng)計學(xué)意義(r=0.254,P=0.135),見圖2。
5.標(biāo)簽標(biāo)注
本研究由兩名標(biāo)注人員和一名教育專家按表一的五種體態(tài)語言類別,使用PyQt5工具包開發(fā)標(biāo)注程序進行標(biāo)簽標(biāo)注。數(shù)據(jù)集按8∶1∶1比例劃分,得到18784張訓(xùn)練集、2339張驗證集、2352張測試集的教師體態(tài)語言數(shù)據(jù)集(見表二)。
表二 教師課堂體態(tài)語言數(shù)據(jù)集構(gòu)成及數(shù)量分布
表一 教師體態(tài)語言類別、特征界定和教學(xué)效能
本研究實驗環(huán)境分硬件環(huán)境、軟件環(huán)境和實驗參數(shù)。1)硬件環(huán)境:采用深度學(xué)習(xí)工作站,內(nèi)存容量為32 GB,顯存容量為10 GB,以保障模型訓(xùn)練的高效。2)軟件環(huán)境:采用PyTorch深度學(xué)習(xí)框架和Python編程語言,以保證模型訓(xùn)練的靈活性。3)設(shè)置實驗參數(shù),批尺寸設(shè)置為16,學(xué)習(xí)率設(shè)置為1e-3,優(yōu)化器選擇Adam,增強模型收斂的穩(wěn)定性。以上三個步驟為模型訓(xùn)練提供了高效、靈活、穩(wěn)定的實驗環(huán)境。后續(xù)模型訓(xùn)練實驗按以下三個步驟依次展開。
1)歸一化處理。研究人員將教師骨架圖像保持長寬比例不變縮放至224×224像素,對縮放后的圖像進行歸一化處理,然后將訓(xùn)練數(shù)據(jù)集導(dǎo)入優(yōu)化模型進行訓(xùn)練。2)模型訓(xùn)練與驗證,選擇最優(yōu)模型。研究人員在模型訓(xùn)練過程中,以訓(xùn)練數(shù)據(jù)的損失函數(shù)為線索尋找最優(yōu)權(quán)重和偏置參數(shù),損失函數(shù)越小,神經(jīng)網(wǎng)絡(luò)的模型效果越好;利用驗證集數(shù)據(jù)評估模型,調(diào)整模型超參數(shù),經(jīng)過不斷的迭代訓(xùn)練和驗證,得到能夠識別教師體態(tài)語言的最優(yōu)模型。3)測試模型性能。研究人員將測試集數(shù)據(jù)導(dǎo)入最優(yōu)模型,根據(jù)評價標(biāo)準(zhǔn)評估模型的泛化能力和準(zhǔn)確性能。
針對教師體態(tài)語言識別的多分類場景特征,研究人員將準(zhǔn)確率、精確率和召回率作為識別模型的評價指標(biāo),計算公式如(1)、(2)、(3)所示:
其中,T、F表示正確與錯誤;P、N表示模型預(yù)測類別,P代表預(yù)測為正樣本,N代表預(yù)測為負樣本;TP表示將正樣本預(yù)測為正樣本的數(shù)量,TN表示將負樣本預(yù)測為負樣本的數(shù)量,F(xiàn)P表示將負樣本預(yù)測為正樣本的數(shù)量,F(xiàn)N表示將正樣本預(yù)測為負樣本的數(shù)量。準(zhǔn)確率表示預(yù)測正確的樣本數(shù)量占總樣本數(shù)的比例,精確率表示實際為正樣本數(shù)量占預(yù)測為正樣本數(shù)量的比例,召回率表示預(yù)測為正樣本的數(shù)量占實際正樣本數(shù)的比例。通常狀況下,準(zhǔn)確率、精確率和召回率的比值越大,說明模型性能越好,1為最佳狀態(tài)。
本研究應(yīng)用PyQt5和Pyecharts可視化工具包,設(shè)計交互式教師體態(tài)語言智能測評系統(tǒng)。該系統(tǒng)包含測評視頻導(dǎo)入、教師檢測追蹤、教師骨架表征和生成測評報告四個功能模塊。1)測評視頻導(dǎo)入模塊利用PyQt5的QFileDialog文件對話框組件,生成文件對話框,支持測評人員從本地系統(tǒng)導(dǎo)入待測視頻文件。2)教師檢測追蹤模塊使用yolov3算法和目標(biāo)追蹤算法,獲得待測視頻中僅包含教師目標(biāo)的圖像流。3)教師骨架表征模塊應(yīng)用OpenPose姿態(tài)估計器,生成教師體態(tài)骨架圖。4)生成測評報告模塊應(yīng)用已訓(xùn)練的金字塔殘差神經(jīng)網(wǎng)絡(luò)模型,統(tǒng)計分析視頻中教師五種體態(tài)語言類型的頻次和方式,再使用Pyecharts工具包繪制可視化測評結(jié)果,生成教師教學(xué)體態(tài)語言測評報告。
本實驗在表二的數(shù)據(jù)集上進行,訓(xùn)練時長共6小時20分鐘。為驗證自建數(shù)據(jù)集對識別模型訓(xùn)練過程的有效性,本實驗從模型訓(xùn)練結(jié)果、模型驗證結(jié)果、模型測試結(jié)果三個方面展開:1)依據(jù)訓(xùn)練集準(zhǔn)確率和損失率的收斂情況判斷模型是否得到有效訓(xùn)練;2)依據(jù)驗證集的準(zhǔn)確率和損失率的收斂情況判斷模型訓(xùn)練參數(shù)是否得到有效調(diào)整及模型是否過擬合;3)依據(jù)測試集的準(zhǔn)確率、精確率和召回率值評估模型識別性能的優(yōu)劣。最終實驗結(jié)果見圖5。
預(yù)處理后的教師體態(tài)語言數(shù)據(jù)集被輸入金字塔殘差神經(jīng)網(wǎng)絡(luò),經(jīng)過60輪迭代訓(xùn)練,訓(xùn)練集的準(zhǔn)確率和損失率收斂趨于平穩(wěn)(見圖5a)。結(jié)果顯示,隨著迭代次數(shù)的增加,模型準(zhǔn)確率迅速提高,最終穩(wěn)定在95%以上;損失率不存在較大幅度波動,整體呈下降趨勢,最終收斂在平穩(wěn)的數(shù)值區(qū)間。以上數(shù)據(jù)說明,識別模型得到有效訓(xùn)練,自建的教師體態(tài)語言訓(xùn)練集的數(shù)量和質(zhì)量滿足模型學(xué)習(xí)需要。
相較于訓(xùn)練集的準(zhǔn)確率和損失率變化情況,識別模型在驗證集上的波動略大,準(zhǔn)確率在前10次迭代中提高迅速,在第40次迭代后準(zhǔn)確率趨于穩(wěn)定,達到95%以上(見圖5b);損失率在前10次迭代中迅速下降,在第40次迭代后損失率趨于收斂。因此,識別模型的準(zhǔn)確率在訓(xùn)練集和驗證集上均呈現(xiàn)先上升后收斂,說明識別模型泛化能力較強,未出現(xiàn)過擬合問題。
模型在驗證集上對教師不同類別體態(tài)語言的識別達到高準(zhǔn)確率。驗證集的整體預(yù)測準(zhǔn)確率高達99.91%。其中,工具性體態(tài)語言的準(zhǔn)確率最高,為99.97%;描述性體態(tài)語言次之,為99.96%;指示性體態(tài)語言和巡視性體態(tài)語言的準(zhǔn)確率為99.91%;常規(guī)性體態(tài)語言的準(zhǔn)確率低于其他四種類型,為99.79%。
混淆矩陣顯示了識別模型在教師體態(tài)語言測試集的表現(xiàn)情況(見圖5c)。橫坐標(biāo)表示模型預(yù)測類別,縱坐標(biāo)表示真實類別。其中,對角線上的數(shù)值表示預(yù)測正確的數(shù)量,非對角線上的數(shù)值表示預(yù)測錯誤的數(shù)量?;煜仃噲D顏色深度及數(shù)值說明,描述性體態(tài)語言預(yù)測正確的數(shù)量最高,為479;工具性體態(tài)語言預(yù)測正確的數(shù)量最低,為422;其他三類的數(shù)量居中。
圖5 實驗結(jié)果
基于測試集混淆矩陣的數(shù)值,教師五類體態(tài)語言的準(zhǔn)確率、精確率和召回率見表三。三個評價指標(biāo)值特征如下。
表三 識別模型在測試集的準(zhǔn)確率、精確率和召回率
1)準(zhǔn)確率。工具性體態(tài)語言的準(zhǔn)確率最高,描述性體態(tài)語言的準(zhǔn)確率偏低,但兩者差別很小。2)精確率。工具性體態(tài)語言的精確率最高(98.60%),這說明極少出現(xiàn)將其他類別體態(tài)語言預(yù)測為工具性體態(tài)語言;描述性體態(tài)語言的精確率最低,這說明將其他類別體態(tài)語言預(yù)測為描述性體態(tài)語言的概率最大。3)召回率。工具性體態(tài)語言的召回率最高(99.76%),這說明極少出現(xiàn)將工具性體態(tài)語言預(yù)測為其他類別體態(tài)語言;常規(guī)性體態(tài)語言的召回率最低,這說明將常規(guī)性體態(tài)語言預(yù)測為其他類別體態(tài)語言的概率最大,預(yù)測效果不佳。
本研究采用功能測試法測試教師體態(tài)語言智能測評系統(tǒng)。研究人員選用一段時長為3分39秒的授課視頻,分四個步驟評測:1)單擊菜單欄的“測評視頻導(dǎo)入”選項導(dǎo)入教師授課視頻;2)點擊菜單欄的“教師檢測追蹤”選項,等待教師目標(biāo)檢測和追蹤完畢;3)點擊菜單欄的“教師骨架表征”選項,等待教師骨架圖生成完畢;4)點擊菜單欄的“生成測評報告”選項,系統(tǒng)顯示五種體態(tài)語言行為的頻次、間隔和時序變化,生成測評分析報告(見圖 6)。
圖6 教師體態(tài)語言智能感知測評系統(tǒng)功能測試
測評分析報告雷達圖顯示,常規(guī)性體態(tài)語言數(shù)量最多(2972幀),描述性體態(tài)語言837幀,指示性體態(tài)語言1966幀,巡視性體態(tài)語言790幀,工具性體態(tài)語言0幀。報告熱力圖還顯示,視頻前半部分以指示性和巡視性體態(tài)語言為主,后半部分以常規(guī)性體態(tài)語言為主。這說明教師前半部分通過體態(tài)吸引學(xué)生注意力,使學(xué)生專注于教學(xué)媒體內(nèi)容,課堂氛圍較活躍;后半部分較少出現(xiàn)巡視走動。
本部分依據(jù)人體骨架表征、數(shù)據(jù)集創(chuàng)建和神經(jīng)網(wǎng)絡(luò)模型構(gòu)建等技術(shù)原理,關(guān)聯(lián)和對比已有相關(guān)研究結(jié)果,重點討論教師體態(tài)語言的人體骨架表征、數(shù)據(jù)集創(chuàng)建及智能識別神經(jīng)網(wǎng)絡(luò)模型構(gòu)建的方法,以構(gòu)建大數(shù)據(jù)驅(qū)動的教師課堂體態(tài)語言智能測評方法體系。
實驗結(jié)果顯示,教師體態(tài)語言識別的準(zhǔn)確率、精確率和召回率均達到實用水平,其主要原因在于教師體態(tài)語言特征的人體骨架表征可顯性表示教師體態(tài)特征的差異。已有研究發(fā)現(xiàn),與RGB圖像的行為識別相比,基于人體骨架的體態(tài)語言識別準(zhǔn)確率為97.92%,提高了4%(何秀玲等,2020),與本研究教師體態(tài)語言識別準(zhǔn)確率相近??梢?,與傳統(tǒng)人類體態(tài)特征的RGB圖像表示法相比,人體骨架表征方法聚焦人體關(guān)鍵關(guān)節(jié)的輪廓特征,在身體姿勢特征差異表征上優(yōu)勢明顯,且可省略RGB圖像紋理特征,減少后期識別模型訓(xùn)練的冗余計算,提高識別模型的計算效率。結(jié)合人體骨架建模原理,教師體態(tài)語言特征的人體骨架表征方法包含三個關(guān)鍵步驟。
第一,確定教師體態(tài)識別應(yīng)用場景。人體骨架模型相關(guān)研究顯示,基于人體骨架的應(yīng)用場景聚焦行為識別、步態(tài)識別、異常行為監(jiān)測、健身康復(fù)和舞蹈訓(xùn)練五個領(lǐng)域(赫磊等,2020)。本研究發(fā)現(xiàn),教師體態(tài)語言識別屬行為識別。人體骨架表征方法能最大化顯現(xiàn)教師體態(tài)軀干角度、肢體位置等特征,是提取教師體態(tài)語言特征差異的最優(yōu)方法。
第二,選擇最優(yōu)人體姿態(tài)估計器。人物目標(biāo)檢測和目標(biāo)追蹤方法從課堂教學(xué)場景提取教師圖像,簡化教師教學(xué)背景,使其不受學(xué)生、課桌椅和多媒體設(shè)備等背景的影響。在此基礎(chǔ)上,選擇自下而上的人體姿態(tài)估計器OpenPose加快了人體骨架生成效率,達到實時估計、快速運行的要求。
第三,建立精簡的人體姿態(tài)估計模型。針對學(xué)生視覺注意極少關(guān)注教師腳部的場景特點,本研究選取包含25個關(guān)節(jié)點的人體骨架模型,刪除對體態(tài)語言識別貢獻較少的腳跟、腳趾等特征點,保留教師體態(tài)骨架的19個關(guān)節(jié)點,建立了精簡人體姿態(tài)估計模型。
綜上所述,本研究通過以上三個步驟完成教師體態(tài)語言骨架圖的特征表征,將教師姿態(tài)特征差異最大化顯性表示。這個步驟是教師體態(tài)語言特征數(shù)據(jù)集前期樣本數(shù)據(jù)處理的關(guān)鍵環(huán)節(jié),能提高教師體態(tài)語言分類學(xué)習(xí)的準(zhǔn)確率。
目前,全球尚未建立教師課堂體態(tài)語言的數(shù)據(jù)集。針對這一迫切需求,本研究基于數(shù)據(jù)驅(qū)動的研究范式,建立首個來源于真實教學(xué)場景的教師體態(tài)語言數(shù)據(jù)集。實驗證明,基于該數(shù)據(jù)集訓(xùn)練的模型預(yù)測準(zhǔn)確率高于97.02%,達到教師體態(tài)語言智能測評應(yīng)用場景的要求。教師體態(tài)語言數(shù)據(jù)集創(chuàng)建包括數(shù)據(jù)采集、數(shù)據(jù)處理、數(shù)據(jù)增強、標(biāo)簽定義、標(biāo)簽標(biāo)注五個環(huán)節(jié)。其中,數(shù)據(jù)處理、標(biāo)簽定義和標(biāo)簽標(biāo)注是關(guān)鍵,決定教師體態(tài)語言數(shù)據(jù)集的質(zhì)量。針對以上三個關(guān)鍵環(huán)節(jié),教師體態(tài)語言數(shù)據(jù)集的數(shù)據(jù)處理、定義及標(biāo)注的優(yōu)化有以下三種方法。
第一,采集場景影像,提取特征數(shù)據(jù)。研究者可在真實教學(xué)場景中采集教師課堂教學(xué)視頻,保證教師體態(tài)語言行為發(fā)生的情境性和真實性;然后采用人物目標(biāo)檢測、目標(biāo)追蹤和骨架圖生成三個關(guān)鍵步驟,從真實課堂場景視頻中提取教師體態(tài)語言圖像數(shù)據(jù),生成表征其體態(tài)語言特征的骨架圖。
第二,聚類行為特征,定義標(biāo)簽類別。研究者可參考埃克曼對體態(tài)語言的分類,分析課堂場景中教師體態(tài)語言的教學(xué)價值,聚類教師體態(tài)動作行為特征,確定教師體態(tài)語言的類屬:常規(guī)性、描述性、指示性、巡視性和工具性。標(biāo)簽定義的過程遵循科學(xué)性、一致性、可操作性等原則,形成真實教學(xué)場景中教師體態(tài)語言行為類屬的特征界定。
第三,開發(fā)標(biāo)注工具,開展數(shù)據(jù)標(biāo)注。數(shù)據(jù)標(biāo)注方法主要有開源標(biāo)注工具、開發(fā)標(biāo)注工具和眾包三種方式(蔡莉等,2020)。本研究采用開發(fā)標(biāo)注工具方式,使用PyQt5工具包開發(fā)教師體態(tài)圖像標(biāo)簽標(biāo)注工具,實現(xiàn)圖像顯示、標(biāo)簽選擇和標(biāo)簽保存三個數(shù)據(jù)標(biāo)注功能。本研究聘請兩名標(biāo)注人員和一名教育專家開展多輪多人標(biāo)注,由標(biāo)注員使用標(biāo)注工具為數(shù)據(jù)集中教師體態(tài)骨架圖像添加類屬標(biāo)簽,教育專家進行審核和二次標(biāo)注任務(wù),最終完成數(shù)據(jù)集中教師體態(tài)骨架圖數(shù)據(jù)標(biāo)簽標(biāo)注任務(wù)。
實驗證明,以上數(shù)據(jù)處理、定義及標(biāo)注的方法,能提取真實教學(xué)場景中教師體態(tài)語言的顯著特征,按照課堂教學(xué)效用價值科學(xué)確定教師體態(tài)類別,高效率標(biāo)注數(shù)據(jù)圖像標(biāo)簽,創(chuàng)建了全球首個漢語文化背景下教師體態(tài)語言數(shù)據(jù)集,為訓(xùn)練智能識別模型提供了高質(zhì)量的數(shù)據(jù)基座。
實驗結(jié)果證實,ResNet50和金字塔卷積模塊組成深度神經(jīng)網(wǎng)絡(luò)模型,其在測試數(shù)據(jù)集的平均準(zhǔn)確率高達97.02%,達到實用要求的識別效果。相關(guān)研究發(fā)現(xiàn),ResNet50網(wǎng)絡(luò)模型適合人類體態(tài)行為識別與理解的應(yīng)用研發(fā)(陳瑩等,2021)。但是,人體骨架表征的骨架圖關(guān)系位置復(fù)雜、細節(jié)特征多,比如小臂與大臂的夾角、大腿與小腿的夾角等。ResNet50網(wǎng)絡(luò)模型雖然層數(shù)多,但是寬度不足,難以提取教師體態(tài)語言骨架圖的多角度的細節(jié)特征。為解決這一難題,本研究在不增加計算成本和參數(shù)量的前提下,使用金字塔卷積模塊替換ResNet50網(wǎng)絡(luò)的單一尺度(3×3)卷積核,堆疊不同大小的卷積核,拓展網(wǎng)絡(luò)寬度,擴大模型感受野,增加教師體態(tài)語言骨架圖細粒度特征,增強網(wǎng)絡(luò)特征提取能力,提高教師體態(tài)語言智能識別的準(zhǔn)確率。基于以上研究分析,智能識別神經(jīng)網(wǎng)絡(luò)模型構(gòu)建一般采用以下三種方法。
第一,明確神經(jīng)網(wǎng)絡(luò)模型的適用范圍。不同類型神經(jīng)網(wǎng)絡(luò)模型適用于不同學(xué)習(xí)場景。例如,卷積神經(jīng)網(wǎng)絡(luò)適合圖像識別、圖像分類和對象檢測等任務(wù),多層感知器適用表格數(shù)據(jù)集的分類預(yù)測和回歸預(yù)測等任務(wù),循環(huán)神經(jīng)網(wǎng)絡(luò)適用語音分析、文本分析等前后存在時序依賴關(guān)系的任務(wù)。
第二,選用適合場景的神經(jīng)網(wǎng)絡(luò)模型。鑒于教師體態(tài)語言識別屬圖像識別領(lǐng)域,本研究選用卷積神經(jīng)網(wǎng)絡(luò)提取教師體態(tài)骨架圖特征,并針對教師體態(tài)骨架圖的細節(jié)特征,棄用淺層卷積神經(jīng)網(wǎng)絡(luò)模型,選用網(wǎng)絡(luò)層數(shù)較深的ResNet50網(wǎng)絡(luò),提取教師體態(tài)語言更多的抽象特征,解決網(wǎng)絡(luò)梯度消失和梯度爆炸等問題,保證模型識別效果。
第三,優(yōu)化深度神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)。神經(jīng)網(wǎng)絡(luò)模型的優(yōu)化方法有兩種:調(diào)整超參數(shù)和調(diào)整網(wǎng)絡(luò)結(jié)構(gòu)。前者改變學(xué)習(xí)率、優(yōu)化器和批尺寸等超參數(shù);后者通過增加卷積層、引入注意力機制層等調(diào)整網(wǎng)絡(luò)深度(Li et al.,2014;王永固等,2021),或者通過嵌入金字塔卷積、級聯(lián)卷積等增加網(wǎng)絡(luò)寬度(Zhang et al.,2016),提取更高級的語義特征。本研究采用金字塔卷積模塊替換單一尺度卷積核的優(yōu)化方法,增加ResNet50神經(jīng)網(wǎng)絡(luò)寬度。因此,模型結(jié)構(gòu)優(yōu)化的一般原則為依據(jù)數(shù)據(jù)集的樣本細節(jié)特征,結(jié)合模型訓(xùn)練結(jié)果,合理增加神經(jīng)網(wǎng)絡(luò)的深度或?qū)挾龋3诌m中的神經(jīng)網(wǎng)絡(luò)深度和寬度。
基于以上三種方法構(gòu)建的最優(yōu)的教師體態(tài)語言智能識別神經(jīng)網(wǎng)絡(luò)模型,其網(wǎng)絡(luò)深度和寬度適合識別教師體態(tài)語言骨架圖的細節(jié)特征,可滿足教師體態(tài)語言識別的高準(zhǔn)確率要求,能用于開發(fā)教師體態(tài)語言智能測評場景應(yīng)用。
教師體態(tài)語言自動識別是測評和干預(yù)教師課堂教學(xué)能力的關(guān)鍵技術(shù)之一,它能有效增強教學(xué)內(nèi)容講解和創(chuàng)設(shè)活躍課堂氛圍,提升課堂教學(xué)的質(zhì)量和效率。本研究以真實教學(xué)情境中專家型教師體態(tài)語言為研究對象,設(shè)計教師體態(tài)語言智能識別研究方案,使用人物目標(biāo)檢測、目標(biāo)追蹤和體態(tài)骨架圖生成三種技術(shù),建立了全球首個基于人體骨架的教師體態(tài)語言數(shù)據(jù)集。在此基礎(chǔ)上,本研究針對教師體態(tài)語言的骨架圖特征,構(gòu)建金字塔殘差卷積神經(jīng)網(wǎng)絡(luò)模型,實現(xiàn)教師體態(tài)語言識別準(zhǔn)確率高于97.02%的研究目標(biāo),并開發(fā)教師體態(tài)語言智能感知測評系統(tǒng),破解人工視頻分析教師體態(tài)語言的局限性。但是,本研究的教師體態(tài)語言僅包含教師的身體、頭部和上肢動作特征,尚未考慮教師的面部表情、手勢語義和語音等模態(tài)特征。后續(xù)研究將采集多種模態(tài)來源數(shù)據(jù),建立更大規(guī)模的教師體態(tài)語言數(shù)據(jù)集,探索多模態(tài)融合的教師體態(tài)語言智能感知方法,開發(fā)教師體態(tài)語言智能測評應(yīng)用場景。