基于人體骨架和深度學(xué)習(xí)的教師體態(tài)語言智能測評

2023-02-06 08:20:00王永固馬家榮王瑞琳

開放教育研究 2023年1期

王永固馬家榮王瑞琳

（浙江工業(yè)大學(xué) 教育科學(xué)與技術(shù)學(xué)院，浙江杭州 310023）

一、引言

體態(tài)語言是教師傳遞教學(xué)信息和組織課堂活動的重要途徑。教師利用不同的體態(tài)語言（如手勢、走動等）引發(fā)學(xué)生注意，增強教師語言表達，激活學(xué)生學(xué)習(xí)動機，輔助學(xué)生理解內(nèi)容，提高課堂教學(xué)效果（王繼新等，2020；Bosch et al.，2018；李爽等，2020）。相關(guān)研究發(fā)現(xiàn)，職前師范生和在職教師在正確規(guī)范、恰當(dāng)運用體態(tài)語言方面存在較多問題（張倩等，2019；牟智佳等，2020）。為解決這一現(xiàn)實問題，學(xué)界采用人工視頻分析方法測評教師體態(tài)語言，使用手工標(biāo)記教師體態(tài)語言類型，統(tǒng)計不同類型體態(tài)語言運用頻次和方式等，提出相應(yīng)干預(yù)方法與改進建議（蔣立兵等，2018；周鵬生，2006）。但是，該方法存在效度低、反饋慢和耗時長等缺點。

教育部（2018）發(fā)布的《關(guān)于實施卓越教師培養(yǎng)計劃2.0的意見》強調(diào)，利用大數(shù)據(jù)、深度學(xué)習(xí)等技術(shù)，監(jiān)測課程教學(xué)實施情況，有效診斷評價職前教師學(xué)習(xí)狀況和教學(xué)質(zhì)量。因此，教師體態(tài)語言測評需與深度學(xué)習(xí)技術(shù)融合，探索測評的精準(zhǔn)化、個性化和規(guī)?；窂?，助力教師專業(yè)能力科學(xué)發(fā)展。隨著人工智能領(lǐng)域深度學(xué)習(xí)技術(shù)的發(fā)展，機器能夠自動識別和理解視頻中人物的體態(tài)語言動作（王萍，2020），這為教師體態(tài)語言智能測評提供了可行性。

鑒于此，本研究采用人體骨架和深度學(xué)習(xí)方法，設(shè)計教師體態(tài)語言智能識別與測評方案，建立真實教學(xué)情境下教師標(biāo)準(zhǔn)化體態(tài)語言數(shù)據(jù)集，生成教師體態(tài)語言智能識別深度學(xué)習(xí)模型，開發(fā)教師體態(tài)語言智能測評系統(tǒng)，探索教師體態(tài)語言的精準(zhǔn)測評。

二、文獻綜述

隨著人工智能技術(shù)與教師教育的深度融合，深度學(xué)習(xí)技術(shù)正在創(chuàng)新教師體態(tài)語言的智能測評方法與系統(tǒng)，目前已取得階段性研究成果。

（一）人工視頻分析測評方法

教師體態(tài)語言測評研究最先采用人工視頻分析技術(shù)，包含主觀測量和客觀測量兩種方法。1）主觀測量法。它采用學(xué)習(xí)者主觀報告方式，評估人員記錄學(xué)習(xí)者對教師體態(tài)語言的主觀感受（Harrigan et al.，2008；McArthur，2022），其評測結(jié)果受評估者和學(xué)習(xí)者知識結(jié)構(gòu)和主觀經(jīng)驗的影響。巴爾馬克等（Barmaki et al.，2015）采用主觀測量方法，測評教師口頭語言和體態(tài)語言之間的和諧程度，發(fā)現(xiàn)數(shù)學(xué)教師的體態(tài)頻次明顯高于生物教師。2）客觀測量法。它通過自然情境的非參與式觀察，控制體態(tài)語言的要素變量，分析體態(tài)語言的特定要素對教學(xué)效果的影響機制。巴爾馬克（Barmaki，2014）應(yīng)用信息技術(shù)構(gòu)建客觀測量系統(tǒng)，分析教師與虛擬學(xué)生的體態(tài)語言交互過程。研究發(fā)現(xiàn)，更加開放、更長時間的體態(tài)語言與學(xué)生的學(xué)業(yè)表現(xiàn)正相關(guān)。以上兩種方法屬于人工視頻分析范疇，主觀性強、反饋慢和耗時長，難以實現(xiàn)教師體態(tài)語言評測的精準(zhǔn)、即時和高效。

（二）基于深度學(xué)習(xí)的智能測評方法

深度學(xué)習(xí)技術(shù)正被應(yīng)用于教師體態(tài)語言的智能測評研究，它借助紅外成像和骨骼成像兩種姿態(tài)特征數(shù)據(jù)采集技術(shù)，智能感知和測評教師體態(tài)語言教學(xué)行為（徐歡云等，2019）。在紅外成像技術(shù)方面，王繼新等（Wang et al.，2020）提出基于卷積神經(jīng)網(wǎng)絡(luò)的紅外體態(tài)估計方法，識別真實教室中教師的指示體態(tài)，識別率為92%。但是，紅外成像技術(shù)需要專業(yè)的紅外成像設(shè)備，其教育場景應(yīng)用成本高。與紅外成像技術(shù)相比，骨骼成像技術(shù)不需要額外的成像設(shè)備，使用深度學(xué)習(xí)的人體姿態(tài)估計器，如AlphaPose、OpenPose等，提取二維空間的教師骨骼關(guān)節(jié)點及其坐標(biāo)信息，可以忽略服裝背景對人體的干擾，保持視覺不變，更適合真實教學(xué)場景的教師體態(tài)語言智能測評。巴爾馬克（Barmaki，2015）借助骨骼手勢生成器構(gòu)建閉合性手勢數(shù)據(jù)庫，自動統(tǒng)計專家型教師與新手教師閉合性手勢的頻次和時長差異。劉婷婷等（Liu et al.，2019）使用 OpenPose骨架估計技術(shù)構(gòu)建教師指示體態(tài)數(shù)據(jù)庫，通過神經(jīng)網(wǎng)絡(luò)自動檢測教師的指示體態(tài)，識別準(zhǔn)確率達90%。陳少輝（2020）建立CCNU-Edu-Pose數(shù)據(jù)集，基于教師輪廓骨架融合特征識別教師的ok、安靜、豎起拇指、指向黑板等手勢，自動量化教師的教學(xué)手勢行為。以上兩種技術(shù)的先行探索為教師體態(tài)語言智能測評提供了方法論參考。然而，教師課堂體態(tài)語言智能測評研究存在兩個亟待解決的問題：1）缺乏真實課堂教師標(biāo)準(zhǔn)化體態(tài)語言行為大數(shù)據(jù)集樣本；2）智能測評模型的識別準(zhǔn)確率低于95%，達不到真實教學(xué)應(yīng)用標(biāo)準(zhǔn)。針對以上問題，本研究提出真實教學(xué)情境的教師體態(tài)語言數(shù)據(jù)集創(chuàng)建方法，即建立教師課堂教學(xué)五種類型體態(tài)語言數(shù)據(jù)集，構(gòu)建金字塔殘差深度神經(jīng)網(wǎng)絡(luò)模型，開展基于大數(shù)據(jù)集的識別模型訓(xùn)練與驗證實驗，優(yōu)化殘差深度神經(jīng)網(wǎng)絡(luò)模型，最后開發(fā)教師體態(tài)語言智能感知測評系統(tǒng)，可視化分析教師體態(tài)語言的頻次、間隔和時序變化等測度指標(biāo)，生成教師體態(tài)語言智能測評診斷報告。

三、研究方法

（一）研究設(shè)計

教師體態(tài)語言智能測評研究方案由數(shù)據(jù)采集、數(shù)據(jù)集建立、識別模型構(gòu)建、識別模型訓(xùn)練與評估、測評系統(tǒng)開發(fā)五個關(guān)鍵環(huán)節(jié)組成（見圖1）。在數(shù)據(jù)采集環(huán)節(jié)，研究人員使用視頻采集設(shè)備，拍攝專家型教師真實教學(xué)場景的教學(xué)視頻，采集教師標(biāo)準(zhǔn)化體態(tài)語言視頻素材數(shù)據(jù)；在數(shù)據(jù)集建立環(huán)節(jié)，研究人員使用人體目標(biāo)檢測技術(shù)、目標(biāo)追蹤技術(shù)和姿態(tài)估計技術(shù)，將教師體態(tài)語言視頻轉(zhuǎn)換為人體骨架表征的圖片文件，開發(fā)并應(yīng)用體態(tài)語言類別標(biāo)簽標(biāo)注工具，為教師姿態(tài)骨骼特征圖片標(biāo)注類別標(biāo)簽，建立教師課堂體態(tài)語言大數(shù)據(jù)集；在識別模型構(gòu)建環(huán)節(jié)，研究人員利用金字塔卷積單元優(yōu)化殘差網(wǎng)絡(luò)，建立金字塔殘差神經(jīng)網(wǎng)絡(luò)，提取教師體態(tài)圖像的細粒度特征；在識別模型訓(xùn)練與評估環(huán)節(jié)，研究人員將環(huán)節(jié)二的數(shù)據(jù)集作為模型輸入，訓(xùn)練教師體態(tài)語言識別模型，計算識別模型的準(zhǔn)確率、損失率變化情況，評估模型的優(yōu)缺點；在測評系統(tǒng)開發(fā)環(huán)節(jié)，研究人員應(yīng)用PyQt5和Pyecharts可視化工具包，設(shè)計可交互的教師體態(tài)語言智能測評系統(tǒng)，將訓(xùn)練良好的識別模型應(yīng)用到教師體態(tài)語言測評實踐。經(jīng)過以上五個環(huán)節(jié)，教師體態(tài)語言能夠被自動識別、準(zhǔn)確理解、智能測評，并為教師提供個性化反饋。

圖1 教師體態(tài)語言智能測評研究設(shè)計

（二）關(guān)鍵技術(shù)

教師體態(tài)語言智能識別需要應(yīng)用兩種關(guān)鍵技術(shù)：人體骨架表征技術(shù)和金字塔殘差神經(jīng)網(wǎng)絡(luò)識別模型。前者用于提取二維空間的教師體態(tài)關(guān)節(jié)坐標(biāo)和骨架信息，即使用人體骨架信息表征教師體態(tài)特征，提高教師體態(tài)特征表征的準(zhǔn)確度；后者利用金字塔卷積模塊替換ResNet50特征提取網(wǎng)絡(luò)的卷積層，增強識別模型的語義信息表達能力。

1.教師體態(tài)語言的人體骨架表征

文獻分析顯示，2D骨架具有視覺不變性、抗干擾能力強、生成骨架圖像簡單等優(yōu)點。2D骨架生成方法為 OpenPose 實時檢測算法（Cao et al.，2017），該算法先檢測人體的若干關(guān)節(jié)點，將關(guān)節(jié)點連接形成骨架圖，再通過圖優(yōu)化方法剔除錯誤的連接，最終生成人體2D骨架圖。本研究即采用OpenPose人體姿態(tài)估計算法，將教師體態(tài)語言行為轉(zhuǎn)變成人體骨架圖的高級表征形式。人體骨架表征過程分三個步驟：首先，應(yīng)用VGG-19卷積神經(jīng)網(wǎng)絡(luò)提取教師體態(tài)語言的原始特征；其次，將原始特征作為兩個分支輸入，第一個分支獲取教師體態(tài)的25個關(guān)節(jié)點置信度圖，第二個分支獲取部分親和域，預(yù)測各關(guān)節(jié)點之間的關(guān)聯(lián)程度；最后，根據(jù)關(guān)節(jié)點置信度圖和關(guān)聯(lián)度繪制人體骨架圖。通過以上三個步驟，教師體態(tài)語言特征被轉(zhuǎn)換為骨架節(jié)點及其關(guān)系的骨架圖。

2.金字塔殘差神經(jīng)網(wǎng)絡(luò)模型構(gòu)建

教師體態(tài)語言特征提取的深度神經(jīng)網(wǎng)絡(luò)由ResNet50和金字塔卷積模塊組成（見圖2）。ResNet50網(wǎng)絡(luò)在加深層數(shù)的同時引入四組殘差單元，使神經(jīng)網(wǎng)絡(luò)在采樣過程中保留更多的原始特征，防止梯度爆炸問題（He et al.，2016）。特征提取過程包括三個環(huán)節(jié)：第一，將輸入特征x同時輸送至兩個分支，第一個分支負責(zé)卷積核的乘積累加運算，輸入特征x依次經(jīng)過三個卷積層（其中3×3卷積層被金字塔卷積模塊代替），輸出教師體態(tài)特征圖F（x），另一個分支通過跳級連接方式橫跨三個卷積層，保留輸入特征x信息；第二，將特征圖F（x）與輸入特征x拼接；第三，利用relu激活函數(shù)輸出特征H（x），H（x）=F（x）+x。

圖2 金字塔殘差神經(jīng)網(wǎng)絡(luò)模型

金字塔卷積模塊通過改變卷積核的尺度和數(shù)量，保留教師體態(tài)圖像更多的層次特征，有效緩解采樣過程中的局部信息丟失問題，增強模型的學(xué)習(xí)能力（Duta et al.，2020）。首先，金字塔卷積模塊將ResNet50的3×3 卷積核替換成深度、尺度（9×9、7×7、5×5、3×3）不同的金字塔卷積模塊，每個模塊均對整個輸入數(shù)據(jù)進行卷積操作；然后，拼接9×9卷積核、7×7卷積核、5×5卷積核、3×3卷積核提取的特征，得到輸出特征圖。在金字塔卷積模塊中，3×3小尺度卷積核專注于學(xué)習(xí)教師體態(tài)的深層細節(jié)信息，5×5、7×7等大尺度卷積核學(xué)習(xí)教師體態(tài)淺層語言信息，這能使深度神經(jīng)網(wǎng)絡(luò)識別的語義信息更豐富。

四、研究實施

本研究的實施過程分建立數(shù)據(jù)集、訓(xùn)練識別模型、確定評價指標(biāo)和開發(fā)測評系統(tǒng)四個環(huán)節(jié)。其中，建立數(shù)據(jù)集是基礎(chǔ)，即為模型訓(xùn)練提供特征數(shù)據(jù)集；訓(xùn)練識別模型是核心，即基于數(shù)據(jù)集訓(xùn)練生成識別模型；確定評價指標(biāo)是保障，評估模型輸出結(jié)果，衡量前兩個環(huán)節(jié)的優(yōu)缺點；開發(fā)測評系統(tǒng)是關(guān)鍵，即為職前師范生和在職教師開展教學(xué)體態(tài)語言訓(xùn)練提供評價和改進建議。

（一）建立數(shù)據(jù)集

教師體態(tài)語言數(shù)據(jù)集建立過程分?jǐn)?shù)據(jù)采集、數(shù)據(jù)處理、數(shù)據(jù)增強、標(biāo)簽定義、標(biāo)簽標(biāo)注五個步驟（見圖 3）。

圖3 教師體態(tài)語言數(shù)據(jù)集建立過程

1.數(shù)據(jù)采集

2.數(shù)據(jù)處理

教師體態(tài)特征數(shù)據(jù)處理采用人物目標(biāo)檢測、目標(biāo)追蹤和姿態(tài)骨架圖生成三種技術(shù)，先檢測教師目標(biāo)所在區(qū)域，再追蹤特定區(qū)域的教師目標(biāo)，最后生成教師體態(tài)骨架圖（見圖4）。

第一，檢測教師目標(biāo)。本研究采用目標(biāo)檢測算法 yolov3（Redmon et al.，2018），檢測課堂教學(xué)場景的教師和學(xué)生目標(biāo)（見圖4a）。具體過程分三步：1）調(diào)整幀圖片大小，使用OpenCV庫將課堂教學(xué)視頻流的幀圖片大小統(tǒng)一為416×416像素，將其輸入到特征提取網(wǎng)絡(luò)，得到 13×13、26×26、52×52 三種幀圖片；2）結(jié)果解碼，確定邊界框坐標(biāo)值；3）確定人物目標(biāo)的位置，按照置信度得分排序預(yù)測邊界框，利用非極大值抑制篩選概率最大邊界框，得到每幅幀圖片的教師和學(xué)生位置。

第二，追蹤教師目標(biāo)。目標(biāo)追蹤算法監(jiān)測追蹤幀圖片的教師目標(biāo)，過濾學(xué)生目標(biāo)（見圖4b）。具體過程分四步：1）鎖定第t-1幀教師目標(biāo)的坐標(biāo)。2）查看第t幀圖像是否存在。3）若第t幀圖像存在，鎖定第t幀教師位置坐標(biāo)，將t-1幀和t幀的坐標(biāo)進行IOU匹配。若IOU匹配成功，將第t-1幀教師目標(biāo)位置坐標(biāo)更新為第t幀坐標(biāo)，繼續(xù)執(zhí)行第一步直至第t幀圖像不存在；若IOU匹配失敗，借助卡爾曼濾波算法，預(yù)測第t幀教師目標(biāo)位置，并將第t-1幀教師目標(biāo)位置的坐標(biāo)更新為預(yù)測位置坐標(biāo)，繼續(xù)執(zhí)行第一步直至第t幀圖像不存在。4）結(jié)束教師目標(biāo)追蹤，得到只包含教師目標(biāo)的圖片流。

第三，生成教師體態(tài)骨架圖。在課堂教學(xué)中，學(xué)生的視覺注意不會聚焦教師的腳部。因此，本研究改進OpenPose算法，得到能夠檢測19個教師關(guān)節(jié)點的姿態(tài)估計器（見圖4c）。

圖4 教師體態(tài)語言數(shù)據(jù)處理過程

3.數(shù)據(jù)增強

在保證圖像特征自然表達的情況下，研究人員采用水平翻轉(zhuǎn)、高斯模糊操作方法，增加數(shù)據(jù)樣本，減少模型過擬合，增強模型泛化能力。

4.標(biāo)簽定義

本研究參考埃克曼（Ekman）體態(tài)語言分類框架（孔令智，1987），結(jié)合團隊前期研究成果，界定課堂教學(xué)場景的教師體態(tài)語言的動作特征及其教學(xué)價值（徐佳吟，2021），將教師體態(tài)語言分為常規(guī)性、描述性、指示性、巡視性和工具性五類，界定每種體態(tài)語言的動作特征，描述教師體態(tài)語言教學(xué)效能（見表一）。

2.4.2 Tim-3與TGF-β、Smads mRNA的相關(guān)性分析 Tim-3與Smad3呈正相關(guān)（r=0.677，P=0.000）、但與Smad7呈負相關(guān)（r=-0.446，P=0.006）。Tim-3與TGF-β不相關(guān)，差異無統(tǒng)計學(xué)意義（r=0.254，P=0.135），見圖2。

5.標(biāo)簽標(biāo)注

本研究由兩名標(biāo)注人員和一名教育專家按表一的五種體態(tài)語言類別，使用PyQt5工具包開發(fā)標(biāo)注程序進行標(biāo)簽標(biāo)注。數(shù)據(jù)集按8∶1∶1比例劃分，得到18784張訓(xùn)練集、2339張驗證集、2352張測試集的教師體態(tài)語言數(shù)據(jù)集（見表二）。

表二教師課堂體態(tài)語言數(shù)據(jù)集構(gòu)成及數(shù)量分布

表一教師體態(tài)語言類別、特征界定和教學(xué)效能

（二）訓(xùn)練識別模型

本研究實驗環(huán)境分硬件環(huán)境、軟件環(huán)境和實驗參數(shù)。1）硬件環(huán)境：采用深度學(xué)習(xí)工作站，內(nèi)存容量為32 GB，顯存容量為10 GB，以保障模型訓(xùn)練的高效。2）軟件環(huán)境：采用PyTorch深度學(xué)習(xí)框架和Python編程語言，以保證模型訓(xùn)練的靈活性。3）設(shè)置實驗參數(shù)，批尺寸設(shè)置為16，學(xué)習(xí)率設(shè)置為1e-3，優(yōu)化器選擇Adam，增強模型收斂的穩(wěn)定性。以上三個步驟為模型訓(xùn)練提供了高效、靈活、穩(wěn)定的實驗環(huán)境。后續(xù)模型訓(xùn)練實驗按以下三個步驟依次展開。

1）歸一化處理。研究人員將教師骨架圖像保持長寬比例不變縮放至224×224像素，對縮放后的圖像進行歸一化處理，然后將訓(xùn)練數(shù)據(jù)集導(dǎo)入優(yōu)化模型進行訓(xùn)練。2）模型訓(xùn)練與驗證，選擇最優(yōu)模型。研究人員在模型訓(xùn)練過程中，以訓(xùn)練數(shù)據(jù)的損失函數(shù)為線索尋找最優(yōu)權(quán)重和偏置參數(shù)，損失函數(shù)越小，神經(jīng)網(wǎng)絡(luò)的模型效果越好；利用驗證集數(shù)據(jù)評估模型，調(diào)整模型超參數(shù)，經(jīng)過不斷的迭代訓(xùn)練和驗證，得到能夠識別教師體態(tài)語言的最優(yōu)模型。3）測試模型性能。研究人員將測試集數(shù)據(jù)導(dǎo)入最優(yōu)模型，根據(jù)評價標(biāo)準(zhǔn)評估模型的泛化能力和準(zhǔn)確性能。

（三）確定評價指標(biāo)

針對教師體態(tài)語言識別的多分類場景特征，研究人員將準(zhǔn)確率、精確率和召回率作為識別模型的評價指標(biāo)，計算公式如（1）、（2）、（3）所示：

其中，T、F表示正確與錯誤；P、N表示模型預(yù)測類別，P代表預(yù)測為正樣本，N代表預(yù)測為負樣本；TP表示將正樣本預(yù)測為正樣本的數(shù)量，TN表示將負樣本預(yù)測為負樣本的數(shù)量，F(xiàn)P表示將負樣本預(yù)測為正樣本的數(shù)量，F(xiàn)N表示將正樣本預(yù)測為負樣本的數(shù)量。準(zhǔn)確率表示預(yù)測正確的樣本數(shù)量占總樣本數(shù)的比例，精確率表示實際為正樣本數(shù)量占預(yù)測為正樣本數(shù)量的比例，召回率表示預(yù)測為正樣本的數(shù)量占實際正樣本數(shù)的比例。通常狀況下，準(zhǔn)確率、精確率和召回率的比值越大，說明模型性能越好，1為最佳狀態(tài)。

（四）開發(fā)測評系統(tǒng)

本研究應(yīng)用PyQt5和Pyecharts可視化工具包，設(shè)計交互式教師體態(tài)語言智能測評系統(tǒng)。該系統(tǒng)包含測評視頻導(dǎo)入、教師檢測追蹤、教師骨架表征和生成測評報告四個功能模塊。1）測評視頻導(dǎo)入模塊利用PyQt5的QFileDialog文件對話框組件，生成文件對話框，支持測評人員從本地系統(tǒng)導(dǎo)入待測視頻文件。2）教師檢測追蹤模塊使用yolov3算法和目標(biāo)追蹤算法，獲得待測視頻中僅包含教師目標(biāo)的圖像流。3）教師骨架表征模塊應(yīng)用OpenPose姿態(tài)估計器，生成教師體態(tài)骨架圖。4）生成測評報告模塊應(yīng)用已訓(xùn)練的金字塔殘差神經(jīng)網(wǎng)絡(luò)模型，統(tǒng)計分析視頻中教師五種體態(tài)語言類型的頻次和方式，再使用Pyecharts工具包繪制可視化測評結(jié)果，生成教師教學(xué)體態(tài)語言測評報告。

五、研究結(jié)果

本實驗在表二的數(shù)據(jù)集上進行，訓(xùn)練時長共6小時20分鐘。為驗證自建數(shù)據(jù)集對識別模型訓(xùn)練過程的有效性，本實驗從模型訓(xùn)練結(jié)果、模型驗證結(jié)果、模型測試結(jié)果三個方面展開：1）依據(jù)訓(xùn)練集準(zhǔn)確率和損失率的收斂情況判斷模型是否得到有效訓(xùn)練；2）依據(jù)驗證集的準(zhǔn)確率和損失率的收斂情況判斷模型訓(xùn)練參數(shù)是否得到有效調(diào)整及模型是否過擬合；3）依據(jù)測試集的準(zhǔn)確率、精確率和召回率值評估模型識別性能的優(yōu)劣。最終實驗結(jié)果見圖5。

（一）模型訓(xùn)練結(jié)果

預(yù)處理后的教師體態(tài)語言數(shù)據(jù)集被輸入金字塔殘差神經(jīng)網(wǎng)絡(luò)，經(jīng)過60輪迭代訓(xùn)練，訓(xùn)練集的準(zhǔn)確率和損失率收斂趨于平穩(wěn)（見圖5a）。結(jié)果顯示，隨著迭代次數(shù)的增加，模型準(zhǔn)確率迅速提高，最終穩(wěn)定在95%以上；損失率不存在較大幅度波動，整體呈下降趨勢，最終收斂在平穩(wěn)的數(shù)值區(qū)間。以上數(shù)據(jù)說明，識別模型得到有效訓(xùn)練，自建的教師體態(tài)語言訓(xùn)練集的數(shù)量和質(zhì)量滿足模型學(xué)習(xí)需要。

（二）模型驗證結(jié)果

相較于訓(xùn)練集的準(zhǔn)確率和損失率變化情況，識別模型在驗證集上的波動略大，準(zhǔn)確率在前10次迭代中提高迅速，在第40次迭代后準(zhǔn)確率趨于穩(wěn)定，達到95%以上（見圖5b）；損失率在前10次迭代中迅速下降，在第40次迭代后損失率趨于收斂。因此，識別模型的準(zhǔn)確率在訓(xùn)練集和驗證集上均呈現(xiàn)先上升后收斂，說明識別模型泛化能力較強，未出現(xiàn)過擬合問題。

模型在驗證集上對教師不同類別體態(tài)語言的識別達到高準(zhǔn)確率。驗證集的整體預(yù)測準(zhǔn)確率高達99.91%。其中，工具性體態(tài)語言的準(zhǔn)確率最高，為99.97%；描述性體態(tài)語言次之，為99.96%；指示性體態(tài)語言和巡視性體態(tài)語言的準(zhǔn)確率為99.91%；常規(guī)性體態(tài)語言的準(zhǔn)確率低于其他四種類型，為99.79%。

（三）模型測試結(jié)果

混淆矩陣顯示了識別模型在教師體態(tài)語言測試集的表現(xiàn)情況（見圖5c）。橫坐標(biāo)表示模型預(yù)測類別，縱坐標(biāo)表示真實類別。其中，對角線上的數(shù)值表示預(yù)測正確的數(shù)量，非對角線上的數(shù)值表示預(yù)測錯誤的數(shù)量?；煜仃噲D顏色深度及數(shù)值說明，描述性體態(tài)語言預(yù)測正確的數(shù)量最高，為479；工具性體態(tài)語言預(yù)測正確的數(shù)量最低，為422；其他三類的數(shù)量居中。

圖5 實驗結(jié)果

基于測試集混淆矩陣的數(shù)值，教師五類體態(tài)語言的準(zhǔn)確率、精確率和召回率見表三。三個評價指標(biāo)值特征如下。

表三識別模型在測試集的準(zhǔn)確率、精確率和召回率

1）準(zhǔn)確率。工具性體態(tài)語言的準(zhǔn)確率最高，描述性體態(tài)語言的準(zhǔn)確率偏低，但兩者差別很小。2）精確率。工具性體態(tài)語言的精確率最高（98.60%），這說明極少出現(xiàn)將其他類別體態(tài)語言預(yù)測為工具性體態(tài)語言；描述性體態(tài)語言的精確率最低，這說明將其他類別體態(tài)語言預(yù)測為描述性體態(tài)語言的概率最大。3）召回率。工具性體態(tài)語言的召回率最高（99.76%），這說明極少出現(xiàn)將工具性體態(tài)語言預(yù)測為其他類別體態(tài)語言；常規(guī)性體態(tài)語言的召回率最低，這說明將常規(guī)性體態(tài)語言預(yù)測為其他類別體態(tài)語言的概率最大，預(yù)測效果不佳。

（四）系統(tǒng)測評結(jié)果

本研究采用功能測試法測試教師體態(tài)語言智能測評系統(tǒng)。研究人員選用一段時長為3分39秒的授課視頻，分四個步驟評測：1）單擊菜單欄的“測評視頻導(dǎo)入”選項導(dǎo)入教師授課視頻；2）點擊菜單欄的“教師檢測追蹤”選項，等待教師目標(biāo)檢測和追蹤完畢；3）點擊菜單欄的“教師骨架表征”選項，等待教師骨架圖生成完畢；4）點擊菜單欄的“生成測評報告”選項，系統(tǒng)顯示五種體態(tài)語言行為的頻次、間隔和時序變化，生成測評分析報告（見圖 6）。

圖6 教師體態(tài)語言智能感知測評系統(tǒng)功能測試

測評分析報告雷達圖顯示，常規(guī)性體態(tài)語言數(shù)量最多（2972幀），描述性體態(tài)語言837幀，指示性體態(tài)語言1966幀，巡視性體態(tài)語言790幀，工具性體態(tài)語言0幀。報告熱力圖還顯示，視頻前半部分以指示性和巡視性體態(tài)語言為主，后半部分以常規(guī)性體態(tài)語言為主。這說明教師前半部分通過體態(tài)吸引學(xué)生注意力，使學(xué)生專注于教學(xué)媒體內(nèi)容，課堂氛圍較活躍；后半部分較少出現(xiàn)巡視走動。

六、討論與分析

本部分依據(jù)人體骨架表征、數(shù)據(jù)集創(chuàng)建和神經(jīng)網(wǎng)絡(luò)模型構(gòu)建等技術(shù)原理，關(guān)聯(lián)和對比已有相關(guān)研究結(jié)果，重點討論教師體態(tài)語言的人體骨架表征、數(shù)據(jù)集創(chuàng)建及智能識別神經(jīng)網(wǎng)絡(luò)模型構(gòu)建的方法，以構(gòu)建大數(shù)據(jù)驅(qū)動的教師課堂體態(tài)語言智能測評方法體系。

（一）教師體態(tài)語言特征的人體骨架表征方法

實驗結(jié)果顯示，教師體態(tài)語言識別的準(zhǔn)確率、精確率和召回率均達到實用水平，其主要原因在于教師體態(tài)語言特征的人體骨架表征可顯性表示教師體態(tài)特征的差異。已有研究發(fā)現(xiàn)，與RGB圖像的行為識別相比，基于人體骨架的體態(tài)語言識別準(zhǔn)確率為97.92%，提高了4%（何秀玲等，2020），與本研究教師體態(tài)語言識別準(zhǔn)確率相近?？梢?，與傳統(tǒng)人類體態(tài)特征的RGB圖像表示法相比，人體骨架表征方法聚焦人體關(guān)鍵關(guān)節(jié)的輪廓特征，在身體姿勢特征差異表征上優(yōu)勢明顯，且可省略RGB圖像紋理特征，減少后期識別模型訓(xùn)練的冗余計算，提高識別模型的計算效率。結(jié)合人體骨架建模原理，教師體態(tài)語言特征的人體骨架表征方法包含三個關(guān)鍵步驟。

第一，確定教師體態(tài)識別應(yīng)用場景。人體骨架模型相關(guān)研究顯示，基于人體骨架的應(yīng)用場景聚焦行為識別、步態(tài)識別、異常行為監(jiān)測、健身康復(fù)和舞蹈訓(xùn)練五個領(lǐng)域（赫磊等，2020）。本研究發(fā)現(xiàn)，教師體態(tài)語言識別屬行為識別。人體骨架表征方法能最大化顯現(xiàn)教師體態(tài)軀干角度、肢體位置等特征，是提取教師體態(tài)語言特征差異的最優(yōu)方法。

第二，選擇最優(yōu)人體姿態(tài)估計器。人物目標(biāo)檢測和目標(biāo)追蹤方法從課堂教學(xué)場景提取教師圖像，簡化教師教學(xué)背景，使其不受學(xué)生、課桌椅和多媒體設(shè)備等背景的影響。在此基礎(chǔ)上，選擇自下而上的人體姿態(tài)估計器OpenPose加快了人體骨架生成效率，達到實時估計、快速運行的要求。

第三，建立精簡的人體姿態(tài)估計模型。針對學(xué)生視覺注意極少關(guān)注教師腳部的場景特點，本研究選取包含25個關(guān)節(jié)點的人體骨架模型，刪除對體態(tài)語言識別貢獻較少的腳跟、腳趾等特征點，保留教師體態(tài)骨架的19個關(guān)節(jié)點，建立了精簡人體姿態(tài)估計模型。

綜上所述，本研究通過以上三個步驟完成教師體態(tài)語言骨架圖的特征表征，將教師姿態(tài)特征差異最大化顯性表示。這個步驟是教師體態(tài)語言特征數(shù)據(jù)集前期樣本數(shù)據(jù)處理的關(guān)鍵環(huán)節(jié)，能提高教師體態(tài)語言分類學(xué)習(xí)的準(zhǔn)確率。

（二）教師體態(tài)語言數(shù)據(jù)集創(chuàng)建方法

目前，全球尚未建立教師課堂體態(tài)語言的數(shù)據(jù)集。針對這一迫切需求，本研究基于數(shù)據(jù)驅(qū)動的研究范式，建立首個來源于真實教學(xué)場景的教師體態(tài)語言數(shù)據(jù)集。實驗證明，基于該數(shù)據(jù)集訓(xùn)練的模型預(yù)測準(zhǔn)確率高于97.02%，達到教師體態(tài)語言智能測評應(yīng)用場景的要求。教師體態(tài)語言數(shù)據(jù)集創(chuàng)建包括數(shù)據(jù)采集、數(shù)據(jù)處理、數(shù)據(jù)增強、標(biāo)簽定義、標(biāo)簽標(biāo)注五個環(huán)節(jié)。其中，數(shù)據(jù)處理、標(biāo)簽定義和標(biāo)簽標(biāo)注是關(guān)鍵，決定教師體態(tài)語言數(shù)據(jù)集的質(zhì)量。針對以上三個關(guān)鍵環(huán)節(jié)，教師體態(tài)語言數(shù)據(jù)集的數(shù)據(jù)處理、定義及標(biāo)注的優(yōu)化有以下三種方法。

第一，采集場景影像，提取特征數(shù)據(jù)。研究者可在真實教學(xué)場景中采集教師課堂教學(xué)視頻，保證教師體態(tài)語言行為發(fā)生的情境性和真實性；然后采用人物目標(biāo)檢測、目標(biāo)追蹤和骨架圖生成三個關(guān)鍵步驟，從真實課堂場景視頻中提取教師體態(tài)語言圖像數(shù)據(jù)，生成表征其體態(tài)語言特征的骨架圖。

第二，聚類行為特征，定義標(biāo)簽類別。研究者可參考埃克曼對體態(tài)語言的分類，分析課堂場景中教師體態(tài)語言的教學(xué)價值，聚類教師體態(tài)動作行為特征，確定教師體態(tài)語言的類屬：常規(guī)性、描述性、指示性、巡視性和工具性。標(biāo)簽定義的過程遵循科學(xué)性、一致性、可操作性等原則，形成真實教學(xué)場景中教師體態(tài)語言行為類屬的特征界定。

第三，開發(fā)標(biāo)注工具，開展數(shù)據(jù)標(biāo)注。數(shù)據(jù)標(biāo)注方法主要有開源標(biāo)注工具、開發(fā)標(biāo)注工具和眾包三種方式（蔡莉等，2020）。本研究采用開發(fā)標(biāo)注工具方式，使用PyQt5工具包開發(fā)教師體態(tài)圖像標(biāo)簽標(biāo)注工具，實現(xiàn)圖像顯示、標(biāo)簽選擇和標(biāo)簽保存三個數(shù)據(jù)標(biāo)注功能。本研究聘請兩名標(biāo)注人員和一名教育專家開展多輪多人標(biāo)注，由標(biāo)注員使用標(biāo)注工具為數(shù)據(jù)集中教師體態(tài)骨架圖像添加類屬標(biāo)簽，教育專家進行審核和二次標(biāo)注任務(wù)，最終完成數(shù)據(jù)集中教師體態(tài)骨架圖數(shù)據(jù)標(biāo)簽標(biāo)注任務(wù)。

實驗證明，以上數(shù)據(jù)處理、定義及標(biāo)注的方法，能提取真實教學(xué)場景中教師體態(tài)語言的顯著特征，按照課堂教學(xué)效用價值科學(xué)確定教師體態(tài)類別，高效率標(biāo)注數(shù)據(jù)圖像標(biāo)簽，創(chuàng)建了全球首個漢語文化背景下教師體態(tài)語言數(shù)據(jù)集，為訓(xùn)練智能識別模型提供了高質(zhì)量的數(shù)據(jù)基座。

（三）教師體態(tài)語言智能識別神經(jīng)網(wǎng)絡(luò)模型構(gòu)建方法

實驗結(jié)果證實，ResNet50和金字塔卷積模塊組成深度神經(jīng)網(wǎng)絡(luò)模型，其在測試數(shù)據(jù)集的平均準(zhǔn)確率高達97.02%，達到實用要求的識別效果。相關(guān)研究發(fā)現(xiàn)，ResNet50網(wǎng)絡(luò)模型適合人類體態(tài)行為識別與理解的應(yīng)用研發(fā)（陳瑩等，2021）。但是，人體骨架表征的骨架圖關(guān)系位置復(fù)雜、細節(jié)特征多，比如小臂與大臂的夾角、大腿與小腿的夾角等。ResNet50網(wǎng)絡(luò)模型雖然層數(shù)多，但是寬度不足，難以提取教師體態(tài)語言骨架圖的多角度的細節(jié)特征。為解決這一難題，本研究在不增加計算成本和參數(shù)量的前提下，使用金字塔卷積模塊替換ResNet50網(wǎng)絡(luò)的單一尺度（3×3）卷積核，堆疊不同大小的卷積核，拓展網(wǎng)絡(luò)寬度，擴大模型感受野，增加教師體態(tài)語言骨架圖細粒度特征，增強網(wǎng)絡(luò)特征提取能力，提高教師體態(tài)語言智能識別的準(zhǔn)確率。基于以上研究分析，智能識別神經(jīng)網(wǎng)絡(luò)模型構(gòu)建一般采用以下三種方法。

第一，明確神經(jīng)網(wǎng)絡(luò)模型的適用范圍。不同類型神經(jīng)網(wǎng)絡(luò)模型適用于不同學(xué)習(xí)場景。例如，卷積神經(jīng)網(wǎng)絡(luò)適合圖像識別、圖像分類和對象檢測等任務(wù)，多層感知器適用表格數(shù)據(jù)集的分類預(yù)測和回歸預(yù)測等任務(wù)，循環(huán)神經(jīng)網(wǎng)絡(luò)適用語音分析、文本分析等前后存在時序依賴關(guān)系的任務(wù)。

第二，選用適合場景的神經(jīng)網(wǎng)絡(luò)模型。鑒于教師體態(tài)語言識別屬圖像識別領(lǐng)域，本研究選用卷積神經(jīng)網(wǎng)絡(luò)提取教師體態(tài)骨架圖特征，并針對教師體態(tài)骨架圖的細節(jié)特征，棄用淺層卷積神經(jīng)網(wǎng)絡(luò)模型，選用網(wǎng)絡(luò)層數(shù)較深的ResNet50網(wǎng)絡(luò)，提取教師體態(tài)語言更多的抽象特征，解決網(wǎng)絡(luò)梯度消失和梯度爆炸等問題，保證模型識別效果。

第三，優(yōu)化深度神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)。神經(jīng)網(wǎng)絡(luò)模型的優(yōu)化方法有兩種：調(diào)整超參數(shù)和調(diào)整網(wǎng)絡(luò)結(jié)構(gòu)。前者改變學(xué)習(xí)率、優(yōu)化器和批尺寸等超參數(shù)；后者通過增加卷積層、引入注意力機制層等調(diào)整網(wǎng)絡(luò)深度（Li et al.，2014；王永固等，2021），或者通過嵌入金字塔卷積、級聯(lián)卷積等增加網(wǎng)絡(luò)寬度（Zhang et al.，2016），提取更高級的語義特征。本研究采用金字塔卷積模塊替換單一尺度卷積核的優(yōu)化方法，增加ResNet50神經(jīng)網(wǎng)絡(luò)寬度。因此，模型結(jié)構(gòu)優(yōu)化的一般原則為依據(jù)數(shù)據(jù)集的樣本細節(jié)特征，結(jié)合模型訓(xùn)練結(jié)果，合理增加神經(jīng)網(wǎng)絡(luò)的深度或?qū)挾龋３诌m中的神經(jīng)網(wǎng)絡(luò)深度和寬度。

基于以上三種方法構(gòu)建的最優(yōu)的教師體態(tài)語言智能識別神經(jīng)網(wǎng)絡(luò)模型，其網(wǎng)絡(luò)深度和寬度適合識別教師體態(tài)語言骨架圖的細節(jié)特征，可滿足教師體態(tài)語言識別的高準(zhǔn)確率要求，能用于開發(fā)教師體態(tài)語言智能測評場景應(yīng)用。

七、研究結(jié)論

教師體態(tài)語言自動識別是測評和干預(yù)教師課堂教學(xué)能力的關(guān)鍵技術(shù)之一，它能有效增強教學(xué)內(nèi)容講解和創(chuàng)設(shè)活躍課堂氛圍，提升課堂教學(xué)的質(zhì)量和效率。本研究以真實教學(xué)情境中專家型教師體態(tài)語言為研究對象，設(shè)計教師體態(tài)語言智能識別研究方案，使用人物目標(biāo)檢測、目標(biāo)追蹤和體態(tài)骨架圖生成三種技術(shù)，建立了全球首個基于人體骨架的教師體態(tài)語言數(shù)據(jù)集。在此基礎(chǔ)上，本研究針對教師體態(tài)語言的骨架圖特征，構(gòu)建金字塔殘差卷積神經(jīng)網(wǎng)絡(luò)模型，實現(xiàn)教師體態(tài)語言識別準(zhǔn)確率高于97.02%的研究目標(biāo)，并開發(fā)教師體態(tài)語言智能感知測評系統(tǒng)，破解人工視頻分析教師體態(tài)語言的局限性。但是，本研究的教師體態(tài)語言僅包含教師的身體、頭部和上肢動作特征，尚未考慮教師的面部表情、手勢語義和語音等模態(tài)特征。后續(xù)研究將采集多種模態(tài)來源數(shù)據(jù)，建立更大規(guī)模的教師體態(tài)語言數(shù)據(jù)集，探索多模態(tài)融合的教師體態(tài)語言智能感知方法，開發(fā)教師體態(tài)語言智能測評應(yīng)用場景。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡