王禹鈞,馬致明
(新疆師范大學(xué)計(jì)算機(jī)科學(xué)技術(shù)學(xué)院,新疆 烏魯木齊 830054)
近年來,深度學(xué)習(xí)技術(shù)在教育領(lǐng)域中的應(yīng)用越來越深入?!吨袊逃F(xiàn)代化2035》《關(guān)于加強(qiáng)新時代教育管理信息化工作的通知》等都不約而同地提及要充分且正確利用現(xiàn)代技術(shù),大力發(fā)展智慧課堂[1]。在課堂中,學(xué)生是學(xué)習(xí)活動的主體,學(xué)生的行為是課堂教學(xué)質(zhì)量好壞最直接的反映[2]。通過對課堂中學(xué)生行為進(jìn)行識別,能更好地分析學(xué)生的上課情況、了解學(xué)生的學(xué)習(xí)興趣。因此,利用深度學(xué)習(xí)技術(shù)實(shí)時掌握學(xué)生課堂學(xué)習(xí)情況是非常必要的。然而在課堂環(huán)境下對學(xué)生行為進(jìn)行識別是一項(xiàng)極其復(fù)雜的任務(wù),由于學(xué)生課堂行為識別模型規(guī)模較大,因此課堂中的行為識別困難問題仍然存在。
目前,國內(nèi)對課堂行為研究主要集中在學(xué)生表情識別、班級抬頭率及課堂異常行為識別。魏艷濤等[3]利用遷移神經(jīng)網(wǎng)絡(luò)模型VGG16,實(shí)現(xiàn)了課堂上7種典型的學(xué)生行為識別。曾劼倫[4]對YOLOv3(You Only Look Once version 3)模型的損失函數(shù)進(jìn)行改進(jìn),同時通過網(wǎng)絡(luò)優(yōu)化、多尺度特征融合的方法,將其改進(jìn)后的YOLOv3模型用于學(xué)生行為檢測,得到較好的準(zhǔn)確率。黃勇康等[5]提出了一種基于深度時空殘差卷積神經(jīng)網(wǎng)絡(luò)的算法,用于實(shí)時識別學(xué)生在課堂中的行為,首先將目標(biāo)檢測、跟蹤技術(shù)相結(jié)合獲取學(xué)生圖像,然后利用深度時空殘差卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)每個目標(biāo)的時空行為特征,實(shí)現(xiàn)了對課堂場景中多個學(xué)生的行為進(jìn)行實(shí)時識別。郭俊奇等[6]根據(jù)課堂場景提出了經(jīng)過改進(jìn)網(wǎng)絡(luò)結(jié)構(gòu)和損失函數(shù)的YOLOv5模型,并以多目標(biāo)為主要特征,對學(xué)生課堂行為進(jìn)行識別,并采用對比實(shí)驗(yàn)對該方法有效性進(jìn)行驗(yàn)證。UDDIN 等[7]在研究中,利用深度遞歸神經(jīng)網(wǎng)絡(luò),建立了一個以人體感應(yīng)器為基礎(chǔ)的行為識別系統(tǒng),通過多個身體傳感器進(jìn)行數(shù)據(jù)融合,如心電圖等,采用主成分分析對所抽取的特征進(jìn)行強(qiáng)化,再對循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)進(jìn)行訓(xùn)練,最后將其應(yīng)用到行為識別中,取得了較好的結(jié)果。
盡管課堂行為研究領(lǐng)域不斷涌現(xiàn)出新方法,但對于學(xué)生課堂行為的識別依然存在一定的不足,主要體現(xiàn)如下:數(shù)據(jù)集缺失、模型計(jì)算量大、實(shí)時性差、后排學(xué)生難以識別等。為此,本文提出了一種智慧課堂環(huán)境下基于深度學(xué)習(xí)技術(shù)的學(xué)生課堂行為識別模型YOLOv5-GC,并在標(biāo)注真實(shí)智慧課堂場景的學(xué)生行為數(shù)據(jù)集的基礎(chǔ)上開展相關(guān)研究,通過實(shí)驗(yàn)驗(yàn)證了本模型在識別速度與精度等方面均有一定提升,對推進(jìn)智慧課堂的建設(shè),實(shí)現(xiàn)智能化教學(xué)和管理具有現(xiàn)實(shí)意義。
不同學(xué)者思考與詮釋學(xué)生課堂行為的視角不同,界定亦不相同。本文參考皮連生等對學(xué)生課堂行為所做的定義,定義學(xué)生課堂行為是學(xué)生課堂上在特定時間內(nèi)表現(xiàn)的一切行為的匯總[8],其中有符合課堂行為規(guī)范、促進(jìn)教師教與學(xué)生學(xué)的積極行為,如認(rèn)真聽課、記筆記、積極答題等;也有不符合課堂行為規(guī)范,給教學(xué)造成干擾,并給教師和同學(xué)都造成消極影響,需要教師及時干預(yù)的消極行為。
本文提出YOLOv5-GC模型用于識別學(xué)生課堂行為,首先融入重影網(wǎng)絡(luò)(Ghost Net)實(shí)現(xiàn)YOLOv5輕量化,接著加入Coordinate Attention增強(qiáng)對學(xué)生關(guān)鍵特征的提取能力。模型結(jié)構(gòu)如圖1所示。
圖1 基于深度學(xué)習(xí)的學(xué)生課堂行為識別模型(YOLOv5-GC)算法結(jié)構(gòu)圖Fig.1 Algorithm structure diagram of student classroom behavior recognition model YOLOv5-GCbased on deep learning
本文將輕量化Ghost模塊引入YOLOv5,替換其主干網(wǎng)絡(luò)中的普通卷積層。將原網(wǎng)絡(luò)的普通卷積模塊替換成Ghost Conv層,Ghost模塊與C3組成新的C3Ghost模塊,極大地減少了參數(shù)量。將Coordinate Attention加入主干網(wǎng)絡(luò)末層,使其在通道間建立特征映射關(guān)系,充分利用全局特征、提高特征層有用信息的占比,減少誤檢、漏檢情況,具有較好的性能。
由于要把模型部署到教室中,因此具體部署時要考慮設(shè)備必須具備足夠的計(jì)算能力,才能達(dá)到網(wǎng)絡(luò)正常工作的要求。在網(wǎng)絡(luò)參數(shù)多、計(jì)算量大的情況下,對設(shè)備存儲和計(jì)算能力有很高的要求。YOLOv5主干網(wǎng)絡(luò)層均采用大量卷積操作,會造成網(wǎng)絡(luò)參數(shù)多、計(jì)算量大等問題。王立輝等[9]提出Ghost Net,它提供了一種全新的Ghost模塊,Ghost Net將線性操作與普通卷積相結(jié)合,通過以前生成的普通卷積特征圖線性變換為相似特征圖生成高維卷積效果,如圖2所示。
圖2 Ghost模塊原理圖Fig.2 Schematic diagram of ghost module
Ghost Net通過線性變換降低模型參數(shù)及計(jì)算量。Ghost Net使用Ghost模塊取代傳統(tǒng)卷積層,采用輸出特征層個數(shù)較少的卷積層,以及可提高冗余性、計(jì)算量少的線性操作替代傳統(tǒng)卷積層。它既確保了精度,也降低了計(jì)算量,核心思想是利用較少的參數(shù)產(chǎn)生更多的特征,達(dá)到網(wǎng)絡(luò)結(jié)構(gòu)輕量化的目的。本文將Ghost模塊引入YOLOv5,替換主干網(wǎng)絡(luò)中的普通卷積層,極大地減少了參數(shù)量。
有研究顯示:當(dāng)加入少量運(yùn)算復(fù)雜度時,加入注意力機(jī)制可以改善輕量化模型的性能[10]。課堂場景下,盡管YOLOv5模型能提取出富有細(xì)節(jié)的特征圖,但課堂情景具有復(fù)雜性,如何使模型能夠?qū)W習(xí)重要場景中的特征以增強(qiáng)關(guān)鍵特征提取的能力成為必須解決的問題。Coordinate Attention獲取通道之間的特征信息時,實(shí)現(xiàn)了空間方向上準(zhǔn)確位置信息及感興趣區(qū)域的獲取[11]。這種注意力機(jī)制的每個權(quán)重都包含通道間信息、橫向與縱向空間信息,可以幫助網(wǎng)絡(luò)更加準(zhǔn)確地定位目標(biāo)信息,提高識別能力。它不但得到通道之間的信息,與方向有關(guān)的位置信息也被考慮在內(nèi),能幫助模型對目標(biāo)進(jìn)行定位與識別,并且靈活輕量,能在網(wǎng)絡(luò)核心結(jié)構(gòu)上進(jìn)行簡單插入。Coordinate Attention的具體構(gòu)造如圖3所示,依次實(shí)現(xiàn)坐標(biāo)信息嵌入模塊和坐標(biāo)注意力生成模塊兩個功能。
圖3 坐標(biāo)注意力機(jī)制結(jié)構(gòu)圖Fig.3 Coordinate Attention structure diagram
YOLOv5模型大部分由卷積神經(jīng)網(wǎng)絡(luò)組成,如何能更加高效地抽取特征信息是比較關(guān)鍵的,并且在實(shí)際課堂環(huán)境下學(xué)生被遮擋的問題尤為嚴(yán)重,存在小目標(biāo)學(xué)生難以識別的問題。為此,本文提出加入Coordinate Attention改善模型的特征提取能力,使模型的關(guān)鍵特征提取能力有了很大的提升。YOLOv5的主干網(wǎng)絡(luò)的主要工作是提取輸入處理后照片的特征,也就是說抽取特征的能力在很大程度取決于主干網(wǎng)絡(luò)。為使網(wǎng)絡(luò)能自主學(xué)習(xí)關(guān)鍵特征并摒棄其他不重要的特征,所以在主干網(wǎng)絡(luò)上增加了Coordinate Attention。
由于課堂類數(shù)據(jù)集場景具有獨(dú)特性與保密性,因此學(xué)生課堂行為識別的數(shù)據(jù)集相對缺乏。目前,并不存在專用公開數(shù)據(jù)集,需要自行構(gòu)建數(shù)據(jù)集完成模型訓(xùn)練。研究人員觀察大量課堂視頻后發(fā)現(xiàn),課堂教學(xué)過程中學(xué)生的行為是多樣的,不同行為能夠體現(xiàn)學(xué)生不同的學(xué)習(xí)狀況。結(jié)合上述文獻(xiàn)的行為分類及觀察課堂實(shí)錄中的學(xué)生行為,本文確定書寫、聽課、舉手、低頭、左顧右盼、小組討論6種行為類型用于學(xué)生課堂行為數(shù)據(jù)集的構(gòu)建。數(shù)據(jù)集來自小學(xué)公開課視頻分幀形成的圖片,視頻來源網(wǎng)站為國家教育資源公共服務(wù)平臺,共采集50節(jié)不同課堂的教學(xué)視頻,每節(jié)課的時間平均為40 min左右,作為原始實(shí)驗(yàn)數(shù)據(jù)??紤]到視頻識別模型會更加復(fù)雜,難以應(yīng)用于智慧課堂,盡管本文收集到的原始數(shù)據(jù)為課堂視頻,但僅是針對單幀圖片的學(xué)生行為進(jìn)行識別。數(shù)據(jù)處理的流程如下:使用Python進(jìn)行腳本的編寫,將間隔設(shè)置為30 s,以均勻采樣幀并按照一定幀數(shù)間隔將視頻解碼成圖片。經(jīng)過多輪刪減篩選,篩選出清晰的課堂學(xué)生圖片。處理完成后,收集并整理獲得3 002張小學(xué)生課堂圖片數(shù)據(jù),截取數(shù)據(jù)集圖片如圖4所示。
圖4 數(shù)據(jù)樣例圖片F(xiàn)ig.4 Sample data images
由于收集的學(xué)生課堂行為圖像過少,為達(dá)到訓(xùn)練所需的樣本量,對現(xiàn)有圖像數(shù)據(jù)做了擴(kuò)充處理。在智慧課堂實(shí)際應(yīng)用中,存在各類不同的場景,例如光照的強(qiáng)弱、教室的環(huán)境不同等。可以通過對數(shù)據(jù)集進(jìn)行增強(qiáng)以增加不同條件下的數(shù)據(jù),從而提高訓(xùn)練模型的適應(yīng)力。本文利用一些常見的數(shù)據(jù)增強(qiáng)方式對訓(xùn)練集進(jìn)行擴(kuò)展,包括圖像旋轉(zhuǎn)、將噪聲隨機(jī)加入原始圖像中、隨機(jī)變換圖像色彩等方法。擴(kuò)增數(shù)據(jù)集之后,重新過濾圖像數(shù)據(jù)集,共得到4 120 張學(xué)生課堂圖片,行為數(shù)量共71 016個。
實(shí)驗(yàn)硬件環(huán)境配置如下:處理器為intel(R)Xeon(R)E5-2699v3,顯卡為RTX3060 12 GB顯存。軟件環(huán)境配置如下:編程語言為Python,深度學(xué)習(xí)框架為Py Torch1.9.0,操作系統(tǒng)為Windows 10。訓(xùn)練集、驗(yàn)證集、測試集的比例按照7∶2∶1進(jìn)行劃分。epochs為200,Batch-size為16。在訓(xùn)練期間,各訓(xùn)練輪次會根據(jù)訓(xùn)練情況調(diào)整學(xué)習(xí)率的取值,初始學(xué)習(xí)率設(shè)定為0.001,模型采用余弦退火算法更新學(xué)習(xí)率的動態(tài)取值。輸入端采用Mosica數(shù)據(jù)增強(qiáng)包括隨機(jī)尺寸拼接等技術(shù)進(jìn)行疊加處理等。
mAP為類別平均像素準(zhǔn)確率,能衡量模型在所有類別的效果,它是評價算法性能的最終指標(biāo)之一。除了評價精度的指標(biāo),還有檢測速度的指標(biāo)如FLOPs(浮點(diǎn)運(yùn)算數(shù)),處理一張圖片所需的浮點(diǎn)運(yùn)算量可以衡量模型的復(fù)雜度;Inference Time為推理時間,是指檢測每張圖片需要使用的時間,用來衡量模型推理速度的快慢;Params為參數(shù)量,指模型訓(xùn)練中需要訓(xùn)練的參數(shù)總數(shù),模型參數(shù)量決定了模型的體積,也影響推理時間。
為了驗(yàn)證YOLOv5-GC融合模型對學(xué)生課堂行為的識別效果,同時方便對比原始模型的提升程度,本文選取快速區(qū)域生成網(wǎng)絡(luò)(Faster R-CNN)、YOLOv4、YOLOv5幾種經(jīng)典模型進(jìn)行對比實(shí)驗(yàn),這些模型常用于目標(biāo)檢測任務(wù)。為了更好地比較改進(jìn)模型和傳統(tǒng)模型,需要將基礎(chǔ)參數(shù)保持一致,以免因參數(shù)不一致而影響結(jié)果。
運(yùn)用改進(jìn)后的YOLOv5模型對6種行為的識別精度都明顯上升,相對其他算法表現(xiàn)出了更高的精度,如表1所示。
表1 不同模型識別學(xué)生行為結(jié)果Tab.1 Recognition results of student behavior using different models
如表2所示,分別從4個方面對Faster R-CNN、YOLOv4、YOLOv5等經(jīng)典模型進(jìn)行對比實(shí)驗(yàn)。本文所提方法的mAP高于除Faster R-CNN 外的其他相似的算法。Faster R-CNN是兩階段算法,它的精度較高,但是占用的內(nèi)存也較大。根據(jù)智慧課堂的建設(shè)需求,YOLOv5-GC模型更加適用于真實(shí)課堂中學(xué)生行為的識別。由于最終目標(biāo)是將模型應(yīng)用于課堂終端,因此模型的參數(shù)規(guī)模、運(yùn)算符點(diǎn)數(shù)、推理耗時也是重要的衡量指標(biāo)。
表2 對比實(shí)驗(yàn)結(jié)果Tab.2 Comparison of experimental results
由表2 可知,mAP從高到低排序?yàn)镕aster R-CNN、YOLOv5-GC、YOLOv5、YOLOv4。YOLOv5-GC 的mAP為86.2%,較原模型有了明顯的提高,Faster R-CNN是兩階段算法,有精度高的優(yōu)勢,它的mAP達(dá)86.5%,雖然優(yōu)于YOLOv5-GC融合模型,但是Faster R-CNN的參數(shù)量巨大,不符合智慧課堂的應(yīng)用要求,難以部署在真實(shí)的課堂場景中。本文所提模型使用的參數(shù)量最少,較原模型降低2.7 MB,更加輕量且方便在教室環(huán)境下布置。YOLOv5-GC 模型比原模型推理時間減少16.7%,耗時越短,模型實(shí)時檢測能力越好。從浮點(diǎn)運(yùn)算量這個指標(biāo)來看,YOLOv5-GC模型的復(fù)雜度大大降低,方便在智慧課堂部署。綜上可知,本文提出的模型速度指標(biāo)上表現(xiàn)最好,它具有精度高、參數(shù)量少、識別耗時短等優(yōu)點(diǎn),平衡檢測速度與精度,滿足實(shí)時檢測的條件,符合智慧課堂設(shè)備的應(yīng)用要求。
為驗(yàn)證實(shí)驗(yàn)的延展性和適用性,本小節(jié)選取YOLOv5、YOLOv5+Ghost、YOLOv5+Coordinate Attention、YOLOv5+Ghost+Coordinate Attention進(jìn)行研究,融合形成四種模型進(jìn)行消融實(shí)驗(yàn),消融實(shí)驗(yàn)結(jié)果如表3所示。
表3 消融實(shí)驗(yàn)結(jié)果Tab.3 Results of ablation experiments
由表3可知,融合Ghost Net+Ghost+Coordinate Attention在各個指標(biāo)上都表現(xiàn)最好,相較YOLOv5模型,mAP上升3.5%,參數(shù)量減少2.7 MB,運(yùn)算量、推理時間也顯著減少,模型的復(fù)雜度降低,使得模型更加輕量化,在降低模型復(fù)雜度的同時提升了模型檢測的精度。只加入Ghost Net后,mAP上升較小,但是參數(shù)量和推理時間顯著減少,識別速度顯著提升,由此可見,Ghost在輕量化參數(shù)量方面具有優(yōu)越性。輕量化網(wǎng)絡(luò)替換后,可以達(dá)到實(shí)時檢測的要求,對部署設(shè)備要求較低,易在于課堂安裝。只加入Coordinate Attention后,mAP上升3.1%,提取特征能力的提高,使能夠關(guān)注到關(guān)鍵特征,但是參數(shù)量和速度略微增加。Coordinate Attention是為輕量級網(wǎng)絡(luò)設(shè)計(jì)的,它可以讓輕量化后的網(wǎng)絡(luò)在更大區(qū)域擁有注意力,同時彌補(bǔ)Ghost Net輕量化但特征提取不足的缺點(diǎn),達(dá)到了提升mAP的效果。所以,從幾個指標(biāo)來看,加入Ghost Net和Coordinate Attention對模型輕量化、提升關(guān)鍵特征有很大的幫助。本文提出的YOLOv5-GC實(shí)現(xiàn)YOLOv5網(wǎng)絡(luò)輕量化和識別精度的提升。通過改進(jìn)YOLOv5模型,并將其應(yīng)用于學(xué)生課堂行為的識別,同智慧課堂的建設(shè)需要緊密結(jié)合起來。
考慮到實(shí)時檢測的速度與精度,本文根據(jù)真實(shí)課堂場景在YOLOv5的基礎(chǔ)上改進(jìn)學(xué)生課堂行為識別模型。在分析當(dāng)前學(xué)生課堂行為識別方法存在的問題后,提出一種基于YOLOv5改進(jìn)的YOLOv5-GC模型,并在輕量化模型、注意力機(jī)制添加等方面提出了改進(jìn)策略,對效果進(jìn)行驗(yàn)證。通過對比實(shí)驗(yàn)驗(yàn)證模型的泛化能力,使用消融實(shí)驗(yàn)驗(yàn)證各模塊的有效性。本文提出的YOLOv5-GC模型參數(shù)規(guī)模顯著減少,識別精度和速度也有一定的提升,便于在移動設(shè)備端部署,可應(yīng)用于智慧課堂中對學(xué)生的行為進(jìn)行精確識別,具有一定的應(yīng)用價值。后續(xù)將開展教師行為研究,探究師生互動行為如何影響學(xué)生學(xué)習(xí)行為,為優(yōu)化智慧課堂環(huán)境下師生互動效果提供一定依據(jù),其理論意義和現(xiàn)實(shí)意義更值得期待。