孟祥睛 賀紅 趙永健
關(guān)鍵詞:目標檢測;YOLOv5;BiFPN;智慧教室;教學(xué)評價
1引言
為加快教育現(xiàn)代化和教育強國進程,教育部于2018年制定了《教育信息化2.0行動計劃》,計劃指出要以人工智能、大數(shù)據(jù)、物聯(lián)網(wǎng)等新興技術(shù)為基礎(chǔ),依托各類智能設(shè)備及網(wǎng)絡(luò),積極開展智慧教育研究和示范。2019年,相關(guān)部門印發(fā)《中國教育現(xiàn)代化2035》,再次指出要加快教育信息化的腳步,建設(shè)智能化的校園,為國內(nèi)高校探索智慧教育模式提供了方向。智慧校園是數(shù)字校園的進一步發(fā)展和提升,是教育信息化的更高級形態(tài),智慧教室作為智慧校園的重要組成部分,是建設(shè)智慧校園進程中不可或缺的部分。
智慧教室是指在傳統(tǒng)教室基礎(chǔ)上應(yīng)用物聯(lián)網(wǎng)和人工智能技術(shù)實現(xiàn)對教室內(nèi)物品和人員的智能感知與控制、應(yīng)用大數(shù)據(jù)技術(shù)對課堂活動所產(chǎn)生的的數(shù)據(jù)進行數(shù)據(jù)挖掘和數(shù)據(jù)分析,為教學(xué)和教學(xué)督導(dǎo)提供便利、有效的幫助。
有關(guān)智慧教室的研究,國外相對國內(nèi)要早一些。20世紀80年代末,RESCIGNO RC首先提出了“Smart Classroom”的概念。這是一種集成了個人計算機、交互式激光磁盤視頻程序、閉路電視和局域網(wǎng)等設(shè)備或技術(shù)的課堂設(shè)施。國內(nèi)史元春等在2001年提出了未來智慧教室的四個特征,即自然用戶交互、自動捕獲課堂事件和體驗、情景感知和主動服務(wù)、支持協(xié)作工作。他們設(shè)計的智慧教室兼具遠程教育概念,在當(dāng)時被稱為世界上最先進的教室之一。早期的智慧教室實際上更應(yīng)該稱為多媒體教室,直到2008年“智慧地球”概念的提出,傳感器技術(shù)、富媒體技術(shù)和人工智能技術(shù)爭先發(fā)展,促進了智慧教室項目的發(fā)展,研究人員開始嘗試將物聯(lián)網(wǎng)和人工智能中的各類技術(shù)與智慧教室相結(jié)合。
在人工智能方面,嘗試用于處理智慧教室音視頻圖像數(shù)據(jù)的有語義識別、人臉識別、目標檢測和情緒識別等模型。但是,實驗室場景和教室實際應(yīng)用場景相差較大,有的模型在實驗室效果很好但是卻不適合用在實際場景。YELINK等在智慧教室項目中加入了情緒識別來檢測學(xué)生情緒狀態(tài)。人類的情緒會影響學(xué)生的學(xué)習(xí)認知過程尤其是對注意力影響巨大,在課堂中檢測師生情緒狀態(tài)可以判斷其是否在認真參與課堂教學(xué)。但是,若要精確識別學(xué)生的情緒狀態(tài),需要清晰的面部照片和瞳孔照片來展示表情變化,所須條件和環(huán)境比較苛刻,難于在學(xué)校中廣泛實施。LIN J等提出了一種在課堂中進行舉手檢測的方法來分析教學(xué)氛圍,通過特征金字塔捕捉細節(jié)和語義特征,然后融于R-FCN架構(gòu)中,取得了85%的平均準確率。董琪琪等改進的SSD算法在進行智慧教室學(xué)生狀態(tài)檢測時識別準確率達到了驚人的95.4%,但是從論文中所給出的效果圖來看,實驗是在8-10人的房間里進行的,且教室內(nèi)人員較固定、影響因子較小,與實際教室環(huán)境相差甚遠。
如今,移動智能設(shè)備的快速發(fā)展,使得手機、平板電腦等智能終端成為人們生活中密不可分的一部分,在大學(xué)課堂上越來越多的學(xué)生被智能終端吸引從而低頭,這種狀況對教師教學(xué)內(nèi)容和形式的吸引力是一種負證據(jù)。所以,課堂上的抬頭率對于教學(xué)評價便有了一定的參考價值。為了進一步提高深度學(xué)習(xí)技術(shù)與智慧教育的結(jié)合度,在不侵犯學(xué)生個人隱私的前提下,本研究將以目標檢測的方式,從檢測課堂學(xué)生抬頭率人手,為教學(xué)評價新方式提供一定參考。
目標檢測至今已有20多年的發(fā)展歷程,早期的傳統(tǒng)目標檢測主要是由手工提取特征,不僅實驗準確率不高,而且速度還慢,直到2012年卷積神經(jīng)網(wǎng)絡(luò)的興起給目標檢測領(lǐng)域注入了新的活力。YOLO( YouOnly Look Once)系列正是基于卷積神經(jīng)網(wǎng)絡(luò)的單階段目標檢測算法,自YOLOvl面世以來,歷經(jīng)YOLOv2,YOL0v3等多個版本的改進與優(yōu)化,一直到現(xiàn)在的YOL0v4與YOL0v5,都是目標檢測領(lǐng)域的佼佼者。YOL0v5與YOL0v4相比具有更高的靈活性和更快的速度,且模型方便快速部署。YOL0v5按照模型大小遞增分為n,s,m,l,x,其中YOL0v5x模型參數(shù)最多,性能最好,但也最耗時間,各模型結(jié)構(gòu)一致,僅在深度和寬度上有變化,模型主體部分均由Backbone,Neck,Head三部分組成。
研究思路是:對智慧教室的各路圖像進行比較,從中選出一路能從前方拍到教室所有學(xué)生的視頻,使用目標檢測技術(shù)從視頻中檢測出低頭和抬頭的學(xué)生,統(tǒng)計人數(shù),計算出抬頭率。
2材料與方法
在眾多目標檢測工具中,YOL0v5是較為活躍的一種網(wǎng)絡(luò)模型,具有超高的靈活性和較低的上手難度。經(jīng)過速度與準確率之間的比較,本文采用YOL0v5中的YOL0v5s模型進行研究。
2.1課堂學(xué)生抬頭率檢測流程
YOL0v5s模型直接用于在智慧教室課堂監(jiān)測學(xué)生抬頭率效果不夠理想。比如,有學(xué)生會把書包放在桌上,書包上端從視頻中看去就是一個黑色頭頂,容易造成檢測誤差。經(jīng)過大量實驗,列舉了各種造成檢測誤差的情況,為了提高模型對課堂場景的適用性,提高學(xué)生抬頭率檢測的準確率,團隊對YOL0v5s模型進行改進。改進方法是將BiFPN模塊融入YOLOv5s模型。研究流程如圖1所示。
2.2數(shù)據(jù)采集與準備
本研究所用實驗數(shù)據(jù)均來源于本校區(qū)智慧教室云平臺,目前本校已在校區(qū)內(nèi)大多數(shù)教室安裝了智慧教室所需的硬件設(shè)備,該平臺具備實時直播、錄播回放等視頻功能,每間教室設(shè)有教師講臺、學(xué)生全景、課件屏幕三個機位,部分教室在此基礎(chǔ)上額外實現(xiàn)了學(xué)生雙機位全景。
本文研究的課堂抬頭率檢測基于學(xué)生全景機位(如圖2所示)制作數(shù)據(jù)集,具體方式為:(1)在智慧教室云平臺的錄播回放分區(qū)分別獲取春夏秋冬四季課堂上課視頻;(2)根據(jù)觀察,由于時間相隔太近視頻幀之間變化極小,因此不必挨個抽取每幀圖像,每節(jié)課視頻選擇均勻抽取十幀圖像;(3)人工篩選出抽幀不合理的圖片,如圖片過于模糊、上下課期間等無意義場景圖。最終,共采集課堂圖片427張,采用Labellmg標注軟件進行人工標注后,共計獲得標注樣本24010個,其中抬頭樣本10629個、低頭樣本13381個。
2.3BiFPN簡述
在YOLO系列Backbone網(wǎng)絡(luò)中,將原始輸入圖像分別通過8倍、16倍和32倍下采樣得到三種不同尺寸的特征圖,然后采用特征金字塔網(wǎng)絡(luò)(FeaturePvramid Network,F(xiàn)PN)進行特征融合,從而實現(xiàn)不同大小目標的檢測。但是,由于不同的輸入特征具有不同的分辨率,帶來了各尺度特征信息不一致的問題,LIU S等通過添加路徑的方式對其進行了改進,他們提出了一個自頂向下和自底向上的雙向融合骨干網(wǎng)絡(luò),即路徑聚合網(wǎng)絡(luò)(Path AggregationNetwork,PANet),顯著提高了不同尺寸特征融合之后的精確度,但隨之而來的問題是成倍增加的計算量。對于只有一條輸入邊而沒有進行特征融合的結(jié)點,它并不會對融合不同特征的特征網(wǎng)絡(luò)產(chǎn)生多少影響,據(jù)此TAN M等提出了一種雙向特征金字塔網(wǎng)絡(luò)(Bi-Directional
Feature
Pyramid
Network,
BiFPN),在:PANet基礎(chǔ)上刪除了只有一條輸入邊的結(jié)點,從原始輸入到輸出結(jié)點添加額外的邊,以便在不增加太多成本的境況下融合更多的特征,同時反復(fù)應(yīng)用多次BiFPN實現(xiàn)更高級別的特征融合。
2.4遷移學(xué)習(xí)
機器學(xué)習(xí)模型通常是為了解決某類特定任務(wù)而設(shè)計,從頭構(gòu)建和訓(xùn)練模型需要大量的數(shù)據(jù),可能達到百萬量級,不僅標注需要大量的人力物力,訓(xùn)練也需要極大地消耗資源。遷移學(xué)習(xí)是一種用于轉(zhuǎn)移從一個任務(wù)獲得的成果解決另一個任務(wù)的方法,而不是從零開始,有助于提高準確性和減少訓(xùn)練時間。具體到本研究表現(xiàn)為:從COCO數(shù)據(jù)集的80類目標向抬頭、低頭兩類目標的轉(zhuǎn)換,可大大加快模型訓(xùn)練速度,節(jié)省資源占用。
2.5評價指標
本研究采用目標檢測常用評價標準,即準確率(Precision,P)、召回率(Recall,R)、平均準確率均值(mean Average Precision,mAP)以及每秒幀數(shù)(Frames Per Second,F(xiàn)PS),其中平均準確率均值mAP常與IOU閾值相結(jié)合來反應(yīng)性能,mAP@0.5代表在IOU閾值為0.5時的平均AP,主要提現(xiàn)模型的識別能力:mAP@0.5:0.95代表在IOU閾值從0.5到0.95.步長為0.05時各個mAP的平均值,主要用于提現(xiàn)定位效果以及邊界回歸能力,比單一的IOU閾值0.5更能說明模型的預(yù)測能力:FPS表示每秒檢測圖像的數(shù)目,值越大則說明模型每秒處理的圖片越多即速度越快。各指標計算公式如下:
在公式(2)與公式(3)中,TP代表對目標的正確預(yù)測樣本個數(shù)、FP代表對目標的錯誤預(yù)測或不存在目標的錯誤預(yù)測樣本個數(shù)、FN代表對目標的漏檢樣本個數(shù)。
3實驗與結(jié)果分析
3.1模型訓(xùn)練過程
本研究實驗環(huán)境如表1所列。
訓(xùn)練過程如下:為減少資源消耗、快速得出結(jié)果,以YOLOv5官方提供的YOLOv5s權(quán)重文件為預(yù)訓(xùn)練權(quán)重,在此基礎(chǔ)上進行遷移學(xué)習(xí),設(shè)置迭代批量大小為16,總迭代次數(shù)為300次,初始學(xué)習(xí)率為0.01進行模型訓(xùn)練。訓(xùn)練過程中的mAP@ 0.5隨訓(xùn)練迭代次數(shù)變化如圖3所示,mAP@ 0.5:0.95隨訓(xùn)練迭代次數(shù)變化如圖4所示。
3.2模型對比與分析
通過訓(xùn)練過程產(chǎn)生的平均準確率變化(圖3)可知,YOLOv5s模型與融合了BiFPN模塊的YOLOv5s模型的識別準確率都非常不錯,在最高處分別達到了96.21%和96.38%的平均準確率,相較之下,后者優(yōu)勢并不明顯。但是從圖4來看,融合了BiFPN模塊的YOLOv5s模型在mAP@0.5:0.95下相比原版YOLOv5s模型有所提高。根據(jù)表2看到,添加了BiFPN模塊的YOLOv5s模型之后檢測速率略有下降,在本應(yīng)用場景下差距0.002秒,幾乎沒有影響,可忽略不計。
為進一步探索BiFPN模塊是否起到理論上的作用,在測試集上再次進行對比實驗,本次實驗采用人工檢驗的方式檢查模型預(yù)測結(jié)果,使用訓(xùn)練好的模型進行訓(xùn)練時,confidence設(shè)置為0.55,IOU閾值設(shè)置為0.7,結(jié)果如表3所列。可以看到,相較于原版模型,融合BiFPN模塊的YOLOv5s模型的錯識別率和漏識別率顯著降低。從識別的效果圖(圖5)來看,除了人眼看不到但人腦可以猜測到的人外,BiFPN-YOLOv5模型基本都可以識別正確。
3.3檢測結(jié)果展示
本研究在模型訓(xùn)練完成后進行了應(yīng)用測試,測試時會先對輸入的視頻進行處理。據(jù)觀察,對于智慧教室產(chǎn)生課堂視頻,一節(jié)50分鐘的課大概有10萬幀,因此選擇均勻抽幀的方式對其進行處理,這既能確保獲取整節(jié)課的抬頭率變化情況,也能節(jié)省系統(tǒng)資源,縮短處理時間。圖6為對某節(jié)課堂視頻使用BiFPN-YOLOv5s模型檢測后產(chǎn)生的抬頭率變化圖,從圖6中可以大致得出本節(jié)課教師的上課情況,如前半部分學(xué)生抬頭率較高,說明任課教師講的內(nèi)容可能非常吸引學(xué)生,課堂中間部分學(xué)生抬頭率波動比較大,可能是任課教師讓學(xué)生在記錄。
4結(jié)束語
本研究基于YOLOv5提出了一種面向教學(xué)評價的抬頭率檢測模型,采用BiFPN結(jié)構(gòu)對網(wǎng)絡(luò)的精度和泛化能力進行提升,實驗結(jié)果表明,該模型的平均識別準確率已經(jīng)達到95.8%,在測試集上經(jīng)過人工核驗后單一精度達到98.4%,每秒可處理50張圖片。本文提出的抬頭率監(jiān)測模型具有較強的檢測能力和泛化能力,可為學(xué)校進行教學(xué)評價和學(xué)生選課提供客觀依據(jù),為智慧教室的數(shù)據(jù)使用方式提供參考。