王澤杰 沈超敏 趙春 劉新妹 陳杰
摘要: 在課堂教學(xué)中 , 人工智能技術(shù)可以幫助實現(xiàn)學(xué)生行為分析自動化 , 讓教師能夠高效且直觀地掌握學(xué)生學(xué)習(xí)行為投入的情況 , 為后續(xù)優(yōu)化教學(xué)設(shè)計與實施教學(xué)干預(yù)提供數(shù)據(jù)支持.構(gòu)建了學(xué)生課堂行為數(shù)據(jù)集 , 為后續(xù)研究工作提供了數(shù)據(jù)基礎(chǔ);提出了一種行為檢測方法及一套可行的高精度的行為識別模型 , 利用 OpenPose 算法提取的人體姿態(tài)全局特征 , 融合 YOLO v3算法提取的交互物體局部特征 , 對學(xué)生行為進行了識別分析 , 提高了識別精度;改進了模型結(jié)構(gòu) , 壓縮并優(yōu)化了模型 , 降低了空間與時間的消耗. 選取與學(xué)習(xí)投入狀態(tài)緊密相關(guān)的4 種行為:正坐、側(cè)身、低頭和舉手進行識別 , 該檢測與識別方法在驗證集上的精度達到了95.45%, 在課堂上玩手機和書寫等常見行為的識別精度較原模型有很大的提高.
關(guān)鍵詞:學(xué)習(xí)行為識別;? 人體姿態(tài)估計;目標檢測;? 計算機視覺;? 深度學(xué)習(xí)
中圖分類號: TP391.1??? 文獻標志碼: ADOI:10.3969/j.issn.1000-5641.2022.02.007
Recognition of classroom learning behaviors based on the fusion of human pose estimation and object detection
WANG Zejie1,2 ,? SHEN Chaomin1,2 ,? ZHAO Chun3,4 ,? LIU Xinmei1,2 ,? CHEN Jie1,2
(1. School of Computer Science and Technology, East China Normal University, Shanghai? 200062, China;2. Shanghai Key Laboratory of Multidimensional Information Processing, East China Normal University,Shanghai? 200241, China;3. Information Technology Service, East China NormalUniversity, Shanghai? 200062, China;4. Department of Education InformationTechnology, East China Normal University, Shanghai? 200062, China)
Abstract: As a result of ongoing advances in artificial intelligence technology, the potential for learning analysis in teaching evaluation and educational data mining is gradually being recognized. In classrooms, artificial intelligence technology can help to enable automated student behavior analysis, so that teachers can effectively and intuitively grasp students’ learning behavior engagement; the technology, moreover, can provide data to support subsequent improvements in learning design and implementation of teaching interventions. The main scope of the research is as follows: Construct a classroom student behavior dataset that provides a basis for subsequent research; Propose a behavior detection method and a set of feasible, high-precision behavior recognition models. Based on the global features of the human posture extractedfrom the Openpose algorithm and the local features of the interactive objects extracted by the YOLO v3 algorithm, student behavior can be identified and analyzed to help improve recognition accuracy; Improve the model structure, compress and optimize the model, and reduce the consumption of computing power and time. Four behaviors closely related to the state of learning engagement: listening, turning sideways, bowing, and raising hands are recognized. The accuracy of the detection and recognition method on the verification set achieves 95.45%. The recognition speed and accuracy of common behaviors, such as playing with mobile phones and writing, are greatly improved compared to the original model.
Keywords: learning behavior recognition; pose estimation; object detection; computer vision; deep learning
0? 引言
隨著政府、教育部門與學(xué)術(shù)認證機構(gòu)開始鼓勵學(xué)校塑造以證據(jù)為本的決策與革新制度 , 學(xué)習(xí)分析技術(shù)在決策輔助與教學(xué)評估等層面都展現(xiàn)出了很大的優(yōu)勢. 在融入了人工智能、機器學(xué)習(xí)中的相關(guān)算法與技術(shù)后 , 學(xué)習(xí)分析達到了更高的分析精度.
學(xué)生的學(xué)習(xí)投入度能夠幫助學(xué)校更好地認識學(xué)生學(xué)習(xí)的質(zhì)量. 評價一所大學(xué)教育質(zhì)量的核心要素就是學(xué)生的學(xué)習(xí)投入程度[1]. 學(xué)生課堂行為作為學(xué)習(xí)投入的重要組成部分 , 一直以來備受研究者的關(guān)注.傳統(tǒng)的學(xué)生課堂行為評價是以人工觀察記錄實現(xiàn)的 , 效率低下.在人工智能蓬勃發(fā)展的今天 , 嘗試著借助人工智能技術(shù)來改善這一現(xiàn)狀. 了解學(xué)生在課堂學(xué)習(xí)過程中的學(xué)習(xí)行為、學(xué)習(xí)狀態(tài)已成為目前教育發(fā)展的重要課題 , 將推動教育分析系統(tǒng)智能、高效、全面發(fā)展.
為了推動學(xué)生課堂行為數(shù)據(jù)采集方法的創(chuàng)新 , 本研究選取安裝了攝像設(shè)備的6 間教室 , 在計算機視覺技術(shù)的支撐下分析課堂教學(xué)視頻 , 為教師掌握學(xué)生的學(xué)習(xí)投入狀態(tài)、優(yōu)化教學(xué)設(shè)計、實施教學(xué)干預(yù)提供數(shù)據(jù)支撐.
鑒于目前尚無公開的學(xué)生課堂行為數(shù)據(jù)集 , 本文采集了6 間教室的視頻數(shù)據(jù) , 并對該數(shù)據(jù)進行處理 , 制作數(shù)據(jù)集.基于計算機視覺技術(shù) , 提出了一套多階段的學(xué)生課堂行為識別方法.因為學(xué)生的課堂行為動作幅度變化不大 , 且在視頻圖像中 , 學(xué)生與學(xué)生之間會產(chǎn)生重疊遮擋現(xiàn)象 , 這都給行為識別造成了不小的困難. 利用 OpenPose[1]人體關(guān)鍵點檢測算法 , 獲取學(xué)生關(guān)鍵點數(shù)據(jù) , 輸入卷積神經(jīng)網(wǎng)絡(luò)進行學(xué)習(xí) , 得到姿態(tài)分類器 , 能夠?qū)崿F(xiàn)對學(xué)生低頭、正坐、側(cè)身和舉手行為的識別分類. 另外 , 學(xué)生課堂行為常常與交互物體緊密相關(guān) , 例如玩手機、書寫行為. 這2 種行為提取的人體關(guān)節(jié)圖相似, 無法直接使用骨骼關(guān)鍵點來判斷 , 所以在進行這2種行為識別時 , 將手部區(qū)域作為行為識別最關(guān)鍵的語義信息.現(xiàn)有模型加載和處理速度較慢 , 難以實現(xiàn)對學(xué)生課堂行為的實時檢測 , 本文利用模型剪枝的 YOLO v3[2]算法進行手部檢測 , 融合人體姿態(tài)信息后進行級聯(lián)分類網(wǎng)絡(luò) , 實現(xiàn)對玩手機和書寫行為的實時檢測 .本文實驗基于學(xué)生在課堂教學(xué)中表現(xiàn)的真實視頻數(shù)據(jù) , 對算法模型的準確性和處理速度進行了評估, 得到了較好的結(jié)果.
1? 文獻綜述
人體行為按照復(fù)雜程度可分為4 類 , 分別是姿態(tài)、個體動作、交互動作和團體活動[3]. 姿態(tài)是人體基礎(chǔ)部分的移動 , 如舉手、站立.此類行為復(fù)雜程度最低.個體動作是多個姿態(tài)的組合, 如跑步、跳高等行為[1]. 交互動作包括人和人之間以及人和物體之間 , 如玩手機、握手等.團體活動是指在一個場景中包含多個人和多個物體的活動 , 如會議室開會、馬拉松比賽等.課堂場景下學(xué)生的行為不僅包括與姿態(tài)有關(guān)的基礎(chǔ)動作 , 例如舉手、側(cè)身、低頭等;而且涵蓋了人與物體之間的交互動作 , 例如寫字、玩手機等. 對視覺的行為識別通常包括對行為的表征和對目標的檢測. 人體關(guān)節(jié)行為表征方法是通過姿態(tài)估計獲取人體各個關(guān)節(jié)點的位置信息和運動信息 , 然后對人體行為進行表征.多人二維關(guān)鍵點檢測算法按照檢測人體和檢測人體關(guān)鍵點的先后順序 , 分為自上而下和自下而上2 種. 自下而上最經(jīng)典的方法 OpenPose 首先根據(jù)熱力最大值檢測身體部位的關(guān)節(jié)點 , 連接后得到人體姿態(tài)骨架 , 并且提出了人體親和力場 , 實現(xiàn)對關(guān)節(jié)點的快速連接.在圖像中人數(shù)增加的情況下 , OpenPose 算法依然能夠保持高效率、高質(zhì)量產(chǎn)生人體姿態(tài)檢測的結(jié)果 , 具有很強的魯棒性.
目標檢測算法能夠定位圖像物體的位置 , 并給出分類結(jié)果 , 如圖 1所示. R-CNN (Region with CNN features)[4]系列算法將候選區(qū)域與卷積神經(jīng)網(wǎng)絡(luò)相結(jié)合 , 由此衍生出處理速度更快、精度更高的算法 Fast R-CNN[5]和 Faster R-CNN[6]. 這類算法優(yōu)勢在于精度較高 , 但是檢測速度較慢 , 滿足不了實時性. Redmon 等[7]將生成候選框與回歸合為1 個步驟, 提出一系列代表性的算法如 YOLO v2、YOLO v3算法.本文對 YOLO v3模型進行剪枝處理 , 在保證精確度的情況下 , 進一步減少模型參數(shù) , 提升處理速度, 減少計算資源和時間消耗 , 方便模型的部署.
Saneiro 等[8]利用深度卷積神經(jīng)網(wǎng)絡(luò)分析學(xué)生課堂表情 , 將學(xué)生的情緒分為悲傷、快樂、中性、憤怒、厭惡、驚訝、恐懼. Saneiro 等[8]利用 Cohn-Kanade (CK+)[9]面部圖像數(shù)據(jù)庫進行深度網(wǎng)絡(luò)模型預(yù)訓(xùn)練 , 然后針對自己的應(yīng)用場景遷移網(wǎng)絡(luò). Lei 等[10]提出了一種多特征的學(xué)生動作識別方法 , 該方法由局部對數(shù)歐氏多元高斯(L2EMG)[11]和尺度不變特征變換(SIFT)[12]組成.林燦然等[13]利用人體關(guān)鍵點信息和 RGB (Red-Green-Blue)圖像對學(xué)生舉手、起立和端坐這3 種行為進行識別. Li 等[14]收集真實的智能課堂環(huán)境視頻數(shù)據(jù) , 制作學(xué)生課堂動作識別數(shù)據(jù)庫 , 利用傳統(tǒng)機器學(xué)習(xí)方法和卷積神經(jīng)網(wǎng)絡(luò)對數(shù)據(jù)庫進行了基準實驗. Sun 等[15]針對自建的課堂學(xué)習(xí)數(shù)據(jù)庫 , 利用 C3D (Convolution 3D)[16]網(wǎng)絡(luò)實現(xiàn)了對學(xué)生的動作識別. 這類方法沒有利用姿態(tài)信息和交互物體信息 , 行為識別的種類并不多 , 精度普遍較低 , 處理速度較慢 , 深度網(wǎng)絡(luò)模型隨著網(wǎng)絡(luò)層數(shù)的增加還容易造成過擬合現(xiàn)象 , 計算資源的消耗較大.
2? 本文方法
本文利用 H 大學(xué)所采集的視頻數(shù)據(jù) , 建立了學(xué)生課堂行為數(shù)據(jù)集 E-action.該數(shù)據(jù)集包含了在6 間標準教室的高清攝像頭所采集的課堂視頻數(shù)據(jù) , 視頻分辨率為(4096× 2160)像素.基于此數(shù)據(jù)庫 , 本研究將行為分析分為2 個階段. 第1 階段 , 利用 OpenPose 人體姿態(tài)估計算法提取人體關(guān)鍵點 , 對舉手、正坐、側(cè)身和低頭4 種主要行為進行識別. 第2 階段, 考慮到學(xué)生玩手機時手與手機有交互行為 , 書寫時手與筆有交互行為 , 基于“人-物交互”的方法, 使用 YOLO v3算法訓(xùn)練手部檢測模型, 并進行剪枝操作 , 對學(xué)生手部區(qū)域進行目標檢測. 所提取的手部區(qū)域信息融合第1 階段的姿態(tài)信息后 , 輸入卷積神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練 , 從而識別學(xué)生玩手機和書寫行為. 該方法同時具備速度快和準確率高 , 具有較好的適應(yīng)性. 整體流程如圖 2所示.
2.1? E-action 行為數(shù)據(jù)集
對 H 大學(xué)的6 間標準化教室所收集的視頻總計容量超過200 GB.對在校大學(xué)生的課堂行為進行抽樣調(diào)查 , 課堂行為所出現(xiàn)的頻次如圖 3所示 , 發(fā)現(xiàn)舉手、正坐、側(cè)身、低頭、玩手機、書寫是較高頻率出現(xiàn)的學(xué)生課堂行為.
首先 , 定位視頻中每個學(xué)生的位置 , 記錄矩形框中最左上角和最左下角的位置坐標 x 和y .然后 , 把單個學(xué)生從整個場景中切割出來 , 得到單人視頻. 對于每一個學(xué)生的單人視頻 , 都需要標注出分類動作的開始時間和結(jié)束時間. 整個數(shù)據(jù)集包含6 個文件夾 , 分別代表每一類行為的視頻集合.最后 , 對視頻進行抽幀處理 , 把視頻轉(zhuǎn)化為圖片 , 由圖片集合和圖片標注組成數(shù)據(jù)集供后續(xù)實驗使用.
2.2? 學(xué)生課堂關(guān)鍵點檢測
由于骨骼構(gòu)造的特點 , 人體姿態(tài)豐富多樣. 一般地 , 關(guān)節(jié)的改變會帶來姿態(tài)動作的變化 , 這對姿態(tài)估計和動作檢測有很大的幫助.但是在現(xiàn)實應(yīng)用場景中 , 從視頻圖像中獲取信息還受到各種環(huán)境因素的影響 , 例如光照、物體遮擋、背景干擾、識別角度等.通常學(xué)生坐在自己的位置上 , 腿部和腳部的關(guān)鍵點對于本文所需要識別的常見課堂行為不產(chǎn)生直接影響 , 學(xué)生在課堂教學(xué)中的人體關(guān)鍵點的示意圖如圖4所示.
OpenPose 作為自下而上的人體姿態(tài)估計算法 , 在處理速度和精度上都有明顯的優(yōu)勢. 它利用人體親和力場 , 實現(xiàn)同場景下多人人體姿態(tài)估計. 由于在課堂場景下 , 學(xué)生座位相鄰會出現(xiàn)肢體遮擋的現(xiàn)象 , 這對動作檢測有一定的干擾 , 相比自上而下的檢測算法 , OpenPose 算法還具有更高的魯棒性和準確率 , 適用于真實教室場景下的視頻處理.本文選擇 OpenPose 算法對課堂視頻中的學(xué)生進行人體姿態(tài)估計.
將訓(xùn)練集輸入 OpenPose 網(wǎng)絡(luò) , 得到人體關(guān)鍵點圖( 圖5). 圖5是學(xué)生課堂姿態(tài)信息的反映 , 姿態(tài)主要可以分為正坐、側(cè)身、低頭和舉手. 正坐和舉手姿態(tài)可認為是認真聽課的表現(xiàn) , 低頭和側(cè)身通常同不專心的行為產(chǎn)生聯(lián)系, 例如低頭玩手機、交頭接耳等行為. 給這4 種姿態(tài)的圖片加上標簽 , 形成骨架關(guān)鍵點的學(xué)生動作數(shù)據(jù)集.
在完成分類任務(wù)上 , VGGNet[17]網(wǎng)絡(luò)和 ResNet[18]網(wǎng)絡(luò)均有明顯的優(yōu)勢 , 但是此類網(wǎng)絡(luò)在設(shè)計的過程中朝著深度和復(fù)雜度提高的方向發(fā)展, 使得網(wǎng)絡(luò)規(guī)模復(fù)雜且參數(shù)量龐大, 嚴重影響算法的處理效率.本文在人體姿態(tài)估計的基礎(chǔ)上增加了一個小型的6 層網(wǎng)絡(luò) , 對正坐、側(cè)身、低頭和舉手這4 類動作進行分類. 它有3 個卷積網(wǎng)絡(luò)和3 個完全連接層 , 無需預(yù)訓(xùn)練 , 在不影響實時性的基礎(chǔ)上有效提高了動作分類的精度 , 卷積層表示為(卷積核個數(shù) , 行數(shù) , 列數(shù) , 通道數(shù)), 網(wǎng)絡(luò)結(jié)構(gòu)如圖 6所示.
2.3? 學(xué)生手部動作檢測
利用骨架關(guān)鍵點的信息識別學(xué)生課堂行為 , 雖然排除了背景冗余信息對識別效果的影響 , 但同時也可能誤刪關(guān)鍵的語義信息. 例如 , 玩手機和書寫等行為的交互對象(手機和筆等)對學(xué)生課堂行為識別具有決定性的作用.通過 YOLO v3算法提取手部區(qū)域 , 將行為識別的注意力集中在手部區(qū)域 , 對手部區(qū)域進行檢測 , 結(jié)合人體姿態(tài)估計的分類標簽和手部區(qū)域目標檢測圖的特征進行識別. 這不但能夠減少相似行為的錯誤分類 , 也能夠排除身體其他部位或者學(xué)生之間互相遮擋的影響. YOLO v3算法作為目標檢測器 , 實現(xiàn)對手部區(qū)域的快速檢測 , 如圖 7所示.
YOLO v3對中小目標的檢測效果突出, 它在特征提取上選擇圖片的全局區(qū)域進行訓(xùn)練 , 加快速度的同時能夠更好地區(qū)分目標和背景.不同卷積核的功能不同 , 多個卷積核交錯進行 , 實現(xiàn)降維和對特征的提取.
2.4? 手部區(qū)域檢測模型壓縮
手部檢測要求較好的檢測效果和較快的檢測速度 , 本文方法針對學(xué)生課堂行為進行檢測 , 反饋學(xué)生學(xué)習(xí)的投入度 , 對檢測手部區(qū)域進行分類的算法要求網(wǎng)絡(luò)具有有較高的實時性 , 因此采用模型剪枝的方法對手部區(qū)域檢測模型進行壓縮 , 能提高算法運行速度.
在使用深度學(xué)習(xí)算法時 , 預(yù)測結(jié)果通過參數(shù)計算和推理得出. 由于許多參數(shù)是冗余的 , 所以可以實現(xiàn)在保持最優(yōu)參數(shù)的同時 , 壓縮參數(shù)空間 , 達到和原始參數(shù)空間相同的效果.這有助于在沒有影響精度的前提下 , 通過壓縮模型來縮短處理時間和減小所占體積. 首先 , 對 YOLO v3模型進行稀疏訓(xùn)練 .稀疏訓(xùn)練的想法是為每個通道引入縮放因子g, 并將其與通道輸出相乘.然后 , 聯(lián)合訓(xùn)練網(wǎng)絡(luò)權(quán)重和縮放因子g.最后, 將縮放因子較小的通道直接移除, 微調(diào)剪枝后的網(wǎng)絡(luò). 整個框架的目標函數(shù)定義為
式(1)中:(x; y )代表訓(xùn)練數(shù)據(jù)和標簽; W 是網(wǎng)絡(luò)的可訓(xùn)練參數(shù); l 是 CNN 的訓(xùn)練損失函數(shù); f 為預(yù)測標簽;? 是平衡因子; g () 是縮放因子的懲罰項;? 是函數(shù)空間域.
在 YOLO v3稀疏訓(xùn)練的過程中需要利用 Batch Normalization (BN)[19]層加速模型收斂 , BN 層批量標準化公式為
式(2)中: 和分別是輸入特征和方差;2?? 是可訓(xùn)練的縮放因子和偏差;" 是為避免0 除而設(shè)置的較小數(shù) , 能夠讓整個網(wǎng)絡(luò)模型計算的額外開銷盡可能小;? 參數(shù)是 BN 層的縮放因子. BN 層的剪枝示意圖如圖 8所示.
剪枝結(jié)束后的輕量級網(wǎng)絡(luò)模型需要通過微調(diào)來提升網(wǎng)絡(luò)的精度.在不影響精度的情況下 , YOLO v3算法能夠?qū)υ谡n堂教學(xué)中學(xué)生的手部區(qū)域?qū)崿F(xiàn)更快速的檢測 , 通過訓(xùn)練所得到的模型體積更小 , 方便模型的部署.
2.5? 姿態(tài)融合的手部動作分類
將目標檢測模塊定位到手部坐標位置后 , 截取原圖中手部局部圖片 , 輸入上文所提到的小型分類網(wǎng)絡(luò) , 提取手部局部圖片的特征, 將模型的注意力集中在手部位置, 再結(jié)合OpenPose 人體姿態(tài)估計算法的處理結(jié)果, 添加學(xué)生的姿態(tài)信息, 對檢測的行為進行約束, 提高了對學(xué)生在課堂教學(xué)中玩手機、書寫等行為的識別精度.本文人體姿態(tài)估計模塊和手部區(qū)域檢測模塊是并行處理的 , 在融合2 者特征后分類的時間是線性相加的 , 分類模塊的處理速度也同樣影響到總體框架的速度. YOLO 系列作為經(jīng)典的目標檢測算法 , 其本身就擁有目標分類算法部分.在本實驗中 , 因為全局圖片的信息對于行為分類會產(chǎn)生冗余作用, 所以只針對手部區(qū)域信息對學(xué)生課堂行為進行分析, 同時對關(guān)鍵點信息做姿態(tài)檢測. 因而仍然采用2.2節(jié)中所提到的小型網(wǎng)絡(luò)進行分類 , 在保證實時性的前提下, 最大限度地提高分類效率.
3? 實驗結(jié)果與分析
3.1? 實驗準備
采集6 間教室每天的課堂視頻作為數(shù)據(jù)源.后臺對超過200 G 的數(shù)據(jù)進行篩選統(tǒng)計 , 總共采集數(shù)據(jù) 300人次(男生173人次 , 女生127人次 , 含大學(xué)生) , 對視頻中具有識別分類的動作進行人工篩選和數(shù)據(jù)標注.以 10 s 為單位, 對原始視頻進行剪輯 , 生成原始視頻數(shù)據(jù)集.考慮到課堂場景下學(xué)生的常見姿態(tài)可以分為低頭、側(cè)身、正坐和舉手 , 從原始視頻數(shù)據(jù)庫里挑選出這4類視頻并按幀進行切分 , 每張圖片的分辨率為(4096× 2160)像素. 考慮到訓(xùn)練數(shù)據(jù)的平衡性 , 對視頻庫進行篩選 , 最終得到的圖片共5 500張 , 其中正坐1 600張、側(cè)身1 400張、低頭1 400張、舉手1 100張 .姿態(tài)數(shù)據(jù)集的樣例如圖9所示.
手部動作數(shù)據(jù)集所采集的圖片合計4 000張 , 其中訓(xùn)練集3 200張、測試集800張 .為實現(xiàn)手部動作分類 , 手部動作數(shù)據(jù)集分成3 個子類 , 其中常規(guī)行為圖片2 400張、玩手機動作800張、書寫動作800張 .手部動作數(shù)據(jù)集如圖 10所示.
為了擴充課堂場景下學(xué)生手部區(qū)域數(shù)據(jù)集、提高對不同姿態(tài)的手部識別的魯棒性 , 將數(shù)據(jù)集進行了幾何增強.所采用的方式是平移、翻轉(zhuǎn)、旋轉(zhuǎn)、鏡像等 , 效果如圖 11所示.
人工智能技術(shù)可以幫助研究者拓展學(xué)生行為數(shù)據(jù)收集的渠道并提升數(shù)據(jù)收集及處理的效率. 用 FFmpeg 將實際所采集的學(xué)生課堂視頻截取成視頻幀圖像 , 然后采用 OpenPose 人體姿態(tài)估計算法得到每個學(xué)生的人體骨骼關(guān)鍵點(x; y )并記錄. 針對其中一個學(xué)生的所有人體關(guān)鍵點進行分析 , 將關(guān)鍵點的橫坐標和縱坐標進行排序 , 得到橫坐標的最大值xmax 和最小值xmin 以及縱坐標的最大值ymax 和最小值ymin , 再按單個學(xué)生的人體區(qū)域大小占總場景圖像的比例進行擴充 , 從而能夠在整個課堂場景的視頻幀中截取得到單個學(xué)生區(qū)域的圖像 , 以便對單個學(xué)生檢測定位和行為識別分析 , 如圖12所示.通過這種方式能從整個教室場景的視頻數(shù)據(jù)中獲取大量的單個學(xué)生的圖片數(shù)據(jù).
本實驗的操作系統(tǒng)為 Ubantu 16, GPU 為 titian V, 顯存為36 G, 深度網(wǎng)絡(luò)模型框架基于 Pytorch 框架實現(xiàn).
3.2? 在課堂教學(xué)中動作姿態(tài)檢測與分類
利用 OpenPose 算法處理人體動作數(shù)據(jù)集 , 獲取低頭、側(cè)身、正坐和舉手4類動作的人體骨架圖 , 具體示意圖如表1所示.
將該數(shù)據(jù)集輸入上述的小型 CNN (Convolutional Neural Network)分類網(wǎng)絡(luò)進行訓(xùn)練 , 模型在測試集(骨架圖)上的準確率與本文所采集的圖像直接訓(xùn)練(原圖)的準確率、利用 IDT (Improved Dense Trajectories)[20]算法處理后的圖像準確率和利用 C3D 算法處理后的圖像準確率作對比 , 結(jié)果如表2所示.
IDT 基于人工選取特征的方法 , 取密集軌跡點的 HOG (Histogram of Oriented Gradient)特征、 HOE? (Histogram? of? spatiotemporal? Orientation? Energy)特征、 MBH? (Motion? Boundary? Histograms)等局部特征進行分類 , 效率較低. C3D 首先關(guān)注前幾幀的外觀 , 并跟蹤后續(xù)幀中的顯著運動 , 但是學(xué)生課堂行為幅度較小 , 很難捕捉到運動信息 , 并且只關(guān)注了顏色特征 , 并沒有關(guān)注骨骼特征 , 所以精度偏低.利用所提取的骨架圖判別原圖動作的方法 , 消除了背景和人物重疊信息的干擾 , 提高了分類精度. 在測試數(shù)據(jù)集上動作分類網(wǎng)絡(luò)的最高測試精度達到95.45%.
3.3? 手部檢測實驗
利用 YOLO v3算法對手部區(qū)域進行提取 , 考慮到運行速度和模型的部署 , 在此模型基礎(chǔ)上做剪枝 .首先對手部數(shù)據(jù)集做正常訓(xùn)練 , 得到平均準確精度 mAP (mean Average Precision)為 0.8195.然后采用全局稀疏訓(xùn)練 , 在總的周期的0.7和 0.9階段進行學(xué)習(xí)率為0.1的衰減 , scale 參數(shù)默認為0.001.
根據(jù)稀疏的 BN 層的 g 權(quán)重對網(wǎng)絡(luò)進行剪枝 , 直連層和相關(guān)的前2 層的 CBL (Conv + BN + Leaky Relu)層會被剪枝 , 因此總共剪掉48層 , 相應(yīng)層的 ID 為 [66, 67, 68, 69, 70, 71, 72, 73, 74, 63, 64, 65, 38, 39, 40, 50, 51, 52, 47, 48, 49, 44, 45, 46, 13, 14, 15, 53, 54, 55, 41, 42, 43, 16, 17, 18, 6, 7, 8,19, 20, 21, 56, 57, 58, 22, 23, 24].
稀疏訓(xùn)練后進行通道剪枝 , 通道剪枝的閾值設(shè)置為0.85, 每層最低保持通道數(shù)比例為0.01, 再對剪枝后的模型進行微調(diào) , 提高精度.
表 3表明 , 在該數(shù)據(jù)集上對 YOLO v3網(wǎng)絡(luò)進行剪枝操作后 , 各項性能大幅提升.模型的參數(shù)量為原先的17.72%, 模型壓縮率為82.2%, 在titian V 上處理時間縮短了49.40%, 同時各類別的 mAP 基本保持不變. 因此剪枝后的模型可作為本文算法框架中動作分類模塊的基準網(wǎng)絡(luò).
3.4? 手部動作分類實驗
篩選目標檢測處理后的手部區(qū)域, 得到玩手機、書寫的圖片, 構(gòu)建訓(xùn)練數(shù)據(jù)集.將手部行為分為玩手機、空手和書寫3 個分類 , 輸入上文所提到的 CNN 卷積神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練得到手部動作分類器.訓(xùn)練的參數(shù)學(xué)習(xí)率設(shè)置為10–4 , 時期設(shè)置為200, 批大小設(shè)置為128, 整個網(wǎng)絡(luò)使用隨機梯度下降進行訓(xùn)練而得到.最終在測試集上 , 對玩手機和書寫這2種行為的檢測準確率分別為92.9%和 87.9%, 如表 4所示.
得到手部區(qū)域的動作分類后 , 用學(xué)生的姿態(tài)信息進行約束 , 從而將全局特征和局部特征相結(jié)合 , 排除拿筆和拿手機聽課這些行為的干擾 , 從而提高識別學(xué)生低頭玩手機和低頭書寫行為的精度, 如表 5所示.
為了驗證結(jié)合手部區(qū)域特征和全局動作特征后的學(xué)生課堂行為識別的準確率和運算效率 , 證明本文所提出方法的有效性 , 選取新錄制普通教學(xué)班的課堂視頻數(shù)據(jù)集 , 進行200組實驗 , 其最終識別的實驗結(jié)果如表6所示, FPS (Frames Per Second)表示模型平均每秒能處理的圖像幀數(shù).
實驗表明 , 融合姿態(tài)信息后的行為識別的精度相比手部區(qū)域圖片分類有所提升 , 所采用的學(xué)生課堂行為識別算法完全達到準確率和運算效率的要求.
課堂行為識別的數(shù)據(jù)標簽有可能會出現(xiàn)歧義性 , 給模型訓(xùn)練過程中的收斂帶來很大的問題. 損失函數(shù)表示模型對某個樣本的預(yù)測標簽和真實標簽的差異 , 可以衡量模型對該樣本的學(xué)習(xí)情況. 對損失函數(shù) loss 的排序情況進行檢查 , 如果 loss 值較大 , 則該樣本標簽有可能出現(xiàn)錯標或者本身圖片的行為帶有歧義性, 對于這種數(shù)據(jù)最好的處理方式是手工剔除.從而排除相似行為的干擾 , 提高識別的準確率.
4? 結(jié)論
本文利用深度學(xué)習(xí)與計算機視覺技術(shù) , 研究了學(xué)生課堂行為識別的方法.創(chuàng)建了在真實場景下的學(xué)生課堂行為數(shù)據(jù)集 , 通過全局姿態(tài)識別和局部姿態(tài)識別 , 獲得學(xué)生行為分類的模型 , 并且對模型進行了壓縮 , 得到一個高效且高精度的行為識別系統(tǒng). 經(jīng)測試 , 系統(tǒng)得到了較好的結(jié)果 , 可以實現(xiàn)課堂行為的自動化檢測. 這對于衡量學(xué)生學(xué)習(xí)投入、教師優(yōu)化教學(xué)設(shè)計與實施教學(xué)干預(yù) , 以及學(xué)生開展自適應(yīng)學(xué)習(xí)都具有重要意義. 未來將利用圖卷積神經(jīng)網(wǎng)絡(luò)在視頻的時間和每一幀的圖片空間維度上進行處理 , 進一步提高學(xué)生課堂行為分類的準確率.
[參考文獻]
[1]KUH GEORGE D. Assessing what really matters to student learning inside the national survey of student engagement [J]. Change, 2001, 33(3):10-17.
[2]CAO Z, SIMON T, WEI S E, et al. Realtime multi-person 2D pose estimation using part affinity fields [C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. IEEE, 2017:1302-1310.
[3]REDMON J, FARHADI A. YOLO v3: An incremental improvement [EB/OL].(2018-04-08)[2021-10-26].https://arxiv.org/pdf/1804.02767.pdf.
[4] GIRSHICK R, DONAHUE J, DARRELL T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation [C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. IEEE, 2014:580-587.
[5] GIRSHICK R. Fast R-CNN [EB/OL].(2015-9-27)[2021-10-26].https://arxiv.org/pdf/1504.08083.pdf.
[6] REN S, HE K, GIRSHICK R, et al. Faster R-CNN: Towards real-time object detection with region proposal networks [J]. IEEETransactions on Pattern Analysis & Machine Intelligence, 2017, 39(6):1137-1149.
[7] REDMON J, FARHADI A. YOLO 9000: Better, faster, stronger [C]//IEEE Conference on Computer Vision & Pattern Recognition.2017:6517-6525.
[8] SANEIRO M, SANTOS O C, SALMERON-MAJADAS S, et al. Towards emotion detection in educational scenarios from facialexpressions and body movements through multimodal approaches [J]. The Scientific World Journal, 2014:484873.
[9] LUCEY P, COHN J F, KANADE T, et al. The extended cohn-kanade dataset (CK+): A complete dataset for action unit and emotion-specified expression [C]//IEEE Computer Society Conference on Computer Vision and Pattern Recognition-Workshops.2010:94-101.
[10] LEI F, WEI Y, HU J, et al. Student action recognition based on multiple features [C]//2019 International Conference on Internet ofThings (iThings) and IEEE Green Computing and Communications (GreenCom) and IEEE Cyber, Physical and Social Computing (CPSCom) and IEEE Smart Data (SmartData).2019:428-432.
[11] LI P, WANG Q, ZENG H, et al. Local log-euclidean multivariate gaussian descriptor and its application to image classification [J].IEEE Transactions on Pattern Analysis & Machine Intelligence, 2017, 39(4):803-817.
[12] LOWE D G. Distinctive image features from scale-invariant keypoints [J]. International Journal of Computer Vision, 2004, 60(2):91-110.
[13] 林燦然, 許偉亮, 李逸.基于多模態(tài)數(shù)據(jù)的課堂學(xué)生行為識別技術(shù)的探究[J].現(xiàn)代計算機, 2020(6):70-76.
[14] LI X, WANG M, ZENG W, et al. A students’ action recognition database in smart classroom [C]//201914th International Conferenceon Computer Science & Education (ICCSE).2019:523-527.
[15] SUN B, ZHAO K, XIAO Y, et al. BNU-LCSAD: A video database for classroom student action recognition [C]//OptoelectronicImaging and Multimedia Technology VI.2019:111871V.
[16] TRAN D, BOURDEV L, FERGUS R, et al. Learning spatiotemporal features with 3D convolutional networks [C]//Proceedings of theIEEE International Conference on Computer Vision.2015:4489-4497.
[17] SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition [EB/OL].(2014-04-10)[2021-10-26]. https://arxiv.org/pdf/1409.1556.pdf.
[18] HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition [C]//Proceedings of the IEEE Conference on ComputerVision and Pattern Recognition.2016:770-778.
[19] IOFFE S, SZEGEDY C. Batch normalization: Accelerating deep network training by reducing internal covariate shift [C]//InternationalConference on Machine Learning.2015:448-456.
[20] WANG H, SCHMID C. Action recognition with improved trajectories [C]//Proceedings of the IEEE International Conference onComputer Vision.2013:3551-3558.
(責任編輯:陳麗貞)