基于Yolov4的學生在線學習狀態(tài)分析研究

2021-12-13 11:31西安培華學院陜西西安市710000

石河子科技 2021年5期

（西安培華學院，陜西西安市，710000）萬卷

1 研究背景

中國互聯(lián)網(wǎng)絡信息中心2020年4月28日在最新的中國互聯(lián)網(wǎng)絡發(fā)展狀況統(tǒng)計報告中說：截至今年3月，在線教育呈爆發(fā)性增長，用戶規(guī)模達4.23億，比2018年底增長110.2%，占網(wǎng)民整體的46.8%。2020年，突如其來的新冠肺炎疫情影響了全球大部分人的生活及行業(yè)發(fā)展，在停課不停學的號召下，在線教育用戶激增。截至2020年6月，我國在線教育用戶規(guī)模達3.81億，占網(wǎng)民整體的40.5%；手機在線教育用戶規(guī)模達3.77億占手機網(wǎng)民的40.4%。由此可見，在線學習數(shù)量非常驚人，那么讓學生學會高效率的學習相當重要，同時這也是教育界以及家長們最為關注的問題。

2 研究內(nèi)容

2.1 系統(tǒng)流程

在本篇文章中，主要針對如何使用卷積神經(jīng)網(wǎng)絡模型提高學習效率展開了深入的探討和研究，不僅探究了學生的眼部，還探究了學生的嘴部，除此之外，當然還有其他部位，通過判斷這些部位，可以得知人們關于學生的疲勞以及學習情緒的判斷是否準確和一致。在線學習狀態(tài)的識別功能的設計從整體而言，可分為兩個方面：①檢測學生是否在移動設備前上課。②對學生進行疲勞度和學習情緒檢測評估。流程如圖1所示。

圖1 目標檢測與學情分析流程圖

首先對學生進行目標檢測與面部識別即對課堂上拍攝到的視頻流進行人體目標檢測。這里我們使用單階段的基于改進的YOLOV4網(wǎng)絡模型。YOLOV4優(yōu)化了計算效率，使檢測器在單個GPU上也能很好地完成訓練。

2.2 模型介紹

YOLOV4分為 Input，BackBone，Neck，Prediction。訓練時對輸入端的改進，主要包括Mosaic數(shù)據(jù)增強、cmBN、SAT自對抗訓練。

骨干結(jié)構（BackBone）CSPDarknet53為了檢測器MAP指標的提升，考慮選擇一個圖像特征提取能力較強的backbone，及兼顧了準確率又沒有影響檢測的速度。所以選擇了具有CSP（Cross-stage partial connections）的darknet53。每個CSP模塊前面的卷積核的大小都是3*3，stride=2，因此可以起到下采樣的作用。因為Backbone有5個CSP模塊，輸入圖像是608*608。經(jīng)過5次CSP模塊后得到19*19大小的特征圖。同時使用的激活函數(shù)是Mish激活函數(shù)。

Neck：為了讓輸入頭部的信息更豐富，在輸入頭部前，會將來自自底向上和自上而下的數(shù)據(jù)流按逐元素的方式相加或相連。所以說，頭部的輸入包含的信息還是蠻大的，該系統(tǒng)的這一部分即為頸部（Neck）。目標檢測網(wǎng)絡在BackBone和最后的輸出層之間往往會插入一些層，主要用來融合不同尺寸特征圖的特征信息，用SPP模塊、FPN+PAN結(jié)構。在DC塊之后引入3個最大池化層的SPP塊，對多尺度池化提取和收斂的局部區(qū)域特征進行協(xié)整。池化前采用1×1卷積，將輸入特征圖的數(shù)量從1024個減少到512個。

將匯集的特征圖和SPP塊的輸入特征圖進行連接，得到sizefmap×sizefmap×2048個特征圖作為SPP塊的輸出端。

網(wǎng)絡的最后一部分是對象檢測塊，在這一部分中，將分辨率較高的DC塊的輸出特征圖與分辨率較低的SPP塊的輸出特征圖進行重建和并聯(lián)。然后將上述特征圖通過1×1×[K×（5+C）]卷積得到S×S×[K×（5+C）]特征圖，用于對象檢測。

訓練時采用的損失函數(shù)是CIOU_Loss，預測框篩選為DIOU_nms。原因是提出一個好的檢測邊界回歸的損失函數(shù)應該考慮三個重要的幾何因素：重疊面積、中心點距離和長寬比。通過統(tǒng)一坐標，IoU損失考慮了檢測框重疊面積，GIoU損失嚴重依賴IoU損失。DIoU loss旨在同時考慮檢測邊界框的重疊面積和中心點距離。然而，邊界框的長寬比的一致性也是一個重要的幾何因素。因此，在DIoU損耗的基礎上，通過施加長寬比的一致性提出CIoU損耗。

通過該方法，重疊區(qū)域因素在回歸中被賦予了更高的優(yōu)先權，特別是對于非重疊的情況。

2.3 情緒檢測

身份驗證成功后對學生進行專注度及疲勞和情緒及態(tài)度檢測評估。

通過使用ERT人臉特征點檢測算法對人體的臉部各個部位進行檢測，從而得出各個部位的坐標，然后找出坐標的中心點，從而更好的觀察面部的狀態(tài)，便于后期評估工作的進行，根據(jù)YawDD提供的數(shù)據(jù)，以此來作為依據(jù)，從而將數(shù)據(jù)集制作出來，目的就是為了更加徹底的判別人臉疲勞。

再判別面部專注度的時候，會使用到類似PERCLOS參數(shù)來進行判斷，我們可以確定眼睛的開閉狀態(tài)。首先，DHb庫中的ERT算法檢測到68個面部特征點，如圖2所示。

圖2 Dlib—68個人臉特征點

我們定義37-＞p1，38-＞p2，39-＞p3，40-＞p4，41-＞p5，42-＞p6，上圖中的特征點p1，p2，p3，p4，p5和p6是面部特征點中相對應的表示眼睛的六個特征點。如圖3所示。

圖3 Dlib—68個人臉特征點

無論是睜開眼睛還是緊閉眼睛，如上圖所示，就顯示了眼睛再睜開和閉合的時候，眼睛部位各個點之間的關系，其呈一條直線的狀態(tài)。由此可見，當睜開眼睛或者是閉上眼睛的時候，這些點的長寬比都是不一樣的。在計算眼睛閉合程度的時候，可以采用EAR方程來進行計算。

在使用分子計算的時候，可以依據(jù)眼睛的特征部位進行計算，也就是說在眼部周圍有一些特征點，根據(jù)這些特征點進行計算，這會更加容易計算出垂直方向上距離的大小，不同的是，在分式的分母中，主要用于眼睛周圍部位水平距離的計算，當一組水平點與兩組垂直點同時出現(xiàn)的時候，為了使得兩組特征點有著一樣的權重，那么此時分母應該再乘以2，從而達到這個目的。

利用眨眼狀態(tài)進行疲勞檢測，當EAR小于閾值時，接連多少幀發(fā)生眨眼動作，才認為當前眼睛是因為疲勞閉合的?，F(xiàn)階段主要的研究表明人出現(xiàn)疲勞時，每次眨眼時間占用1～2秒，假設視頻30幀每秒，相當于占用連續(xù)的30～60幀?？梢詫⒀劬Τ掷m(xù)閉合時間超過2.2s（連續(xù)幀數(shù)超過66幀）作為疲勞閉合判定的閾值。哈欠檢測采用類似EAR的方法判斷。嘴巴張開程度在打哈欠時比正常說話時大很多。

對于表情來說，可以展現(xiàn)出一個人情緒如何，是一個人情緒的外在體現(xiàn)，研究人員在研究人類情緒的時候，也會以此來做依據(jù)。對于面部表情來說，通常情況下，測量起來并不是件困難的事。通過調(diào)查研究大學課堂中學生的實際心理狀態(tài)，并參考相關文獻進行歸納和總結(jié)，我們重新定義了“傾聽”、“疑惑”、“理解”、“抗拒”、“不屑”五種表情，如圖4所示。

圖4 根據(jù)學生心理重新定義的五種表情

在上面的結(jié)構圖中，可以看出，“傾聽”可以代表著學生在聽課的時候很專心致志?！耙苫蟆贝碇鴮W生在聽課的時候，會跟著老師的步伐，然后遇到不懂的地方就會產(chǎn)生疑問?！袄斫狻贝碇鴮W生在上課的時候，經(jīng)過認真聽講以后，能夠領會課堂上所學習的內(nèi)容。“抗拒”代表著學生對課堂上所學習的東西產(chǎn)生了厭惡心理?！安恍肌贝碇鴮W生對課堂上學習的內(nèi)容失去了興趣。在上面的幾種表情中，能夠表現(xiàn)出學生在課堂上愿意學習的表情包括傾聽，疑惑和理解。剩余的表情反映出了學生對課堂的厭惡。

3 結(jié)語

在當前主流檢測方法中，檢測率仍然處于較低的狀態(tài)，并且對學生在線學習狀態(tài)的判斷還不夠全面，本文使用深度學習中較為先進的YOLOV4作為目標檢測算法，面部特征的檢測越來越準確，通過在課堂上對學生的眼部、嘴部等區(qū)域進行采樣與分析，使學生在線學習狀態(tài)的測量和評價更具現(xiàn)實意義。