基于殘差網(wǎng)絡(luò)的學(xué)生課堂行為識別

2019-08-20 07:26蔣沁沂張譯文譚思琪楊耀祖

現(xiàn)代計算機(jī) 2019年20期

蔣沁沂，張譯文，譚思琪，楊耀祖

（四川農(nóng)業(yè)大學(xué)理學(xué)院，雅安625000）

0 引言

課堂是學(xué)生學(xué)習(xí)知識、接受教育的重要場所。隨著社會技術(shù)的不斷發(fā)展，教育改革的不斷深入，對課堂教學(xué)質(zhì)量進(jìn)行信息化、智能化分析的要求越來越急迫。用信息化手段對課堂中學(xué)生的行為進(jìn)行實時的觀測、處理和分析，不僅可以提醒學(xué)生注意規(guī)范自己在課堂上的行為，幫助教師管理課堂，也可以反映出課堂氛圍好壞，幫助教師改進(jìn)教學(xué)方式。

目前專門研究學(xué)生課堂行為識別的論文較少。周鵬霄等人[1]通過人臉檢測、輪廓檢測、主體動作幅度檢測得到數(shù)據(jù)集，將貝葉斯因果網(wǎng)作為判定主體行為特征的推理模型對課堂教學(xué)行為進(jìn)行識別。黨冬利[2]則通過提取動作的Zernike 矩特征、光流特征、全局運動方向特征并結(jié)合樸素貝葉斯分類器[3]來對動作進(jìn)行描述和判斷。張鴻宇[4]通過對人體骨骼向量進(jìn)行特征提取，再用SVM 分類器[5]對動作向量進(jìn)行分類和識別。上述方法主要運用的是傳統(tǒng)的機(jī)器學(xué)習(xí)方法，需要大量的人工操作步驟并且準(zhǔn)確率較低。廖鵬等人[6]通過攝像頭采集學(xué)生課堂行為，并通過背景差分提取目標(biāo)區(qū)域輸入VGG 網(wǎng)絡(luò)[7]，成功識別了睡覺、玩手機(jī)、正常三種課堂行為。該研究通過將深度學(xué)習(xí)技術(shù)運用在課堂教學(xué)的圖像識別上，為課堂行為識別的研究提供了新的思路和方法，但是其識別學(xué)生數(shù)量較少，識別學(xué)生在課堂中的動作也較為簡單并且準(zhǔn)確率仍然較低。

近年來，深度卷積神經(jīng)網(wǎng)絡(luò)飛速發(fā)展，AlexNet[8]、VGGNet[7]、GoogLeNet[9]等深度神經(jīng)網(wǎng)絡(luò)模型相繼被提出。但是，當(dāng)網(wǎng)絡(luò)層數(shù)不斷加深，深度神經(jīng)網(wǎng)絡(luò)在訓(xùn)練過程中的梯度爆炸或梯度消失問題會變得越來越明顯。為了解決這種問題，何愷明等人提出了深度殘差網(wǎng)絡(luò)ResNet[10]。該網(wǎng)絡(luò)很重要的特征之一就是加入了殘差模塊，通過在卷積層之間加入Shortcut 結(jié)構(gòu)，成功地緩解了當(dāng)網(wǎng)絡(luò)層數(shù)過深時帶來的網(wǎng)絡(luò)退化問題。

為了能識別更多學(xué)生在課堂中表現(xiàn)出來的行為，同時提高識別的準(zhǔn)確率，本文將深度殘差網(wǎng)絡(luò)用于課堂行為識別。通過實地采集大量學(xué)生課堂行為的圖片，搭建課堂行為識別數(shù)據(jù)集，并根據(jù)殘差模塊的特點，搭建出適用于該數(shù)據(jù)集的深度殘差網(wǎng)絡(luò)，為識別學(xué)生課堂行為提供了新的技術(shù)方法。

1 殘差結(jié)構(gòu)

殘差網(wǎng)絡(luò)是一種深層次卷積神經(jīng)網(wǎng)絡(luò)。對于卷積神經(jīng)網(wǎng)絡(luò)而言，加深網(wǎng)絡(luò)層數(shù)可以增強(qiáng)其擬合能力。但隨著網(wǎng)絡(luò)層數(shù)的加深，卷積神經(jīng)網(wǎng)絡(luò)會變得非常難以訓(xùn)練，當(dāng)網(wǎng)絡(luò)層數(shù)超過某個值后，網(wǎng)絡(luò)的識別能力反而會呈現(xiàn)下降趨勢[11]。在梯度反向傳播的過程中，由于網(wǎng)絡(luò)層數(shù)過深，靠近輸出層的網(wǎng)絡(luò)參數(shù)會很快收斂，而靠近輸入層的參數(shù)則收斂得很慢。為了避免當(dāng)網(wǎng)絡(luò)層數(shù)過深引起的識別準(zhǔn)確率下降的問題，殘差網(wǎng)絡(luò)引入了殘差單元，即通過在卷積層之間加入Shortcut 結(jié)構(gòu)，這種結(jié)構(gòu)使網(wǎng)絡(luò)要訓(xùn)練的目標(biāo)函數(shù)變?yōu)榱藴p去輸入函數(shù)后的殘差，該結(jié)構(gòu)如圖1 所示。設(shè)f(x)為原始網(wǎng)絡(luò)輸出，在引入Shortcut 結(jié)構(gòu)后實際輸出設(shè)為h(x)，有h(x)=f(x)+x，即實際輸出為原始輸出與原始輸入相加，從而將網(wǎng)絡(luò)對f(x)的擬合轉(zhuǎn)變?yōu)閷(x)的擬合。這種結(jié)構(gòu)沒有增加新的參數(shù)與額外的計算量，同時也解決了網(wǎng)絡(luò)反向傳播過程中梯度彌散的問題。

圖1 殘差單元

圖2 殘差網(wǎng)絡(luò)結(jié)構(gòu)圖

2 深度殘差網(wǎng)絡(luò)的結(jié)構(gòu)

本文用于識別學(xué)生課堂行為的深度殘差網(wǎng)絡(luò)的結(jié)構(gòu)如圖2 所示。包括1 個卷積層、2 個ReLU 層、3 個池化層、1 個卷積模塊、2 個恒等模塊、2 個全連接層以及最后的分類層，該網(wǎng)絡(luò)中卷積層的填充方式均為“same”。輸入圖像首先經(jīng)過卷積層，該卷積層含有64個大小為2×2 卷積核，操作步長為2，由ReLU 激活函數(shù)激活從而進(jìn)行初步特征提取，之后經(jīng)過一個卷積模塊、兩個恒等模塊進(jìn)行深度特征提取，再用兩個大小不同的全連接層依次進(jìn)行特征降維，后一個全連接層的輸出神經(jīng)元個數(shù)為6，分別對應(yīng)學(xué)生在課堂中表現(xiàn)出來的6 種行為，最后通過分類層輸出分類結(jié)果。

恒等模塊的結(jié)構(gòu)如圖3 所示，卷積模塊的網(wǎng)絡(luò)結(jié)構(gòu)如圖4 所示。

圖3 恒等模塊

圖4 卷積模塊

恒等模塊包括3 個卷積層、3 個ReLU 層和一個Shortcut 連接操作。其中，卷積層1 含有64 個大小為1×1 卷積核，操作步長為1；卷積層2 含有64 個大小為3×3 卷積核，操作步長為1；卷積層3 含有256 個大小為1×1 卷積核，操作步長為1。Shortcut 連接操作用于將恒等模塊的輸入與經(jīng)過三次卷積操作后的輸出相加，該操作體現(xiàn)了殘差網(wǎng)絡(luò)的基本思想。

卷積模塊包括4 個卷積層、3 個ReLU 層和一個Shortcut 連接操作。其中，卷積層1 含有64 個大小為1×1 卷積核，操作步長為2；卷積層2 含有64 個大小為3×3 卷積核，操作步長為1；卷積層3 含有256 個大小為1×1 卷積核，操作步長為1；卷積層4 含有256 個大小為1×1 卷積核，操作步長為2。相比于恒等模塊，其在Shortcut 連接操作之前先對網(wǎng)絡(luò)輸入x 先進(jìn)行了一次卷積操作。

3 數(shù)據(jù)庫搭建與網(wǎng)絡(luò)訓(xùn)練

3.1 搭建課堂行為識別數(shù)據(jù)庫

對深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練需要大量已標(biāo)記的訓(xùn)練數(shù)據(jù)，由于網(wǎng)絡(luò)上沒有公開的課堂行為識別數(shù)據(jù)，故本文通過實地收集數(shù)據(jù)構(gòu)建了一套專門的課堂行為識別數(shù)據(jù)集。

視頻通過安裝在教室中的攝像設(shè)備采集，分辨率為2560×1536。收集包括上課、睡覺、玩手機(jī)、做筆記、東張西望、看書等學(xué)生在課堂中出現(xiàn)頻率較高的6 個動作。在視頻收集好后，首先對視頻進(jìn)行均勻幀采樣，將視頻轉(zhuǎn)換成圖像，再將圖像裁剪成含有單個學(xué)生的圖片并重塑成128×128 的分辨率大小，對每個圖像里的學(xué)生課堂行為進(jìn)行標(biāo)記后，總共得到1020 張帶有標(biāo)簽的課堂行為圖片。通過鏡像對稱的數(shù)據(jù)增強(qiáng)方式對原始數(shù)據(jù)集進(jìn)行擴(kuò)充，最終得到包含2040 張圖片的課堂行為識別數(shù)據(jù)集。數(shù)據(jù)集中的部分圖片如圖5 所示，其中每個行為的圖片數(shù)量都相同。隨機(jī)抽取其中的1560 張圖片作為訓(xùn)練集，剩下的480 張圖片作為測試集。

圖5 課堂行為識別數(shù)據(jù)集圖片示例

3.2 訓(xùn)練殘差網(wǎng)絡(luò)

本文實驗在開源深度學(xué)習(xí)框架TensorFlow 上進(jìn)行，搭載平臺為Anaconda3。實驗所用CPU 為Intel Core i5-8300H，主頻為2.30GHz，可睿頻至3.96GHz，內(nèi)存為8GB，操作系統(tǒng)為Windows 操作系統(tǒng)，顯卡為GTX 1050Ti，顯存4G。

卷積神經(jīng)網(wǎng)絡(luò)擁有強(qiáng)大的擬合能力，能夠?qū)W習(xí)從輸入到輸出的復(fù)雜映射關(guān)系。即使不知道從輸入到輸出的精確數(shù)學(xué)表達(dá)式，卷積神經(jīng)網(wǎng)絡(luò)也能通過對從輸入到輸出之間的特定模式的學(xué)習(xí)，較為準(zhǔn)確地建立兩者間的映射關(guān)系。對卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練一般采用監(jiān)督訓(xùn)練的方法。其訓(xùn)練過程主要分為兩個階段，即前向傳播階段和反向傳播階段。

在前向傳播階段中，為了提高模型準(zhǔn)確率，同時使網(wǎng)絡(luò)迅速收斂，本文先將訓(xùn)練集隨機(jī)打亂，再結(jié)合機(jī)器情況在每一次迭代過程中選擇固定數(shù)量的小批量圖片作為網(wǎng)絡(luò)輸入。輸入經(jīng)過構(gòu)造好的網(wǎng)絡(luò)架構(gòu)逐層向前傳播，最后通過Softmax 分類層輸出對每個行為的識別概率。

在反向傳播階段，首先以交叉熵作為損失函數(shù)計算出誤差值，然后通過Adam 優(yōu)化器[12]使誤差反向傳播，更新網(wǎng)絡(luò)權(quán)重，逐步使得損失函數(shù)接近最優(yōu)值，以優(yōu)化整個網(wǎng)絡(luò)。

另外，本文在對標(biāo)簽類別進(jìn)行編碼時采用One-hot編碼方式，網(wǎng)絡(luò)學(xué)習(xí)率為0.001，在全連接層使用Dropout 技術(shù)[8]，即每次訓(xùn)練時使神經(jīng)元隨機(jī)失活，從而緩解網(wǎng)絡(luò)過擬合，達(dá)到正則化效果。

4 實驗結(jié)果分析

實驗對比了帶有殘差單元的深度殘差網(wǎng)絡(luò)（ResNet）和不帶殘差單元的深度卷積神經(jīng)網(wǎng)絡(luò)（DCNN）在課堂行為識別數(shù)據(jù)集下的表現(xiàn)情況。其中不帶殘差單元的深度神經(jīng)網(wǎng)絡(luò)是指將原殘差網(wǎng)絡(luò)中的Shortcut 連接去掉以后，由其余部分組成的神經(jīng)網(wǎng)絡(luò)。

深度殘差網(wǎng)絡(luò)和深度卷積神經(jīng)網(wǎng)絡(luò)的最終準(zhǔn)確率如圖6 所示。從圖中可以看到，深度殘差網(wǎng)絡(luò)與深度卷積神經(jīng)網(wǎng)絡(luò)相比，泛化準(zhǔn)確率較高，前者的泛化準(zhǔn)確率為89.46%，而后者為91.91%，說明在加入了殘差結(jié)構(gòu)后，網(wǎng)絡(luò)能取得更好的性能。其中，深度殘差網(wǎng)絡(luò)識別準(zhǔn)確率迭代更新細(xì)節(jié)如圖7 所示。

圖6 不同網(wǎng)絡(luò)結(jié)構(gòu)識別準(zhǔn)確率對比

圖7 深度殘差網(wǎng)絡(luò)訓(xùn)練迭代圖

深度殘差網(wǎng)絡(luò)識別出的各個行為的準(zhǔn)確率如表1所示，其中睡覺和看書分別達(dá)到了97.06%、94.12%的較高識別準(zhǔn)確率，而玩手機(jī)、做筆記、上課、東張西望的識別準(zhǔn)確率分別為92.65%、89.71%、91.18%、86.76%。東張西望和上課的識別準(zhǔn)確率都相對較低，經(jīng)分析可能是由于學(xué)生分散坐在教室的各個位置，上課時其頭部會有一定的偏向，導(dǎo)致在數(shù)據(jù)集中，學(xué)生上課的行為與東張西望的行為有一定的相似度，從而致使網(wǎng)絡(luò)誤識別，降低了其識別準(zhǔn)確率。

表1 深度殘差網(wǎng)絡(luò)識別各個行為的準(zhǔn)確率

5 結(jié)語

傳統(tǒng)的機(jī)器學(xué)習(xí)方法識別課堂行為需要復(fù)雜的操作對圖像進(jìn)行特征提取，并且其分類準(zhǔn)確率較低。相比于傳統(tǒng)方法，卷積神經(jīng)網(wǎng)絡(luò)能自動提取圖像特征，根據(jù)從輸入當(dāng)輸出的端到端訓(xùn)練完成網(wǎng)絡(luò)的訓(xùn)練，使網(wǎng)絡(luò)具有識別課堂行為的能力，在提升了準(zhǔn)確率的同時降低了操作復(fù)雜度。然而，隨著網(wǎng)絡(luò)層數(shù)增加，對網(wǎng)絡(luò)的訓(xùn)練會變得更加困難，甚至帶來網(wǎng)絡(luò)性能退化的問題。本文將殘差結(jié)構(gòu)引入卷積神經(jīng)網(wǎng)絡(luò)，提出了一種適用于課堂行為識別的深度殘差網(wǎng)絡(luò)模型，實驗結(jié)果證明了該網(wǎng)絡(luò)相比于深度卷積神經(jīng)網(wǎng)絡(luò)在性能上有更好的表現(xiàn)，但仍存在需要進(jìn)一步研究的地方。首先，本文中收集的課堂行為數(shù)據(jù)還不夠豐富，識別的行為還不夠多，研究成果到實際應(yīng)用還存在一定的距離。其次，網(wǎng)絡(luò)在識別具有細(xì)微差異的行為時準(zhǔn)確率還有待提高。對于這些問題，將在后續(xù)的研究中做進(jìn)一步探討和解決。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡