基于變分自編碼器和隨機森林的混合式學習風險預警框架

2022-02-03 06:01于海霞王家騏

河北北方學院學報（自然科學版） 2022年11期

于海霞，王家騏

(1.合肥職業(yè)技術(shù)學院信息工程與傳媒學院,安徽合肥 230000;2.安徽大學計算機科學與技術(shù)學院,安徽合肥 230000;3.安徽工貿(mào)職業(yè)技術(shù)學院計算機信息工程系，安徽淮南 232001)

0 引言

隨著在線教育的普及，學習預警[1]研究受到廣泛關(guān)注。Du等[2]提出潛在變分自編碼器模型預測學習成績；周劍等[3]基于BP神經(jīng)網(wǎng)絡(luò)根據(jù)學生提交的作業(yè)情況預測成績；趙磊[4]等針對MOOC平臺的學習數(shù)據(jù)，運用神經(jīng)網(wǎng)絡(luò)預測學生的成績；沈欣憶等[5]通過對學生在線學習行為進行抽樣逐步回歸，以了解學生在線學習行為對其學習績效的影響。然而，現(xiàn)有研究普遍存在兩點不足，一是只對在線學習數(shù)據(jù)預測，而忽略了線下學習數(shù)據(jù)；二是未考慮不平衡樣本數(shù)據(jù)預測誤差問題，不平衡樣本數(shù)據(jù)指在數(shù)據(jù)集中一類或多類的樣本數(shù)量遠遠超過其他類的樣本數(shù)量[6]。教育數(shù)據(jù)屬于不平衡樣本數(shù)據(jù)，傳統(tǒng)分類算法使用不平衡數(shù)據(jù)時的分類結(jié)果性能較差。為了提高預測效果，需要對數(shù)據(jù)進行增強。變分自動編碼器[7](variational autoencoder,VAE)可以用來生成與原始數(shù)據(jù)集相似的新數(shù)據(jù)。An等[8]、Xu等[9]、Chalapathy等[10]、馬波等[11]、常吉亮等[12]證明了VAE在數(shù)據(jù)增強方面的可行性。

為了解決上述問題，提出基于VAE和隨機森林的混合式學習風險預測框架VRFRisk(VAE random forest risk)，框架使用VAE模型處理不平衡數(shù)據(jù)，利用處理后的數(shù)據(jù)集訓練隨機森林分類器，實現(xiàn)混合式學習風險的預測，通過多組對比實驗驗證了所提出的預測框架的有效性。

1 VRFRisk學習風險預警框架構(gòu)建

預警模型架構(gòu)如圖1所示，模型由數(shù)據(jù)采集處理、數(shù)據(jù)增強、模型訓練3部分模塊組成。

圖1 混合學習風險預測框架

1.1 數(shù)據(jù)處理模塊

從線上學習平臺和線下輔助教學平臺中采集所有學生的學習數(shù)據(jù)，得到的數(shù)據(jù)集中包括線上學習行為數(shù)據(jù)和線下課堂學習數(shù)據(jù)，如視頻觀看時長、作業(yè)得分、單元測試成績、發(fā)貼回貼次數(shù)、課堂參與答題率及得分、課堂投稿數(shù)、小組得分、實驗得分等。為了避免不同班級之間學生差異帶來的影響，需要將數(shù)據(jù)進行歸一化處理，使得數(shù)據(jù)具有可比性。

1.2 數(shù)據(jù)增強模塊

對于教育數(shù)據(jù)集，不及格的學生的人數(shù)相對于及格的學生人數(shù)過少，為了提高模型性能，最大化分類精度，需要對數(shù)據(jù)集進行增強處理，增加不及格樣本數(shù)量。利用VAE模型進行數(shù)據(jù)平衡運算，然后對平衡后數(shù)據(jù)進行標準化處理。VAE模型的框架圖如圖2所示。

圖2 VAE模型框架

(1)

(2)

其中公式(2)中的logp(x)根據(jù)全概率定理和貝葉斯定理可以表示為公式(3)：

(3)

公式(3)中的第二項即為q和p的KL散度，即KL(q(z|x)||p(z|x))。用Lb表示公式(3)中的第一項，則公式(3)可以寫為

logp(x)=Lb+KL(q(z|x)||p(z|x))

(4)

因為KL散度大于等于0，所以Lb就是logp(x)的下界，即logp(x)≥Lb。為了讓logp(x)越大，只要讓Lb最大化即可。利用貝葉斯定理對公式(4)進一步變換可得公式(5)：

Lb=-KL(q(z|x)||p(z))+Eq(z|x)(logp(x|z))

(5)

z=μ+ε×σ

(6)

其中，ε從標準正態(tài)分布中采樣。

1.3 模型訓練模塊

隨機森林是目前最常用的一種集成學習算法，相對其它分類算法具有很多優(yōu)勢：模型預測準確率高，即使存在部分數(shù)據(jù)缺失的情況，隨機森林也能保持很高的分類精度，而且它能夠評估各個特征在分類問題上的重要性，對當前研究分析影響學生成績的因素有很大的幫助；對于不平衡的數(shù)據(jù)集來說，隨機森林算法可以平衡誤差；相對其他算法隨機森林算法的運行效率高。

VRFRisk框架的學習風險預測采用隨機森林算法，將平衡后得到的數(shù)據(jù)集輸入到模型訓練模塊進行訓練，并使用網(wǎng)格搜索進行參數(shù)優(yōu)化，最后得到最優(yōu)模型。

1.4 評估指標

用于預警的數(shù)據(jù)集通常是不平衡的，針對不平衡樣本數(shù)據(jù)的特點，僅使用整體查準率(precision)來衡量模型的預測性能是不合適的，由于原始訓練樣本中正類樣本數(shù)量過少，導致在測試時查準率很高但查全率(recall)很低。F1分數(shù)綜合考慮了查準率和查全率，是2個衡量指標的調(diào)和平均。F1分數(shù)和查全率這兩項指標往往能更準確地反映出少量樣本的擴充效果。因此本文選擇查全率和F1分數(shù)作為評價指標。利用混淆矩陣表示不平衡數(shù)據(jù)的分類結(jié)果見表1。

表1 學習風險預測混淆矩陣

根據(jù)表1，可以將各衡量指標的計算公式表示為如公式(7)、公式(8)所示：

(7)

(8)

2 實驗和分析

2.1 實驗數(shù)據(jù)

研究以某高職院校C語言程序設(shè)計課程的學習數(shù)據(jù)構(gòu)建數(shù)據(jù)集。數(shù)據(jù)采集于雨課堂和學習通平臺，其中線上學習數(shù)據(jù)來源于超星學習通平臺，線下學習數(shù)據(jù)來源于雨課堂輔助教學平臺，共采集3個學期每學期615名學生的學習數(shù)據(jù)。對采集數(shù)據(jù)進行梳理匯總，消除相同的語義數(shù)據(jù)和對預測無關(guān)的數(shù)據(jù)后，最后確定21個特征列，各特征內(nèi)容見表2。其中，綜合成績是根據(jù)學習通上的學習成績和雨課堂中的成績按一定比例計算得到。根據(jù)綜合成績的值得到學習風險的值，如果綜合成績大于60，學習風險列的值標記為0，否則標記為1。

表2 數(shù)據(jù)集特征描述

將獲取的數(shù)據(jù)進行整合得到數(shù)據(jù)集共有1 845條數(shù)據(jù)，其中不具有學習風險的樣本(負類)1 640條，具有學習風險的樣本(正類)205條。將得到的樣本按7：3的比例劃分為訓練集和測試集，得到訓練集共1 291條記錄，包含正樣本134條；測試集554條，其中正樣本71條，負樣本483條。在訓練集中，負樣本的數(shù)量是正樣本數(shù)量的9倍之多，根據(jù)不平衡數(shù)據(jù)集的標準，當前的數(shù)據(jù)集是一個高度不平衡數(shù)據(jù)集，如果直接在這個數(shù)據(jù)集上進行訓練模型，那么模型識別出具有學習風險的學生性能會很低，因此，需要進行數(shù)據(jù)增強處理。我們使用VRFRisk框架中的數(shù)據(jù)增強模塊對訓練集進行數(shù)據(jù)增強處理，使得正樣本的數(shù)量與負樣本的數(shù)量相當。

2.2 實驗設(shè)置

VRFRisk框架使用隨機森林作為分類器，其中分類器的評價標準采用信息增益；評估器的數(shù)量范圍從50到150，步長為50；樹的最大深度范圍是從5到20，步長為5；使用網(wǎng)格搜索和5折交叉驗證確定最優(yōu)模型。

2.3 實驗結(jié)果與分析

使用邏輯回歸(logistic regression)，支持向量機(support vector machine)、AdaBoost幾種分類算法作為基線方法，分別使用SMOTE及VAE兩種數(shù)據(jù)增強方法對訓練集進行數(shù)據(jù)平衡處理，然后將數(shù)據(jù)輸入VRFRisk框架和基線方法訓練預測模型，訓練完成后使用測試集進行驗證，各種分類方法和VRFRisk的驗證結(jié)果見表3。

表3 VRFRisk和各種分類算法的驗證結(jié)果對比

表3中前4行的結(jié)果是在原始不平衡訓練集上訓練得到的模型預測結(jié)果，4種分類算法的預測性能表現(xiàn)都很差。中間4行和最后4行是分別使用SMOTE和VAE技術(shù)對原始訓練集進行數(shù)據(jù)平衡處理后訓練模型預測的結(jié)果，很顯然兩種數(shù)據(jù)平衡方法勻有益于預測性能的提升，但相對SMOTE,VAE的效果更勝一籌，尤其是使用隨機森林算法的VRFRisk框架在查全率和F1值上，均高于其他方法。這說明，VRFRisk框架在混合式學習風險預警方面是有效的。

框架運用隨機森林算法對數(shù)據(jù)特征重要性進行分析，按照重要程度進行排序并可視化，如圖3所示。對成績影響最大的前10個學習行為中，包括5個線上行為、4個線下行為和1個階段性考核結(jié)果。與實際相符，線上學習投入時間長，作業(yè)優(yōu)秀，積極參與線上線下教學互動的學生，成績就會比較優(yōu)秀，反之，就可能會存在不及格的學習風險。

圖3 各種特征列對成績影響的重要性

3 結(jié) 論

本研究提出了一種用于混合式學習風險預測的框架VRFRisk，框架使用VAE模型進行數(shù)據(jù)增強處理，以緩解教育數(shù)據(jù)集不平衡情況帶來的預測準確率低的問題；使用隨機森林分類器為具有學習風險的學生提供早期風險預警，使得具有風險的學生能夠及時調(diào)整學習狀態(tài)，教師也可以及時調(diào)整教學策略，從而最大限度保證學習效果。通過與幾種基線算法的對比實驗，證明了框架的有效性；對各特征重要性進行分析，給出各特征對成績影響程度的排序結(jié)果，對學生和教師調(diào)整學習方法與教學指導策略具有一定的現(xiàn)實指導意義。但由于實驗所使用數(shù)據(jù)集數(shù)據(jù)量相對偏小，對預測性能的提升會有一定的影響。缺乏可用公共數(shù)據(jù)集，是學習預警研究工作中普遍面臨的一個難題，因此，整理公共數(shù)據(jù)集，也是未來工作的方向之一。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡