于海霞,王家騏
(1.合肥職業(yè)技術(shù)學院 信息工程與傳媒學院,安徽 合肥 230000;2.安徽大學 計算機科學與技術(shù)學院,安徽 合肥 230000;3.安徽工貿(mào)職業(yè)技術(shù)學院 計算機信息工程系,安徽 淮南 232001)
隨著在線教育的普及,學習預警[1]研究受到廣泛關(guān)注。Du等[2]提出潛在變分自編碼器模型預測學習成績;周劍等[3]基于BP神經(jīng)網(wǎng)絡(luò)根據(jù)學生提交的作業(yè)情況預測成績;趙磊[4]等針對MOOC平臺的學習數(shù)據(jù),運用神經(jīng)網(wǎng)絡(luò)預測學生的成績;沈欣憶等[5]通過對學生在線學習行為進行抽樣逐步回歸,以了解學生在線學習行為對其學習績效的影響。然而,現(xiàn)有研究普遍存在兩點不足,一是只對在線學習數(shù)據(jù)預測,而忽略了線下學習數(shù)據(jù);二是未考慮不平衡樣本數(shù)據(jù)預測誤差問題,不平衡樣本數(shù)據(jù)指在數(shù)據(jù)集中一類或多類的樣本數(shù)量遠遠超過其他類的樣本數(shù)量[6]。教育數(shù)據(jù)屬于不平衡樣本數(shù)據(jù),傳統(tǒng)分類算法使用不平衡數(shù)據(jù)時的分類結(jié)果性能較差。為了提高預測效果,需要對數(shù)據(jù)進行增強。變分自動編碼器[7](variational autoencoder,VAE)可以用來生成與原始數(shù)據(jù)集相似的新數(shù)據(jù)。An等[8]、Xu等[9]、Chalapathy等[10]、馬波等[11]、常吉亮等[12]證明了VAE在數(shù)據(jù)增強方面的可行性。
為了解決上述問題,提出基于VAE和隨機森林的混合式學習風險預測框架VRFRisk(VAE random forest risk),框架使用VAE模型處理不平衡數(shù)據(jù),利用處理后的數(shù)據(jù)集訓練隨機森林分類器,實現(xiàn)混合式學習風險的預測,通過多組對比實驗驗證了所提出的預測框架的有效性。
預警模型架構(gòu)如圖1所示,模型由數(shù)據(jù)采集處理、數(shù)據(jù)增強、模型訓練3部分模塊組成。
圖1 混合學習風險預測框架
從線上學習平臺和線下輔助教學平臺中采集所有學生的學習數(shù)據(jù),得到的數(shù)據(jù)集中包括線上學習行為數(shù)據(jù)和線下課堂學習數(shù)據(jù),如視頻觀看時長、作業(yè)得分、單元測試成績、發(fā)貼回貼次數(shù)、課堂參與答題率及得分、課堂投稿數(shù)、小組得分、實驗得分等。為了避免不同班級之間學生差異帶來的影響,需要將數(shù)據(jù)進行歸一化處理,使得數(shù)據(jù)具有可比性。
對于教育數(shù)據(jù)集,不及格的學生的人數(shù)相對于及格的學生人數(shù)過少,為了提高模型性能,最大化分類精度,需要對數(shù)據(jù)集進行增強處理,增加不及格樣本數(shù)量。利用VAE模型進行數(shù)據(jù)平衡運算,然后對平衡后數(shù)據(jù)進行標準化處理。VAE模型的框架圖如圖2所示。
圖2 VAE模型框架
(1)
其中z是遵循標準正態(tài)分布潛在空間采樣的隱向量,條件分布p(x|z)是具有均值μ(z)和方差σ(z)的高斯分布,p(z)是p(x|z)的權(quán)重。若希望生成的樣本與原始樣本具有相同的特征分布,p(x|z)應該最大化數(shù)據(jù)集中每個樣本的概率p(x),這等價于求解關(guān)于x最大對數(shù)似然,即公式(2)所示。為了實現(xiàn)這個目標,VAE需要根據(jù)給定的樣本x,通過神經(jīng)網(wǎng)絡(luò)學習最優(yōu)潛在高斯分布q(z|x),使得p(x|z)可以代替q(z|x)。
(2)
其中公式(2)中的logp(x)根據(jù)全概率定理和貝葉斯定理可以表示為公式(3):
(3)
公式(3)中的第二項即為q和p的KL散度,即KL(q(z|x)||p(z|x))。用Lb表示公式(3)中的第一項,則公式(3)可以寫為
logp(x)=Lb+KL(q(z|x)||p(z|x))
(4)
因為KL散度大于等于0,所以Lb就是logp(x)的下界,即logp(x)≥Lb。為了讓logp(x)越大,只要讓Lb最大化即可。利用貝葉斯定理對公式(4)進一步變換可得公式(5):
Lb=-KL(q(z|x)||p(z))+Eq(z|x)(logp(x|z))
(5)
z=μ+ε×σ
(6)
其中,ε從標準正態(tài)分布中采樣。
隨機森林是目前最常用的一種集成學習算法,相對其它分類算法具有很多優(yōu)勢:模型預測準確率高,即使存在部分數(shù)據(jù)缺失的情況,隨機森林也能保持很高的分類精度,而且它能夠評估各個特征在分類問題上的重要性,對當前研究分析影響學生成績的因素有很大的幫助;對于不平衡的數(shù)據(jù)集來說,隨機森林算法可以平衡誤差;相對其他算法隨機森林算法的運行效率高。
VRFRisk框架的學習風險預測采用隨機森林算法,將平衡后得到的數(shù)據(jù)集輸入到模型訓練模塊進行訓練,并使用網(wǎng)格搜索進行參數(shù)優(yōu)化,最后得到最優(yōu)模型。
用于預警的數(shù)據(jù)集通常是不平衡的,針對不平衡樣本數(shù)據(jù)的特點,僅使用整體查準率(precision)來衡量模型的預測性能是不合適的,由于原始訓練樣本中正類樣本數(shù)量過少,導致在測試時查準率很高但查全率(recall)很低。F1分數(shù)綜合考慮了查準率和查全率,是2個衡量指標的調(diào)和平均。F1分數(shù)和查全率這兩項指標往往能更準確地反映出少量樣本的擴充效果。因此本文選擇查全率和F1分數(shù)作為評價指標。利用混淆矩陣表示不平衡數(shù)據(jù)的分類結(jié)果見表1。
表1 學習風險預測混淆矩陣
根據(jù)表1,可以將各衡量指標的計算公式表示為如公式(7)、公式(8)所示:
(7)
(8)
研究以某高職院校C語言程序設(shè)計課程的學習數(shù)據(jù)構(gòu)建數(shù)據(jù)集。數(shù)據(jù)采集于雨課堂和學習通平臺,其中線上學習數(shù)據(jù)來源于超星學習通平臺,線下學習數(shù)據(jù)來源于雨課堂輔助教學平臺,共采集3個學期每學期615名學生的學習數(shù)據(jù)。對采集數(shù)據(jù)進行梳理匯總,消除相同的語義數(shù)據(jù)和對預測無關(guān)的數(shù)據(jù)后,最后確定21個特征列,各特征內(nèi)容見表2。其中,綜合成績是根據(jù)學習通上的學習成績和雨課堂中的成績按一定比例計算得到。根據(jù)綜合成績的值得到學習風險的值,如果綜合成績大于60,學習風險列的值標記為0,否則標記為1。
表2 數(shù)據(jù)集特征描述
將獲取的數(shù)據(jù)進行整合得到數(shù)據(jù)集共有1 845條數(shù)據(jù),其中不具有學習風險的樣本(負類)1 640條,具有學習風險的樣本(正類)205條。將得到的樣本按7:3的比例劃分為訓練集和測試集,得到訓練集共1 291條記錄,包含正樣本134條;測試集554條,其中正樣本71條,負樣本483條。在訓練集中,負樣本的數(shù)量是正樣本數(shù)量的9倍之多,根據(jù)不平衡數(shù)據(jù)集的標準,當前的數(shù)據(jù)集是一個高度不平衡數(shù)據(jù)集,如果直接在這個數(shù)據(jù)集上進行訓練模型,那么模型識別出具有學習風險的學生性能會很低,因此,需要進行數(shù)據(jù)增強處理。我們使用VRFRisk框架中的數(shù)據(jù)增強模塊對訓練集進行數(shù)據(jù)增強處理,使得正樣本的數(shù)量與負樣本的數(shù)量相當。
VRFRisk框架使用隨機森林作為分類器,其中分類器的評價標準采用信息增益;評估器的數(shù)量范圍從50到150,步長為50;樹的最大深度范圍是從5到20,步長為5;使用網(wǎng)格搜索和5折交叉驗證確定最優(yōu)模型。
使用邏輯回歸(logistic regression),支持向量機(support vector machine)、AdaBoost幾種分類算法作為基線方法,分別使用SMOTE及VAE兩種數(shù)據(jù)增強方法對訓練集進行數(shù)據(jù)平衡處理,然后將數(shù)據(jù)輸入VRFRisk框架和基線方法訓練預測模型,訓練完成后使用測試集進行驗證,各種分類方法和VRFRisk的驗證結(jié)果見表3。
表3 VRFRisk和各種分類算法的驗證結(jié)果對比
表3中前4行的結(jié)果是在原始不平衡訓練集上訓練得到的模型預測結(jié)果,4種分類算法的預測性能表現(xiàn)都很差。中間4行和最后4行是分別使用SMOTE和VAE技術(shù)對原始訓練集進行數(shù)據(jù)平衡處理后訓練模型預測的結(jié)果,很顯然兩種數(shù)據(jù)平衡方法勻有益于預測性能的提升,但相對SMOTE,VAE的效果更勝一籌,尤其是使用隨機森林算法的VRFRisk框架在查全率和F1值上,均高于其他方法。這說明,VRFRisk框架在混合式學習風險預警方面是有效的。
框架運用隨機森林算法對數(shù)據(jù)特征重要性進行分析,按照重要程度進行排序并可視化,如圖3所示。對成績影響最大的前10個學習行為中,包括5個線上行為、4個線下行為和1個階段性考核結(jié)果。與實際相符,線上學習投入時間長,作業(yè)優(yōu)秀,積極參與線上線下教學互動的學生,成績就會比較優(yōu)秀,反之,就可能會存在不及格的學習風險。
圖3 各種特征列對成績影響的重要性
本研究提出了一種用于混合式學習風險預測的框架VRFRisk,框架使用VAE模型進行數(shù)據(jù)增強處理,以緩解教育數(shù)據(jù)集不平衡情況帶來的預測準確率低的問題;使用隨機森林分類器為具有學習風險的學生提供早期風險預警,使得具有風險的學生能夠及時調(diào)整學習狀態(tài),教師也可以及時調(diào)整教學策略,從而最大限度保證學習效果。通過與幾種基線算法的對比實驗,證明了框架的有效性;對各特征重要性進行分析,給出各特征對成績影響程度的排序結(jié)果,對學生和教師調(diào)整學習方法與教學指導策略具有一定的現(xiàn)實指導意義。但由于實驗所使用數(shù)據(jù)集數(shù)據(jù)量相對偏小,對預測性能的提升會有一定的影響。缺乏可用公共數(shù)據(jù)集,是學習預警研究工作中普遍面臨的一個難題,因此,整理公共數(shù)據(jù)集,也是未來工作的方向之一。