喻鐵朔 李霞 甘琤
摘? ?要:學(xué)生成績預(yù)測是教育數(shù)據(jù)挖掘在教學(xué)實(shí)踐中的一大重點(diǎn),相比分類成績預(yù)測的單一結(jié)果,回歸成績預(yù)測更能深化預(yù)測在教學(xué)實(shí)踐中的意義。文章基于H2O框架下廣義線性模型(GLM)、深度學(xué)習(xí)(DL)、梯度提升樹(GBT)以及支持向量機(jī)(SVM)四種主流模型進(jìn)行回歸預(yù)測比較研究。從模型預(yù)測精度、預(yù)測結(jié)果對比、預(yù)測誤差分析三個(gè)角度分析4種模型,在不同課程、不同課程屬性下的適用性。結(jié)果表明,DL模型適用于專業(yè)課程,SVM模型適用于公共課程,回歸模型的成績預(yù)測受到離群數(shù)據(jù)影響較大,各模型對離群數(shù)據(jù)解釋能力較弱。
關(guān)鍵詞:學(xué)生成績預(yù)測;回歸模型;多模型對比;誤差分析
中圖分類號:TP301.6 文獻(xiàn)標(biāo)志碼:A 文章編號:1673-8454(2020)17-0023-06
一、引言
在高校的教學(xué)過程中,學(xué)生課程成績是衡量學(xué)生知識(shí)掌握程度和教師教學(xué)質(zhì)量的主要依據(jù)。當(dāng)下,高校信息化建設(shè)逐步轉(zhuǎn)化為智慧校園建設(shè),在此過程中積累了海量的數(shù)據(jù),應(yīng)用教育數(shù)據(jù)挖掘方法與數(shù)據(jù)相結(jié)合能夠?qū)崿F(xiàn)學(xué)生未來的成績預(yù)測。周慶等[1]針對EDM(教育數(shù)據(jù)挖掘)的研究特點(diǎn)、不足及發(fā)展趨勢進(jìn)行了歸納,闡述了各類預(yù)測算法的應(yīng)用場景及優(yōu)缺點(diǎn)。利用數(shù)據(jù)挖掘技術(shù)進(jìn)行回歸成績預(yù)測能夠給學(xué)生提供課程學(xué)習(xí)指引、幫助學(xué)生規(guī)避學(xué)業(yè)風(fēng)險(xiǎn),也能夠?yàn)榻處熀凸芾碚叩慕虒W(xué)重點(diǎn)和管理方案提供決策支持。
目前國內(nèi)外有許多預(yù)測方面的研究,在學(xué)業(yè)預(yù)測方面,Goker H等[2]通過學(xué)生的基本信息與課程信息,應(yīng)用貝葉斯分類方法改進(jìn)早期預(yù)警系統(tǒng)預(yù)測學(xué)生未來學(xué)業(yè)成就,并發(fā)現(xiàn)影響學(xué)生學(xué)業(yè)的主要因素。Francis等[3]將學(xué)生特征分為人口特征、學(xué)術(shù)特征、行為特征和額外特征四個(gè)方面進(jìn)行不同的組合,運(yùn)用聚類算法和分類預(yù)測相結(jié)合的混合算法構(gòu)建學(xué)習(xí)成績預(yù)測模型。劉博鵬等[4]通過動(dòng)態(tài)特征提取和偏互信息(PMI)對學(xué)生特征進(jìn)行選取,并通過交叉驗(yàn)證方法對支持向量機(jī)(SVM)算法進(jìn)行動(dòng)態(tài)參數(shù)調(diào)整后實(shí)現(xiàn)成績預(yù)測。孫力等[5]運(yùn)用C5.0決策樹方法,通過分析網(wǎng)絡(luò)學(xué)歷教育本科生的相關(guān)信息,實(shí)現(xiàn)英語統(tǒng)考的成績預(yù)測,并提出相應(yīng)策略來提高英語學(xué)習(xí)水平和考試通過率。
數(shù)據(jù)挖掘預(yù)測方法在其它領(lǐng)域中應(yīng)用也十分廣泛,張慧玲等[6]針對風(fēng)電場的數(shù)據(jù)特征變化采用三種主流的預(yù)測算法進(jìn)行適應(yīng)性對比研究,通過預(yù)測精度、計(jì)算效率及模型適應(yīng)性比較模型優(yōu)劣勢。李靜等[7]采用BP神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)、LSTM模型針對基因工程領(lǐng)域未來研究熱點(diǎn)趨勢進(jìn)行預(yù)測,并對比分析三種模型的優(yōu)劣。
現(xiàn)階段的EDM研究預(yù)測主要以分類問題為主,預(yù)測模型大多單一且相應(yīng)的分類預(yù)測結(jié)果不能對預(yù)測結(jié)果進(jìn)行有效的分析。在課程成績預(yù)測過程中,預(yù)測課程不同,相應(yīng)模型擬合效果也不同。本文針對上述問題,擬進(jìn)行回歸類型的成績預(yù)測,采用GLM(線性回歸模型)、Deep Learning(深度學(xué)習(xí))、GBT(梯度提升樹)、SVM(支持向量機(jī))四種主流的預(yù)測算法分析其在不同課程屬性下的特性。從預(yù)測精度、誤差分析、預(yù)測分布3個(gè)方面對四種算法進(jìn)行比較,針對高校學(xué)生課程成績預(yù)測,選取不同訓(xùn)練樣本,提供合適的預(yù)測算法參考依據(jù)。
二、預(yù)測對比流程
本文基于四種主流的學(xué)生成績回歸預(yù)測方法步驟如下:①從高校教務(wù)數(shù)據(jù)庫中獲取學(xué)生信息;②對抽取的數(shù)據(jù)完成數(shù)據(jù)清洗轉(zhuǎn)換;③對清洗后的數(shù)據(jù)進(jìn)行數(shù)據(jù)預(yù)處理;④進(jìn)行課程特征選擇,選取不同類型課程進(jìn)行預(yù)測;⑤模型應(yīng)用評估,選取合適算法進(jìn)行對比分析,提供適合不同課程的算法。具體算法流程如圖1所示。
1.GLM模型
文章使用H2O(3.8.26版本)框架執(zhí)行GLM模型、DL模型、GBT模型,H2O是開源的、分布式的、基于內(nèi)存的、可擴(kuò)展的機(jī)器學(xué)習(xí)和預(yù)測分析框架。[8]廣義線性模型(GLM)是傳統(tǒng)線性模型的擴(kuò)展。該算法通過使對數(shù)似然值最大來擬合廣義線性模型,彈性凈罰可用于參數(shù)正則化,模型擬合計(jì)算是并行的,速度極快,并且對有限數(shù)量的非零系數(shù)預(yù)測因子的模型具有極好的可伸縮性。廣義線性模型有三個(gè)組成部分——隨機(jī)部分、系統(tǒng)部分和聯(lián)結(jié)函數(shù)。
隨機(jī)部分:屬于指數(shù)分布族的相互獨(dú)立的隨機(jī)變量yi,密度函數(shù)為:
f(yi|θi,φ)=exp(c(yi,φ))(1)
其中θi和φ為參數(shù),b和c為函數(shù)。yi的期望是μi方差為均值的函數(shù),則E(yi)=μi=b'(θi),var(yi)=b'(θi)。其中b'(θ)和b''(θ)分別表示函數(shù)b的一階和二階導(dǎo)數(shù)。
系統(tǒng)部分:假設(shè)x1,x2,…,xp為對應(yīng)于y1,y2,…,yn的p維自變的值,存在某線性預(yù)估量η,參數(shù)β1,β2,…,βp的線性函數(shù)有:
η=xTβ=∑p? ?i=1xi βi(2)
聯(lián)結(jié)函數(shù):聯(lián)結(jié)函數(shù)是指觀測值xi與指數(shù)散布族的期望μi之間的函數(shù)關(guān)系。隨機(jī)部分和系統(tǒng)部分通過ηi=g(μi)連接在一起,g(x)稱為聯(lián)結(jié)函數(shù)。容易得到:
g(μij)=x' ij β,i=1,2,…,p.(3)
其中,β為未知實(shí)參數(shù),xTi=(xi1,…,xin)表示第i個(gè)觀測向量。
2.Deep Learning模型
在H2O框架中深度學(xué)習(xí)是基于人工神經(jīng)網(wǎng)絡(luò)(ANN),是最常見的深度神經(jīng)網(wǎng)絡(luò)類型,也是H2O-3中唯一支持的類型。[9]該網(wǎng)絡(luò)采用反向傳播的隨機(jī)梯度下降訓(xùn)練,可以包含大量的隱藏層,由具有tanh、整流器和maxout激活功能的神經(jīng)元組成。也可以實(shí)現(xiàn)如自適應(yīng)學(xué)習(xí)率、率退火、動(dòng)量訓(xùn)練、L1或L2正則化和網(wǎng)格搜索,能夠使預(yù)測精度更加準(zhǔn)確。在模型訓(xùn)練過程中,每個(gè)計(jì)算節(jié)點(diǎn)使用多線程(或異步)在其本地?cái)?shù)據(jù)上訓(xùn)練全局模型參數(shù)的副本,并通過網(wǎng)絡(luò)模型定期平均地向全局模型傳輸參數(shù)。
應(yīng)用深度學(xué)習(xí)算法需要設(shè)置激活函數(shù)、分布函數(shù)和損失函數(shù)兩個(gè)重要參數(shù),在H2O框架中深度學(xué)習(xí)主要使用Tanh(雙曲正切函數(shù))、Recrified Linear(線性整流器)、Maxout(最大輸出)三種主要激活函數(shù),文章選用Recrified Linear。
f(α)=max(0,α)(4)
在H2O中常用的分布函數(shù)有AUTO(自適應(yīng)分布)、Multinomial(多項(xiàng)式分布)、Gaussian(高斯分布)、Laplace(拉普拉斯分布)、Huber(霍爾分布)、Poisson(泊松分布)等,每一個(gè)分布都有對應(yīng)的損失函數(shù)。Multinomial分布對應(yīng)交叉熵?fù)p失函數(shù)(cross-entropy loss),Gaussian分布對應(yīng)于均方差損失函數(shù)(Mean Squared Error Loss),Laplace分布對應(yīng)于絕對值損失函數(shù)(Absolute Loss),Huber分布對應(yīng)霍爾損失函數(shù)(Huber Loss),對于Poisson分布等一些函數(shù)損失函數(shù)不能改變,所以損失函數(shù)設(shè)置為AUTO。具體損失函數(shù)如下:
L(w,B|j)=‖tj-oj‖22(5)
3.GBT模型
梯度增強(qiáng)樹模型又可以稱為GBM(梯度增強(qiáng)機(jī))是回歸或分類樹模型的集合。這兩種方法都是通過逐步改進(jìn)的估計(jì)獲得預(yù)測結(jié)果的前向?qū)W習(xí)集成方法。該方法的指導(dǎo)思想是通過不斷改進(jìn)的近似來獲得良好的預(yù)測結(jié)果。H2O 中構(gòu)建的GBT以完全分布式的方式,在數(shù)據(jù)集的所有特征上依次構(gòu)建回歸樹——其中每棵樹都是并行構(gòu)建的。GMT計(jì)算步驟如下:
輸入訓(xùn)練數(shù)據(jù)(xi,yi),構(gòu)建提升樹模型fM(x),初始化f0(x)=0。對于第m個(gè)基學(xué)習(xí)器,首先計(jì)算梯度:
gm(xi)=f(x)=fm-1(x)(6)
根據(jù)梯度學(xué)習(xí)第m個(gè)學(xué)習(xí)器:
Θ'm=arg min∑N? i=1[-gm(xi)-βmΘ(xi)]2(7)
θ,β
通過line search求取最佳步長:
βm=arg min∑N? i=1L[yi,fm-1(xi)+βmΘ'm(xi)](8)
β
令fm=βmΘ'm,更新模型,最后輸出f(xi):
f(xi)=fm-1+fm(9)
4.SVM模型
SVM(支持向量機(jī))的算法是一個(gè)易于使用、快速高效的SVM模式識(shí)別和回歸的軟件包。SVM在實(shí)際應(yīng)用中可以分為SVC(支持向量分類)和SVR[10](支持向量回歸)兩種方法。LIBSVM對于回歸任務(wù)支持epsilon-SVR和nu-SVR實(shí)現(xiàn)。支持向量回歸模型的目標(biāo)是讓訓(xùn)練集中的每個(gè)點(diǎn)(xi,yi)擬合到一個(gè)線性模型,形式如下:
yi=?棕×φ(xi)+b(10)
式中φ(xi)為非線性映射變量,?棕為向量和b偏移量,其次需要定義一個(gè)常量?鄣>0,設(shè)|yi-?棕×φ(xi)-b|為G,對于某個(gè)點(diǎn)(xi,yi),如果G≤?鄣,則完全沒有損失,如果G>?鄣,則對應(yīng)的損失為|G-?鄣|。則SVM回歸模型損失度量為:
err(xi,yi)=? ?0? ? ? ? G≤?鄣G-?鄣? ? G>?鄣(11)
在回歸模型中,設(shè)立優(yōu)化目標(biāo)函數(shù)可以與分類模型相同為||w||2,根據(jù)設(shè)定的損失函數(shù)度量,則最終損失函數(shù)S為:
S=C×■×∑n? ?i=1err(xi,yi)+■||w||2(12)
其中C是支持向量回歸的復(fù)雜度常數(shù),表示對錯(cuò)誤分類的容忍度,其中較高的C值產(chǎn)生“較軟”的邊界,較低的值產(chǎn)生“較硬”的邊界。在核函數(shù)的選擇上LIBSVM包常采用RBF核函數(shù),RBF核函數(shù)適用于特征數(shù)量遠(yuǎn)小于樣本數(shù)量的數(shù)據(jù)集。
Kradial(xi,yi)=e-■∑p? ?k=1(xik,xjk)2(13)
三、數(shù)據(jù)預(yù)處理及模型評估方法
1.數(shù)據(jù)
實(shí)現(xiàn)GLM、Deep Learning、GBT、SVM四種預(yù)測模型進(jìn)行對比分析,以某高校計(jì)算機(jī)與通信工程學(xué)院下計(jì)算機(jī)科學(xué)技術(shù)專業(yè)2015級、2016級、2017級三個(gè)年級的大二上、下兩個(gè)學(xué)期的10門考試課程為實(shí)驗(yàn)數(shù)據(jù)。由于高校課程的多樣性,遂剔除學(xué)生的選修課程和考查課程。數(shù)據(jù)集中課程屬性可以分為專業(yè)課程和公共課程,其中專業(yè)課程包括計(jì)算機(jī)組成原理、數(shù)據(jù)庫原理、面向?qū)ο蟪绦蛟O(shè)計(jì)、數(shù)據(jù)邏輯分析與設(shè)計(jì)、計(jì)算機(jī)網(wǎng)絡(luò)、數(shù)據(jù)結(jié)構(gòu);公共課程包括大學(xué)物理、大學(xué)英語讀寫譯Ⅲ、大學(xué)英語讀寫譯Ⅳ、馬克思主義基本原理。
2.數(shù)據(jù)清洗及預(yù)處理
由于從教務(wù)數(shù)據(jù)庫中抽取的數(shù)據(jù)并不能直接應(yīng)用于預(yù)測模型,需要對抽取的數(shù)據(jù)進(jìn)行清洗轉(zhuǎn)換來滿足模型預(yù)測要求的數(shù)據(jù)集,遂對數(shù)據(jù)做如下操作:
(1)數(shù)據(jù)清洗:運(yùn)用Pentaho kettle數(shù)據(jù)倉庫軟件進(jìn)行數(shù)據(jù)清洗。將教務(wù)抽取的數(shù)據(jù)按照年級劃分成三個(gè)子集,對每個(gè)子集進(jìn)行特征篩選、數(shù)據(jù)去重操作,并將數(shù)據(jù)進(jìn)行行列轉(zhuǎn)換形成滿足模型需求的數(shù)據(jù)集樣式,最終按照學(xué)號將三個(gè)子集合并成最終預(yù)測數(shù)據(jù)集。
(2)缺失值處理:對數(shù)據(jù)集進(jìn)行簡單描述性分析,查看數(shù)據(jù)是否存在缺失值。學(xué)生課程數(shù)據(jù)的缺失由學(xué)生休學(xué)、調(diào)換專業(yè)等人為因素組成,且在數(shù)據(jù)集中占比極小,遂對缺失成績樣本進(jìn)行剔除。
(3)建立訓(xùn)練樣本:將樣本數(shù)據(jù)的60%作為訓(xùn)練樣本,另外40%作為測試樣本。
3.模型評價(jià)指標(biāo)
文章從預(yù)測精度、模型適用性兩個(gè)角度對GLM、Deep Learning、GBT、SVM四種預(yù)測模型進(jìn)行評價(jià)分析:
(1)預(yù)測精度:不同模型的預(yù)測結(jié)果的評價(jià)指標(biāo)有均方根誤差(RMSE)、平均絕對誤差(MAE),RSEM用來衡量預(yù)測值與真實(shí)值之間的偏差,MAE可以更好地反映預(yù)測誤差的實(shí)際情況。二者計(jì)算公式如下:
RSME=■(14)
MAE=■∑m? ?i=1(yi-■i)(15)
其中m為樣本數(shù)量,yi為真實(shí)值,■i為預(yù)測值。
(2)模型適用性:運(yùn)用模型精度和數(shù)據(jù)擬合狀況,探索不同課程在不同預(yù)測模型中的預(yù)測誤差的分布差異,判定模型對課程的適用性。
四、結(jié)果分析
1.預(yù)測結(jié)果對比
將四種預(yù)測模型的預(yù)測值與真實(shí)值在40%驗(yàn)證數(shù)據(jù)集中依照專業(yè)課程和公共課程兩種屬性,實(shí)現(xiàn)同一課程不同算法的預(yù)測結(jié)果對比,尋找四種模型的預(yù)測差異。選取專業(yè)課中數(shù)字邏輯分析與設(shè)計(jì)、面向?qū)ο蟪绦蛟O(shè)計(jì),公共課程中馬克思主義基本原理、大學(xué)物理共四門課程為代表進(jìn)行誤差分析,預(yù)測成績與真實(shí)成績的分布狀況如圖2、3、4、5所示。圖中真實(shí)值是已知的,圖中的每個(gè)點(diǎn)代表一個(gè)特定的預(yù)測值和它的真實(shí)值,黑色虛線為最優(yōu)模型,圖中各數(shù)據(jù)點(diǎn)越接近虛線——黑色虛線,預(yù)測模型越好。圖中陰影區(qū)域和深色線為添加的一條平滑曲線,便于觀測數(shù)據(jù)點(diǎn)的分布趨勢。在高校教學(xué)過程中,認(rèn)定學(xué)生成績在60分以上(包含60分)為及格,依此做兩條淺色虛線為輔助線,按照順時(shí)針方向劃分為四個(gè)區(qū)域,每個(gè)區(qū)域表示了不同的成績分布屬性。區(qū)域1代表了真實(shí)成績在60分以上但預(yù)測成績在60分以下;區(qū)域2代表了真實(shí)成績和預(yù)測成績都在60分以上;區(qū)域3為真實(shí)成績60分以下且預(yù)測成績60分以上。區(qū)域4代表真實(shí)成績和預(yù)測成績都在60分以下。
(1)專業(yè)課程
圖2、3所示為面向?qū)ο蟪绦蛟O(shè)計(jì)、數(shù)字邏輯分析與設(shè)計(jì)的預(yù)測成績與真實(shí)成績的分布狀況,在面向?qū)ο蟪绦蛟O(shè)計(jì)課程中GLM模型擁有最優(yōu)的RSME和MAE,在數(shù)字邏輯分析與設(shè)計(jì)課程中Deep Learning模型擁有最優(yōu)的RSME和MAE。圖中當(dāng)真實(shí)成績小于60分時(shí),四種模型的成績分布回歸曲線在最佳模型上方,表示預(yù)測成績高于真實(shí)成績;在真實(shí)成績高于60分的區(qū)域數(shù)據(jù)分布回歸曲線在最佳模型下方,表示此部分預(yù)測成績低于真實(shí)成績。有部分?jǐn)?shù)據(jù)點(diǎn)遠(yuǎn)離分布的回歸曲線,表明模型對這些學(xué)生的預(yù)測能力差,預(yù)測相差較大,在專業(yè)課程中預(yù)測成績分布低于真實(shí)成績。
(2)公共課程
圖4為馬克思主義原理的預(yù)測成績與真實(shí)成績的分布狀況,在這門課程中數(shù)據(jù)分布較為集中且預(yù)測成績幾乎都超過60分,數(shù)據(jù)的回歸曲線在最佳模型上方,預(yù)測成績普遍高于真實(shí)成績。圖5為大學(xué)物理課程的成績分布,此門課程中當(dāng)真實(shí)成績小于60分時(shí),預(yù)測成績?nèi)扛哂谡鎸?shí)成績;當(dāng)真實(shí)成績大于60分時(shí),預(yù)測成績整體低于真實(shí)成績,類似于專業(yè)課程。
2.預(yù)測誤差分析
對上述四門課程的真實(shí)成績減去預(yù)測成績的差值進(jìn)行描述性統(tǒng)計(jì)分析,基于誤差平均值、中位數(shù)、峰度、偏度等分析誤差分布的特征,兩門專業(yè)課程的誤差描述分析如表1所示。
在專業(yè)課程中誤差均值都大于0,表明模型預(yù)測成績均值低于真實(shí)成績均值。各模型誤差的最大值與最小值誤差較大,在部分極值狀況下模型預(yù)測結(jié)果不理想。在面向?qū)ο蟪煽冊O(shè)計(jì)課程中GLM模型擁有最小的平均值和中位數(shù),該課程的誤差最大值為35.5,此課程中的四種模型的峰度全部大于0,表明方差的增大是由低頻度的大于或小于平均值的計(jì)算差值引起的;且此課程的偏度大于0,表明分布具有正偏離,有少數(shù)變量值很大,使右側(cè)尾部拖長。在數(shù)字邏輯分析課程中Deep Learning模型的誤差平均值和中位數(shù)最小,四種模型的峰度和偏度都小于0,表明該課程在分布上峰度不足且屬于左偏態(tài),且四種模型峰度偏度相差較小。
公共課程的誤差描述分析如表2所示,在公共課程中馬克思原理課程的誤差均值小于0且最小值較大,表明在某些極值狀況下該課程預(yù)測成績遠(yuǎn)遠(yuǎn)高出真實(shí)成績。馬克思主義原理在GBT模型擁有最好的誤差均值、標(biāo)準(zhǔn)誤差和中位數(shù),在分布狀況呈現(xiàn)平峰和左偏態(tài)。在大學(xué)物理課程中SVM模型的誤差均值、標(biāo)準(zhǔn)誤差和中位數(shù)最小,誤差分布產(chǎn)生過度的峰度且呈現(xiàn)左偏態(tài)。大學(xué)物理課程的誤差最小值絕對值高于誤差最大值,但誤差總和為正數(shù),預(yù)測成績總體低于真實(shí)成績。
3.預(yù)測模型精度
利用上述建立的GLM、Deep Learning、GBT、SVM四種預(yù)測模型對計(jì)算機(jī)科學(xué)與技術(shù)專業(yè)10門課程進(jìn)行預(yù)測,預(yù)測模型評價(jià)指標(biāo)由測試數(shù)據(jù)集進(jìn)行計(jì)算驗(yàn)證,4種模型在相同數(shù)量的訓(xùn)練樣本下的預(yù)測精度如表3所示。
在表3中,字體加粗傾斜代表不同課程在四種預(yù)測模型中的最優(yōu)RSME和MAE。在實(shí)驗(yàn)樣本中預(yù)測精度最好的是Deep Learning模型,其次是SVM預(yù)測模型,而GLM模型和GBT模型預(yù)測性能較為一般。在不同課程屬性中,模型的適用性也有所差別。在專業(yè)課程中Deep Learning模型的預(yù)測精度更好,Deep Learning模型的RSME和MAE最優(yōu)預(yù)測精度次數(shù)最多。在公共課程中SVM算法的預(yù)測精度優(yōu)于Deep Learning模型,在獲得最優(yōu)RSME的同時(shí)MAE也是最優(yōu)。
4.模型適用性建議
利用數(shù)據(jù)挖掘算法對高校學(xué)生進(jìn)行回歸成績預(yù)測的過程中,Deep Learning模型在專業(yè)課程中擁有較好的預(yù)測能力,主要表現(xiàn)在擬合課程間相關(guān)性能力最好;而在公共課程中SVM模型擁有較好的預(yù)測能力,SVM對某些極值的預(yù)測能力優(yōu)勝于其他三種模型,若采用單一算法進(jìn)行回歸成績預(yù)測可以選取SVM模型。GLM在預(yù)測能力上表現(xiàn)一般,主要是在極值的預(yù)測能力上受到限制,若考慮在剔除部分異常的數(shù)據(jù)前提下,GLM模型在專業(yè)課程上預(yù)測能力優(yōu)于Deep Learning。GBT模型在四種回歸模型中性能最低,但GBT模型的運(yùn)行效率最高,且模型預(yù)測成績分布上更擬合正態(tài)分布。在學(xué)生成績回歸預(yù)測過程中,回歸預(yù)測模型對學(xué)生成績數(shù)據(jù)中的離群數(shù)據(jù)的解釋能力較差,在數(shù)據(jù)預(yù)處理階段可以剔除部分離群學(xué)生數(shù)據(jù)。
五、結(jié)語
針對常用的分類模型的成績預(yù)測結(jié)果單一和難以分析的問題,文章采用GLM、Deep Learning、GBT、SVM四種模型進(jìn)行回歸成績預(yù)測,從模型預(yù)測精度、預(yù)測成績與真實(shí)成績分布和誤差分析進(jìn)行對比分析,對各種模型在成績預(yù)測上的適用性給出自己的見解。回歸模型的成績預(yù)測結(jié)果可以進(jìn)一步實(shí)現(xiàn)數(shù)據(jù)統(tǒng)計(jì)分析,能夠詳細(xì)展現(xiàn)預(yù)測學(xué)生成績的狀況,以直觀、清晰、多樣的形式為教師和學(xué)校管理者提供決策支持,也能為學(xué)生學(xué)習(xí)重點(diǎn)提供指導(dǎo),對提升學(xué)生個(gè)性化教育起到推動(dòng)作用。
參考文獻(xiàn):
[1]周慶,牟超,楊丹.教育數(shù)據(jù)挖掘研究進(jìn)展綜述[J].軟件學(xué)報(bào),2015(11):282-298.
[2]Goker H,Bulbul H I,Irmak E.The Estimation of Students' Academic Success by Data Mining Methods[C].International Conference on Machine Learning & Applications. IEEE Computer Society,2013.
[3]Francis B K,Babu S S.Predicting Academic Performance of Students Using a Hybrid Data Mining Approach[J].Journal of Medical Systems,2019,43(6):162.
[4]劉博鵬,樊鐵成,楊紅.基于數(shù)據(jù)挖掘技術(shù)的學(xué)生成績預(yù)警應(yīng)用研究[J].四川大學(xué)學(xué)報(bào)(自然科學(xué)版),2019(2).
[5]孫力,程玉霞.大數(shù)據(jù)時(shí)代網(wǎng)絡(luò)教育學(xué)習(xí)成績預(yù)測的研究與實(shí)現(xiàn)——以本科公共課程統(tǒng)考英語為例[J].開放教育研究,2015(3).
[6]張慧玲,高小力,劉永前等.三種主流風(fēng)電場功率預(yù)測算法適應(yīng)性對比研究[J].現(xiàn)代電力,2015(6):7-13.
[7]李靜,徐路路.基于機(jī)器學(xué)習(xí)算法的研究熱點(diǎn)趨勢預(yù)測模型對比與分析——BP神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)與LSTM模型[J].現(xiàn)代情報(bào),2019(4):24-34.
[8]H2O.ai.H2O-3框架使用說明[EB/OL].http://docs.h2o.ai.
[9]Kumar K B S,Krishna G,Bhalaji N,et al.BCI cinematics-A pre-release analyser for movies using H 2 O deep learning platform[J].Computers & Electrical Engineering,2018:S0045790617315318.
[10]林鵬程.預(yù)測鋰電池充電時(shí)間的三段SVR模型[J].電源技術(shù),2018(8):67-69,144.
[11]陳德鑫,占袁圓,楊兵.深度學(xué)習(xí)技術(shù)在教育大數(shù)據(jù)挖掘領(lǐng)域的應(yīng)用分析[J].電化教育研究,2019(2):70-78.
(編輯:王天鵬)