基于學(xué)生成績回歸預(yù)測的多模型適用性對比研究*

2020-11-02 13:21喻鐵朔李霞甘琤

中國教育信息化·高教職教 2020年9期

喻鐵朔李霞甘琤

摘? ?要：學(xué)生成績預(yù)測是教育數(shù)據(jù)挖掘在教學(xué)實(shí)踐中的一大重點(diǎn)，相比分類成績預(yù)測的單一結(jié)果，回歸成績預(yù)測更能深化預(yù)測在教學(xué)實(shí)踐中的意義。文章基于H2O框架下廣義線性模型（GLM）、深度學(xué)習(xí)（DL）、梯度提升樹（GBT）以及支持向量機(jī)（SVM）四種主流模型進(jìn)行回歸預(yù)測比較研究。從模型預(yù)測精度、預(yù)測結(jié)果對比、預(yù)測誤差分析三個(gè)角度分析4種模型，在不同課程、不同課程屬性下的適用性。結(jié)果表明，DL模型適用于專業(yè)課程，SVM模型適用于公共課程，回歸模型的成績預(yù)測受到離群數(shù)據(jù)影響較大，各模型對離群數(shù)據(jù)解釋能力較弱。

關(guān)鍵詞：學(xué)生成績預(yù)測;回歸模型;多模型對比;誤差分析

中圖分類號：TP301.6 文獻(xiàn)標(biāo)志碼：A 文章編號：1673-8454（2020）17-0023-06

一、引言

在高校的教學(xué)過程中，學(xué)生課程成績是衡量學(xué)生知識(shí)掌握程度和教師教學(xué)質(zhì)量的主要依據(jù)。當(dāng)下，高校信息化建設(shè)逐步轉(zhuǎn)化為智慧校園建設(shè)，在此過程中積累了海量的數(shù)據(jù)，應(yīng)用教育數(shù)據(jù)挖掘方法與數(shù)據(jù)相結(jié)合能夠?qū)崿F(xiàn)學(xué)生未來的成績預(yù)測。周慶等[1]針對EDM（教育數(shù)據(jù)挖掘）的研究特點(diǎn)、不足及發(fā)展趨勢進(jìn)行了歸納，闡述了各類預(yù)測算法的應(yīng)用場景及優(yōu)缺點(diǎn)。利用數(shù)據(jù)挖掘技術(shù)進(jìn)行回歸成績預(yù)測能夠給學(xué)生提供課程學(xué)習(xí)指引、幫助學(xué)生規(guī)避學(xué)業(yè)風(fēng)險(xiǎn)，也能夠?yàn)榻處熀凸芾碚叩慕虒W(xué)重點(diǎn)和管理方案提供決策支持。

目前國內(nèi)外有許多預(yù)測方面的研究，在學(xué)業(yè)預(yù)測方面，Goker H等[2]通過學(xué)生的基本信息與課程信息，應(yīng)用貝葉斯分類方法改進(jìn)早期預(yù)警系統(tǒng)預(yù)測學(xué)生未來學(xué)業(yè)成就，并發(fā)現(xiàn)影響學(xué)生學(xué)業(yè)的主要因素。Francis等[3]將學(xué)生特征分為人口特征、學(xué)術(shù)特征、行為特征和額外特征四個(gè)方面進(jìn)行不同的組合，運(yùn)用聚類算法和分類預(yù)測相結(jié)合的混合算法構(gòu)建學(xué)習(xí)成績預(yù)測模型。劉博鵬等[4]通過動(dòng)態(tài)特征提取和偏互信息（PMI）對學(xué)生特征進(jìn)行選取，并通過交叉驗(yàn)證方法對支持向量機(jī)（SVM）算法進(jìn)行動(dòng)態(tài)參數(shù)調(diào)整后實(shí)現(xiàn)成績預(yù)測。孫力等[5]運(yùn)用C5.0決策樹方法，通過分析網(wǎng)絡(luò)學(xué)歷教育本科生的相關(guān)信息，實(shí)現(xiàn)英語統(tǒng)考的成績預(yù)測，并提出相應(yīng)策略來提高英語學(xué)習(xí)水平和考試通過率。

數(shù)據(jù)挖掘預(yù)測方法在其它領(lǐng)域中應(yīng)用也十分廣泛，張慧玲等[6]針對風(fēng)電場的數(shù)據(jù)特征變化采用三種主流的預(yù)測算法進(jìn)行適應(yīng)性對比研究，通過預(yù)測精度、計(jì)算效率及模型適應(yīng)性比較模型優(yōu)劣勢。李靜等[7]采用BP神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)、LSTM模型針對基因工程領(lǐng)域未來研究熱點(diǎn)趨勢進(jìn)行預(yù)測，并對比分析三種模型的優(yōu)劣。

現(xiàn)階段的EDM研究預(yù)測主要以分類問題為主，預(yù)測模型大多單一且相應(yīng)的分類預(yù)測結(jié)果不能對預(yù)測結(jié)果進(jìn)行有效的分析。在課程成績預(yù)測過程中，預(yù)測課程不同，相應(yīng)模型擬合效果也不同。本文針對上述問題，擬進(jìn)行回歸類型的成績預(yù)測，采用GLM（線性回歸模型）、Deep Learning（深度學(xué)習(xí)）、GBT（梯度提升樹）、SVM（支持向量機(jī)）四種主流的預(yù)測算法分析其在不同課程屬性下的特性。從預(yù)測精度、誤差分析、預(yù)測分布3個(gè)方面對四種算法進(jìn)行比較，針對高校學(xué)生課程成績預(yù)測，選取不同訓(xùn)練樣本，提供合適的預(yù)測算法參考依據(jù)。

二、預(yù)測對比流程

本文基于四種主流的學(xué)生成績回歸預(yù)測方法步驟如下：①從高校教務(wù)數(shù)據(jù)庫中獲取學(xué)生信息;②對抽取的數(shù)據(jù)完成數(shù)據(jù)清洗轉(zhuǎn)換;③對清洗后的數(shù)據(jù)進(jìn)行數(shù)據(jù)預(yù)處理;④進(jìn)行課程特征選擇，選取不同類型課程進(jìn)行預(yù)測;⑤模型應(yīng)用評估，選取合適算法進(jìn)行對比分析，提供適合不同課程的算法。具體算法流程如圖1所示。

1.GLM模型

文章使用H2O（3.8.26版本）框架執(zhí)行GLM模型、DL模型、GBT模型，H2O是開源的、分布式的、基于內(nèi)存的、可擴(kuò)展的機(jī)器學(xué)習(xí)和預(yù)測分析框架。[8]廣義線性模型（GLM）是傳統(tǒng)線性模型的擴(kuò)展。該算法通過使對數(shù)似然值最大來擬合廣義線性模型，彈性凈罰可用于參數(shù)正則化，模型擬合計(jì)算是并行的，速度極快，并且對有限數(shù)量的非零系數(shù)預(yù)測因子的模型具有極好的可伸縮性。廣義線性模型有三個(gè)組成部分——隨機(jī)部分、系統(tǒng)部分和聯(lián)結(jié)函數(shù)。

隨機(jī)部分：屬于指數(shù)分布族的相互獨(dú)立的隨機(jī)變量yi，密度函數(shù)為：

f（yi|θi，φ）=exp（c（yi，φ））（1）

其中θi和φ為參數(shù)，b和c為函數(shù)。yi的期望是μi方差為均值的函數(shù)，則E（yi）=μi=b'（θi），var（yi）=b'（θi）。其中b'（θ）和b''（θ）分別表示函數(shù)b的一階和二階導(dǎo)數(shù)。

系統(tǒng)部分：假設(shè)x1，x2，…，xp為對應(yīng)于y1，y2，…，yn的p維自變的值，存在某線性預(yù)估量η，參數(shù)β1，β2，…，βp的線性函數(shù)有：

η=xTβ=∑p? ?i=1xi βi（2）

聯(lián)結(jié)函數(shù)：聯(lián)結(jié)函數(shù)是指觀測值xi與指數(shù)散布族的期望μi之間的函數(shù)關(guān)系。隨機(jī)部分和系統(tǒng)部分通過ηi=g（μi）連接在一起，g（x）稱為聯(lián)結(jié)函數(shù)。容易得到：

g（μij）=x' ij β，i=1，2，…，p.（3）

其中，β為未知實(shí)參數(shù)，xTi=（xi1，…，xin）表示第i個(gè)觀測向量。

2.Deep Learning模型

在H2O框架中深度學(xué)習(xí)是基于人工神經(jīng)網(wǎng)絡(luò)（ANN），是最常見的深度神經(jīng)網(wǎng)絡(luò)類型，也是H2O-3中唯一支持的類型。[9]該網(wǎng)絡(luò)采用反向傳播的隨機(jī)梯度下降訓(xùn)練，可以包含大量的隱藏層，由具有tanh、整流器和maxout激活功能的神經(jīng)元組成。也可以實(shí)現(xiàn)如自適應(yīng)學(xué)習(xí)率、率退火、動(dòng)量訓(xùn)練、L1或L2正則化和網(wǎng)格搜索，能夠使預(yù)測精度更加準(zhǔn)確。在模型訓(xùn)練過程中，每個(gè)計(jì)算節(jié)點(diǎn)使用多線程（或異步）在其本地?cái)?shù)據(jù)上訓(xùn)練全局模型參數(shù)的副本，并通過網(wǎng)絡(luò)模型定期平均地向全局模型傳輸參數(shù)。

應(yīng)用深度學(xué)習(xí)算法需要設(shè)置激活函數(shù)、分布函數(shù)和損失函數(shù)兩個(gè)重要參數(shù)，在H2O框架中深度學(xué)習(xí)主要使用Tanh（雙曲正切函數(shù)）、Recrified Linear（線性整流器）、Maxout（最大輸出）三種主要激活函數(shù)，文章選用Recrified Linear。

f（α）=max（0，α）（4）

在H2O中常用的分布函數(shù)有AUTO（自適應(yīng)分布）、Multinomial（多項(xiàng)式分布）、Gaussian（高斯分布）、Laplace（拉普拉斯分布）、Huber（霍爾分布）、Poisson（泊松分布）等，每一個(gè)分布都有對應(yīng)的損失函數(shù)。Multinomial分布對應(yīng)交叉熵?fù)p失函數(shù)（cross-entropy loss），Gaussian分布對應(yīng)于均方差損失函數(shù)（Mean Squared Error Loss），Laplace分布對應(yīng)于絕對值損失函數(shù)（Absolute Loss），Huber分布對應(yīng)霍爾損失函數(shù)（Huber Loss），對于Poisson分布等一些函數(shù)損失函數(shù)不能改變，所以損失函數(shù)設(shè)置為AUTO。具體損失函數(shù)如下：

L（w，B|j）=‖tj-oj‖22（5）

3.GBT模型

梯度增強(qiáng)樹模型又可以稱為GBM（梯度增強(qiáng)機(jī)）是回歸或分類樹模型的集合。這兩種方法都是通過逐步改進(jìn)的估計(jì)獲得預(yù)測結(jié)果的前向?qū)W習(xí)集成方法。該方法的指導(dǎo)思想是通過不斷改進(jìn)的近似來獲得良好的預(yù)測結(jié)果。H2O 中構(gòu)建的GBT以完全分布式的方式，在數(shù)據(jù)集的所有特征上依次構(gòu)建回歸樹——其中每棵樹都是并行構(gòu)建的。GMT計(jì)算步驟如下：

輸入訓(xùn)練數(shù)據(jù)（xi，yi），構(gòu)建提升樹模型fM（x），初始化f0（x）=0。對于第m個(gè)基學(xué)習(xí)器，首先計(jì)算梯度：

gm（xi）=f（x）=fm-1（x）（6）

根據(jù)梯度學(xué)習(xí)第m個(gè)學(xué)習(xí)器：

Θ'm=arg min∑N? i=1[-gm（xi）-βmΘ（xi）]2（7）

θ，β

通過line search求取最佳步長：

βm=arg min∑N? i=1L[yi，fm-1（xi）+βmΘ'm（xi）]（8）

令fm=βmΘ'm，更新模型，最后輸出f（xi）：

f（xi）=fm-1+fm（9）

4.SVM模型

SVM（支持向量機(jī)）的算法是一個(gè)易于使用、快速高效的SVM模式識(shí)別和回歸的軟件包。SVM在實(shí)際應(yīng)用中可以分為SVC（支持向量分類）和SVR[10]（支持向量回歸）兩種方法。LIBSVM對于回歸任務(wù)支持epsilon-SVR和nu-SVR實(shí)現(xiàn)。支持向量回歸模型的目標(biāo)是讓訓(xùn)練集中的每個(gè)點(diǎn)（xi，yi）擬合到一個(gè)線性模型，形式如下：

yi=？棕×φ（xi）+b（10）

式中φ（xi）為非線性映射變量，？棕為向量和b偏移量，其次需要定義一個(gè)常量？鄣>0，設(shè)|yi-？棕×φ（xi）-b|為G，對于某個(gè)點(diǎn)（xi，yi），如果G≤？鄣，則完全沒有損失，如果G>？鄣，則對應(yīng)的損失為|G-？鄣|。則SVM回歸模型損失度量為：

err（xi，yi）=? ?0? ? ? ? G≤？鄣G-？鄣? ? G>？鄣（11）

在回歸模型中，設(shè)立優(yōu)化目標(biāo)函數(shù)可以與分類模型相同為||w||2，根據(jù)設(shè)定的損失函數(shù)度量，則最終損失函數(shù)S為：

S=C×■×∑n? ?i=1err（xi，yi）+■||w||2（12）

其中C是支持向量回歸的復(fù)雜度常數(shù)，表示對錯(cuò)誤分類的容忍度，其中較高的C值產(chǎn)生“較軟”的邊界，較低的值產(chǎn)生“較硬”的邊界。在核函數(shù)的選擇上LIBSVM包常采用RBF核函數(shù)，RBF核函數(shù)適用于特征數(shù)量遠(yuǎn)小于樣本數(shù)量的數(shù)據(jù)集。

Kradial（xi，yi）=e-■∑p? ?k=1（xik，xjk）2（13）

三、數(shù)據(jù)預(yù)處理及模型評估方法

1.數(shù)據(jù)

實(shí)現(xiàn)GLM、Deep Learning、GBT、SVM四種預(yù)測模型進(jìn)行對比分析，以某高校計(jì)算機(jī)與通信工程學(xué)院下計(jì)算機(jī)科學(xué)技術(shù)專業(yè)2015級、2016級、2017級三個(gè)年級的大二上、下兩個(gè)學(xué)期的10門考試課程為實(shí)驗(yàn)數(shù)據(jù)。由于高校課程的多樣性，遂剔除學(xué)生的選修課程和考查課程。數(shù)據(jù)集中課程屬性可以分為專業(yè)課程和公共課程，其中專業(yè)課程包括計(jì)算機(jī)組成原理、數(shù)據(jù)庫原理、面向?qū)ο蟪绦蛟O(shè)計(jì)、數(shù)據(jù)邏輯分析與設(shè)計(jì)、計(jì)算機(jī)網(wǎng)絡(luò)、數(shù)據(jù)結(jié)構(gòu);公共課程包括大學(xué)物理、大學(xué)英語讀寫譯Ⅲ、大學(xué)英語讀寫譯Ⅳ、馬克思主義基本原理。

2.數(shù)據(jù)清洗及預(yù)處理

由于從教務(wù)數(shù)據(jù)庫中抽取的數(shù)據(jù)并不能直接應(yīng)用于預(yù)測模型，需要對抽取的數(shù)據(jù)進(jìn)行清洗轉(zhuǎn)換來滿足模型預(yù)測要求的數(shù)據(jù)集，遂對數(shù)據(jù)做如下操作：

（1）數(shù)據(jù)清洗：運(yùn)用Pentaho kettle數(shù)據(jù)倉庫軟件進(jìn)行數(shù)據(jù)清洗。將教務(wù)抽取的數(shù)據(jù)按照年級劃分成三個(gè)子集，對每個(gè)子集進(jìn)行特征篩選、數(shù)據(jù)去重操作，并將數(shù)據(jù)進(jìn)行行列轉(zhuǎn)換形成滿足模型需求的數(shù)據(jù)集樣式，最終按照學(xué)號將三個(gè)子集合并成最終預(yù)測數(shù)據(jù)集。

（2）缺失值處理：對數(shù)據(jù)集進(jìn)行簡單描述性分析，查看數(shù)據(jù)是否存在缺失值。學(xué)生課程數(shù)據(jù)的缺失由學(xué)生休學(xué)、調(diào)換專業(yè)等人為因素組成，且在數(shù)據(jù)集中占比極小，遂對缺失成績樣本進(jìn)行剔除。

（3）建立訓(xùn)練樣本：將樣本數(shù)據(jù)的60%作為訓(xùn)練樣本，另外40%作為測試樣本。

3.模型評價(jià)指標(biāo)

文章從預(yù)測精度、模型適用性兩個(gè)角度對GLM、Deep Learning、GBT、SVM四種預(yù)測模型進(jìn)行評價(jià)分析：

（1）預(yù)測精度：不同模型的預(yù)測結(jié)果的評價(jià)指標(biāo)有均方根誤差（RMSE）、平均絕對誤差（MAE），RSEM用來衡量預(yù)測值與真實(shí)值之間的偏差，MAE可以更好地反映預(yù)測誤差的實(shí)際情況。二者計(jì)算公式如下：

RSME=■（14）

MAE=■∑m? ?i=1（yi-■i）（15）

其中m為樣本數(shù)量，yi為真實(shí)值，■i為預(yù)測值。

（2）模型適用性：運(yùn)用模型精度和數(shù)據(jù)擬合狀況，探索不同課程在不同預(yù)測模型中的預(yù)測誤差的分布差異，判定模型對課程的適用性。

四、結(jié)果分析

1.預(yù)測結(jié)果對比

將四種預(yù)測模型的預(yù)測值與真實(shí)值在40%驗(yàn)證數(shù)據(jù)集中依照專業(yè)課程和公共課程兩種屬性，實(shí)現(xiàn)同一課程不同算法的預(yù)測結(jié)果對比，尋找四種模型的預(yù)測差異。選取專業(yè)課中數(shù)字邏輯分析與設(shè)計(jì)、面向?qū)ο蟪绦蛟O(shè)計(jì)，公共課程中馬克思主義基本原理、大學(xué)物理共四門課程為代表進(jìn)行誤差分析，預(yù)測成績與真實(shí)成績的分布狀況如圖2、3、4、5所示。圖中真實(shí)值是已知的，圖中的每個(gè)點(diǎn)代表一個(gè)特定的預(yù)測值和它的真實(shí)值，黑色虛線為最優(yōu)模型，圖中各數(shù)據(jù)點(diǎn)越接近虛線——黑色虛線，預(yù)測模型越好。圖中陰影區(qū)域和深色線為添加的一條平滑曲線，便于觀測數(shù)據(jù)點(diǎn)的分布趨勢。在高校教學(xué)過程中，認(rèn)定學(xué)生成績在60分以上（包含60分）為及格，依此做兩條淺色虛線為輔助線，按照順時(shí)針方向劃分為四個(gè)區(qū)域，每個(gè)區(qū)域表示了不同的成績分布屬性。區(qū)域1代表了真實(shí)成績在60分以上但預(yù)測成績在60分以下;區(qū)域2代表了真實(shí)成績和預(yù)測成績都在60分以上;區(qū)域3為真實(shí)成績60分以下且預(yù)測成績60分以上。區(qū)域4代表真實(shí)成績和預(yù)測成績都在60分以下。

（1）專業(yè)課程

圖2、3所示為面向?qū)ο蟪绦蛟O(shè)計(jì)、數(shù)字邏輯分析與設(shè)計(jì)的預(yù)測成績與真實(shí)成績的分布狀況，在面向?qū)ο蟪绦蛟O(shè)計(jì)課程中GLM模型擁有最優(yōu)的RSME和MAE，在數(shù)字邏輯分析與設(shè)計(jì)課程中Deep Learning模型擁有最優(yōu)的RSME和MAE。圖中當(dāng)真實(shí)成績小于60分時(shí)，四種模型的成績分布回歸曲線在最佳模型上方，表示預(yù)測成績高于真實(shí)成績;在真實(shí)成績高于60分的區(qū)域數(shù)據(jù)分布回歸曲線在最佳模型下方，表示此部分預(yù)測成績低于真實(shí)成績。有部分?jǐn)?shù)據(jù)點(diǎn)遠(yuǎn)離分布的回歸曲線，表明模型對這些學(xué)生的預(yù)測能力差，預(yù)測相差較大，在專業(yè)課程中預(yù)測成績分布低于真實(shí)成績。

（2）公共課程

圖4為馬克思主義原理的預(yù)測成績與真實(shí)成績的分布狀況，在這門課程中數(shù)據(jù)分布較為集中且預(yù)測成績幾乎都超過60分，數(shù)據(jù)的回歸曲線在最佳模型上方，預(yù)測成績普遍高于真實(shí)成績。圖5為大學(xué)物理課程的成績分布，此門課程中當(dāng)真實(shí)成績小于60分時(shí)，預(yù)測成績?nèi)扛哂谡鎸?shí)成績;當(dāng)真實(shí)成績大于60分時(shí)，預(yù)測成績整體低于真實(shí)成績，類似于專業(yè)課程。

2.預(yù)測誤差分析

對上述四門課程的真實(shí)成績減去預(yù)測成績的差值進(jìn)行描述性統(tǒng)計(jì)分析，基于誤差平均值、中位數(shù)、峰度、偏度等分析誤差分布的特征，兩門專業(yè)課程的誤差描述分析如表1所示。

在專業(yè)課程中誤差均值都大于0，表明模型預(yù)測成績均值低于真實(shí)成績均值。各模型誤差的最大值與最小值誤差較大，在部分極值狀況下模型預(yù)測結(jié)果不理想。在面向?qū)ο蟪煽冊O(shè)計(jì)課程中GLM模型擁有最小的平均值和中位數(shù)，該課程的誤差最大值為35.5，此課程中的四種模型的峰度全部大于0，表明方差的增大是由低頻度的大于或小于平均值的計(jì)算差值引起的;且此課程的偏度大于0，表明分布具有正偏離，有少數(shù)變量值很大，使右側(cè)尾部拖長。在數(shù)字邏輯分析課程中Deep Learning模型的誤差平均值和中位數(shù)最小，四種模型的峰度和偏度都小于0，表明該課程在分布上峰度不足且屬于左偏態(tài)，且四種模型峰度偏度相差較小。

公共課程的誤差描述分析如表2所示，在公共課程中馬克思原理課程的誤差均值小于0且最小值較大，表明在某些極值狀況下該課程預(yù)測成績遠(yuǎn)遠(yuǎn)高出真實(shí)成績。馬克思主義原理在GBT模型擁有最好的誤差均值、標(biāo)準(zhǔn)誤差和中位數(shù)，在分布狀況呈現(xiàn)平峰和左偏態(tài)。在大學(xué)物理課程中SVM模型的誤差均值、標(biāo)準(zhǔn)誤差和中位數(shù)最小，誤差分布產(chǎn)生過度的峰度且呈現(xiàn)左偏態(tài)。大學(xué)物理課程的誤差最小值絕對值高于誤差最大值，但誤差總和為正數(shù)，預(yù)測成績總體低于真實(shí)成績。

3.預(yù)測模型精度

利用上述建立的GLM、Deep Learning、GBT、SVM四種預(yù)測模型對計(jì)算機(jī)科學(xué)與技術(shù)專業(yè)10門課程進(jìn)行預(yù)測，預(yù)測模型評價(jià)指標(biāo)由測試數(shù)據(jù)集進(jìn)行計(jì)算驗(yàn)證，4種模型在相同數(shù)量的訓(xùn)練樣本下的預(yù)測精度如表3所示。

在表3中，字體加粗傾斜代表不同課程在四種預(yù)測模型中的最優(yōu)RSME和MAE。在實(shí)驗(yàn)樣本中預(yù)測精度最好的是Deep Learning模型，其次是SVM預(yù)測模型，而GLM模型和GBT模型預(yù)測性能較為一般。在不同課程屬性中，模型的適用性也有所差別。在專業(yè)課程中Deep Learning模型的預(yù)測精度更好，Deep Learning模型的RSME和MAE最優(yōu)預(yù)測精度次數(shù)最多。在公共課程中SVM算法的預(yù)測精度優(yōu)于Deep Learning模型，在獲得最優(yōu)RSME的同時(shí)MAE也是最優(yōu)。

4.模型適用性建議

利用數(shù)據(jù)挖掘算法對高校學(xué)生進(jìn)行回歸成績預(yù)測的過程中，Deep Learning模型在專業(yè)課程中擁有較好的預(yù)測能力，主要表現(xiàn)在擬合課程間相關(guān)性能力最好;而在公共課程中SVM模型擁有較好的預(yù)測能力，SVM對某些極值的預(yù)測能力優(yōu)勝于其他三種模型，若采用單一算法進(jìn)行回歸成績預(yù)測可以選取SVM模型。GLM在預(yù)測能力上表現(xiàn)一般，主要是在極值的預(yù)測能力上受到限制，若考慮在剔除部分異常的數(shù)據(jù)前提下，GLM模型在專業(yè)課程上預(yù)測能力優(yōu)于Deep Learning。GBT模型在四種回歸模型中性能最低，但GBT模型的運(yùn)行效率最高，且模型預(yù)測成績分布上更擬合正態(tài)分布。在學(xué)生成績回歸預(yù)測過程中，回歸預(yù)測模型對學(xué)生成績數(shù)據(jù)中的離群數(shù)據(jù)的解釋能力較差，在數(shù)據(jù)預(yù)處理階段可以剔除部分離群學(xué)生數(shù)據(jù)。

五、結(jié)語

針對常用的分類模型的成績預(yù)測結(jié)果單一和難以分析的問題，文章采用GLM、Deep Learning、GBT、SVM四種模型進(jìn)行回歸成績預(yù)測，從模型預(yù)測精度、預(yù)測成績與真實(shí)成績分布和誤差分析進(jìn)行對比分析，對各種模型在成績預(yù)測上的適用性給出自己的見解。回歸模型的成績預(yù)測結(jié)果可以進(jìn)一步實(shí)現(xiàn)數(shù)據(jù)統(tǒng)計(jì)分析，能夠詳細(xì)展現(xiàn)預(yù)測學(xué)生成績的狀況，以直觀、清晰、多樣的形式為教師和學(xué)校管理者提供決策支持，也能為學(xué)生學(xué)習(xí)重點(diǎn)提供指導(dǎo)，對提升學(xué)生個(gè)性化教育起到推動(dòng)作用。

參考文獻(xiàn)：

[1]周慶，牟超，楊丹.教育數(shù)據(jù)挖掘研究進(jìn)展綜述[J].軟件學(xué)報(bào)，2015（11）：282-298.

[2]Goker H，Bulbul H I，Irmak E.The Estimation of Students' Academic Success by Data Mining Methods[C].International Conference on Machine Learning & Applications. IEEE Computer Society，2013.

[3]Francis B K，Babu S S.Predicting Academic Performance of Students Using a Hybrid Data Mining Approach[J].Journal of Medical Systems，2019，43（6）：162.

[4]劉博鵬，樊鐵成，楊紅.基于數(shù)據(jù)挖掘技術(shù)的學(xué)生成績預(yù)警應(yīng)用研究[J].四川大學(xué)學(xué)報(bào)（自然科學(xué)版），2019（2）.

[5]孫力，程玉霞.大數(shù)據(jù)時(shí)代網(wǎng)絡(luò)教育學(xué)習(xí)成績預(yù)測的研究與實(shí)現(xiàn)——以本科公共課程統(tǒng)考英語為例[J].開放教育研究，2015（3）.

[6]張慧玲，高小力，劉永前等.三種主流風(fēng)電場功率預(yù)測算法適應(yīng)性對比研究[J].現(xiàn)代電力，2015（6）：7-13.

[7]李靜，徐路路.基于機(jī)器學(xué)習(xí)算法的研究熱點(diǎn)趨勢預(yù)測模型對比與分析——BP神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)與LSTM模型[J].現(xiàn)代情報(bào)，2019（4）：24-34.

[8]H2O.ai.H2O-3框架使用說明[EB/OL].http：//docs.h2o.ai.

[9]Kumar K B S，Krishna G，Bhalaji N，et al.BCI cinematics-A pre-release analyser for movies using H 2 O deep learning platform[J].Computers & Electrical Engineering，2018：S0045790617315318.

[10]林鵬程.預(yù)測鋰電池充電時(shí)間的三段SVR模型[J].電源技術(shù)，2018（8）：67-69，144.

[11]陳德鑫，占袁圓，楊兵.深度學(xué)習(xí)技術(shù)在教育大數(shù)據(jù)挖掘領(lǐng)域的應(yīng)用分析[J].電化教育研究，2019（2）：70-78.

（編輯：王天鵬）

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于學(xué)生成績回歸預(yù)測的多模型適用性對比研究*