錢濤
摘??要:教育數(shù)據(jù)挖掘是數(shù)據(jù)挖掘中的重要領(lǐng)域之一,其中成績預(yù)測是研究的重點(diǎn)內(nèi)容,
成績數(shù)據(jù)是學(xué)生學(xué)習(xí)行為的重要反映?;跀?shù)據(jù)挖掘技術(shù),通過采集學(xué)生的基本信息、圖書借閱、消費(fèi)行為、門禁數(shù)據(jù)等各類數(shù)據(jù),挖掘行為特征與學(xué)習(xí)成績之間的關(guān)聯(lián)性,構(gòu)建基于學(xué)生行為數(shù)據(jù)的成績預(yù)測模型。以達(dá)到對學(xué)生異常情況的早期預(yù)警,優(yōu)化教學(xué)實(shí)施過程,以促進(jìn)學(xué)校對不同類群學(xué)生培養(yǎng)、引導(dǎo)和管理工作。
關(guān)鍵詞:隨機(jī)森林?成績預(yù)測?R語言?數(shù)據(jù)挖掘
中圖分類號:G434;TP18
Realization?of?Student?Grade?Prediction?Based?on?the?Random?Forest?Algorithm
QIAN?Tao
(Zhejiang?Agricultural?Business?College,Shaoxing,Zhejiang?Province,312088?China)
Abstract:?Educational?data?mining?is?one?of?the?important?fields?in?data?mining,?and?grade?prediction?is?its?key?research?content.?Grade?data?is?an?important?reflection?of?students'?learning?behavior.?Based?on?data?mining?technology,?this?paper?explores?the?correlation?between?behavioral?characteristics?and?academic?performance?by?collecting?various?data?such?as?students'?basic?information,?book?borrowing,?consumption?behavior?and?access?control?data,?and?builds?a?grade?prediction?model?based?on?student?behavior?data,?in?order?to?achieve?the?early?warning?of?the?abnormal?situation?of?students,?optimize?the?teaching?implementation?process,?and?promote?the?training,?guidance?and?management?of?different?groups?of?students.
Key?Words:?Random?forest;?Grade?prediction;?R?language;?Data?mining
數(shù)據(jù)挖掘在教育領(lǐng)域的應(yīng)用已經(jīng)成為一種趨勢,取得了廣泛的關(guān)注和應(yīng)用。高校管理人員通過收集學(xué)生的學(xué)習(xí)數(shù)據(jù)和行為數(shù)據(jù),結(jié)合大數(shù)據(jù)分析技術(shù),能夠?qū)W(xué)生的學(xué)習(xí)情況進(jìn)行深度分析和挖掘。
在教育大數(shù)據(jù)挖掘領(lǐng)域中成績預(yù)測是研究的重點(diǎn)內(nèi)容,成績數(shù)據(jù)是學(xué)生學(xué)習(xí)行為的重要反映。羅楊洋等人[1]針對混合學(xué)習(xí)場景,基于學(xué)生認(rèn)知水平、先前知識水平和在線行為等數(shù)據(jù),建立多元回歸預(yù)測模型,開展預(yù)測結(jié)果指導(dǎo)下的學(xué)習(xí)干預(yù),以提升在云環(huán)境下的學(xué)習(xí)效果。張莉等人[2]構(gòu)建模型應(yīng)用到高考預(yù)測,支持向量機(jī)分類來預(yù)測高考的錄取批次,以回歸分析來預(yù)測高考特征分,并成功進(jìn)行混合預(yù)測。沈江等人[3]提出了基于Adaboost方法的學(xué)生學(xué)習(xí)軌跡方法分析,引入了損益函數(shù)來表示預(yù)測誤差率帶來的影響,并根據(jù)預(yù)測的結(jié)果生成學(xué)生學(xué)習(xí)軌跡。王娜等人[4]、謝軍飛等人[5]、張文奇等人[6]分別采用基于Lightgbm、XGBoost、向量機(jī)等機(jī)器學(xué)習(xí)算法實(shí)現(xiàn)成績預(yù)測和學(xué)情預(yù)警功能。
1隨機(jī)森林算法
在數(shù)據(jù)挖掘的預(yù)測模型中往往包括分類和回歸任務(wù),隨機(jī)森林算法能有效地處理上述兩類問題。本文將學(xué)生成績預(yù)測問題劃歸為一種多分類問題,相較于單一的決策樹,隨機(jī)森林算法在一定程度上可以能夠降低單一決策樹的方差,提高模型的穩(wěn)定性和泛化能力。隨機(jī)森林算法步驟如下。
(1)自助采樣:從原始訓(xùn)練數(shù)據(jù)集中進(jìn)行有放回的隨機(jī)抽樣,生成多個(gè)自助樣本集。 (2)構(gòu)建決策樹:對于每個(gè)自助樣本集,使用決策樹算法(如CART、ID3等)構(gòu)建一棵決策樹。
(3)特征值選擇:在構(gòu)建決策樹的過程中,每個(gè)節(jié)點(diǎn)使用隨機(jī)選擇的特征子集進(jìn)行分裂,而不是使用所有特征。通過這種篩選增加模型中可能存在的過擬合現(xiàn)象。
(4)集成預(yù)測:當(dāng)所有決策樹構(gòu)建完成后,對于新的輸入樣本,將其輸入到每棵決策樹中進(jìn)行預(yù)測。每棵樹都會(huì)給出一個(gè)分類結(jié)果,隨機(jī)森林算法將這些結(jié)果進(jìn)行集成。
2基于隨機(jī)森林算法構(gòu)建成績預(yù)測模型
本文的研究對象是來自某高職院校財(cái)經(jīng)類專業(yè)的三個(gè)班2021級105名學(xué)生,通過隨機(jī)森林算法將學(xué)生行為數(shù)據(jù)進(jìn)行數(shù)據(jù)建模,預(yù)測學(xué)生學(xué)期末成績的等級。研究數(shù)據(jù)包括一卡通數(shù)據(jù)(消費(fèi)、門禁情況)、圖書館數(shù)據(jù)(借閱、到館情況)、教務(wù)數(shù)據(jù)(生源、學(xué)業(yè)情況)。數(shù)據(jù)的收集時(shí)間從2022年2—6月(2021—2022學(xué)年第二學(xué)期)。
2.1?數(shù)據(jù)準(zhǔn)備與預(yù)處理
所使用的學(xué)生數(shù)據(jù)都是來源于學(xué)校中相關(guān)業(yè)務(wù)系統(tǒng)的數(shù)據(jù)庫,其中一卡通系統(tǒng)使用SQL?Server,圖書、門禁、教務(wù)數(shù)據(jù)采用Oracle。經(jīng)過對業(yè)務(wù)系統(tǒng)數(shù)據(jù)進(jìn)行預(yù)處理后,選定為10項(xiàng)特征數(shù)據(jù)分別為X1:性別(0男,1女),X2:生源(1普高生,2三校生,3中高職一體),X3:英語四級通過(0否,1是),X4:月均圖書借閱量(數(shù)值),X5:月均入館頻次(數(shù)值),X6:晚歸情況(數(shù)值型),X7:月均消費(fèi)值(數(shù)值),X8:月均早餐數(shù)(數(shù)值),X9:月均請假次數(shù)(數(shù)值),X10:上學(xué)期加權(quán)平均分(數(shù)值),X11:專業(yè)課加權(quán)均分(數(shù)值),選定GRADE為預(yù)測數(shù)據(jù)即當(dāng)前學(xué)期成績專業(yè)均分等級:G(80-100),P(60-80),NP(60以下)。
2.2?預(yù)測的RF模型算法實(shí)現(xiàn)
2.2.1數(shù)據(jù)隨機(jī)抽樣
本實(shí)驗(yàn)的編程語言是?R?語言,在?RStudio?環(huán)境下運(yùn)行。數(shù)據(jù)預(yù)處理后整個(gè)數(shù)據(jù)集包含105個(gè)樣本和11個(gè)變量。將學(xué)生的考試等級(grade)視為響應(yīng)變量,響應(yīng)變量設(shè)置為因子變量,實(shí)驗(yàn)中選取65%的樣本作為訓(xùn)練集,剩余作為預(yù)測集,代碼如下所示。
2.2.2模型構(gòu)建以及參數(shù)調(diào)整
通過R中randomForest包中randomForest函數(shù)從訓(xùn)練集中有放回地隨機(jī)抽取76個(gè)樣本,在每棵樹的每個(gè)節(jié)點(diǎn)隨機(jī)抽取4個(gè)變量,從而生成了200棵經(jīng)典決策樹,代碼如下所示。
模型中mtry參數(shù)控制每個(gè)決策樹在分裂節(jié)點(diǎn)時(shí)隨機(jī)選擇的特征數(shù)。一般推薦使用默認(rèn)值模型中總特征值的平方根,故mtry參數(shù)設(shè)定為4。模型中ntree的設(shè)置會(huì)導(dǎo)致模型的穩(wěn)定性和準(zhǔn)確性變化,可以通過下圖所示,ntree與error之間的關(guān)系,在ntree設(shè)置到200時(shí),模型中error值趨向穩(wěn)定。
2.2.3模型訓(xùn)練以及混淆矩陣
經(jīng)過上述步驟已經(jīng)實(shí)現(xiàn)成績預(yù)測模型cjyc_rf構(gòu)造,接下來將在預(yù)測集中通過predict函數(shù)將cjyc_rf模型和testdata作為參數(shù),生成testpredprob預(yù)測值,將testdata$GRADE作為參數(shù)通過confusionMatrix函數(shù)構(gòu)建混淆矩陣以及生成ROC圖,ROC圖用于表示分類模型對成績預(yù)測的效果,代碼如圖4所示。
預(yù)測模型在訓(xùn)練集和預(yù)測級中的預(yù)測分類結(jié)果如圖5和圖6所示,73個(gè)訓(xùn)練樣本中68個(gè)樣本匹配,分別G(優(yōu)秀):27,P(合格):32,NP(不合格):9,Accuracy為0.9315。在33個(gè)預(yù)測樣本中24個(gè)樣本匹配,分別G(優(yōu)秀):9,P(合格):14,NP(不合格):1,Accuracy為0.7742,成績預(yù)測模型cjyc_rf在預(yù)測集展現(xiàn)出較好的預(yù)測效果,但由于本次實(shí)驗(yàn)中樣本總數(shù)偏少,隨機(jī)森林本身就是容易過擬合的模型,存在一定的過擬合現(xiàn)象導(dǎo)致訓(xùn)練集和預(yù)測集預(yù)測效果有一定的差距。
3.2.4特征屬性重要性排序
通過調(diào)用RondomForest包中?importances?函數(shù),將cjyc_rf模型作為參數(shù),輸出后得到11個(gè)特征屬性在此次預(yù)測模型中的預(yù)測的重要程度,MeanDecrease?Accuracy和MeanDecrease?Gini為隨機(jī)森林模型中的兩個(gè)重要指標(biāo),分別表示隨機(jī)森林預(yù)測準(zhǔn)確性的降低程度以及每個(gè)變量對分類樹每個(gè)節(jié)點(diǎn)上觀測值的異質(zhì)性的影響,值越大代表對應(yīng)的特征屬性的重要性越大。在圖7中,X5(月均圖書借閱量),X6(晚歸情況),X8(月均早餐數(shù)),X10(上學(xué)期加權(quán)平均分),X11(專業(yè)課加權(quán)均分)五項(xiàng)特征值對預(yù)測的結(jié)果影響比較大。通過研究特征屬性對成績預(yù)測重要性的排名,可以明確學(xué)習(xí)過程有一定延續(xù)性,前一學(xué)期的學(xué)習(xí)成績對后一階段的學(xué)習(xí)有很大程度的影響,早餐消費(fèi)次數(shù)、晚歸次數(shù)、月均入館頻次一定程度上反映學(xué)生的自律程度和學(xué)習(xí)自主性,但是像學(xué)生的生源、性別、圖書借閱次數(shù)等數(shù)據(jù)相對于其他動(dòng)態(tài)數(shù)據(jù)而言影響的比重較小。
3結(jié)語
本文學(xué)生在校的行為數(shù)據(jù)中篩選出特征數(shù)據(jù),構(gòu)建預(yù)測模型進(jìn)行學(xué)生成績預(yù)測,并對特征數(shù)據(jù)進(jìn)行重要性排序。文中選取的隨機(jī)森林方法是一種樹型分類器的組合算法。它的優(yōu)點(diǎn)在于能高效地處理大數(shù)據(jù)集,而且預(yù)測精度較高。數(shù)據(jù)在分析前不需要過多的預(yù)處理,不需要標(biāo)準(zhǔn)化或是歸一化,但本次實(shí)驗(yàn)的樣本基數(shù)偏小,存在一定的過擬合現(xiàn)象。
參考文獻(xiàn)
[1] 羅楊洋,韓錫斌.基于增量學(xué)習(xí)算法的混合課程學(xué)生成績預(yù)測模型研究[J].電化教育研究,2021,42(7):83-90.
[2] ?張莉,盧星凝,陸從林,等.支持向量機(jī)在高考成績預(yù)測分析中的應(yīng)用[J].中國???科學(xué)技術(shù)大學(xué)學(xué)報(bào),2017,47(1):1-9.
[3] 沈江,陳璐琳,潘婷,等.新工科背景下基于數(shù)據(jù)挖掘的學(xué)習(xí)軌跡分析[J].天津大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版),2023,25(6):499-506.
[4] 王娜,李勁松,潘子堯,等.基于支持向量機(jī)的學(xué)位預(yù)警方法研究[J].吉林大學(xué)學(xué)報(bào)(信息科學(xué)版),2023,41(5):903-907.
[5] 謝軍飛,張海清,李代偉,等.基于Lightgbm和XGBoost的優(yōu)化深度森林算法[J].南京大學(xué)學(xué)報(bào)(自然科學(xué)),2023,59(5):833-840.
[6] 張文奇,王海瑞,朱貴富.基于因果推斷和多頭自注意力機(jī)制的學(xué)生成績預(yù)測[J].現(xiàn)代電子技術(shù),2023,46(17):111-116.