基于隨機(jī)森林算法的學(xué)生成績預(yù)測的實(shí)現(xiàn)

2024-07-01 15:27:12錢濤

科技資訊 2024年8期

錢濤

摘??要：教育數(shù)據(jù)挖掘是數(shù)據(jù)挖掘中的重要領(lǐng)域之一，其中成績預(yù)測是研究的重點(diǎn)內(nèi)容，

成績數(shù)據(jù)是學(xué)生學(xué)習(xí)行為的重要反映?；跀?shù)據(jù)挖掘技術(shù)，通過采集學(xué)生的基本信息、圖書借閱、消費(fèi)行為、門禁數(shù)據(jù)等各類數(shù)據(jù)，挖掘行為特征與學(xué)習(xí)成績之間的關(guān)聯(lián)性，構(gòu)建基于學(xué)生行為數(shù)據(jù)的成績預(yù)測模型。以達(dá)到對學(xué)生異常情況的早期預(yù)警，優(yōu)化教學(xué)實(shí)施過程，以促進(jìn)學(xué)校對不同類群學(xué)生培養(yǎng)、引導(dǎo)和管理工作。

關(guān)鍵詞：隨機(jī)森林?成績預(yù)測?R語言?數(shù)據(jù)挖掘

中圖分類號：G434;TP18

Realization?of?Student?Grade?Prediction?Based?on?the?Random?Forest?Algorithm

QIAN?Tao

（Zhejiang?Agricultural?Business?College，Shaoxing，Zhejiang?Province，312088?China）

Abstract：?Educational?data?mining?is?one?of?the?important?fields?in?data?mining，?and?grade?prediction?is?its?key?research?content.?Grade?data?is?an?important?reflection?of?students'?learning?behavior.?Based?on?data?mining?technology，?this?paper?explores?the?correlation?between?behavioral?characteristics?and?academic?performance?by?collecting?various?data?such?as?students'?basic?information，?book?borrowing，?consumption?behavior?and?access?control?data，?and?builds?a?grade?prediction?model?based?on?student?behavior?data，?in?order?to?achieve?the?early?warning?of?the?abnormal?situation?of?students，?optimize?the?teaching?implementation?process，?and?promote?the?training，?guidance?and?management?of?different?groups?of?students.

Key?Words：?Random?forest;?Grade?prediction;?R?language;?Data?mining

數(shù)據(jù)挖掘在教育領(lǐng)域的應(yīng)用已經(jīng)成為一種趨勢，取得了廣泛的關(guān)注和應(yīng)用。高校管理人員通過收集學(xué)生的學(xué)習(xí)數(shù)據(jù)和行為數(shù)據(jù)，結(jié)合大數(shù)據(jù)分析技術(shù)，能夠?qū)W(xué)生的學(xué)習(xí)情況進(jìn)行深度分析和挖掘。

在教育大數(shù)據(jù)挖掘領(lǐng)域中成績預(yù)測是研究的重點(diǎn)內(nèi)容，成績數(shù)據(jù)是學(xué)生學(xué)習(xí)行為的重要反映。羅楊洋等人[1]針對混合學(xué)習(xí)場景，基于學(xué)生認(rèn)知水平、先前知識水平和在線行為等數(shù)據(jù)，建立多元回歸預(yù)測模型，開展預(yù)測結(jié)果指導(dǎo)下的學(xué)習(xí)干預(yù)，以提升在云環(huán)境下的學(xué)習(xí)效果。張莉等人[2]構(gòu)建模型應(yīng)用到高考預(yù)測，支持向量機(jī)分類來預(yù)測高考的錄取批次，以回歸分析來預(yù)測高考特征分，并成功進(jìn)行混合預(yù)測。沈江等人[3]提出了基于Adaboost方法的學(xué)生學(xué)習(xí)軌跡方法分析，引入了損益函數(shù)來表示預(yù)測誤差率帶來的影響，并根據(jù)預(yù)測的結(jié)果生成學(xué)生學(xué)習(xí)軌跡。王娜等人[4]、謝軍飛等人[5]、張文奇等人[6]分別采用基于Lightgbm、XGBoost、向量機(jī)等機(jī)器學(xué)習(xí)算法實(shí)現(xiàn)成績預(yù)測和學(xué)情預(yù)警功能。

1隨機(jī)森林算法

在數(shù)據(jù)挖掘的預(yù)測模型中往往包括分類和回歸任務(wù)，隨機(jī)森林算法能有效地處理上述兩類問題。本文將學(xué)生成績預(yù)測問題劃歸為一種多分類問題，相較于單一的決策樹，隨機(jī)森林算法在一定程度上可以能夠降低單一決策樹的方差，提高模型的穩(wěn)定性和泛化能力。隨機(jī)森林算法步驟如下。

（1）自助采樣：從原始訓(xùn)練數(shù)據(jù)集中進(jìn)行有放回的隨機(jī)抽樣，生成多個(gè)自助樣本集。（2）構(gòu)建決策樹：對于每個(gè)自助樣本集，使用決策樹算法（如CART、ID3等）構(gòu)建一棵決策樹。

（3）特征值選擇：在構(gòu)建決策樹的過程中，每個(gè)節(jié)點(diǎn)使用隨機(jī)選擇的特征子集進(jìn)行分裂，而不是使用所有特征。通過這種篩選增加模型中可能存在的過擬合現(xiàn)象。

（4）集成預(yù)測：當(dāng)所有決策樹構(gòu)建完成后，對于新的輸入樣本，將其輸入到每棵決策樹中進(jìn)行預(yù)測。每棵樹都會(huì)給出一個(gè)分類結(jié)果，隨機(jī)森林算法將這些結(jié)果進(jìn)行集成。

2基于隨機(jī)森林算法構(gòu)建成績預(yù)測模型

本文的研究對象是來自某高職院校財(cái)經(jīng)類專業(yè)的三個(gè)班2021級105名學(xué)生，通過隨機(jī)森林算法將學(xué)生行為數(shù)據(jù)進(jìn)行數(shù)據(jù)建模，預(yù)測學(xué)生學(xué)期末成績的等級。研究數(shù)據(jù)包括一卡通數(shù)據(jù)（消費(fèi)、門禁情況）、圖書館數(shù)據(jù)（借閱、到館情況）、教務(wù)數(shù)據(jù)（生源、學(xué)業(yè)情況）。數(shù)據(jù)的收集時(shí)間從2022年2—6月（2021—2022學(xué)年第二學(xué)期）。

2.1?數(shù)據(jù)準(zhǔn)備與預(yù)處理

所使用的學(xué)生數(shù)據(jù)都是來源于學(xué)校中相關(guān)業(yè)務(wù)系統(tǒng)的數(shù)據(jù)庫，其中一卡通系統(tǒng)使用SQL?Server，圖書、門禁、教務(wù)數(shù)據(jù)采用Oracle。經(jīng)過對業(yè)務(wù)系統(tǒng)數(shù)據(jù)進(jìn)行預(yù)處理后，選定為10項(xiàng)特征數(shù)據(jù)分別為X1：性別（0男，1女），X2：生源（1普高生，2三校生，3中高職一體），X3：英語四級通過（0否，1是），X4：月均圖書借閱量（數(shù)值），X5：月均入館頻次（數(shù)值），X6：晚歸情況（數(shù)值型），X7：月均消費(fèi)值（數(shù)值），X8：月均早餐數(shù)（數(shù)值），X9：月均請假次數(shù)（數(shù)值），X10：上學(xué)期加權(quán)平均分（數(shù)值），X11：專業(yè)課加權(quán)均分（數(shù)值），選定GRADE為預(yù)測數(shù)據(jù)即當(dāng)前學(xué)期成績專業(yè)均分等級：G（80-100），P（60-80），NP（60以下）。

2.2?預(yù)測的ＲＦ模型算法實(shí)現(xiàn)

2.2.1數(shù)據(jù)隨機(jī)抽樣

本實(shí)驗(yàn)的編程語言是?R?語言，在?RStudio?環(huán)境下運(yùn)行。數(shù)據(jù)預(yù)處理后整個(gè)數(shù)據(jù)集包含105個(gè)樣本和11個(gè)變量。將學(xué)生的考試等級（grade）視為響應(yīng)變量，響應(yīng)變量設(shè)置為因子變量，實(shí)驗(yàn)中選取65%的樣本作為訓(xùn)練集，剩余作為預(yù)測集，代碼如下所示。

2.2.2模型構(gòu)建以及參數(shù)調(diào)整

通過R中randomForest包中randomForest函數(shù)從訓(xùn)練集中有放回地隨機(jī)抽取76個(gè)樣本，在每棵樹的每個(gè)節(jié)點(diǎn)隨機(jī)抽取4個(gè)變量，從而生成了200棵經(jīng)典決策樹，代碼如下所示。

模型中mtry參數(shù)控制每個(gè)決策樹在分裂節(jié)點(diǎn)時(shí)隨機(jī)選擇的特征數(shù)。一般推薦使用默認(rèn)值模型中總特征值的平方根，故mtry參數(shù)設(shè)定為4。模型中ntree的設(shè)置會(huì)導(dǎo)致模型的穩(wěn)定性和準(zhǔn)確性變化，可以通過下圖所示，ntree與error之間的關(guān)系，在ntree設(shè)置到200時(shí)，模型中error值趨向穩(wěn)定。

2.2.3模型訓(xùn)練以及混淆矩陣

經(jīng)過上述步驟已經(jīng)實(shí)現(xiàn)成績預(yù)測模型cjyc_rf構(gòu)造，接下來將在預(yù)測集中通過predict函數(shù)將cjyc_rf模型和testdata作為參數(shù)，生成testpredprob預(yù)測值，將testdata$GRADE作為參數(shù)通過confusionMatrix函數(shù)構(gòu)建混淆矩陣以及生成ROC圖，ROC圖用于表示分類模型對成績預(yù)測的效果，代碼如圖4所示。

預(yù)測模型在訓(xùn)練集和預(yù)測級中的預(yù)測分類結(jié)果如圖5和圖6所示，73個(gè)訓(xùn)練樣本中68個(gè)樣本匹配，分別G（優(yōu)秀）：27，P（合格）：32，NP（不合格）：9，Accuracy為0.9315。在33個(gè)預(yù)測樣本中24個(gè)樣本匹配，分別G（優(yōu)秀）：9，P（合格）：14，NP（不合格）：1，Accuracy為0.7742，成績預(yù)測模型cjyc_rf在預(yù)測集展現(xiàn)出較好的預(yù)測效果，但由于本次實(shí)驗(yàn)中樣本總數(shù)偏少，隨機(jī)森林本身就是容易過擬合的模型，存在一定的過擬合現(xiàn)象導(dǎo)致訓(xùn)練集和預(yù)測集預(yù)測效果有一定的差距。

3.2.4特征屬性重要性排序

通過調(diào)用RondomForest包中?importances?函數(shù)，將cjyc_rf模型作為參數(shù)，輸出后得到11個(gè)特征屬性在此次預(yù)測模型中的預(yù)測的重要程度，MeanDecrease?Accuracy和MeanDecrease?Gini為隨機(jī)森林模型中的兩個(gè)重要指標(biāo)，分別表示隨機(jī)森林預(yù)測準(zhǔn)確性的降低程度以及每個(gè)變量對分類樹每個(gè)節(jié)點(diǎn)上觀測值的異質(zhì)性的影響，值越大代表對應(yīng)的特征屬性的重要性越大。在圖7中，X5（月均圖書借閱量），X6（晚歸情況），X8（月均早餐數(shù)），X10（上學(xué)期加權(quán)平均分），X11（專業(yè)課加權(quán)均分）五項(xiàng)特征值對預(yù)測的結(jié)果影響比較大。通過研究特征屬性對成績預(yù)測重要性的排名，可以明確學(xué)習(xí)過程有一定延續(xù)性，前一學(xué)期的學(xué)習(xí)成績對后一階段的學(xué)習(xí)有很大程度的影響，早餐消費(fèi)次數(shù)、晚歸次數(shù)、月均入館頻次一定程度上反映學(xué)生的自律程度和學(xué)習(xí)自主性，但是像學(xué)生的生源、性別、圖書借閱次數(shù)等數(shù)據(jù)相對于其他動(dòng)態(tài)數(shù)據(jù)而言影響的比重較小。

3結(jié)語

本文學(xué)生在校的行為數(shù)據(jù)中篩選出特征數(shù)據(jù)，構(gòu)建預(yù)測模型進(jìn)行學(xué)生成績預(yù)測，并對特征數(shù)據(jù)進(jìn)行重要性排序。文中選取的隨機(jī)森林方法是一種樹型分類器的組合算法。它的優(yōu)點(diǎn)在于能高效地處理大數(shù)據(jù)集，而且預(yù)測精度較高。數(shù)據(jù)在分析前不需要過多的預(yù)處理，不需要標(biāo)準(zhǔn)化或是歸一化，但本次實(shí)驗(yàn)的樣本基數(shù)偏小，存在一定的過擬合現(xiàn)象。

參考文獻(xiàn)

[1] 羅楊洋，韓錫斌.基于增量學(xué)習(xí)算法的混合課程學(xué)生成績預(yù)測模型研究[J].電化教育研究，2021，42（7）：83-90.

[2] ?張莉，盧星凝，陸從林，等.支持向量機(jī)在高考成績預(yù)測分析中的應(yīng)用[J].中國???科學(xué)技術(shù)大學(xué)學(xué)報(bào)，2017，47（1）：1-9.

[3] 沈江，陳璐琳，潘婷，等.新工科背景下基于數(shù)據(jù)挖掘的學(xué)習(xí)軌跡分析[J].天津大學(xué)學(xué)報(bào)（社會(huì)科學(xué)版），2023，25（6）：499-506.

[4] 王娜，李勁松，潘子堯，等.基于支持向量機(jī)的學(xué)位預(yù)警方法研究[J].吉林大學(xué)學(xué)報(bào)（信息科學(xué)版），2023，41（5）：903-907.

[5] 謝軍飛，張海清，李代偉，等.基于Lightgbm和XGBoost的優(yōu)化深度森林算法[J].南京大學(xué)學(xué)報(bào)（自然科學(xué)），2023，59（5）：833-840.

[6] 張文奇，王海瑞，朱貴富.基于因果推斷和多頭自注意力機(jī)制的學(xué)生成績預(yù)測[J].現(xiàn)代電子技術(shù)，2023，46（17）：111-116.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于隨機(jī)森林算法的學(xué)生成績預(yù)測的實(shí)現(xiàn)