国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于隨機(jī)森林算法的學(xué)生成績預(yù)測的實(shí)現(xiàn)

2024-07-01 15:27:12錢濤
科技資訊 2024年8期
關(guān)鍵詞:R語言隨機(jī)森林數(shù)據(jù)挖掘

錢濤

摘??要:教育數(shù)據(jù)挖掘是數(shù)據(jù)挖掘中的重要領(lǐng)域之一,其中成績預(yù)測是研究的重點(diǎn)內(nèi)容,

成績數(shù)據(jù)是學(xué)生學(xué)習(xí)行為的重要反映?;跀?shù)據(jù)挖掘技術(shù),通過采集學(xué)生的基本信息、圖書借閱、消費(fèi)行為、門禁數(shù)據(jù)等各類數(shù)據(jù),挖掘行為特征與學(xué)習(xí)成績之間的關(guān)聯(lián)性,構(gòu)建基于學(xué)生行為數(shù)據(jù)的成績預(yù)測模型。以達(dá)到對學(xué)生異常情況的早期預(yù)警,優(yōu)化教學(xué)實(shí)施過程,以促進(jìn)學(xué)校對不同類群學(xué)生培養(yǎng)、引導(dǎo)和管理工作。

關(guān)鍵詞:隨機(jī)森林?成績預(yù)測?R語言?數(shù)據(jù)挖掘

中圖分類號:G434;TP18

Realization?of?Student?Grade?Prediction?Based?on?the?Random?Forest?Algorithm

QIAN?Tao

(Zhejiang?Agricultural?Business?College,Shaoxing,Zhejiang?Province,312088?China)

Abstract:?Educational?data?mining?is?one?of?the?important?fields?in?data?mining,?and?grade?prediction?is?its?key?research?content.?Grade?data?is?an?important?reflection?of?students'?learning?behavior.?Based?on?data?mining?technology,?this?paper?explores?the?correlation?between?behavioral?characteristics?and?academic?performance?by?collecting?various?data?such?as?students'?basic?information,?book?borrowing,?consumption?behavior?and?access?control?data,?and?builds?a?grade?prediction?model?based?on?student?behavior?data,?in?order?to?achieve?the?early?warning?of?the?abnormal?situation?of?students,?optimize?the?teaching?implementation?process,?and?promote?the?training,?guidance?and?management?of?different?groups?of?students.

Key?Words:?Random?forest;?Grade?prediction;?R?language;?Data?mining

數(shù)據(jù)挖掘在教育領(lǐng)域的應(yīng)用已經(jīng)成為一種趨勢,取得了廣泛的關(guān)注和應(yīng)用。高校管理人員通過收集學(xué)生的學(xué)習(xí)數(shù)據(jù)和行為數(shù)據(jù),結(jié)合大數(shù)據(jù)分析技術(shù),能夠?qū)W(xué)生的學(xué)習(xí)情況進(jìn)行深度分析和挖掘。

在教育大數(shù)據(jù)挖掘領(lǐng)域中成績預(yù)測是研究的重點(diǎn)內(nèi)容,成績數(shù)據(jù)是學(xué)生學(xué)習(xí)行為的重要反映。羅楊洋等人[1]針對混合學(xué)習(xí)場景,基于學(xué)生認(rèn)知水平、先前知識水平和在線行為等數(shù)據(jù),建立多元回歸預(yù)測模型,開展預(yù)測結(jié)果指導(dǎo)下的學(xué)習(xí)干預(yù),以提升在云環(huán)境下的學(xué)習(xí)效果。張莉等人[2]構(gòu)建模型應(yīng)用到高考預(yù)測,支持向量機(jī)分類來預(yù)測高考的錄取批次,以回歸分析來預(yù)測高考特征分,并成功進(jìn)行混合預(yù)測。沈江等人[3]提出了基于Adaboost方法的學(xué)生學(xué)習(xí)軌跡方法分析,引入了損益函數(shù)來表示預(yù)測誤差率帶來的影響,并根據(jù)預(yù)測的結(jié)果生成學(xué)生學(xué)習(xí)軌跡。王娜等人[4]、謝軍飛等人[5]、張文奇等人[6]分別采用基于Lightgbm、XGBoost、向量機(jī)等機(jī)器學(xué)習(xí)算法實(shí)現(xiàn)成績預(yù)測和學(xué)情預(yù)警功能。

1隨機(jī)森林算法

在數(shù)據(jù)挖掘的預(yù)測模型中往往包括分類和回歸任務(wù),隨機(jī)森林算法能有效地處理上述兩類問題。本文將學(xué)生成績預(yù)測問題劃歸為一種多分類問題,相較于單一的決策樹,隨機(jī)森林算法在一定程度上可以能夠降低單一決策樹的方差,提高模型的穩(wěn)定性和泛化能力。隨機(jī)森林算法步驟如下。

(1)自助采樣:從原始訓(xùn)練數(shù)據(jù)集中進(jìn)行有放回的隨機(jī)抽樣,生成多個(gè)自助樣本集。 (2)構(gòu)建決策樹:對于每個(gè)自助樣本集,使用決策樹算法(如CART、ID3等)構(gòu)建一棵決策樹。

(3)特征值選擇:在構(gòu)建決策樹的過程中,每個(gè)節(jié)點(diǎn)使用隨機(jī)選擇的特征子集進(jìn)行分裂,而不是使用所有特征。通過這種篩選增加模型中可能存在的過擬合現(xiàn)象。

(4)集成預(yù)測:當(dāng)所有決策樹構(gòu)建完成后,對于新的輸入樣本,將其輸入到每棵決策樹中進(jìn)行預(yù)測。每棵樹都會(huì)給出一個(gè)分類結(jié)果,隨機(jī)森林算法將這些結(jié)果進(jìn)行集成。

2基于隨機(jī)森林算法構(gòu)建成績預(yù)測模型

本文的研究對象是來自某高職院校財(cái)經(jīng)類專業(yè)的三個(gè)班2021級105名學(xué)生,通過隨機(jī)森林算法將學(xué)生行為數(shù)據(jù)進(jìn)行數(shù)據(jù)建模,預(yù)測學(xué)生學(xué)期末成績的等級。研究數(shù)據(jù)包括一卡通數(shù)據(jù)(消費(fèi)、門禁情況)、圖書館數(shù)據(jù)(借閱、到館情況)、教務(wù)數(shù)據(jù)(生源、學(xué)業(yè)情況)。數(shù)據(jù)的收集時(shí)間從2022年2—6月(2021—2022學(xué)年第二學(xué)期)。

2.1?數(shù)據(jù)準(zhǔn)備與預(yù)處理

所使用的學(xué)生數(shù)據(jù)都是來源于學(xué)校中相關(guān)業(yè)務(wù)系統(tǒng)的數(shù)據(jù)庫,其中一卡通系統(tǒng)使用SQL?Server,圖書、門禁、教務(wù)數(shù)據(jù)采用Oracle。經(jīng)過對業(yè)務(wù)系統(tǒng)數(shù)據(jù)進(jìn)行預(yù)處理后,選定為10項(xiàng)特征數(shù)據(jù)分別為X1:性別(0男,1女),X2:生源(1普高生,2三校生,3中高職一體),X3:英語四級通過(0否,1是),X4:月均圖書借閱量(數(shù)值),X5:月均入館頻次(數(shù)值),X6:晚歸情況(數(shù)值型),X7:月均消費(fèi)值(數(shù)值),X8:月均早餐數(shù)(數(shù)值),X9:月均請假次數(shù)(數(shù)值),X10:上學(xué)期加權(quán)平均分(數(shù)值),X11:專業(yè)課加權(quán)均分(數(shù)值),選定GRADE為預(yù)測數(shù)據(jù)即當(dāng)前學(xué)期成績專業(yè)均分等級:G(80-100),P(60-80),NP(60以下)。

2.2?預(yù)測的RF模型算法實(shí)現(xiàn)

2.2.1數(shù)據(jù)隨機(jī)抽樣

本實(shí)驗(yàn)的編程語言是?R?語言,在?RStudio?環(huán)境下運(yùn)行。數(shù)據(jù)預(yù)處理后整個(gè)數(shù)據(jù)集包含105個(gè)樣本和11個(gè)變量。將學(xué)生的考試等級(grade)視為響應(yīng)變量,響應(yīng)變量設(shè)置為因子變量,實(shí)驗(yàn)中選取65%的樣本作為訓(xùn)練集,剩余作為預(yù)測集,代碼如下所示。

2.2.2模型構(gòu)建以及參數(shù)調(diào)整

通過R中randomForest包中randomForest函數(shù)從訓(xùn)練集中有放回地隨機(jī)抽取76個(gè)樣本,在每棵樹的每個(gè)節(jié)點(diǎn)隨機(jī)抽取4個(gè)變量,從而生成了200棵經(jīng)典決策樹,代碼如下所示。

模型中mtry參數(shù)控制每個(gè)決策樹在分裂節(jié)點(diǎn)時(shí)隨機(jī)選擇的特征數(shù)。一般推薦使用默認(rèn)值模型中總特征值的平方根,故mtry參數(shù)設(shè)定為4。模型中ntree的設(shè)置會(huì)導(dǎo)致模型的穩(wěn)定性和準(zhǔn)確性變化,可以通過下圖所示,ntree與error之間的關(guān)系,在ntree設(shè)置到200時(shí),模型中error值趨向穩(wěn)定。

2.2.3模型訓(xùn)練以及混淆矩陣

經(jīng)過上述步驟已經(jīng)實(shí)現(xiàn)成績預(yù)測模型cjyc_rf構(gòu)造,接下來將在預(yù)測集中通過predict函數(shù)將cjyc_rf模型和testdata作為參數(shù),生成testpredprob預(yù)測值,將testdata$GRADE作為參數(shù)通過confusionMatrix函數(shù)構(gòu)建混淆矩陣以及生成ROC圖,ROC圖用于表示分類模型對成績預(yù)測的效果,代碼如圖4所示。

預(yù)測模型在訓(xùn)練集和預(yù)測級中的預(yù)測分類結(jié)果如圖5和圖6所示,73個(gè)訓(xùn)練樣本中68個(gè)樣本匹配,分別G(優(yōu)秀):27,P(合格):32,NP(不合格):9,Accuracy為0.9315。在33個(gè)預(yù)測樣本中24個(gè)樣本匹配,分別G(優(yōu)秀):9,P(合格):14,NP(不合格):1,Accuracy為0.7742,成績預(yù)測模型cjyc_rf在預(yù)測集展現(xiàn)出較好的預(yù)測效果,但由于本次實(shí)驗(yàn)中樣本總數(shù)偏少,隨機(jī)森林本身就是容易過擬合的模型,存在一定的過擬合現(xiàn)象導(dǎo)致訓(xùn)練集和預(yù)測集預(yù)測效果有一定的差距。

3.2.4特征屬性重要性排序

通過調(diào)用RondomForest包中?importances?函數(shù),將cjyc_rf模型作為參數(shù),輸出后得到11個(gè)特征屬性在此次預(yù)測模型中的預(yù)測的重要程度,MeanDecrease?Accuracy和MeanDecrease?Gini為隨機(jī)森林模型中的兩個(gè)重要指標(biāo),分別表示隨機(jī)森林預(yù)測準(zhǔn)確性的降低程度以及每個(gè)變量對分類樹每個(gè)節(jié)點(diǎn)上觀測值的異質(zhì)性的影響,值越大代表對應(yīng)的特征屬性的重要性越大。在圖7中,X5(月均圖書借閱量),X6(晚歸情況),X8(月均早餐數(shù)),X10(上學(xué)期加權(quán)平均分),X11(專業(yè)課加權(quán)均分)五項(xiàng)特征值對預(yù)測的結(jié)果影響比較大。通過研究特征屬性對成績預(yù)測重要性的排名,可以明確學(xué)習(xí)過程有一定延續(xù)性,前一學(xué)期的學(xué)習(xí)成績對后一階段的學(xué)習(xí)有很大程度的影響,早餐消費(fèi)次數(shù)、晚歸次數(shù)、月均入館頻次一定程度上反映學(xué)生的自律程度和學(xué)習(xí)自主性,但是像學(xué)生的生源、性別、圖書借閱次數(shù)等數(shù)據(jù)相對于其他動(dòng)態(tài)數(shù)據(jù)而言影響的比重較小。

3結(jié)語

本文學(xué)生在校的行為數(shù)據(jù)中篩選出特征數(shù)據(jù),構(gòu)建預(yù)測模型進(jìn)行學(xué)生成績預(yù)測,并對特征數(shù)據(jù)進(jìn)行重要性排序。文中選取的隨機(jī)森林方法是一種樹型分類器的組合算法。它的優(yōu)點(diǎn)在于能高效地處理大數(shù)據(jù)集,而且預(yù)測精度較高。數(shù)據(jù)在分析前不需要過多的預(yù)處理,不需要標(biāo)準(zhǔn)化或是歸一化,但本次實(shí)驗(yàn)的樣本基數(shù)偏小,存在一定的過擬合現(xiàn)象。

參考文獻(xiàn)

[1] 羅楊洋,韓錫斌.基于增量學(xué)習(xí)算法的混合課程學(xué)生成績預(yù)測模型研究[J].電化教育研究,2021,42(7):83-90.

[2] ?張莉,盧星凝,陸從林,等.支持向量機(jī)在高考成績預(yù)測分析中的應(yīng)用[J].中國???科學(xué)技術(shù)大學(xué)學(xué)報(bào),2017,47(1):1-9.

[3] 沈江,陳璐琳,潘婷,等.新工科背景下基于數(shù)據(jù)挖掘的學(xué)習(xí)軌跡分析[J].天津大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版),2023,25(6):499-506.

[4] 王娜,李勁松,潘子堯,等.基于支持向量機(jī)的學(xué)位預(yù)警方法研究[J].吉林大學(xué)學(xué)報(bào)(信息科學(xué)版),2023,41(5):903-907.

[5] 謝軍飛,張海清,李代偉,等.基于Lightgbm和XGBoost的優(yōu)化深度森林算法[J].南京大學(xué)學(xué)報(bào)(自然科學(xué)),2023,59(5):833-840.

[6] 張文奇,王海瑞,朱貴富.基于因果推斷和多頭自注意力機(jī)制的學(xué)生成績預(yù)測[J].現(xiàn)代電子技術(shù),2023,46(17):111-116.

猜你喜歡
R語言隨機(jī)森林數(shù)據(jù)挖掘
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
電力與能源(2017年6期)2017-05-14 06:19:37
隨機(jī)森林在棉蚜蟲害等級預(yù)測中的應(yīng)用
基于二次隨機(jī)森林的不平衡數(shù)據(jù)分類算法
軟件(2016年7期)2017-02-07 15:54:01
拱壩變形監(jiān)測預(yù)報(bào)的隨機(jī)森林模型及應(yīng)用
基于GPS軌跡數(shù)據(jù)進(jìn)行分析改善城市交通擁擠
基于R語言的Moodle平臺數(shù)據(jù)挖掘技術(shù)的研究
基于隨機(jī)森林算法的飛機(jī)發(fā)動(dòng)機(jī)故障診斷方法的研究
基于R語言的湖南產(chǎn)業(yè)結(jié)構(gòu)對其經(jīng)濟(jì)增長貢獻(xiàn)分析
商(2016年24期)2016-07-20 08:03:39
注重統(tǒng)計(jì)思維培養(yǎng)與應(yīng)用為主導(dǎo)的生物統(tǒng)計(jì)學(xué)課程建設(shè)
考試周刊(2016年15期)2016-03-25 04:09:43
宁晋县| 江门市| 五华县| 荣昌县| 广汉市| 渝北区| 金寨县| 宁武县| 苗栗市| 马龙县| 南汇区| 普宁市| 顺义区| 广昌县| 荆门市| 宕昌县| 大化| 澳门| 甘洛县| 马鞍山市| 万源市| 剑川县| 远安县| 涿鹿县| 南木林县| 济南市| 棋牌| 郴州市| 威宁| 余江县| 武威市| 昌邑市| 左贡县| 台湾省| 崇仁县| 增城市| 略阳县| 镇原县| 荣成市| 徐汇区| 太谷县|