吳興惠 周玉萍 邢?;?/p>
摘要:對學(xué)生成績數(shù)據(jù)的挖掘,尋找成績數(shù)據(jù)中潛在的知識和信息,對教學(xué)質(zhì)量的提高有著積極的指導(dǎo)意義。本文提出一種自學(xué)習(xí)分類算法(隨機森林),以某校學(xué)生成績?yōu)閿?shù)據(jù)對象,對數(shù)據(jù)中前期成績進行分析,預(yù)測后期專業(yè)課的平均成績。并對得到的課程重要性排序結(jié)果,對學(xué)生上課時能夠進行針對性的講解有一定的輔助作用。
關(guān)鍵詞:隨機森林;成績分析;預(yù)測
中圖分類號:TP181
文獻標(biāo)識碼:A
文章編號:1009-3044(2020)04-0254-02.
收稿日期:2019-10-25
基金項目:海南省教育科學(xué)規(guī)劃課題:基于一種自學(xué)習(xí)分類算法的學(xué)生成績評價研究(QJY20181071)作者簡介:吳興惠(1975—),女,海南儋州人,海南師范大學(xué)副教授,碩士,從事計算機應(yīng)用研究。
衡量一個學(xué)生掌握在校期間所學(xué)的知識的好壞主要看學(xué)習(xí)成績,因此如何科學(xué)合理的對學(xué)生成績進行評價也是作為評估課堂教學(xué)質(zhì)量好壞的一個很重要的依據(jù)之一。通過學(xué)生前期學(xué)習(xí)的成績來預(yù)測后期的成績,對教學(xué)質(zhì)量的提高有一定的促進作用。
目前,已有很多學(xué)者對學(xué)生成績進行預(yù)測做了研究。采用密度全局K-means算法對學(xué)生數(shù)據(jù)進行聚類分析,挖掘影響學(xué)生成績的相關(guān)因素,并對學(xué)生成績進行預(yù)測分析[1]。構(gòu)建結(jié)合決策樹和LMBP神經(jīng)網(wǎng)絡(luò)算法的分析預(yù)測模型,并應(yīng)用于教育數(shù)據(jù)挖掘中,可以實現(xiàn)學(xué)生成績分析及預(yù)測[2]。采用數(shù)據(jù)分類中的C5.0算法,以該分數(shù)區(qū)間為預(yù)測目標(biāo),構(gòu)建了成績的細分預(yù)測規(guī)則,實現(xiàn)了成人學(xué)位英語考試的成績細分預(yù)測系統(tǒng)[3]。對于學(xué)生成績評價,有提出的基于主成分分析法對學(xué)生成績進行綜合評價[4],也有對影響學(xué)生成績因素的重要性進行排序的研究。
自學(xué)習(xí)分類算法(隨機森林算法)是一種集成學(xué)習(xí)算法,是利用多個決策樹對樣本進行訓(xùn)練、分類并預(yù)測。主要應(yīng)用于分類和回歸。因此隨機森林被應(yīng)用于很多領(lǐng)域。許允之把隨機森林算法應(yīng)用到環(huán)境保護中,用其預(yù)測徐州霧霾情況,最后分析和闡述了徐州對霧霾的治理措施。結(jié)合隨機森林與端梯度提升算法,并使用十折交叉驗證確定最佳的預(yù)測模型,應(yīng)用于預(yù)測冠心病住院費用[6]。結(jié)合深度學(xué)習(xí)與隨機森林算法提出一種大數(shù)據(jù)特征選擇算法,設(shè)計基于隨機森林的特征消除算法,對高維大數(shù)據(jù)集進行特征降維處理[7]。針對構(gòu)建智慧校園學(xué)生畫像的數(shù)據(jù)缺失與高維特征問題,引入外部數(shù)據(jù)彌補缺失的數(shù)據(jù),輔助用戶建模,提出一種基于隨機森林的雙向特征選擇算法(RFBFS)解決高維特征問題[8]。這些研究沒有將隨機森林算法應(yīng)用于學(xué)生成績進行評價研究分析。
本文提出一種自學(xué)習(xí)分類算法-隨機森林分類算法預(yù)測學(xué)生成績,并通過實驗說明該算法在對學(xué)生成績數(shù)據(jù)預(yù)測上的有效性,希望該算法在教學(xué)管理能起到積極的改進作用。
1 隨機森林算法
1.1 決策樹
決策樹是基于樹結(jié)構(gòu)來進行決策的一種算法。它是一樹狀結(jié)構(gòu),它從根節(jié)點開始對數(shù)據(jù)樣本(由實例集組成,實例有若干屬性)進行測試,根據(jù)不同的結(jié)果將數(shù)據(jù)樣本劃分成不同的數(shù)據(jù)樣本子集。每個數(shù)據(jù)樣本子集構(gòu)成一子節(jié)點。生成的決策樹的每個葉節(jié)點對應(yīng)一個分類。它有ID3、C4.5、CRAT、SLIQ等。一棵決策樹的生成過程主要有3個部分,即特征選擇、決策樹生成和剪枝。其中最關(guān)鍵的問題是特征選擇,不同的分裂標(biāo)準(zhǔn)對決策樹的泛化誤差有很大的影響。ID3決策樹算法是根據(jù)信息論的信息增益來進行評估和特征選擇的,C4.5決策樹算法是用信息增益率來選擇特征的,CRAT決策樹算法采用的是Gini指數(shù)來進行選擇的。
1.2 隨機森林
隨機森林在以決策樹為基學(xué)習(xí)器構(gòu)建Bagging集成的基礎(chǔ)上,進一步在決策樹的訓(xùn)練過程中引入隨機屬性的選擇。隨機森林算法簡單、易于實現(xiàn)、計算開銷小,在很多現(xiàn)實任務(wù)中展現(xiàn)出強大的性能。
隨機森林分類是由很多決策樹分類模型組成的組合分類模型,每個決策樹分類模型都有一票投票權(quán)來選擇最優(yōu)的分類結(jié)果。隨機森林分類的基本思想:首先,利用bootstrap抽樣從原始訓(xùn)練集抽取k個樣本,每個樣本的樣本容量都與原始訓(xùn)練集一樣;然后,對k個樣本分別建立k個決策樹模型,得到k種分類結(jié)果;最后,根據(jù)k種分類結(jié)果對每個記錄進行投票表決決定其最終分類[9]。隨機森林構(gòu)建主要包括以下3個步驟:
(1)為N棵決策樹抽樣產(chǎn)生N個訓(xùn)練集。每一棵決策樹都對應(yīng)一個訓(xùn)練集,主要采用Bagging抽樣方法從原始數(shù)據(jù)集中產(chǎn)生N個訓(xùn)練子集。
(2)決策樹構(gòu)建。
決策樹的構(gòu)建過程包括兩個步驟:先構(gòu)建獨立的決策樹,然后多棵決策樹形成“森林”,在每棵樹的生長過程中,由指數(shù).最小原則選出M個特征變量中m個屬性中的最優(yōu)劃分。節(jié)點分裂原則一般采用CART算法或C4.5算法。在隨機森林算法中,選中的屬性個數(shù)稱為隨機特征變量。
(3)隨機森林形成及算法執(zhí)行。重復(fù)步驟(1)、(2),構(gòu)建大量決策樹,形成隨機森林。算法最終輸出由多數(shù)投票方法實現(xiàn),將測試集樣本輸入隨機構(gòu)建的N棵決策子樹進行分類,總結(jié)每:棵決策樹分類結(jié)果,并將具有最大投票數(shù)的分類結(jié)果作為算法最終輸出結(jié)果[10]。
隨機森林示意圖如圖1所示:
2 基于隨機森林的學(xué)生成績評價
本文的實驗數(shù)據(jù)來自某高校2012級信息學(xué)院計算機系四個班的學(xué)生成績。用以上提出的隨機森林模型對學(xué)生前期成績數(shù)據(jù)建模,預(yù)測后期的專業(yè)平均成績。由預(yù)測結(jié)果得到各門課程的重要性。由此結(jié)果,教師在教學(xué)過程中可重點進行教學(xué),提高教學(xué)質(zhì)量,達到培養(yǎng)人才目的。
2.1 數(shù)據(jù)預(yù)處理
本文的數(shù)據(jù)來自某2012級信息學(xué)院256名學(xué)生8896條成績。由于采集到的數(shù)據(jù)是不完整的含有噪聲的冗余數(shù)據(jù),因此需要對數(shù)據(jù)進行預(yù)處理。原始數(shù)據(jù)中的屬性個數(shù)很多,刪除一些不相關(guān)的屬性,如學(xué)年、學(xué)分、班級以及課程性等。采用分箱法對學(xué)生成績數(shù)據(jù)進行離散化處理。處理后的數(shù)據(jù)將分為五個等級,分別為:60分以下為不及格,60-70為及格,70-80為中等,80-90為良好,90-100為優(yōu)秀。離散化后的數(shù)據(jù)如下表所示:
2.2 實驗驗證與結(jié)果分析
本實驗采用python語言平臺Anaconda3實現(xiàn)。首先構(gòu)建了如圖2所示基于ESP_RF算法的學(xué)生成績評價模型結(jié)構(gòu)。
首先,確定隨機森林模型中兩個重要參數(shù):樹節(jié)點的變量個數(shù)mtry的值和樹的個數(shù)ntree。通過實驗得到,當(dāng)決策樹數(shù)量取值大于400以后,錯誤率趨于穩(wěn)定,以此將ntee值設(shè)為400。并從實驗得到當(dāng)決策樹節(jié)點所選變量數(shù)為3的時候,模型的誤判率均值是最低的。實驗結(jié)果如圖3所示。
通過學(xué)生第一至第四學(xué)期的成績預(yù)測第五學(xué)期的專業(yè)課成績,并對影響下學(xué)期的課程進行排序。如圖4所示:
從以上實驗中可以得出:
1)這幾門課程中“數(shù)據(jù)結(jié)構(gòu)”對學(xué)生專業(yè)學(xué)習(xí)課程的影響最大。其次是“數(shù)據(jù)庫原理”“WEB高級語言程序設(shè)計”“程序設(shè)計與算法訓(xùn)練”“面向?qū)ο蟪绦蛟O(shè)計”和“數(shù)據(jù)結(jié)構(gòu)課程設(shè)計”。
2)“電子技術(shù)基礎(chǔ)”“計算機科學(xué)概論”對學(xué)生成績影響較小。
根據(jù)實驗得到的模型中兩種自變量重要程序排序?qū)Ρ冉Y(jié)果,實踐課成績對后期學(xué)生專業(yè)學(xué)習(xí)的影響較小,在今后的教學(xué)過程中,能夠有針對性地對學(xué)生教學(xué)有所傾向,為學(xué)生對后續(xù)課程的學(xué)習(xí)打好基礎(chǔ)。
本研究在對學(xué)生成績數(shù)據(jù)進行處理時,由于所收集到的數(shù)據(jù)存在缺失、多次補考值等問題,進行離散化處理后,得到的模型效果不是特別理想。也沒有過多考慮其他因素對成績的影響。在將來的研究中,可以考慮其他因素及與多種模型進行對比以得到更加準(zhǔn)確的結(jié)果。
參考文獻:
[1]謝娟英.學(xué)生成績關(guān)鍵因素挖掘與成績預(yù)測[J].南京信息工程大學(xué)學(xué)報:自然科學(xué)版,2019(3):316-325.
[2]吳強.基于決策樹-LMBP神經(jīng)網(wǎng)絡(luò)的學(xué)生成績分析及預(yù)測模型的研究[J].成都信息工程學(xué)院學(xué)報,2018(3):274-280.
[3]孫力,張凱.基于數(shù)據(jù)挖掘的網(wǎng)絡(luò)教育學(xué)習(xí)成績細分預(yù)測的研究與實現(xiàn)[J].中國遠程教育,2016(12):22-29.
[4]錢浩韻.基于主成分分析法的學(xué)生成績評價[J].南京工業(yè)職業(yè)技術(shù)學(xué)院學(xué)報,2017,17(4):21-24.
[5]許允之.基于隨機森林算法的徐州霧霾回歸預(yù)測模型[A].《環(huán)境工程》編委會、工業(yè)建筑雜志社有限公司.《環(huán)境工程》2019年全國學(xué)術(shù)年會論文集[C].《環(huán)境工程》編委會、工業(yè)建筑雜志社有限公司:《環(huán)境工程》編輯部,2019:6.
[6]夏濤,徐輝煌.基于機器學(xué)習(xí)的冠心病住院費用預(yù)測研究[J].智能計算機與應(yīng)用,2019(9).
[7]馮曉榮.基于深度學(xué)習(xí)與隨機森林的高維數(shù)據(jù)特征選擇[J].計算機工程與設(shè)計,2019,40(9).
[8]楊長春.基于隨機森林的學(xué)生畫像特征選擇方法[J].計算機工程與設(shè)計,2019,40(10).
[9]呂紅燕,馮倩.隨機森林算法研究綜述[0].河北省科學(xué)院學(xué)報,2019,40(10).
[10]梁瓊芳,莎仁.基于隨機森林的數(shù)學(xué)試題難易度分類研究[J].軟件導(dǎo)刊,2019(9).
[通聯(lián)編輯:王力]