曹夢(mèng)川 歐陽(yáng)儀 伍丹 杜朋軒
摘? 要:對(duì)學(xué)生的學(xué)習(xí)成績(jī)進(jìn)行預(yù)測(cè)分析,提前預(yù)警學(xué)生可能存在的掛科或成績(jī)下降風(fēng)險(xiǎn),從而幫助學(xué)生和教師更好地制定學(xué)習(xí)計(jì)劃和提高教學(xué)效率。采集了包括學(xué)生的平時(shí)成績(jī)、考勤、性別和期末成績(jī)等多種因素的數(shù)據(jù),使用線性回歸模型進(jìn)行數(shù)據(jù)建模和預(yù)測(cè)分析。研究結(jié)果表明,該模型預(yù)測(cè)誤差小,具有實(shí)際應(yīng)用價(jià)值。研究成果可為學(xué)生和教師提供有益的參考,以便更好地實(shí)現(xiàn)教育教學(xué)目標(biāo)。
關(guān)鍵詞:機(jī)器學(xué)習(xí);數(shù)據(jù)建模;預(yù)測(cè)分析;線性回歸
中圖分類(lèi)號(hào):TP181;TP39? 文獻(xiàn)標(biāo)識(shí)碼:A? 文章編號(hào):2096-4706(2023)19-0142-04
Research on Student Learning Situation Early Warning Method Based on Machine Learning
CAO Mengchuan, OU Yangyi, WU Dan, DU Pengxuan
(Ningxia Polytechnic, Ningxia? 750021, China)
Abstract: This research focuses on predicting and analyzing students' academic performance, gives an early warning of possible risk of failing or declining grades in advance, and helps students and teachers better plan their studies and improve teaching efficiency. The research collects data on various factors including students' regular grades, attendance, gender, and final grades, and uses linear regression models for data modeling and prediction analysis. The results show that the model has small prediction errors and practical application value. The results of this research can provide useful references for students and teachers to better achieve educational and teaching goals.
Keywords: Machine Learning; data modeling; prediction analysis; linear regression
0? 引? 言
學(xué)生成績(jī)是評(píng)價(jià)學(xué)生學(xué)習(xí)成果的重要指標(biāo)之一。然而,現(xiàn)今本科、大專(zhuān)的教育模式與高中、初中的截然不同,因每學(xué)期代課的班級(jí)、院系、年級(jí)不同,教師很難及時(shí)關(guān)注所有學(xué)生的學(xué)習(xí)情況。當(dāng)學(xué)生在學(xué)習(xí)過(guò)程中出現(xiàn)學(xué)習(xí)狀態(tài)下滑、成績(jī)掉落、有期末掛科風(fēng)險(xiǎn)等情況,教師無(wú)法及時(shí)幫助學(xué)生調(diào)整學(xué)習(xí)狀態(tài),學(xué)生也會(huì)因此產(chǎn)生消極的學(xué)習(xí)態(tài)度。因此,如何對(duì)學(xué)生學(xué)習(xí)情況進(jìn)行監(jiān)控預(yù)警,及時(shí)發(fā)現(xiàn)學(xué)生在學(xué)習(xí)過(guò)程中的問(wèn)題并提供對(duì)應(yīng)的幫助,是教育工作者和家長(zhǎng)們一直關(guān)注的問(wèn)題。在這樣的背景下,本文提出了一種使用機(jī)器學(xué)習(xí)對(duì)學(xué)生平時(shí)成績(jī)進(jìn)行數(shù)據(jù)建模以預(yù)警學(xué)生學(xué)習(xí)情況的方法。
1? 實(shí)現(xiàn)方法
本次研究采用Python為主要開(kāi)發(fā)語(yǔ)言,Python擁有眾多可用于數(shù)據(jù)科學(xué)、人工智能、機(jī)器學(xué)習(xí)等領(lǐng)域的開(kāi)發(fā)庫(kù),可以幫助開(kāi)發(fā)者更加高效地編寫(xiě)和構(gòu)建程序,大幅簡(jiǎn)化代碼編寫(xiě),將重心更多地放在科研中。開(kāi)發(fā)工具采用Jupyter Notebook;使用Pandas開(kāi)發(fā)庫(kù)進(jìn)行數(shù)據(jù)前期數(shù)據(jù)清洗、特征處理;采用的機(jī)器學(xué)習(xí)算法、二值化、特征縮放、模型構(gòu)建、模型評(píng)分、數(shù)據(jù)集劃分等方法來(lái)自scikit-learn開(kāi)發(fā)庫(kù)。
1.1? 流程設(shè)計(jì)
圖1為學(xué)生平時(shí)成績(jī)預(yù)測(cè)模型的實(shí)現(xiàn)流程圖。
1.2? 原始數(shù)據(jù)集建立
本文以寧夏職業(yè)技術(shù)學(xué)院軟件學(xué)院2021級(jí)100位學(xué)生在2021—2022年第二學(xué)期所學(xué)“數(shù)據(jù)分析與應(yīng)用”課程的歷史數(shù)據(jù)作為原始數(shù)據(jù),采集特征包括學(xué)生的姓名、學(xué)號(hào)、性別、年級(jí)、期中成績(jī)、平時(shí)成績(jī)、考勤、期末成績(jī)、課堂作業(yè)成績(jī)。
1.3? 特征工程
特征工程是對(duì)學(xué)生學(xué)情預(yù)警數(shù)據(jù)建模的第二步,也是最重要的一步,它是指對(duì)原始數(shù)據(jù)進(jìn)行特征提取、特征轉(zhuǎn)換和特征選擇等操作,以獲得對(duì)建模有用的特征(圖2)。特征工程是建立學(xué)生學(xué)習(xí)成績(jī)模型的關(guān)鍵環(huán)節(jié),直接影響模型的準(zhǔn)確性和實(shí)用性。將經(jīng)過(guò)特征工程處理后的數(shù)據(jù)集劃分為訓(xùn)練集和測(cè)試集,其中訓(xùn)練集占80%,測(cè)試集占20%,便于后續(xù)的測(cè)試與驗(yàn)證。
1.3.1? 數(shù)據(jù)清洗
數(shù)據(jù)清洗是指在對(duì)原始數(shù)據(jù)進(jìn)行處理之前,對(duì)數(shù)據(jù)進(jìn)行檢查、修改和刪除,以確保數(shù)據(jù)質(zhì)量和準(zhǔn)確性的過(guò)程。在本次研究中,首先要檢查學(xué)生信息是否存在缺失值和異常值,如果存在缺失值,需要采用合適的方式對(duì)數(shù)據(jù)進(jìn)行處理,例如當(dāng)該學(xué)生的成績(jī)出現(xiàn)了空缺值,可采用該名學(xué)生的平均值填充;如果存在異常值,則刪除該數(shù)據(jù)。
1.3.2? 特征提取
特征提取是機(jī)器學(xué)習(xí)中的一個(gè)重要步驟,其目的是將原始數(shù)據(jù)轉(zhuǎn)換為更具有代表性的特征。在機(jī)器學(xué)習(xí)中,特征是指用于描述數(shù)據(jù)的屬性或特性。良好的特征提取可以幫助機(jī)器學(xué)習(xí)算法更準(zhǔn)確地建立模型,提高預(yù)測(cè)和分類(lèi)的準(zhǔn)確性。本次實(shí)驗(yàn)所收集到的學(xué)生數(shù)據(jù)特征不是全部都可用于訓(xùn)練模型,需要從學(xué)生數(shù)據(jù)中提取有用的特征,將無(wú)用特征刪除。實(shí)驗(yàn)進(jìn)行了以下的特征提?。?/p>
刪除無(wú)用特征:在本次研究中,學(xué)生的姓名、學(xué)號(hào)、年級(jí)對(duì)于成績(jī)預(yù)警來(lái)說(shuō)沒(méi)有任何幫助,需要將其刪除。刪除后特征如表1所示。
合并特征:將每個(gè)學(xué)生的平時(shí)成績(jī)和課堂作業(yè)成績(jī)特征合并為一個(gè)平時(shí)成績(jī)特征,合并比例為平時(shí)成績(jī)占比60%,課堂作業(yè)成績(jī)占比40%;將期中成績(jī)和期末成績(jī)特征合并成為期末成績(jī)特征,合并比例為期中成績(jī)占比40%,期末成績(jī)占比60%。合并后將原始成績(jī)特征刪除。合并后如表2所示。
1.3.3? 特征編碼
特征編碼是將數(shù)據(jù)集中的特征轉(zhuǎn)換為機(jī)器學(xué)習(xí)算法可以理解和處理的形式的過(guò)程。在機(jī)器學(xué)習(xí)中,算法只能處理數(shù)字化的特征,因此需要將非數(shù)字化的特征轉(zhuǎn)換為數(shù)字化的形式。特征編碼的作用是將非數(shù)字化的特征轉(zhuǎn)換為數(shù)字化的形式,以便機(jī)器學(xué)習(xí)算法可以對(duì)其進(jìn)行處理和分析,提高模型的準(zhǔn)確性和效率,從而提高模型的預(yù)測(cè)能力。由于學(xué)生的性別特征無(wú)法直接被用于模型訓(xùn)練,所以需要將特征二值化,男轉(zhuǎn)換為1,女轉(zhuǎn)換為0。本次研究采用Scikit-learn庫(kù)中的Binarizer類(lèi)對(duì)數(shù)據(jù)進(jìn)行二值化。
1.3.4? 特征縮放
特征縮放是指將不同特征的取值范圍縮放到相同的區(qū)間內(nèi),常見(jiàn)的縮放方式包括標(biāo)準(zhǔn)化和歸一化。特征縮放提高了模型訓(xùn)練的速度和精度,避免異常值對(duì)模型的影響,使模型更容易理解。在本次實(shí)驗(yàn)中各項(xiàng)數(shù)據(jù)之間的差距較大,需要對(duì)數(shù)據(jù)進(jìn)行特征縮放,以保證數(shù)據(jù)具有可比性。經(jīng)過(guò)多次實(shí)驗(yàn)表明,對(duì)特征使用標(biāo)準(zhǔn)化縮放所達(dá)到的模型效果更適用于本次的研究。
1.3.5? 數(shù)據(jù)集劃分
由于在模型構(gòu)建的過(guò)程中需要不斷地檢驗(yàn)?zāi)P偷臏?zhǔn)確率、檢驗(yàn)?zāi)P偷呐渲眉坝?xùn)練程度、過(guò)擬合還是欠擬合等,所以需要將訓(xùn)練數(shù)據(jù)再劃分為兩個(gè)部分,一部分用于訓(xùn)練的訓(xùn)練集,另一部分是進(jìn)行檢驗(yàn)的驗(yàn)證集。驗(yàn)證集可以重復(fù)使用,主要用于輔助構(gòu)建模型,調(diào)整模型。在本次實(shí)驗(yàn)中,將處理后的數(shù)據(jù)以8:2的比例劃分訓(xùn)練集和測(cè)試集。
1.4? 模型選擇和構(gòu)建
模型選擇和構(gòu)建是建模的核心環(huán)節(jié),該環(huán)節(jié)的主要任務(wù)是選擇適合學(xué)生數(shù)據(jù)建模的機(jī)器學(xué)習(xí)模型,不同的模型有不同的假設(shè)和約束條件,可以適用于不同的問(wèn)題和數(shù)據(jù)集。選擇一個(gè)合適的模型可以提高預(yù)測(cè)的準(zhǔn)確性和泛化能力,避免過(guò)擬合或欠擬合的問(wèn)題。因此在模型選擇和構(gòu)建過(guò)程中,需要考慮模型的準(zhǔn)確性、可解釋性、泛化能力等因素。
在學(xué)生平時(shí)成績(jī)數(shù)據(jù)建模中,常用的機(jī)器學(xué)習(xí)模型包括線性回歸模型、決策樹(shù)模型、支持向量機(jī)模型和神經(jīng)網(wǎng)絡(luò)模型等。本次研究采用線性回歸模型,下面是模型選擇和構(gòu)建的具體步驟。
1.4.1? 模型選擇
線性回歸是一種用于建立變量之間線性關(guān)系的模型,該模型假設(shè)自變量與因變量之間存在線性關(guān)系,即自變量的每一個(gè)單位變化都會(huì)導(dǎo)致因變量發(fā)生相同的單位變化,同時(shí)它的系數(shù)具有可解釋性,可以通過(guò)系數(shù)的大小和符號(hào)來(lái)解釋不同自變量對(duì)因變量的影響程度和方向。在學(xué)生成績(jī)預(yù)警建模中,因?yàn)閷W(xué)生平時(shí)各項(xiàng)學(xué)習(xí)指標(biāo)會(huì)影響學(xué)生的期末成績(jī),所以可以使用線性回歸模型來(lái)預(yù)測(cè)學(xué)生的學(xué)情。線性回歸模型的公式如下:
y = β0 + β1 x1 + β2 x2 + … + βn xn
其中,y為因變量,x1、x2、xn為自變量,β0、β2、βn為模型的參數(shù)。
在本次研究中,模型的線性回歸公式為:
y = θ0 + θ1 x1 + θ2 x2 + θ3 x3
其中,x1為平時(shí)成績(jī),x2為考勤,x3為性別(0或1),θ0、θ1、θ2、θ3為模型參數(shù),y為期末成績(jī)。
1.4.2? 模型的構(gòu)建
模型的構(gòu)建分為三個(gè)步驟:模型擬合、模型評(píng)估和模型應(yīng)用。其中模型擬合的本質(zhì)是求解上述公式的參數(shù)θ0、θ1、θ2、θ3,使用最小二乘法計(jì)算預(yù)測(cè)值與真實(shí)值的平方差,即可求解模型的參數(shù),公式如下:
其中,yi為真實(shí)值, 為預(yù)測(cè)值。將模型代入上式,得到:
將上式關(guān)于模型參數(shù)求導(dǎo),得到模型參數(shù)的最優(yōu)解:
其中, 為模型參數(shù)的最優(yōu)解,x為數(shù)據(jù)集的自變量(考勤、性別、平時(shí)成績(jī)),y為數(shù)據(jù)集的因變量(期末成績(jī))。將? 帶入公式內(nèi),即可實(shí)現(xiàn)模型擬合。
在模型擬合之后,需要對(duì)模型進(jìn)行評(píng)估,以確定模型的準(zhǔn)確性和泛化能力。為了保證實(shí)驗(yàn)的嚴(yán)謹(jǐn),本次研究選擇了選擇3種評(píng)估方式對(duì)模型進(jìn)行評(píng)估,包括均方誤差(Mean Squared Error, MSE)、均方根誤差(Root Mean Squared Error, RMSE)和決定系數(shù)(Coefficient of Determination, R2)。
均方誤差(MSE)是評(píng)估線性回歸模型預(yù)測(cè)效果的常用指標(biāo)。它計(jì)算的是預(yù)測(cè)值與真實(shí)值之間差的平方的平均值。其公式如下:
其中,yi為第i個(gè)樣本的真實(shí)值, 為該樣本的預(yù)測(cè)值,m為樣本數(shù)。
均方根誤差(RMSE)是MSE的平方根,它更直觀地反映了預(yù)測(cè)值與真實(shí)值之間的差距。其公式如下:
決定系數(shù)(R2)是評(píng)估線性回歸模型擬合優(yōu)度的指標(biāo),它表示模型能夠解釋樣本數(shù)據(jù)變異性的比例。其取值范圍在0到1之間,越接近1表示模型的擬合效果越好。R2的公式如下:
其中, 為所有樣本數(shù)據(jù)的平均值。
表3是采用MSE、RMSE、R2三種評(píng)估方式的結(jié)果。
從表中可以看出,該線性回歸模型在測(cè)試集上的MSE為8.48,RMSE為2.91,R2為0.87,說(shuō)明該模型具有較高的預(yù)測(cè)準(zhǔn)確性,可以滿足實(shí)驗(yàn)的初步要求。
在模型評(píng)估之后,即模型應(yīng)用階段,可將學(xué)生平時(shí)成績(jī)信息帶入模型,模型將預(yù)測(cè)學(xué)生的成績(jī)通過(guò)接口傳入預(yù)警方法中。預(yù)警方法通過(guò)對(duì)預(yù)測(cè)成績(jī)進(jìn)行分級(jí),60以下為紅色預(yù)警,70~79為黃色預(yù)警,80~100為綠色預(yù)警,當(dāng)學(xué)生預(yù)測(cè)成績(jī)處于黃色和紅色預(yù)警階段,證明該名學(xué)生有成績(jī)下降和掛科的風(fēng)險(xiǎn)。
綜上所述,模型選擇和構(gòu)建是學(xué)生平時(shí)成績(jī)數(shù)據(jù)建模的關(guān)鍵環(huán)節(jié)。在選擇模型時(shí),需要考慮模型的準(zhǔn)確性、可解釋性、泛化能力等因素,并根據(jù)實(shí)際需求選擇最合適的模型。在構(gòu)建模型時(shí),需要進(jìn)行模型擬合、模型評(píng)估和模型應(yīng)用等步驟,以獲得準(zhǔn)確、穩(wěn)定和可靠的預(yù)測(cè)結(jié)果。
2? 結(jié)果驗(yàn)證分析
本次結(jié)果驗(yàn)證使用2022級(jí)人工智能技術(shù)與應(yīng)用班級(jí)28位同學(xué)在2022—2023學(xué)年第一學(xué)期“數(shù)據(jù)分析”課程數(shù)據(jù)進(jìn)行結(jié)果驗(yàn)證,并使用預(yù)測(cè)結(jié)果和真實(shí)結(jié)果進(jìn)行對(duì)比,以下是其中5位學(xué)生的預(yù)測(cè)成績(jī)和實(shí)際成績(jī)的數(shù)據(jù)對(duì)比,結(jié)果如表4所示。
由表4可得出,學(xué)生的期末成績(jī)預(yù)測(cè)值與實(shí)際期末成績(jī)進(jìn)行對(duì)比,預(yù)測(cè)的成績(jī)與實(shí)際的成績(jī)之間的誤差較小,預(yù)測(cè)值可有效地反映學(xué)生在學(xué)習(xí)過(guò)程中的成績(jī)情況,說(shuō)明該模型具有實(shí)際的應(yīng)用價(jià)值,可以為學(xué)生和老師提供有效的成績(jī)預(yù)警。通過(guò)分析該模型參數(shù)的權(quán)重,發(fā)現(xiàn)學(xué)生的平時(shí)成績(jī)對(duì)于預(yù)測(cè)模型的影響最大,考勤和性別的影響相對(duì)較小。這也說(shuō)明了學(xué)生的平時(shí)成績(jī)是影響學(xué)生成績(jī)的重要因素,需要在教學(xué)中重點(diǎn)關(guān)注和提升。
3? 結(jié)? 論
通過(guò)上述實(shí)驗(yàn)可以看出,基于線性回歸算法構(gòu)建的學(xué)生平時(shí)成績(jī)預(yù)測(cè)模型的預(yù)測(cè)準(zhǔn)確率是可以初步滿足學(xué)生學(xué)情預(yù)警的。雖然預(yù)測(cè)結(jié)果存在一定的誤差,但整體上預(yù)測(cè)結(jié)果與實(shí)際成績(jī)的差距較小。在實(shí)際應(yīng)用中,可以使用該模型來(lái)進(jìn)行學(xué)生的成績(jī)預(yù)警,及時(shí)發(fā)現(xiàn)學(xué)生的學(xué)情問(wèn)題,提供個(gè)性化的學(xué)習(xí)建議,及時(shí)調(diào)整學(xué)習(xí)態(tài)度,在一定程度上改善學(xué)習(xí)狀態(tài),從而實(shí)現(xiàn)對(duì)學(xué)生學(xué)情的監(jiān)測(cè)和預(yù)警。未來(lái),可以進(jìn)一步改進(jìn)模型,采用更加復(fù)雜的機(jī)器學(xué)習(xí)算法,如決策樹(shù)、隨機(jī)森林等,以提高預(yù)測(cè)的準(zhǔn)確性。
參考文獻(xiàn):
[1] 王琪,靳瑩.中等教育學(xué)段學(xué)情分析研究述評(píng) [J].教育理論與實(shí)踐,2023,43(2):54-57.
[2] 魏超.機(jī)器學(xué)習(xí)算法在大學(xué)生綜合素質(zhì)測(cè)評(píng)預(yù)警中的對(duì)比研究 [J].電腦編程技巧與維護(hù),2022(12):127-129.
[3] 崔爭(zhēng)艷,劉晨晨,孫濱.基于機(jī)器學(xué)習(xí)的MOOC學(xué)習(xí)者棄學(xué)預(yù)測(cè)與預(yù)警系統(tǒng)實(shí)現(xiàn) [J].信息與電腦:理論版,2022,34(1):65-67.
[4] 徐彩鳳.依托TPACK理論,推進(jìn)統(tǒng)計(jì)信息化教學(xué)——以“一元線性回歸模型的應(yīng)用”為例 [J].中學(xué)數(shù)學(xué)月刊,2023(3):48-50+63.
[5] 李治軍,姚蓉.基于主成分分析和多元線性回歸的黑龍江省用水效率研究 [J].水利科技與經(jīng)濟(jì),2023,29(2):60-64.
[6] 李非.案例分析在統(tǒng)計(jì)多元線性回歸預(yù)測(cè)模型教學(xué)中的應(yīng)用研究 [J].現(xiàn)代職業(yè)教育,2019(8):86-87.
[7] 劉學(xué)彥,趙建立,相文楠,等.擬線性回歸預(yù)測(cè)模型的穩(wěn)定最小二乘解 [J].數(shù)學(xué)的實(shí)踐與認(rèn)識(shí),2011,41(20):92-97.
作者簡(jiǎn)介:曹夢(mèng)川(1990—),男,漢族,寧夏銀川人,助教,碩士,研究方向:數(shù)據(jù)分析、人工智能。
收稿日期:2023-04-09
基金項(xiàng)目:2022年度職業(yè)教育研究和開(kāi)放教育綜合改革研究專(zhuān)項(xiàng)課題(XJ202207);2020年寧夏回族自治區(qū)科學(xué)技術(shù)學(xué)會(huì)第五批自治區(qū)青年科技人才托舉工程