王欣欣 湯軍
摘要:目的:旨在對比學(xué)生成績預(yù)測模型。方法:共獲取605條數(shù)據(jù),共32個解釋變量,通過特征選擇剩余23個自變量,建立訓(xùn)練集和測試集,以G3為目標(biāo)變量,分別構(gòu)建SVM模型、神經(jīng)網(wǎng)絡(luò)模型和逐步回歸模型,比較這三個模型的預(yù)測結(jié)果。結(jié)果:采用逐步回歸模型預(yù)測學(xué)生成績在最小誤差、最大誤差、平均誤差、平均絕對誤差和標(biāo)準(zhǔn)差方面均低于神經(jīng)網(wǎng)絡(luò)模型和SVM模型,在預(yù)測值和實(shí)際值的線性相關(guān)系數(shù)方面均高于神經(jīng)網(wǎng)絡(luò)模型和SVM模型。結(jié)論:在預(yù)測學(xué)生成績上,逐步回歸模型優(yōu)于神經(jīng)網(wǎng)絡(luò)模型和SVM模型。
關(guān)鍵詞:學(xué)生成績預(yù)測模型;神經(jīng)網(wǎng)絡(luò)模型;逐步回歸模型;SVM模型;線性相關(guān)系數(shù)
中圖分類號:TP181 文獻(xiàn)標(biāo)識碼:A
文章編號:1009-3044(2020)01-0199-04
1概述
教育興則國家興,教育強(qiáng)則國家強(qiáng)。如何實(shí)現(xiàn)從我國是人口大國的現(xiàn)狀走向人口強(qiáng)國的轉(zhuǎn)變,實(shí)現(xiàn)中華民族偉大復(fù)興,教育有著不可忽視的地位和作用。近年來,隨著時代的進(jìn)步和國家的發(fā)展,教育方式也在不斷變化?,F(xiàn)如今,通過對影響學(xué)生成績各種因素的分析,實(shí)現(xiàn)對學(xué)生成績的預(yù)測,從而有針對性的提高學(xué)生學(xué)習(xí)成績是我國教育的主要目標(biāo)之一。
本文通過獲取有關(guān)學(xué)生葡萄牙語成績和與成績相關(guān)的各方面數(shù)據(jù),運(yùn)用SPSS Statistics 20.0和SPSS Modeler 18.0軟件,分別采用神經(jīng)網(wǎng)絡(luò)模型、SVM模型、逐步回歸模型構(gòu)建數(shù)據(jù)挖掘模型進(jìn)行分析對比,構(gòu)建合適的預(yù)測模型。通過對獲取數(shù)據(jù)的分析,實(shí)現(xiàn)了對學(xué)生成績預(yù)測的模型構(gòu)建,對現(xiàn)代教育的發(fā)展起到了一定的積極作用。
2數(shù)據(jù)準(zhǔn)備與模型假設(shè)
2.1數(shù)據(jù)準(zhǔn)備
本文所使用的兩個數(shù)據(jù)集是來自葡萄牙Minho大學(xué)的Pau-loCortez通過對Gabriel Pereira中學(xué)和Mousinho da Silveira中學(xué)的學(xué)生發(fā)放問卷調(diào)查來收集關(guān)于學(xué)生葡萄牙語成績數(shù)據(jù),現(xiàn)數(shù)據(jù)公布于kaggle網(wǎng)站(https://www.kaggle.com/uciml/student-alco-hd-consumptionl。數(shù)據(jù)中包含schod、sex、Medu、Fedu、Mjob、Fjob等與學(xué)生葡萄牙語期末成績相關(guān)的32個影響因素,數(shù)據(jù)集中包含649個樣本數(shù)據(jù)。
2.2模型假設(shè)
通常,在建立模型前,需要先對模型提出假設(shè):
(1)假設(shè)學(xué)生的學(xué)習(xí)水平可以在一定程度上可以通過歷史學(xué)習(xí)水平來反映,通過學(xué)生的以往成績可以一定程度的預(yù)測未來成績。
(2)假設(shè)影響學(xué)生成績的各個因素都是穩(wěn)定的,不會因?yàn)橥话l(fā)情況使學(xué)生成績大起大落。
3數(shù)據(jù)預(yù)處理
3.1數(shù)據(jù)描述
原始數(shù)據(jù)中共包含33個變量,其中G3為目標(biāo)變量,其余32個變量為解釋變量,得到的模型寬度如表1所示。
3.2變量賦值
由表1可以看出,與目標(biāo)變量G3相關(guān)的32個預(yù)測變量中,有些變量類型是字符串類型,比如school、Mjob、fjob、Pstatus等變量。所以需要對這些變量進(jìn)行類型轉(zhuǎn)換和賦值。本文運(yùn)用SPSS Statistics 20.0軟件對字符串類型變量進(jìn)行變量轉(zhuǎn)換和賦值,具體賦值結(jié)果如表2所示。
3.3無用特征剔除
由表1可知,本文中的輸入變量共32個,但并不是每個變量都對預(yù)測目標(biāo)變量G3有用,例如age變量系數(shù)低于閾值、paid單個類別過大,所以需要將這些變量進(jìn)行剔除。本文運(yùn)用SPSS Modeler 18.0軟件,采用“特征選擇”節(jié)點(diǎn)中的Pearson相關(guān)系數(shù)為判定準(zhǔn)則,剔除輸入變量相對于目標(biāo)變量的重要性小于0.95的特征。經(jīng)過特征選擇后,由原始數(shù)據(jù)的32個輸入變量剩余23個。最終的特征選擇結(jié)果如表3所示。
4模型比較
本文對數(shù)據(jù)進(jìn)行預(yù)處理之后,采用SPSS Modeler 18.0進(jìn)行建模,將數(shù)據(jù)按70:30的比例分為訓(xùn)練集和測試集,先分別將神經(jīng)網(wǎng)絡(luò)模型、SVM模型、逐步回歸模型在訓(xùn)練集上進(jìn)行建模,再將建立好的模型在測試集上進(jìn)行測試,最后對比測試結(jié)果。
4.1神經(jīng)網(wǎng)絡(luò)模型的構(gòu)建
4.1.1神經(jīng)網(wǎng)絡(luò)
神經(jīng)網(wǎng)絡(luò)是通過對人腦神經(jīng)系統(tǒng)的一系列思考活動過程的模擬,建立一種能接收、處理和判斷信息的類似于人腦結(jié)構(gòu)和功能的系統(tǒng),表現(xiàn)為通過各處理單元的相互連接而組成類似于人腦結(jié)構(gòu)的一種網(wǎng)狀結(jié)構(gòu)系統(tǒng),以此來達(dá)到處理相關(guān)非線性問題和邏輯操作的目的。圖1為一個簡單的三層神經(jīng)網(wǎng)絡(luò),它包括輸入層、隱藏層和輸出層,各個層之間的連線代表權(quán)重。其中,輸入層的節(jié)點(diǎn)對應(yīng)的是待輸入的預(yù)測神經(jīng)元;輸出層的節(jié)點(diǎn)對應(yīng)的是目標(biāo)神經(jīng)元,目標(biāo)神經(jīng)元的個數(shù)可多可少,但是至少為1個;隱含層處于輸入層和輸出層的中間位置,隱含層的層數(shù)和節(jié)點(diǎn)數(shù)決定了神經(jīng)網(wǎng)絡(luò)的復(fù)雜程度。
4.1.2神經(jīng)網(wǎng)絡(luò)模型結(jié)果分析
從神經(jīng)網(wǎng)絡(luò)模型的具體預(yù)測結(jié)果的相關(guān)指標(biāo)表4來分析,最小誤差為-11.452,最大誤差為6.004,平均誤差為-0.163,平均絕對誤差為1.77,標(biāo)準(zhǔn)差為2.589,預(yù)測值和實(shí)際值的線性相關(guān)系數(shù)為0.637,為中度相關(guān),預(yù)測效果不好。
4.2 SVM模型的構(gòu)建
4.2.1 SVM
SVM(Support Vector Machinel支持向量機(jī),是一種二分類模型,目的是求解一個超平面,根據(jù)間隔最大化的原則對樣本數(shù)據(jù)進(jìn)行分割,最終轉(zhuǎn)化為解決一個凸二次規(guī)劃問題。
如圖2所示,在低緯度(左邊)上,正負(fù)類樣本只能靠一個非線性平面(橢圓)來區(qū)分,但是映射到高緯度(右邊)上,可以找到這樣一個分離超平面,從而對樣本數(shù)據(jù)進(jìn)行分割。
4.2.2 SVM模型結(jié)果分析
從SVM模型的具體預(yù)測結(jié)果的相關(guān)指標(biāo)表5來分析,最小誤差為-11.151,最大誤差為5.457,平均誤差為-0.183,平均絕對誤差為1.458,標(biāo)準(zhǔn)差為2.322,預(yù)測值和實(shí)際值的線性相關(guān)系數(shù)為0.745,為中度相關(guān),預(yù)測效果普通。
對比神經(jīng)網(wǎng)絡(luò)模型的預(yù)測指標(biāo),在最小誤差、最大誤差、平均絕對誤差、標(biāo)準(zhǔn)差方面,SVM模型均低于神經(jīng)網(wǎng)絡(luò)模型,只在平均誤差方面略高于神經(jīng)網(wǎng)絡(luò)模型;神經(jīng)網(wǎng)絡(luò)模型的線性相關(guān)系數(shù)為0.637,擬合效果不好,而SVM模型的線性相關(guān)系數(shù)為0.745,擬合效果普通。綜上所述,SVM模型略優(yōu)于神經(jīng)網(wǎng)絡(luò)模型。
4.3逐步回歸模型的構(gòu)建
4.3.1逐步回歸
逐步回歸用于多重共線性的檢驗(yàn),建立最優(yōu)或合適的模型,是多元線性回歸分析中的一種方法,數(shù)學(xué)模型是:
Y=βO+β1*X1+β2*X2+…+βn*Xn
其基本思想是,對每個逐步引入的新變量進(jìn)行F檢驗(yàn),并對已經(jīng)引入的自變量進(jìn)行t檢驗(yàn),當(dāng)原來引入的自變量由于新的自變量的引入變得不再顯著時,則將新引入的解釋變量進(jìn)行刪除舊?;静襟E是:先將每個自變量逐個與因變量進(jìn)行一元線性回歸分析,對自變量根據(jù)對因變量的影響程度進(jìn)行排序,然后按照影響程度從大到小的順序依次引入自變量,每引入一個新的自變量就要對自變量和回歸方程進(jìn)行檢驗(yàn),若顯著則引入,不顯著則剔除,直到無新的自變量可以引入。
4.3.2逐步回歸模型結(jié)果分析
運(yùn)用SPSS Modeler 18.0軟件對數(shù)據(jù)構(gòu)建逐步回歸模型,得到的統(tǒng)計(jì)結(jié)果如表6所示。由表6可知,在逐步回歸過程中,除G1、G2、failures、studytime、reason這些變量外,其余變量存在多重共線性,不滿足進(jìn)入逐步回歸的條件而被剔除。且模型的R2判定系數(shù)為0.859,說明在因變量的變異中,有85.9%可由自變量來解釋,模型預(yù)測效果比較好。根據(jù)t檢驗(yàn)的顯著性和F檢驗(yàn)的顯著性可知,G1、G2、failures、studytime、reason對目標(biāo)變量G3有著顯著影響??傻玫骄€性回歸方程為:
Y=0.120*G1+0.911*G2-0.263*failures+0.147*studytime-0.097*reason
根據(jù)逐步回歸方程對目標(biāo)變量G3進(jìn)行預(yù)測,得到逐步回歸的具體預(yù)測指標(biāo)如表7所示。從逐步回歸的具體預(yù)測結(jié)果的相關(guān)指標(biāo)表7來分析,最小誤差為-9.247,最大誤差為2.576,平均誤差為-0.08,平均絕對誤差為0.861,標(biāo)準(zhǔn)差為1.375,預(yù)測值和實(shí)際值的線性相關(guān)系數(shù)為0.913,為高度相關(guān),預(yù)測效果非常好。
4.4模型比較
本文運(yùn)用神經(jīng)網(wǎng)絡(luò)、SVM、逐步回歸模型分別對學(xué)生葡萄牙語成績G3進(jìn)行預(yù)測,分別得到三個預(yù)測結(jié)果指標(biāo),具體結(jié)果比較如表8所示。
由表7可知,從最小誤差、最大誤差、平均誤差、平均絕對誤差、標(biāo)準(zhǔn)差這五個指標(biāo)來看,逐步回歸模型均低于神經(jīng)網(wǎng)絡(luò)模型和SVM模型;從實(shí)際值與預(yù)測值的線性相關(guān)系數(shù)這一指標(biāo)來看,逐步回歸模型達(dá)到了0.913,均高于神經(jīng)網(wǎng)絡(luò)模型和SVM模型。綜上所述,在預(yù)測學(xué)生成績方面,逐步回歸模型均優(yōu)于神經(jīng)網(wǎng)絡(luò)模型和SVM模型。
5結(jié)論
本文在獲得學(xué)生成績相關(guān)數(shù)據(jù)后,先通過運(yùn)用SPSS Statis-tics 20.0對數(shù)據(jù)進(jìn)行預(yù)處理,再運(yùn)用SPSS Modeler 18.0對指標(biāo)進(jìn)行特征選擇,使得剩余變量對目標(biāo)變量更具有預(yù)測性。分別運(yùn)用神經(jīng)網(wǎng)絡(luò)模型、SVM模型、逐步回歸模型建立學(xué)生成績預(yù)測模型,通過對三種模型預(yù)測結(jié)果的對比分析,得出逐步回歸模型比神經(jīng)網(wǎng)絡(luò)模型和SVM模型更適合學(xué)生成績預(yù)測的結(jié)論。因此,本文的研究在現(xiàn)實(shí)生活中具有一定的應(yīng)用價(jià)值。