學(xué)生成績預(yù)測模型的對比分析

2020-03-30 03:19王欣欣湯軍

電腦知識與技術(shù) 2020年1期

王欣欣湯軍

摘要：目的：旨在對比學(xué)生成績預(yù)測模型。方法：共獲取605條數(shù)據(jù)，共32個解釋變量，通過特征選擇剩余23個自變量，建立訓(xùn)練集和測試集，以G3為目標(biāo)變量，分別構(gòu)建SVM模型、神經(jīng)網(wǎng)絡(luò)模型和逐步回歸模型，比較這三個模型的預(yù)測結(jié)果。結(jié)果：采用逐步回歸模型預(yù)測學(xué)生成績在最小誤差、最大誤差、平均誤差、平均絕對誤差和標(biāo)準(zhǔn)差方面均低于神經(jīng)網(wǎng)絡(luò)模型和SVM模型，在預(yù)測值和實(shí)際值的線性相關(guān)系數(shù)方面均高于神經(jīng)網(wǎng)絡(luò)模型和SVM模型。結(jié)論：在預(yù)測學(xué)生成績上，逐步回歸模型優(yōu)于神經(jīng)網(wǎng)絡(luò)模型和SVM模型。

關(guān)鍵詞：學(xué)生成績預(yù)測模型;神經(jīng)網(wǎng)絡(luò)模型;逐步回歸模型;SVM模型;線性相關(guān)系數(shù)

中圖分類號：TP181 文獻(xiàn)標(biāo)識碼：A

文章編號：1009-3044（2020）01-0199-04

1概述

教育興則國家興，教育強(qiáng)則國家強(qiáng)。如何實(shí)現(xiàn)從我國是人口大國的現(xiàn)狀走向人口強(qiáng)國的轉(zhuǎn)變，實(shí)現(xiàn)中華民族偉大復(fù)興，教育有著不可忽視的地位和作用。近年來，隨著時代的進(jìn)步和國家的發(fā)展，教育方式也在不斷變化?，F(xiàn)如今，通過對影響學(xué)生成績各種因素的分析，實(shí)現(xiàn)對學(xué)生成績的預(yù)測，從而有針對性的提高學(xué)生學(xué)習(xí)成績是我國教育的主要目標(biāo)之一。

本文通過獲取有關(guān)學(xué)生葡萄牙語成績和與成績相關(guān)的各方面數(shù)據(jù)，運(yùn)用SPSS Statistics 20.0和SPSS Modeler 18.0軟件，分別采用神經(jīng)網(wǎng)絡(luò)模型、SVM模型、逐步回歸模型構(gòu)建數(shù)據(jù)挖掘模型進(jìn)行分析對比，構(gòu)建合適的預(yù)測模型。通過對獲取數(shù)據(jù)的分析，實(shí)現(xiàn)了對學(xué)生成績預(yù)測的模型構(gòu)建，對現(xiàn)代教育的發(fā)展起到了一定的積極作用。

2數(shù)據(jù)準(zhǔn)備與模型假設(shè)

2.1數(shù)據(jù)準(zhǔn)備

本文所使用的兩個數(shù)據(jù)集是來自葡萄牙Minho大學(xué)的Pau-loCortez通過對Gabriel Pereira中學(xué)和Mousinho da Silveira中學(xué)的學(xué)生發(fā)放問卷調(diào)查來收集關(guān)于學(xué)生葡萄牙語成績數(shù)據(jù)，現(xiàn)數(shù)據(jù)公布于kaggle網(wǎng)站（https：//www.kaggle.com/uciml/student-alco-hd-consumptionl。數(shù)據(jù)中包含schod、sex、Medu、Fedu、Mjob、Fjob等與學(xué)生葡萄牙語期末成績相關(guān)的32個影響因素，數(shù)據(jù)集中包含649個樣本數(shù)據(jù)。

2.2模型假設(shè)

通常，在建立模型前，需要先對模型提出假設(shè)：

（1）假設(shè)學(xué)生的學(xué)習(xí)水平可以在一定程度上可以通過歷史學(xué)習(xí)水平來反映，通過學(xué)生的以往成績可以一定程度的預(yù)測未來成績。

（2）假設(shè)影響學(xué)生成績的各個因素都是穩(wěn)定的，不會因?yàn)橥话l(fā)情況使學(xué)生成績大起大落。

3數(shù)據(jù)預(yù)處理

3.1數(shù)據(jù)描述

原始數(shù)據(jù)中共包含33個變量，其中G3為目標(biāo)變量，其余32個變量為解釋變量，得到的模型寬度如表1所示。

3.2變量賦值

由表1可以看出，與目標(biāo)變量G3相關(guān)的32個預(yù)測變量中，有些變量類型是字符串類型，比如school、Mjob、fjob、Pstatus等變量。所以需要對這些變量進(jìn)行類型轉(zhuǎn)換和賦值。本文運(yùn)用SPSS Statistics 20.0軟件對字符串類型變量進(jìn)行變量轉(zhuǎn)換和賦值，具體賦值結(jié)果如表2所示。

3.3無用特征剔除

由表1可知，本文中的輸入變量共32個，但并不是每個變量都對預(yù)測目標(biāo)變量G3有用，例如age變量系數(shù)低于閾值、paid單個類別過大，所以需要將這些變量進(jìn)行剔除。本文運(yùn)用SPSS Modeler 18.0軟件，采用“特征選擇”節(jié)點(diǎn)中的Pearson相關(guān)系數(shù)為判定準(zhǔn)則，剔除輸入變量相對于目標(biāo)變量的重要性小于0.95的特征。經(jīng)過特征選擇后，由原始數(shù)據(jù)的32個輸入變量剩余23個。最終的特征選擇結(jié)果如表3所示。

4模型比較

本文對數(shù)據(jù)進(jìn)行預(yù)處理之后，采用SPSS Modeler 18.0進(jìn)行建模，將數(shù)據(jù)按70：30的比例分為訓(xùn)練集和測試集，先分別將神經(jīng)網(wǎng)絡(luò)模型、SVM模型、逐步回歸模型在訓(xùn)練集上進(jìn)行建模，再將建立好的模型在測試集上進(jìn)行測試，最后對比測試結(jié)果。

4.1神經(jīng)網(wǎng)絡(luò)模型的構(gòu)建

4.1.1神經(jīng)網(wǎng)絡(luò)

神經(jīng)網(wǎng)絡(luò)是通過對人腦神經(jīng)系統(tǒng)的一系列思考活動過程的模擬，建立一種能接收、處理和判斷信息的類似于人腦結(jié)構(gòu)和功能的系統(tǒng)，表現(xiàn)為通過各處理單元的相互連接而組成類似于人腦結(jié)構(gòu)的一種網(wǎng)狀結(jié)構(gòu)系統(tǒng)，以此來達(dá)到處理相關(guān)非線性問題和邏輯操作的目的。圖1為一個簡單的三層神經(jīng)網(wǎng)絡(luò)，它包括輸入層、隱藏層和輸出層，各個層之間的連線代表權(quán)重。其中，輸入層的節(jié)點(diǎn)對應(yīng)的是待輸入的預(yù)測神經(jīng)元;輸出層的節(jié)點(diǎn)對應(yīng)的是目標(biāo)神經(jīng)元，目標(biāo)神經(jīng)元的個數(shù)可多可少，但是至少為1個;隱含層處于輸入層和輸出層的中間位置，隱含層的層數(shù)和節(jié)點(diǎn)數(shù)決定了神經(jīng)網(wǎng)絡(luò)的復(fù)雜程度。

4.1.2神經(jīng)網(wǎng)絡(luò)模型結(jié)果分析

從神經(jīng)網(wǎng)絡(luò)模型的具體預(yù)測結(jié)果的相關(guān)指標(biāo)表4來分析，最小誤差為-11.452，最大誤差為6.004，平均誤差為-0.163，平均絕對誤差為1.77，標(biāo)準(zhǔn)差為2.589，預(yù)測值和實(shí)際值的線性相關(guān)系數(shù)為0.637，為中度相關(guān)，預(yù)測效果不好。

4.2 SVM模型的構(gòu)建

4.2.1 SVM

SVM（Support Vector Machinel支持向量機(jī)，是一種二分類模型，目的是求解一個超平面，根據(jù)間隔最大化的原則對樣本數(shù)據(jù)進(jìn)行分割，最終轉(zhuǎn)化為解決一個凸二次規(guī)劃問題。

如圖2所示，在低緯度（左邊）上，正負(fù)類樣本只能靠一個非線性平面（橢圓）來區(qū)分，但是映射到高緯度（右邊）上，可以找到這樣一個分離超平面，從而對樣本數(shù)據(jù)進(jìn)行分割。

4.2.2 SVM模型結(jié)果分析

從SVM模型的具體預(yù)測結(jié)果的相關(guān)指標(biāo)表5來分析，最小誤差為-11.151，最大誤差為5.457，平均誤差為-0.183，平均絕對誤差為1.458，標(biāo)準(zhǔn)差為2.322，預(yù)測值和實(shí)際值的線性相關(guān)系數(shù)為0.745，為中度相關(guān)，預(yù)測效果普通。

對比神經(jīng)網(wǎng)絡(luò)模型的預(yù)測指標(biāo)，在最小誤差、最大誤差、平均絕對誤差、標(biāo)準(zhǔn)差方面，SVM模型均低于神經(jīng)網(wǎng)絡(luò)模型，只在平均誤差方面略高于神經(jīng)網(wǎng)絡(luò)模型;神經(jīng)網(wǎng)絡(luò)模型的線性相關(guān)系數(shù)為0.637，擬合效果不好，而SVM模型的線性相關(guān)系數(shù)為0.745，擬合效果普通。綜上所述，SVM模型略優(yōu)于神經(jīng)網(wǎng)絡(luò)模型。

4.3逐步回歸模型的構(gòu)建

4.3.1逐步回歸

逐步回歸用于多重共線性的檢驗(yàn)，建立最優(yōu)或合適的模型，是多元線性回歸分析中的一種方法，數(shù)學(xué)模型是：

Y=βO+β1*X1+β2*X2+…+βn*Xn

其基本思想是，對每個逐步引入的新變量進(jìn)行F檢驗(yàn)，并對已經(jīng)引入的自變量進(jìn)行t檢驗(yàn)，當(dāng)原來引入的自變量由于新的自變量的引入變得不再顯著時，則將新引入的解釋變量進(jìn)行刪除舊?；静襟E是：先將每個自變量逐個與因變量進(jìn)行一元線性回歸分析，對自變量根據(jù)對因變量的影響程度進(jìn)行排序，然后按照影響程度從大到小的順序依次引入自變量，每引入一個新的自變量就要對自變量和回歸方程進(jìn)行檢驗(yàn)，若顯著則引入，不顯著則剔除，直到無新的自變量可以引入。

4.3.2逐步回歸模型結(jié)果分析

運(yùn)用SPSS Modeler 18.0軟件對數(shù)據(jù)構(gòu)建逐步回歸模型，得到的統(tǒng)計(jì)結(jié)果如表6所示。由表6可知，在逐步回歸過程中，除G1、G2、failures、studytime、reason這些變量外，其余變量存在多重共線性，不滿足進(jìn)入逐步回歸的條件而被剔除。且模型的R²判定系數(shù)為0.859，說明在因變量的變異中，有85.9%可由自變量來解釋，模型預(yù)測效果比較好。根據(jù)t檢驗(yàn)的顯著性和F檢驗(yàn)的顯著性可知，G1、G2、failures、studytime、reason對目標(biāo)變量G3有著顯著影響?？傻玫骄€性回歸方程為：

Y=0.120*G1+0.911*G2-0.263*failures+0.147*studytime-0.097*reason

根據(jù)逐步回歸方程對目標(biāo)變量G3進(jìn)行預(yù)測，得到逐步回歸的具體預(yù)測指標(biāo)如表7所示。從逐步回歸的具體預(yù)測結(jié)果的相關(guān)指標(biāo)表7來分析，最小誤差為-9.247，最大誤差為2.576，平均誤差為-0.08，平均絕對誤差為0.861，標(biāo)準(zhǔn)差為1.375，預(yù)測值和實(shí)際值的線性相關(guān)系數(shù)為0.913，為高度相關(guān)，預(yù)測效果非常好。

4.4模型比較

本文運(yùn)用神經(jīng)網(wǎng)絡(luò)、SVM、逐步回歸模型分別對學(xué)生葡萄牙語成績G3進(jìn)行預(yù)測，分別得到三個預(yù)測結(jié)果指標(biāo)，具體結(jié)果比較如表8所示。

由表7可知，從最小誤差、最大誤差、平均誤差、平均絕對誤差、標(biāo)準(zhǔn)差這五個指標(biāo)來看，逐步回歸模型均低于神經(jīng)網(wǎng)絡(luò)模型和SVM模型;從實(shí)際值與預(yù)測值的線性相關(guān)系數(shù)這一指標(biāo)來看，逐步回歸模型達(dá)到了0.913，均高于神經(jīng)網(wǎng)絡(luò)模型和SVM模型。綜上所述，在預(yù)測學(xué)生成績方面，逐步回歸模型均優(yōu)于神經(jīng)網(wǎng)絡(luò)模型和SVM模型。

5結(jié)論

本文在獲得學(xué)生成績相關(guān)數(shù)據(jù)后，先通過運(yùn)用SPSS Statis-tics 20.0對數(shù)據(jù)進(jìn)行預(yù)處理，再運(yùn)用SPSS Modeler 18.0對指標(biāo)進(jìn)行特征選擇，使得剩余變量對目標(biāo)變量更具有預(yù)測性。分別運(yùn)用神經(jīng)網(wǎng)絡(luò)模型、SVM模型、逐步回歸模型建立學(xué)生成績預(yù)測模型，通過對三種模型預(yù)測結(jié)果的對比分析，得出逐步回歸模型比神經(jīng)網(wǎng)絡(luò)模型和SVM模型更適合學(xué)生成績預(yù)測的結(jié)論。因此，本文的研究在現(xiàn)實(shí)生活中具有一定的應(yīng)用價(jià)值。

電腦知識與技術(shù)2020年1期

電腦知識與技術(shù)的其它文章: 基于多維數(shù)據(jù)的關(guān)系人分析方法研究; 基于Elasticsearch的HBase海量數(shù)據(jù)二級索引方案; 計(jì)算機(jī)網(wǎng)絡(luò)信息安全及防護(hù)對策; 基于OpenStack和Kubernetes的雙向部署技術(shù)研究; 高職院校校園局域網(wǎng)的組建與規(guī)劃; PLC控制網(wǎng)絡(luò)的組建與監(jiān)控

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

學(xué)生成績預(yù)測模型的對比分析