国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

學(xué)生成績預(yù)測模型的對比分析

2020-03-30 03:19王欣欣湯軍
電腦知識與技術(shù) 2020年1期

王欣欣 湯軍

摘要:目的:旨在對比學(xué)生成績預(yù)測模型。方法:共獲取605條數(shù)據(jù),共32個解釋變量,通過特征選擇剩余23個自變量,建立訓(xùn)練集和測試集,以G3為目標(biāo)變量,分別構(gòu)建SVM模型、神經(jīng)網(wǎng)絡(luò)模型和逐步回歸模型,比較這三個模型的預(yù)測結(jié)果。結(jié)果:采用逐步回歸模型預(yù)測學(xué)生成績在最小誤差、最大誤差、平均誤差、平均絕對誤差和標(biāo)準(zhǔn)差方面均低于神經(jīng)網(wǎng)絡(luò)模型和SVM模型,在預(yù)測值和實(shí)際值的線性相關(guān)系數(shù)方面均高于神經(jīng)網(wǎng)絡(luò)模型和SVM模型。結(jié)論:在預(yù)測學(xué)生成績上,逐步回歸模型優(yōu)于神經(jīng)網(wǎng)絡(luò)模型和SVM模型。

關(guān)鍵詞:學(xué)生成績預(yù)測模型;神經(jīng)網(wǎng)絡(luò)模型;逐步回歸模型;SVM模型;線性相關(guān)系數(shù)

中圖分類號:TP181 文獻(xiàn)標(biāo)識碼:A

文章編號:1009-3044(2020)01-0199-04

1概述

教育興則國家興,教育強(qiáng)則國家強(qiáng)。如何實(shí)現(xiàn)從我國是人口大國的現(xiàn)狀走向人口強(qiáng)國的轉(zhuǎn)變,實(shí)現(xiàn)中華民族偉大復(fù)興,教育有著不可忽視的地位和作用。近年來,隨著時代的進(jìn)步和國家的發(fā)展,教育方式也在不斷變化?,F(xiàn)如今,通過對影響學(xué)生成績各種因素的分析,實(shí)現(xiàn)對學(xué)生成績的預(yù)測,從而有針對性的提高學(xué)生學(xué)習(xí)成績是我國教育的主要目標(biāo)之一。

本文通過獲取有關(guān)學(xué)生葡萄牙語成績和與成績相關(guān)的各方面數(shù)據(jù),運(yùn)用SPSS Statistics 20.0和SPSS Modeler 18.0軟件,分別采用神經(jīng)網(wǎng)絡(luò)模型、SVM模型、逐步回歸模型構(gòu)建數(shù)據(jù)挖掘模型進(jìn)行分析對比,構(gòu)建合適的預(yù)測模型。通過對獲取數(shù)據(jù)的分析,實(shí)現(xiàn)了對學(xué)生成績預(yù)測的模型構(gòu)建,對現(xiàn)代教育的發(fā)展起到了一定的積極作用。

2數(shù)據(jù)準(zhǔn)備與模型假設(shè)

2.1數(shù)據(jù)準(zhǔn)備

本文所使用的兩個數(shù)據(jù)集是來自葡萄牙Minho大學(xué)的Pau-loCortez通過對Gabriel Pereira中學(xué)和Mousinho da Silveira中學(xué)的學(xué)生發(fā)放問卷調(diào)查來收集關(guān)于學(xué)生葡萄牙語成績數(shù)據(jù),現(xiàn)數(shù)據(jù)公布于kaggle網(wǎng)站(https://www.kaggle.com/uciml/student-alco-hd-consumptionl。數(shù)據(jù)中包含schod、sex、Medu、Fedu、Mjob、Fjob等與學(xué)生葡萄牙語期末成績相關(guān)的32個影響因素,數(shù)據(jù)集中包含649個樣本數(shù)據(jù)。

2.2模型假設(shè)

通常,在建立模型前,需要先對模型提出假設(shè):

(1)假設(shè)學(xué)生的學(xué)習(xí)水平可以在一定程度上可以通過歷史學(xué)習(xí)水平來反映,通過學(xué)生的以往成績可以一定程度的預(yù)測未來成績。

(2)假設(shè)影響學(xué)生成績的各個因素都是穩(wěn)定的,不會因?yàn)橥话l(fā)情況使學(xué)生成績大起大落。

3數(shù)據(jù)預(yù)處理

3.1數(shù)據(jù)描述

原始數(shù)據(jù)中共包含33個變量,其中G3為目標(biāo)變量,其余32個變量為解釋變量,得到的模型寬度如表1所示。

3.2變量賦值

由表1可以看出,與目標(biāo)變量G3相關(guān)的32個預(yù)測變量中,有些變量類型是字符串類型,比如school、Mjob、fjob、Pstatus等變量。所以需要對這些變量進(jìn)行類型轉(zhuǎn)換和賦值。本文運(yùn)用SPSS Statistics 20.0軟件對字符串類型變量進(jìn)行變量轉(zhuǎn)換和賦值,具體賦值結(jié)果如表2所示。

3.3無用特征剔除

由表1可知,本文中的輸入變量共32個,但并不是每個變量都對預(yù)測目標(biāo)變量G3有用,例如age變量系數(shù)低于閾值、paid單個類別過大,所以需要將這些變量進(jìn)行剔除。本文運(yùn)用SPSS Modeler 18.0軟件,采用“特征選擇”節(jié)點(diǎn)中的Pearson相關(guān)系數(shù)為判定準(zhǔn)則,剔除輸入變量相對于目標(biāo)變量的重要性小于0.95的特征。經(jīng)過特征選擇后,由原始數(shù)據(jù)的32個輸入變量剩余23個。最終的特征選擇結(jié)果如表3所示。

4模型比較

本文對數(shù)據(jù)進(jìn)行預(yù)處理之后,采用SPSS Modeler 18.0進(jìn)行建模,將數(shù)據(jù)按70:30的比例分為訓(xùn)練集和測試集,先分別將神經(jīng)網(wǎng)絡(luò)模型、SVM模型、逐步回歸模型在訓(xùn)練集上進(jìn)行建模,再將建立好的模型在測試集上進(jìn)行測試,最后對比測試結(jié)果。

4.1神經(jīng)網(wǎng)絡(luò)模型的構(gòu)建

4.1.1神經(jīng)網(wǎng)絡(luò)

神經(jīng)網(wǎng)絡(luò)是通過對人腦神經(jīng)系統(tǒng)的一系列思考活動過程的模擬,建立一種能接收、處理和判斷信息的類似于人腦結(jié)構(gòu)和功能的系統(tǒng),表現(xiàn)為通過各處理單元的相互連接而組成類似于人腦結(jié)構(gòu)的一種網(wǎng)狀結(jié)構(gòu)系統(tǒng),以此來達(dá)到處理相關(guān)非線性問題和邏輯操作的目的。圖1為一個簡單的三層神經(jīng)網(wǎng)絡(luò),它包括輸入層、隱藏層和輸出層,各個層之間的連線代表權(quán)重。其中,輸入層的節(jié)點(diǎn)對應(yīng)的是待輸入的預(yù)測神經(jīng)元;輸出層的節(jié)點(diǎn)對應(yīng)的是目標(biāo)神經(jīng)元,目標(biāo)神經(jīng)元的個數(shù)可多可少,但是至少為1個;隱含層處于輸入層和輸出層的中間位置,隱含層的層數(shù)和節(jié)點(diǎn)數(shù)決定了神經(jīng)網(wǎng)絡(luò)的復(fù)雜程度。

4.1.2神經(jīng)網(wǎng)絡(luò)模型結(jié)果分析

從神經(jīng)網(wǎng)絡(luò)模型的具體預(yù)測結(jié)果的相關(guān)指標(biāo)表4來分析,最小誤差為-11.452,最大誤差為6.004,平均誤差為-0.163,平均絕對誤差為1.77,標(biāo)準(zhǔn)差為2.589,預(yù)測值和實(shí)際值的線性相關(guān)系數(shù)為0.637,為中度相關(guān),預(yù)測效果不好。

4.2 SVM模型的構(gòu)建

4.2.1 SVM

SVM(Support Vector Machinel支持向量機(jī),是一種二分類模型,目的是求解一個超平面,根據(jù)間隔最大化的原則對樣本數(shù)據(jù)進(jìn)行分割,最終轉(zhuǎn)化為解決一個凸二次規(guī)劃問題。

如圖2所示,在低緯度(左邊)上,正負(fù)類樣本只能靠一個非線性平面(橢圓)來區(qū)分,但是映射到高緯度(右邊)上,可以找到這樣一個分離超平面,從而對樣本數(shù)據(jù)進(jìn)行分割。

4.2.2 SVM模型結(jié)果分析

從SVM模型的具體預(yù)測結(jié)果的相關(guān)指標(biāo)表5來分析,最小誤差為-11.151,最大誤差為5.457,平均誤差為-0.183,平均絕對誤差為1.458,標(biāo)準(zhǔn)差為2.322,預(yù)測值和實(shí)際值的線性相關(guān)系數(shù)為0.745,為中度相關(guān),預(yù)測效果普通。

對比神經(jīng)網(wǎng)絡(luò)模型的預(yù)測指標(biāo),在最小誤差、最大誤差、平均絕對誤差、標(biāo)準(zhǔn)差方面,SVM模型均低于神經(jīng)網(wǎng)絡(luò)模型,只在平均誤差方面略高于神經(jīng)網(wǎng)絡(luò)模型;神經(jīng)網(wǎng)絡(luò)模型的線性相關(guān)系數(shù)為0.637,擬合效果不好,而SVM模型的線性相關(guān)系數(shù)為0.745,擬合效果普通。綜上所述,SVM模型略優(yōu)于神經(jīng)網(wǎng)絡(luò)模型。

4.3逐步回歸模型的構(gòu)建

4.3.1逐步回歸

逐步回歸用于多重共線性的檢驗(yàn),建立最優(yōu)或合適的模型,是多元線性回歸分析中的一種方法,數(shù)學(xué)模型是:

Y=βO+β1*X1+β2*X2+…+βn*Xn

其基本思想是,對每個逐步引入的新變量進(jìn)行F檢驗(yàn),并對已經(jīng)引入的自變量進(jìn)行t檢驗(yàn),當(dāng)原來引入的自變量由于新的自變量的引入變得不再顯著時,則將新引入的解釋變量進(jìn)行刪除舊?;静襟E是:先將每個自變量逐個與因變量進(jìn)行一元線性回歸分析,對自變量根據(jù)對因變量的影響程度進(jìn)行排序,然后按照影響程度從大到小的順序依次引入自變量,每引入一個新的自變量就要對自變量和回歸方程進(jìn)行檢驗(yàn),若顯著則引入,不顯著則剔除,直到無新的自變量可以引入。

4.3.2逐步回歸模型結(jié)果分析

運(yùn)用SPSS Modeler 18.0軟件對數(shù)據(jù)構(gòu)建逐步回歸模型,得到的統(tǒng)計(jì)結(jié)果如表6所示。由表6可知,在逐步回歸過程中,除G1、G2、failures、studytime、reason這些變量外,其余變量存在多重共線性,不滿足進(jìn)入逐步回歸的條件而被剔除。且模型的R2判定系數(shù)為0.859,說明在因變量的變異中,有85.9%可由自變量來解釋,模型預(yù)測效果比較好。根據(jù)t檢驗(yàn)的顯著性和F檢驗(yàn)的顯著性可知,G1、G2、failures、studytime、reason對目標(biāo)變量G3有著顯著影響??傻玫骄€性回歸方程為:

Y=0.120*G1+0.911*G2-0.263*failures+0.147*studytime-0.097*reason

根據(jù)逐步回歸方程對目標(biāo)變量G3進(jìn)行預(yù)測,得到逐步回歸的具體預(yù)測指標(biāo)如表7所示。從逐步回歸的具體預(yù)測結(jié)果的相關(guān)指標(biāo)表7來分析,最小誤差為-9.247,最大誤差為2.576,平均誤差為-0.08,平均絕對誤差為0.861,標(biāo)準(zhǔn)差為1.375,預(yù)測值和實(shí)際值的線性相關(guān)系數(shù)為0.913,為高度相關(guān),預(yù)測效果非常好。

4.4模型比較

本文運(yùn)用神經(jīng)網(wǎng)絡(luò)、SVM、逐步回歸模型分別對學(xué)生葡萄牙語成績G3進(jìn)行預(yù)測,分別得到三個預(yù)測結(jié)果指標(biāo),具體結(jié)果比較如表8所示。

由表7可知,從最小誤差、最大誤差、平均誤差、平均絕對誤差、標(biāo)準(zhǔn)差這五個指標(biāo)來看,逐步回歸模型均低于神經(jīng)網(wǎng)絡(luò)模型和SVM模型;從實(shí)際值與預(yù)測值的線性相關(guān)系數(shù)這一指標(biāo)來看,逐步回歸模型達(dá)到了0.913,均高于神經(jīng)網(wǎng)絡(luò)模型和SVM模型。綜上所述,在預(yù)測學(xué)生成績方面,逐步回歸模型均優(yōu)于神經(jīng)網(wǎng)絡(luò)模型和SVM模型。

5結(jié)論

本文在獲得學(xué)生成績相關(guān)數(shù)據(jù)后,先通過運(yùn)用SPSS Statis-tics 20.0對數(shù)據(jù)進(jìn)行預(yù)處理,再運(yùn)用SPSS Modeler 18.0對指標(biāo)進(jìn)行特征選擇,使得剩余變量對目標(biāo)變量更具有預(yù)測性。分別運(yùn)用神經(jīng)網(wǎng)絡(luò)模型、SVM模型、逐步回歸模型建立學(xué)生成績預(yù)測模型,通過對三種模型預(yù)測結(jié)果的對比分析,得出逐步回歸模型比神經(jīng)網(wǎng)絡(luò)模型和SVM模型更適合學(xué)生成績預(yù)測的結(jié)論。因此,本文的研究在現(xiàn)實(shí)生活中具有一定的應(yīng)用價(jià)值。

安岳县| 宜州市| 商都县| 乌拉特中旗| 新蔡县| 安图县| 芷江| 含山县| 台东市| 安达市| 栾川县| 昭通市| 工布江达县| 台前县| 永德县| 区。| 景泰县| 芜湖县| 许昌市| 桓台县| 伊春市| 高阳县| 镇远县| 霞浦县| 台南县| 峨山| 蓝田县| 武汉市| 白沙| 祁门县| 九龙坡区| 曲阳县| 嵊州市| 仪陇县| 离岛区| 胶南市| 白银市| 伽师县| 城步| 黑水县| 保靖县|