国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于機(jī)器學(xué)習(xí)的“軟助”證書掛科生分類預(yù)測研究

2021-12-30 01:26:18何雪鋒
關(guān)鍵詞:證書標(biāo)準(zhǔn)化預(yù)測

何雪鋒

(四川信息職業(yè)技術(shù)學(xué)院 軟件學(xué)院,四川 廣元 628017)

0 引言

軟件助理工程師(簡稱“軟助”)認(rèn)證考試是某高校軟件專業(yè)大二學(xué)生必須參加的考試,獲取“軟助”證書也是畢業(yè)的基本條件之一。每一屆有300人左右參加考試,約40人不能拿到該證書。如果能根據(jù)學(xué)生大一的各科成績,提前預(yù)測可能掛科的學(xué)生,將更有利于提前為這些學(xué)生發(fā)出預(yù)警信息,也方便教師有針對性地進(jìn)行指導(dǎo),從而盡可能減少不及格的人數(shù),保證學(xué)生順利畢業(yè)。通過挖掘相關(guān)數(shù)據(jù),分析數(shù)據(jù)背后的運行規(guī)律,及時給學(xué)生發(fā)出警告,對課程的及格率、證書的通過率、學(xué)生的畢業(yè)率等均有積極地促進(jìn)作用。

目前,已有專家、學(xué)者對學(xué)生的成績預(yù)警做出了相關(guān)努力和貢獻(xiàn)。樊一娜等人[1]選擇作業(yè)分?jǐn)?shù)、提問回答、登錄次數(shù)、學(xué)習(xí)時長、課程資源訪問頻率五個因素作為依據(jù),通過構(gòu)建貝葉斯概率預(yù)測模型來預(yù)測未來學(xué)生成績的概率分布情況。賈靖怡等人[2]收集某門課程的17個指標(biāo)數(shù)據(jù),構(gòu)建基于AdaBoost算法的MOOC學(xué)習(xí)者學(xué)習(xí)成績預(yù)測模型。劉愛萍[3]采用k平均和knn算法完成高校學(xué)生的預(yù)測模型。葉澤俊[4]采用基于C5.0算法的決策樹分類方法建立決策樹分類模型,對四級通過概率進(jìn)行預(yù)測。張燕[5]提出一種基于樸素貝葉斯的英語成績預(yù)測模型,對英語四級考試成績進(jìn)行預(yù)測。其他研究包括采用支持雙路注意力機(jī)制[6]、向量機(jī)[7-8]、決策樹[9-10]、降采樣的堆模型[11]、Logistic[12-13]、神經(jīng)網(wǎng)絡(luò)[14-15]、隨機(jī)森林[16]、XGBOOST[17]等算法構(gòu)建模型,完成分類預(yù)測。

上述研究成果的應(yīng)用已在成績預(yù)警方面取得了較好的表現(xiàn),但是仍然存在如下幾點不足。第一,很多研究在數(shù)據(jù)量較小的情況下,采用標(biāo)準(zhǔn)差的方式進(jìn)行數(shù)據(jù)的標(biāo)準(zhǔn)化是不夠科學(xué)合理的。標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化數(shù)據(jù)適合趨于正態(tài)分布的數(shù)據(jù),教育數(shù)據(jù)只有在數(shù)據(jù)量足夠大的時候,數(shù)據(jù)分布才接近于正態(tài)分布。第二,教育數(shù)據(jù)有一個顯著的特點,就是數(shù)據(jù)不平衡,不及格學(xué)生一般占比10%左右,而大部分機(jī)器學(xué)習(xí)算法都是基于數(shù)據(jù)基本平衡的前提,因此這樣會導(dǎo)致預(yù)測不夠準(zhǔn)確。第三,部分研究通過單一機(jī)器學(xué)習(xí)構(gòu)建預(yù)測模型,缺乏模型的對比,以準(zhǔn)確率為衡量標(biāo)準(zhǔn),缺乏考慮數(shù)據(jù)的實際意義,需要根據(jù)正類預(yù)測為正類和負(fù)類預(yù)測為負(fù)類的混淆矩陣綜合進(jìn)行判斷。第四,針對學(xué)生資格證書類考試預(yù)測的研究相對較少,沒有對軟件助理工程師考證掛科生分類的相關(guān)研究。

針對以上不足,本文收集了某高校軟件專業(yè)的學(xué)生成績,經(jīng)過清洗后,采用離差標(biāo)準(zhǔn)化數(shù)據(jù),通過SMOTE(Synthetic Minority Oversampling Technique)+Tomek Links算法對不平衡數(shù)據(jù)進(jìn)行過采樣處理,并應(yīng)用XGBoost算法構(gòu)建成績模型,對學(xué)生進(jìn)行分類預(yù)測,通過預(yù)測結(jié)果的準(zhǔn)確率、回調(diào)率、精度、混淆矩陣進(jìn)行模型評估。該方法在預(yù)測“軟助”不及格學(xué)生方面取得了較好的效果,對相關(guān)證書的通過率預(yù)測能起到積極的參考作用。

1 數(shù)據(jù)來源及清洗

1.1 數(shù)據(jù)來源及概況

某高校某學(xué)院包括網(wǎng)絡(luò)、信安、軟件技術(shù)等專業(yè),“軟助”證書是軟件技術(shù)專業(yè)學(xué)生在大二上學(xué)期必須考取的證書,但是該學(xué)院學(xué)生在大一結(jié)束后,學(xué)院內(nèi)部會有大量的專業(yè)調(diào)整,為了較準(zhǔn)確地預(yù)測“軟助”證書的掛科情況,本文選取了整個學(xué)院2018、2019級共24個班的學(xué)生第一學(xué)年的22門課程成績作為研究數(shù)據(jù),從教務(wù)處獲得2018、2019級的“軟助”證書的考試分?jǐn)?shù)表,其中兩屆軟件技術(shù)專業(yè)學(xué)生共515人參加考試。

1.2 數(shù)據(jù)預(yù)處理

數(shù)據(jù)預(yù)處理的合理與否在一定程度上決定了最終數(shù)據(jù)預(yù)測的上限值,再好的模型都只是在無限地接近這個上限值,因此數(shù)據(jù)的預(yù)處理是開始構(gòu)建模型之前較為重要的環(huán)節(jié)。

1.2.1 數(shù)據(jù)清洗

清洗數(shù)據(jù)是建模的必要步驟,只有干凈、有效的數(shù)據(jù)才能發(fā)揮較好的作用。針對學(xué)生成績數(shù)據(jù),數(shù)據(jù)清洗主要包括字段的統(tǒng)一、空值的處理、數(shù)據(jù)的合并、無意義數(shù)據(jù)的刪除等,具體如下:

重命名列名:每個班的成績是一個excel表,導(dǎo)致某一門課在不同班級命名不一致。

空值處理:部分字段存在缺失值,例如英語、高數(shù)、體育大一上學(xué)期存在少部分空值,通過填充大一下學(xué)期對應(yīng)學(xué)科的成績來處理。其他課程少部分?jǐn)?shù)據(jù)缺失,通過填充該門課程的均值來處理。

合并數(shù)據(jù):把22門課程的成績數(shù)據(jù)與“軟助”考試的成績合并成一個文檔。

刪除處理:有少部分外學(xué)院轉(zhuǎn)入的學(xué)生,缺少多門專業(yè)基礎(chǔ)課程,為了避免干擾模型的訓(xùn)練,通過刪除處理該數(shù)據(jù)。

1.2.2 確定特征

通過分析數(shù)據(jù),英語、高數(shù)、體育在大一上下學(xué)期的分?jǐn)?shù)高度相關(guān),因此這三門課大一上下學(xué)期分別合并成一個字段,并以上下學(xué)期的均值填充。軍事訓(xùn)練、軍事理論、形式與政策等八門課程的學(xué)生成績幾乎一樣,無明顯差距,這種數(shù)據(jù)對建模毫無意義,進(jìn)行刪除處理。最終得到13個指標(biāo)(其中第一個字段score取值為True表示“軟助”成績及格,后面的字段是相關(guān)課程的成績)、505條學(xué)生成績的源數(shù)據(jù),如圖1所示。

圖1 確定特征后的數(shù)據(jù)源

1.2.3 標(biāo)準(zhǔn)化處理

常用的數(shù)據(jù)標(biāo)準(zhǔn)化方法有三種:第一是標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化數(shù)據(jù),該方法非常適合數(shù)據(jù)在整體上趨向于正態(tài)分布的情況;第二是離差標(biāo)準(zhǔn)化,該方法適合數(shù)據(jù)在一定范圍內(nèi)分布的情況;第三是四分位距標(biāo)準(zhǔn)化,該方法適合數(shù)據(jù)集中包含多個異常值,此時使用標(biāo)準(zhǔn)差、離差等方法會有較大的誤差。限于數(shù)據(jù)集的數(shù)量不夠大,不符合正太的分布,但是所有字段值都集中在一定范圍內(nèi),因此本文采用離差標(biāo)準(zhǔn)化方法標(biāo)準(zhǔn)化數(shù)據(jù)。

其中,xrc是學(xué)生成績的原始數(shù)據(jù)(r表示樣本行,c表示特征列),xmin是第c個特征的最小值,xmax是第c個特征的最大值,是歸一化后的數(shù)據(jù)。

1.2.4 不平衡處理

解決不平衡的數(shù)據(jù),通常會使用過采樣的方法達(dá)到正反數(shù)據(jù)的平衡,其方法包括隨機(jī)過程采樣、SMOTE方法、SMOTE+Tomek Links的綜合采樣。過采樣之后,結(jié)合決策樹算法,對比不同采樣后構(gòu)建模型的效果,如表1所示。

表1 采用后的效果對比

從表1可以看出,未經(jīng)過處理的不平衡數(shù)據(jù),效果較差,相對而言,SMOTE+Tomek Links的綜合采樣效果較好,文中采用SMOTE+Tomek Links綜合采樣的方法處理不平衡數(shù)據(jù)。

2 模型

本文采用XGBoost模型來預(yù)測“軟助”證書的掛科生,XGBoost是Gradient Boosting算法的一個優(yōu)化版本,通過正則化項防止過擬合,標(biāo)準(zhǔn)GBM(Gradient Boosting Machine)的實現(xiàn)沒有像XGBoost這樣的正則化步驟。GBM采用貪心算法進(jìn)行剪枝,遇到負(fù)損值就會停下,而XGBoost在減枝的時候即便遇到負(fù)損值也會繼續(xù)分裂,以最大深度為限制,最后才返回進(jìn)行剪枝,從而得到綜合評價最好的結(jié)構(gòu)樹。

XGBoost模型的優(yōu)化目標(biāo)函數(shù):

其中,(lyi,)表示當(dāng)前模型的預(yù)測值與真實值的殘差,f(txi)表示新增的樹的優(yōu)化值,Ω(ft)表示正則化懲罰項。該模型就是需要找到f(txi)使得目標(biāo)函數(shù)最優(yōu)。為了方便計算,使用泰勒展開公式來近似地表達(dá)上述目標(biāo)函數(shù)。

泰勒展開公式:

其中,遍歷x相當(dāng)于目標(biāo)函數(shù)的yi,△x相當(dāng)于目標(biāo)函數(shù)的ft(xi)。

定義:

將目標(biāo)函數(shù)按照泰勒公式展開:

式(6)中,T表示葉子的個數(shù),i表示學(xué)生樣本,j表示葉子節(jié)點,因此上式是把對所有學(xué)生樣本的遍歷,轉(zhuǎn)換成對所有葉子節(jié)點的遍歷。因葉子節(jié)點包含了所有的樣本,因此兩個的遍歷是等價的。

定義:

因此,目標(biāo)函數(shù)被簡化為:

如何讓上述目標(biāo)函數(shù)的取值最小,即通過計算變量wj,使得目標(biāo)函數(shù)的值最小。只有當(dāng)該函數(shù)對wj的偏導(dǎo)為0時,獲得最優(yōu)解。

對w求偏導(dǎo)數(shù):

最終目標(biāo)函數(shù)被簡化為:

可以認(rèn)為Obj代表樹的結(jié)構(gòu)分值,其取值越小,代表該樹的結(jié)構(gòu)越好。因此在構(gòu)建最優(yōu)樹的過程中,依據(jù)上述目標(biāo)函數(shù)進(jìn)行增益值的判斷:

3 實驗結(jié)果與分析

基于處理后的數(shù)據(jù)集,采用10折交叉驗證和網(wǎng)格搜索的形式,分別采用決策樹、邏輯斯蒂回歸、隨機(jī)森林、XGBoost構(gòu)造了四種“軟助”預(yù)測模型,通過分析準(zhǔn)確率(accuracy)、召回率(recall)、精度(precision)以及混淆矩陣4個指標(biāo),對“軟助”證書掛科生分類預(yù)測模型進(jìn)行全面評估,其中四種模型的預(yù)測結(jié)果如表2所示。

表2 四種模型的預(yù)測結(jié)果

由表2可以看出,隨機(jī)森林和XGBoost構(gòu)建的預(yù)測模型效果最佳,為了進(jìn)一步選出在“軟助”證書掛科生分類預(yù)測中最好的模型,我們進(jìn)一步通過混淆矩陣來判斷兩個模型的好壞。

混淆矩陣如表3所示。

表3 混淆矩陣

混淆矩陣的基本概念如下:

(1)False Negative(假負(fù)):表示把未通過“軟助”的學(xué)生預(yù)測為未通過。

(2)False Positive(FP)(假正):表示把未通過“軟助”的學(xué)生預(yù)測為通過。

(3)True Positive(真正):表示把通過“軟助”的學(xué)生預(yù)測為通過。

(4)True Negative(真負(fù)):表示把通過“軟助”的學(xué)生預(yù)測為未通過。

隨機(jī)森林和XGBoost的混淆矩陣如表4所示。

表4 隨機(jī)森林和XGBoost的混淆矩陣

從表4中可以看出,數(shù)據(jù)源的20%測試集中,共89個未通過的學(xué)生,85個通過的學(xué)生,隨機(jī)森林構(gòu)建的預(yù)測模型,正確預(yù)測未通過的學(xué)生是83個,而XGBoost構(gòu)建的預(yù)測模型,正確預(yù)測未通過的學(xué)生是87個。在兩個模型的準(zhǔn)確率、召回率、精度基本相當(dāng)?shù)那疤嵯?,需要選擇能更多地預(yù)測出可能掛科的學(xué)生的模型,其中有兩個原因,其一,作為考前輔導(dǎo),應(yīng)該盡可能把容易掛科的學(xué)生找出來進(jìn)行輔導(dǎo);其二,每一年批改試卷的教師不同,有的教師批改較松,會把接近及格的成績給成及格,因而誤將部分通過的學(xué)生預(yù)測為未通過是較合理的。綜上所述,XGBoost構(gòu)建的“軟助”證書掛科生分類預(yù)測具有最佳的效果。

4 結(jié)語

本文針對某高校軟件專業(yè)部分學(xué)生無法一次性通過“軟助”考證的現(xiàn)狀,通過采集2018-2019級兩屆學(xué)生大一上下學(xué)期22門課程的所有成績,結(jié)合離差標(biāo)準(zhǔn)化、SMOTE+Tomek Links過采樣、XGBoost(Extreme Gradient Boosting)算法等,構(gòu)建了“軟助”掛科生分類預(yù)測模型。該方法在“軟助”掛科生預(yù)測中取得了較理想的效果,準(zhǔn)確率達(dá)到了90.6%,并能最大限度地找出容易掛科的學(xué)生。該實驗證明,采用XGBoost算法構(gòu)建的模型比其他算法構(gòu)建的模型效果更好,對預(yù)測可能掛科的學(xué)生提前預(yù)警,教師有針對性地進(jìn)行指導(dǎo)具有非常重要的指導(dǎo)意義,進(jìn)而保證了該證書的通過率。另外,該方法對其他證書的通過率、掛科生分類預(yù)測等也具有一定的參考意義。

猜你喜歡
證書標(biāo)準(zhǔn)化預(yù)測
無可預(yù)測
黃河之聲(2022年10期)2022-09-27 13:59:46
WJCI 收錄證書
選修2-2期中考試預(yù)測卷(A卷)
選修2-2期中考試預(yù)測卷(B卷)
CSCD收錄證書
草原與草坪(2022年1期)2022-05-11 10:44:40
收錄證書
標(biāo)準(zhǔn)化簡述
收錄證書
標(biāo)準(zhǔn)化是綜合交通運輸?shù)谋U稀庾x《交通運輸標(biāo)準(zhǔn)化體系》
中國公路(2017年9期)2017-07-25 13:26:38
不必預(yù)測未來,只需把握現(xiàn)在
松原市| 通渭县| 拜城县| 东光县| 林芝县| 什邡市| 抚远县| 隆化县| 阳西县| 通道| 锡林浩特市| 奎屯市| 昆山市| 虞城县| 南宁市| 苍梧县| 于田县| 榆中县| 页游| 屏东市| 绥江县| 墨竹工卡县| 师宗县| 日照市| 泰州市| 托克逊县| 喜德县| 土默特右旗| 三原县| 招远市| 高雄市| 仙桃市| 太谷县| 永城市| 萨嘎县| 酉阳| 嵊州市| 德阳市| 镇康县| 六盘水市| 丹棱县|