国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

大學(xué)初期學(xué)業(yè)表現(xiàn)與學(xué)生傾向性指標(biāo)的相關(guān)性研究

2024-01-02 23:58梅盛旺趙慧芳萬洪芳侯英杰
關(guān)鍵詞:機(jī)器學(xué)習(xí)

梅盛旺 趙慧芳 萬洪芳 侯英杰

文章編號:1671-1653(2023)04-0080-12

摘?要:通過機(jī)器學(xué)習(xí)算法對大學(xué)初期的學(xué)生學(xué)業(yè)表現(xiàn)進(jìn)行預(yù)測和可解釋性研究。利用One-Hot對離散型變量進(jìn)行編碼,利用Lasso提取和降維特征變量,基于隨機(jī)森林、XGBoost、樸素貝葉斯和邏輯回歸等機(jī)器學(xué)習(xí)算法訓(xùn)練模型,借助SHAP對最優(yōu)模型(隨機(jī)森林)特征進(jìn)行解釋。研究結(jié)果表明,對于不同層次學(xué)業(yè)表現(xiàn)的學(xué)生,影響其學(xué)業(yè)的因素存在差異。其中,高考成績(如數(shù)學(xué)成績、外語成績)、學(xué)生對錄取專業(yè)或系別的滿意度、在校比賽成績與操行情況對學(xué)生學(xué)業(yè)表現(xiàn)都存在明顯的影響。通過傾向性指標(biāo)信息能夠?qū)W(xué)生在大學(xué)初期的學(xué)業(yè)表現(xiàn)作出基本判斷,并可據(jù)此提前關(guān)注可能存在學(xué)業(yè)困難的學(xué)生。

關(guān)鍵詞:大學(xué)初期;學(xué)業(yè)表現(xiàn);傾向性指標(biāo);機(jī)器學(xué)習(xí);SHAP值

中圖分類號:G642.0????文獻(xiàn)標(biāo)識碼:A???DOI:10.7535/j.issn.1671-1653.2023.04.011

Research on the Correlation between Academic Performance in Early College Years and Student Tendency Indicators:Prediction and Interpretability Analysis Based on Machine Learning

MEI Shengwang1, ZHAO Huifang2, WAN Hongfang1, HOU Yingjie1

(1.Enrollment and Employment Office, Nanchang Business College of JXAU, Jiujiang 332020, China;

2.Dean's Office, Jiangxi Agricultural University, Nanchang 330045,China)

Abstract:

Machine learning algorithm was used to predict and interpret the academic performance of students in the early stage of university. In this paper, One-Hot was used to encode discrete variables, Lasso was used to process data variables and extract and reduce dimension features. The model was trained based on machine learning algorithms such as Random Forest, XGBoost, Naive Bayes and Logistic regression, and the features of the optimal model (Random Forest) were interpreted by SHAP. The results show that the factors affecting the academic performance of students at different levels are different. Among them, college entrance examination scores (such as mathematics and foreign language scores), students' satisfaction with the admitted major or department, and their performance in school competitions all have significant influence on students' academic performance. Based on students' tendency indicators, basic judgement can be made about students' academic performance in the early stage of university, and students who may have academic difficulties can be paid attention to and intervened in advance according to their basic information.

Keywords:

early stage of university;academic performance; tendency indicators; machine learning; SHAP value

一、引言

學(xué)生學(xué)業(yè)表現(xiàn)不僅影響著學(xué)生未來的職業(yè)發(fā)展[1](P350-366),而且也是評價教育質(zhì)量和教師教學(xué)能力的重要指標(biāo)[2](P5-8)。學(xué)者們通過問卷調(diào)查法、觀察法、實驗法等方法,對大學(xué)生學(xué)業(yè)表現(xiàn)影響因素進(jìn)行了深入研究[3](P1460-1479)。通常將學(xué)業(yè)表現(xiàn)的影響因素分為兩類指標(biāo)[4](P5-15,44,79):一是傾向性指標(biāo)(靜態(tài)指標(biāo)),即學(xué)生進(jìn)入學(xué)習(xí)環(huán)境時自身已經(jīng)帶有的一些屬性,如學(xué)生的個人特性[5](P1-16)、家庭背景[6](P189-214);二是行為表現(xiàn)指標(biāo)(動態(tài)指標(biāo)),即學(xué)生在學(xué)習(xí)過程中體現(xiàn)的動態(tài)指標(biāo),如學(xué)校因素[7](P1-8)、社會性活動或聯(lián)系[8](P2117-2127)。在學(xué)習(xí)初期,傾向性指標(biāo)對學(xué)業(yè)表現(xiàn)的預(yù)測能力往往要強于行為表現(xiàn)指標(biāo)[9](P65-86)。

從已有的研究來看,影響學(xué)生學(xué)業(yè)表現(xiàn)的因素錯綜復(fù)雜,并且很難從單一的因素明確預(yù)測學(xué)生的學(xué)業(yè)表現(xiàn)。長期以來,教育學(xué)的研究大多基于小數(shù)據(jù),以傳統(tǒng)統(tǒng)計法為主,研究模式相對單一。絕大部分學(xué)業(yè)表現(xiàn)的相關(guān)研究數(shù)據(jù)是通過問卷調(diào)查和自我報告獲取,樣本數(shù)據(jù)量相對有限,并且傳統(tǒng)的統(tǒng)計分析方法在揭示變量之間復(fù)雜關(guān)系的能力方面受到限制。當(dāng)前隨著機(jī)器學(xué)習(xí)方法在各領(lǐng)域廣泛應(yīng)用,在社會科學(xué)研究領(lǐng)域也受到廣大學(xué)者的關(guān)注和應(yīng)用[10]?(P1-8)。算法時代的到來,改變了教育學(xué)研究的范式,從以往的“設(shè)計式研究”轉(zhuǎn)變成“全量式研究”。在評估影響學(xué)生學(xué)業(yè)表現(xiàn)因素方面,機(jī)器學(xué)習(xí)的優(yōu)勢明顯,其更擅長處理大數(shù)據(jù)并提取傳統(tǒng)方法可能遺漏的隱藏的內(nèi)在聯(lián)系,有利于重塑教育定量研究的取向和功能期望,助推教育定量研究乃至整個教育研究的范式實現(xiàn)突破[11](P35-44)。最近,支持向量機(jī)(SVM)、隨機(jī)森林、深度神經(jīng)網(wǎng)絡(luò)(DNN)、XGBoost等監(jiān)督機(jī)器學(xué)習(xí)方法已經(jīng)開始解決教育學(xué)研究領(lǐng)域的分類和預(yù)測問題[12](P881-889),如大學(xué)生行為規(guī)律性等行為模式對學(xué)習(xí)成績的影響[7](P1-8)、學(xué)生自殺率因素的預(yù)測模型建立[10](P1-8)等。

雖然機(jī)器學(xué)習(xí)模型在分析結(jié)果上表現(xiàn)很優(yōu)異,但它的黑箱算法和模型內(nèi)部運行機(jī)制(特別是深度模型、集成樹模型等復(fù)雜模型)很難理解。而可解釋的機(jī)器學(xué)習(xí)使機(jī)器學(xué)習(xí)系統(tǒng)的行為和預(yù)測更易理解。SHAP(Shapley Additive exPlanations)使用來自博弈論及其相關(guān)擴(kuò)展的經(jīng)典 Shapley value將最佳信用分配與局部解釋聯(lián)系起來,是一種基于游戲理論上最優(yōu)的 Shapley value來解釋個體預(yù)測的方法[13]?(P4768-4777)。

不同的家庭背景[14](P129-148)、個人特征[5](P1-16)、大學(xué)入學(xué)標(biāo)準(zhǔn)考試成績[15](P74-80)、對教育的期望或?qū)I(yè)滿意度[16](P70-76)以及目標(biāo)期望[17](P1-15) [18]?(P121-160)對學(xué)生的學(xué)業(yè)表現(xiàn)都有著重要影響。而這些信息屬于傾向性指標(biāo),并且能夠從學(xué)生入學(xué)信息中提取出來,因此,本研究以學(xué)生傾向性指標(biāo)信息為基礎(chǔ),利用機(jī)器學(xué)習(xí)算法(隨機(jī)森林、XGBoost、樸素貝葉斯、邏輯回歸)識別影響學(xué)生大學(xué)初期(大學(xué)一年級)學(xué)習(xí)成績的重要因素,并建立模型來反映這些因素對不同學(xué)業(yè)表現(xiàn)學(xué)生的影響程度(如圖1所示),以便于學(xué)校和教師能夠提前關(guān)注學(xué)業(yè)成績存在風(fēng)險的學(xué)生。同時,基于SHAP方法分析模型的可解釋性,以確保結(jié)果易于理解并在實踐中應(yīng)用。

二、 數(shù)據(jù)和方法

(一) 數(shù)據(jù)收集

研究數(shù)據(jù)為江西省一所地方院校2020年和2021年入學(xué)的共計4 273名學(xué)生的信息和數(shù)據(jù),其中,2020年入學(xué)學(xué)生1 934名,2021年入學(xué)學(xué)生2 339名。依據(jù)學(xué)者們的相關(guān)研究和典型應(yīng)用,選取關(guān)鍵傾向性指標(biāo)(見表1),包括高考錄取投檔信息、在校表現(xiàn)、個人信息、家庭背景、錄取期望、目標(biāo)期望等。其中,特征變量說明見表2。所使用的學(xué)生數(shù)據(jù)均匿名,不涉及個人隱私。

1.個人信息、家庭背景信息及學(xué)生高考錄取投檔信息

一是個人信息,從該校招生錄取系統(tǒng)中獲取,包括性別、政治面貌、民族、地區(qū)、年齡等信息。二是家庭背景信息,通過問卷調(diào)查方式獲取,包括獨生子女、父母最高學(xué)歷、家庭收入情況等信息。三是高考錄取投檔信息,包括投檔分?jǐn)?shù)、語文成績、數(shù)學(xué)成績、外語成績、考生類別、錄取志愿、考試科類、招生省份、錄取院系、外語語種、考試類別、批次、科類、特長、獲獎情況等信息。其中,高考成績變量由于不同省份高考本科分?jǐn)?shù)線不同,為公平地衡量學(xué)生高考成績,本研究中采取分控比形式,即考生投檔分?jǐn)?shù)與生源省份當(dāng)年本科省控線的比作為該生生源質(zhì)量的賦分,以及語文、數(shù)學(xué)、外語成績;考生類別,包括農(nóng)村應(yīng)屆、農(nóng)村往屆、城市應(yīng)屆、城市往屆4個類別;錄取志愿,即學(xué)生被錄取的專業(yè)是其報考專業(yè)志愿順序數(shù)。

2.錄取期望和目標(biāo)期望信息

數(shù)據(jù)由對學(xué)生的問卷調(diào)查方式獲取,本文使用錄取到本專業(yè)意愿、錄取到本學(xué)校意愿、對專業(yè)的滿意度、對學(xué)校的滿意度、畢業(yè)去向的初步想法等字段,并對這些字段進(jìn)行特征化處理。

3.在校表現(xiàn)信息

包括大學(xué)一年級的GPA、參加比賽獎勵分、操行表現(xiàn)分等。GPA越高,說明該學(xué)生在大學(xué)初期學(xué)業(yè)表現(xiàn)越好。參加比賽獎勵分按照學(xué)校學(xué)生守則中的規(guī)定進(jìn)行賦分,根據(jù)比賽級別和獲獎等級情況進(jìn)行累加賦分,代表學(xué)生的在?;顒颖憩F(xiàn)情況,分?jǐn)?shù)越高說明學(xué)生在學(xué)?;顒又斜憩F(xiàn)越優(yōu)秀;操行表現(xiàn)分是指在校操行表現(xiàn)、參加課外活動情況所得的分?jǐn)?shù),分?jǐn)?shù)越高說明學(xué)生操行表現(xiàn)越好。

(二)方法

1.模型訓(xùn)練

利用機(jī)器學(xué)習(xí)算法對大學(xué)生學(xué)業(yè)表現(xiàn)進(jìn)行分類預(yù)測。GPA數(shù)據(jù)作為分類標(biāo)簽,并做以下規(guī)定:分為3.0以下(低GPA 組)、3.0~3.5(中GPA 組)以及3.5以上(高GPA 組)三組,其中3.0以下為學(xué)業(yè)表現(xiàn)一般,3.0~3.5為學(xué)業(yè)表現(xiàn)良好,3.5以上為學(xué)業(yè)表現(xiàn)優(yōu)秀。學(xué)生的GPA分布情況如圖2所示,將近55%的學(xué)生屬于學(xué)業(yè)表現(xiàn)一般,將近40%的學(xué)生屬于學(xué)業(yè)表現(xiàn)良好,而將近5%的學(xué)生屬于學(xué)業(yè)表現(xiàn)優(yōu)秀。由于高GPA組的樣本偏少,采取重復(fù)增加高GPA組數(shù)據(jù)至20%的方式,便于訓(xùn)練模型。

采用隨機(jī)森林、XGBoost、樸素貝葉斯、邏輯回歸等四類機(jī)器學(xué)習(xí)的算法,利用網(wǎng)格搜索驗證法優(yōu)化以上模型的參數(shù)配置。其中,利用機(jī)器學(xué)習(xí)工具Scikit-Learn隨機(jī)分隔數(shù)據(jù),將數(shù)據(jù)的80%作為訓(xùn)練集,20%作為測試集,分別對機(jī)器學(xué)習(xí)模型進(jìn)行訓(xùn)練和驗證評價。對缺失字段的數(shù)據(jù)樣本進(jìn)行刪除。

分類模型在測試集上的性能用準(zhǔn)確度、精確度、混淆矩陣、召回率、F1分?jǐn)?shù)、Jaccard分?jǐn)?shù)和海明損失等評價指標(biāo)來衡量。

2.可解釋SHAP模塊

使用SHAP度量數(shù)據(jù)特征重要性并進(jìn)行解釋。基于合作博弈中SHAP理論的歸因分析方法, 計算機(jī)器學(xué)習(xí)模型中各因素的重要性估計值貢獻(xiàn)g(x′)用式(1)表示,其中,x′為M個特征的簡化輸入,φ0為平均貢獻(xiàn)值,φj為貢獻(xiàn)特征j的Shapley值。

當(dāng)φ0為模型輸出期望E(f(x))時,SHAP輸出值與模型的真實輸出值相接近[19](3386-3404)。

(三) 特征工程處理

1.獨熱編碼

對于分類特征變量,特征值不連續(xù),呈現(xiàn)出離散、無序狀態(tài),采取獨熱編碼(One-Hot Encoding)進(jìn)行處理。獨熱編碼是將離散變量的特征取值擴(kuò)展到歐式空間,將分類數(shù)據(jù)進(jìn)行二進(jìn)制化向量表示。本研究中對招生省份、錄取院系、外語語種、性別、民族、考試類別代碼、批次代碼、科類代碼、政治面貌、地區(qū)、特長代碼、高中獲獎代碼等12個分類變量進(jìn)行獨熱編碼,共獲得2 421個特征。

2.Lasso特征選擇

Lasso是一種采用L1正則化的線性回歸算法[20](P273-282),利用絕對系數(shù)函數(shù)作為懲罰函數(shù),通過加入L1正則懲罰項來縮減變量的系數(shù)至0,從而達(dá)到特征選擇的目的[21](P1-49)。通過Lasso變量選擇,最終確定130個特征作為機(jī)器學(xué)習(xí)的變量。

三、結(jié)果分析與討論

(一)部分特征工程描述

1.高考成績

高考總成績與GPA呈現(xiàn)兩段式變化,第一段是分控比值≤1.04時,隨著分控比值升高,GPA值呈上升趨勢;第二段是分控比值>1.04時,隨著分控比值升高,GPA值整體有下降趨勢。分控比值主要是集中于1.03~1.05,而分控比值≤1.04的學(xué)生占比較大,為67.2%。

以5分為區(qū)間取得的語文、數(shù)學(xué)和外語成績相應(yīng)的GPA平均值(如圖3所示),高考分控比(圖3(a))、高考語文成績(圖3(b))、高考數(shù)學(xué)成績(圖3(c))和高考外語成績(圖3(d))與GPA的分布情況。高考語文(R2=0.22,Pearson=0.47)、數(shù)學(xué)(R2=0.57,Pearson=0.76)和外語(R2=0.63,Pearson=0.83)成績擬合的曲線斜率為正值,對GPA表現(xiàn)都呈現(xiàn)出正向影響,其中外語成績的影響最為明顯,曲線斜率最大,擬合程度最好。

2.考生類別

將考生類別分為城鎮(zhèn)應(yīng)屆、農(nóng)村應(yīng)屆、城鎮(zhèn)往屆和農(nóng)村往屆4類,進(jìn)一步分析4類學(xué)生的GPA分布情況。如圖4所示,由農(nóng)村應(yīng)屆—城鎮(zhèn)應(yīng)屆—農(nóng)村往屆—城鎮(zhèn)往屆的GPA平均值和中值呈現(xiàn)出輕微依次遞減的趨勢,表明城鄉(xiāng)應(yīng)、往屆類別與學(xué)業(yè)表現(xiàn)存在一定的聯(lián)系。這與其他學(xué)者的研究結(jié)果一致,即城鎮(zhèn)和農(nóng)村學(xué)生的學(xué)業(yè)表現(xiàn)是存在差異的[22](P353-372)。

3.在校表現(xiàn)

獎勵分?jǐn)?shù)與GPA關(guān)系如圖5、圖6所示。操行獎勵分?jǐn)?shù)、比賽獎勵分?jǐn)?shù)與GPA呈線性關(guān)系。如熱力圖所示,操行獎勵分<5分的學(xué)生密度較大,比賽獎勵分<20分的學(xué)生密度較大。其中,比賽獎勵分和GPA呈強烈的正相關(guān)性(R2=0.92),而操行獎勵分和GPA的相關(guān)性相對較?。≧2=0.59),說明學(xué)生在校的表現(xiàn)與學(xué)業(yè)表現(xiàn)是存在關(guān)系的。

4.目標(biāo)期望

學(xué)生畢業(yè)的初步目標(biāo)包括自主創(chuàng)業(yè)、目前還沒想法或暫不考慮就業(yè)、自由職業(yè)、直接就業(yè)、參軍入伍和繼續(xù)升學(xué)等6個目標(biāo)。據(jù)表3和圖7顯示,畢業(yè)去向目標(biāo)與學(xué)生的學(xué)業(yè)表現(xiàn)存在一定的聯(lián)系,其中想繼續(xù)升學(xué)的學(xué)生的學(xué)業(yè)表現(xiàn)最優(yōu),明顯要優(yōu)于其他目標(biāo)意愿的學(xué)生,而自主創(chuàng)業(yè)意愿的學(xué)生學(xué)業(yè)表現(xiàn)最差。

(二)分類模型比較:模型效果的分析與比較

模型的測試集結(jié)果評價指標(biāo)如表4、圖8所示。模型評價的參數(shù)包括準(zhǔn)確度、精度、召回率、F1分?jǐn)?shù)、Jaccard score和Hamming loss。表4和圖8是這四類機(jī)器學(xué)習(xí)模型的評價指標(biāo)具體值,顯然隨機(jī)森林分類模型的各項評價指標(biāo)相對最好,XGBoost、邏輯回歸和樸素貝葉斯模型評價指標(biāo)則相當(dāng),模型表現(xiàn)次于隨機(jī)森林。隨機(jī)森林的F1分?jǐn)?shù)和Jaccard分?jǐn)?shù)最高,Hamming loss最低,對本研究的分類預(yù)測和特征抽取具有重要意義。

隨機(jī)森林、XGBoost、樸素貝葉斯和邏輯回歸4種算法模型的測試集混淆矩陣結(jié)果顯示(如圖9所示),高GPA組和低GPA組分類模型的預(yù)測效果相比中GPA組要更好,對三類學(xué)業(yè)表現(xiàn)組的分類效果排序:隨機(jī)森林>XGBoost>樸素貝葉斯>邏輯回歸。因此,隨機(jī)森林算法模型對這三類學(xué)業(yè)表現(xiàn)組分類效果最佳。

(三) 模型結(jié)果解釋:基于SHAP可解釋性方法的學(xué)業(yè)表現(xiàn)重要特征因素評估

基于上述模型比較,選擇最優(yōu)模型,根據(jù)SHAP算法解釋隨機(jī)森林的重要特征,進(jìn)一步討論影響學(xué)業(yè)表現(xiàn)的因素,SHAP值越高的變量對模型的貢獻(xiàn)越大。SHAP算法是一種方便的基于樹的模型工具,可用于估計每個分類特征的相對重要性,即一個特征的SHAP值表示它通過減少損失來影響模型預(yù)測的程度[23](P1-22)。使用隨機(jī)森林模型實現(xiàn)Tree Explainer來計算每個特性的SHAP值。在多類問題的特征重要性堆疊條形圖(如圖10所示)中,特征是根據(jù)其降序的平均SHAP值或重要性排序的。由圖10可知,學(xué)生在?;顒拥谋憩F(xiàn)情況以及高考數(shù)學(xué)成績、外語成績等入學(xué)成績對學(xué)生大學(xué)初期學(xué)業(yè)表現(xiàn)的影響較為明顯,錄取的專業(yè)和系別以及學(xué)生對本專業(yè)的滿意度也存在影響,性別、民族、生源省份、考生類別等學(xué)生個人信息對學(xué)生學(xué)業(yè)表現(xiàn)的預(yù)測結(jié)果有較為明顯的影響。

使用SHAP算法計算測試集每一個樣品對輸出結(jié)果的影響,用以評估各特征對模型的貢獻(xiàn)。SHAP概要圖(如圖11所示)中一個點代表一個特征,正SHAP值代表該特征對模型的影響是正向的,而負(fù)SHAP值代表該特征對模型的影響是負(fù)向的,其中藍(lán)色表示該特征的貢獻(xiàn)是負(fù)數(shù),紅色則表示該特征的貢獻(xiàn)是正數(shù)。SHAP值依賴圖(如圖12所示)用以說明特征變量對模型預(yù)測結(jié)果的邊際效應(yīng),能夠反映出預(yù)測結(jié)果與特征之間呈現(xiàn)出的相關(guān)關(guān)系。

1.高GPA組

在隨機(jī)森林分類算法預(yù)測模型中,高考外語和數(shù)學(xué)成績的紅色數(shù)據(jù)點主要位于坐標(biāo)軸右側(cè),其SHAP值為正值時對模型的正向影響明顯。依賴圖12(a)—12(f)中顯示出與SHAP值正相關(guān)的特點,高考外語和數(shù)學(xué)成績能夠正向影響學(xué)生的學(xué)業(yè)表現(xiàn),這與其他學(xué)者的研究結(jié)論一致[15](P74-80)。同時,選擇專業(yè)的意愿和對未來畢業(yè)后的期望對學(xué)生的學(xué)業(yè)成績具有正向影響(如圖11(a)所示)。換而言之,在高GPA組中,學(xué)生對專業(yè)選擇和未來規(guī)劃有明確想法,其學(xué)業(yè)表現(xiàn)也相對更出色。此外,從圖12(j)可以明顯看出,考生類別與SHAP值呈負(fù)相關(guān)關(guān)系,表明在學(xué)業(yè)表現(xiàn)優(yōu)秀的學(xué)生中,應(yīng)屆生的表現(xiàn)要好于往屆生,農(nóng)村學(xué)生要好于城市學(xué)生。比賽獎勵分對模型具有重要影響。圖12(c)中,比賽獎勵分特征紅色數(shù)據(jù)點主要位于坐標(biāo)軸右側(cè),其SHAP值為正值時對模型的正向影響明顯,圖12(f)中也顯示出比賽獎勵分與SHAP值呈現(xiàn)正相關(guān)關(guān)系,這說明學(xué)生的比賽獎勵分越高,其學(xué)業(yè)表現(xiàn)越好。操行表現(xiàn)分呈現(xiàn)出與比賽獎勵分相同的特點,說明高GPA組學(xué)生參加比賽表現(xiàn)和在校操行表現(xiàn)越好對學(xué)業(yè)表現(xiàn)越有積極作用。

2.中GPA組

與高GPA組的影響特征相似,比賽獎勵分、高考數(shù)學(xué)成績特征對中GPA組模型的影響較大,而操行獎勵分對模型的正向影響程度要低于比賽獎勵分,但考生類別對中GPA組的學(xué)生影響不明顯(如圖11b所示)。

3.低GPA組

高考外語成績、數(shù)學(xué)成績、比賽獎勵分和操行表現(xiàn)分對低GPA組呈負(fù)向影響。如圖11(c)所示,高考外語成績、數(shù)學(xué)成績、比賽獎勵分和操行表現(xiàn)分特征紅色數(shù)據(jù)點主要位于坐標(biāo)軸左側(cè);而特征藍(lán)色數(shù)據(jù)點主要位于坐標(biāo)軸右側(cè),說明特征值較小時,其SHAP值為正值,表明學(xué)生的高考外語成績、數(shù)學(xué)成績以及比賽獎勵分?jǐn)?shù)越低,其GPA值也可能表現(xiàn)出上升的趨勢(圖12(c)和圖12(d))。依賴圖(圖12(i)-(j))中也顯示出比賽獎勵分與SHAP值呈現(xiàn)負(fù)相關(guān)關(guān)系,這意味著低GPA組學(xué)生的比賽獎勵分?jǐn)?shù)越高,其學(xué)業(yè)表現(xiàn)反而不好。錄取專業(yè)的意愿、對未來畢業(yè)后的想法呈現(xiàn)出與比賽獎勵分相似的特點,即藍(lán)色數(shù)據(jù)點位于坐標(biāo)軸右側(cè),紅色點位于坐標(biāo)軸左側(cè)(如圖11(c)所示)。實際上,低GPA組的學(xué)生往往目標(biāo)不明確或者渴望自主創(chuàng)業(yè),這一類學(xué)生學(xué)業(yè)上表現(xiàn)較為一般。圖12(l)中,考生類別與SHAP值呈正相關(guān)關(guān)系,說明學(xué)業(yè)表現(xiàn)一般的學(xué)生組中,往屆考生對模型的影響要大于應(yīng)屆考生。

四、結(jié)論與建議

(一)結(jié)論與研究局限

1.結(jié)論

本文利用機(jī)器學(xué)習(xí)模型對大學(xué)生初期學(xué)業(yè)表現(xiàn)的傾向性影響因素進(jìn)行了探討,基于SHAP方法解釋了模型特征的貢獻(xiàn)程度。通過上述的分析發(fā)現(xiàn),影響大學(xué)生初期學(xué)業(yè)表現(xiàn)的傾向性指標(biāo)特征是復(fù)雜的,不能單獨用某個因素解釋??傮w而言,歸結(jié)為以下四個方面。

第一,特征SHAP值反映了個體屬性,如性別、民族、年齡、家庭結(jié)構(gòu)等學(xué)生個人信息,對學(xué)生大學(xué)初期的學(xué)業(yè)表現(xiàn)有明顯影響。以性別特征為例,學(xué)業(yè)表現(xiàn)呈現(xiàn)出性別差異,女生在大學(xué)初期學(xué)業(yè)表現(xiàn)要好于男生,這與梁耀明等[24](P55-59)的研究結(jié)論一致。男女生的生理和心理成長具有一定的規(guī)律性,他們在智力潛能、自覺意識覺醒過程方面存在差異,男生往往具備“后發(fā)優(yōu)勢”。而家庭背景因素,如城鎮(zhèn)/農(nóng)村生源性質(zhì)(考生類別)、是否獨生子女、父母學(xué)歷以及家庭經(jīng)濟(jì)狀況與學(xué)生學(xué)業(yè)表現(xiàn)情況也存在著一定關(guān)系。

第二,對于不同學(xué)業(yè)層次的學(xué)生,影響他們學(xué)業(yè)表現(xiàn)的因素是有區(qū)別的。總體上看,高考數(shù)學(xué)成績、外語成績、比賽獎勵分、操行表現(xiàn)分的影響較大。高考成績是初始知識技能指標(biāo),對之后的學(xué)習(xí)具有一定的延續(xù)影響。而學(xué)生的校園行為模式,如參加活動或比賽的積極性、在活動或比賽中的表現(xiàn)與學(xué)業(yè)表現(xiàn)是存在相關(guān)性的。但是這種相關(guān)性并不是簡單的線性關(guān)系,在不同學(xué)業(yè)層次的學(xué)生中,學(xué)生的校園行為模式的影響是存在差異的。

第三,學(xué)生的個人期望對大學(xué)生初期學(xué)業(yè)表現(xiàn)影響相對突出。一方面,錄取專業(yè)和系別是否符合學(xué)生的入學(xué)期望影響著大學(xué)初期學(xué)生的學(xué)業(yè)表現(xiàn),通常錄取專業(yè)符合學(xué)生期望,則正向促進(jìn)學(xué)業(yè)成就;另一方面,具有明確畢業(yè)目標(biāo)期望的學(xué)生學(xué)業(yè)表現(xiàn)往往較好,學(xué)生通過追求學(xué)習(xí)目標(biāo),持續(xù)獲得驅(qū)動學(xué)業(yè)成就的動力,對學(xué)業(yè)表現(xiàn)有正向影響。

第四,相較于高、中、低GPA組的學(xué)生存在更大的學(xué)習(xí)困難風(fēng)險,其影響特征具有一定的可識別性。低GPA組學(xué)生的高考數(shù)學(xué)、外語分?jǐn)?shù)以及在?;顒颖憩F(xiàn)相對較差,并且城鎮(zhèn)學(xué)生比農(nóng)村學(xué)生具有更大的學(xué)業(yè)風(fēng)險,部分學(xué)生目標(biāo)定位不明晰、自我認(rèn)知不足。

此外,雖然高考總分?jǐn)?shù)比值對模型結(jié)果有一定程度的影響,但由于該學(xué)院的高考錄取分?jǐn)?shù)相對集中,學(xué)生間高考總分的分差小,呈現(xiàn)扁平化特點,因此在本模型中高考總分對預(yù)測結(jié)果的貢獻(xiàn)程度有限。而對專業(yè)和學(xué)校的錄取意愿、對未來畢業(yè)后的想法、考生類別等因素對模型的影響則相對明顯。

2.研究的局限性

本研究的局限性主要有兩點:第一,本研究僅是觀察了一所地方院校的學(xué)生,數(shù)據(jù)涵蓋面不夠廣,不能夠很好地建立系統(tǒng)的、具有很強代表性的模型。第二,本研究所采用的數(shù)據(jù)變量存在一定局限性,當(dāng)前中國不同層次高校的生源結(jié)構(gòu)已經(jīng)呈現(xiàn)較為明顯的差異分化特點。本文的研究對象是地方院校的學(xué)生,實際上地方院校的生源結(jié)構(gòu)已經(jīng)固化,如家庭背景因素,在這所院校中父輩的教育程度90%為高中及以下學(xué)歷,機(jī)器學(xué)習(xí)模型難以訓(xùn)練并評估父輩教育程度對學(xué)業(yè)表現(xiàn)分類的重要性。

(二)建議

1.構(gòu)建學(xué)業(yè)預(yù)警機(jī)制,引入有效預(yù)測指標(biāo)

學(xué)業(yè)預(yù)警機(jī)制對降低學(xué)生學(xué)業(yè)風(fēng)險有重要作用。干預(yù)措施不能僅限于事后,應(yīng)提前關(guān)注和介入,篩查出潛在的“學(xué)困”學(xué)生。傾向性指標(biāo),如性別、年齡、民族、家庭背景、高中學(xué)業(yè)成績等對學(xué)生的初期學(xué)業(yè)表現(xiàn)有較為顯著影響。此外,學(xué)生的行為表現(xiàn)、生活和學(xué)習(xí)的規(guī)律性、自律程度、日常出勤率等數(shù)據(jù)指標(biāo)都能預(yù)測出學(xué)生的學(xué)業(yè)表現(xiàn)。對于剛步入大學(xué)的一年級新生,以學(xué)生的高考成績作為一項觀測指標(biāo),可對新生的專業(yè)興趣和未來目標(biāo)等進(jìn)行調(diào)研。通過綜合預(yù)警指標(biāo),建立學(xué)生學(xué)業(yè)預(yù)警機(jī)制,及時干預(yù)學(xué)業(yè)表現(xiàn)相對較弱的學(xué)生。

2.建立學(xué)業(yè)幫扶模式,提前關(guān)注學(xué)業(yè)預(yù)警學(xué)生

對學(xué)業(yè)表現(xiàn)可能存在危機(jī)的學(xué)生重點進(jìn)行引導(dǎo),建立學(xué)業(yè)幫扶模式。以專業(yè)課老師和輔導(dǎo)員為主體,激發(fā)學(xué)生的學(xué)習(xí)動力,幫助剖析造成學(xué)生學(xué)業(yè)困難的原因,遏制學(xué)生學(xué)業(yè)繼續(xù)惡化的情況[25](P43-50)。一方面,積極的求職或求學(xué)目標(biāo)對學(xué)業(yè)有著正向的影響,因此可以通過引導(dǎo)學(xué)生樹立積極的價值觀、學(xué)業(yè)觀和就業(yè)觀,正向促進(jìn)學(xué)生學(xué)業(yè)進(jìn)步。另一方面,學(xué)生對專業(yè)的滿意度和興趣度也是影響學(xué)業(yè)成績的一個重要因素,缺乏專業(yè)興趣的學(xué)生往往很難取得良好的學(xué)業(yè)成績。創(chuàng)新專業(yè)課程教學(xué)方法,改革傳統(tǒng)課程模式,培養(yǎng)學(xué)生學(xué)習(xí)興趣,將案例分析、小組討論、游戲活動等方式引入課堂。改革和創(chuàng)新教學(xué)方式方法,增強學(xué)生對專業(yè)學(xué)習(xí)的興趣,幫助學(xué)生提升自我效能感,改善預(yù)警學(xué)生的“學(xué)困”程度。

3.加強學(xué)生心理引導(dǎo),融通“校師家”育人

在學(xué)業(yè)表現(xiàn)變化過程中存在邊緣化軌跡:心理變化—結(jié)構(gòu)邊緣—心理邊緣[26](P112-119),一旦不良學(xué)業(yè)表現(xiàn)結(jié)果形成,學(xué)生的消極應(yīng)對行為將使學(xué)業(yè)成績陷入惡性循環(huán)。從學(xué)校角度,應(yīng)建立學(xué)業(yè)預(yù)警機(jī)制,設(shè)置學(xué)生心理疏導(dǎo)中心、學(xué)業(yè)幫扶工作室;從教師角度,應(yīng)提前介入學(xué)業(yè)預(yù)警學(xué)生的學(xué)習(xí)生活,著重關(guān)注學(xué)業(yè)表現(xiàn)存在困難的學(xué)生,傾聽學(xué)生的聲音,從心理上正向引導(dǎo);從家長角度,應(yīng)主動與學(xué)校溝通,適當(dāng)參與并引導(dǎo)子女的學(xué)習(xí)方式、幫助他們建立積極的學(xué)業(yè)觀。學(xué)校、教師、家長三方共同育人,協(xié)同促進(jìn)學(xué)生學(xué)業(yè)進(jìn)步,改善“學(xué)困”學(xué)生的不良狀況。

注??釋:

①本文使用的機(jī)器學(xué)習(xí)模型訓(xùn)練過程和SHAP方法都是利用Python語言編寫。

參考文獻(xiàn):

[1]Wise D A. Academic Achievement and Job Performance [J]. American Economic Review, 1975(3).

[2]冉亞輝.學(xué)生學(xué)業(yè)成績即教師業(yè)績:中國基礎(chǔ)教育的教學(xué)質(zhì)量控制邏輯[J].上海教育科研,2018(12).

[3]Gasevic D, Zouaq A, Janzen R. "Choose Your Classmates, Your GPA Is at Stake!" The Association of Cross-Class Social Ties and Academic Performance [J]. American Behavioral Scientist, 2013(10).

[4]范逸洲, 汪瓊. 學(xué)業(yè)成就與學(xué)業(yè)風(fēng)險的預(yù)測——基于學(xué)習(xí)分析領(lǐng)域中預(yù)測指標(biāo)的文獻(xiàn)綜述 [J]. 中國遠(yuǎn)程教育, 2018(1).

[5]Kassarnig V, Mones E, Bjerre-Nielsen A, et al. Academic Performance and Behavioral Patterns [J]. Epj Data Science, 2018(7).

[6]Yamamoto Y, Holloway S D.Parental Expectations and Children's Academic Performance in Sociocultural Context [J]. Educational Psychology Review, 2010(3).

[7]Cao Y,Gao J, Lian D, et al. Orderliness Predicts Academic Performance: Behavioural Analysis on Campus Lifestyle [J]. Journal of the Royal Society Interface, 2018(15).

[8]Paul J A, Baker H M, Cochran J D. Effect of Online Social Networking on Student Academic Performance [J]. Computers in Human Behavior, 2012(6).

[9]Whitener E M. A Meta-Analytic Review of the Effect on Learning of the Interaction between Prior Achievement and Instructional Support [J]. Review of Educational Research, 1989(1).

[10]Macalli M, Navarro M, Orri M, et al. A Machine Learning Approach for Predicting Suicidal Thoughts and Behaviours among College Students [J]. Scientific Reports, 2021(1).

[11]萬力勇. 算法時代的教育預(yù)測及其研究范式轉(zhuǎn)變[J]. 遠(yuǎn)程教育雜志, 2022(3).

[12]Vergaray A D, Guerra C, Cervera N, et al. Predicting Academic Performance Using a Multiclassification Model: Case Study [J]. International Journal of Advanced Computer Science and Applications, 2022(9).

[13]Lundberg S M, Lee S I. A Unified Approach to Interpreting Model Predictions[C]. Proceedings of the 31st Annual Conference on Neural Information Processing Systems, 2017(30).

[14]Considine G, Zappala G. The Influence of Social and Economic Disadvantage in the Academic Performance of School Students in Australia [J]. Journal of Sociology, 2002(2).

[15]孫力, 程玉霞. 大數(shù)據(jù)時代網(wǎng)絡(luò)教育學(xué)習(xí)成績預(yù)測的研究與實現(xiàn)——以本科公共課程統(tǒng)考英語為例 [J]. 開放教育研究, 2015(3).

[16]白學(xué)軍, 原勝, 都旭,等. 大學(xué)生學(xué)業(yè)失敗的預(yù)警因素初探 [J]. 天津師范大學(xué)學(xué)報(社會科學(xué)版), 2022(1).

[17]Friedman B A, Mandel R G. Motivation Predictors of College Student Academic Performance and Retention [J]. Journal of College Student Retention-Research Theory & Practice, 2011(1).

[18]Crick R D, Huang S, Shafi A, et al. Developing Resilient Agency in Learning: The Internal Structureof Learning Power [J]. British Journal of Educational Studies, 2015(2).

[19]陳蒙, 王華. 地震動強度參數(shù)估計的可解釋性與不確定度機(jī)器學(xué)習(xí)模型 [J]. 地球物理學(xué)報, 2022(9).

[20]Tibshirani R. Regression Shrinkage and Selection Via the Lasso: A Retrospective [J]. Journal of the Royal Statistical Society Series B-Statistical Methodology, 2011(3).

[21]孫明柯. 幾種變量選擇方法的對比研究及應(yīng)用[D].杭州:浙江工商大學(xué),2022.

[22]Sullivan K, Perry L B, Mcconney A. How Do School Resources and Academic Performance Differ Across Australia's Rural, Regional and Metropolitan Communities? [J]. Australian Educational Researcher, 2013(3).

[23]Sturmfels P,Lundberg S,Lee S I. Visualizing the Impact of Feature Attribution Baselines[J].Distill,2020(1).

[24]梁耀明, 何勤英. 大學(xué)生學(xué)業(yè)表現(xiàn)性別差異研究 [J]. 中國成人教育, 2017 (6).

[25]黃羽舒. 城鄉(xiāng)初中生學(xué)習(xí)動機(jī)和自信心對學(xué)業(yè)成就影響的異質(zhì)性研究 [J]. 上海教育科研, 2023(2).

[26]包志梅. 我國高水平大學(xué)學(xué)困生的形成過程與邊緣化軌跡研究 [J]. 中國青年研究, 2022(4).

收稿日期:2023-03-23

基金項目:江西農(nóng)業(yè)大學(xué)博士科研啟動基金(9232308015)

作者簡介:梅盛旺(1992-),男,福建建甌人,江西農(nóng)業(yè)大學(xué)南昌商學(xué)院招生就業(yè)處助教,碩士;趙慧芳(1993-),女,河南浚縣人,江西農(nóng)業(yè)大學(xué)教務(wù)處助理研究員,博士,主要從事高等教育管理研究;萬洪芳(1975-),女,江西撫州人,江西農(nóng)業(yè)大學(xué)南昌商學(xué)院講師,碩士;侯英杰(1978-),男,江西南昌人,江西農(nóng)業(yè)大學(xué)南昌商學(xué)院講師,碩士。

猜你喜歡
機(jī)器學(xué)習(xí)
基于詞典與機(jī)器學(xué)習(xí)的中文微博情感分析
基于網(wǎng)絡(luò)搜索數(shù)據(jù)的平遙旅游客流量預(yù)測分析
前綴字母為特征在維吾爾語文本情感分類中的研究
下一代廣播電視網(wǎng)中“人工智能”的應(yīng)用
基于支持向量機(jī)的金融數(shù)據(jù)分析研究
基于Spark的大數(shù)據(jù)計算模型
基于樸素貝葉斯算法的垃圾短信智能識別系統(tǒng)
基于圖的半監(jiān)督學(xué)習(xí)方法綜述
機(jī)器學(xué)習(xí)理論在高中自主學(xué)習(xí)中的應(yīng)用
極限學(xué)習(xí)機(jī)在圖像分割中的應(yīng)用