王雯麓 朱定局
【摘 要】隨著大數(shù)據(jù)時(shí)代的到來(lái),如何利用數(shù)據(jù)資源分析學(xué)生學(xué)業(yè)的相關(guān)因素以改善教育效果,有著重要的現(xiàn)實(shí)意義和時(shí)代意義。本文利用Apriori算法和Pearson相關(guān)系數(shù)挖掘?qū)W生學(xué)業(yè)的相關(guān)因素與學(xué)生學(xué)業(yè)的關(guān)系及重要程度,從學(xué)生、家長(zhǎng)和學(xué)校三方面給出建議;基于學(xué)生層面的相關(guān)因素,利用全連接神經(jīng)網(wǎng)絡(luò)、邏輯回歸以及xgboost分類器進(jìn)行訓(xùn)練,對(duì)學(xué)生分類,以實(shí)行“因材施教”,改善教育效果。
【關(guān)鍵詞】Apriori算法;全連接神經(jīng)網(wǎng)絡(luò);學(xué)生學(xué)業(yè)影響因素;教育大數(shù)據(jù)
【基金項(xiàng)目】本文受以下項(xiàng)目資助:國(guó)家級(jí)新工科研究與實(shí)踐項(xiàng)目“新工科人才創(chuàng)新創(chuàng)業(yè)能力培養(yǎng)的辯證發(fā)展模式探索”(教高廳函【2018】17號(hào));廣東省高等教育教學(xué)研究和改革重點(diǎn)項(xiàng)目“辯證發(fā)展創(chuàng)新教學(xué)法研究與實(shí)踐——以計(jì)算理論課程的創(chuàng)新思辨與實(shí)證為例”(粵教高函[2016]236號(hào));廣東省學(xué)位與研究生教育改革研究重點(diǎn)項(xiàng)目“基于科研創(chuàng)新能力培養(yǎng)的辯證發(fā)展教學(xué)法研究與實(shí)踐”(粵教研函[2016]39號(hào));廣東高校重大科研項(xiàng)目“基于大數(shù)據(jù)深度學(xué)習(xí)的辯證創(chuàng)新教學(xué)機(jī)器人核心技術(shù)研究”(2017KTSCX048);廣東省新工科研究與實(shí)踐項(xiàng)目“新工科人才創(chuàng)新創(chuàng)業(yè)能力培養(yǎng)的辯證發(fā)展模式探索”(粵教高函【2017】118號(hào));廣東省聯(lián)合培養(yǎng)研究生示范基地“聯(lián)合培養(yǎng)研究生示范基地”(粵教研函[2016]39號(hào))。
【中圖分類號(hào)】R197.4 【文獻(xiàn)標(biāo)識(shí)碼】A 【文章編號(hào)】2095-3089(2019)21-00-01
一、背景
隨著大數(shù)據(jù)時(shí)代的到來(lái),如何利用數(shù)據(jù)資源分析學(xué)生學(xué)業(yè)的相關(guān)因素以改善教育效果,有著重要的現(xiàn)實(shí)意義和時(shí)代意義。另外現(xiàn)階段,學(xué)校普遍存在學(xué)生學(xué)業(yè)水平參差不齊的現(xiàn)象,這使得教師的教學(xué)目標(biāo)和教學(xué)活動(dòng)難以針對(duì)到每一個(gè)學(xué)生身上。
目前已有一些學(xué)者對(duì)高校學(xué)生學(xué)業(yè)進(jìn)行了關(guān)聯(lián)規(guī)則挖掘[1];有研究?jī)H利用學(xué)生某一次成績(jī)一項(xiàng)指標(biāo)對(duì)學(xué)生進(jìn)行分類管理[2];也有一些僅針對(duì)某一學(xué)科某一專業(yè)進(jìn)行影響因素挖掘的研究[3];但還沒(méi)有一項(xiàng)研究可以全面分析學(xué)生學(xué)業(yè)與學(xué)生層面、家庭層面及學(xué)校層面的多種因素之間的關(guān)系及重要程度。如何在保障教育公平的前提下,更好地開(kāi)展因材施教的教學(xué)活動(dòng)也是我們亟待解決的問(wèn)題。
二、核心任務(wù)
本文利用CEPS的112所學(xué)校、近2萬(wàn)名初中生的1700多個(gè)變量的數(shù)據(jù),選取與學(xué)生學(xué)業(yè)相關(guān)的學(xué)生層面、家庭層面及學(xué)校層面的因素如圖2-1,通過(guò)可視化以及Apriori規(guī)則關(guān)聯(lián)挖掘算法分析各因素與學(xué)生學(xué)業(yè)之間的關(guān)系及重要程度。
本文的另一個(gè)任務(wù)是基于學(xué)生層面的相關(guān)因素建立學(xué)業(yè)綜合評(píng)價(jià)體系,對(duì)學(xué)生的學(xué)業(yè)進(jìn)行綜合評(píng)價(jià),以實(shí)行“周期性走班制度”(周期性走班制度是指周一至周四實(shí)行正常的教學(xué)活動(dòng),周五實(shí)行特殊的走班制教學(xué),即針對(duì)學(xué)生學(xué)業(yè)上各個(gè)方面進(jìn)行綜合評(píng)價(jià),為學(xué)生提供基礎(chǔ)類、提升類、拓展類的教學(xué),滿足各個(gè)層次學(xué)生的學(xué)習(xí)需求。)。
三、結(jié)果與分析
本文采用的數(shù)據(jù)集男女樣本數(shù)量均衡,男性樣本數(shù)量占全體樣本數(shù)量的51%,女性樣本占全體樣本數(shù)量的49%,這對(duì)提升結(jié)果的可靠性是有利的。對(duì)學(xué)生學(xué)業(yè)綜合成績(jī)進(jìn)行標(biāo)準(zhǔn)化處理,將學(xué)業(yè)綜合成績(jī)進(jìn)行H、M、L等級(jí)評(píng)定。
1.單一因素與學(xué)生學(xué)業(yè)綜合成績(jī)等級(jí)的關(guān)系
從個(gè)人層面來(lái)看:女生學(xué)業(yè)綜合成績(jī)比男生優(yōu)秀,女生處于H等級(jí)的比例比男生比例高了17個(gè)百分點(diǎn),L等級(jí)低了18個(gè)百分點(diǎn);住宿情況對(duì)學(xué)生學(xué)業(yè)綜合成績(jī)等級(jí)影響較小,在學(xué)業(yè)綜合成績(jī)的各個(gè)等級(jí)中,住校人數(shù)的百分比與不住校人數(shù)的百分比基本持平。曾入讀幼兒園的學(xué)生處于H等級(jí)的比例比不曾入讀的學(xué)生比例高了7個(gè)百分點(diǎn),L等級(jí)的比例低了5.5個(gè)百分點(diǎn),可見(jiàn)進(jìn)入幼兒園接受規(guī)范幼兒教育有利于學(xué)生未來(lái)學(xué)業(yè)水平的提高。周末的課外輔導(dǎo)班對(duì)學(xué)生的學(xué)業(yè)水平的促進(jìn)明顯大于周一到周五的課外輔導(dǎo)班;學(xué)生回答問(wèn)題次數(shù)、參加活動(dòng)次數(shù)與學(xué)生等級(jí)之間存在明顯正相關(guān)關(guān)系;學(xué)生的遲到、逃課行為與學(xué)生等級(jí)之間存在明顯負(fù)相關(guān)關(guān)系。
而從家庭層面中可以發(fā)現(xiàn):是獨(dú)生子女的學(xué)生中H等級(jí)和M等級(jí)的比例均略高于非獨(dú)生子女的比例;非農(nóng)業(yè)戶口學(xué)生中H等級(jí)和M等級(jí)的比例均略高于農(nóng)業(yè)戶口學(xué)生的比例;父母學(xué)歷相差較大的學(xué)生中L等級(jí)和M等級(jí)的比例略高,可見(jiàn)部分父母的學(xué)歷差距有會(huì)有教育觀念和教育方式的不一致,進(jìn)而對(duì)孩子的學(xué)業(yè)等級(jí)有反作用;父親不經(jīng)常喝醉酒的學(xué)生中H等級(jí)的比例較父親經(jīng)常喝醉酒的學(xué)生高了6.7個(gè)百分點(diǎn),L等級(jí)的比例少了8.2個(gè)百分點(diǎn);父母關(guān)系好的學(xué)生中等級(jí)為H的比例較父母關(guān)系不好的學(xué)生高了6.2個(gè)百分點(diǎn);家長(zhǎng)的教育觀念不同的學(xué)生,學(xué)業(yè)等級(jí)分布有較明顯區(qū)別;只有父親在家同住的學(xué)生中,大部分學(xué)生的學(xué)業(yè)等級(jí)為M和L;
從學(xué)校層面來(lái)看,學(xué)校的圖書館情況、周邊環(huán)境以及師資力量對(duì)學(xué)生的學(xué)業(yè)等級(jí)都無(wú)較明顯關(guān)系。
2.Pearson相關(guān)系數(shù)分析
經(jīng)所次篩選后,本文選擇若干因素進(jìn)行Pearson相關(guān)系數(shù)分析如圖3-1:
由圖可知,家庭經(jīng)濟(jì)、父母關(guān)系、父親學(xué)歷、母親學(xué)歷、教育觀念、是否獨(dú)生、是否住宿、自信心均與學(xué)生學(xué)業(yè)綜合成績(jī)等級(jí)正相關(guān);戶口類型、是否與父母同住均與學(xué)生學(xué)業(yè)綜合成績(jī)等級(jí)負(fù)相關(guān)。其中相關(guān)系數(shù)大于0.05的影響因素由高到低依次是自信心、父親學(xué)歷、母親學(xué)歷、教育觀念和父母關(guān)系。說(shuō)明學(xué)生自信心高有利于學(xué)生學(xué)業(yè)綜合成績(jī)的提高,學(xué)生學(xué)業(yè)綜合成績(jī)的提高反過(guò)來(lái)又可以增強(qiáng)學(xué)生自信心,兩者相互促進(jìn),因此應(yīng)該有意識(shí)地增強(qiáng)學(xué)生自信心。此外,父母學(xué)歷的高低、教育觀念和父母間的關(guān)系也會(huì)對(duì)學(xué)生學(xué)業(yè)綜合成績(jī)?cè)斐奢^大影響,可見(jiàn)家庭環(huán)境十分重要。
3.Apriori關(guān)聯(lián)規(guī)則挖掘
使用Apriori算法進(jìn)行關(guān)聯(lián)規(guī)則挖掘得到各變量與學(xué)生學(xué)業(yè)情況組成的支持度、置信度和提升度不盡相同的多種規(guī)則。其中confidence最高的20條規(guī)則如下圖3-2所示:
女學(xué)生是一個(gè)較為感性、細(xì)膩、易受干擾的群體,而從上面的規(guī)則中可以發(fā)現(xiàn)lhs中均有“性別=女”,這可以反映出家庭層面和學(xué)校層面的若干個(gè)外部因素對(duì)女生的學(xué)業(yè)等級(jí)影響更大。本文推測(cè)女生的學(xué)業(yè)等級(jí)與各因素之間的關(guān)系較男生更密切,更有規(guī)律可以供挖掘。
4.訓(xùn)練分類
本文首先僅利用學(xué)生層面的34個(gè)因素,通過(guò)全連接神經(jīng)網(wǎng)絡(luò)進(jìn)行500次訓(xùn)練,模型準(zhǔn)確度達(dá)到0.64。由于模型的準(zhǔn)確度不高,繼續(xù)加入家庭層面和學(xué)校層面的各因素繼續(xù)進(jìn)行訓(xùn)練。邏輯回歸和xgboost機(jī)器學(xué)習(xí)算法對(duì)學(xué)生進(jìn)行訓(xùn)練分類,訓(xùn)練后邏輯回歸算法的模型準(zhǔn)確度約為0.46,xgboost分類器的準(zhǔn)確度為0.51。
通過(guò)對(duì)數(shù)據(jù)的標(biāo)準(zhǔn)化,將所有的數(shù)據(jù)縮放為0-1,并進(jìn)行特征選擇,兩個(gè)模型的準(zhǔn)確度均上升,分別變?yōu)?.49和0.53,圖3-3為xgboost分類器在測(cè)試集上測(cè)試的結(jié)果。再利用上文中的全連接神經(jīng)網(wǎng)絡(luò)繼續(xù)進(jìn)行訓(xùn)練,訓(xùn)練的前一千輪的損失值和準(zhǔn)確率如圖3-4所示,經(jīng)2000次訓(xùn)練,模型最終準(zhǔn)確率達(dá)0.76。
本文的研究旨在運(yùn)用大數(shù)據(jù)分析數(shù)據(jù)挖掘分析,為學(xué)校、家庭以及學(xué)生三個(gè)維度提供一定的參考,改善教育以實(shí)現(xiàn)更高效的人才培養(yǎng)。
參考文獻(xiàn)
[1]朱東星,沈良忠.關(guān)聯(lián)規(guī)則在高校學(xué)業(yè)預(yù)警中的應(yīng)用研究[J].電腦知識(shí)與技術(shù),2017,13(23):196-197.
[2]李珍,刁鋼,趙慧峰.基于大數(shù)據(jù)分析的學(xué)生學(xué)業(yè)分類管理體系——河北農(nóng)業(yè)大學(xué)商學(xué)院新生入學(xué)成績(jī)的K-mean聚類分析[J].河北農(nóng)業(yè)大學(xué)學(xué)報(bào)(農(nóng)林教育版),2018,20(05):96-99.
[3]滕廣青,張良軍,張凡.基于決策樹(shù)的英語(yǔ)專業(yè)學(xué)業(yè)影響因素的關(guān)聯(lián)規(guī)則挖掘[J].浙江教育學(xué)院學(xué)報(bào),2010(04):97-102.
作者簡(jiǎn)介:王雯麓,朱定局(通信作者),華南師范大學(xué)。