金城,崔榮一,趙亞慧
(延邊大學(xué) 工學(xué)院, 吉林 延吉 133002 )
近年來(lái),一些研究者針對(duì)學(xué)生的高考成績(jī)與學(xué)生進(jìn)入大學(xué)后的學(xué)習(xí)成績(jī)(尤其是學(xué)生入學(xué)第一學(xué)期的學(xué)習(xí)成績(jī))之間的關(guān)系進(jìn)行了研究.例如:陳小杭[1]對(duì)學(xué)生高考的數(shù)學(xué)成績(jī)與學(xué)生入學(xué)后的大學(xué)數(shù)學(xué)專業(yè)課成績(jī)進(jìn)行了相關(guān)性分析,結(jié)果表明學(xué)生的高考數(shù)學(xué)成績(jī)與學(xué)生入學(xué)后的大學(xué)數(shù)學(xué)專業(yè)課成績(jī)無(wú)顯著相關(guān)性.石鐵玉等[2]研究表明,學(xué)生的高考成績(jī)與學(xué)生入學(xué)后的考試成績(jī)呈弱相關(guān)性.杜曉燕等[3]對(duì)學(xué)生的高考成績(jī)和大一單科成績(jī)的關(guān)聯(lián)性進(jìn)行研究表明,文科類課程的成績(jī)與高考成績(jī)的關(guān)聯(lián)性較大,而理科類的課程的成績(jī)與高考成績(jī)的關(guān)聯(lián)性較弱.上述文獻(xiàn)的研究方法主要是基于統(tǒng)計(jì)的相關(guān)性分析方法進(jìn)行的,但該方法對(duì)于沒(méi)有明顯統(tǒng)計(jì)學(xué)規(guī)律的多元復(fù)雜數(shù)據(jù)其效果并不理想.文獻(xiàn)[4]研究表明,隨機(jī)森林算法在處理數(shù)據(jù)復(fù)雜、維度較高的分類任務(wù)時(shí)可獲得較高的準(zhǔn)確度.因此,本文采用基于隨機(jī)森林算法研究學(xué)生的高考信息與大學(xué)一年級(jí)的程序設(shè)計(jì)課程成績(jī)之間的相關(guān)性,以為教師在程序設(shè)計(jì)課程教學(xué)中設(shè)計(jì)出更有針對(duì)性和有效的模式提供參考.
機(jī)器學(xué)習(xí)方法可以從一類數(shù)據(jù)中自動(dòng)學(xué)習(xí)規(guī)律,特別是對(duì)特征種類多、特征數(shù)目龐大的復(fù)雜數(shù)據(jù)進(jìn)行預(yù)測(cè)時(shí),其效果顯著優(yōu)于基于統(tǒng)計(jì)的方法,因此該方法被廣泛地應(yīng)用于回歸、擬合和大數(shù)據(jù)分析等方面.目前,常使用的機(jī)器學(xué)習(xí)方法包括監(jiān)督學(xué)習(xí)、無(wú)監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)[5].其中:監(jiān)督學(xué)習(xí)方法可以從大量沒(méi)有顯著統(tǒng)計(jì)規(guī)律的數(shù)據(jù)中學(xué)習(xí)到有效的模型,因此常用于解決回歸、分類的問(wèn)題;無(wú)監(jiān)督學(xué)習(xí)可以在較為規(guī)律的統(tǒng)計(jì)數(shù)據(jù)中發(fā)現(xiàn)潛在的結(jié)構(gòu),因此常被用于聚類和降維;強(qiáng)化學(xué)習(xí)則可在基于環(huán)境的動(dòng)態(tài)互動(dòng)中取得最大化的預(yù)期利益,因此常被用于控制系統(tǒng)的設(shè)計(jì)中.
決策樹(shù)是一種被廣泛應(yīng)用于金融、保險(xiǎn)、醫(yī)療等領(lǐng)域的樹(shù)狀分類器,但決策樹(shù)算法在數(shù)據(jù)復(fù)雜時(shí)準(zhǔn)確率較低.為此,L.Breiman結(jié)合Bagging集成思想[6]與隨機(jī)子空間方法[7]提出了隨機(jī)森林算法[8],該算法具有解釋性好、結(jié)構(gòu)簡(jiǎn)單、計(jì)算開(kāi)銷小等優(yōu)點(diǎn)[9].隨機(jī)森林算法的具體步驟如下:
輸入: 樣本集D={(x1,y1),(x2,y2),…,(xm,ym)}, 決策樹(shù)迭代次數(shù)T
輸出: 隨機(jī)森林f(x)
1) fort=1 toT:
a)對(duì)訓(xùn)練集進(jìn)行第t次隨機(jī)采樣,共采集m次,由此得到包含m個(gè)樣本的采樣集Dt.
b)用采樣集Dt訓(xùn)練第t個(gè)決策樹(shù)模型Gt(x). 訓(xùn)練決策樹(shù)模型的節(jié)點(diǎn)時(shí),首先在所有樣本特征中隨機(jī)選擇一部分樣本特征,然后在選出的樣本特征中選取一個(gè)最優(yōu)的特征來(lái)劃分決策樹(shù)的左右子樹(shù).
2)在形成的T個(gè)決策樹(shù)中,利用投票表決結(jié)果.當(dāng)結(jié)果只有一個(gè)類時(shí),將票數(shù)最多的類別作為最終類別;當(dāng)結(jié)果包含多個(gè)類時(shí),將目標(biāo)類別作為最終類別.
本研究以大學(xué)一年級(jí)的C語(yǔ)言程序設(shè)計(jì)課程為例,收集的數(shù)據(jù)為2014—2016年延邊大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)專業(yè)3個(gè)年級(jí)的學(xué)生個(gè)人信息.信息包括:高考成績(jī)、學(xué)生生源、民族、考生類別和入學(xué)第1年的C語(yǔ)言期末考試成績(jī).3個(gè)年級(jí)的學(xué)生人數(shù)分別為115人、157人和145人.
3個(gè)年級(jí)學(xué)生的高考特征屬性及其分布如表1所示.由表1可知:在性別方面,男生略高于女生;在民族結(jié)構(gòu)方面,考生以朝鮮族和漢族學(xué)生為主,其中朝鮮族學(xué)生占總考生的34.2%;在考生類別方面,城市考生占總考生的58.7%;在生源方面,考生主要來(lái)自吉林省,占總考生的49.9%.
表1 考生特征屬性分布
由于本數(shù)據(jù)集中的學(xué)生主要為漢族與朝鮮族的考生(占總?cè)藬?shù)的91.7%),且朝鮮族和非朝鮮族考生的錄取政策不同(非朝鮮族的其他少數(shù)民族和漢族采用同一錄取標(biāo)準(zhǔn)),因此本文將民族特征分為朝鮮族和非朝鮮族進(jìn)行分析.同時(shí)去除不使用全國(guó)I卷和全國(guó)II卷省份的學(xué)生信息.將考生進(jìn)入大學(xué)后的C語(yǔ)言成績(jī)按分?jǐn)?shù)段分為5類: 100~90(第1類), 89~80(第2類), 79~70(第3類), 69~60(第4類), 59~0(第5類).各年級(jí)C語(yǔ)言成績(jī)的分布情況如圖1所示.
構(gòu)建C語(yǔ)言成績(jī)預(yù)測(cè)模型的方法如下:
1)將處理后的數(shù)據(jù)按9∶1分為訓(xùn)練集和測(cè)試集;
2)利用各年級(jí)的訓(xùn)練集數(shù)據(jù)訓(xùn)練隨機(jī)森林模型,并通過(guò)調(diào)整隨機(jī)森林的參數(shù)得到最優(yōu)的預(yù)測(cè)模型;
3)利用Bootstrap方法從訓(xùn)練集中隨機(jī)抽取多個(gè)訓(xùn)練樣本子集,并對(duì)每個(gè)子集分別進(jìn)行隨機(jī)森林建模;
4)利用測(cè)試集對(duì)各隨機(jī)森林進(jìn)行測(cè)試,并綜合多棵隨機(jī)森林的測(cè)試結(jié)果以通過(guò)投票的方式得出最終的C語(yǔ)言課程成績(jī)預(yù)測(cè)模型;
5)使用可解釋性模型LIME(local interpretable model-agnostic explanations)計(jì)算對(duì)隨機(jī)森林模型貢獻(xiàn)度最大的特征.
上述步驟中利用LIME計(jì)算調(diào)整貢獻(xiàn)度的方法為:①在原始樣本中隨機(jī)替換掉若干特征,以此得到含有噪聲的數(shù)據(jù)z′.②計(jì)算隨機(jī)森林模型對(duì)z′預(yù)測(cè)的值.③求出原樣本與生成樣本之間的距離,并將其作為權(quán)重.④利用生成樣本、預(yù)測(cè)值和權(quán)重訓(xùn)練一個(gè)簡(jiǎn)單的線性模型g.⑤按式(1)計(jì)算模型g擬合樣本的結(jié)果與隨機(jī)森林模型預(yù)測(cè)樣本的結(jié)果之間的差值,然后根據(jù)差值對(duì)隨機(jī)森林模型進(jìn)行解釋(差值越小貢獻(xiàn)度越大).
(1)
其中,f為原模型,w為權(quán)重,z為原樣本,z′為加入噪聲后的樣本.基于隨機(jī)森林算法構(gòu)建C語(yǔ)言成績(jī)預(yù)測(cè)模型的流程如圖2所示.
利用隨機(jī)森林算法對(duì)數(shù)據(jù)進(jìn)行訓(xùn)練,結(jié)果如表2所示.
表2 訓(xùn)練集和測(cè)試集的準(zhǔn)確度
為獲得最佳的分類效果,本文利用實(shí)驗(yàn)對(duì)模型的參數(shù)進(jìn)行了選定,結(jié)果如表3所示.
利用LIME模型計(jì)算每個(gè)特征對(duì)隨機(jī)森林模型的貢獻(xiàn)度,結(jié)果如表4所示.
根據(jù)表4中的貢獻(xiàn)度結(jié)果,本文將各年級(jí)中排序?yàn)榍?名的特征作為最大的相關(guān)性特征.這些特征包括生源、民族、總成績(jī)、數(shù)學(xué)和語(yǔ)文5個(gè)特征.在所有特征中任取5種特征,并按不重復(fù)原則組合方案進(jìn)行排列組合,共得到126種組合方式.為驗(yàn)證本文選擇的特征方案為最佳方案,對(duì)126種不同的特征組合使用隨機(jī)森林進(jìn)行了訓(xùn)練和測(cè)試,其中部分特征組合方案測(cè)試集的平均準(zhǔn)確率的結(jié)果如圖3所示.
表3 最優(yōu)模型參數(shù)
表4 各特征對(duì)模型的貢獻(xiàn)度
由圖3可知,在所有的特征組合方案中,本文提出的特征選擇方案的準(zhǔn)確率最高(68%),故本文提出的特征組合方案為最優(yōu)組合方案.在本文提出的特征組合方案中, 5種特征與C語(yǔ)言成績(jī)相關(guān)度最大的原因是:
1)學(xué)生的學(xué)習(xí)能力與地區(qū)的經(jīng)濟(jì)和教育發(fā)展水平存在一定相關(guān)性,因此來(lái)自不同地區(qū)的學(xué)生其學(xué)習(xí)能力存在一定的差異.
2)高考總成績(jī)是反映一個(gè)學(xué)生學(xué)習(xí)能力的重要指標(biāo),因此C語(yǔ)言成績(jī)與高考總成績(jī)呈一定的相關(guān)性.
3)因朝鮮族考生的錄取分?jǐn)?shù)普遍低于漢族考生,且入學(xué)初期存在一定的漢語(yǔ)表達(dá)障礙[10](因朝鮮族考生在高考前主要接受的是朝鮮語(yǔ)教學(xué)),因此朝鮮族學(xué)生在大一初期的學(xué)習(xí)成績(jī)普遍偏低.
4)學(xué)好計(jì)算機(jī)程序設(shè)計(jì)課程需要學(xué)生具有較好的邏輯思維能力,而數(shù)學(xué)成績(jī)?cè)谝欢ǔ潭壬夏荏w現(xiàn)一個(gè)學(xué)生的邏輯思維能力,因此其與C語(yǔ)言成績(jī)具有較大的相關(guān)性.
5)語(yǔ)文成績(jī)能夠體現(xiàn)學(xué)生的表達(dá)能力和理解能力,其對(duì)學(xué)習(xí)和理解知識(shí)至關(guān)重要,因此語(yǔ)文成績(jī)和C語(yǔ)言成績(jī)也具有較大的相關(guān)性.
為進(jìn)一步說(shuō)明基于隨機(jī)森林分析方法的有效性,本文基于相同的數(shù)據(jù)集,計(jì)算了2014—2016年級(jí)的不同特征與C語(yǔ)言成績(jī)間的Pearson相關(guān)系數(shù)、Spearman相關(guān)系數(shù)、Kendall相關(guān)系數(shù),結(jié)果(平均值)如表5所示.由表5可知,不同的特征和C語(yǔ)言成績(jī)之間的相關(guān)系數(shù)均較低(低于0.36),表明其相關(guān)性較弱.
利用隨機(jī)森林模型對(duì)各相關(guān)系數(shù)排名前5的特征進(jìn)行訓(xùn)練,得到的模型準(zhǔn)確率如圖4所示.由圖4可以看出,采用本文提出的隨機(jī)森林分析法得出的模型準(zhǔn)確率均高于采用3個(gè)相關(guān)系數(shù)分析法所得的準(zhǔn)確率,因此表明采用本文提出的基于隨機(jī)森林的方法分析高考信息和C語(yǔ)言成績(jī)之間的相關(guān)性更為準(zhǔn)確.
表5 不同特征與C語(yǔ)言成績(jī)間的相關(guān)系數(shù)
本文利用基于隨機(jī)森林算法的預(yù)測(cè)和分析方法對(duì)C語(yǔ)言成績(jī)的影響因素進(jìn)行了分析,結(jié)果表明生源、總成績(jī)、民族、數(shù)學(xué)、語(yǔ)文5種特征與C語(yǔ)言成績(jī)的相關(guān)性最高.本文的研究結(jié)果有助于教師根據(jù)新生的實(shí)際情況設(shè)計(jì)出具有針對(duì)性的教學(xué)模式,以提高程序設(shè)計(jì)課程的教學(xué)質(zhì)量.本文在研究中所使用的數(shù)據(jù)量相對(duì)較少,因此在今后的研究中我們將進(jìn)一步增加實(shí)驗(yàn)數(shù)據(jù)量以提高模型的擬合能力,使實(shí)驗(yàn)結(jié)果更具有普適性.