張偉 武延濤
(中國礦業(yè)大學(xué)徐海學(xué)院)
高校教育數(shù)據(jù)挖掘是高等教育研究的重要課題之一,利用數(shù)據(jù)挖掘技術(shù)可以發(fā)掘出數(shù)據(jù)中隱藏的規(guī)律和模式,從而為教育教學(xué)決策提供科學(xué)依據(jù)。高校學(xué)生課程關(guān)聯(lián)研究要對多門課程成績進(jìn)行數(shù)據(jù)挖掘,成績統(tǒng)計特征存在顯著差異。本文將在以課程成績分布為正態(tài)分布前提下,將不同課程成績分布變換至同一均值和標(biāo)準(zhǔn)差的正態(tài)分布,利用插值函數(shù)法將不同課程成績進(jìn)行修正,然后依據(jù)等級賦分理論對各課程進(jìn)行等級評定,再利用Apriori算法挖掘各課程間的聯(lián)系。
利用抽樣課程成績樣本均值和樣本標(biāo)準(zhǔn)差確定課程正態(tài)總體分布,利用正態(tài)總體分布確定成績等級的期望比例,對所有課程進(jìn)行標(biāo)準(zhǔn)化等級劃分,再利用插值函數(shù)法對成績進(jìn)行修正。
設(shè)抽樣學(xué)生人數(shù)為n課程總數(shù)為N門,課程成績總體為X,假設(shè)總體服從正態(tài)分布,第j門課程成績的總體為Xj,第i名學(xué)生第j門課程成績?yōu)?i= 1,… ,n;j= 1,… ,N),根據(jù)學(xué)生的成績xij估計第j門課程Xj,的樣本均值與樣本標(biāo)準(zhǔn)差:
課程考試成績總體X,的樣本均值與樣本標(biāo)準(zhǔn)差:
利用公式(3)估計X,的分布,即課程成績總體近似服從。
表1 等級制與百分制的對應(yīng)關(guān)系
由公式(1)-(3)可得學(xué)生課程成績總體X,的近似分布,于是課程總體第l個分?jǐn)?shù)段的期望人數(shù)比例為:
依據(jù)表1的等級制劃分,按照各分?jǐn)?shù)段人數(shù)的期望比例pl將每門課程成績分段,記為 第j門 課 程 第l個成績分?jǐn)?shù)段上下限(約定,應(yīng)用線性函數(shù)插值法修正原始成績,記修正成績?yōu)?i= 1 ,… ,n;j= 1,… ,N),根據(jù)原始成績確定所屬分?jǐn)?shù)段l值,且
第i門課程成績集合構(gòu)成一個項集;k門課程成績集合構(gòu)成k-;包含所有k-(k= ( 1,… ,N)稱為事務(wù)數(shù)據(jù)庫,記為D。
1.頻繁項集的概念
記μ為項集事務(wù)數(shù)的計數(shù),一門或多門課程成績構(gòu)成的項集A支持度為項集A 事務(wù)數(shù)占事務(wù)數(shù)據(jù)庫事務(wù)數(shù)的比例,即
預(yù)先設(shè)定的最小支持度閾值min_sup ,若
則稱項集A為頻繁項集,k為k-。
2.關(guān)聯(lián)規(guī)則的指標(biāo)
設(shè)課程項集中事項A和B關(guān)聯(lián)規(guī)則表現(xiàn)為邏輯關(guān)系A(chǔ)?B,即課程項集中事項A蘊含事項B的關(guān)系,度量關(guān)聯(lián)規(guī)則的三個指標(biāo)分別為:邏輯關(guān)系的支持度、置信度和提升度。
支持度為包含事項A或B事務(wù)數(shù)占事務(wù)數(shù)據(jù)庫事務(wù)數(shù)的比例,即
置信度為包含項集A和B同時發(fā)生事務(wù)數(shù)占項集A事務(wù)數(shù)據(jù)庫事務(wù)數(shù)的比例,即
提升度為事項A蘊含事項 B出現(xiàn)的可能性,即
若lif.(A,B)=1時,則說明事項A和事項B相互獨立;若lif.(A,B)<1,事項A導(dǎo)致事項B不出現(xiàn);若lif.(A,B)>1,事項A蘊含事項B出現(xiàn)。
3.課程累計支持度
記“Ai”為第i門課程成績?yōu)閮?yōu)秀,記“Bi”為第i門課程成績?yōu)榱己?,記“Ci”為第i門課程成績?yōu)橹械龋洝癉i”為第i門課程成績?yōu)榧案瘢洝癊i”為第i門課程成績?yōu)椴患案?。第i門課程與第j門課程的累計支持度:
基于上述成績修正模型和等級賦分原則,課程各相應(yīng)期望等級人數(shù)相等,且各等級樣本容量較少,當(dāng)課程間出現(xiàn)至少兩個等級頻繁項集,且大于預(yù)先設(shè)定的最小累計支持度閾值時,即
則稱課程間存在強關(guān)聯(lián)。
根據(jù)關(guān)聯(lián)規(guī)則的Apriori算法思想:首先,通過設(shè)置最小支持度,找出所有頻繁項集;其次,在頻繁項集中產(chǎn)生關(guān)聯(lián)規(guī)則;最后,設(shè)置最小累計支持度,計算課程間累計支持度,確定強關(guān)聯(lián)課程。
金融學(xué)專業(yè)以銀行方向為例,根據(jù)調(diào)研法,選取體現(xiàn)學(xué)生通識素質(zhì)、數(shù)理能力、專業(yè)素質(zhì)、專業(yè)拓展課程18門課程,125名學(xué)生成績。按照學(xué)期開設(shè)情況如表2。
表2 金融學(xué)專業(yè)前三學(xué)年課程列表
根據(jù)學(xué)生成績計算可得各門課程的樣本均值與樣本標(biāo)準(zhǔn)差(如圖1)。
圖1 抽樣課程成績均值與標(biāo)準(zhǔn)差
課程考試的成績分布因課程不同分布不盡相同,抽樣課程成績期望等級分布如表3,各課程在不同等級的人數(shù)偶然性較大,實際成績分布中如KC16,KC17在B等級大量集中,其余各等級偏少,在數(shù)據(jù)挖掘中將影響課程關(guān)聯(lián)分析。
表3 抽樣課程期望等級人數(shù)分布
現(xiàn)將不同課程成績變換至同一標(biāo)尺下進(jìn)行修正。由公式(3)計算得課程成績總體的均值與標(biāo)準(zhǔn)差為:
由公式(4)可得各分?jǐn)?shù)段人數(shù)的期望比例如下表所示。
表4 期望比例與等級人數(shù)
依據(jù)各分?jǐn)?shù)段人數(shù)的期望比例,利用插值公式(5)對18門課程進(jìn)行成績修正。
利用Apriori算法,對修正的成績進(jìn)行數(shù)據(jù)挖掘。設(shè)置支持度最小閾值,置信度最小閾值為0.50,累計支持度最小閾值。按照課程開課先后順序,可計算得到表5。
利用Apriori算法計算并與成績修正后的計算結(jié)果相比較,得出下列結(jié)論。
(1)成績修正前后成績分布變化。成績修正前,課程成績樣本均值偏差較大,最小值為66.03,最大值為81.92;樣本標(biāo)準(zhǔn)差最小值為4.23,最大值為17。利用成績正態(tài)總體分布在保持排名不變的情況下對成績進(jìn)行標(biāo)準(zhǔn)化,保證課程各等級人數(shù)相等。
(2)成績修正前后課程關(guān)聯(lián)表現(xiàn)形式。原始成績數(shù)據(jù)挖掘因為課程在某等級分?jǐn)?shù)較為集中,兩門課程關(guān)聯(lián)比較集中,在關(guān)聯(lián)結(jié)果中大多數(shù)僅顯示一條關(guān)聯(lián)記錄;成績修正后進(jìn)行數(shù)據(jù)挖掘,兩門課程可能出現(xiàn)多等級關(guān)聯(lián),結(jié)果記錄顯示多條記錄,課程關(guān)聯(lián)以同等級關(guān)聯(lián)為主,極大的呈現(xiàn)課程間的強關(guān)聯(lián)。
(3)成績修正前后課程關(guān)聯(lián)結(jié)果比較。我們對比7對成績修正前后課程關(guān)聯(lián)。利用原始數(shù)據(jù)分析的結(jié)果中三對課程(KC3,KC4)、(KC5,KC10)、(KC7,KC10)無關(guān)聯(lián),但事實上,對成績進(jìn)行修正后,以上三對課程存在兩個不同等級的關(guān)聯(lián)。
(4)成績修正前后課程關(guān)聯(lián)參數(shù)比較。通過對比表5和表6,修正成績后四對課程關(guān)聯(lián)(KC3,KC14)、(KC5,KC7)、(KC11,KC14)、(KC13,KC18)累計支持度明顯高于原始成績對應(yīng)的情況,(KC3,KC14)累計支持度達(dá)0.44,具有較高的關(guān)聯(lián)性。成績修正前后提升度均大于1,按照課程開設(shè)順序有相應(yīng)的蘊含關(guān)系,可提前積極指導(dǎo)學(xué)生后期課程學(xué)習(xí)。
表5 修正后關(guān)聯(lián)課程支持度、累計支持度、置信度和提升度
表6 修正前關(guān)聯(lián)課程支持度、累計支持度、置信度和提升度
本文基于課程正態(tài)分布總體對課程成績進(jìn)行標(biāo)準(zhǔn)化,利用線性函數(shù)插值法對學(xué)生成績進(jìn)行修正,消除成績分布和標(biāo)準(zhǔn)差的差異性,在同一標(biāo)尺下進(jìn)行課程強關(guān)聯(lián)分析。成績修正的Apriori算法是在統(tǒng)一課程成績標(biāo)準(zhǔn)前提下進(jìn)行的數(shù)據(jù)挖掘,消除課程成績評價對課程關(guān)聯(lián)規(guī)則的影響,更加準(zhǔn)確地分析課程的關(guān)聯(lián)程度,對學(xué)生課程學(xué)習(xí)指導(dǎo)更加具有針對性,為專業(yè)教學(xué)管理提供依據(jù)。