劉道君 王常穎
摘 要:關(guān)聯(lián)規(guī)則挖掘是近年來(lái)數(shù)據(jù)挖掘領(lǐng)域的重要手段。針對(duì)不同因素對(duì)學(xué)生成績(jī)的影響,應(yīng)用關(guān)聯(lián)規(guī)則Apriori算法對(duì)學(xué)生成績(jī)的影響因素進(jìn)行分析。首先收集了與學(xué)生成績(jī)及學(xué)習(xí)習(xí)慣相關(guān)的數(shù)據(jù),并對(duì)其進(jìn)行了離散化處理;然后采用關(guān)聯(lián)規(guī)則Apriori算法對(duì)離散后的學(xué)生數(shù)據(jù)信息進(jìn)行挖掘,得到了12條強(qiáng)相關(guān)規(guī)則;通過(guò)分析這些規(guī)則發(fā)現(xiàn),家長(zhǎng)和老師的督促可以很好的改善學(xué)生上課走神現(xiàn)象,而走神對(duì)學(xué)生的成績(jī)影響是特別大的,且通過(guò)分析發(fā)現(xiàn)學(xué)生的書寫格式,學(xué)習(xí)持久力,記筆記的習(xí)慣等因素之間相互影響。研究成果表明,要想提升學(xué)生的學(xué)業(yè)成績(jī),不能單一的做題和補(bǔ)課,而是應(yīng)該找到學(xué)生成績(jī)不好的成因,進(jìn)而提高成績(jī)。
關(guān)鍵詞:數(shù)據(jù)挖掘; Apriori算法;成績(jī)分析;離散化
引 言
學(xué)生的學(xué)業(yè)成績(jī)是國(guó)家和社會(huì)選拔人才的一個(gè)重要的結(jié)果性變量,也是評(píng)價(jià)一個(gè)學(xué)生基本素質(zhì)的重要標(biāo)準(zhǔn)。學(xué)生成績(jī)的優(yōu)劣甚至能影響個(gè)人的發(fā)展。因此學(xué)生本人,家長(zhǎng)和老師等都非常重視學(xué)生的學(xué)業(yè)成績(jī),都想法提高學(xué)業(yè)成績(jī)。那么究竟是哪些因素影響學(xué)生的學(xué)業(yè)成績(jī),又當(dāng)如何去提高呢?我們可以依靠數(shù)據(jù)挖掘從海量的數(shù)據(jù)中挖掘出自身感興趣的信息。關(guān)聯(lián)規(guī)則挖掘就是一種從歷史數(shù)據(jù)集中發(fā)現(xiàn)隱藏信息,從海量數(shù)據(jù)中發(fā)現(xiàn)潛在的有價(jià)值的技術(shù)方法。本文采用關(guān)聯(lián)規(guī)則Apriori算法[1,2,3,4]挖掘?qū)W生成績(jī)數(shù)據(jù),可以從中挖掘出不同因素對(duì)成績(jī)的影響和不同因素之間的影響。力圖通過(guò)關(guān)聯(lián)規(guī)則分析[5,6,7,8,9],得到一些有意義的信息。以此幫助學(xué)生找到提高學(xué)業(yè)成績(jī)的方法。
一、關(guān)聯(lián)規(guī)則的概念
關(guān)聯(lián)規(guī)則就是指兩個(gè)或兩個(gè)以上的變量之間存在的某種規(guī)則。關(guān)聯(lián)規(guī)則挖掘即是從已知事務(wù)數(shù)據(jù)庫(kù)中找到支持度和置信度分別大于給定的閾值的所有關(guān)聯(lián)規(guī)則。支持度就是在事務(wù)數(shù)據(jù)庫(kù)中某個(gè)項(xiàng)目集出現(xiàn)的次數(shù)占總事務(wù)數(shù)的比值,最小支持度就是用戶設(shè)置的符合實(shí)際要求的最低閾值,把符合最小支持度要求的項(xiàng)目集稱為頻繁項(xiàng)目集。置信度是指包含頻繁項(xiàng)目集A和B的事務(wù)數(shù)與頻繁項(xiàng)目集A的事務(wù)數(shù)之比。最小置信度就是用戶設(shè)置的符合實(shí)際要求的最低閾值。很顯然,把同時(shí)符合最小支持度與最小置信度的關(guān)聯(lián)規(guī)則稱為強(qiáng)相關(guān)規(guī)則。
這里采用了Apriori算法來(lái)尋找所有的頻繁項(xiàng)目集。它使用了一種被稱為逐層搜索的迭代算。其核心步驟如下:
①連接步:為了尋找LK,在k次掃描數(shù)據(jù)庫(kù)時(shí),通過(guò)Lk-1與自身連接產(chǎn)生候選k-項(xiàng)集CK。
②剪枝步:由于Ck是Lk的超集,即Ck的成員可能是也可能不是頻繁的。需要掃描數(shù)據(jù)庫(kù),確定是否大于最小支持度。為了壓縮Ck,可以運(yùn)用Apriori性質(zhì):任何一個(gè)頻繁集的全部非空子集一定是頻繁集,所以如果某個(gè)候選集的一個(gè)非空子集不是頻繁的,則該候選集可以刪除。
二、利用關(guān)聯(lián)規(guī)則分析學(xué)生成績(jī)
(一)數(shù)據(jù)的采集與處理
關(guān)聯(lián)規(guī)則分析需要豐富的數(shù)據(jù)信息作為基礎(chǔ)。本文采用初一學(xué)生的成績(jī)作為研究對(duì)象,研究與學(xué)生成績(jī)相關(guān)的12個(gè)屬性[10,11,12,13]。選取了100名學(xué)生的成績(jī)和相關(guān)屬性值。其中屬性值對(duì)成績(jī)的影響分為三個(gè)方面,分別為學(xué)生,家長(zhǎng),學(xué)習(xí)環(huán)境。
首先將學(xué)生成績(jī)進(jìn)行離散化。將100名學(xué)生按照成績(jī)進(jìn)行排名,然后按照人數(shù)百分比進(jìn)行離散。排名前10%的學(xué)生,即第1名到第10名(包括第10名)的學(xué)生記作A1 ;排名在10%到30%的學(xué)生,即第11名到第30名(包括第30名)的學(xué)生記作A2;排名在30%到60%的學(xué)生,即第30名到第60名(包括第60名)的學(xué)生記作A3;排名在60%之后的學(xué)生,即第61名到第100名(包括第100名)的學(xué)生記作A4。
再將相關(guān)屬性值進(jìn)行離散。
學(xué)生學(xué)習(xí)持久力,定義為學(xué)生連續(xù)作業(yè)的時(shí)間:低于0.5h的記作B1,0.5-1h的記作B2,高于1h的記作B3。
筆記錯(cuò)題本每周使用次數(shù),定義使用20分鐘以上為一次:少于2次的記作C1,2到4次的記作C2,4次以上的記作C3。
書寫格式:書寫潦草的記作D1,書寫清晰的記作D2
每周使用與學(xué)習(xí)無(wú)關(guān)的電子類產(chǎn)品次數(shù),定義使用15分鐘以上為一次:4次以上的記作E1,2到4次的記作E2,少于2次的記作E3。
家長(zhǎng)每周督促學(xué)生學(xué)習(xí)次數(shù),定義在家長(zhǎng)督促下,學(xué)生在有效學(xué)習(xí)的為有效督促,記作1次。而在家長(zhǎng)口頭督促下學(xué)生并沒(méi)有有效學(xué)習(xí)的不記作次數(shù):少于2次的記作F1,2到4次的記作F2,4次以上的記作F3。
學(xué)生與老師每周交流次數(shù),定義為學(xué)生主動(dòng)與老師交流學(xué)習(xí)相關(guān)問(wèn)題記作1次:少于2次的記作G1,2到4次的記作G2,4次以上的記作G3。
每周課堂聽(tīng)課走神次數(shù),定義為學(xué)生在課堂上因走神而導(dǎo)致課程重點(diǎn)知識(shí)沒(méi)聽(tīng)到的記作1次):4次以上的記作H1,2到4次的記作H2,少于2次的記作H3。
每周家庭學(xué)習(xí)走神次數(shù),定義為學(xué)生在作業(yè)時(shí)走神5分鐘以上的記作1次:4次以上的記作I1,2到4次的記作I2,少于2次的記作I3。
(二)挖掘關(guān)聯(lián)規(guī)則
本文主要是挖掘不同因素對(duì)學(xué)生成績(jī)的影響,以及不同因素之間的影響。這一步的關(guān)鍵在于選擇恰當(dāng)?shù)年P(guān)聯(lián)規(guī)則算法對(duì)數(shù)據(jù)進(jìn)行處理,這里主要采用關(guān)聯(lián)規(guī)則Aprior算法對(duì)離散后的學(xué)生數(shù)據(jù)信息進(jìn)行挖掘。設(shè)定最小支持度為0.3,最小置信度為0.8。運(yùn)行關(guān)聯(lián)規(guī)則Aprior算法程序后,得到的部分實(shí)驗(yàn)結(jié)果如表1所示。
2.3 挖掘結(jié)果分析
規(guī)則1說(shuō)明:成績(jī)差的學(xué)生,一般都很少與老師交流。該規(guī)則支持度0.33,置信度0.82。說(shuō)明成績(jī)差的學(xué)生,在學(xué)習(xí)過(guò)程中遇到的問(wèn)題得不到及時(shí)有效的解決,從而導(dǎo)致問(wèn)題積累,惡性循環(huán),所以老師更應(yīng)該多關(guān)心,多與這類學(xué)生交流。
規(guī)則2說(shuō)明:學(xué)習(xí)持久力低的學(xué)生,一般在學(xué)習(xí)過(guò)程中很少有記筆記和用筆記的習(xí)慣。該規(guī)則支持度0.32,置信度0.86。說(shuō)明要想改善學(xué)生的學(xué)習(xí)持久力,可從科學(xué)使用筆記開(kāi)始。
規(guī)則3說(shuō)明:上課走神次數(shù)較少的學(xué)生,一般書寫都比較清晰。該規(guī)則支持度0.32,置信度0.81。
規(guī)則4說(shuō)明:每周能經(jīng)常使用筆記的學(xué)生,書寫一般都較清晰,該規(guī)則支持度0.25,置信度0.97。說(shuō)明學(xué)生要想使用筆記,應(yīng)先注意平時(shí)的書寫習(xí)慣,只有書寫清晰,才會(huì)有看筆記的欲望。
規(guī)則5說(shuō)明:書寫潦草的學(xué)生,一般都極少使用筆記。該規(guī)則支持度0.34,置信度0.94.該規(guī)則與規(guī)則4正好對(duì)應(yīng)。說(shuō)明良好的書寫習(xí)慣對(duì)一個(gè)學(xué)生相當(dāng)重要。
規(guī)則6、7說(shuō)明:學(xué)習(xí)成績(jī)差和上課走神這兩個(gè)屬性相關(guān)度很高。該規(guī)則支持度0.36,置信度0.90和0.82。說(shuō)明上課走神可能是導(dǎo)致學(xué)生成績(jī)差的一個(gè)主要原因。
本文挖掘出的規(guī)則從一定程度上說(shuō)明了,良好的學(xué)習(xí)習(xí)慣的重要性以及家長(zhǎng)、老師對(duì)于學(xué)生學(xué)習(xí)的重要性。所以要想提高學(xué)生的學(xué)業(yè)成績(jī),首先要加強(qiáng)學(xué)生的自我修養(yǎng),其次需要家長(zhǎng)、老師對(duì)學(xué)生進(jìn)行正確的引導(dǎo)。
三、規(guī)則應(yīng)用
學(xué)生Z1在利用規(guī)則進(jìn)行分析時(shí),問(wèn)題主要體現(xiàn)在書寫潦草,上課走神,家長(zhǎng)督促較少,成績(jī)檔次在A4。發(fā)現(xiàn)問(wèn)題后,經(jīng)過(guò)與家長(zhǎng)溝通,加強(qiáng)了對(duì)學(xué)生的督促。首先規(guī)劃好了學(xué)生每天的學(xué)習(xí)時(shí)間,其次每天對(duì)學(xué)生的書寫著重檢查。經(jīng)過(guò)一個(gè)學(xué)期的改變,學(xué)生上課走神現(xiàn)象明顯有所改善,學(xué)習(xí)積極性也提高了,學(xué)習(xí)持久力也加強(qiáng)了,成績(jī)檔次上升至A3,并且有上升至A2的趨勢(shì)。
學(xué)生Z2在利用規(guī)則分析時(shí),問(wèn)題主要體現(xiàn)在家長(zhǎng)工作很忙,很少督促學(xué)生學(xué)習(xí),學(xué)生與老師交流很少,成績(jī)檔次在A3。發(fā)現(xiàn)問(wèn)題后,經(jīng)過(guò)與家長(zhǎng)溝通,首先加強(qiáng)了對(duì)學(xué)生的督促,其次老師與學(xué)生通過(guò)多次交流。經(jīng)過(guò)一個(gè)學(xué)期的改變,發(fā)現(xiàn)學(xué)生的可塑性很強(qiáng),只是性格上相對(duì)敏感,需要老師和家長(zhǎng)的時(shí)常關(guān)心。成績(jī)檔次也上升至A2。
以上兩個(gè)事例說(shuō)明,只要能對(duì)學(xué)生進(jìn)行正確科學(xué)的引導(dǎo),不僅能提高學(xué)生的學(xué)業(yè)成績(jī),還能提升學(xué)生的整體素質(zhì),從而在學(xué)習(xí)和生活上能順利發(fā)展。
四、結(jié)語(yǔ)
關(guān)聯(lián)規(guī)則挖掘技術(shù)是一種非常有用的技術(shù)工具,可以廣泛的應(yīng)用到不同的領(lǐng)域當(dāng)中。而應(yīng)用關(guān)聯(lián)規(guī)則挖掘技術(shù),提高學(xué)生的學(xué)業(yè)成績(jī),是一個(gè)非常有意義的研究方向,在實(shí)際應(yīng)用中應(yīng)該注意的是:由于最小支持度和最小置信度是主觀設(shè)定的,這會(huì)出現(xiàn)兩種情況,可能是取值太小,會(huì)生成很多規(guī)則,產(chǎn)生很多意義不大的規(guī)則;也可能取值過(guò)大,導(dǎo)致錯(cuò)失很多有價(jià)值的信息。因此,在應(yīng)用中應(yīng)該反復(fù)試驗(yàn),以確定一個(gè)最佳的閾值。相信正確和準(zhǔn)確的應(yīng)用關(guān)聯(lián)挖掘算法一定能科學(xué)有效的提出改善學(xué)生學(xué)習(xí)的策略方法,為國(guó)家和社會(huì)的人才培養(yǎng)起到積極的促進(jìn)作用。
【參考文獻(xiàn)】
[1] 劉以安,羊斌. 關(guān)聯(lián)規(guī)則挖掘中對(duì)Apriori算法的一種改進(jìn)研究[J]. 計(jì)算機(jī)應(yīng)用,2007(02):418-420.
[2] 劉麗娟. 改進(jìn)的Apriori算法的研究及應(yīng)用[J]. 計(jì)算機(jī)工程與設(shè)計(jì),2017,38(12):3324-3328.
[3] 周發(fā)超,王志堅(jiān),葉楓,鄧玲玲. 關(guān)聯(lián)規(guī)則挖掘算法Apriori的研究改進(jìn)[J]. 計(jì)算機(jī)科學(xué)與探索,2015,9(09):1075-1083.
[4] 詹芹,張幼明. 一種改進(jìn)的動(dòng)態(tài)遺傳Apriori挖掘算法[J]. 計(jì)算機(jī)應(yīng)用研究,2010,27(08):2929-2930+2935.
[5] 何軍,劉紅巖,杜小勇. 挖掘多關(guān)系關(guān)聯(lián)規(guī)則[J]. 軟件學(xué)報(bào),2007(11):2752-2765.
[6] 崔妍,包志強(qiáng). 關(guān)聯(lián)規(guī)則挖掘綜述[J]. 計(jì)算機(jī)應(yīng)用研究,2016,33(02):330-334.
[7] 王華,劉萍. 改進(jìn)的關(guān)聯(lián)規(guī)則算法在學(xué)生成績(jī)預(yù)警中的應(yīng)用[J]. 計(jì)算機(jī)工程與設(shè)計(jì),2015,36(03):679-682+752.
[8] 謝芳,王波. 基于關(guān)聯(lián)規(guī)則個(gè)性化推薦的改進(jìn)算法[J]. 計(jì)算機(jī)應(yīng)用,2006(S2):149-151.
[9] 何小東,劉衛(wèi)國(guó). 數(shù)據(jù)挖掘中關(guān)聯(lián)規(guī)則挖掘算法比較研究[J]. 計(jì)算機(jī)工程與設(shè)計(jì),2005(05):1265-1268.
[10] 李颯. 基于關(guān)聯(lián)規(guī)則的學(xué)習(xí)行為關(guān)聯(lián)度分析方法研究[J]. 微電子學(xué)與計(jì)算機(jī),2018,35(06):65-68.
[11] 顧輝,楊青,蔣成功,張茜. 關(guān)聯(lián)規(guī)則在成績(jī)分析中的研究及應(yīng)用[J]. 計(jì)算機(jī)應(yīng)用,2015,35(S1):149-151+198.
[12] 何楚,宋健,卓桐. 基于頻繁模式譜聚類的課程關(guān)聯(lián)分類模型和學(xué)生成績(jī)預(yù)測(cè)算法研究[J]. 計(jì)算機(jī)應(yīng)用研究,2015,32(10):2930-2933.
[13] 劉美玲,李熹,李永勝. 數(shù)據(jù)挖掘技術(shù)在高校教學(xué)與管理中的應(yīng)用[J]. 計(jì)算機(jī)工程與設(shè)計(jì),2010,31(05):1130-1133.