李毅
摘 要:試卷分析是教學(xué)工作中的重要部分。傳統(tǒng)試卷分析側(cè)重借助統(tǒng)計(jì)方法從多個(gè)統(tǒng)計(jì)維度進(jìn)行整體分析,缺乏對(duì)試卷知識(shí)點(diǎn)間關(guān)聯(lián)關(guān)系的挖掘。本研究基于學(xué)生答題數(shù)據(jù),運(yùn)用Apriori算法分析了試卷中各知識(shí)點(diǎn)間的隱含關(guān)聯(lián)關(guān)系。所得到的結(jié)論在幫助教師了解各知識(shí)點(diǎn)間的相互影響、改進(jìn)教學(xué)方法,引導(dǎo)學(xué)生進(jìn)行自主學(xué)習(xí)等諸多方面具有積極的作用。
關(guān)鍵詞:關(guān)聯(lián)規(guī)則;試卷分析;Apriori算法
一、引言
目前學(xué)校教學(xué)管理中,對(duì)學(xué)生試卷分析側(cè)重于借助統(tǒng)計(jì)手段得到相關(guān)的試卷統(tǒng)計(jì)數(shù)據(jù),比如:最高得分、最低得分、平均成績、難度系數(shù)等一系列指標(biāo),缺乏針對(duì)考題知識(shí)點(diǎn)的評(píng)價(jià),對(duì)學(xué)生取得這些成績的知識(shí)層面的原因較難深入了解,對(duì)教學(xué)支持作用存在局限性。多數(shù)教師在試卷講評(píng)環(huán)節(jié)中,對(duì)錯(cuò)誤率高的題目進(jìn)行重點(diǎn)講解,再結(jié)合自身經(jīng)驗(yàn)進(jìn)行擴(kuò)展延伸,這會(huì)導(dǎo)致試卷講解過于主觀。如何利用成績數(shù)據(jù)理性分析學(xué)生知識(shí)點(diǎn)掌握情況,找出知識(shí)點(diǎn)間關(guān)聯(lián),是廣大教師共同關(guān)心的問題。
Apriori算法是經(jīng)典的關(guān)聯(lián)規(guī)則挖掘算法之一,能夠探究事物間的關(guān)聯(lián)關(guān)系,建立關(guān)聯(lián)規(guī)則。本文使用Apriori算法,依據(jù)學(xué)生答題數(shù)據(jù),分析出了試卷中各題目對(duì)應(yīng)知識(shí)點(diǎn)間的關(guān)聯(lián)性,從而指導(dǎo)教師合理地開展教學(xué)。
二、關(guān)聯(lián)規(guī)則算法
1. 關(guān)聯(lián)規(guī)則算法的基本概念
關(guān)聯(lián)規(guī)則挖掘方法由R.Agrawal等人在1993年提出,用此算法可對(duì)商店顧客的購物數(shù)據(jù)進(jìn)行分析,基本思想如下:
設(shè)I={i1,i2,…,im}是二進(jìn)制集合,其中元素稱為項(xiàng)(item)。項(xiàng)的集合稱為項(xiàng)集(itemset),包含k項(xiàng)的集合為k-項(xiàng)集。記 D 為交易(transaction)T 的集合,這里交易T 是項(xiàng)的集合,并且T I。設(shè) X 是一個(gè)I 中項(xiàng)的集合,如果X T,那么稱交易 T 包含 X 。
關(guān)聯(lián)規(guī)則形如X→Y,其中X I,Y I,并且X∩Y=。規(guī)則X→Y在交易數(shù)據(jù)庫D中的支持度(support)為交易集當(dāng)中,同時(shí)包含 X 與 Y 的交易數(shù)與全部交易數(shù)的比值,記為support(X→Y)。
support(X→Y)=
支持度(support)能夠反映 X 與 Y 在同一時(shí)間內(nèi)出現(xiàn)的概率。如果二者在同一時(shí)間出現(xiàn)概率較小,代表二者關(guān)系不大,若二者同一時(shí)間出現(xiàn)概率較大,那么說明二者是相關(guān)的。
規(guī)則 X→Y 在交易集中的置信度(confidence)為同時(shí)包含 X 和 Y 的交易數(shù)與包含X 的交易數(shù)比值,記為confidence(X→Y)。
confidence(X→Y)=
通過置信度(confidence)我們能夠判斷關(guān)聯(lián)性的強(qiáng)弱,如果置信度較高,那么X與Y的關(guān)聯(lián)性很強(qiáng)。
挖掘特定交易集D的相關(guān)規(guī)則問題,就是產(chǎn)生那些支持度和置信度分別大于最小支持度和最小置信度的關(guān)聯(lián)規(guī)則。
計(jì)算頻繁項(xiàng)集是關(guān)聯(lián)規(guī)則挖掘的關(guān)鍵,主要有兩種算法:R.Agrawal提出的Apriori算法,與Jiawei Han提出的FP-growth算法。本文采用Apriori算法計(jì)算頻繁項(xiàng)集,并對(duì)知識(shí)點(diǎn)的關(guān)聯(lián)性進(jìn)行分析。
2. Apriori算法步驟
步驟一:確定最小支持度與最小置信度。
步驟二:對(duì)事務(wù)集D進(jìn)行掃描,分析事務(wù)中出現(xiàn)的項(xiàng)目,如果首次遇到該項(xiàng)目,那么加入候選集C1,并將對(duì)應(yīng)的計(jì)數(shù)置為1;如果該項(xiàng)數(shù)據(jù)已加入C1,則將其計(jì)數(shù)值加上1得到了候選1-項(xiàng)集。掃描C1,對(duì)于計(jì)數(shù)小于最小支持度的數(shù)據(jù)項(xiàng)集進(jìn)行刪除,得到頻繁項(xiàng)集 L1。
步驟三:對(duì) Lk-1 和 Lk-1 進(jìn)行連接生成 Lk,得到所有長度為k的候選k-項(xiàng)集 Ck 。
步驟四:對(duì) Ck 進(jìn)行剪枝,刪除所有(k-1)-子集不全包含在Lk-1中的 Ck 中的數(shù)據(jù)項(xiàng)集。
步驟五:掃描事務(wù)集D中的所有事務(wù),如果它包含 Ck 中的候選數(shù)據(jù)項(xiàng)集c,則將c的計(jì)數(shù)加1(初始值為0)。掃描 Ck 刪除那些出現(xiàn)計(jì)數(shù)小于最小支持度的數(shù)據(jù)項(xiàng)集,得到頻繁項(xiàng)集 Lk 。
步驟六:重復(fù)步驟三到步驟五,直到 Lk 為空。
步驟七:對(duì) L1 到 Lk 取并集最終即為頻繁項(xiàng)集L。
三、 Apriori算法在試卷分析中的應(yīng)用研究
1. 數(shù)據(jù)的準(zhǔn)備
本文以某中學(xué)初一年級(jí)上學(xué)期期末數(shù)學(xué)考試卷面成績?yōu)閿?shù)據(jù)基礎(chǔ),結(jié)合學(xué)科知識(shí)結(jié)構(gòu)及教學(xué)主要知識(shí)點(diǎn)分布。首先,對(duì)試卷各試題所包含的知識(shí)點(diǎn)進(jìn)行統(tǒng)計(jì),如表1所示。然后,對(duì)學(xué)生題目的作答成績進(jìn)行錄入,如表2所示。
2. 數(shù)據(jù)的清理
重點(diǎn)檢查數(shù)據(jù)缺失的情況,對(duì)于成績的缺失,通常采用錄入平均值的方式。對(duì)學(xué)生答題情況進(jìn)行記錄,客觀題采用“0”和“1”來描述學(xué)生試題的正確與否,主觀題以得分率進(jìn)行記錄。針對(duì)試卷知識(shí)點(diǎn)的關(guān)聯(lián)分析中,那些難度過大或過小的題目會(huì)導(dǎo)致分析結(jié)果中體現(xiàn)對(duì)這些題目的關(guān)聯(lián)性過強(qiáng),影響分析結(jié)果。因此需計(jì)算各題目的難易度,將過于簡單和困難的題目排除。
3. 數(shù)據(jù)離散化處理
由于關(guān)聯(lián)分析只能對(duì)處于區(qū)間數(shù)據(jù)進(jìn)行分析,需要對(duì)數(shù)據(jù)進(jìn)行離散化處理,通過離散化處理后,連續(xù)的數(shù)值會(huì)被區(qū)域數(shù)值代替。得分率小于等于0.5量化為0,得分率大于0.5量化為1,如表3所示。
利用Apriori算法對(duì)形如表3所示的數(shù)據(jù)進(jìn)行關(guān)聯(lián)規(guī)則挖掘。當(dāng)最小支持度下限設(shè)為0.5,最小置信度下限設(shè)為0.7時(shí),產(chǎn)生如表4的部分挖掘結(jié)果。
4. 計(jì)算結(jié)果分析
以下為得到的部分關(guān)聯(lián)規(guī)則:
規(guī)則1:一元一次方程的應(yīng)用=>數(shù)軸
此規(guī)則的意思是:在一元一次方程的應(yīng)用知識(shí)點(diǎn)得分較高的學(xué)生對(duì)包含數(shù)軸知識(shí)點(diǎn)的題目得分也會(huì)高。這表明考察數(shù)軸知識(shí)點(diǎn)的題目會(huì)結(jié)合一元一次方程應(yīng)用的知識(shí),教師在講解數(shù)軸時(shí),注意帶領(lǐng)學(xué)生回顧一元一次方程解法的相關(guān)內(nèi)容。
規(guī)則2:有理數(shù)的混合運(yùn)算=>頻數(shù)直方圖、用樣本估計(jì)總體
此規(guī)則的意思是:解有理數(shù)混合運(yùn)算題目得分較高的學(xué)生在解包含頻數(shù)直方圖和用樣本估計(jì)總體的題目得分也較高。這說明掌握有理數(shù)混合運(yùn)算是解包含頻數(shù)直方圖和用樣本估計(jì)總體知識(shí)點(diǎn)的基礎(chǔ)。
四、小結(jié)
實(shí)踐證明將Apriori算法應(yīng)用到試卷知識(shí)點(diǎn)分析中,能夠幫助教師更加客觀地評(píng)價(jià)學(xué)生知識(shí)掌握情況,為教師調(diào)整教學(xué)安排與教學(xué)方法提供參考,從而提升教學(xué)質(zhì)量。
參考文獻(xiàn):
[1]沈?qū)W珺.大數(shù)據(jù)對(duì)教育意味著什么[J].上海教育科研,2013(9):9-13.
[2]陳明選,許曉群,王玉家.基于教育測(cè)評(píng)數(shù)據(jù)分析的教學(xué)優(yōu)化研究[J].中國電化教育,2018(5):80-89.
[3]Agrawal R,hnielinski T,Swami A.Mining Association Rules Between Sets of Items in Large Databases[C]. Proceedings of the ACM SIGMOD Conference on Management of Data,New York:ACM,1993:207.
[4]Agrawal R,Srikant R.Fast Algorithms for Mining Association Rules[C].In Proceeding of the 20th International Conference on Very Large Database,1994:487-498.
[5]Jiawei Han,Jian Pei,Yiwen Yin. Mining frequent patterns without candidate generation[J]. ACM SIGMOD Record,2000,29(2).
[6]倪海兒,裘曉華,魏丹毅.試卷質(zhì)量評(píng)估與分析系統(tǒng)的構(gòu)建與實(shí)現(xiàn)[J].寧波大學(xué)學(xué)報(bào)(理工版),2016,29(3):118-122.