李強(qiáng)麗,李慧,譚立云
(華北科技學(xué)院基礎(chǔ)部,廊坊065201)
基于關(guān)聯(lián)分析的高等數(shù)學(xué)試卷分析及其R軟件實(shí)現(xiàn)
李強(qiáng)麗,李慧,譚立云
(華北科技學(xué)院基礎(chǔ)部,廊坊065201)
近年來數(shù)據(jù)挖掘技術(shù)得到了迅猛發(fā)展,其應(yīng)用也越來越廣泛??刹捎肦軟件,利用Apriori算法對高等數(shù)學(xué)上、下冊試卷成績的進(jìn)行關(guān)聯(lián)分析,從而揭示高等數(shù)學(xué)各主要知識點(diǎn)之間的關(guān)系,為學(xué)生的學(xué)習(xí)以及教師的教學(xué)提供指導(dǎo)。
試卷分析;R軟件;關(guān)聯(lián)規(guī)則
高等數(shù)學(xué)是高等院校工科各有關(guān)專業(yè)最重要的基礎(chǔ)課之一,因此工科各有關(guān)專業(yè)學(xué)生必須具備高等數(shù)學(xué)的基本理論知識,并熟練掌握其基本運(yùn)算方法。通過考試可以測驗(yàn)學(xué)生對知識的掌握情況,而試卷分析是高等學(xué)校教學(xué)工作中的一個(gè)非常重要組成部分。
我國已有很多學(xué)者在試卷分析方面進(jìn)行了研究,如邱翔[1]對高等數(shù)學(xué)上下冊成績之間的相關(guān)性進(jìn)行了分析,陳石磊[2]利用常用的統(tǒng)計(jì)分析軟件SPSS對試卷成績進(jìn)行描述性統(tǒng)計(jì)分析,試卷質(zhì)量難度、區(qū)分度、信度分析。隨著數(shù)據(jù)挖掘技術(shù)的迅猛發(fā)展,其在各個(gè)領(lǐng)域中的應(yīng)用也越來越廣泛,但是在教育領(lǐng)域中,數(shù)據(jù)挖掘技術(shù)應(yīng)用仍處于初級階段。高等數(shù)學(xué)上、下冊知識點(diǎn)繁多,試卷內(nèi)容復(fù)雜,考生的人數(shù)又多,產(chǎn)生了大量的數(shù)據(jù),教師很難從中獲得隱藏的信息。若要成功地從大量試卷中獲得有用的信息,必然需要一種高效的數(shù)據(jù)處理方法。在這種情況下,數(shù)據(jù)挖掘技術(shù)發(fā)揮了它獨(dú)特的優(yōu)勢[3]。通過數(shù)據(jù)挖掘可以幫助教師明確教學(xué)中存在的問題,幫助教師分析確定教學(xué)難點(diǎn),協(xié)助完善教學(xué)策略,以及幫助教師開展更具針對性的教學(xué)輔導(dǎo)工作。
關(guān)聯(lián)分析是數(shù)據(jù)挖掘的核心技術(shù)之一,其目的是從大量數(shù)據(jù)中發(fā)現(xiàn)項(xiàng)集之間的有趣關(guān)聯(lián)或相互關(guān)系,其中最經(jīng)典的Apriori算法在關(guān)聯(lián)規(guī)則分析領(lǐng)域有很大的影響力,其挖掘過程可以分兩個(gè)步驟完成:
(1)產(chǎn)生頻繁項(xiàng)集。即找出所有那些支持度大于等于事先給定的最小支持度的項(xiàng)集。
(2)由頻繁項(xiàng)集產(chǎn)生關(guān)聯(lián)規(guī)則。即從頻繁項(xiàng)集中產(chǎn)生所有關(guān)聯(lián)規(guī)則,選擇置信度大于產(chǎn)或等于事先給定的最小置信度的關(guān)聯(lián)規(guī)則,組成有效規(guī)則集合。
在上述兩個(gè)步驟中,第一步是挖掘關(guān)聯(lián)規(guī)則的關(guān)鍵步驟,尋找頻繁集的過程是一個(gè)不斷迭代的過程,挖掘關(guān)聯(lián)規(guī)則的總體性能由第一步?jīng)Q定。
R是一種開源軟件和免費(fèi)軟件,作為一個(gè)可進(jìn)行交互式數(shù)據(jù)分析和探索的強(qiáng)大平臺,被越來越多的數(shù)據(jù)分析和挖掘人員及公司使用。
2.1相關(guān)軟件包
R中有專用于關(guān)聯(lián)分析的軟件包——arules,用于關(guān)聯(lián)規(guī)則的數(shù)字化生成,提供Apriori快速挖掘頻繁項(xiàng)集和關(guān)聯(lián)規(guī)則算法的實(shí)現(xiàn)函數(shù),下載安裝arules軟件包,并加載后即可使用。
2.2核心函數(shù)
在R中實(shí)現(xiàn)Apriori算法,其核心函數(shù)為apriori(),函數(shù)的基本格式為:
當(dāng)放置相應(yīng)的數(shù)據(jù)集,并設(shè)置各個(gè)參數(shù)值(如:支持度和置信度的閾值)后,運(yùn)行該函數(shù)即可生成滿足需求的頻繁項(xiàng)集或關(guān)聯(lián)規(guī)則等結(jié)果,下面具體說明各參數(shù)的設(shè)置。
data參數(shù)是集合數(shù)據(jù),一般使用as(…,"transaction")進(jìn)行轉(zhuǎn)換[4]。
parameter參數(shù)可以對支持度(support)、置信度(confidence)、每個(gè)項(xiàng)集所包含項(xiàng)數(shù)的最大值或最小值(maxlen或minlen),以及輸出結(jié)果(target)等重要參數(shù)進(jìn)行設(shè)置。如果沒有對齊進(jìn)行設(shè)置,函數(shù)將對各參數(shù)取默認(rèn)值。
appearance參數(shù)可以對先決條件X(lhs)和關(guān)聯(lián)結(jié)果Y(rhs)中具體包含哪些項(xiàng)進(jìn)行限制,在默認(rèn)情況下,所有項(xiàng)都將無限制出現(xiàn)[5]。
3.1數(shù)據(jù)選取
(1)數(shù)據(jù)取自我院2012級工科各專業(yè)全體學(xué)生高等數(shù)學(xué)上、下冊的考試成績真實(shí)成績,即兩個(gè)學(xué)期的高等數(shù)學(xué)卷面總成績和每道題目的得分,數(shù)據(jù)完整,無遺漏和重復(fù)現(xiàn)象。
(2)將高等數(shù)學(xué)上、下冊的試卷的考點(diǎn)進(jìn)行了總結(jié),共分成九大知識點(diǎn),如表1所示。
表1 高等數(shù)學(xué)各知識點(diǎn)總結(jié)
3.2數(shù)據(jù)預(yù)處理
(1)構(gòu)造屬性:本文需要將表1中提到的九個(gè)知識點(diǎn)添加到數(shù)據(jù)集中,也就是要根據(jù)數(shù)據(jù)集中原有的屬性來構(gòu)造新的屬性。具體的方法是按照表1所示的分類將每個(gè)知識點(diǎn)所對應(yīng)的各個(gè)題目的得分進(jìn)行累加,進(jìn)而得到學(xué)生對每個(gè)知識點(diǎn)的得分。
(2)數(shù)據(jù)規(guī)范化:考慮到算法的要求,需要對數(shù)據(jù)進(jìn)行處理,將其整理成事實(shí)表的格式。首先計(jì)算出各知識點(diǎn)的得分,若學(xué)生在該知識點(diǎn)得分超過該知識點(diǎn)總分的60%(如果結(jié)果是小數(shù),則向上取整),即認(rèn)為該學(xué)生掌握了這個(gè)知識點(diǎn),記為1,否則認(rèn)為該學(xué)生未掌握這個(gè)知識點(diǎn),記為0,在Excel中完成上述操作后如表3所示,將數(shù)據(jù)保存為gaoshu.csv格式。
表2 《高等數(shù)學(xué)》九大知識點(diǎn)分布情況
表3 將數(shù)據(jù)整理為0與1的格式
3.3 R軟件實(shí)現(xiàn)對高等數(shù)學(xué)試卷的難度分析
apriori()函數(shù)可以輸出頻繁項(xiàng)集(frequent itemsets),對項(xiàng)集頻率進(jìn)行降序排列后,就可以得到每個(gè)知識點(diǎn)相應(yīng)的掌握情況,進(jìn)而可以分析試卷中每個(gè)知識點(diǎn)的難易度,R軟件的實(shí)現(xiàn)代碼如下,R軟件運(yùn)行后的結(jié)果見表4。
>a<-read.csv("gaoshu.csv",header=T)#導(dǎo)入數(shù)據(jù)
>data=as.matrix(a)#將數(shù)據(jù)轉(zhuǎn)換為矩陣格式
>data.class=as(data,"transactions")#將數(shù)據(jù)框轉(zhuǎn)換為可以被apriori算法調(diào)用的格式
>itemsets_apr=apriori(data,parameter=list(supp=0.1,target="frequent itemsets"),
control=list(sort=-1))#將apriori()中目標(biāo)參數(shù)設(shè)為“頻繁項(xiàng)集”
>inspect(itemsets_apr)#觀測頻繁項(xiàng)集的輸出結(jié)果
表4 頻繁項(xiàng)集支持度
由表4可以得出,解析幾何、導(dǎo)數(shù)與微分相關(guān)的題目學(xué)生作答較好,屬于較容易的題目,而關(guān)于級數(shù)的題目學(xué)生作答較差,屬于較難的題目,學(xué)生對于高等數(shù)學(xué)上冊的掌握明顯好于下冊。
3.4 R軟件實(shí)現(xiàn)對高等數(shù)學(xué)試卷的關(guān)聯(lián)分析
使用R軟件對規(guī)范后的數(shù)據(jù)進(jìn)行關(guān)聯(lián)規(guī)則分析,設(shè)置支持度閾值為0.3,置信度閾值為0.6,并按規(guī)則的提升度從大到小排序,主要程序如下,得到的結(jié)果見表5。
表5 關(guān)聯(lián)規(guī)則分析結(jié)果
>rules=apriori(data,parameter=list(support=0.3,confidence= 0.6))#支持度設(shè)為0.3,置信度設(shè)為0.6
>rules.sorted_lift=sort(rules,by="lift")#將規(guī)則按照提升度從大到小排序
>inspect(rules.sorted_lift)#查看規(guī)則
3.5關(guān)聯(lián)規(guī)則結(jié)果分析
(1)由第1-7條規(guī)則可知,導(dǎo)數(shù)和微分、積分學(xué)或者微分方程如果學(xué)習(xí)好的話,那么一定對極限知識掌握的非常好,這些規(guī)則的置信度都在75%以上,說明學(xué)好極限是很重要的,它是學(xué)好導(dǎo)數(shù)和微分、積分學(xué)和微分方程的基礎(chǔ)。
(2)由第8-18條及第21條規(guī)則可知,如果積分學(xué)、微分方程、解析幾何或者多元函數(shù)微分學(xué)習(xí)好的話,那么一定對導(dǎo)數(shù)和微分知識掌握的非常好,這些規(guī)則的置信度大部分都在87%以上。所以導(dǎo)數(shù)和微分又是學(xué)習(xí)積分學(xué)、微分方程、解析幾何及多元函數(shù)微分的基礎(chǔ)知識。
(3)由第19-20條規(guī)則可知,重積分、曲線與曲面積分如果學(xué)習(xí)好的話,那么一定對解析幾何掌握的非常好,而這些規(guī)則的置信度都高達(dá)96%以上。解析幾何能夠培養(yǎng)學(xué)生的空間想象能力,是學(xué)習(xí)重積分、曲面與曲線積分的基礎(chǔ)。
(4)比較這些規(guī)則,得出《高等數(shù)學(xué)》(上)是學(xué)習(xí)《高等數(shù)學(xué)》(下)的基礎(chǔ),這不是從知識點(diǎn)的銜接上直接分析得來的,而是通過對學(xué)生的實(shí)際考試成績分析得出的結(jié)論,會(huì)更加具有說服力。所以教師在教學(xué)過程中不僅自己要清楚重點(diǎn)知識,還一定要讓學(xué)生知道學(xué)習(xí)每個(gè)知識點(diǎn)的作用,尤其是基礎(chǔ)知識點(diǎn)的作用,只有在前面打好基礎(chǔ),才能更好地學(xué)習(xí)《高等數(shù)學(xué)》(下)的知識點(diǎn)。
通過對高等數(shù)學(xué)試卷的關(guān)聯(lián)分析,學(xué)生在學(xué)習(xí)《高等數(shù)學(xué)》上、下冊的過程中要注意知識點(diǎn)之間的聯(lián)系,如果某個(gè)知識點(diǎn)沒學(xué)好,可以先去復(fù)習(xí)一下與其密切相關(guān)的知識。另外,教師們在教學(xué)中基本上是通過直觀的判斷來確定教學(xué)重點(diǎn)和難點(diǎn),關(guān)聯(lián)分析的應(yīng)用也為教師了解試卷的難度,把握教學(xué)內(nèi)容的重點(diǎn)提供了理論依據(jù)和方法,從而能促有效促進(jìn)教師的教學(xué),提高教學(xué)質(zhì)量。
[1]邱翔,莊海根,龐莉莉,侯志芳,李樺.工科學(xué)生《高等數(shù)學(xué)》成績的相關(guān)分析研究[J].沈陽師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2014,32(2):291-295.
[2]陳石磊.SPSS在大學(xué)英語試卷分析中的應(yīng)用研究[J].重慶交通大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版),2014.14(6):135-138.
[3]張瑤,陳高云,王鵬.數(shù)據(jù)挖掘技術(shù)在試卷分析中的應(yīng)用[J].西南民族大學(xué)學(xué)報(bào)(自然科學(xué)版),2008.34(4):839-842.
[4]李明.R語言實(shí)戰(zhàn)與網(wǎng)站分析[M].機(jī)械工業(yè)出版社,2014.
[5]黃文,王正林.數(shù)據(jù)挖掘:R語言實(shí)戰(zhàn)[M].電子工業(yè)出版社,2014.
Analysis of Higher Mathematics Test Papers Based on Association Analysis and Its Implementation with R Software
LI Qiang-li,LI Hui,TAN Li-yun
(Foundation Department,North China Institute of Science and Technology,Langfang 065201)
In recent years,data mining technology has been developed rapidly,and its application is becoming more and more extensive.It can use the Apriori algorithm to realize association rule analysis for higher mathematics test papers between volumeⅠand volumeⅡ,which is shown with R software,reveals the relationship between the main knowledge of higher mathematics,which can provide guide for the students how to learn and the teachers how to teach.
Paper Analysis;R Software;Association Rule
1007-1423(2016)16-0006-04DOI:10.3969/j.issn.1007-1423.2016.16.002
李強(qiáng)麗(1981-),女,河北南宮人,碩士研究生,講師,研究方向?yàn)閿?shù)據(jù)挖掘、計(jì)算智能
李慧(1979-),女,山東曲阜人,碩士研究生,講師,研究方向?yàn)閿?shù)據(jù)挖掘、信息論,
譚立云(1966-),男,湖南益陽人,碩士研究生,教授,研究方向?yàn)槎嘣y(tǒng)計(jì)、數(shù)據(jù)挖掘
2016-03-29
2016-06-10
華北科技學(xué)院重點(diǎn)學(xué)科應(yīng)用數(shù)學(xué)資助(HKXJZD201402)