王詠梅
(蘇州高博軟件技術職業(yè)學院,蘇州 215163)
隨著信息技術飛速發(fā)展,大數(shù)據(jù)和云計算風靡全球,數(shù)據(jù)挖掘技術也得到更多的關注和重視。數(shù)據(jù)挖掘,指從大量數(shù)據(jù)中通過算法發(fā)現(xiàn)隱藏在其中的有用的信息的過程。其中主要應用有相似性挖掘、關聯(lián)規(guī)則、預測和周期分析等,而關聯(lián)規(guī)則的挖掘是電子商務市場營銷中最經(jīng)常應用的方面,而Aprior算法是關聯(lián)規(guī)則挖掘中最經(jīng)典的算法。
目前,Apriori算法已經(jīng)應用被廣泛應用于商業(yè)銷售、醫(yī)藥行業(yè)、金融行業(yè)、網(wǎng)絡安全等各個領域。但是在教育行業(yè)的應用并不多見,但隨著校園信息化技術的發(fā)展,學校多學生管理中也多使用現(xiàn)代化的信息管理系統(tǒng),從而產(chǎn)生大量的數(shù)據(jù),如果能夠?qū)?shù)據(jù)挖掘技術應用于學生成績分布匯總去找出課程之間的關系,那么對于教師的教學管理和學生對的學習成績都會有帶來很好的影響。
關聯(lián)規(guī)則就是研究“什么與什么相伴”的問題,例如在商業(yè)銷售決策中考慮顧客購買尿布時會同時對其它哪些商品感興趣的問題,發(fā)現(xiàn)這些商品之間的關聯(lián)性,就可以在商品擺放位置、促銷活動等進行有針對性的安排,從而大幅度增加銷售額。因此,關聯(lián)規(guī)則就是形如x->y的韻式,期中x為關聯(lián)規(guī)則的前件,y為后件,關聯(lián)規(guī)則中考慮支持度和置信度的問題。
支持度(s)即包含前件和后件所有項的事務個數(shù)在總事務數(shù)中的占比,而置信度(c)是包含前件和后件所有項的事務個數(shù)在包含前件所有項的事務總數(shù)中的占比。
公式如下:
式中,D為總事務數(shù);σ為出現(xiàn)頻度。
Apriori算法是一種最具有影響的挖掘布爾關聯(lián)規(guī)則的頻繁項集的算法,該算法基本思想是:首先從只包含一個項的頻繁項集(1-項集)開始,遞歸地產(chǎn)生具有兩個項的頻繁項集,然后依次遞歸,直到產(chǎn)生所有的頻繁項集。
產(chǎn)生1-項集的方法只需對數(shù)據(jù)庫中每項進行計數(shù),找到支持度超過閾值的項即可。
假定一個班級學生成績數(shù)據(jù)庫如表1所示,表格中為班級中不及格較多的8名學生五門課的成績,學生分別以Ti表示,課程分別以Xi表示。
表1 數(shù)據(jù)庫D1
設定閾值min_s=2,Apriori算法執(zhí)行過程如下:
(1)第一步,掃描數(shù)據(jù)庫D1,找出候選集1-項集,去除不滿足最小支持度的項,得到1-項集L1如表2所示。
表2 1-項集
表3 1-項集
(2)第二步,連接L1與L1,得到候選2-項集,去除不滿足最小支持度的項,得到2-項集L2如表3所示。
(3)第三步,連接L1與L2,得到候選3-項集,去除不滿足最小支持度的項,得到3-項集L3如表4所示。
表4 3-項集
(4)第四步,連接L1與L3,得到候選4-項集{X1,X2,X3,X4},該項集支持度為0,故4-項集為空,算法結束。
考慮頻繁3-項集{X1,X2,X3},有如下關聯(lián)規(guī)則:
R1 :{X1}->{X2,X3},置信度 c1=2/6或33.3% ;
R2 :{X2}->{X1,X3},置信度 c2=2/5或40% ;
R3 :{X3}->{X1,X2},置信度 c3=2/4或50% ;
R4 :{X1,X2}->{X3},置信度 c4=2/4或50% ;
R5:{X1,X3}->{X2}, 置 信 度 c5=2/3或66.7%;R6:{X2,X3}->{X1},置信度c6=2/2或100%;
以實際2016級移動互聯(lián)網(wǎng)專業(yè)某班2018-2019學年第一學期期末考試成績?yōu)槔?,使用Apriori算法進行分析。本班本次考試共“Android基礎應用開發(fā)”、“數(shù)據(jù)庫技術與應用”、“JQuery應用實例”、“計算機專業(yè)英語”、“智能手機軟件測試”五門課程,有補考科目的學生共24人次,經(jīng)Ariori算法分析,找到頻繁項集L3={“Android基礎應用開發(fā)”,“數(shù)據(jù)庫技術與應用”,“計算機專業(yè)英語”},從而產(chǎn)生關聯(lián)規(guī)則(其中X1:“Android基礎應用開發(fā)”,X2:“數(shù)據(jù)庫技術與應用”.X3:“計算機專業(yè)英語”):
R1 :{X1}->{X2,X3},置信度 c1=2/10或20% ;
R2 :{X2}->{X1,X3},置信度 c2=2/5或40% ;
R3 :{X3}->{X1,X2},置信度 c3=2/5或40% ;
R4 :{X1,X2}->{X3},置信度 c4=2/4或50% ;
R5 :{X1,X3}->{X2},置信度 c5=2/2或100% ;
R6 :{X2,X3}->{X1},置信度 c6=2/2或100% ;
根據(jù)以上例子分析可知,Android基礎應用開發(fā)、數(shù)據(jù)庫技術與應用、計算機專業(yè)英語三門課程關系密切,都是該專業(yè)學生專業(yè)性較強的課程,若Android基礎應用開發(fā)和計算機專業(yè)英語兩門課程不理想,那么數(shù)據(jù)庫技術與應用課程也肯定較差,而若數(shù)據(jù)庫技術與應用和計算機專業(yè)英語較差,那么該專業(yè)最核心的Android基礎應用開發(fā)課程也必然學不好,該結果也符合本專業(yè)課程自身的特點,有很大的參考價值。因此,Apriori算法可以應用于學生成績數(shù)據(jù)分析中,找出課程之間的關系,從而根據(jù)課程之間的關聯(lián)規(guī)則調(diào)整課程性質(zhì)及課時分配、先后順序等,從而達到更好的教學效果。