卞歡平
摘要:該文基于數(shù)據(jù)挖掘中的關(guān)聯(lián)規(guī)則理論,以某高職院校教務(wù)學(xué)生成績(jī)系統(tǒng)數(shù)據(jù)為依據(jù), 應(yīng)用Apriori 算法,探尋某專業(yè)的專業(yè)課程之間的內(nèi)在關(guān)聯(lián)關(guān)系,為教學(xué)提供相應(yīng)的指導(dǎo)。
關(guān)鍵詞: 數(shù)據(jù)挖掘;關(guān)聯(lián)規(guī)則;Apriori 算法
中圖分類號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2014)21-4945-03
隨著高職院校的擴(kuò)招,高職院校的教務(wù)管理系統(tǒng)中的學(xué)生成績(jī)數(shù)據(jù)也日益龐大,而目前這些的數(shù)據(jù)只是停留在對(duì)數(shù)據(jù)做一些簡(jiǎn)單的備份、統(tǒng)計(jì)學(xué)生的課程及格率等應(yīng)用,而這些應(yīng)用也只是對(duì)數(shù)據(jù)的初步應(yīng)用,不能從這些龐大的數(shù)據(jù)中發(fā)掘出一些對(duì)引導(dǎo)教學(xué)比較有用的信息,以供學(xué)校的教學(xué)管理者、任課教師有啟示性的信息。故此,該文將利用數(shù)據(jù)挖掘的關(guān)聯(lián)規(guī)則中的Apriori 算法,以某高職院校某專業(yè)學(xué)生成績(jī)系統(tǒng)數(shù)據(jù)為基礎(chǔ),挖掘出此專業(yè)的專業(yè)課程之間的存在的關(guān)聯(lián)關(guān)系,找出它們之間的內(nèi)在規(guī)律。
1 基本原理
1.1 關(guān)聯(lián)規(guī)則
1.2 Apriori算法
關(guān)聯(lián)規(guī)則挖掘的核心問題是頻繁項(xiàng)集的取得,Apriori算法用于發(fā)現(xiàn)數(shù)據(jù)集中的頻繁項(xiàng)集。該算法:
1) 先遍歷計(jì)算每個(gè)項(xiàng)集的支持度,找出支持度大于或等于最小支持度閾值min_sup的項(xiàng)集,丟棄小于最小支持度閾值min_sup的項(xiàng)集,得出頻繁項(xiàng)集L1。
2) 利用頻繁項(xiàng)集L1,進(jìn)行自然連接產(chǎn)生新的候選集C2,并利用1) 步的方法,找出滿足最小支持度的頻繁項(xiàng)集L2。以此類推,重復(fù)上述過程,直到?jīng)]有頻繁項(xiàng)集產(chǎn)生為止。
2 Apriori算法在學(xué)生成績(jī)中的應(yīng)用
2.1 數(shù)據(jù)選擇
研究的數(shù)據(jù)選自某高職院校計(jì)算機(jī)應(yīng)用專業(yè)專業(yè)課成績(jī)的數(shù)據(jù)。隨機(jī)抽取310名學(xué)生的專業(yè)課程的成績(jī)數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘。
2.2 數(shù)據(jù)清理
數(shù)據(jù)清理的目的是去除數(shù)據(jù)中存在的噪聲。如:將成績(jī)中某些考生缺考的記錄直接刪除。對(duì)于有參加補(bǔ)考的學(xué)生成績(jī),取其平均值進(jìn)行填充。經(jīng)過數(shù)據(jù)清理后,總的記錄數(shù)為300條。
2.3 數(shù)據(jù)轉(zhuǎn)換
數(shù)據(jù)轉(zhuǎn)換的目的是將原來的數(shù)據(jù)轉(zhuǎn)換為統(tǒng)一的類型,以利于更好的挖掘。故此: 將第一列的“學(xué)號(hào)”更名為:“XH”, 從第二列開始,將各個(gè)科目的課程名稱表示為N1,N2,N3..... 。將上表中的成績(jī)數(shù)據(jù)轉(zhuǎn)換為布爾型表示;為了挖掘各專業(yè)課之間“良好”成績(jī)之間的關(guān)系,將成績(jī)表中成績(jī)80分以上的, 轉(zhuǎn)換為布爾型的"1",80以下的,轉(zhuǎn)換為"0"。轉(zhuǎn)換后的表如下表:
2.4 Apriori算法的實(shí)現(xiàn)
以上表的數(shù)據(jù)為例,事務(wù)數(shù)據(jù)庫(kù)D中的事務(wù)數(shù)為300,假設(shè)最小支持度(minsup)為20%,最低置信度(minconf)為50%,
上表數(shù)據(jù)選取有300個(gè)事物,即|D|=300。已知最小支持度(minsup)為20%,則通過min_sup=60/300=20%, 計(jì)算出最小事務(wù)支持計(jì)數(shù)為60。
利用Apriori算法的原理,具體挖掘過程如圖1所示。
3 結(jié)束語(yǔ)
通過對(duì)某高職院校計(jì)算機(jī)應(yīng)用專業(yè)的專業(yè)課程成績(jī)運(yùn)用Apriori 算法進(jìn)行數(shù)據(jù)挖掘,就能發(fā)現(xiàn)隱藏在其中,哪些課程之間的重要制約關(guān)系。故此,在課程的教學(xué)中,要注重先導(dǎo)課程在基礎(chǔ)知識(shí)上的預(yù)備,同時(shí)也注重相似課程之間的相互衍接,以使得學(xué)生對(duì)專業(yè)知識(shí)能達(dá)到較好地融匯貫通。
參考文獻(xiàn):
[1] 李娟.數(shù)據(jù)挖掘技術(shù)在高校教學(xué)模型中的應(yīng)用研究[D].南京:南京理工大學(xué),2009:15-20.
[2] 狄浩林.基于成績(jī)信息管理系統(tǒng)的高校教務(wù)管理研究[D].北京:北京郵電大學(xué), 2006.
[3] 李昊,周振華.基于數(shù)據(jù)挖掘的高校學(xué)生成績(jī)預(yù)警系統(tǒng)[J].大慶石油學(xué)院學(xué)報(bào),2011,8(4):1-3.