国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

關(guān)聯(lián)規(guī)則在課程相關(guān)性分析中的應(yīng)用

2019-03-07 05:22王峻
電腦知識與技術(shù) 2019年35期
關(guān)鍵詞:關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘分析

摘要:關(guān)聯(lián)規(guī)則是數(shù)據(jù)挖掘的一個研究方向,它可以通過對大量數(shù)據(jù)中數(shù)據(jù)項(xiàng)相關(guān)性的分析,挖掘各數(shù)據(jù)項(xiàng)之間的內(nèi)在聯(lián)系。高校各個專業(yè)課程既相互獨(dú)立,又存在一定的先后順序,課程的學(xué)習(xí)彼此之間也會有一定的影響。一門課程的學(xué)習(xí)情況可能會影響其他相關(guān)課程的學(xué)習(xí)。運(yùn)用關(guān)聯(lián)規(guī)則技術(shù)對學(xué)生專業(yè)課程成績進(jìn)行分析,揭示各專業(yè)課程之間的內(nèi)在聯(lián)系,為學(xué)生專業(yè)課程的選擇和學(xué)習(xí)提供指導(dǎo)意見,為人才培養(yǎng)方案的制定及課程的合理設(shè)置提供有價值的參考依據(jù)。

關(guān)鍵詞:數(shù)據(jù)挖掘;關(guān)聯(lián)規(guī)則;課程相關(guān)性;分析

中圖分類號:TP301.6 文獻(xiàn)標(biāo)識碼:A

文章編號:1009-3044(2019)35-0253-03

近年來隨著高等教育的不斷發(fā)展與普及,為確保教學(xué)質(zhì)量,很多高等院校完善和加強(qiáng)教學(xué)管理,在具體的教學(xué)管理過程中,聚集了海量的原始教學(xué)信息,但是目前對這些原始教學(xué)信息的使用,僅僅停留在簡單的查詢和統(tǒng)計階段,沒有更深層次地挖掘其內(nèi)在的更有價值的信息。這些原始的教學(xué)信息往往蘊(yùn)藏著一定的教學(xué)規(guī)律和模式,而有一些教學(xué)規(guī)律和模式往往是隱含在這些原始教學(xué)信息的背后,因此為了充分發(fā)揮這些原始教學(xué)信息的作用,需要運(yùn)用數(shù)據(jù)挖掘技術(shù)的分析方法,對它們進(jìn)行更加深入的分析和研究。

數(shù)據(jù)挖掘是從數(shù)據(jù)庫的大量數(shù)據(jù)中挖掘出有用的信息,即從大量的實(shí)際應(yīng)用數(shù)據(jù)中,發(fā)現(xiàn)人們之前未知的、有規(guī)律的信息和知識的非平凡過程[1][2]。關(guān)聯(lián)規(guī)則是據(jù)挖掘中運(yùn)用極其廣泛的研究方法之一,主要是探究各個數(shù)據(jù)項(xiàng)之間聯(lián)系規(guī)則。高校各個專業(yè)課程不僅存在一定先后順序,而且設(shè)置不同的專業(yè)方向,這給學(xué)生在選擇和學(xué)習(xí)專業(yè)課程上帶來一定的困擾。關(guān)聯(lián)規(guī)則技術(shù)可以通過對學(xué)生專業(yè)課程成績進(jìn)行分析,發(fā)現(xiàn)隱藏在學(xué)生專業(yè)課程成績背后的各專業(yè)課程之間的內(nèi)在聯(lián)系,為學(xué)生專業(yè)課程的選擇和學(xué)習(xí)提供指導(dǎo)意見,為人才培養(yǎng)方案的制定及課程的合理設(shè)置提供有價值的參考依據(jù)。

1 關(guān)聯(lián)規(guī)則

關(guān)聯(lián)規(guī)則最初用于購物籃的分析,緩過對交易數(shù)據(jù)庫中不同商品的分析,發(fā)現(xiàn)數(shù)據(jù)庫中不同商品之間的聯(lián)系規(guī)則,這些規(guī)則有可能是人們之前未知的或者被隱含的[3]。

1.1關(guān)聯(lián)規(guī)則的定義

設(shè)I= {I1,I2,…,Im)是一個項(xiàng)目集,事務(wù)數(shù)據(jù)庫D={t1,t2,…,tn},其中事務(wù)數(shù)據(jù)庫每個事務(wù)ti(i=l,2…,n)都是I上的一個子集[5]。

1)支持度:設(shè)I1∈I項(xiàng)目集I1在事務(wù)數(shù)據(jù)庫D上的支持度support(I1)=‖{t∈D|I1∈t}‖/‖D‖;

2)頻繁項(xiàng)目集:若support(I1)不小于用戶指定的最小支持度minsup,I1即是頻繁項(xiàng)目集,如果I1不被其他的項(xiàng)目集所包含,I1就是最大頻繁項(xiàng)目集;

3)關(guān)聯(lián)規(guī)則:設(shè)I1、I2是最大頻繁項(xiàng)目集中的互不相交兩個子集,則I1→I2稱為關(guān)聯(lián)規(guī)則;

4)置信度:I1→I2的置信度就是包含I1、I2的事務(wù)數(shù)與包含I1的事務(wù)數(shù)的比值,conf(I1→I2)=support(I1∪I2)/support(I1)

1.2關(guān)聯(lián)規(guī)則的基本思路[5]

關(guān)聯(lián)規(guī)則的經(jīng)典算法是Apriori算法,它是根據(jù)事先指定的最小支持度,運(yùn)用逐層掃描的方法,發(fā)現(xiàn)最大頻繁項(xiàng)集。Aprio-ri算法可以分為兩個子問題[6]:

1)發(fā)現(xiàn)最大頻繁項(xiàng)目集:根據(jù)事先指定的最小支持度min-sup,運(yùn)用逐層掃描的方法,依次產(chǎn)生不小于最小支持度的各個頻繁項(xiàng)目集,最終遴選出最大頻繁項(xiàng)集。

2)生成關(guān)聯(lián)規(guī)則:根據(jù)事先指定的最小置信度minconf,在每個最大頻繁項(xiàng)目集中,遴選出滿足最小置信度的關(guān)聯(lián)規(guī)則。

1.3頻繁項(xiàng)目集的產(chǎn)生過程[7]

1)頻繁項(xiàng)目集L1:根據(jù)事先指定的最小支持度minsup,第一次掃描事務(wù)數(shù)據(jù)庫,遴選出不小于最小支持度的1頻繁項(xiàng)目集L1;

2)頻繁項(xiàng)目集L2:自連接L1中所有項(xiàng)目,形成2-候選項(xiàng)C2,第二次掃描事務(wù)數(shù)據(jù)庫,遴選出不小于最小支持度的2頻繁項(xiàng)目集L2;

3)重復(fù)上述過程,直到?jīng)]有新的候選項(xiàng)集出現(xiàn)時,算法終止,最終遴選出最大頻繁項(xiàng)集。

1.4 Apriori核心算法[4]

Ll={large 1-itemsets}

for(k=2;Lk一1≠Φ;k++)do begin

Ck=apriori-gen(Lk-1)//新的候選集

for all transactions∈D do begin

Ct=subset(Ck,t)//事務(wù)t中包含的候選集

for all candidateS∈Ct do c.count++

end

Lk={c∈Ck|c.count>=minsup}

end

L=ULk

算法中Apriori_gen(Lk-1)函數(shù)的功能是自連接Lk-1生成集合Ck,并刪除含有非頻繁項(xiàng)集的項(xiàng)目集;函數(shù)subset(Ck,t)的功能是篩選出所有候選子集。

2 關(guān)聯(lián)規(guī)則在課程相關(guān)性分析中的應(yīng)用

2.1數(shù)據(jù)來源

實(shí)驗(yàn)數(shù)據(jù)選取近五屆屆計算機(jī)科學(xué)與技術(shù)專業(yè)四年專業(yè)基礎(chǔ)和專業(yè)課程成績作為數(shù)據(jù)源,共選擇《C語言》《數(shù)據(jù)結(jié)構(gòu)》《數(shù)據(jù)庫原理》《數(shù)字電路》等17門課程的成績。

2.2數(shù)據(jù)預(yù)處理

收集的數(shù)據(jù)通常會存在不完整、不一致的“臟數(shù)據(jù)”,需要事先進(jìn)行數(shù)據(jù)預(yù)處理,數(shù)據(jù)預(yù)處理分為數(shù)據(jù)清理、數(shù)據(jù)集成和數(shù)據(jù)離散化處理三個階段。

1)數(shù)據(jù)清理:從源數(shù)據(jù)中清除因退學(xué)、重修等課程未修完學(xué)生的信息,此外近5年由于培養(yǎng)方案有所改變,5年內(nèi)不一致的課程的成績一并清除。

2)數(shù)據(jù)集成:每個學(xué)生專業(yè)課程的成績作為一個數(shù)據(jù)源,將學(xué)生的專業(yè)課程成績統(tǒng)一存儲在專業(yè)成績文件中。

3)數(shù)據(jù)離散化處理:各科成績離散化處理的方法:90-99分:用A標(biāo)識,80-89分:用B標(biāo)識,70-79分:用C標(biāo)識,60-69:用D標(biāo)識。

采集處理的部分專業(yè)課程成績?nèi)绫?所示:

2.3實(shí)驗(yàn)結(jié)果及分析

本實(shí)驗(yàn)數(shù)據(jù)是計算機(jī)科學(xué)與技術(shù)專業(yè)四年專業(yè)基礎(chǔ)和專業(yè)課程成績,運(yùn)用Apriori算法分別進(jìn)行三個實(shí)驗(yàn):

2.3.1軟件方向課程挖掘結(jié)果

考慮課程的先后順序,將C語言、數(shù)據(jù)結(jié)構(gòu)、程序設(shè)計、數(shù)據(jù)庫原理和操作系統(tǒng)作為前項(xiàng),將人工智能、計算機(jī)圖形學(xué)、軟件工程、算法分析與設(shè)計和編譯原理作為后項(xiàng),設(shè)定最小支持度為10%,最小置信度為80%,共得到31個規(guī)則,軟件方向部分挖掘結(jié)果如表2所示:

2.3.2硬件方向課程挖掘結(jié)果

將專業(yè)基礎(chǔ)課程模擬電路、數(shù)字電路、匯編語言、計算機(jī)組成原理為前項(xiàng),將專業(yè)課程微機(jī)原理、單片機(jī)原理、計算機(jī)網(wǎng)絡(luò)作為后項(xiàng),設(shè)定最小支持度為15%,最小置信度為80%,得到18個規(guī)則,硬件方向部分挖掘結(jié)果如表3所示:

2.3.3全部專業(yè)課程挖掘結(jié)果與分析

考慮課程的先后順序,將軟件、硬件專業(yè)基礎(chǔ)課程作為前項(xiàng),軟件、硬件專業(yè)課程作為后項(xiàng),設(shè)定最小支持度為20%,最小置信度為80%,共得到42個關(guān)聯(lián)規(guī)則,全部專業(yè)課程部分挖掘結(jié)果如表4所示:

實(shí)驗(yàn)結(jié)果分析:

1)軟件方向課程之間有一定的關(guān)聯(lián)度,專業(yè)基礎(chǔ)課程的學(xué)習(xí)對后續(xù)專業(yè)課程的學(xué)習(xí)的關(guān)聯(lián)度比較大,并且相關(guān)的兩門基礎(chǔ)課程對它的影響較大,建議加強(qiáng)相關(guān)專業(yè)基礎(chǔ)課程的教學(xué)。

2)硬件方向課程之間有一定的關(guān)聯(lián)度,專業(yè)基礎(chǔ)課程的學(xué)習(xí)對后續(xù)專業(yè)課程的學(xué)習(xí)的關(guān)聯(lián)度比較大,建議加強(qiáng)專業(yè)基礎(chǔ)課程的教學(xué)。

3)軟件方向?qū)I(yè)課程不僅與軟件方向?qū)I(yè)基礎(chǔ)課程相關(guān),還與硬件方向?qū)I(yè)基礎(chǔ)課程相關(guān),例如:算法分析與設(shè)計與程序設(shè)計、操作系統(tǒng)和模擬電路有一定的關(guān)聯(lián)度,人工智能與數(shù)字電路有一定的關(guān)聯(lián)度。

4)軟件、硬件方向?qū)I(yè)基礎(chǔ)課程共同對硬件方向?qū)I(yè)課程產(chǎn)生一定的影響,例如:C語言、計算機(jī)組成、匯編語言這三門課程共同與微機(jī)原理的學(xué)習(xí)有一定的關(guān)聯(lián)度,而C語言、計算機(jī)組成、數(shù)字電路共同對單片機(jī)原理的學(xué)習(xí)有一定的影響。

5)從專業(yè)學(xué)習(xí)的角度,硬件和軟件方向課程沒有嚴(yán)格意義上的劃分,整個課程都是一個完整的體系。例如:人工智能這門課程有三個規(guī)則,分別是程序設(shè)計=“C”and C語言=“C”→人工智能=“C”;程序設(shè)計=“C”and模擬電路=“C”→人工智能=“C”;操作系統(tǒng)=“C”and C語言=“C”→人工智能=“C”。一門課程的學(xué)習(xí)對課程體系中其他課程的學(xué)習(xí)均有一定的影響。每一門課程在專業(yè)知識體系的構(gòu)建中都很重要,建議學(xué)生重視每一門課程,夯實(shí)專業(yè)功底。

3 總結(jié)

本文以計算機(jī)科學(xué)與技術(shù)專業(yè)為例,分別從硬件、軟件、全部專業(yè)課程三個層面,運(yùn)用關(guān)聯(lián)規(guī)則對學(xué)生專業(yè)課程成績進(jìn)行分析,旨在得到相對應(yīng)的關(guān)聯(lián)規(guī)則,發(fā)現(xiàn)隱藏在成績數(shù)據(jù)背后的專業(yè)課程的相關(guān)性,一方面可以指導(dǎo)學(xué)生了解各專業(yè)課程間的相互關(guān)系,科學(xué)規(guī)劃專業(yè)方向,合理制定專業(yè)課程的學(xué)習(xí)計劃;另一方面為人才培養(yǎng)方案的制定及課程的合理設(shè)置提供有價值的參考依據(jù)。

參考文獻(xiàn):

[1]UM Fayyad,G Piate-Shapiro,P Smyth. Knowledge discoveryand data mining: towards a unifying framework[A]. In Proc.2nd Int' lConf. On Knowledge Discovery and Data Mining[C].Menlo Park.1996.

[2]王振武,馀慧.數(shù)據(jù)挖掘算法原理與實(shí)現(xiàn)[M].北京:清華大學(xué)出版社,2015.

[3]段云峰,宋俊德,等.基于數(shù)量的關(guān)聯(lián)規(guī)則挖掘[J].北京郵電大學(xué)學(xué)報,2002(12):247-288.

[4]毛國君,段立娟.數(shù)據(jù)挖掘原理與算法[M].北京:清華大學(xué)出版社,2015.

[5]R Agrawal,T Imielinski,A Swami.Mining association rules be-tween sets of items in large databases[A]. Proc. of the ACMSIGMOD Conference on Management of data[C].1993.207-216.

[6]Zhang Changsheng, Li Zhongyue, Zheng Dongsong. An Im-proved Algorithm for Apriori.2009 First International Work-shop on Education Technology and Computer Science,2009,995-998.

[7]舒曄.基于關(guān)聯(lián)規(guī)則的Web日志挖掘系統(tǒng)的研究與應(yīng)用[D].南京:南京航天航空大學(xué),2010:35-36.

【通聯(lián)編輯:王力】

收稿日期:2019-09-10

作者簡介:王峻(1967-),男,安徽淮南人,淮南師范學(xué)院副教授,碩士,研究方向?yàn)閿?shù)據(jù)挖掘。

猜你喜歡
關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘分析
隱蔽失效適航要求符合性驗(yàn)證分析
電力系統(tǒng)不平衡分析
基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
電力系統(tǒng)及其自動化發(fā)展趨勢分析
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
基于GPGPU的離散數(shù)據(jù)挖掘研究