国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

計算機(jī)等級考試中的關(guān)聯(lián)規(guī)則挖掘

2012-09-21 08:31:38
關(guān)鍵詞:概化項(xiàng)集置信度

曾 旭

(遵義醫(yī)學(xué)院醫(yī)學(xué)信息工程系,貴州遵義 563003)

數(shù)據(jù)挖掘是從大量數(shù)據(jù)中發(fā)現(xiàn)有趣模式,其中數(shù)據(jù)可以存放在數(shù)據(jù)庫、數(shù)據(jù)倉庫或其他信息庫中。這是一個年輕的跨學(xué)科領(lǐng)域,源于諸如數(shù)據(jù)庫系統(tǒng)、數(shù)據(jù)倉庫、統(tǒng)計學(xué)、機(jī)器學(xué)習(xí)、數(shù)據(jù)可視化、信息檢索和高性能計算。其他有貢獻(xiàn)的領(lǐng)域包括神經(jīng)網(wǎng)絡(luò)、模式識別、空間數(shù)據(jù)分析、圖像數(shù)據(jù)庫、信號處理和許多應(yīng)用領(lǐng)域,如商務(wù)、經(jīng)濟(jì)學(xué)和生物信息學(xué)[1]。

數(shù)據(jù)挖掘的類型很多,如總結(jié)規(guī)則挖掘、關(guān)聯(lián)規(guī)則挖掘、分類規(guī)則挖掘、聚類規(guī)則挖掘、預(yù)測分析、趨勢分析和偏差分析等。其中關(guān)聯(lián)規(guī)則挖掘時近幾年研究較多應(yīng)用最為廣泛的應(yīng)用[2]。

1 基本術(shù)語

關(guān)聯(lián)規(guī)則的概念是由Agrawal等[3]提出的,是數(shù)據(jù)之間一種簡單實(shí)用的規(guī)則,是指數(shù)據(jù)對象之間的相互依賴關(guān)系[4]。關(guān)聯(lián)規(guī)則挖掘是從數(shù)據(jù)中挖掘出滿足一定條件的依賴性關(guān)系。關(guān)聯(lián)規(guī)則挖掘的主要對象是事務(wù)數(shù)據(jù),是形如“X?Y,支持度=s%,置信度=c%”的規(guī)則。

1.1 置信度

全體事務(wù)集D中支持物品集X的事務(wù)中,有c%的事物同時也支持物品Y,則 c%稱為關(guān)聯(lián)規(guī)則X?Y的置信度,置信度表示規(guī)則的強(qiáng)度,用confidence(X?Y),其中,最小置信度用min-conf表示。

1.2 支持度

全體事務(wù)集D中有s%的事務(wù)同時支持物品集X和Y,則稱s%為關(guān)聯(lián)規(guī)則X?Y的支持度,支持度表示規(guī)則的頻度,用support(X?Y)表示,其中最小支持度用min-sup表示。support(X?Y)=P(X∪Y)

1.3 頻繁項(xiàng)集

物品集X的支持度support(X)不小于最小支持度min-sup,則稱 X為頻繁項(xiàng)集。支持度和置信度均大于給定的閾值的規(guī)則稱為強(qiáng)規(guī)則,數(shù)據(jù)挖掘主要是關(guān)于強(qiáng)規(guī)則的挖掘。通常的關(guān)聯(lián)規(guī)則可以用如下數(shù)學(xué)模型描述:I={i1,i2,…,in}為數(shù)據(jù)項(xiàng)集,D為全體事務(wù)集合,每個事務(wù) T有一個唯一標(biāo)識Tid,對數(shù)據(jù)項(xiàng)集X?I,Y?I,稱X包含于Y,當(dāng)且僅當(dāng)X?Y。關(guān)聯(lián)規(guī)則形式:(X?Y,support(X?Y)=s%,confidence(X?Y)=c%),這里X?I,Y?I且X∩Y=Φ,X稱為規(guī)則的條件,Y稱為規(guī)則的結(jié)果。關(guān)聯(lián)規(guī)則挖掘的一般步驟:

(1)找出事務(wù)數(shù)據(jù)庫中所有頻繁項(xiàng)集

(2)用頻繁項(xiàng)集產(chǎn)生強(qiáng)關(guān)聯(lián)規(guī)則,即:對于每個頻繁項(xiàng)集X,如Y?X,Y≠Φ,且confidence(Y?(X-Y)≥min-conf),構(gòu)成關(guān)聯(lián)規(guī)則 Y?(X-Y)。

這兩步中,第二步最容易,挖掘關(guān)聯(lián)規(guī)則的總體性能由第一步?jīng)Q定。下面介紹經(jīng)典的頻繁項(xiàng)集算法Apriori算法。

Apriori算法使用一種稱作逐層搜索的迭代方法,k-項(xiàng)集用于探索(k+1)-項(xiàng)集。首先,找出候選1-項(xiàng)集C1,由 C1生成頻繁1-項(xiàng)集L1;利用頻繁1-項(xiàng)集L1生成候選2-項(xiàng)集 C2,由 C2生成頻繁2-項(xiàng)集L2;如此下去,直到不能找到頻繁k-項(xiàng)集。找每個 Lk需掃描一次數(shù)據(jù)庫。

2 關(guān)聯(lián)規(guī)則對評分結(jié)果的分析

將上述關(guān)聯(lián)規(guī)則的挖掘算法應(yīng)用于遵義醫(yī)學(xué)院計算機(jī)等級考試評分系統(tǒng)中,根據(jù)該?,F(xiàn)有的考試數(shù)據(jù)可以獲得一些關(guān)聯(lián)規(guī)則?,F(xiàn)以2010級臨床專業(yè)全體440名學(xué)生的考試數(shù)據(jù)為例,采用Apriori算法進(jìn)行選擇題、Windows操作題、打字題、Word操作題、Excel操作題和網(wǎng)絡(luò)操作題共6個屬性間的關(guān)聯(lián)規(guī)則的挖掘。具體數(shù)據(jù)整理成表1,共包含440條相關(guān)記錄。由于篇幅關(guān)系,文中只列出原表的基本結(jié)構(gòu)和表中的部分?jǐn)?shù)據(jù),如表1所示。

表1 計算機(jī)等級考試原始數(shù)據(jù)

2.1 數(shù)據(jù)預(yù)處理

為了更好的進(jìn)行關(guān)聯(lián)規(guī)則分析,需對數(shù)據(jù)進(jìn)行概化,概化過程遵循的原則是:將得分率低于0.6的題概化不合格,否則概化為合格。具體處理方法如下:

選擇題概化規(guī)則:分段概化為 A0(小于12分),A1(12-20分)。

Windows操作題概化規(guī)則:分段概化為B0(小于6分),B1(6-10分)。

打字題概化規(guī)則:分段概化為C0(小于9分),C1(9-15分)。

Word操作題概化規(guī)則:分段概化為D0(小于15分),D1(15-25分)。

Excel操作題概化規(guī)則:分段概化為E0(小于12分),E1(12-20分)。

網(wǎng)絡(luò)操作題概化規(guī)則:分段概化為F0(小于6分),F1(6-10分)。

由關(guān)聯(lián)規(guī)則的概念,Apriori算法的規(guī)則和概化后的結(jié)果,可得出項(xiàng)目集合為:

{A0 、A1 、B0 、B1 、C0 、C1 、D0 、D1 、E0 、E1 、F0 、F1}

表2 計算機(jī)等級考試概化后數(shù)據(jù)

2.2 關(guān)聯(lián)規(guī)則挖掘過程

現(xiàn)對表2用Apriori算法找出所有頻繁項(xiàng)集,設(shè)min-sup=30%,可得候選1-項(xiàng)集C1,如表3所示。

表3 候選1-項(xiàng)集 C1

由候選1-項(xiàng)集C1可得頻繁1-項(xiàng)集L1,如表4所示。

表4 頻繁1-項(xiàng)集 L1

由頻繁1-項(xiàng)集L1可得候選2-項(xiàng)集C2,如表5所示。

表5 候選2-項(xiàng)集 C2

由候選2-項(xiàng)集C2可得頻繁2-項(xiàng)集L2,如表6所示。

表6 頻繁2-項(xiàng)集 L2

由頻繁2-項(xiàng)集L2可得候選3-項(xiàng)集C3,如表7所示。

表7 候選3-項(xiàng)集 C3

由候選3-項(xiàng)集C3可得頻繁3-項(xiàng)集L3,如表8所示。

表8 頻繁3-項(xiàng)集 L3

由頻繁3-項(xiàng)集L3可得候選4-項(xiàng)集C4,如表9所示。

表9 候選4-項(xiàng)集 C4

由候選4-項(xiàng)集C4可得頻繁4-項(xiàng)集L4,如表10所示。

2.3 關(guān)聯(lián)規(guī)則挖掘結(jié)果分析

從眾多頻繁項(xiàng)集中,可以發(fā)現(xiàn)比較有代表性的兩項(xiàng):支持度為42.5%的A1 B1 C1 F1以及支持度為37.5%的D0 E0,這兩項(xiàng)頻繁項(xiàng)集的置信度如下:

(A1 B1 C1)?F1,confidence=187/231=81.0%

(A1 B1 F1)?C1,confidence=187/198=94.4%

(A1 C1 F1)?B1,confidence=187/198=94.4%

(B1 C1 F1)?A1,confidence=187/242=77.3%

(D0)?E0,confidence=165/264=62.5%

(E0)?D0,confidence=165/286=57.7%

在設(shè)置最小置信度min-conf=30%,最小支持度min-sup=60%的前提下,以上7條規(guī)則中前6條形成強(qiáng)規(guī)則。即:選擇題、Windows操作題、打字題、網(wǎng)絡(luò)操作題的合格情況是相互關(guān)聯(lián)的,考生在對這4種題型的把握過程中能夠相互促進(jìn)和提高。另外,Word操作題和Excel操作題的不合格情況是存在關(guān)聯(lián)的,考生若對Word操作題存在欠缺,那么同時也會對Excel操作題存在欠缺。

表10 頻繁4-項(xiàng)集 L4

3 結(jié)束語

對考生的計算機(jī)等級考試中各類題型的得分情況進(jìn)行關(guān)聯(lián)規(guī)則挖掘后所得到的結(jié)果能夠幫助考生在學(xué)習(xí)過程中更注重題型之間的相關(guān)性并明確自己可能存在缺欠,便于查漏補(bǔ)缺。與此同時,教師也可在后繼教學(xué)過程中重點(diǎn)把握各類題型的相關(guān)性,幫助學(xué)生重點(diǎn)把握丟分環(huán)節(jié)并順利通過考試以提升過級率。此結(jié)論對考生和教師來說均具有一定的指導(dǎo)性。

[1] RICHARD J ROIGER,MICHAEL W GEATZ.數(shù)據(jù)挖掘教程[M].北京:清華大學(xué)出版社,2003.

[2] JIAWEI HAN,MICHELINE KAMBER.范明,孟小峰等譯.數(shù)據(jù)挖掘:概念與技術(shù)[M].北京:機(jī)械工業(yè)出版社,2001.

[3] 張瑤,陳高云.數(shù)據(jù)挖掘技術(shù)在試卷分析中的應(yīng)用[J].西南民族大學(xué)學(xué)報,2008,34(4):839-842.

[4] 陳輝,向偉忠.關(guān)聯(lián)規(guī)則挖掘在教師教學(xué)評價系統(tǒng)中的應(yīng)用[J].南華大學(xué)學(xué)報,2005,19(1):104-108.

[5] 接勵,王虹.高校人事管理信息心中的關(guān)聯(lián)規(guī)則挖掘[J].天津師范大學(xué)學(xué)報,2004,24(2):64-66.

[6] 胡可云,田鳳占.數(shù)據(jù)挖掘理論與應(yīng)用[M].北京:清華大學(xué)出版社,2008.

[7] 周賢善,杜友福.高置信度關(guān)聯(lián)規(guī)則的挖掘[J].計算機(jī)工程與應(yīng)用,2010,46(24):151-154.

[8] 張?jiān)茲?于治樓.關(guān)聯(lián)規(guī)則中頻繁項(xiàng)集高效挖掘的研究[J].計算機(jī)工程與應(yīng)用,2011,47(3):139-141.

[9] 馬青霞,李廣水.頻繁模式挖掘進(jìn)展及典型應(yīng)用[J].計算機(jī)工程與應(yīng)用,2011,47(15):138-143.

猜你喜歡
概化項(xiàng)集置信度
硼鋁復(fù)合材料硼含量置信度臨界安全分析研究
正負(fù)關(guān)聯(lián)規(guī)則兩級置信度閾值設(shè)置方法
基于MIKE21二維數(shù)值模擬的不同橋墩概化方式下河道壅水計算結(jié)果對比分析
結(jié)構(gòu)化面試中多源變異的概化分析
置信度條件下軸承壽命的可靠度分析
軸承(2015年2期)2015-07-25 03:51:04
攔污柵條概化試驗(yàn)
關(guān)聯(lián)規(guī)則中經(jīng)典的Apriori算法研究
卷宗(2014年5期)2014-07-15 07:47:08
一種頻繁核心項(xiàng)集的快速挖掘算法
淺談橋梁承載力演變理論及其應(yīng)用
多假設(shè)用于同一結(jié)論時綜合置信度計算的新方法?
乐业县| 获嘉县| 三台县| 本溪| 兰坪| 宾川县| 新田县| 正定县| 东海县| 白朗县| 五台县| 贵港市| 沿河| 喀喇沁旗| 和政县| 正镶白旗| 海盐县| 湖南省| 神农架林区| 扬中市| 泗洪县| 海安县| 镶黄旗| 台中市| 金川县| 邵武市| 历史| 通城县| 印江| 宁安市| 安仁县| 兰州市| 鄂尔多斯市| 伊通| 启东市| 云安县| 泽普县| 阿拉善左旗| 海口市| 攀枝花市| 萨迦县|