国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

關(guān)聯(lián)規(guī)則挖掘興趣度模型研究

2014-09-10 07:41李佐軍
電腦知識(shí)與技術(shù) 2014年6期
關(guān)鍵詞:關(guān)聯(lián)規(guī)則

李佐軍

摘要:通過查閱相關(guān)文獻(xiàn)資料,收集整理了基于概率興趣度模型、差異思想興趣度模型、相關(guān)性興趣度模型、信息量興趣度模型、影響興趣度模型的計(jì)算公式,并利用Visual FoxPro編程語言實(shí)現(xiàn)這些興趣度模型的關(guān)聯(lián)規(guī)則挖掘算法。通過實(shí)驗(yàn)分析了各種興趣度模型的取值與規(guī)則顯示間的關(guān)系,并簡要分析總結(jié)了各種興趣度模型的基本特點(diǎn)。

關(guān)鍵詞:關(guān)聯(lián)規(guī)則;興趣度;規(guī)則顯示

中圖分類號(hào):TP391 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2014)06-1223-04

On Interest Measure Models of Mining Association Rules

LI Zuo-jun

(Department of Information Science &Technology,Lincang TeachersColleges, Lincang 677000,China)

Abstract: By reviewing the relevant literature, the author collected some computing formulas based on interest measure models of probability, diversity thought, correlation, information amount andinfluence and implemented the algorithm of mining association rules of those models by using programming language of Visual FoxPro. In the paper, the author also analyzed the relationships between value and rules-show of the models and gave a brief conclusion of the general features of the models through experimental analysis.

Key words: association rules; interest measure; rules show

判斷關(guān)聯(lián)規(guī)則挖掘結(jié)果是否有趣的標(biāo)準(zhǔn)分為客觀興趣度和主觀興趣度,其中客觀感興趣度主要根據(jù)模式或規(guī)則的形式和數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行定義,屬于數(shù)據(jù)驅(qū)動(dòng);而主觀興趣度還要考慮用戶的參與等人為因索的影響屬于用戶驅(qū)動(dòng)[1]。目前所研究的興趣度主要是指客觀興趣度,通過查閱相關(guān)文獻(xiàn)資料,介紹幾種經(jīng)典的客觀興趣度模型,并作簡要的解釋和剖析。

在介紹興趣度模型之前,先對關(guān)聯(lián)規(guī)則的兩個(gè)傳統(tǒng)閾值作一個(gè)簡單介紹:假設(shè)關(guān)聯(lián)規(guī)則描述為(X?Y),X為規(guī)則前件,Y為規(guī)則后件,規(guī)則支持度S(X?Y)表示為(1)式,置信度C(X?Y)表示為(2)式,而興趣度I(X?Y)正是本文討論的內(nèi)容。

[S(X?Y)=P(X?Y)=Count(X)N×100%] (1)

[C(X?Y)=P(X|Y)=S(X?Y)S(X)=Count(X?Y)Count(X)×100%] (2)

其中D表示事務(wù)數(shù)據(jù)庫,N表示事務(wù)數(shù)據(jù)庫D中各項(xiàng)事務(wù)數(shù)的總和,Count(X)表示事務(wù)X在事務(wù)數(shù)據(jù)庫D中的出現(xiàn)次數(shù),Count(X∪Y)表示事務(wù)X、Y在事務(wù)數(shù)據(jù)庫D中同時(shí)出現(xiàn)的次數(shù)。

1 概率興趣度

1.1 概率興趣度模型

文獻(xiàn)[2]提出了基于概率的關(guān)聯(lián)規(guī)則興趣度模型,其值表示為(3)式。

[IX?Y=1-PY1-PX1-PY|X] (3)

其中P(X)表示事務(wù)X在事務(wù)庫中出現(xiàn)概率Count(X)/N,P(Y)表示事務(wù)Y在事務(wù)庫中出現(xiàn)概率Count(Y)/N,P(Y|X)表示事務(wù)X出現(xiàn)條件下事務(wù)X和Y同時(shí)出現(xiàn)概率Count(X∪Y)/Count(X)。

1.2 概率興趣度模型的特點(diǎn)分析

使用Visual FoxPro編程實(shí)現(xiàn)基于概率興趣度模型的關(guān)聯(lián)規(guī)則挖掘算法,并且在取不同興趣度值情況下記錄顯示關(guān)聯(lián)規(guī)則數(shù),具體見表1所示。概率興趣度與規(guī)則數(shù)關(guān)系如圖1所示。

表1 概率興趣度取值與規(guī)則顯示數(shù)目表

圖1 概率興趣度與規(guī)則數(shù)關(guān)系圖

從圖1可看出,興趣度I(X?Y)函數(shù)值越大,規(guī)則越有價(jià)值。在興趣度I(X?Y)的定義中,考慮到了規(guī)則(X?Y)的前項(xiàng)X和后項(xiàng)Y的耦合,同時(shí)考慮到如果對大概率事件產(chǎn)生的原因知道得較多,而可能對大概率事件導(dǎo)致的結(jié)果更加感興趣的特點(diǎn);但是興趣度與信任度C(X?Y)不同,興趣度I(X?Y)重點(diǎn)對S(Y)小的規(guī)則賦予大的興趣度[3]?;诟怕逝d趣度模型主要考慮規(guī)則的簡潔性、支持度以及后項(xiàng)的影響,卻沒有考慮規(guī)則前項(xiàng)對規(guī)則的影響。

2 差異思想興趣度

2.1差異思想興趣度模型

文獻(xiàn)【4】提出了一種基于差異思想的興趣度模型,用以指導(dǎo)關(guān)聯(lián)規(guī)則的發(fā)現(xiàn),將關(guān)聯(lián)規(guī)則(X?Y)的興趣度表示為:

[IX?Y=CX?Y-SYmaxCX?Y,SY] (4)

其中,C(X?Y)為關(guān)聯(lián)規(guī)則(X?Y)的置信度,其值為(2)式所示;S(Y)為關(guān)聯(lián)規(guī)則(X?Y)中Y的支持度,其值為Count(X)/N。

2.2差異思想興趣度模型特點(diǎn)分析

使用Visual FoxPro編程實(shí)現(xiàn)基于差異思想興趣度模型的關(guān)聯(lián)規(guī)則挖掘算法,并且在取不同興趣度值情況下記錄顯示關(guān)聯(lián)規(guī)則數(shù),具體見表2所示。差異思想興趣度與規(guī)則數(shù)關(guān)系如圖2所示。

表2 差異思想興趣度取值與規(guī)則顯示數(shù)目表

圖2 差異思想興趣度與規(guī)則數(shù)關(guān)系圖

max{C(X?Y),S(Y )}是一個(gè)標(biāo)準(zhǔn),保證|I(X?Y)|<1。此興趣度模型把支持度和信任度聯(lián)系了起來,反映了在X影響下事務(wù)Y在發(fā)生的概率。 當(dāng)Y支持度與規(guī)則(X?Y)的置信度的差異越大時(shí),|I(X?Y)|大于閾值,規(guī)則(X?Y)使用價(jià)值大;反之則|I(X?Y)|小于閾值,規(guī)則(X?Y)使用價(jià)值小?;诓町愃枷氲呐d趣度模型是由規(guī)則信任度與后項(xiàng)支持度的差異來定義的,這種方法的好處是消除了后項(xiàng)高支持率導(dǎo)對規(guī)則高信任度的影響,達(dá)到刪除不感興趣規(guī)則的目的。

3 相關(guān)性興趣度

3.1 相關(guān)性興趣度模型

根據(jù)文獻(xiàn)[5]描述,將基于相關(guān)性的興趣度模型定義為:

[IX?Y=SX?YSXSY] (5)

其中,S(X∪Y)=Count(X∪Y)/N,S(X)=Count(X)/N,S(Y)=Count(Y)/N。

3.2 相關(guān)性興趣度模型特點(diǎn)分析

使用Visual FoxPro編程實(shí)現(xiàn)基于相關(guān)性興趣度模型的關(guān)聯(lián)規(guī)則挖掘算法,并且在取不同興趣度值情況下記錄顯示關(guān)聯(lián)規(guī)則數(shù),具體見表3所示。將相關(guān)性興趣度與規(guī)則數(shù)如圖3所示。

表3 相關(guān)性興趣度取值與規(guī)則顯示數(shù)目表

圖3 相關(guān)性興趣度與規(guī)則數(shù)關(guān)系圖

興趣度I(X?Y)反映了關(guān)聯(lián)規(guī)則中X與Y間的關(guān)系,是X和Y密切程度的體現(xiàn);而可信度和支持度分別體現(xiàn)了規(guī)則依賴方向和規(guī)則在事務(wù)集中出現(xiàn)的頻率?;谙嚓P(guān)性的興趣度模型是從規(guī)則前項(xiàng)與后項(xiàng)相關(guān)性來定義的,從概率的角度分析規(guī)則前項(xiàng)和后項(xiàng)相關(guān)性,若前項(xiàng)與后項(xiàng)在概率上不相關(guān),或者相關(guān)性小,則用戶對規(guī)則沒有興趣或興趣較小,反之則用戶對規(guī)則有很大的興趣。

4 信息量興趣度

4.1 信息量興趣度模型

早在1992年美國學(xué)者Padhaic Symth等人在論文《An Information Theoretie Approach to Rule Induction from Database》中將關(guān)聯(lián)規(guī)則(X?Y)的興趣度定義為:

[IX?Y=PXPY|XlogPY|XPY+1-PY|Xlog1-PY|X1-PY] (6)

其中,P(X)=Count(X)/N,P(Y)=Count(Y)/N,P(Y|X)=Count(X∪Y)/N。

4.2信息量興趣度模型特點(diǎn)分析

使用Visual FoxPro編程實(shí)現(xiàn)基于信息量興趣度模型的關(guān)聯(lián)規(guī)則挖掘算法,并且在取不同興趣度值情況下記錄顯示關(guān)聯(lián)規(guī)則數(shù),具體見表4所示。將信息量興趣度與規(guī)則數(shù)關(guān)系如圖4所示。

表4 信息量興趣度取值與規(guī)則顯示數(shù)目表

基于信息量興趣度模型主要對規(guī)則的簡潔性和信息量進(jìn)行綜合度量的,綜合考慮了前件X和后件Y概率分布的相似程度,X出現(xiàn)的概率P(X)作為規(guī)則前項(xiàng)簡潔程度的衡量。規(guī)則越簡潔,則X數(shù)量越少,興趣度也越高。這種興趣度模型考慮了前項(xiàng)和后項(xiàng)的藕合度,藕合度越高,興趣度也越高。

5 影響興趣度

5.1 影響興趣度模型

西南交通大學(xué)陳安龍的碩士論文《基于興趣度的關(guān)聯(lián)規(guī)則挖掘算法的研究》中將興趣度描述為(7)式。

[IX?Y=logCX?Y/CX?YSY/SY=logN-CountXCount(X)-Count(X?Y)×CountX?YCountY] (7)

其中,C(X?Y)為關(guān)聯(lián)規(guī)則(X?Y)的置信度,[CX?Y]=(N-Count(X∪Y))/Count(X),S(Y)=Count(Y)/N,[SY]=(N-Count(Y))/N。

5.2 影響興趣度模型特點(diǎn)分析

使用Visual FoxPro編程實(shí)現(xiàn)基于影響興趣度模型的關(guān)聯(lián)規(guī)則挖掘算法,并且在取不同興趣度值情況下記錄顯示關(guān)聯(lián)規(guī)則數(shù),具體見表5所示。將影響興趣度與規(guī)則數(shù)關(guān)系如圖5所示。

表5 影響興趣度取值與規(guī)則顯示數(shù)目表

圖5 影響興趣度與規(guī)則數(shù)關(guān)系圖

在總事務(wù)數(shù)N和其它不變情況下,當(dāng)Count(Y)增大時(shí)興趣度將降低,反之則上升;當(dāng)Count(X∪Y)增大時(shí)興趣度將上升,反之則降低;當(dāng)Count(X)增大時(shí)興趣度將降低,反之則上升。這種興趣度模型使用前項(xiàng)對規(guī)則的影響來確定規(guī)則興趣度,考慮了接近于閥值的強(qiáng)關(guān)聯(lián)規(guī)則和弱關(guān)聯(lián)規(guī)則的選擇。

除了以上介紹的5種興趣度模型外,還有目標(biāo)興趣度、正負(fù)項(xiàng)目興趣度、卡方獨(dú)立性興趣度、Symth函數(shù)興趣度、Gimi指標(biāo)興趣度、Piantesky-Shapiro興趣度模型等,在此就不一一介紹了。

本文通過查閱相關(guān)文獻(xiàn)資料,收集整理了基于概率興趣度、差異思想興趣度、相關(guān)性興趣度、信息量興趣度、影響興趣度模型的相關(guān)知識(shí),并利用Visual FoxPro編程語言實(shí)現(xiàn)這些興趣度的關(guān)聯(lián)規(guī)則算法。通過實(shí)驗(yàn)分析了各種興趣度模型的取值與規(guī)則顯示的關(guān)系,并簡要分析總結(jié)了各種興趣度模型的基本特點(diǎn)。

參考文獻(xiàn):

[1] 吳杰.基于興趣度的關(guān)聯(lián)規(guī)則挖掘[D].哈爾濱:哈爾濱工業(yè)大學(xué),2009:31.

[2] 周欣,沙朝鋒,朱揚(yáng)勇,等.興趣度——關(guān)聯(lián)規(guī)則的又一個(gè)閾值[J].計(jì)算機(jī)研究與發(fā)展,2000,5(2):627-633.

[3] 陳安龍.基于興趣度的關(guān)聯(lián)規(guī)則挖掘算法的研究[D].成都:西南交通大學(xué),2003:26,24-33.

[4] 周皓峰,朱揚(yáng)勇,施伯樂.一個(gè)基于興趣度的關(guān)聯(lián)規(guī)則的采掘算法[J].計(jì)算機(jī)研究與發(fā)展,2002,39(4):4450-457

[5] Wai-Ho Au,Keith C,Chan C.Mining changes in association rules: a fuzzy approach[J].Fuzzy Sets and Systems,2005,149:87-104.

猜你喜歡
關(guān)聯(lián)規(guī)則
數(shù)據(jù)挖掘技術(shù)在電站設(shè)備故障分析中的應(yīng)用
基于關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘技術(shù)的研究與應(yīng)用
面向用戶需求的自適應(yīng)學(xué)習(xí)系統(tǒng)個(gè)性化學(xué)習(xí)路徑推薦研究
工業(yè)大數(shù)據(jù)挖掘分析及應(yīng)用前景研究
基于Apriori算法的高校學(xué)生成績數(shù)據(jù)關(guān)聯(lián)規(guī)則挖掘分析
基于關(guān)聯(lián)規(guī)則和時(shí)間閾值算法的5G基站部署研究
關(guān)聯(lián)規(guī)則,數(shù)據(jù)分析的一把利器
關(guān)聯(lián)規(guī)則挖掘Apriori算法的一種改進(jìn)
基于關(guān)聯(lián)規(guī)則的計(jì)算機(jī)入侵檢測方法
基于關(guān)聯(lián)規(guī)則的中醫(yī)肺癌數(shù)據(jù)挖掘應(yīng)用研究
慈利县| 赤城县| 南宫市| 恭城| 收藏| 蒙阴县| 宜兴市| 顺义区| 九龙城区| 资溪县| 呼图壁县| 新竹县| 镇赉县| 莎车县| 昔阳县| 皋兰县| 佛学| 南投市| 陇川县| 青田县| 广宗县| 福州市| 桦南县| 安达市| 都匀市| 法库县| 桂林市| 嘉禾县| 毕节市| 东城区| 安福县| 仪征市| 石渠县| 汝阳县| 蒲城县| 渝北区| 奇台县| 长岛县| 濉溪县| 镇宁| 崇左市|