李佐軍
摘要:通過查閱相關(guān)文獻(xiàn)資料,收集整理了基于概率興趣度模型、差異思想興趣度模型、相關(guān)性興趣度模型、信息量興趣度模型、影響興趣度模型的計(jì)算公式,并利用Visual FoxPro編程語言實(shí)現(xiàn)這些興趣度模型的關(guān)聯(lián)規(guī)則挖掘算法。通過實(shí)驗(yàn)分析了各種興趣度模型的取值與規(guī)則顯示間的關(guān)系,并簡要分析總結(jié)了各種興趣度模型的基本特點(diǎn)。
關(guān)鍵詞:關(guān)聯(lián)規(guī)則;興趣度;規(guī)則顯示
中圖分類號(hào):TP391 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2014)06-1223-04
On Interest Measure Models of Mining Association Rules
LI Zuo-jun
(Department of Information Science &Technology,Lincang TeachersColleges, Lincang 677000,China)
Abstract: By reviewing the relevant literature, the author collected some computing formulas based on interest measure models of probability, diversity thought, correlation, information amount andinfluence and implemented the algorithm of mining association rules of those models by using programming language of Visual FoxPro. In the paper, the author also analyzed the relationships between value and rules-show of the models and gave a brief conclusion of the general features of the models through experimental analysis.
Key words: association rules; interest measure; rules show
判斷關(guān)聯(lián)規(guī)則挖掘結(jié)果是否有趣的標(biāo)準(zhǔn)分為客觀興趣度和主觀興趣度,其中客觀感興趣度主要根據(jù)模式或規(guī)則的形式和數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行定義,屬于數(shù)據(jù)驅(qū)動(dòng);而主觀興趣度還要考慮用戶的參與等人為因索的影響屬于用戶驅(qū)動(dòng)[1]。目前所研究的興趣度主要是指客觀興趣度,通過查閱相關(guān)文獻(xiàn)資料,介紹幾種經(jīng)典的客觀興趣度模型,并作簡要的解釋和剖析。
在介紹興趣度模型之前,先對關(guān)聯(lián)規(guī)則的兩個(gè)傳統(tǒng)閾值作一個(gè)簡單介紹:假設(shè)關(guān)聯(lián)規(guī)則描述為(X?Y),X為規(guī)則前件,Y為規(guī)則后件,規(guī)則支持度S(X?Y)表示為(1)式,置信度C(X?Y)表示為(2)式,而興趣度I(X?Y)正是本文討論的內(nèi)容。
[S(X?Y)=P(X?Y)=Count(X)N×100%] (1)
[C(X?Y)=P(X|Y)=S(X?Y)S(X)=Count(X?Y)Count(X)×100%] (2)
其中D表示事務(wù)數(shù)據(jù)庫,N表示事務(wù)數(shù)據(jù)庫D中各項(xiàng)事務(wù)數(shù)的總和,Count(X)表示事務(wù)X在事務(wù)數(shù)據(jù)庫D中的出現(xiàn)次數(shù),Count(X∪Y)表示事務(wù)X、Y在事務(wù)數(shù)據(jù)庫D中同時(shí)出現(xiàn)的次數(shù)。
1 概率興趣度
1.1 概率興趣度模型
文獻(xiàn)[2]提出了基于概率的關(guān)聯(lián)規(guī)則興趣度模型,其值表示為(3)式。
[IX?Y=1-PY1-PX1-PY|X] (3)
其中P(X)表示事務(wù)X在事務(wù)庫中出現(xiàn)概率Count(X)/N,P(Y)表示事務(wù)Y在事務(wù)庫中出現(xiàn)概率Count(Y)/N,P(Y|X)表示事務(wù)X出現(xiàn)條件下事務(wù)X和Y同時(shí)出現(xiàn)概率Count(X∪Y)/Count(X)。
1.2 概率興趣度模型的特點(diǎn)分析
使用Visual FoxPro編程實(shí)現(xiàn)基于概率興趣度模型的關(guān)聯(lián)規(guī)則挖掘算法,并且在取不同興趣度值情況下記錄顯示關(guān)聯(lián)規(guī)則數(shù),具體見表1所示。概率興趣度與規(guī)則數(shù)關(guān)系如圖1所示。
表1 概率興趣度取值與規(guī)則顯示數(shù)目表
圖1 概率興趣度與規(guī)則數(shù)關(guān)系圖
從圖1可看出,興趣度I(X?Y)函數(shù)值越大,規(guī)則越有價(jià)值。在興趣度I(X?Y)的定義中,考慮到了規(guī)則(X?Y)的前項(xiàng)X和后項(xiàng)Y的耦合,同時(shí)考慮到如果對大概率事件產(chǎn)生的原因知道得較多,而可能對大概率事件導(dǎo)致的結(jié)果更加感興趣的特點(diǎn);但是興趣度與信任度C(X?Y)不同,興趣度I(X?Y)重點(diǎn)對S(Y)小的規(guī)則賦予大的興趣度[3]?;诟怕逝d趣度模型主要考慮規(guī)則的簡潔性、支持度以及后項(xiàng)的影響,卻沒有考慮規(guī)則前項(xiàng)對規(guī)則的影響。
2 差異思想興趣度
2.1差異思想興趣度模型
文獻(xiàn)【4】提出了一種基于差異思想的興趣度模型,用以指導(dǎo)關(guān)聯(lián)規(guī)則的發(fā)現(xiàn),將關(guān)聯(lián)規(guī)則(X?Y)的興趣度表示為:
[IX?Y=CX?Y-SYmaxCX?Y,SY] (4)
其中,C(X?Y)為關(guān)聯(lián)規(guī)則(X?Y)的置信度,其值為(2)式所示;S(Y)為關(guān)聯(lián)規(guī)則(X?Y)中Y的支持度,其值為Count(X)/N。
2.2差異思想興趣度模型特點(diǎn)分析
使用Visual FoxPro編程實(shí)現(xiàn)基于差異思想興趣度模型的關(guān)聯(lián)規(guī)則挖掘算法,并且在取不同興趣度值情況下記錄顯示關(guān)聯(lián)規(guī)則數(shù),具體見表2所示。差異思想興趣度與規(guī)則數(shù)關(guān)系如圖2所示。
表2 差異思想興趣度取值與規(guī)則顯示數(shù)目表
圖2 差異思想興趣度與規(guī)則數(shù)關(guān)系圖
max{C(X?Y),S(Y )}是一個(gè)標(biāo)準(zhǔn),保證|I(X?Y)|<1。此興趣度模型把支持度和信任度聯(lián)系了起來,反映了在X影響下事務(wù)Y在發(fā)生的概率。 當(dāng)Y支持度與規(guī)則(X?Y)的置信度的差異越大時(shí),|I(X?Y)|大于閾值,規(guī)則(X?Y)使用價(jià)值大;反之則|I(X?Y)|小于閾值,規(guī)則(X?Y)使用價(jià)值小?;诓町愃枷氲呐d趣度模型是由規(guī)則信任度與后項(xiàng)支持度的差異來定義的,這種方法的好處是消除了后項(xiàng)高支持率導(dǎo)對規(guī)則高信任度的影響,達(dá)到刪除不感興趣規(guī)則的目的。
3 相關(guān)性興趣度
3.1 相關(guān)性興趣度模型
根據(jù)文獻(xiàn)[5]描述,將基于相關(guān)性的興趣度模型定義為:
[IX?Y=SX?YSXSY] (5)
其中,S(X∪Y)=Count(X∪Y)/N,S(X)=Count(X)/N,S(Y)=Count(Y)/N。
3.2 相關(guān)性興趣度模型特點(diǎn)分析
使用Visual FoxPro編程實(shí)現(xiàn)基于相關(guān)性興趣度模型的關(guān)聯(lián)規(guī)則挖掘算法,并且在取不同興趣度值情況下記錄顯示關(guān)聯(lián)規(guī)則數(shù),具體見表3所示。將相關(guān)性興趣度與規(guī)則數(shù)如圖3所示。
表3 相關(guān)性興趣度取值與規(guī)則顯示數(shù)目表
圖3 相關(guān)性興趣度與規(guī)則數(shù)關(guān)系圖
興趣度I(X?Y)反映了關(guān)聯(lián)規(guī)則中X與Y間的關(guān)系,是X和Y密切程度的體現(xiàn);而可信度和支持度分別體現(xiàn)了規(guī)則依賴方向和規(guī)則在事務(wù)集中出現(xiàn)的頻率?;谙嚓P(guān)性的興趣度模型是從規(guī)則前項(xiàng)與后項(xiàng)相關(guān)性來定義的,從概率的角度分析規(guī)則前項(xiàng)和后項(xiàng)相關(guān)性,若前項(xiàng)與后項(xiàng)在概率上不相關(guān),或者相關(guān)性小,則用戶對規(guī)則沒有興趣或興趣較小,反之則用戶對規(guī)則有很大的興趣。
4 信息量興趣度
4.1 信息量興趣度模型
早在1992年美國學(xué)者Padhaic Symth等人在論文《An Information Theoretie Approach to Rule Induction from Database》中將關(guān)聯(lián)規(guī)則(X?Y)的興趣度定義為:
[IX?Y=PXPY|XlogPY|XPY+1-PY|Xlog1-PY|X1-PY] (6)
其中,P(X)=Count(X)/N,P(Y)=Count(Y)/N,P(Y|X)=Count(X∪Y)/N。
4.2信息量興趣度模型特點(diǎn)分析
使用Visual FoxPro編程實(shí)現(xiàn)基于信息量興趣度模型的關(guān)聯(lián)規(guī)則挖掘算法,并且在取不同興趣度值情況下記錄顯示關(guān)聯(lián)規(guī)則數(shù),具體見表4所示。將信息量興趣度與規(guī)則數(shù)關(guān)系如圖4所示。
表4 信息量興趣度取值與規(guī)則顯示數(shù)目表
基于信息量興趣度模型主要對規(guī)則的簡潔性和信息量進(jìn)行綜合度量的,綜合考慮了前件X和后件Y概率分布的相似程度,X出現(xiàn)的概率P(X)作為規(guī)則前項(xiàng)簡潔程度的衡量。規(guī)則越簡潔,則X數(shù)量越少,興趣度也越高。這種興趣度模型考慮了前項(xiàng)和后項(xiàng)的藕合度,藕合度越高,興趣度也越高。
5 影響興趣度
5.1 影響興趣度模型
西南交通大學(xué)陳安龍的碩士論文《基于興趣度的關(guān)聯(lián)規(guī)則挖掘算法的研究》中將興趣度描述為(7)式。
[IX?Y=logCX?Y/CX?YSY/SY=logN-CountXCount(X)-Count(X?Y)×CountX?YCountY] (7)
其中,C(X?Y)為關(guān)聯(lián)規(guī)則(X?Y)的置信度,[CX?Y]=(N-Count(X∪Y))/Count(X),S(Y)=Count(Y)/N,[SY]=(N-Count(Y))/N。
5.2 影響興趣度模型特點(diǎn)分析
使用Visual FoxPro編程實(shí)現(xiàn)基于影響興趣度模型的關(guān)聯(lián)規(guī)則挖掘算法,并且在取不同興趣度值情況下記錄顯示關(guān)聯(lián)規(guī)則數(shù),具體見表5所示。將影響興趣度與規(guī)則數(shù)關(guān)系如圖5所示。
表5 影響興趣度取值與規(guī)則顯示數(shù)目表
圖5 影響興趣度與規(guī)則數(shù)關(guān)系圖
在總事務(wù)數(shù)N和其它不變情況下,當(dāng)Count(Y)增大時(shí)興趣度將降低,反之則上升;當(dāng)Count(X∪Y)增大時(shí)興趣度將上升,反之則降低;當(dāng)Count(X)增大時(shí)興趣度將降低,反之則上升。這種興趣度模型使用前項(xiàng)對規(guī)則的影響來確定規(guī)則興趣度,考慮了接近于閥值的強(qiáng)關(guān)聯(lián)規(guī)則和弱關(guān)聯(lián)規(guī)則的選擇。
除了以上介紹的5種興趣度模型外,還有目標(biāo)興趣度、正負(fù)項(xiàng)目興趣度、卡方獨(dú)立性興趣度、Symth函數(shù)興趣度、Gimi指標(biāo)興趣度、Piantesky-Shapiro興趣度模型等,在此就不一一介紹了。
本文通過查閱相關(guān)文獻(xiàn)資料,收集整理了基于概率興趣度、差異思想興趣度、相關(guān)性興趣度、信息量興趣度、影響興趣度模型的相關(guān)知識(shí),并利用Visual FoxPro編程語言實(shí)現(xiàn)這些興趣度的關(guān)聯(lián)規(guī)則算法。通過實(shí)驗(yàn)分析了各種興趣度模型的取值與規(guī)則顯示的關(guān)系,并簡要分析總結(jié)了各種興趣度模型的基本特點(diǎn)。
參考文獻(xiàn):
[1] 吳杰.基于興趣度的關(guān)聯(lián)規(guī)則挖掘[D].哈爾濱:哈爾濱工業(yè)大學(xué),2009:31.
[2] 周欣,沙朝鋒,朱揚(yáng)勇,等.興趣度——關(guān)聯(lián)規(guī)則的又一個(gè)閾值[J].計(jì)算機(jī)研究與發(fā)展,2000,5(2):627-633.
[3] 陳安龍.基于興趣度的關(guān)聯(lián)規(guī)則挖掘算法的研究[D].成都:西南交通大學(xué),2003:26,24-33.
[4] 周皓峰,朱揚(yáng)勇,施伯樂.一個(gè)基于興趣度的關(guān)聯(lián)規(guī)則的采掘算法[J].計(jì)算機(jī)研究與發(fā)展,2002,39(4):4450-457
[5] Wai-Ho Au,Keith C,Chan C.Mining changes in association rules: a fuzzy approach[J].Fuzzy Sets and Systems,2005,149:87-104.