国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

多事務(wù)興趣度的度量方法*

2019-12-04 03:27:14吳文華嚴麗娜
通信技術(shù) 2019年11期
關(guān)鍵詞:項集事務(wù)度量

閻 婷,吳文華,嚴麗娜,劉 晶

(國防科技大學(xué)信息通信學(xué)院試驗訓(xùn)練基地,陜西 西安 710106)

0 引 言

常見的衡量關(guān)聯(lián)規(guī)則相關(guān)度的方法有基于最小支持度和最小信任度閾值的支持度-置信度框架、基于Piatetsky-Shapiro提出的PS公式。第二種度量公式能去除大部分不相關(guān)的或負相關(guān)的關(guān)聯(lián)規(guī)則,且有效簡單,但在多事務(wù)興趣度度量方面存在一定缺陷[1]。因此,現(xiàn)提出一種可以對多事務(wù)興趣度進行度量的多事務(wù)興趣度的度量方法,通過驗證它是PS公式的擴展。

1 問題引入

例如,某一商場底層事務(wù)數(shù)據(jù)庫中購買咖啡(事務(wù)C)、牛奶(事務(wù)D)、白糖(事務(wù)E)的統(tǒng)計況如圖1所示。

圖1 購買咖啡、牛奶、白糖的統(tǒng)計

由 圖1可 得 結(jié) 果:p(C)=50%,p(D)=50%,P(D)P(E)=0,說明事務(wù)C、D和E間的關(guān)聯(lián)規(guī)則是無趣的,但是顯然事務(wù)C和D、C和E、D和E、CD和E、CE和D、DE和C間均正相關(guān),可見根據(jù)PS興趣度公式推出的結(jié)論是不正確的。由上例可以看出,PS公式具有局限性,尤其是在判斷二維以上關(guān)聯(lián)規(guī)則的情況下。為了解決這樣的問題,根據(jù)力學(xué)平衡原理引入多事務(wù)興趣度度量的方法——多事務(wù)間誘導(dǎo)力的數(shù)學(xué)期望法。

2 多事務(wù)興趣度算法描述

2.1 相關(guān)概念

定義1:誘導(dǎo)力。認為事務(wù)集S中的事務(wù)C1,C2,…,Cn是否同時出現(xiàn)是由某種力所決定的,把這種力命名為誘導(dǎo)力[2],表示為:

定義2:逆項集。對事務(wù)集S的Cni個i項子集進行任意排序,則第j項子集可表示為X(i,j)。設(shè)S(i,j)是X(i,j)與X(i,j)的所有元素的逆所組成集合的并集,即:

其中k∈(0,Cin)。

設(shè)Si是以S(i,j)為元素的集合,即:

為了方便,稱Si是事務(wù)集S的i項逆項集,把S(i,j)中的第k個元素表示為S(i,j,k)。

其中K稱為誘導(dǎo)系數(shù),滿足以下條件[3]:

(1)K是常量,且K>0;

(2)它的值因數(shù)據(jù)庫的改變和事務(wù)C1,C2,…,Cn個數(shù)的改變而改變,在同一數(shù)據(jù)庫中保持不變。

當事務(wù)C1,C2,…,Cn相互獨立時,事務(wù)C1,C2,…,以誘導(dǎo)力公式為:

事務(wù)C1,C2,…,Cn所有誘導(dǎo)力的合力是事務(wù)集S中所有逆項集的誘導(dǎo)力數(shù)學(xué)期望之和,其中事務(wù)集S的所有逆項集共有Cn0+Cn1+…+Cin+…+Cnn-1+Cnn=2n個。

2.2 多事務(wù)興趣度公式推導(dǎo)

當誘導(dǎo)力為0時,設(shè)f是事務(wù)C1,C2,…,Cn同時發(fā)生的正向誘導(dǎo)力。當誘導(dǎo)力小于0時,f是事務(wù)C1,C2,…,Cn同時發(fā)生的負向誘導(dǎo)力。

設(shè)給定誘導(dǎo)力合力的最小誘導(dǎo)力為閾值δ,則當誘導(dǎo)力合力小于閾值δ時,事務(wù)C1,C2,…,Cn正相關(guān),即規(guī)則是有趣的;若誘導(dǎo)力合力大于閾值δ時,事務(wù)C1,C2,…,Cn負相關(guān),即規(guī)則是無趣的;誘導(dǎo)力合力等于閾值δ,事務(wù)C1,C2,…,Cn不相關(guān),即規(guī)則是無趣的。

將式(6)等號兩邊同除以K,式(6)轉(zhuǎn)化為:

其中:

多事務(wù)興趣度方法為式(7),有如下結(jié)論:

用戶也可以根據(jù)自己的主觀要求設(shè)定閾值進行挖掘或者測量,令ε=δ/K,ε是最小興趣度的閾值。

3 算法應(yīng)用及實現(xiàn)

3.1 應(yīng)用

下面以多事務(wù)興趣度公式分析給出購買咖啡(事務(wù)C)、牛奶(事務(wù)D)、白糖(事務(wù)E)的興趣度。根據(jù)多事務(wù)興趣度公式,求事務(wù)C、D、E的興趣度如下:

因為P(CDE)=0.03>ε=0.01,所以事務(wù)C、D、E是有興趣的。

3.2 實現(xiàn)

本算法采用VC++作為開發(fā)環(huán)境進行測試,SQL SERVER存放數(shù)據(jù)庫,且兩個字段對數(shù)據(jù)進行存放。第一個字段存放記錄的編號(相當于購買商品時小票的流水號),第二個字段存放每一條記錄的所有商品名。采用Apriori算法挖掘頻繁項集(最小支持度為0.3),用多事務(wù)興趣度算法對挖掘出來的結(jié)果進行度量,結(jié)果如圖2所示。

圖2 多事務(wù)興趣度度量結(jié)果

圖2的結(jié)果顯示,此方法不僅可以對二維關(guān)聯(lián)規(guī)則進行度量,還可以對二維以上的關(guān)聯(lián)規(guī)則進行度量。二維時,度量結(jié)果是PS公式的計算結(jié)果。所以,此法的適用性更強。

4 結(jié) 語

本文指出PS公式的缺陷和不足,引入逆項集和誘導(dǎo)力的概念,結(jié)合力學(xué)平衡原理等知識,提出了多事務(wù)客觀興趣度的度量方法。此方法綜合考慮了規(guī)則準確度、相關(guān)度對規(guī)則興趣度的影響,是PS公式的一個擴展。此方法不僅可以進行自挖掘,也可以用來對挖掘的關(guān)聯(lián)規(guī)則進行度量。

猜你喜歡
項集事務(wù)度量
有趣的度量
“事物”與“事務(wù)”
基于分布式事務(wù)的門架數(shù)據(jù)處理系統(tǒng)設(shè)計與實現(xiàn)
模糊度量空間的強嵌入
河湖事務(wù)
迷向表示分為6個不可約直和的旗流形上不變愛因斯坦度量
地質(zhì)異常的奇異性度量與隱伏源致礦異常識別
關(guān)聯(lián)規(guī)則中經(jīng)典的Apriori算法研究
卷宗(2014年5期)2014-07-15 07:47:08
一種頻繁核心項集的快速挖掘算法
計算機工程(2014年6期)2014-02-28 01:26:12
SQLServer自治事務(wù)實現(xiàn)方案探析
西林县| 尤溪县| 南康市| 舟山市| 额尔古纳市| 宜昌市| 革吉县| 大连市| 垣曲县| 休宁县| 台中市| 临沭县| 桦川县| 安吉县| 阿图什市| 丰台区| 嘉禾县| 鄂托克前旗| 古蔺县| 广德县| 哈密市| 翁源县| 龙井市| 开江县| 德安县| 田东县| 仁布县| 合阳县| 阜城县| 东乌珠穆沁旗| 共和县| 武胜县| 永城市| 九龙坡区| 改则县| 灌南县| 南投市| 东海县| 宜良县| 宿迁市| 乐业县|