国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

多數(shù)據(jù)庫中的間接關(guān)聯(lián)規(guī)則挖掘算法

2016-11-07 18:04:42段巧靈李芬張莉
軟件導(dǎo)刊 2016年9期
關(guān)鍵詞:投票率數(shù)據(jù)挖掘

段巧靈++李芬++張莉

摘要:隨著多數(shù)據(jù)庫技術(shù)的快速發(fā)展,在多個數(shù)據(jù)庫中獲取有效信息顯得尤為重要?,F(xiàn)有技術(shù)都是在一個數(shù)據(jù)庫中挖掘間接關(guān)聯(lián)規(guī)則。采用投票率作為規(guī)則興趣度量來提取全局間接關(guān)聯(lián)規(guī)則,并在此基礎(chǔ)上定義了相對支持度和方差來衡量間接規(guī)則的強度,以從多個數(shù)據(jù)庫中挖掘有效的間接關(guān)聯(lián)規(guī)則。最后通過實驗驗證了該方法的有效性。

關(guān)鍵詞:間接關(guān)聯(lián)規(guī)則;數(shù)據(jù)挖掘;多數(shù)據(jù)庫;投票率

DOIDOI:10.11907/rjdk.161920

中圖分類號:TP312

文獻標識碼:A文章編號文章編號:16727800(2016)009004902

作者簡介作者簡介:段巧靈(1986-),女,湖南衡陽人,碩士,武漢晴川學(xué)院計算機學(xué)院助教,研究方向為數(shù)據(jù)挖掘、機器學(xué)習。

0引言

關(guān)聯(lián)規(guī)則作為數(shù)據(jù)挖掘的重要領(lǐng)域之一,由R Agrawal[1]在1993年首次提出。關(guān)聯(lián)規(guī)則是通過頻繁項集的挖掘來獲取的,卻忽略了其中的非頻繁項集。例如,在超市的商品交易中,如果數(shù)據(jù)項對(A,B)頻率非常低,但是(A,C)和(B,C)出現(xiàn)的頻率卻非常高,可稱為間接關(guān)聯(lián)規(guī)則[2],即(A,B)通過中間集C間接關(guān)聯(lián)。間接關(guān)聯(lián)規(guī)則提供了非常有價值的信息,可以應(yīng)用在很多方面,如對文本的查詢進行分類、市場營銷、Web日志挖掘和股票分析等。

目前,現(xiàn)有技術(shù)都是在單個數(shù)據(jù)庫中挖掘間接關(guān)聯(lián)規(guī)則。隨著多數(shù)據(jù)庫技術(shù)的快速發(fā)展,在多個數(shù)據(jù)庫中挖掘間接關(guān)聯(lián)規(guī)則顯得尤為重要[3]。本文致力于挖掘多數(shù)據(jù)庫中的間接關(guān)聯(lián)規(guī)則,即挖掘全局的間接關(guān)聯(lián)規(guī)則。使用投票率作為標準選取有效的全局間接關(guān)聯(lián)規(guī)則,并通過計算各個有效的間接規(guī)則的支持度方差對其進行排序,以供決策者使用。最后設(shè)計了相關(guān)算法,實驗結(jié)果證明了該算法的有效性。

1相關(guān)工作

1.1問題描述

間接關(guān)聯(lián)規(guī)則是形如的一個表達式,其中A,B,MT,A∩B=Φ,項對(A,B)依賴中間項集M而存在,稱項對(A,B)通過中間集M間接關(guān)聯(lián)。挖掘間接關(guān)聯(lián)規(guī)則即找出滿足條件的中間項M:

(1) sup(A,B)≤ts

(2) sup(A,M)≥tf,sup(B,M)≥tf,dep(A,M)≥td,dep(B,M)≥td

其中,dep(A,B)=P(A∩B)[]P(A)*P(B)表示項集之間依賴關(guān)系的強度,ts、tf、td分別稱為項對支持度閾值、中間集支持度閾值、依賴度閾值。通常設(shè)置tf≥ts。

1.2間接關(guān)聯(lián)規(guī)則挖掘技術(shù)

現(xiàn)行的間接關(guān)聯(lián)規(guī)則挖掘研究主要針對提高開發(fā)效率和擴展定義兩方面[46]。間接關(guān)聯(lián)規(guī)則是由P N Tan等在文獻[2]中首次提出。通過頻繁項集挖掘間接關(guān)聯(lián)規(guī)則,主要分為以下兩步:①用標準的頻繁項集挖掘算法獲取所有頻繁項集,如Apriori算法;②通過檢查由頻繁項集產(chǎn)生的候選關(guān)聯(lián)規(guī)則來發(fā)現(xiàn)有效的間接關(guān)聯(lián)規(guī)則。

顯然,通過挖掘所有頻繁項集來獲取間接關(guān)聯(lián)規(guī)則非常費時。Wan在文獻[4]中提出了一種基于HIstruct的數(shù)據(jù)模型,通過HI-mine算法來提高間接關(guān)聯(lián)規(guī)則挖掘效率;Chen等在文獻[5]中考慮到數(shù)據(jù)項的生命周期,探索出一種新模式并用MGGrowth算法來挖掘間接關(guān)聯(lián)規(guī)則;Ouyang等在文獻[6]中考慮到不同角色在現(xiàn)實世界中的應(yīng)用,提出一個間接的加權(quán)關(guān)聯(lián)規(guī)則模型來擴展間接關(guān)聯(lián)規(guī)則挖掘模型。

2多數(shù)據(jù)庫中的間接關(guān)聯(lián)規(guī)則挖掘

在多數(shù)據(jù)庫中挖掘有效的間接關(guān)聯(lián)規(guī)則主要包括以下3個步驟:①對多個數(shù)據(jù)庫使用聚類算法進行分類;②對每個數(shù)據(jù)庫進行間接關(guān)聯(lián)規(guī)則挖掘;③挖掘多個數(shù)據(jù)中的全局間接關(guān)聯(lián)規(guī)則。

下文詳細闡述了多數(shù)據(jù)庫挖掘的第3個步驟。在科學(xué)研究及應(yīng)用中,對于規(guī)則的選取可以采用投票來決定。一個規(guī)則投票數(shù)越多,則表示該規(guī)則可靠性越高。因此,多數(shù)據(jù)庫中的全局間接關(guān)聯(lián)規(guī)則是以投票率作為標準來挖掘的。

猜你喜歡
投票率數(shù)據(jù)挖掘
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
電力與能源(2017年6期)2017-05-14 06:19:37
數(shù)據(jù)挖掘技術(shù)在中醫(yī)診療數(shù)據(jù)分析中的應(yīng)用
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
數(shù)據(jù)挖掘的分析與探索
河南科技(2014年23期)2014-02-27 14:18:43
基于GPGPU的離散數(shù)據(jù)挖掘研究
寥若晨星
乌恰县| 玉溪市| 宜都市| 安阳市| 韶关市| 上蔡县| 孟州市| 育儿| 甘洛县| 怀安县| 海口市| 衡水市| 齐河县| 清苑县| 新昌县| 黄平县| 深州市| 香港| 长兴县| 凯里市| 永寿县| 新沂市| 万荣县| 广饶县| 盐边县| 志丹县| 登封市| 甘南县| 黑龙江省| 繁峙县| 怀集县| 六安市| 崇信县| 宾阳县| 嘉义县| 锡林郭勒盟| 石家庄市| 秭归县| 广宁县| 临清市| 右玉县|