国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

關(guān)聯(lián)規(guī)則挖掘算法

2017-09-20 17:19胡霽芳邵明月
科教導(dǎo)刊·電子版 2017年22期
關(guān)鍵詞:關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘算法

胡霽芳+邵明月

摘 要 本文介紹了關(guān)聯(lián)規(guī)則挖掘算法的基本原理,并按照挖掘中涉及到的變量數(shù)目、數(shù)據(jù)的抽象層次和處理變量的類型,依次對(duì)關(guān)聯(lián)規(guī)則挖掘算法的研究進(jìn)行綜述,并對(duì)一些典型的算法進(jìn)行分析和比較,最后展望了關(guān)聯(lián)規(guī)則挖掘算法的研究方向。

關(guān)鍵詞 數(shù)據(jù)挖掘 關(guān)聯(lián)規(guī)則 算法

中圖分類號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A

0引言

數(shù)據(jù)挖掘是從大型數(shù)據(jù)庫或數(shù)據(jù)倉庫中提取隱含的、先前未知的、對(duì)決策有潛在價(jià)值的知識(shí)和規(guī)則。它是人工智能和數(shù)據(jù)庫發(fā)展相結(jié)合的產(chǎn)物,是國際上數(shù)據(jù)庫和信息決策系統(tǒng)最前沿的研究方向之一。數(shù)據(jù)挖掘主要的算法有分類模式、關(guān)聯(lián)規(guī)則、決策樹、序列模式、聚類模式分析、神經(jīng)網(wǎng)絡(luò)算法等等。關(guān)聯(lián)規(guī)則是數(shù)據(jù)挖掘領(lǐng)域中一個(gè)非常重要的研究課題,廣泛用于各個(gè)領(lǐng)域,既可以檢驗(yàn)行業(yè)內(nèi)長期形成的知識(shí)模式,也能夠發(fā)現(xiàn)隱藏的新規(guī)律。有效地發(fā)現(xiàn)、理解、運(yùn)用關(guān)聯(lián)規(guī)則是完成數(shù)據(jù)挖掘任務(wù)的重要手段,因此對(duì)關(guān)聯(lián)規(guī)則的研究具有重要的理論價(jià)值和現(xiàn)實(shí)意義。

1關(guān)聯(lián)規(guī)則基本原理

關(guān)聯(lián)規(guī)則挖掘問題就是在事務(wù)數(shù)據(jù)庫D中找出具有用戶給定的最小支持度minsup和最小置信度minconf的關(guān)聯(lián)規(guī)則。關(guān)聯(lián)規(guī)則挖掘問題可以分解為以下兩個(gè)子問題。

(1)找出存在與事務(wù)數(shù)據(jù)庫中所有強(qiáng)相集X的支持度support(X)不小于用戶給定的最小支持度minsup,則X為強(qiáng)項(xiàng)集。

(2)利用強(qiáng)項(xiàng)集生成關(guān)聯(lián)規(guī)則。對(duì)于每個(gè)強(qiáng)項(xiàng)集A,若B€H袮,B≠,且support(A)/support(B)minconf,則有關(guān)聯(lián)規(guī)則。B€H!(AB)。

2關(guān)聯(lián)規(guī)則算法概述及典型算法分析

R.Agrawal等提出了關(guān)聯(lián)規(guī)則挖掘問題以后,一批有效的挖掘關(guān)聯(lián)規(guī)則的算法在過去幾年中得到了長足的發(fā)展。到目前為止,其主要研究方向有:基于規(guī)則中涉及到的數(shù)據(jù)維數(shù)的挖掘算法,基于規(guī)則中處理變量類別的挖掘算法,其他關(guān)聯(lián)算法等。

2.1單維關(guān)聯(lián)規(guī)則

基于約束的規(guī)則挖掘約束的內(nèi)容可以是:(1)數(shù)據(jù)約束:用戶可以指定對(duì)哪些數(shù)據(jù)進(jìn)行挖掘,而不一定時(shí)全部的數(shù)據(jù)。(2)指定挖掘的維和層次:用戶可以指定對(duì)數(shù)據(jù)哪些維以及這些維上的哪些層次進(jìn)行挖掘。(3)規(guī)則約束:可以指定哪些類型的規(guī)則是所需要的,引入一個(gè)模板的概念,用戶使用它來確定哪些規(guī)則令人感興趣的:如果一條規(guī)則匹配一個(gè)包含的模板,則是令人感興趣的,然而如果一條規(guī)則匹配一個(gè)限制的模板,則被認(rèn)為是缺乏興趣的。

2.2多維關(guān)聯(lián)規(guī)則挖掘

它指關(guān)聯(lián)規(guī)則涉及2個(gè)或2個(gè)以上變量,根據(jù)是否允許同一維重復(fù)出現(xiàn),多維關(guān)聯(lián)規(guī)則又可以分為維間關(guān)聯(lián)規(guī)則和混合維關(guān)聯(lián)規(guī)則。維間關(guān)聯(lián)規(guī)則和混合維關(guān)聯(lián)規(guī)則還要考慮不同的字段種類,即類別數(shù)據(jù)與數(shù)值數(shù)據(jù)。對(duì)于類別資料,一般關(guān)聯(lián)規(guī)則算法都可以處理,而對(duì)數(shù)值資料,就需要將這些資料轉(zhuǎn)化成類別資料才可以處理。

3總結(jié)

目前,數(shù)據(jù)庫關(guān)聯(lián)規(guī)則挖掘已經(jīng)取得了令人矚目的成績,但對(duì)下列問題進(jìn)行研究時(shí)具有挑戰(zhàn)性的工作。

3.1開發(fā)更有效的挖掘算法

隨著數(shù)據(jù)庫的尺寸不斷增大,不僅增大了挖掘算法的搜索空間,而且也增加了盲目發(fā)現(xiàn)的可能性。因此必須利用領(lǐng)域知識(shí)去提取與發(fā)現(xiàn)任務(wù)有關(guān)的數(shù)據(jù),刪除無用的數(shù)據(jù),有效地降低問題的維數(shù),設(shè)計(jì)出更加有效地挖掘算法。在這一方面,基于約束的關(guān)聯(lián)規(guī)則挖掘具有廣闊的前途。

3.2可視化挖掘

設(shè)計(jì)一個(gè)靈活方便的用戶界面,允許用戶與挖掘系統(tǒng)進(jìn)行互換,并對(duì)所挖掘的結(jié)果進(jìn)行很好的可視化表示,使非領(lǐng)域?qū)<乙材苓M(jìn)行挖掘。

3.3各種非結(jié)構(gòu)化數(shù)據(jù)的挖掘

目前大多數(shù)關(guān)聯(lián)規(guī)則挖掘大多是基于關(guān)系數(shù)據(jù)庫或事務(wù)數(shù)據(jù)庫的算法,設(shè)計(jì)應(yīng)用于其他類型數(shù)據(jù)庫(如面向?qū)ο髷?shù)據(jù)庫、數(shù)據(jù)倉庫、文本數(shù)據(jù)、圖形圖像數(shù)據(jù)、多媒體數(shù)據(jù)等)關(guān)聯(lián)規(guī)則挖掘算法也將是十分有意義的工作。

3.4并行關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘

隨著數(shù)據(jù)挖掘中數(shù)據(jù)量的高速增加以及大規(guī)模并行計(jì)算在數(shù)據(jù)挖掘中的應(yīng)用,由于挖掘系統(tǒng)本身的原因,并行數(shù)據(jù)挖掘過程更加趨向粗粒度的挖掘,無法實(shí)現(xiàn)任意程度的并行。目前在并行數(shù)據(jù)挖掘中尚有一些問題需要解決:數(shù)據(jù)量的不斷增加,維數(shù)越來越高,數(shù)據(jù)定位問題,數(shù)據(jù)的不對(duì)稱,動(dòng)態(tài)負(fù)載平衡,多表數(shù)據(jù)庫的數(shù)據(jù)分布和索引方案,增量的方法,并行的數(shù)據(jù)庫管理系統(tǒng)和文件系統(tǒng)。

3.5制定更加合理的關(guān)聯(lián)規(guī)則衡量評(píng)價(jià)標(biāo)準(zhǔn)

目前的關(guān)聯(lián)規(guī)則衡量標(biāo)準(zhǔn)可能會(huì)發(fā)現(xiàn)一些冗余的、虛假的和非挖掘者關(guān)心的關(guān)聯(lián)規(guī)則,因而有必要制定一些新的衡量標(biāo)準(zhǔn),用來衡量關(guān)聯(lián)規(guī)則挖掘算法的優(yōu)劣,但這些標(biāo)準(zhǔn)的制定可能要具體問題具體分析。

3.6與其他系統(tǒng)的集成

這里的集成包括與其他挖掘方法的集成和與其他系統(tǒng)的集成。

3.7研究在網(wǎng)絡(luò)環(huán)境下的關(guān)聯(lián)規(guī)則挖掘技術(shù)

特別是在Internet上建立DM服務(wù)器,與數(shù)據(jù)庫服務(wù)器配合,實(shí)現(xiàn)數(shù)據(jù)挖掘。

參考文獻(xiàn)

[1] Agrawal R, Srkant R. Mining association rules between sets of items in large databases[A].ProcACM SIGMOD Int1 Conf Management of data [C]. Washington DC,May 1993.207-216.

[2] 尹阿東,高學(xué)東,武森等,基于數(shù)值屬性的關(guān)聯(lián)規(guī)則挖掘算法[J]. 微機(jī)發(fā)展,2003,(04):67-70.

[3] 齊雁,李石君,薛海峰。對(duì)演變數(shù)據(jù)進(jìn)行關(guān)聯(lián)規(guī)則挖掘的新方法[J].計(jì)算機(jī)工程,2002(11):126-128.

[4] 羅可,吳杰.關(guān)聯(lián)規(guī)則衡量標(biāo)準(zhǔn)的研究[J]. 控制與決策,2003(08):419-424.

[5] 楊建林,鄧三鴻,蘇新寧.關(guān)聯(lián)規(guī)則興趣度的衡量[J]. 情報(bào)學(xué)報(bào),2003(08):277-281.endprint

猜你喜歡
關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘算法
基于MapReduce的改進(jìn)Eclat算法
Travellng thg World Full—time for Rree
進(jìn)位加法的兩種算法
基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
一種改進(jìn)的整周模糊度去相關(guān)算法
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
基于GPGPU的離散數(shù)據(jù)挖掘研究
庆阳市| 都匀市| 赣州市| 新干县| 松原市| 巴林左旗| 乌拉特中旗| 黄浦区| 疏勒县| 宁安市| 绿春县| 拜泉县| 郴州市| 兴义市| 涞水县| 内黄县| 江安县| 重庆市| 通海县| 兴义市| 浏阳市| 晋江市| 肥东县| 龙海市| 讷河市| 五家渠市| 嘉峪关市| 长寿区| 洪洞县| 肇庆市| 库尔勒市| 云霄县| 南充市| 山东| 夹江县| 枣强县| 宝清县| 平原县| 武城县| 徐闻县| 仲巴县|