国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

關(guān)聯(lián)規(guī)則挖掘算法研究

2016-02-05 11:58劉明昌
山西青年 2016年15期
關(guān)鍵詞:項集數(shù)據(jù)量置信度

劉明昌

河北大學(xué)管理學(xué)院,河北 保定 071000

?

關(guān)聯(lián)規(guī)則挖掘算法研究

劉明昌*

河北大學(xué)管理學(xué)院,河北保定071000

在信息時代,大量的數(shù)據(jù)中蘊含著豐富的信息、知識,人們通過分析數(shù)據(jù)獲取信息。數(shù)據(jù)挖掘算法是一種有效的針對數(shù)據(jù)的分析方法,可以在大量的數(shù)據(jù)中挖掘、分析潛在的規(guī)律和聯(lián)系以方便人們使用。數(shù)據(jù)挖掘技術(shù)中的關(guān)聯(lián)規(guī)則挖掘算法是根據(jù)各種方法從目標(biāo)數(shù)據(jù)中挖掘出數(shù)據(jù)間的潛在關(guān)聯(lián)。本文首先針對關(guān)聯(lián)規(guī)則的挖掘步驟,常用的挖掘算法進行了簡單的介紹。其次,就目前關(guān)聯(lián)規(guī)則存在的各種問題進行分析。最后對關(guān)聯(lián)規(guī)則挖掘算法未來的研究發(fā)展方向提出了建議和意見。

數(shù)據(jù)挖掘;關(guān)聯(lián)規(guī)則;Apriori算法

人類進入信息社會以來,隨著信息技術(shù)的飛速發(fā)展,人類社會產(chǎn)生的數(shù)據(jù)量也與日劇增,知識應(yīng)用領(lǐng)域的擴展也使人們對所獲知識的需求越來越高。在信息過載時代,數(shù)據(jù)挖掘可以幫助人們從多種視角對數(shù)據(jù)進行挖掘分析,得出潛在的、用戶可能需要的情報。它不僅可以用于描述過去數(shù)據(jù)的發(fā)展過程,而且還能進一步預(yù)測未來的發(fā)展趨勢。因此,數(shù)據(jù)挖掘是當(dāng)今數(shù)據(jù)分析領(lǐng)域中的熱點研究方向。

關(guān)聯(lián)規(guī)則是數(shù)據(jù)中潛在的重要的關(guān)聯(lián),是數(shù)據(jù)挖掘算法中的核心部分。關(guān)聯(lián)規(guī)則的挖掘就是在目標(biāo)數(shù)據(jù)中發(fā)現(xiàn)共同發(fā)生或存在的關(guān)系。自上世紀(jì)九十年代以來,關(guān)聯(lián)規(guī)則就引起了大量的關(guān)注和研究。

一、關(guān)聯(lián)規(guī)則挖掘的步驟

(一)發(fā)現(xiàn)所有的頻繁項集

首先需要設(shè)定最小支持度。之后在數(shù)據(jù)集中遍歷所有支持度滿足用戶設(shè)定的最小值支持度閾值的項目集合。一般來說,這些頻繁的項目集合可能存在包含和被包含的關(guān)系。一般情況下,只需要找到最大的頻繁項目集合。整個關(guān)聯(lián)規(guī)則挖掘的第一步,也是最重要的一步就是發(fā)現(xiàn)所有的頻繁項集。

(二)生成關(guān)聯(lián)規(guī)則

對在第一步中遍歷得到的項目集,利用用戶設(shè)定的最小置信度閾值進行篩選,篩選得到所需的關(guān)聯(lián)規(guī)則??梢园杨l繁項集N分解為兩個項集n和N-n,符合置信度要求的規(guī)則n?N-n就是我們所需要的關(guān)聯(lián)規(guī)則。

二、關(guān)聯(lián)規(guī)則挖掘的經(jīng)典算法

(一)Apriori算法

Apriori算法對數(shù)據(jù)集多次遍歷的過程借助了如下規(guī)則:所有的頻繁項集的子集也都是頻繁項集;所有的非頻繁項集的母集合都是非頻繁的。在首次掃描后取得1-頻繁項集,經(jīng)歷第n輪掃描前利用上輪掃描的結(jié)果項目集,構(gòu)造n項集的候選頻繁項集,通過遍歷數(shù)據(jù)庫,確定對候選頻繁項集中每一候選n項集的支持度,最后在該輪結(jié)束時求出n-頻繁項集,算法在n-頻繁項集或n-候選頻繁項集為空時終止。Apriori算法是關(guān)聯(lián)規(guī)則算法中最重要的算法之一,有很大一部分關(guān)聯(lián)規(guī)則挖掘算法都是它的變種或改進。

(二)FPGrowth算法

利用FPGrowth算法對數(shù)據(jù)集進行關(guān)聯(lián)規(guī)則挖掘的核心思想是首先構(gòu)造一棵頻繁模式樹,然后將數(shù)據(jù)庫的數(shù)據(jù)及數(shù)據(jù)之間存在的關(guān)系映射到頻繁模式樹中;然后對創(chuàng)建好的頻繁模式樹進行掃描,得到數(shù)據(jù)集中潛在的所有關(guān)聯(lián)規(guī)則。FPGrowth算法的優(yōu)點在于挖掘過程節(jié)約了大量的時間,提高了算法的計算效率。

(三)增量更新算法

增量更新算法有FUP和FUP2算法以及IUA算法等。增量更新算法一般針對以下三種問題進行處理:第一,當(dāng)兩個數(shù)據(jù)庫A和a合并形成新的數(shù)據(jù)庫之后,怎么生成A∪a中的關(guān)聯(lián)規(guī)則;第二,當(dāng)數(shù)據(jù)庫A去除了部分?jǐn)?shù)據(jù),縮減成新的數(shù)據(jù)庫a,如何獲得數(shù)據(jù)庫a的關(guān)聯(lián)規(guī)則。第三,對于數(shù)據(jù)庫A,當(dāng)用戶對支持度和置信度的閾值進行調(diào)整后,怎么生成調(diào)整后的數(shù)據(jù)庫A的關(guān)聯(lián)規(guī)則。

三、關(guān)聯(lián)規(guī)則挖掘算法存在的問題

(一)算法運行效率的問題

關(guān)聯(lián)規(guī)則的挖掘一般所應(yīng)對的數(shù)據(jù)都是海量的復(fù)雜的。數(shù)據(jù)庫中的數(shù)據(jù)對象甚至有可能達(dá)到成百上千萬條,而數(shù)據(jù)對象的屬性經(jīng)常有幾千種,這使項集的數(shù)據(jù)量異常龐大。目前常用的數(shù)據(jù)挖掘算法的挖掘效率對數(shù)據(jù)量較為敏感,極易受到影響。經(jīng)典的Apriori算法每一遍遍歷數(shù)據(jù)庫都是針對全數(shù)據(jù)庫的遍歷。之后出現(xiàn)了一系列對Apriori算法的改進,但挖掘的效率依然沒有較大的改進。因此,依然需要研究如何高效、準(zhǔn)確地從大量數(shù)據(jù)中搜索、發(fā)現(xiàn)頻繁項集。

(二)挖掘算法的交互性

當(dāng)前的關(guān)聯(lián)規(guī)則挖掘算法與用戶的交互很差,首先用戶設(shè)定了最小支持度和置信度閾值。之后的數(shù)據(jù)挖掘過程是完全與用戶分離的。而事實情況上,用戶在數(shù)據(jù)挖掘過程中的參與會極大程度的改善推薦的效果。在數(shù)據(jù)挖掘過程中改善與用戶的交互性,有效的利用用戶的知識經(jīng)驗和行為偏好,將會有效縮小數(shù)據(jù)挖掘的數(shù)據(jù)空間,針對之前的結(jié)果,對數(shù)據(jù)挖掘算法進行改進,可以大幅度提高關(guān)聯(lián)規(guī)則挖掘的效率和精度。

(三)數(shù)據(jù)雜亂問題

現(xiàn)實數(shù)據(jù)往往具有很多的重復(fù),冗余、錯誤、無關(guān)現(xiàn)象。這些數(shù)據(jù)對挖掘的結(jié)果存在較大的干擾,可能在準(zhǔn)確性、實時性方面有明顯影響。如何處理數(shù)據(jù)中存在的各種問題,及時有效的發(fā)現(xiàn)數(shù)據(jù)中存在的異常非常重要和必需。

四、對關(guān)聯(lián)規(guī)則挖掘算法的展望

關(guān)聯(lián)規(guī)則挖掘算法作為一高效的數(shù)據(jù)分析方法已經(jīng)在諸如投資理財、保險推銷、個性化教育、電子商務(wù)等領(lǐng)域得到廣泛的應(yīng)用和推廣,目前關(guān)聯(lián)規(guī)則挖掘算法的應(yīng)用范圍還在不斷擴大。當(dāng)今網(wǎng)絡(luò)世界數(shù)據(jù)量在飛速膨脹,數(shù)據(jù)中潛在的規(guī)則也在不斷更新?lián)Q代,關(guān)聯(lián)規(guī)則算法的研究改進是一個非常難以解決的問題。本文認(rèn)為針對關(guān)聯(lián)規(guī)則挖掘算法的研究應(yīng)該在以下幾點繼續(xù)開展和深入:(1)改善提高挖掘算法的效率、準(zhǔn)確性以及實時性;(2)繼續(xù)對關(guān)聯(lián)規(guī)則挖掘算法結(jié)構(gòu)進行修正和改善;(3)擴大關(guān)聯(lián)規(guī)則挖掘算法的實際應(yīng)用領(lǐng)域,尋找新的應(yīng)用領(lǐng)域;(4)在關(guān)聯(lián)規(guī)則挖掘的過程中,提高用戶的參與度,積極有效的利用用戶的經(jīng)驗知識,生成可視化的信息。

[1]袁萬蓮,鄭誠.一種改進的Apriori算法[J].計算機技術(shù)與發(fā)展,2008,5:51-53.

[2]劉維曉,陳俊麗.一種改進的Apriori算法[J].計算機工程與應(yīng)用,2011,47:149-151.

[3]胡吉明,鮮學(xué)豐.挖掘關(guān)聯(lián)規(guī)則中Apriori算法的研究與改進[J].計算機技術(shù)與發(fā)展,2006,4:99-104.

[4]張瑞雪.數(shù)據(jù)挖掘中關(guān)聯(lián)規(guī)則算法研究及應(yīng)用[D].哈爾濱工程大學(xué),2006,4:1-59.

劉明昌(1991-),男,漢族,河北保定人,河北大學(xué)管理學(xué)院,管理科學(xué)與工程專業(yè)碩士研究生在讀。

TP311

A

1006-0049-(2016)15-0098-01

猜你喜歡
項集數(shù)據(jù)量置信度
置信度輔助特征增強的視差估計網(wǎng)絡(luò)
一種基于定位置信度預(yù)測的二階段目標(biāo)檢測方法
硼鋁復(fù)合材料硼含量置信度臨界安全分析研究
基于大數(shù)據(jù)量的初至層析成像算法優(yōu)化
高刷新率不容易顯示器需求與接口標(biāo)準(zhǔn)帶寬
寬帶信號采集與大數(shù)據(jù)量傳輸系統(tǒng)設(shè)計與研究
基于矩陣相乘的Apriori改進算法
不確定數(shù)據(jù)的約束頻繁閉項集挖掘算法
正負(fù)關(guān)聯(lián)規(guī)則兩級置信度閾值設(shè)置方法
固定資產(chǎn)管理系統(tǒng)對物流管理的促進和發(fā)展