基于矩陣的關(guān)聯(lián)規(guī)則挖掘算法研究

2014-09-18 16:36:59劉曉慧

電腦知識(shí)與技術(shù) 2014年23期

劉曉慧

摘要：該文研究了矩陣在數(shù)據(jù)庫(kù)關(guān)聯(lián)規(guī)則挖掘中的應(yīng)用，針對(duì)Apriori算法的缺陷及布爾型數(shù)據(jù)的特點(diǎn)，通過(guò)實(shí)例分析并闡述了矩陣的生成、利用矩陣運(yùn)算獲得頻繁項(xiàng)集及產(chǎn)生關(guān)聯(lián)規(guī)則的過(guò)程，并對(duì)挖掘過(guò)程中求最大頻繁項(xiàng)集的方法進(jìn)行了簡(jiǎn)要說(shuō)明。

關(guān)鍵詞：關(guān)聯(lián)規(guī)則；矩陣；權(quán)；閾值

中圖分類號(hào)：TP311 文獻(xiàn)標(biāo)識(shí)碼：A 文章編號(hào)：1009-3044（2014）23-5455-03

1 概述

Agrawal等人于1993年首次提出關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘之后，研究人員對(duì)挖掘方法進(jìn)行了大量研究，提出了多種算法，針對(duì)布爾型關(guān)聯(lián)規(guī)則的挖掘方法，目前主要有Apriori算法、FP-Tree頻集算法等，其中最有影響的是Apriori算法。在進(jìn)行數(shù)據(jù)挖掘時(shí)，Apriori算法需要多次掃描數(shù)據(jù)庫(kù)，因此數(shù)據(jù)量越大，生成的侯選集也就越龐大，既耗費(fèi)時(shí)間，也需要大量的存儲(chǔ)空間。針對(duì)算法中的不足，眾多學(xué)者提出了多種改進(jìn)方法，如頻繁閉項(xiàng)集算法、FP-Growth算法等。

對(duì)布爾型數(shù)據(jù)進(jìn)行關(guān)聯(lián)規(guī)則挖掘時(shí)，由于數(shù)據(jù)本身的特點(diǎn)，可以考慮將其映射到布爾矩陣，然后通過(guò)對(duì)布爾矩陣運(yùn)算得到頻繁項(xiàng)集，該方法只需掃描一遍數(shù)據(jù)庫(kù)，挖掘過(guò)程采取邏輯運(yùn)算，所需的空間較少，計(jì)算開(kāi)銷小。

2 基于矩陣的關(guān)聯(lián)規(guī)則挖掘方法

進(jìn)行數(shù)據(jù)映射時(shí)，事務(wù)數(shù)據(jù)庫(kù)的每個(gè)事務(wù)對(duì)應(yīng)矩陣中的一行，項(xiàng)目集中每個(gè)項(xiàng)目對(duì)應(yīng)矩陣一列，如果某個(gè)事務(wù)包含某個(gè)項(xiàng)目，則矩陣相應(yīng)元素值為1，否則為0。矩陣中元素[t0j]表示該列所對(duì)應(yīng)的項(xiàng)目在D中的支持?jǐn)?shù)，元素[ti0]為權(quán)值，表示該行在矩陣中重復(fù)出現(xiàn)的次數(shù)，如果矩陣中出現(xiàn)相同的行向量，則將其合并，權(quán)值相加。因此項(xiàng)目集中項(xiàng)目[Ij]在數(shù)據(jù)庫(kù)D中的支持度可由其支持?jǐn)?shù)與總事務(wù)數(shù)求得：

[support（Ij）=i=1ntijn] （2）

將矩陣中各項(xiàng)目對(duì)應(yīng)列根據(jù)該項(xiàng)目支持?jǐn)?shù)大小進(jìn)行降序排列，根據(jù)給定的最小支持度閾值min_sup，計(jì)算頻繁1-項(xiàng)集[L1]。利用矩陣中每個(gè)項(xiàng)目的支持?jǐn)?shù)[t0j]計(jì)算其支持度，將其與支持度閾值進(jìn)行比較，如果該項(xiàng)目支持度不小于支持度閾值，則該項(xiàng)目加入頻繁1-項(xiàng)集，否則將其刪除，由此得到[L1]。

將[L1]與[L1]進(jìn)行連接得到2-項(xiàng)候選項(xiàng)集[C2]，計(jì)算[C2]中每個(gè)候選項(xiàng)的支持?jǐn)?shù)可以通過(guò)計(jì)算[L1]對(duì)應(yīng)矩陣中兩個(gè)項(xiàng)目列向量的內(nèi)積得到，進(jìn)而可計(jì)算其支持度，同最小支持度進(jìn)行比較、剪枝得到頻繁2-項(xiàng)集[L2]。依此類推，直至得到頻繁K-項(xiàng)集[Lk]。具體操作如下：

對(duì)于矩陣中的每一個(gè)項(xiàng)目列[Ij]（j=1…m），其向量可表示為：[Rj=（t1j，t2j，...，tnj）]，則計(jì)算K-項(xiàng)集{[Ii，Ij...Ik]}（[k≥2]）的向量?jī)?nèi)積和支持度公式分別為：

上述方法中，將原始事務(wù)數(shù)據(jù)庫(kù)中的數(shù)據(jù)映射為矩陣后，通過(guò)運(yùn)算比較將所有頻繁1-項(xiàng)集和它們的支持?jǐn)?shù)保留下來(lái)，根據(jù)頻繁項(xiàng)集原理，如果一個(gè)項(xiàng)集是頻繁的，則它的所有子集一定也是頻繁的，即頻繁項(xiàng)集只能由頻繁1-項(xiàng)集通過(guò)操作得到，不可能包含1-項(xiàng)非頻繁項(xiàng)集，所以在矩陣中將非頻繁項(xiàng)集及其支持?jǐn)?shù)刪除，節(jié)省了存儲(chǔ)空間。在產(chǎn)生2-項(xiàng)候選集進(jìn)而得到頻繁2-項(xiàng)集及最后得到頻繁K-項(xiàng)集的挖掘過(guò)程中，對(duì)項(xiàng)目的支持度計(jì)算采用矩陣向量邏輯計(jì)算，減小了整個(gè)計(jì)算的開(kāi)銷。關(guān)聯(lián)規(guī)則挖掘的目的是找出數(shù)據(jù)之間的相互關(guān)系，以規(guī)則的形式給出這種聯(lián)系，而在挖掘的過(guò)程中，生成頻繁項(xiàng)集所需的計(jì)算開(kāi)銷遠(yuǎn)大于生成規(guī)則的計(jì)算開(kāi)銷，因此提高頻繁項(xiàng)集生成的效率，對(duì)于關(guān)聯(lián)規(guī)則挖掘來(lái)說(shuō)是最重要的。

3 挖掘過(guò)程

規(guī)則置信度大于最小置信度閾值，說(shuō)明所得規(guī)則有效。

該方法進(jìn)行數(shù)據(jù)挖掘時(shí)，同傳統(tǒng)的Apriori算法比較，只需掃描事務(wù)數(shù)據(jù)庫(kù)一次，得到布爾矩陣，之后事務(wù)數(shù)據(jù)庫(kù)不再使用，只針對(duì)矩陣進(jìn)行操作，挖掘過(guò)程中采用向量邏輯運(yùn)算，減小了存儲(chǔ)和運(yùn)算開(kāi)銷，提高了挖掘效率。

該方法在挖掘過(guò)程上仍然遵循了Apriori算法過(guò)程，即在挖掘過(guò)程中仍然會(huì)產(chǎn)生大量的候選項(xiàng)集，再對(duì)其進(jìn)行剪枝進(jìn)而生成頻繁項(xiàng)集。當(dāng)數(shù)據(jù)量較大時(shí)，該方法仍然存在不足。針對(duì)這一問(wèn)題，有學(xué)者對(duì)其進(jìn)行了改進(jìn)，具體過(guò)程是在將事務(wù)數(shù)據(jù)庫(kù)中的數(shù)據(jù)映射生成矩陣、并利用最小支持度閾值得到頻繁1-項(xiàng)集后，根據(jù)任何頻繁項(xiàng)集都是某一個(gè)最大頻繁項(xiàng)集的子集這一理論，將逐步挖掘頻繁項(xiàng)集的過(guò)程轉(zhuǎn)換為挖掘最大頻繁項(xiàng)集，進(jìn)而求得頻繁K-項(xiàng)集，具體方法如下：

1）掃描事務(wù)數(shù)據(jù)庫(kù)，生成矩陣，將矩陣列項(xiàng)目按其支持?jǐn)?shù)降序排序，去除小于最小支持度的列，合并相同的行向量并將權(quán)值相加。

2）計(jì)算得到頻繁1-項(xiàng)集。

3）計(jì)算得到最大頻繁項(xiàng)集。

4）計(jì)算得到頻繁K-項(xiàng)集。由頻繁1-項(xiàng)集產(chǎn)生候選2-項(xiàng)集，其中屬于最大頻繁項(xiàng)集子集的一定是頻繁的，其余候選項(xiàng)集根據(jù)公式（3）和（4）進(jìn)行判斷修剪，得到頻繁2-項(xiàng)集。同理，直至得到頻繁K-項(xiàng)集。

針對(duì)過(guò)程（3）挖掘最大頻繁項(xiàng)集，[3]通過(guò)頻繁模式樹(shù)FP-tree投影生成頻繁模式矩陣FP-array，針對(duì)FP-array上的項(xiàng)進(jìn)行矩陣操作，得到該項(xiàng)的條件FP-array，再通過(guò)挖掘條件FP-array得到以該項(xiàng)為最大項(xiàng)的最大頻繁項(xiàng)集集合。該方法也只需掃描一次數(shù)據(jù)庫(kù)，在計(jì)算過(guò)程中不需要重新開(kāi)辟內(nèi)存空間存儲(chǔ)新的關(guān)聯(lián)矩陣，而且挖掘過(guò)程中采用刪除行列的方法和邏輯運(yùn)算使步驟簡(jiǎn)化，提高了挖掘效率。

4 結(jié)束語(yǔ)

Apriori算法是挖掘布爾關(guān)聯(lián)規(guī)則頻繁項(xiàng)集的經(jīng)典算法，但由于該算法在挖掘過(guò)程中需要多次掃描數(shù)據(jù)庫(kù)并產(chǎn)生大量候選項(xiàng)集，因此需要大量的存儲(chǔ)空間和時(shí)間開(kāi)銷。由于布爾型數(shù)據(jù)本身的特點(diǎn)，可將其映射至布爾矩陣，只需一次掃描數(shù)據(jù)庫(kù)，之后的挖掘過(guò)程只針對(duì)矩陣操作，并且使用邏輯運(yùn)算，提高了挖掘效率。這種挖掘方法不僅可以應(yīng)用于布爾型數(shù)據(jù)，還可以擴(kuò)展到數(shù)值型數(shù)據(jù)，結(jié)合模糊理論，挖掘發(fā)現(xiàn)數(shù)據(jù)間的關(guān)聯(lián)規(guī)則，具有重要意義。

參考文獻(xiàn)：

[1] 杜玉蘭.基于模糊理論的關(guān)聯(lián)規(guī)則挖掘算法研究[D].保定：華北電力大學(xué)，2008.

[2] 劉聞超. 加權(quán)模糊關(guān)聯(lián)規(guī)則挖掘算法研究及應(yīng)用[D].鎮(zhèn)江：江蘇大學(xué)，2010.

[3] 馮潔，陶宏才.快速挖掘最大頻繁項(xiàng)集[J].微電子學(xué)與計(jì)算機(jī)，2007（5）：123-126.

[4] Han J，Pei J，Yin Y.Mining frequent patterns without candidate generation[C].In Proc.2000 ACM-SIGMOD Int.Conf.Management of Data，Dalas，TX，May 2000.

[5] 文拯.關(guān)聯(lián)規(guī)則算法的研[D].長(zhǎng)沙：中南大學(xué)，2009.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于矩陣的關(guān)聯(lián)規(guī)則挖掘算法研究