關于數(shù)據(jù)挖掘技術與關聯(lián)規(guī)則挖掘算法的研究

2014-11-12 14:17:08郭濤門瑞

無線互聯(lián)科技 2014年10期

郭濤門瑞

摘要：隨著計算機技術和網絡通信技術的不斷發(fā)展，數(shù)據(jù)信息逐漸成為當前社會各行各業(yè)發(fā)展的關鍵。當今社會人們對計算機應用提出了更高要求，如今人們慢慢的意識到關系數(shù)據(jù)庫有很多缺點和限制，這種問題又推動了數(shù)據(jù)庫在更深領域上的研究。

關鍵詞：數(shù)據(jù)挖掘；關聯(lián)規(guī)則

1 數(shù)據(jù)挖掘技術

1.1 數(shù)據(jù)挖掘概念

從數(shù)據(jù)挖掘的本質上說它是一種具有更高商業(yè)價值的新型信息處理技術，數(shù)據(jù)挖掘技術的作用是對數(shù)據(jù)的應用來說的，其目的是使人們從低層次的聯(lián)機查詢過渡到對數(shù)據(jù)決策支持分析預測上，從而成為更高層次的應用。

1.2 數(shù)據(jù)挖掘技術分類

關于數(shù)據(jù)挖掘針對其挖掘的對象，大致的可以做出以下分類，具體分為時態(tài)數(shù)據(jù)庫、異質數(shù)據(jù)庫、文本數(shù)據(jù)源、關系數(shù)據(jù)庫面向對象數(shù)據(jù)庫（Object-Oriented Database）、空間數(shù)據(jù)庫、遺產數(shù)據(jù)庫、多媒體數(shù)據(jù)庫以及web等比較具有針對性的挖掘對象。針對數(shù)據(jù)挖掘的方法大致的可以歸納為：計算機學習法、數(shù)理統(tǒng)計法、信息聚類分析法、遺傳算法Genetic Algorithm、神經網絡Neural Network探索性分析法、不確定性推理和近似推理法、數(shù)據(jù)分析法、證據(jù)理論和元模式法、數(shù)據(jù)集成方法、當代數(shù)學分析法等。

1.3 數(shù)據(jù)挖掘應用分析

根據(jù)種種數(shù)據(jù)分析所表明的問題我們不難發(fā)現(xiàn)數(shù)據(jù)挖掘技術面向實際應用方面不是一時的，隨著時代的發(fā)展社會信息化進程不斷加劇各行業(yè)的業(yè)務操作也隨之逐漸向現(xiàn)代化流程轉變，這一轉變促使企業(yè)在處理業(yè)務時產生大量的業(yè)務信息數(shù)據(jù)。對于一般地企業(yè)內部的業(yè)務信息數(shù)據(jù)來說，其主要是由企業(yè)進行商業(yè)運作而產生的數(shù)據(jù)，這些數(shù)據(jù)的量一般比較少。這是都是企業(yè)為了獲得市場分析而進行收集的，關于此類的數(shù)據(jù)挖掘的應用終將成為企業(yè)進行高層次數(shù)據(jù)分析，為行政決策提供技術支持的骨干技術。

2 時態(tài)約束關聯(lián)規(guī)則挖掘問題及算法

2.1 聚焦挖掘任務，提高挖掘效率

數(shù)據(jù)挖掘理論最初的研究側重點是模型的建立以及算法的設計。隨著應用于不同的場合，得出的結果證明單純而又孤立的挖掘工具效果并不理想。傳統(tǒng)的數(shù)據(jù)挖掘項目中，會進行詳盡而反復的調研分析，并根據(jù)用戶的需求制定細致的任務計劃，最終的結果卻并不理想，不能得到想要的結果。在算法中，如果想要得到用戶的挖掘目標，除了算法之外，還需要有特定的實現(xiàn)機制，使得我們的挖掘計劃能夠轉變成對一個系統(tǒng)工作的控制，這樣才能使得挖掘項目能有期望的結果。這樣的約束，不需要局限于某一個挖掘數(shù)據(jù)的階段，在任何階段都可以實現(xiàn)。而這樣的算法機制，也是交互式數(shù)據(jù)挖掘算法的基本形式，通過這樣的過程，來達到更好以及快速地完成挖掘任務。

2.2 保證挖掘的精確性

從數(shù)據(jù)挖掘的算法也可以看出，結果具有不可預測性，而正因此，對于算法運行的過程中，遇到的問題也是難以把握的，所以算法還需要加上反饋機制，通過這樣的反饋，來進行驗證結果并修正算法中的數(shù)據(jù)，如果這個過程中，挖掘到的數(shù)據(jù)是正確的，但也未必是用戶所側重的，所以數(shù)據(jù)挖掘的結果不僅要具有邏輯上的正確性，還要能夠滿足用戶的主管偏好；也就是既要準確，還要可信且符合用戶需求。而約束就是這樣實現(xiàn)的，通過約束發(fā)現(xiàn)算法中的問題并及時校正算法，以最終能夠滿足各項需求。

3 數(shù)據(jù)分割下的挖掘問題及算法

對于理論基礎比較成熟的算法——Apriori算法，研究的側重點已經變?yōu)樾蕟栴}，人們也提出了各種的改進算法，本文選區(qū)幾種比較有代表性的加以介紹。

3.1 減少事務的個數(shù)

這樣的原理在于，當需要處理的事務不包含長度為k的大項集，那么也一定不包含長度為k+1的大項集。在算法處理的過程中，就可以將這樣的事務濾去，在下輪掃描過程中，就可以不需要那么多的事務集。

3.2 基于劃分的方法

這類算法的比較典型的是頻繁項目生成算法，該算法原理在于：把數(shù)據(jù)庫分解成邏輯上互不交叉的部分，而每次只需要單獨考慮一個分塊，在這樣的分塊中，研究怎樣能夠發(fā)掘頻繁項目集；而對于怎樣將數(shù)據(jù)進入存儲中，可以把需要處理的分塊放入計算機內存中，這樣有利于算法的并行處理，數(shù)據(jù)量相對于不分塊前減少，提高了數(shù)據(jù)挖掘的速度。

3.3 基于hash的方法

在上述的發(fā)現(xiàn)頻繁項目集的算法中，有人提出了改進算法，基于雜（hash）技術產生頻繁項目集。而這也是他們在實驗基礎上提出的，因為實驗中，他們發(fā)現(xiàn)頻繁項目集的產生過程中，計算量主要集中在2-頻繁項目集上，他們通過雜湊技術來對這個問題加以解決，把需要掃描的項目分發(fā)于不同的Hash桶，而對于每對項目來說，最多只可能在一個特定的桶內，然后通過實驗分析，可以有效地降低了候選集的產生。

3.4 基于采樣的方法

基于抽樣技術的產生頻繁項目集的算法的原理在于：通過對數(shù)據(jù)庫進行抽樣，產生一些可能成立的規(guī)則，然后通過數(shù)據(jù)庫的未被抽樣數(shù)據(jù)，進行檢驗，這些關聯(lián)規(guī)則是否是否有效。其實這個算法本身相對比較容易實現(xiàn)，并且能夠極大地減少數(shù)據(jù)挖掘過程中所付出的I/O代價，而不利的地方在于，抽樣數(shù)據(jù)的隨機性以及由此帶來的結果的偏差比較大。

3.5 盡量減少數(shù)據(jù)庫的掃面次數(shù)

早在1997年，Brin等一些研究人員就提出了一種用來減少數(shù)據(jù)庫掃面次數(shù)的算法，這種算法實際上就是通過下層分析方法來提前處理。換句話說，當我們正在運行k-項集時，如果發(fā)現(xiàn)（k+1）-項集有極大可能會是頻繁項目集，那么我們就直接將兩者進行并行運算，進而得出（k+1）-項集支持度。這樣的做法能夠在很多程度上降低數(shù)據(jù)庫掃描次數(shù)，從而在運行效率上要優(yōu)于Apriori算法。

4 結論

數(shù)據(jù)挖掘技術與關聯(lián)規(guī)則挖掘算法所包含的內容有很多，本文只是簡單介紹了其中較為重要的一部分。在今后的工作中，筆者將繼續(xù)致力于該領域的研究工作，以期能夠獲得更多有價值的研究成果。

[參考文獻]

[1]孟海東，李丹丹，吳鵬飛.基于數(shù)據(jù)場的量化關聯(lián)規(guī)則挖掘方法設計[J].計算機與現(xiàn)代化.2013，01：8-11.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

關于數(shù)據(jù)挖掘技術與關聯(lián)規(guī)則挖掘算法的研究