孫慧強(qiáng)沈陽市信息工程學(xué)校
數(shù)據(jù)挖掘中關(guān)聯(lián)規(guī)則算法的研究與應(yīng)用
孫慧強(qiáng)
沈陽市信息工程學(xué)校
隨著“互聯(lián)網(wǎng)+”技術(shù)的不斷發(fā)展,人們在大數(shù)據(jù)時代所產(chǎn)生的數(shù)據(jù)量也呈現(xiàn)出急速發(fā)展的趨勢,面對如此復(fù)雜的、海量的數(shù)據(jù),如何進(jìn)行有用信息和數(shù)據(jù)的提取成為重要的問題,數(shù)據(jù)挖掘便成為關(guān)鍵,而關(guān)聯(lián)規(guī)則則是數(shù)據(jù)挖掘中的重要組成部分,主要用于對數(shù)據(jù)集中項(xiàng)等之間聯(lián)系的發(fā)現(xiàn),對于從大數(shù)據(jù)中通過關(guān)聯(lián)規(guī)則來進(jìn)行挖掘已是最成熟且最活躍的研究方向之一。
數(shù)據(jù)挖掘 關(guān)聯(lián)規(guī)則 算法研究
1.1數(shù)據(jù)挖掘的涵義
數(shù)據(jù)挖掘是一門交叉學(xué)科,涵蓋了數(shù)據(jù)庫技術(shù)、統(tǒng)計學(xué)、可視化與信息科學(xué),同時,又是一種決策支持過程,從不同角度看具有不同含義,數(shù)據(jù)庫的觀點(diǎn)認(rèn)為數(shù)據(jù)挖掘就是從存儲在數(shù)據(jù)庫、數(shù)據(jù)倉庫或其它信息倉庫中的大量數(shù)據(jù)中發(fā)現(xiàn)有趣的知識的過程;統(tǒng)計學(xué)的觀點(diǎn)則認(rèn)為數(shù)據(jù)挖掘就是分析所觀察的數(shù)據(jù)集以發(fā)現(xiàn)可信的數(shù)據(jù)間的未知關(guān)系并提供給數(shù)據(jù)擁有者可理解的、新穎的和有用的歸納數(shù)據(jù)。
1.2數(shù)據(jù)挖掘的過程
(1)確定挖掘?qū)ο螅饕且逦x挖掘?qū)ο?,認(rèn)清挖掘目的,(2)數(shù)據(jù)準(zhǔn)備,這對于數(shù)據(jù)挖掘是至關(guān)重要的,如果單純的進(jìn)行數(shù)據(jù)挖掘會毫無意義,主要包括數(shù)據(jù)的選擇、預(yù)處理與轉(zhuǎn)換,(3)數(shù)據(jù)知識與信息,要確定挖掘的任務(wù)類型,且要選擇合適的挖掘技術(shù),根據(jù)算法進(jìn)行挖掘,(4)模式的解釋與評價,要過濾出有用知識,將無關(guān)的、多余的模式進(jìn)行過濾。
1.3數(shù)據(jù)挖掘的任務(wù)
數(shù)據(jù)挖掘就是要通過其解決實(shí)際問題需求,發(fā)現(xiàn)之間的相互關(guān)聯(lián),一般來說,數(shù)據(jù)挖掘的任務(wù)主要是:(1)數(shù)據(jù)總結(jié),對數(shù)據(jù)進(jìn)行濃縮給出緊湊描述,(2)分類,主要目的就是建立分類函數(shù)或模型,將數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行映射,(3)聚類,就是將個體相似的進(jìn)行分類,與同類縮小距離,不同類增大距離,(4)關(guān)聯(lián)規(guī)則,決定哪些事情是可以一起發(fā)生的。
2.1關(guān)聯(lián)規(guī)則的描述
在數(shù)據(jù)挖掘的模式中,關(guān)聯(lián)規(guī)則是最為活躍的分支,關(guān)聯(lián)規(guī)則要處理在數(shù)據(jù)集中的不同屬性之間的必然存在的某種隱藏的規(guī)律,這種規(guī)律既可能是群體法則,又可能是自然法則,而將這種隱藏規(guī)律通過數(shù)學(xué)的方式進(jìn)行挖掘,就是稱為規(guī)則。
2.2關(guān)聯(lián)規(guī)則的分類
一般研究的關(guān)聯(lián)規(guī)則是不帶約束的關(guān)聯(lián)規(guī)則,主要可以分為四類:即基于規(guī)則中處理的變涼的類別,關(guān)聯(lián)規(guī)則可以分為布爾型與數(shù)值型;基于規(guī)則中數(shù)據(jù)的抽象層次,可以分為單層關(guān)聯(lián)規(guī)則和多層關(guān)聯(lián)規(guī)則;基于規(guī)則中涉及到的數(shù)據(jù)的維數(shù),關(guān)聯(lián)規(guī)則可以分為單維的和多維的;基于關(guān)聯(lián)規(guī)則帶約束條件與否,可以分為不帶約束的關(guān)聯(lián)規(guī)則和約束性關(guān)聯(lián)規(guī)則。
3.1Apriori算法研究
對于數(shù)據(jù)挖掘關(guān)聯(lián)規(guī)則本質(zhì)就是要在頻繁集中去發(fā)現(xiàn)符合最小置信度的規(guī)則,要找出所有的頻繁集和所有的強(qiáng)關(guān)聯(lián)規(guī)則。對于Apriori算法的缺點(diǎn)就是需要對數(shù)據(jù)進(jìn)行多次掃描,使讀寫操作的時間增多,數(shù)據(jù)挖掘算法的時間成本就上升,而且會產(chǎn)生大量的候選頻率集,算法在廣度與深度上適應(yīng)性差。
3.2FT-tree 算法
這種算法就是對數(shù)據(jù)集進(jìn)行數(shù)據(jù)挖掘的時候首先對一顆頻繁模式樹進(jìn)行創(chuàng)建,將事物數(shù)據(jù)庫的數(shù)據(jù)與數(shù)據(jù)之間的關(guān)系進(jìn)行映射到頻繁模式樹,進(jìn)行遍歷最終獨(dú)處關(guān)聯(lián)規(guī)則,F(xiàn)T-tree 算法的優(yōu)點(diǎn)是可以將這些事務(wù)數(shù)據(jù)庫中的數(shù)據(jù)一一對應(yīng)共同構(gòu)造頻繁模式數(shù),對頻繁模式樹進(jìn)行遍歷可以對于數(shù)據(jù)庫多次的讀寫操作節(jié)省大量的時間,從而提高了效率。
3.3開源數(shù)據(jù)挖掘工具weka對算法驗(yàn)證
Weka作為一種開源的數(shù)據(jù)挖掘軟件工具,可以將多種主流的數(shù)據(jù)挖掘算法進(jìn)行整合,具有強(qiáng)大的功能,可以對數(shù)據(jù)進(jìn)行預(yù)處理、分類與聚類、關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘,且可以在新的交互式界面進(jìn)行可視化等。通過對Apriori算法和FP-tree算法進(jìn)行驗(yàn)證,可以看出兩種算法對大數(shù)據(jù)量進(jìn)行關(guān)聯(lián)規(guī)則挖掘會有明顯不同,也驗(yàn)證了Apriori算法對大量候選項(xiàng)集對此I/O操作花費(fèi)的長時間,F(xiàn)P-tree算法進(jìn)行關(guān)聯(lián)規(guī)則挖掘的時間基本穩(wěn)定。
3.4對關(guān)聯(lián)規(guī)則挖掘結(jié)果的創(chuàng)新思考
通過對兩種主流算法的實(shí)驗(yàn)和研究,看出兩種算法事實(shí)上只能對布爾型離散數(shù)據(jù)進(jìn)行關(guān)聯(lián)規(guī)則挖掘,挖掘的結(jié)果可能是一維也可能是多維,可以通過對一維關(guān)聯(lián)規(guī)則進(jìn)行創(chuàng)新,便可獲得更有意義的關(guān)聯(lián)規(guī)則結(jié)果,可以通過互相置信度,就是說當(dāng)在規(guī)則A B中,A、B都是兩個事務(wù)集合,則該條規(guī)則的互相置信度可以用confidence (A B) =confidence(A=>B)*confidence ( B=>A)表示,通過在Apriori算法增加對互相置信度的約束,就可以挖掘出如“A B”的規(guī)則,這樣就可以使結(jié)果更有意義。
總之,人類社會已經(jīng)隨著信息技術(shù)的發(fā)展進(jìn)入到了大數(shù)據(jù)的時代,數(shù)據(jù)挖掘可以幫助我們在海量的數(shù)據(jù)之中將與我們息息相關(guān)的信息進(jìn)行分析,而在對關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘理論的工作中,更是要對不同的算法進(jìn)行優(yōu)缺點(diǎn)的驗(yàn)證,并要結(jié)合數(shù)據(jù)挖掘的流程與并聯(lián)規(guī)則的相關(guān)理論,來獲得更加有意義的結(jié)果,使其在實(shí)際的運(yùn)用中可以發(fā)揮出更大的作用。
孫慧強(qiáng)(1965-)、男,漢族,遼寧省沈陽市人,學(xué)歷:本科;高級講師;研究方向:計算機(jī)教學(xué),工作單位:沈陽市信息工程學(xué)校。