韋麗紅 陳 松
(呼倫貝爾學(xué)院計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院 內(nèi)蒙古海拉爾 021008;
呼倫貝爾市人力資源和社會(huì)保障局 內(nèi)蒙古海拉爾 021008)
數(shù)據(jù)挖掘技術(shù)與關(guān)聯(lián)規(guī)則挖掘算法研究
韋麗紅 陳 松
(呼倫貝爾學(xué)院計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院 內(nèi)蒙古海拉爾 021008;
呼倫貝爾市人力資源和社會(huì)保障局 內(nèi)蒙古海拉爾 021008)
探討數(shù)據(jù)挖掘在現(xiàn)今關(guān)聯(lián)規(guī)則算法中的使用情況,提出目前研究關(guān)聯(lián)規(guī)則的研究現(xiàn)狀,針對(duì)現(xiàn)狀,總結(jié)出一種新的研究分析關(guān)聯(lián)方法,指出關(guān)聯(lián)規(guī)則算法在今后的出路以及進(jìn)一步的研究方向。利用分析文獻(xiàn)查詢和比較分析方法,闡述各種方法對(duì)典型關(guān)聯(lián)的影響,其中作為一個(gè)為基點(diǎn)是以核心Apriori的算法。結(jié)論是Apriori算法仍然有一些不能消除的缺點(diǎn),這有待進(jìn)一步研究,同時(shí)指出今后的研究方向需要提高大量數(shù)據(jù)的運(yùn)算效率,并且能夠與OLAP相互結(jié)合生產(chǎn)結(jié)果的可視化。
Apriori算法;研究;DM;技術(shù)
數(shù)據(jù)挖掘(DM)是在大量未知的、無(wú)規(guī)則的、偶然的現(xiàn)實(shí)數(shù)據(jù)當(dāng)中提煉出隱含的關(guān)聯(lián)信息或知識(shí),這就是關(guān)聯(lián)規(guī)則挖掘。關(guān)聯(lián)規(guī)則挖掘是在20世紀(jì)90年代提出來(lái)的[1],這個(gè)問(wèn)題提出了以后,很多研究人員和科學(xué)家對(duì)關(guān)聯(lián)規(guī)則問(wèn)題進(jìn)行了深入的研究,從不同思考問(wèn)題的角度提出了數(shù)十種關(guān)聯(lián)規(guī)則挖掘算法,Apriori是最著名的關(guān)聯(lián)規(guī)則算法,這個(gè)是由一個(gè)非常著名的美國(guó)統(tǒng)計(jì)學(xué)家提出的,Apriori算法影響了之后很多算法的建立。在很多科學(xué)家和研究人員的繼承和發(fā)揚(yáng)這個(gè)關(guān)聯(lián)規(guī)則算法之后,現(xiàn)今的關(guān)聯(lián)規(guī)則算法逐漸完善了以前的缺陷。
1.按照需要的數(shù)據(jù)變量進(jìn)行處理分類,關(guān)聯(lián)規(guī)則分為布爾型和數(shù)值型。布爾型[2]顯示數(shù)據(jù)變量之間的關(guān)系,它無(wú)法處理關(guān)聯(lián)規(guī)則中的連續(xù)的變量;而可以結(jié)合多維關(guān)聯(lián)的是數(shù)值型的關(guān)聯(lián)規(guī)則(或者多層關(guān)聯(lián)),然后對(duì)數(shù)值型的數(shù)據(jù)進(jìn)行處理,然后進(jìn)行動(dòng)態(tài)分析。
2.按照關(guān)聯(lián)規(guī)則中的抽象層次,可以分為單層關(guān)聯(lián)規(guī)則和多層關(guān)聯(lián)規(guī)則?,F(xiàn)實(shí)數(shù)據(jù)中單層關(guān)聯(lián)規(guī)則對(duì)所有的變量都不考慮這些單層因素;而多層關(guān)聯(lián)規(guī)則是會(huì)考慮現(xiàn)實(shí)數(shù)據(jù)中的多層因素,并且對(duì)多層進(jìn)行了充分的考慮。
3.按照規(guī)則中涉及多的數(shù)據(jù)維數(shù),可以分為單維關(guān)聯(lián)規(guī)則和多維關(guān)聯(lián)規(guī)則。如果數(shù)據(jù)只設(shè)計(jì)到一個(gè)維數(shù),那就屬于單維關(guān)聯(lián)規(guī)則,反之則屬于多維關(guān)聯(lián)規(guī)則。在單維關(guān)聯(lián)規(guī)則中,我們只處理單個(gè)屬性,關(guān)系明了簡(jiǎn)單。在多維關(guān)聯(lián)規(guī)則中則需要處理不同屬性之間的某些聯(lián)系,處理的關(guān)系較復(fù)雜。
在20世紀(jì)90年代,挖掘交易數(shù)據(jù)中集間的關(guān)聯(lián)規(guī)則問(wèn)題是由一位非常著名的明國(guó)科學(xué)家首選提出的[3],頻集理論的方法是當(dāng)時(shí)的核心推算方法,之后所有研究數(shù)據(jù)挖掘方面的研究人員和科學(xué)家都在頻集理論的方法上進(jìn)一步優(yōu)化。隨著時(shí)代變遷,隨機(jī)采樣、并行等理論引進(jìn)頻集理論,然后對(duì)關(guān)聯(lián)規(guī)則的應(yīng)用進(jìn)一步推廣。
經(jīng)典頻集方法的核心算法分為兩步:尋找頻集的規(guī)則屬于第一步,第二步的步驟如下。如一個(gè)給定的已知頻集X=T1T2…Tn,n≥2,只有集合{T1T2…Tn}中的項(xiàng)的所有規(guī)則(最多n條)就產(chǎn)生了,其中每一條規(guī)則的右部只有一項(xiàng)。為了使所有的頻集能夠產(chǎn)生,接下來(lái)就使用遞推的運(yùn)算方法進(jìn)行計(jì)算。
在經(jīng)典頻集方法中仍然有很多不足,所以后來(lái)的研究人員在經(jīng)典頻集的基礎(chǔ)上進(jìn)行了優(yōu)化,優(yōu)化是多方面的,主要在以下幾個(gè)方面進(jìn)行,如基于棧變換的算法;基于劃分的方法;減少冗余規(guī)則的算法;基于采樣的方法;基于Hash的方法等。在進(jìn)行一系列的優(yōu)化之后,經(jīng)典頻集方法得到完善和推廣應(yīng)用。
1.系統(tǒng)方面。“支持度-可信度”的結(jié)構(gòu)能夠適用于很多算法,但是這種框架有時(shí)候會(huì)產(chǎn)生錯(cuò)誤的信息。比如某些結(jié)果雖然更精確,但是支持度和可信度都較低。如果我們?cè)O(shè)置支持度和可信度的時(shí)候程度較低,這樣就可能得到兩個(gè)相互矛盾的結(jié)果。但是如果設(shè)置的過(guò)高,我們就無(wú)法得到準(zhǔn)確的關(guān)聯(lián)規(guī)則,不利于結(jié)果分析。所以,僅僅通過(guò)“支持度-可信度”這個(gè)準(zhǔn)則來(lái)判斷是不夠準(zhǔn)確的。從很多記錄看出,支持度是很多用戶信任的重要因素,如果把支持度設(shè)置足夠低,不會(huì)丟失任一有意義的結(jié)果,但是計(jì)算效率可能不是很高,從用戶觀點(diǎn)上,這是可行的規(guī)則。
2.用戶方面。一項(xiàng)規(guī)則有沒(méi)有用,很重要一點(diǎn)是否取得用戶的信任,用戶的體驗(yàn)感受是很重要的。當(dāng)用戶覺(jué)得有效和可行,這個(gè)規(guī)則才可以繼續(xù)存在和發(fā)展。所以在現(xiàn)實(shí)中,我們不僅考慮系統(tǒng)運(yùn)算的結(jié)果,同時(shí)也要結(jié)合用戶的需求。
關(guān)聯(lián)規(guī)則的各種方法在數(shù)據(jù)挖掘的運(yùn)用上已經(jīng)逐漸成熟,如今很多大型IT公司或者金融公司的很多大型項(xiàng)目已經(jīng)運(yùn)用了關(guān)聯(lián)規(guī)則中的某些研究成果,關(guān)聯(lián)規(guī)則算法的應(yīng)用前景可以說(shuō)是非常的廣泛。綜上所述,在關(guān)聯(lián)規(guī)則方面的數(shù)據(jù)挖掘,今后幾年可以在關(guān)聯(lián)規(guī)則相結(jié)合的問(wèn)題、提高處理大量數(shù)據(jù)效率問(wèn)題以及結(jié)果可視化方面進(jìn)行研究和突破。
[1]李銘.關(guān)聯(lián)規(guī)則的多支持度挖掘在銷售數(shù)據(jù)中的應(yīng)用[J].計(jì)算機(jī)工程,2012,29(8):92-93.
[2]李哲,楊兆中,龐炳章.大型數(shù)據(jù)庫(kù)中關(guān)聯(lián)規(guī)則的向量法挖掘[J].計(jì)算機(jī)工程,2010,32(5):47-49.
[3]惠曉濱,張鳳鳴,虞健飛.一種基于棧變換的高效關(guān)聯(lián)規(guī)則算法[J].計(jì)算機(jī)研究與發(fā)展,2011,40(2):30-35.
Data mining techniques and algorithms for mining association rules
Wei Li-hong, Chen Song
(Computer Science and Technology Institute, Hulunbeier University, Hailar Inner Mongolia, 021008, China;
Hulunbeier Human Resources and Social Security Bureau, Hailar Inner Mongolia,021008, China)
To explore the data used in the algorithm of association rules mining, proposes the research status, sums up a new research association analysis method according to the present situation, points out the algorithm of association rules in the future and further work. Using the analysis of literature search and comparative analysis method, to discuss the influence of various methods of typical connection, which serves as a basis for the Apriori algorithm. Conclusion still has some cannot eliminate the disadvantages of Apriori algorithm, which need further research, and points out the direction of future research to improve the computation efficiency of large amounts of data, can produce the visualization of results combined with OLAP.
Apriori algorithm; research; DM; technology
P413
A
1000-9795(2014)01-0498-01
[責(zé)任編輯:陳懷民]
2013-11-27
韋麗紅(1982-),女,黑龍江人,講師,從事語(yǔ)義web、文本挖掘、信息處理方向的研究。陳 松(1985-),男,內(nèi)蒙古人,助理工程師,從事計(jì)算機(jī)科學(xué)與技術(shù)方向的研究。