陳柯伊
摘 要:數(shù)據(jù)挖掘技術(shù)已經(jīng)在企業(yè)決策中得到了廣泛的使用,這不僅能夠幫助企業(yè)管理人員進(jìn)行正確決策,也能夠提升企業(yè)的經(jīng)濟(jì)效益與社會效益。在數(shù)據(jù)挖掘技術(shù)中,聚類技術(shù)是其中的重要組成部分,應(yīng)用范圍也非常廣泛。聚類算法有著理想的可伸縮效果,在處理數(shù)據(jù)的時候,有著理想的優(yōu)勢與聚類質(zhì)量,該種分析方法是值得進(jìn)行大范圍推廣和使用的。本文主要分析數(shù)據(jù)挖掘中聚類分析的算法。
關(guān)鍵詞:數(shù)據(jù)挖掘;聚類分析;算法
數(shù)據(jù)挖掘即知識發(fā)現(xiàn)數(shù)據(jù)庫,該種方法強(qiáng)調(diào)從大量不完全卻含有噪聲的數(shù)據(jù)中提取出對人們有用的信息,到目前為止,數(shù)據(jù)挖掘技術(shù)已經(jīng)在企業(yè)決策中得到了廣泛的應(yīng)用,這不僅能夠幫助企業(yè)管理人員進(jìn)行正確決策,也能夠提升企業(yè)的經(jīng)濟(jì)效益與社會效益。在數(shù)據(jù)挖掘技術(shù)中,聚類技術(shù)是其中的重要組成部分,應(yīng)用范圍也更加廣泛。本文就針對數(shù)據(jù)挖掘中聚類分析的算法進(jìn)行深入的分析。
一、聚類的概念
聚類分析是一種描述數(shù)據(jù)關(guān)系與描述對象的相關(guān)信息,數(shù)據(jù)分析強(qiáng)調(diào)數(shù)據(jù)對象的分析。進(jìn)行聚類分析的根本目標(biāo)就是在龐雜的數(shù)據(jù)中找出有用的數(shù)據(jù),一般情況下,組內(nèi)對象相關(guān)性越來,聚類效果就會相對較差。目前,聚類分析藝術(shù)已經(jīng)成為一種重要的輔助性工具,開始在市場營銷、社會服務(wù)以及科學(xué)研究工作中得到了廣泛的應(yīng)用,聚類分析技術(shù)也成為現(xiàn)階段研究的重點與難點問題。
二、數(shù)據(jù)結(jié)構(gòu)與數(shù)據(jù)類型
1.數(shù)據(jù)矩陣
數(shù)據(jù)矩陣是由對象—屬性結(jié)構(gòu)構(gòu)成,這種矩陣包括n個對象。例如,要用幾個屬性來描述人,這些屬性包括體重、身高、出生日期幾個屬性,這能夠使用如下的矩陣列表進(jìn)行表示:
xll…xlf…xlpxil…xif…xipxnl…xnf…xip
2.相異度矩陣
相異度矩陣即對象—對象結(jié)構(gòu),在這個矩陣之中,有n個對象的差異,一般情況下,使用nXn來表達(dá)相異度矩陣:
0d(2,1)0d(3,1)d(3,2)0……d(n,1)d(n,2)……0
在具體的應(yīng)用工作中,數(shù)據(jù)挖掘任務(wù)的是各種復(fù)合數(shù)據(jù)與非數(shù)值型數(shù)據(jù),這些數(shù)據(jù)類型是多種多樣的,包括有序數(shù)據(jù)類型、標(biāo)稱型變量、布爾類型、分段數(shù)值變量、序數(shù)型、二元組合變量以及比例型變量等。
三、數(shù)據(jù)挖掘主要聚類算法分析
1.劃分方法
劃分方法即將包含n個數(shù)據(jù)數(shù)據(jù)集劃分成為m個小組,其中每個小組都屬于聚類,這些小組是需要滿足幾個要素的:一方面,分析包含的數(shù)據(jù)對象需要在一個以上;另一方面,每一個數(shù)據(jù)對象只能夠在一個分組中出現(xiàn),嚴(yán)禁出現(xiàn)在不同的分組中。為了提升計算結(jié)果的準(zhǔn)確性,可以采用反復(fù)迭代法進(jìn)行計算。在完成最后一步時,需要針對改進(jìn)分組方案進(jìn)行對比,在各個分組之中,數(shù)據(jù)對象越近,計算的準(zhǔn)確性就越高。在這種算法之中,k平均算法與k中心點算法的使用范圍最廣,在技術(shù)水平的發(fā)展之下,在這兩種算法基礎(chǔ)上又延伸出了集中新型計算方法。
2.層次方法
層次方法也是數(shù)據(jù)挖掘中聚類分析算法的重要類型,該種算法能夠?qū)?shù)據(jù)集進(jìn)行層次分解。層次方法主要有兩個類型,即從下而上凝聚的層次聚類與自上而下的分裂層次聚類,前者能夠?qū)?shù)據(jù)對象進(jìn)行單獨分組,再將其進(jìn)行合并處理。
3.基于密度分析法
在現(xiàn)階段下,非球形數(shù)據(jù)集巨變能夠采用基于距離的算法,但是,對于其余類型的巨變,是難以采用該種分析法進(jìn)行計算的。密度分析法能夠?qū)⒚芏染奂c相關(guān)區(qū)域進(jìn)行密切的連接,基于密度分析法不僅能夠發(fā)展不同形狀的簇,也能夠有效消除噪聲,這種密度算法有OPTICS、DBSCAN以及DENCLUE幾種類型。
4.基于模型分析法
基于模型分析法是能夠通過聚類設(shè)定模型的一種計算方法,該種算法建立在數(shù)據(jù)集基礎(chǔ)上,能夠?qū)σ恍?shù)據(jù)模型與給定數(shù)據(jù)的擬合實現(xiàn)優(yōu)化。基于模型分析法需要以數(shù)據(jù)概率建立假設(shè),常用的分析法有概念聚集分析法、神經(jīng)網(wǎng)絡(luò)分析法與EM分析法幾種類型。
5.基于網(wǎng)絡(luò)分析法
基于網(wǎng)絡(luò)分析法能夠?qū)⒘炕W(wǎng)絡(luò)空間實現(xiàn)聚類,有效優(yōu)化計算效果,同時,該種方法也難以檢測到邊界聚類,計算對象主要針對水平聚類與垂直聚類?;诰W(wǎng)絡(luò)分析法與數(shù)據(jù)集大小并無密切的關(guān)系,其計算復(fù)雜性主要由網(wǎng)格單元數(shù)目來決定,常用的聚類算法包括STING、WaveCluster以及CLIQUE幾種類型。
參考文獻(xiàn):
[1]胡建軍,唐常杰,李川,彭京,元昌安,陳安龍,蔣永光.基于最近鄰優(yōu)先的高效聚類算法[J].四川大學(xué)學(xué)報(工程科學(xué)版),2004(6).
[2]楊善林,李永森,胡笑旋,潘若愚. K-MEANS算法中的K值優(yōu)化問題研究[J].系統(tǒng)工程理論與實踐,2006(2).