国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于JAVA的聚類分析實現(xiàn)

2013-04-29 14:29:59譚琳
電腦知識與技術(shù) 2013年8期
關(guān)鍵詞:清華大學出版社聚類對象

譚琳

摘要:由于聚類技術(shù)的不斷發(fā)展,近幾年運用范圍越來越大,在生物學上,營銷分析學上,在對Internet上的Web中文檔管理上都有很大的運用。但是這些跨領(lǐng)域,跨專業(yè)的運用需要一個公用平臺來實現(xiàn),這就是本篇文章提倡的基于Java來實現(xiàn)聚類分析。

關(guān)鍵詞:聚類技術(shù)、Java

中圖分類號:TP3 文獻標識碼:A 文章編號:1009-3044(2013)08-1894-06

1 研究背景

JAVA是一種跨平臺的語言,靈活性比較大,運用范圍廣,能運用到各種系統(tǒng)和領(lǐng)域中。聚類技術(shù)最近幾年越來越受到大家的追捧,聚類算法的應(yīng)用也得到了推廣,在生物學上,聚類能通過基因和蛋白質(zhì)的這兩類的分類或者聚類,對種群中固定結(jié)果的重新認識和分析,從而推導(dǎo)出不同的植物或者動物種類:在市場關(guān)系上,市場分析人員也可以通過聚類發(fā)現(xiàn)客戶數(shù)據(jù)中不同的客戶群體,對這些群體的不相同類的特征進行模式刻畫,從而能預(yù)測某客戶群體的購買類型。不僅如此,聚類也能對internet上的web中的文檔或者文件進行分類,而發(fā)現(xiàn)對人們有價值的知識,此外聚類還可以對其他方法進行預(yù)處理過程,對這些方法起輔助作用。

基于JAVA的聚類分析的實現(xiàn),給聚類技術(shù)的推廣起到推風助浪的作用,使得聚類技術(shù)能在更多的領(lǐng)域中拓寬。

2 聚類分析概念

聚類是運用數(shù)據(jù)對象之間的距離,并運用相關(guān)的聚類分析原則將對象逐一劃分到多個簇(clusters)中。每一個簇中中也包含了多個相同類屬對象,同一個簇鐘的對象之間的相似度要比不同簇的相似度大,最終的聚類能使得各簇種對象的相似度最小,這樣就達到聚類的目的了。這樣的聚類分析不僅可以對數(shù)據(jù)分析和知道的挖掘提供數(shù)據(jù)依據(jù),也可以解開事物數(shù)據(jù)之間的內(nèi)在聯(lián)系和區(qū)分,這使得聚類分析愛成為數(shù)據(jù)挖掘技術(shù)中不可缺少的成員。

3.2 層次聚類

層次聚類是根據(jù)凝聚或分裂的層次分解形式對數(shù)據(jù)對象集合進行層次分解。分裂的方法是自頂向下的方法,首先把所有的數(shù)據(jù)對象點歸為一類,然后以此分裂成更小的類,分裂到每個對象能夠單獨在一個類中為止。凝聚與分裂的方法相反,是一種自底向上的方法,“底”在這里指的是單個數(shù)據(jù)點,首先以單個數(shù)據(jù)點作為一個類,然后對相近的數(shù)據(jù)對象進行合并歸納成新的類,直到所有的數(shù)據(jù)對象合并成一個類為止,這個類在層次上面叫著的最上層,整個運作過程是自底向上的方式運作。常用的算法有利用層次方法的平衡迭代歸約和聚類—BIRCH。

3.3 基于密度的方法

基于密度的方法就是讓最近區(qū)域密度值達到一定的標準,也就是有一個具體的閥值即對象的個數(shù),還有就是該區(qū)域半徑值,以這些標準來對對象進行聚類。用這種方法的好處是避免了劃分方法中發(fā)現(xiàn)球狀簇的局限。例如基于高密度連接區(qū)域的密度聚類方法——DBSCAN。

3.4 基于網(wǎng)格的方法

基于網(wǎng)格的方法就是在網(wǎng)格接結(jié)構(gòu)的基礎(chǔ)上對數(shù)據(jù)進行聚類,我們將采用量化的方式把空間對象分成有限的數(shù)目單元,這樣就是對空間對象進行網(wǎng)格。這種算法有—CLIQUE算法。

3.5 基于模型的方法

基于模型的方式就是給定一個模型,根據(jù)模型的要求尋找最合適的對象的方法。在對象空間的密度數(shù)來構(gòu)建一個模型,通過統(tǒng)計數(shù)字自動來決定聚類的數(shù)目,從而去掉不需要的噪聲數(shù)據(jù),使得聚類的方法更有力。這種方法有COBWEB算法,網(wǎng)絡(luò)神經(jīng)方法有SOM算法。

3.6 基于約束的方法

對數(shù)據(jù)的個體對象進行約束,或者設(shè)置聚類參數(shù)來約束,來進行聚類的方法。因為在我們的客觀世界中聚類的問題存在很多的約束條件,但是這些條件都是很發(fā)雜的,往往不被有效的利用出來,從而不能對這方法進行進行廣泛的推廣和應(yīng)用。這種方法有COD (Clustering with Ob2structed Distance)。

第三步:計算每個聚類中所有對象的均值,得出新的聚類中心。

第四步:對新的聚類中心重復(fù)上面的第二和第三步,并得到新的聚類中心,直止新的聚類點不再更新。得出最終的聚類中心。

初值的好壞直接影響到K—Means算法的最后結(jié)果,也可以因為初值的問題導(dǎo)致聚類的結(jié)果有天差萬別,因此要改變K—Means算法的初值的取法,是K—Means算法的改進的關(guān)鍵。

中心點的選取不同直接影響到聚類結(jié)果不同,因此初始聚類中心的選擇在 K—Means算法中非常重要。實際應(yīng)用中,我們即希望中心點能夠盡量分散,也希望這些中心點具有一定的代表性,這也是我們聚類的目的。我們運用一種基于試探性的算法---最大最小距離算法可以對初始聚類中心的選擇做出相對較好判斷,它能相對智能地確定最佳的初始聚類的中心,可以提高劃分初始數(shù)據(jù)集的效率,避免過去K—Means算法中選取初始聚類過于鄰近,而導(dǎo)致聚類結(jié)果不佳的情況。

參考文獻:

[1] 朱福喜. Java程序設(shè)計技巧與開發(fā)實例[M].北京:人民郵電出版社,2004,2.

[2] 陸惠恩.實用軟件工程[M].北京:清華大學出版社,2006,5.

[3] (美)Bruce Eckel著,陳昊天譯.Java編程思想[M].北京:機械工業(yè)出版社,2007,6.

[4] 朱福喜,黃昊.Java項目開發(fā)與畢業(yè)設(shè)計指導(dǎo)[M].北京:清華大學出版社,2008,6.

[5] 鄭人杰,殷人昆.陶永雷.實用軟件工程[M].北京:清華大學出版社,2004,11.

猜你喜歡
清華大學出版社聚類對象
神秘來電
睿士(2023年2期)2023-03-02 02:01:09
清華大學出版社期刊中心
Desperate Love towards the Dark Lady in Shakespeare’s Sonnets
世界家苑(2018年4期)2018-05-21 08:56:20
攻略對象的心思好難猜
意林(2018年3期)2018-03-02 15:17:24
基于DBSACN聚類算法的XML文檔聚類
電子測試(2017年15期)2017-12-18 07:19:27
《秘書工作手記》
決策(2017年5期)2017-06-21 16:58:25
基于熵的快速掃描法的FNEA初始對象的生成方法
區(qū)間對象族的可鎮(zhèn)定性分析
基于改進的遺傳算法的模糊聚類算法
一種層次初始的聚類個數(shù)自適應(yīng)的聚類方法研究
大足县| 三河市| 玉田县| 苍山县| 柘荣县| 都兰县| 荣昌县| 奉贤区| 报价| 辉县市| 承德县| 田林县| 澄城县| 太原市| 句容市| 古田县| 永城市| 鹤壁市| 万宁市| 张家界市| 称多县| 青海省| 琼结县| 洪江市| 龙陵县| 江城| 浪卡子县| 越西县| 柘荣县| 长武县| 青冈县| 洛隆县| 新田县| 台湾省| 台山市| 北辰区| 渝中区| 新昌县| 信阳市| 钟山县| 措勤县|