国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于大型數(shù)據(jù)集的聚類算法研究

2016-03-08 18:56:28杜淑穎
軟件 2016年1期
關(guān)鍵詞:精度效率

杜淑穎

摘要:就精確系數(shù)不算太嚴格的情況而言,針對各種大型數(shù)據(jù)集,通過對比各種聚類算法,提出了一種部分優(yōu)先聚類算法。然后在此基礎(chǔ)之上分析研究聚類成員的產(chǎn)生過程與聚類融合方式,通過設(shè)計共識函數(shù)并利用加權(quán)方式確定類中心,在部分優(yōu)先聚類算法的基礎(chǔ)上進行聚類融合,從而使算法的計算準度加以提升。通過不斷的實驗,我們可以感受到優(yōu)化之后算法的顯著優(yōu)勢,這不僅體現(xiàn)在其可靠性,同時在其穩(wěn)定性以及擴展性、魯棒性等方面都得到了很好的展現(xiàn)。

關(guān)鍵詞:部分優(yōu)先聚類算法;聚類融合;效率;精度

中圖分類號:TP393

文獻標識碼:A

DOI: 10.3969/j.issn.1003-6970.2016.01.030

0 引言

針對大型的數(shù)據(jù)來說,過去的聚類手段存在下面兩個關(guān)鍵的不足。首先就是其數(shù)據(jù)集不夠穩(wěn)定,與低維相比,高維的分布更加廣泛,這往往會出現(xiàn)數(shù)據(jù)之間等距的現(xiàn)象,通常而言,我們會按照距離來展開聚類工作,這樣意味著高維數(shù)據(jù)集的構(gòu)建難度進一步加大;其次,就高維數(shù)據(jù)集而言,其內(nèi)在的屬性往往沒有直接的聯(lián)系,所以基本上在所有維中存在類的概率為0。

1 部分優(yōu)先聚類算法(Partial PriorityAlgorithm PPA)

就引言中的問題展開研究,進而提出部分優(yōu)先算法,首先將第一類從原始數(shù)據(jù)中分離出來,刪除第一類數(shù)據(jù)后,再分離形成第二類,反復循環(huán)下去,我們會發(fā)現(xiàn)其計算速度非???,但是不滿足使用的準確度要求,這種算法十分適用于準確度要求不是十分嚴格的數(shù)據(jù)集的計算。針對其準確度不足的情況,我們結(jié)合使用了加權(quán)的方法來確定類中心,以此來提升其穩(wěn)定性與典型程度,這對于聚類的穩(wěn)定性、延伸性以及時效性都是十分有利的。

1.1 概念定義

1.r-鄰域:其中心是某一個數(shù)據(jù)點,半徑用小寫字母r表示。

2.典型樣本p:其定義就是如果樣本集A內(nèi)部數(shù)據(jù)的r-鄰域里存在有最基本的Minpts(密度閥值)個數(shù)據(jù),那么該樣本就叫做典型樣本。

3.典型點C:p中全部數(shù)據(jù)的平均值為典型點,

其中p中樣本的數(shù)量用|p|表示。

4.類中心:即樣本中全部數(shù)值的平均值。

1.2 部分優(yōu)先算法的設(shè)計案例

1.選擇某一個數(shù)據(jù)集,然后隨機抽取其中的一個樣本A,確定A典型與否。任取樣本中的某一個初始值,設(shè)置好固定的r與MinDts。然后以該點作為圓心,若Minpts的數(shù)值比r-鄰域內(nèi)的數(shù)據(jù)量小,那么就可以確定樣本A具有代表性;

2.如果A具有很好的代表性,即確定其典型性,那么我們可以利用公式(1)求解出C1,其中C1是樣本的典型點,也就是樣本的中心;

3.如果A不具有代表性,即不具典型性質(zhì),那么可以重新進行第一個環(huán)節(jié),一直到發(fā)現(xiàn)典型樣本為止;

4.樣本的中心聚類用C1表示,利用公式

求解出C1與樣本A中各對象的間距;

5.假如C1與指定對象xi兩者的間距沒有大于或等于,,那么我們將此對象合并進A內(nèi),反之,獲取C1和其他對象Xi+l兩兩之間的間距,完成A內(nèi)包含的全部對象。

該算法的流程圖見圖1:

1.3 PPA的優(yōu)勢

1.旨在有效加強典型范例和相應的典型點的計算速度,此算法放棄選取數(shù)據(jù)集全部內(nèi)容而是借助于隨機挑選的方式從而獲得典型樣本,與此同時典型點的分析過程僅出現(xiàn)1次。

2.旨在增強典型點的代表水平,增加r-鄰域中的數(shù)據(jù)密度,此計算方法制定典型樣本數(shù)值的平均數(shù)為典型點,另一方面此點也能夠被當作聚類中心。

3.旨在下調(diào)舊有數(shù)據(jù)集的繁瑣程度,此算法在完成1個類之后,會把此類的數(shù)值從舊有合集內(nèi)刪除以避免重復。

面對數(shù)值的排列PPA并不具備敏感性,這就會使PPA面向球形以及凸形集合時的分析速度更快。與此同時,PPA在樣本平均數(shù)值處獲得典型樣本,所以在處理異常數(shù)據(jù)情況上相對更為敏感,評估異常點相對更為準確。PPA于聚類環(huán)節(jié)精簡了舊有的合集,大幅度下調(diào)了舊有合集的繁瑣性,因此我們不難發(fā)現(xiàn)其于功效上具備較大優(yōu)勢。PPA的分析能力、輸入數(shù)據(jù)的敏感程度、面向異常數(shù)據(jù)的敏感程度、察覺聚類形狀等方面和K-means clustering algorithm、DBSCANclustering algorithm. COBWEB clustering algorithm_FCM clustering algorithm、單連接聚類算法、CLIQUEclustering algorithm. CUBE clustering algorithm等模型開展比對,得出的相關(guān)結(jié)論詳情見表1。

2 面向大型數(shù)據(jù)集的PPA的聚類融合

2.1 聚類融合基本思想

聚類融合(clustering ensemble,CE)旨在于消除單詞聚類(word clustering)的較大波動性,把合集映射為數(shù)據(jù)點的相似度隨之求出融合的劃分,面向合集的歸類途徑為借助于1種算法中的多項參數(shù)或是多項算法,聚類成員的產(chǎn)生詳情見圖2。

CE的核心理念:假定存在n項數(shù)據(jù)點x={X1,x2,…,xn},面向x開展H次聚類求出H項聚類,π={π1,π2,…,πn},在此之中πk(k=l,2,…,H)是第k次求解數(shù)據(jù)。假定存在共識函數(shù)r,詳情見圖3。

共識函數(shù)(consensus function,CF,也稱為一致性函數(shù))的定義標準為只要可以將需要聚類的所有聚類成員借助于其一標準完成融合過程,以共協(xié)矩陣(Co-association matrix)為例,相應的功能為評價數(shù)據(jù)內(nèi)部的關(guān)聯(lián)性,函數(shù)方程詳見(3):

聚類算法總次數(shù)H

接下來我們面向前面獲得的H項結(jié)果展開融合,求出所需的聚類結(jié)果π'。聚類融合的詳情情況見圖4。

2.2 聚類融合算法的設(shè)計

我們假設(shè)一數(shù)據(jù)合集X={X1,x2,…,xn},

xi={Xi1,xi2,…,xin},借助于PPA算法把它進行歸納,PPA算法的特征為所有劃分行為均會先出現(xiàn)第1個類,隨后采取融合的途徑得到所需的第1個類。第1次歸納總結(jié)一直到第r次歸納總結(jié)的第1個類為{C11,C12,…,C1r}, 相關(guān)的類中心則是{

},旨在確保所有劃分行為出現(xiàn)的第1個類存在差異,算法設(shè)計借助于改變數(shù)據(jù)的輸入順序從而達到目的。

融合方式定義為:借助于加權(quán)的方法從而求出第1類的類中心,此類中心的權(quán)重需要借助于此類中的全部數(shù)據(jù)量和每類數(shù)據(jù)量之和的比例而獲得。

為類C..所含的數(shù)據(jù)量,V1定義成所需的第1個類的類中心。隨著v1的求出,再確定空集T1,將V賦予Z作為類中心開始聚類,假設(shè)存在閥值r,利用PPA算法的第5環(huán)節(jié),求出的T1即是所需出現(xiàn)的第1個類。于所有劃分行為中把正包括的數(shù)值剔除,從而有效下調(diào)數(shù)據(jù)的繁瑣性。

按照上述步驟獲得剩余的k-l個類。由于Vi(i=l,2,…,k存在的典型性,所以出現(xiàn)T1,T2,…,Tk之后,余在舊有合集內(nèi)的數(shù)據(jù)接近于0,算法設(shè)計將余下數(shù)值平分成k份,再依次移到T1,T2,…,Tk中,函數(shù)(5)即是所有類中心的算法函數(shù),各類產(chǎn)生的詳情見圖5。

2.3 聚類融合算法的優(yōu)勢

1.旨在讓類中心的代表水平以及相應的典型程度更為突出,分析歸類更為精確,類中心借助于加權(quán)的方法從而實現(xiàn)此目的,借助于公式(5)獲得所有類中心。

2.旨在增加計算性能,采用的類中心讓原有數(shù)據(jù)集的內(nèi)容極限精簡。

3.旨在下調(diào)數(shù)據(jù)集的復雜程度,于歸類期間把已完成分類的部分從原有數(shù)據(jù)集內(nèi)剔除。

3 算法測試結(jié)果分析

采取9組從UCI Machine Learning Repo sitory合集中獲得的數(shù)據(jù)(Size<2*104),各為Fertility,CarEvaluation, Abalon. Artificial Characters. ISOLET,Callt2 Building People Counts (CBPC). Gas SensorArray Drift Dataset (GSADD), p53 Mutants, LetterRecognition詳細參數(shù)見表2,為驗證算法是否具有穩(wěn)定性,同時測試其可行性,面向表2囊括的9組合集分別開展5次PPA以及基于PPA的聚類融合算法,求解獲得平均時間值、精度值和方差值。

按照表3以及圖6中的內(nèi)容,我們不難發(fā)現(xiàn)PPA算法和基于PPA的聚類融合(EPPA)算法相比較,PPA的運算效率更高一些,然而于精度層面開展比較,則是EPPA更勝一籌。按照獲得的實驗結(jié)果中的方差開展對比,我們發(fā)現(xiàn)PPA的魯棒性更勝一籌。按照表4以及圖7中的內(nèi)容,我們能夠得出結(jié)論:EPPA于處理大型數(shù)據(jù)過程中的抗外界干擾能力和其可靠性均具有顯著強勢。

根據(jù)獲得的實驗結(jié)果我們發(fā)現(xiàn)PPA以及EPPA容易受處理的數(shù)據(jù)量的多少以及維數(shù)大小的作用,于17,000數(shù)據(jù)處出現(xiàn)轉(zhuǎn)折情況,與此之前要更平穩(wěn),之后就出現(xiàn)時間增加過快的現(xiàn)象。于精度層次上考慮,數(shù)據(jù)集超過6,000的情況下EPPA開始穩(wěn)定,能夠得出結(jié)論:EPPA的穩(wěn)定性和可靠程度較高,面向未知數(shù)據(jù)集的計算上存在著巨大的潛力。

4 結(jié)論

本研究將常見的聚類算法開展一定程度上的優(yōu)化,得到部分優(yōu)先聚類算法,增強了算法的處理能力,提高其效率,然而于精度層次上考量,其可靠性仍然有待于后續(xù)優(yōu)化,本研究于部分優(yōu)先聚類算法的基礎(chǔ)上開展了聚類融合,避免了此算法缺乏精度的缺點,增強其算法精度,使其于可擴展程度、魯棒性、可靠程度等方面均有著傳統(tǒng)聚類算法無法匹敵的優(yōu)勢,對于大型數(shù)據(jù)集的計算具有舉足輕重的作用。

猜你喜歡
精度效率
提升朗讀教學效率的幾點思考
甘肅教育(2020年14期)2020-09-11 07:57:42
注意實驗拓展,提高復習效率
超高精度計時器——原子鐘
分析誤差提精度
基于DSPIC33F微處理器的采集精度的提高
電子制作(2018年11期)2018-08-04 03:25:38
效率的價值
商周刊(2017年9期)2017-08-22 02:57:49
GPS/GLONASS/BDS組合PPP精度分析
跟蹤導練(一)2
改進的Goldschmidt雙精度浮點除法器
“錢”、“事”脫節(jié)效率低
镇巴县| 阳朔县| 皋兰县| 即墨市| 合作市| 桐柏县| 湖州市| 宜川县| 女性| 漾濞| 合山市| 柳河县| 安康市| 台安县| 蒲江县| 康马县| 日喀则市| 灯塔市| 二连浩特市| 大港区| 东乌珠穆沁旗| 高台县| 陇川县| 汕尾市| 华安县| 瓦房店市| 凉城县| 西贡区| 和田市| 宁陵县| 甘德县| 双牌县| 临汾市| 凌云县| 通榆县| 永州市| 南岸区| 英吉沙县| 依安县| 怀宁县| 宜春市|