周冰 李飛 侯位昭 蘇攀
摘要:提出了一種基于簇過(guò)濾的優(yōu)勢(shì)集聚類(lèi)集成改進(jìn)方法,以成員簇表示節(jié)點(diǎn),采用相似性關(guān)系來(lái)表示成員簇之間的連接,從而構(gòu)成圖。與傳統(tǒng)的基于圖的集成技術(shù)不同,使用優(yōu)勢(shì)集搜索的方法找出其中的超簇,并在超簇上進(jìn)行聚合得到最終的聚類(lèi)集成結(jié)果。在UCI數(shù)據(jù)集上對(duì)模糊C均值聚類(lèi)算法進(jìn)行測(cè)試,結(jié)果表明,提出的基于簇過(guò)濾的優(yōu)勢(shì)集聚類(lèi)集成改進(jìn)方法比原始方法具有更高的精度。
關(guān)鍵詞:聚類(lèi)集成;簇過(guò)濾;優(yōu)勢(shì)集;模糊聚類(lèi)
中圖分類(lèi)號(hào):TN393文獻(xiàn)標(biāo)志碼:A文章編號(hào):1008-1739(2019)07-61-4
0引言
聚類(lèi)是實(shí)現(xiàn)從未標(biāo)記或標(biāo)記的數(shù)據(jù)集中提取隱藏結(jié)構(gòu)的一種方法。通常,聚類(lèi)的目的是將對(duì)象分配給各個(gè)簇,盡量使得同一簇中的對(duì)象彼此相似,并且與其他簇中對(duì)象不相似。文獻(xiàn)[1-2]已經(jīng)提出并應(yīng)用了許多聚類(lèi)算法解決實(shí)際應(yīng)用中的各種問(wèn)題。例如,聚類(lèi)算法可以應(yīng)用到系統(tǒng)的異常情況檢測(cè)中。在眾多聚類(lèi)技術(shù)中,聚類(lèi)集成技術(shù)在某些應(yīng)用中可以超越單一的聚類(lèi)方法[3]。類(lèi)似于分類(lèi)器集成[4]和特征選擇集成[5],聚類(lèi)集成將多個(gè)基礎(chǔ)聚類(lèi)成員的結(jié)果通過(guò)一致性函數(shù)處理,得到最終的聚類(lèi)集成結(jié)果。在聚類(lèi)集成的實(shí)現(xiàn)中通常有2個(gè)關(guān)鍵步驟:基礎(chǔ)聚類(lèi)成員的生成和一致性函數(shù)。已有工作中對(duì)一致性函數(shù)的研究較多,包括基于投票的方法、基于標(biāo)簽分配矩陣的方法、基于對(duì)象成對(duì)相似性的方法和基于圖的方法[6]等。基于優(yōu)勢(shì)集合的聚類(lèi)方法可以應(yīng)用到聚類(lèi)集成結(jié)果所構(gòu)成的圖上,從而得到基于優(yōu)勢(shì)集的超簇。因此,本文提出了基于簇過(guò)濾的優(yōu)勢(shì)集聚類(lèi)集成改進(jìn)方法,提出了一個(gè)定量檢測(cè)指標(biāo)并依此過(guò)濾掉表示能力較差的成員簇,避免其對(duì)優(yōu)勢(shì)集抽取過(guò)程的干擾。提出的方法在UCI數(shù)據(jù)集上進(jìn)行測(cè)試。測(cè)試結(jié)果表明,在準(zhǔn)確性方面,提出的基于簇過(guò)濾的優(yōu)勢(shì)集聚類(lèi)集成改進(jìn)方法比原始方法具有更高的精度。
1模糊聚類(lèi)集成
模糊聚類(lèi)已被成功應(yīng)用到實(shí)際問(wèn)題中[7-8]。不同于傳統(tǒng)的聚類(lèi),模糊聚類(lèi)允許一個(gè)對(duì)象依照隸屬度屬于不同的簇,克服在某些問(wèn)題中布爾邊界所帶來(lái)的不自然甚至違反直覺(jué)的聚類(lèi)結(jié)果。
綜上所述,提出的基于簇過(guò)濾的優(yōu)勢(shì)集模糊聚類(lèi)集成改進(jìn)方法步驟如下:①生成模糊聚類(lèi)集成成員;②使用模糊簇顯著度對(duì)每個(gè)聚類(lèi)成員中的模糊簇進(jìn)行篩選;③使用篩選后的模糊簇計(jì)算加權(quán)鄰接矩陣并抽取優(yōu)勢(shì)集得到超簇;④將超簇中的所有模糊簇通過(guò)聚合和規(guī)范化,得到最終的聚類(lèi)集成結(jié)果。
3實(shí)驗(yàn)結(jié)果
為了評(píng)估提出方法的性能,使用UCI公開(kāi)數(shù)據(jù)集對(duì)提出的方法和原方法[10]進(jìn)行對(duì)比實(shí)驗(yàn)。數(shù)據(jù)集中對(duì)象的真實(shí)標(biāo)簽是已知的,但未在聚類(lèi)過(guò)程中使用該標(biāo)簽,標(biāo)簽信息在測(cè)試聚類(lèi)結(jié)果時(shí)作為真實(shí)類(lèi)標(biāo)使用來(lái)評(píng)估所得結(jié)果的精度。為了仿真出聚類(lèi)成員中存在的聚類(lèi)信息不明確現(xiàn)象,在實(shí)驗(yàn)中將模糊均值聚類(lèi)的迭代次數(shù)設(shè)置為20。
模糊均值聚類(lèi)算法用于生成聚類(lèi)集成成員。成員的個(gè)數(shù)設(shè)置為每個(gè)數(shù)據(jù)集中的非標(biāo)簽屬性的個(gè)數(shù)。每個(gè)成員中的簇的數(shù)量設(shè)置為從2~15的整數(shù)。通過(guò)采用簇過(guò)濾技術(shù)和原始方法的結(jié)果進(jìn)行對(duì)比,將顯著度計(jì)算時(shí)的參數(shù)設(shè)置為0.02,0.04,0.06,0.08,0.10。模糊C均值和模仿者動(dòng)態(tài)都在每次運(yùn)行中隨機(jī)初始化,但同次集成結(jié)果對(duì)比在相同的聚類(lèi)成員結(jié)果下進(jìn)行。實(shí)驗(yàn)結(jié)果如圖2、圖3、圖4和圖5所示,圖中每個(gè)點(diǎn)為10次實(shí)驗(yàn)的平均。
如圖2所示,在wine數(shù)據(jù)集上大多數(shù)測(cè)試結(jié)果可以達(dá)到0.9的精度。隨著聚類(lèi)集成成員包含的簇的數(shù)量大于9時(shí),沒(méi)有簇過(guò)濾機(jī)制的原算法精度低于本文提出的方法。
如圖3所示,提出的方法的優(yōu)勢(shì)在parkinson數(shù)據(jù)集上更加明顯。在所有測(cè)試參數(shù)中,改進(jìn)后的方法所獲得的精度都不低于原算法。當(dāng)聚類(lèi)集成成員包含的簇的數(shù)量大于10時(shí),所有采用簇過(guò)濾機(jī)制的集成結(jié)果都要優(yōu)于原算法。
如圖4所示,當(dāng)顯著度計(jì)算時(shí)的參數(shù)設(shè)置為0.02,0.04時(shí)所提出的方法在diabetes數(shù)據(jù)集上獲得的結(jié)果要優(yōu)于原算法。當(dāng)設(shè)置為0.08,0.10時(shí)提出的方法結(jié)果要劣于原算法。主要原因是在仿真環(huán)境下可能由較多的簇由于迭代次數(shù)過(guò)低而導(dǎo)致樣例之間的隸屬度差異很小。因此,當(dāng)?shù)闹翟O(shè)置過(guò)高時(shí)有過(guò)多的簇被過(guò)濾,使得集成可用的簇?cái)?shù)量過(guò)少,從而導(dǎo)致聚類(lèi)集成精度的下降。
如圖5所示,在ionosphere數(shù)據(jù)集的精度隨著聚類(lèi)集成成員包含的簇的數(shù)量增大而減小。出現(xiàn)該現(xiàn)象的原因是在仿真時(shí)設(shè)置的迭代次數(shù)過(guò)低而導(dǎo)致聚類(lèi)成員結(jié)果沒(méi)有充分收斂。盡管如此,當(dāng)聚類(lèi)集成成員包含的簇的數(shù)量大于8時(shí),大多數(shù)采用簇過(guò)濾機(jī)制的集成結(jié)果都要優(yōu)于原算法。
通過(guò)對(duì)比實(shí)驗(yàn)結(jié)果可以看出,同樣條件下在測(cè)試的數(shù)據(jù)集中,采用了本文提出的基于簇過(guò)濾的改進(jìn)方法可以獲得比原始算法更高的精度。特別是隨著聚類(lèi)集成成員包含的簇的數(shù)量增大時(shí),引入過(guò)濾機(jī)制將有助于提高集成結(jié)果的精度。此外,當(dāng)?shù)闹翟O(shè)置過(guò)高時(shí),有過(guò)多的簇被刪除,因此會(huì)導(dǎo)致聚類(lèi)集成精度下降。在parkinson數(shù)據(jù)集中提出的改進(jìn)方法對(duì)精度的提高非常明顯。
4結(jié)束語(yǔ)
本文使用優(yōu)勢(shì)集搜索的方法在聚類(lèi)集成中找出成員簇中的超簇,并在超簇上進(jìn)行聚合得到最終的聚類(lèi)集成結(jié)果。由于在聚類(lèi)集成中某些成員簇對(duì)原始數(shù)據(jù)的聚類(lèi)結(jié)構(gòu)表示不準(zhǔn)確,因此提出了一個(gè)基于模糊隸屬度的定量檢測(cè)指標(biāo)并依此過(guò)濾掉表示能力較差的成員簇,避免其對(duì)聚類(lèi)結(jié)果的干擾。所提出的方法在UCI數(shù)據(jù)集上針對(duì)模糊C均值進(jìn)行測(cè)試。實(shí)驗(yàn)結(jié)果表明,所提出的基于簇過(guò)濾的優(yōu)勢(shì)集聚類(lèi)集成改進(jìn)方法比原始方法具有更高的精度。
未來(lái)的工作可以考慮將基于簇過(guò)濾的優(yōu)勢(shì)集模糊聚類(lèi)集成改進(jìn)方法應(yīng)用到實(shí)際應(yīng)用中檢驗(yàn)其效果。同時(shí)還可以考慮對(duì)參數(shù)的自動(dòng)取值方法進(jìn)行研究。
參考文獻(xiàn)
[1] Su P,Shang C,Chen T,et al.Exploiting Data Reliability and Fuzzy Clustering for Journal Ranking [J]. IEEE Transactions on Fuzzy Systems, 2017, 25(5):1306-1319.
[2] Li Z, Shang C, Shen Q. Fuzzy-clustering Embedded Regressionfor PredictingStudent Academic Performance [C]// In Fuzzy Systems (FUZZ-IEEE),2016 IEEE International Conference on IEEE,2016: 344-351.
[3] Yu Z,Zhu X,Wong H S,et al. Distribution-based Cluster Structure Selection [J]. IEEE Transactions on Cybernetics, 2017,47(11):3554-3567.
[4] Diao R,Chao F, Peng T,et al. Feature Selection Inspired Classifier Ensemble Reduction [J]. IEEE Transactions on Cybernetics,2014, 44(8): 1259-1268.
[5] Shen Q, Diao R, Su P. Feature Selection Ensemble[C]// In Proceedings of the Alan Turing Centenary Conference, 2012.
[6] Iam-On N,Boongoen T,Garrett S,et al. A link-based Approach to the Cluster Ensemble Problem [J]. Pattern Analysis and Machine Intelligence, IEEE Transactions on,2011,33(12): 2396-2409.
[7]楊秀媛,董征,唐寶,等.基于模糊聚類(lèi)分析的無(wú)功電壓控制分區(qū)[J].中國(guó)電機(jī)工程學(xué)報(bào),2006, 26(22):6-10.
[8]李培強(qiáng),李欣然,陳輝華,等.基于模糊聚類(lèi)的電力負(fù)荷特性的分類(lèi)與綜合[J].中國(guó)電機(jī)工程學(xué)報(bào),2005, 25(24):73-78.
[9] Pavan M,Pelillo M.Dominant Sets and Pairwise Clustering [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2007, 29(1): 167-172.
[10] Su P,Chen T,Xu W, et al.Dominant-set-based Consensus for Fuzzy C-Means Clustering Ensemble [C]// In 2018 International Conference on Machine Learning and Cybernetics (ICMLC), 2018: 85-90.