田 兵
(包頭師范學(xué)院《陰山學(xué)刊》編輯部,內(nèi)蒙古包頭 014030)
系統(tǒng)聚類法及其應(yīng)用研究*
田 兵
(包頭師范學(xué)院《陰山學(xué)刊》編輯部,內(nèi)蒙古包頭 014030)
本文介紹了系統(tǒng)聚類法的基本思想和常用方法以及優(yōu)缺點(diǎn),然后舉例說明了其在具體問題中的應(yīng)用。
聚類分析;系統(tǒng)聚類法;最短距離法、最長距離法、中間距離法、類平均法、重心法、離差平方和法
聚類分析是將樣本進(jìn)行分類的一種統(tǒng)計(jì)方法。它是根據(jù)樣本數(shù)據(jù)計(jì)算樣本之間的距離(相似程度),將距離較近的樣本歸為同一類,不同類別的樣本距離相對較遠(yuǎn)。聚類分析的內(nèi)容包含十分廣泛,有系統(tǒng)聚類法、動(dòng)態(tài)聚類法、分裂法、最優(yōu)分割法、模糊聚類法、圖論聚類法、聚類預(yù)報(bào)等多種方法。
系統(tǒng)聚類法也稱層次聚類,是聚類分析許多方法中用的最多的一種,其基本思想是:開始將n個(gè)樣本各自作為一類,并規(guī)定樣本之間的距離和類與類之間的距離,然后將距離最近的兩類合并成一個(gè)新類,計(jì)算新類與其他類的距離;重復(fù)進(jìn)行兩個(gè)最近類的合并,每次減少一類,直至所有的樣本合并為一類。根據(jù)所定義的類與類的距離,系統(tǒng)聚類法可以分為最短距離法、最長距離法、中間距離法、類平均法、重心法、離差平方和法。
定義類與類之間的距離為兩類最近樣本間的距離,即
稱這種系統(tǒng)聚類法為最短距離法。其中用dij.表示第i個(gè)樣本與第j個(gè)樣本的距離,G1,G2,…表示類,DKL表示Gk與GL的距離。
當(dāng)某步驟類GK和GL合并為GM后,按最短距離法計(jì)算新類GM與其他類GJ的類間距離,其遞推公式為:
定義類與類之間的距離為兩類最遠(yuǎn)樣本間的距離,即
稱這種系統(tǒng)聚類法為最短距離法。
當(dāng)某步驟類GK和GL合并為GM后,則GM與任一類GJ的距離為:
DMJ=max{DKL,DLJ}.
定義類與類之間的距離取介于上述最短距離和最長距離的中間距離。設(shè)某一步將GK和GL合并為GM,對于任一類 GJ考慮由 DKL,DLJ,DKJ為邊長組成的三角形,取DKL邊的中線作為DMJ,由初等平面幾何可知,
稱這種系統(tǒng)聚類法為中間距離法。
類平均法有兩種定義,一種定義方法是把類與類之間的距離定義為所有樣本對之間的平均距離,即定義GK和GL之間的距離為
其中nK和nL分別為GK和GL的樣本個(gè)數(shù),dij為GK中樣本i與GL中樣本j之間的距離。它的遞推公式為:
另一種定義方法是定義類與類之間的平方距離為樣本對之間平方距離的平均值,即
它的遞推公式為
類平均法較充分的利用了所有樣本之間的信息,在很多情況下,它被認(rèn)為是一種較好的系統(tǒng)聚類法。
類與類之間的距離定義為它們的重心之間的Euclid距離。設(shè)GK和GL的重心分別為ˉxK和ˉxL,則GK和GL之間的平方距離為
這種系統(tǒng)聚類方法稱為重心法。它的遞推公式為
重心法在處理異常值方面比其他系統(tǒng)類法更穩(wěn)健,但是在別的方面一般不如類平均法或離差平方和法的效果好。
離差平方和法是基于方差分析思想,如果類分得正確,則同類樣本之間的離差平方和應(yīng)當(dāng)較小,不同類樣本之間的離差平方和應(yīng)當(dāng)較大。
設(shè)類GK和GL合并為新的類GM,則GK、GL和GM的離差平方和分別是
這種系統(tǒng)聚類法稱為離差平方和法。它的遞推公式為
GK和GL之間的平方距離也可以寫成
可見,這個(gè)距離公式與重心法的距離公式只相差一個(gè)常數(shù)。重心法的類間距與兩類的樣本數(shù)無關(guān),而離差平方和法的類間距與兩類的樣本數(shù)有較大的關(guān)系,兩個(gè)大類傾向于有較大的距離,因而不宜合并。這更符合聚類的實(shí)際要求。離差平方和法在許多場合下優(yōu)于重心法,是一種比較好的系統(tǒng)聚類法,但它對異常值很敏感。
選用2010年全國各省(自治區(qū)、直轄市)的預(yù)期壽命指數(shù)、教育指數(shù)、人類生產(chǎn)總值指數(shù)為樣本數(shù)據(jù)(見表1)。對表1進(jìn)行系統(tǒng)聚類分析:按照最短距離法、最長距離法、中間距離法、類平均法、重心法、離差平方和法將樣本數(shù)據(jù)分為5類,得出每種分類法下的分類結(jié)果。我們通過R軟件編寫程序,可以得到具體的分 類情況。最短距離法:
表1:樣本數(shù)據(jù)
圖1:最短距離法下的分類情況
最長距離法:
圖2:最長距離法下的分類情況
中間距離法:
圖3:中間距離法下的分類情況
類平均法
圖4:類平均法下的分類情況
重心法:
離差平方和法:
圖6:離差平方和法下的分類情況
比較上述六種不同系統(tǒng)聚類方法下的分布情況, 可以得到表2。
表2:不同聚類方法結(jié)果的比較
從表2可以看出應(yīng)用最短距離法和中間距離法的分類結(jié)果是一樣的,應(yīng)用類平均和重心法的分類結(jié)果是一樣的。六種分類法都將天津、北京、上海歸為一類。從表1中可以看出,澳門和香港的數(shù)據(jù)較接近,所以澳門和香港應(yīng)歸為一類。故最長距離法、類平均法、重心法和離差平方和法的分類質(zhì)量較高。
系統(tǒng)聚類方法的優(yōu)點(diǎn)是操作簡單,能細(xì)致地看出小類聚為大類的過程,由合并時(shí)的距離水平可以看出樣品間的親疏程度。但是它的缺點(diǎn)也顯而易見。一旦一組對象合并時(shí),下一步將在新生成的類上進(jìn)行。已做的處理不能被撤消,類之間不能交換對象。如果在某一步?jīng)]有很好地選擇合并的話,將會(huì)造成低質(zhì)量的聚類結(jié)果。因?yàn)楹喜⒒蚍至训臎Q定需要檢查和估算大量的對象或類。需計(jì)算大量的距離,需要花費(fèi)大量的時(shí)間,所以算法不具有很好的可伸縮性。上述的每種聚類方法都有其缺陷。例如,最短距離法容易受鏈?zhǔn)浇Y(jié)構(gòu)的影響,從而導(dǎo)致蔓延較長的類。類平均連接方法、最長距離法則傾向于集中在內(nèi)部集合上形成同種的緊密類(通常為球形)。重心聚類和中間距離聚類方法有可能導(dǎo)致逆增(當(dāng)聚類規(guī)模增大時(shí),對象與聚類之間的相異度反而減?。?,這就使得譜系圖難以解釋。
[1]趙東方.數(shù)學(xué)模型與計(jì)算[M].北京:科學(xué)出版社,2007,2.
[2]劉順忠.數(shù)理統(tǒng)計(jì)理論、方法、應(yīng)用和軟件計(jì)算[M].武漢:華中科技大學(xué),2005,9.
[3]薛 毅.陳立萍.統(tǒng)計(jì)建模與R軟件[M].北京:清華大學(xué)出版社,2007.
[4]王芳.傳統(tǒng)聚類方法的分析及改進(jìn)[D]長沙:中南大學(xué),2007.
[5]楊小兵.聚類分析中若干關(guān)鍵技術(shù)的研究[D].杭州:浙江大學(xué),2005.
[6]戴濤.聚類分析算法研究[D].清華大學(xué)2005.
[7]張惟皎,劉春煌,李芳玉.聚類質(zhì)量的評價(jià)方法[J].計(jì)算機(jī)工程,2005(20).
Hierarchical Clustering Method and Its Research about Application
TIAN Bing
(Editor of Academic Journal,Baotou Teachers College;Baotou 014030)
The article introduces the basic thought of hierarchical clustering method,common method and strengths and weaknesses.Then its application of specific problems is elucidated.
cluster analysis;hierarchical clustering method;single linkage method;complete linkage method;median method;average linkage method;centroid hierarchical method;ward’s minimum variance method
O213
A
1004-1869(2014)02-0011-06
10.13388/j.cnki.ysajs.2014.02.003
2014-04-12
田兵(1982-),男,山西五臺(tái)人,編輯,理學(xué)碩士,研究方向:數(shù)理統(tǒng)計(jì)。