李曉云 周菊玲 李超群
【摘要】本文基于聚類分析在多元統(tǒng)計(jì)分析中的重要作用,介紹聚類分析的定義,并在聚類分析的基礎(chǔ)上詳細(xì)給出了類的幾個(gè)定義,并且討論了類的幾個(gè)特征及其內(nèi)在關(guān)系.并用圖解的方式及解析的方式導(dǎo)出類與類之間的距離,從而為進(jìn)一步的聚類分析做好基礎(chǔ).
【關(guān)鍵詞】聚類分析;類;類的特征;類間距離
一、引 言
聚類分析是研究如何將一組樣品(對象、指標(biāo)、屬性等) 進(jìn)行分類的方法.分類是人們深入認(rèn)識事物的一個(gè)重要方法.
本文將在聚類分析的基礎(chǔ)上詳細(xì)探討類和類的特征.
二、類和類的特征
1.類的定義
我們的目的是聚類,那么什么叫作類呢?由于客觀事物的千差萬別,在不同問題中類的含義是不盡相同的.因此,企圖給類下一個(gè)嚴(yán)格的定義,絕非一件易事.下面給出類的幾個(gè)定義,不同定義,適用于不同場合.
用G表示類,設(shè)G中有k個(gè)元素,這些元素用i,j表示:
定義1:T為一個(gè)給定的閾值,如果對于每一個(gè)i,j∈G,有dij≤T(dij為i和j的距離),則稱G為一個(gè)類.
定義2:對閾值T,如果對于每個(gè)i∈G,有1k-1∑j∈Gdij≤T,則稱G為一個(gè)類.
定義3:對閾值T,V,如果1k(k-1)∑i∈G∑j∈Gdij≤T,dij≤V,對一切i,j∈G,則稱G為一個(gè)類.
定義4:對閾值T,若對于任意一個(gè)i∈G,一定存在j∈G,使得dij≤T,則稱G為一個(gè)類.
由此可見,定義1的要求是最高的,凡屬于它的類,一定也是后三種定義的類.此外,凡符合定義2的類,也一定是定義3的類.
2.類的特征
現(xiàn)在,類G的元素用x1,…,xm表示,m為G內(nèi)的樣本數(shù)(或指標(biāo)數(shù)),可以從不同角度來刻畫G的特征,常用的特征有:
1.均值x-G(或稱為G的重心): x-G=1m∑mi=1xi
2.樣本散布陣及協(xié)方差陣:
SG=∑mi=1(xi-x-G)(xi-x-G)′,∑G=1n-1SG
3.G的直徑.此處給出兩種定義.
(a)DG=∑mi=1(xi-x-G)′(xi-x-G)=tr(SG)
證明:由定義知:SG=∑mi=1(xi-x-G)(xi-x-G)′,其中:
SG=∑(xi1-x-1)2∑(xi1-x-1)(xi2-x-2)…∑(xi1-x-1)(xip-x-p)
∑(xi2-x-2)(xi1-x-1)∑(xi2-x-2)2…∑(xi2-x-2)(xip-x-p)
…………
∑(xip-x-p)(xi1-x-1)∑(xip-x-p)(xi2-x-2)…∑(xip-x-p)2 ?又知,
(xi-x-G)′(xi-x-G)=(xi1-x-1)2+(xi2-x-2)2+…+(xip-x-p)2=tr(SG)
證畢.
此處,還將給出直徑的另一種定義:
(b)DG=maxi,j∈Gdij
3.類和類之間的距離
在聚類分析中,不僅要考慮各個(gè)類的特征,而且要計(jì)算類與類之間的距離.由于類的形狀是多種多樣的,所以,類與類之間的距離也有多種運(yùn)算方法.另Gp和Gq中分別有k個(gè)和m個(gè)樣品,它們的重心分別是x-p和x-q,它們之間的距離用D(p,q)表示.下列是幾種常見的定義:
(1)最短距離法.
DK(p,q)=mindjlj∈Gp,l∈Gq
它等于類Gp與類Gq中臨近的兩個(gè)樣品的距離,如圖所示:
類間距離示意圖 類群距離DK(p,q)=d23
(2)最長距離法.
DK(p,q)=maxdjlj∈Gp,l∈Gq
(3)類平均法.
DK(p,q)=1LK∑i∈Gp∑j∈Gqdij
它等于類Gp與類Gq中任兩個(gè)樣品的距離的平均,式中的和分別為類和類中的樣品數(shù).
(4)重心法.
Dc(p,q)=dx-px-q,它等于兩個(gè)重心x-p與x-q間的距離.
(5)離差平方和法.
若采用直徑的第一種定義方法,用Dp,Dq分別表示類Gp與類Gq的直徑,用Dp+q表示大類Gp+q的直徑,則有
Dp=∑i∈Gp(xi-x-p)′(xi-x-p),Dq=∑j∈Gp(xj-x-q)′(xj-x-q),
Dp+q=∑j∈Gp∪Gq(xj-x-)′(xj-x-),
其中x-=1k+l∑i∈Gp∪Gqxi.
用離差平方和法定義類Gp與類Gq之間的距離的平方為:D2w(p,q)=Dp+q-Dp-Dq,如果樣品間的距離采用歐氏距離,則有
Dp+q=klk+lD2c(p+q),以下將給出具體證明.
證明:由定義Dp+q=∑j∈Gp∪Gq(xj-x-)′(xj-x-) =Dp+∑j∈Gq(xj-x-p)′(xj-x-p)+2∑j∈Gp∪Gq(x-p-x-)′(xj-x-p)+(k+l)(x-p-x-)′(x-p-x-)
而:∑j∈Gq(xj-x-p)′(xj-x-p)=Dq+k(x-p-x-q)′(x-p-x-q)Dp+q=Dp+Dq+k(x-p-x-p)′(x-p-x-p)_k2k+l(x-p-x-p)′(x-p-x-p)
=Dp+Dq+klk+l(x-p-x-p)′(x-p-x-p)
又知:D2w(p,q)=Dp+q-Dp-Dq,如果樣品間的距離采用歐氏距離,則:D2w(p,q)=klk+lD2c(p,q) .
這說明,離差平方和法定義的距離與重心法定義的距離只相差一個(gè)常數(shù),而這個(gè)常數(shù)與兩類樣品的個(gè)數(shù)有關(guān).
結(jié)語:本文主要討論了類的四種定義及三個(gè)重要特征,并給出了五種類與類之間距離的計(jì)算方法,了解這些之后,可為后續(xù)經(jīng)典聚類分析和模糊聚類分析奠定基礎(chǔ).
【參考文獻(xiàn)】
[1]何曉群.多元統(tǒng)計(jì)分析[M].北京:中國人民大學(xué)出版社,2004.
[2]方開泰.實(shí)用多元統(tǒng)計(jì)分析[M].上海:華東師范大學(xué)出版社,1989.
[3]包研科.數(shù)據(jù)分析教程[M].北京:清華大學(xué)出版社,2011.
[4]莊恒揚(yáng).模糊聚類計(jì)算方法的理論分析[J].江蘇農(nóng)學(xué)院學(xué)報(bào),1998(19).
[5]何清.模糊聚類分析理論與應(yīng)用研究進(jìn)展[J].模糊系統(tǒng)與數(shù)學(xué),1998(2).