国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

聚類分析中類與類的特征

2015-05-30 20:01:53李曉云周菊玲李超群
關(guān)鍵詞:聚類分析

李曉云 周菊玲 李超群

【摘要】本文基于聚類分析在多元統(tǒng)計(jì)分析中的重要作用,介紹聚類分析的定義,并在聚類分析的基礎(chǔ)上詳細(xì)給出了類的幾個(gè)定義,并且討論了類的幾個(gè)特征及其內(nèi)在關(guān)系.并用圖解的方式及解析的方式導(dǎo)出類與類之間的距離,從而為進(jìn)一步的聚類分析做好基礎(chǔ).

【關(guān)鍵詞】聚類分析;類;類的特征;類間距離

一、引 言

聚類分析是研究如何將一組樣品(對象、指標(biāo)、屬性等) 進(jìn)行分類的方法.分類是人們深入認(rèn)識事物的一個(gè)重要方法.

本文將在聚類分析的基礎(chǔ)上詳細(xì)探討類和類的特征.

二、類和類的特征

1.類的定義

我們的目的是聚類,那么什么叫作類呢?由于客觀事物的千差萬別,在不同問題中類的含義是不盡相同的.因此,企圖給類下一個(gè)嚴(yán)格的定義,絕非一件易事.下面給出類的幾個(gè)定義,不同定義,適用于不同場合.

用G表示類,設(shè)G中有k個(gè)元素,這些元素用i,j表示:

定義1:T為一個(gè)給定的閾值,如果對于每一個(gè)i,j∈G,有dij≤T(dij為i和j的距離),則稱G為一個(gè)類.

定義2:對閾值T,如果對于每個(gè)i∈G,有1k-1∑j∈Gdij≤T,則稱G為一個(gè)類.

定義3:對閾值T,V,如果1k(k-1)∑i∈G∑j∈Gdij≤T,dij≤V,對一切i,j∈G,則稱G為一個(gè)類.

定義4:對閾值T,若對于任意一個(gè)i∈G,一定存在j∈G,使得dij≤T,則稱G為一個(gè)類.

由此可見,定義1的要求是最高的,凡屬于它的類,一定也是后三種定義的類.此外,凡符合定義2的類,也一定是定義3的類.

2.類的特征

現(xiàn)在,類G的元素用x1,…,xm表示,m為G內(nèi)的樣本數(shù)(或指標(biāo)數(shù)),可以從不同角度來刻畫G的特征,常用的特征有:

1.均值x-G(或稱為G的重心): x-G=1m∑mi=1xi

2.樣本散布陣及協(xié)方差陣:

SG=∑mi=1(xi-x-G)(xi-x-G)′,∑G=1n-1SG

3.G的直徑.此處給出兩種定義.

(a)DG=∑mi=1(xi-x-G)′(xi-x-G)=tr(SG)

證明:由定義知:SG=∑mi=1(xi-x-G)(xi-x-G)′,其中:

SG=∑(xi1-x-1)2∑(xi1-x-1)(xi2-x-2)…∑(xi1-x-1)(xip-x-p)

∑(xi2-x-2)(xi1-x-1)∑(xi2-x-2)2…∑(xi2-x-2)(xip-x-p)

…………

∑(xip-x-p)(xi1-x-1)∑(xip-x-p)(xi2-x-2)…∑(xip-x-p)2 ?又知,

(xi-x-G)′(xi-x-G)=(xi1-x-1)2+(xi2-x-2)2+…+(xip-x-p)2=tr(SG)

證畢.

此處,還將給出直徑的另一種定義:

(b)DG=maxi,j∈Gdij

3.類和類之間的距離

在聚類分析中,不僅要考慮各個(gè)類的特征,而且要計(jì)算類與類之間的距離.由于類的形狀是多種多樣的,所以,類與類之間的距離也有多種運(yùn)算方法.另Gp和Gq中分別有k個(gè)和m個(gè)樣品,它們的重心分別是x-p和x-q,它們之間的距離用D(p,q)表示.下列是幾種常見的定義:

(1)最短距離法.

DK(p,q)=mindjlj∈Gp,l∈Gq

它等于類Gp與類Gq中臨近的兩個(gè)樣品的距離,如圖所示:

類間距離示意圖 類群距離DK(p,q)=d23

(2)最長距離法.

DK(p,q)=maxdjlj∈Gp,l∈Gq

(3)類平均法.

DK(p,q)=1LK∑i∈Gp∑j∈Gqdij

它等于類Gp與類Gq中任兩個(gè)樣品的距離的平均,式中的和分別為類和類中的樣品數(shù).

(4)重心法.

Dc(p,q)=dx-px-q,它等于兩個(gè)重心x-p與x-q間的距離.

(5)離差平方和法.

若采用直徑的第一種定義方法,用Dp,Dq分別表示類Gp與類Gq的直徑,用Dp+q表示大類Gp+q的直徑,則有

Dp=∑i∈Gp(xi-x-p)′(xi-x-p),Dq=∑j∈Gp(xj-x-q)′(xj-x-q),

Dp+q=∑j∈Gp∪Gq(xj-x-)′(xj-x-),

其中x-=1k+l∑i∈Gp∪Gqxi.

用離差平方和法定義類Gp與類Gq之間的距離的平方為:D2w(p,q)=Dp+q-Dp-Dq,如果樣品間的距離采用歐氏距離,則有

Dp+q=klk+lD2c(p+q),以下將給出具體證明.

證明:由定義Dp+q=∑j∈Gp∪Gq(xj-x-)′(xj-x-) =Dp+∑j∈Gq(xj-x-p)′(xj-x-p)+2∑j∈Gp∪Gq(x-p-x-)′(xj-x-p)+(k+l)(x-p-x-)′(x-p-x-)

而:∑j∈Gq(xj-x-p)′(xj-x-p)=Dq+k(x-p-x-q)′(x-p-x-q)Dp+q=Dp+Dq+k(x-p-x-p)′(x-p-x-p)_k2k+l(x-p-x-p)′(x-p-x-p)

=Dp+Dq+klk+l(x-p-x-p)′(x-p-x-p)

又知:D2w(p,q)=Dp+q-Dp-Dq,如果樣品間的距離采用歐氏距離,則:D2w(p,q)=klk+lD2c(p,q) .

這說明,離差平方和法定義的距離與重心法定義的距離只相差一個(gè)常數(shù),而這個(gè)常數(shù)與兩類樣品的個(gè)數(shù)有關(guān).

結(jié)語:本文主要討論了類的四種定義及三個(gè)重要特征,并給出了五種類與類之間距離的計(jì)算方法,了解這些之后,可為后續(xù)經(jīng)典聚類分析和模糊聚類分析奠定基礎(chǔ).

【參考文獻(xiàn)】

[1]何曉群.多元統(tǒng)計(jì)分析[M].北京:中國人民大學(xué)出版社,2004.

[2]方開泰.實(shí)用多元統(tǒng)計(jì)分析[M].上海:華東師范大學(xué)出版社,1989.

[3]包研科.數(shù)據(jù)分析教程[M].北京:清華大學(xué)出版社,2011.

[4]莊恒揚(yáng).模糊聚類計(jì)算方法的理論分析[J].江蘇農(nóng)學(xué)院學(xué)報(bào),1998(19).

[5]何清.模糊聚類分析理論與應(yīng)用研究進(jìn)展[J].模糊系統(tǒng)與數(shù)學(xué),1998(2).

猜你喜歡
聚類分析
基于譜聚類算法的音頻聚類研究
基于Weka的江蘇13個(gè)地級市溫度聚類分析
我國中部地區(qū)農(nóng)村居民消費(fèi)行為階段特征分析
基于多元統(tǒng)計(jì)方法的高??蒲袪顩r評價(jià)分析
基于聚類分析的無須人工干預(yù)的中文碎紙片自動(dòng)拼接
淺析聚類分析在郫縣煙草卷煙營銷方面的應(yīng)用
基于聚類分析研究貴州省各地區(qū)經(jīng)濟(jì)發(fā)展綜合評價(jià)
商情(2016年39期)2016-11-21 08:45:54
新媒體用戶行為模式分析
農(nóng)村居民家庭人均生活消費(fèi)支出分析
基于省會(huì)城市經(jīng)濟(jì)發(fā)展程度的實(shí)證分析
中國市場(2016年33期)2016-10-18 12:16:58
肥西县| 健康| 襄汾县| 舒城县| 白城市| 金昌市| 崇左市| 衡东县| 图片| 信丰县| 宁夏| 赤壁市| 荣成市| 秦皇岛市| 加查县| 莎车县| 太仆寺旗| 阳曲县| 枣强县| 凌海市| 常熟市| 军事| 平塘县| 竹山县| 福建省| 怀柔区| 蓝山县| 巴彦淖尔市| 闽侯县| 民勤县| 桓台县| 达尔| 罗源县| 崇州市| 承德市| 麻城市| 江达县| 墨江| 杂多县| 陇川县| 邻水|