于娜
摘 要: 分類或分組是多元統(tǒng)計(jì)學(xué)習(xí)的一個(gè)重要內(nèi)容,聚類分析、判別分析、主成分分析及可視化分析都可以對(duì)變量或樣本進(jìn)行分類或者分組。每種分類方法不同,結(jié)果和解釋的出發(fā)點(diǎn)也不同,但各種分類方法之間又有著千絲萬(wàn)縷的關(guān)系。本文從區(qū)別和聯(lián)系的角度對(duì)這幾種方法作簡(jiǎn)要闡述,希望對(duì)學(xué)習(xí)數(shù)據(jù)的分類問(wèn)題有所幫助。
關(guān)鍵詞: 分類與分組 聚類分析 判別分析 主成分分析 可視化分析
在生物、經(jīng)濟(jì)、社會(huì)等領(lǐng)域的研究中,存在大量量化分類問(wèn)題。例如為了研究城鎮(zhèn)居民的消費(fèi)結(jié)構(gòu),需要將相關(guān)性強(qiáng)的指標(biāo)歸并到一起。在生物學(xué)中,為了研究生物的演變,生物學(xué)家需要根據(jù)生物的不同特征對(duì)生物進(jìn)行分類[1]。多元統(tǒng)計(jì)分析中可以將變量或樣本進(jìn)行分類的方法很多,如判別分析,聚類分析,主成分分析,可視化分析等。盡管這些分析方法都可以基于所測(cè)量的一些特征,給出好的分組方法,對(duì)相似的對(duì)象或變量進(jìn)行分組,但由于每種方法的原理不同,因此分組結(jié)果往往不同,從而解釋不同。
聚類分析是將樣品(或變量)進(jìn)行分類時(shí)常用的統(tǒng)計(jì)方法。按分類對(duì)象的不同,分為樣品聚類(型聚類)和變量聚類(型聚類)。樣品聚類是進(jìn)行判別分析前的必要工作。根據(jù)樣品聚類的結(jié)果作判別分析,得到判別函數(shù),進(jìn)而對(duì)新的樣本進(jìn)行歸類判別。變量聚類在尋找研究對(duì)象彼此獨(dú)立的有代表性變量上發(fā)揮著巨大的作用[2]。
聚類方式是用來(lái)歸類的某種規(guī)則,常用的聚類方式主要有系統(tǒng)聚類,K均值聚類,有序樣品的聚類等。在系統(tǒng)聚類中,樣品歸為某一類便不能改變,因此要求各步驟的分類必須準(zhǔn)確,分類方法恰當(dāng)。另外,系統(tǒng)聚類需要計(jì)算樣品(或變量)間的距離(或相似性)和類間距離,要保存“類間距離”矩陣,相應(yīng)計(jì)算量比較大,占用計(jì)算機(jī)內(nèi)存較多。但系統(tǒng)聚類可以對(duì)不同類數(shù)產(chǎn)生一系列的分類結(jié)果。K均值聚類是一種迭代計(jì)算方法,按要求先給出一種粗糙的分類,然后根據(jù)某種原則進(jìn)行迭代,樣品(或變量)可以在不同的類中有進(jìn)有出,直到分類比較合理為止。K均值聚類對(duì)計(jì)算機(jī)性能要求不高,聚類結(jié)果比較簡(jiǎn)單易懂,適用于事先明確分類數(shù)目及樣本量很大時(shí)的聚類分析;但K均值聚類只能產(chǎn)生指定類數(shù)的分類結(jié)果。鑒于系統(tǒng)聚類和K均值聚類的優(yōu)缺點(diǎn),在實(shí)際問(wèn)題中,往往從樣本中先選取少量數(shù)據(jù)進(jìn)行系統(tǒng)聚類,選取合適的類數(shù),然后采用K均值聚類的方法進(jìn)行聚類。若樣品的次序不可改變,則只可以采用有序樣品的聚類方法。
主成分分析是通過(guò)一組變量的幾個(gè)線性組合解釋原來(lái)變量絕大多數(shù)信息的一種統(tǒng)計(jì)方法。聚類分析不改變?cè)紨?shù)據(jù),只是根據(jù)樣本或變量之間的距離遠(yuǎn)近或者相似性進(jìn)行分類。不同于聚類分析,應(yīng)用主成分分析進(jìn)行分類,是將原始變量轉(zhuǎn)化為少數(shù)幾個(gè)變量,這些少數(shù)的變量(主成分)是原始變量的線性組合。以每個(gè)樣本的第一、第二主成分的值為變量進(jìn)行聚類,或以第一、第二主成分為坐標(biāo)軸,在平面上標(biāo)出每個(gè)樣本,根據(jù)圖示,按照距離的遠(yuǎn)近對(duì)樣本進(jìn)行分類。另外,還可以以變量的因子得分做點(diǎn)圖,得到變量的分類情況,從而加深對(duì)樣本分類含義的全面理解。
主成分分類與一般的聚類方法相比,具有明顯的優(yōu)越性:首先,主成分分類可以以點(diǎn)圖的方式將樣本分類結(jié)果形象直觀地呈現(xiàn)出來(lái),有利于對(duì)分類結(jié)果的理解,也有利于對(duì)類型的形成原因進(jìn)行探討。其次,可以借助主成分分類的中間成果對(duì)因子載荷矩陣進(jìn)行點(diǎn)圖分類,這樣不僅能得到變量的分類情況,還能加深對(duì)樣本分類含義的全面理解。
在多元統(tǒng)計(jì)分析中,一些可視化的分析可以從不同角度對(duì)樣本進(jìn)行分類。例如反映多個(gè)變量之間相關(guān)關(guān)系的矩陣散點(diǎn)圖。矩陣散點(diǎn)圖不僅可以在二維平面上同時(shí)反映多個(gè)變量數(shù)值,而且可以根據(jù)圖示。從某個(gè)變量的角度看,將樣本根據(jù)距離的遠(yuǎn)近進(jìn)行分類。依據(jù)矩陣散點(diǎn)圖的分類結(jié)果,可以與系統(tǒng)聚類中只考慮一個(gè)變量的分類情況進(jìn)行對(duì)比、分析。利用可視化分類分類結(jié)果形象、直觀。
在生產(chǎn)決策和日常生活中,經(jīng)常會(huì)遇到根據(jù)所觀測(cè)的樣本數(shù)據(jù)資料對(duì)所研究的對(duì)象進(jìn)行分類判別的問(wèn)題。例如某醫(yī)院有部分患有肝炎、糖尿病、冠心病等病人的資料,記錄了每個(gè)病人若干項(xiàng)癥狀指標(biāo)數(shù)據(jù)。對(duì)于一個(gè)新病人,當(dāng)測(cè)得這些指標(biāo)時(shí),如何利用現(xiàn)有的資料找出一種方法,判別患者患有哪種病。在市場(chǎng)預(yù)測(cè)中,根據(jù)以往調(diào)查所得的各項(xiàng)指標(biāo),如何判別下季度的產(chǎn)品是暢銷、平銷,還是滯銷。判別分析就是判斷所選樣品屬于哪一類型的一種多元統(tǒng)計(jì)方法。不同于聚類分析,主成分分類和可視化分類,事先并不知道類的數(shù)量和類別,判別分析是已知類的數(shù)量和類別,并且知道每個(gè)類的一些樣本的觀測(cè)數(shù)據(jù),在此基礎(chǔ)上,依據(jù)某種分類準(zhǔn)則建立分類判別式,并對(duì)新給出的樣本判別其的歸屬問(wèn)題。實(shí)際應(yīng)用中,判別分析和聚類分析往往是結(jié)合在一起使用的。當(dāng)判別分析的類別不清楚時(shí),可先用聚類分析等分類的方法對(duì)部分樣品進(jìn)行分類,然后用判別分析法建立適當(dāng)?shù)呐袆e準(zhǔn)則實(shí)現(xiàn)對(duì)新樣品的分類。
綜上,我們對(duì)聚類分析、判別分析、主成分分析及可視化分析等分類方法作了簡(jiǎn)要闡述。每種分類方法不同,結(jié)果和解釋的出發(fā)點(diǎn)也不同,但各種分類方法之間又有著千絲萬(wàn)縷的關(guān)系,希望對(duì)學(xué)習(xí)數(shù)據(jù)的分類問(wèn)題有所幫助。
參考文獻(xiàn):
[1]朱建平.應(yīng)用多元統(tǒng)計(jì)分析[M].北京:科學(xué)出版社.
[2]王力賓.多元統(tǒng)計(jì)分析[M].北京:經(jīng)濟(jì)科學(xué)出版社.
本文為上海電力學(xué)院課程建設(shè)項(xiàng)目(No.20121207)。