加權(quán)主成分距離聚類分析方法的有效性

2018-07-19 11:19黨宏鵬

東北電力大學(xué)學(xué)報 2018年4期

韓玉，黨宏鵬，朱猛

(東北電力大學(xué) 理學(xué)院，吉林吉林 132012)

隨著現(xiàn)代數(shù)據(jù)存儲技術(shù)的發(fā)展，海量數(shù)據(jù)庫的內(nèi)在規(guī)律愈加復(fù)雜難辨.在對海量數(shù)據(jù)進行分類挖掘時，傳統(tǒng)的聚類方法面臨諸多的局限[1].事實上，某種聚類分析方法僅僅適用于分析數(shù)據(jù)中的某類規(guī)律，如果忽略模型的適用前提和聚類對象的具體特點，簡單地套用傳統(tǒng)聚類模型將難以取得理想的分類效果.關(guān)于如何解決傳統(tǒng)聚類方法，處理現(xiàn)有海量數(shù)據(jù)問題，很多學(xué)者進行了很多有益的探討.國內(nèi)學(xué)者劉瑞元[2]定義了加權(quán)歐氏距離，并討論了它的性質(zhì)，并應(yīng)用加權(quán)歐氏距離對2000年奧運金牌榜前10名的國家進行了加權(quán)聚類分析.在傳統(tǒng)聚類分析的基礎(chǔ)上，加權(quán)聚類分析方法考慮了指標之間重要性的差異，但沒有考慮指標之間存在高度相關(guān)性的因素.王慶豐[3]采用主成分分析與聚類分析相結(jié)合的集成方法(即一般主成分聚類分析方法)將指標降維成若干相互獨立的主成分因子[4]，進而以等權(quán)的主成分因子代替原始指標對我國各地區(qū)人口素質(zhì)差異進行聚類分析.一般主成分聚類是在忽略主成分因子的特征權(quán)重的條件下進行聚類，雖然解決了指標之間的高度相關(guān)性，但又忽略了因子特征權(quán)重的影響，特征權(quán)重是對主成分因子進行賦權(quán)，再對賦權(quán)的主成分因子進行聚類，這樣便加大了第一主成分對分類的影響，也會對分類的精度產(chǎn)生影響.

基于現(xiàn)有的聚類方法，本文基于已有聚類及主成分分析方法，提出一種新的聚類方法——加權(quán)主成分距離聚類方法.加權(quán)主成分距離聚類是按特征權(quán)重，對主成分因子進行賦權(quán)，這樣可使各主成分的重要性保持著原有的比例關(guān)系.

1 已有聚類分析方法及不足

1.1 傳統(tǒng)聚類方法及其不足

傳統(tǒng)的聚類分析多是基于樣本(指標)之間距離(相關(guān)系數(shù))的親疏關(guān)系進行分類[5～9]，相似性度量不但取決于指標之間的親疏程度，而且依賴于指標重要性的內(nèi)在差異.因此，用于構(gòu)建聚類統(tǒng)計量的指標選擇至為重要.傳統(tǒng)的聚類算法要求描述樣本的指標重要性相同，并且彼此獨立，然而對于復(fù)雜的海量數(shù)據(jù)庫，系統(tǒng)層次結(jié)構(gòu)的指標體系中各指標重要性相差懸殊，指標之間不可避免地會有信息的重疊.如果對存有高度共線性的指標不加處理，直接聚類，那么聚類統(tǒng)計量將同類指標重復(fù)計算，過于放大共線性指標的作用，而淹沒獨立性指標的貢獻，導(dǎo)致分類結(jié)果失真.應(yīng)用傳統(tǒng)聚類模型處理實際分類問題，為了克服指標體系的高度共線性，往往是定性分析指標之間的機理關(guān)系，再主觀刪除信息重疊的指標，這樣以達到聚類指標彼此獨立.例如通過專家打分賦予不同指標相應(yīng)的權(quán)重，以體現(xiàn)指標重要性的差異.顯然，定性地篩選指標和主觀賦權(quán)，需要對每一指標的實際意義有深入的了解，并且要求分析者具有相關(guān)的領(lǐng)域知識和客觀公正的賦權(quán)標準，這在實際應(yīng)用中難以保證.

1.2 一般主成分聚類分析方法及其不足

主成分分析方法是降低數(shù)據(jù)空間維度的重要方法[10]，其分析結(jié)果是將原始錯綜復(fù)雜的指標體系通過線性變換轉(zhuǎn)化為少數(shù)相互獨立的主成分綜合指標，并且要求低維主成分空間能夠體現(xiàn)原始指標體系的絕大部分信息.一般主成分聚類分析方法，首先應(yīng)用主成分分析克服原始指標之間的共線性影響，再用少數(shù)主成分代替原始指標進行聚類.值得肯定的是，主成分聚類克服了傳統(tǒng)聚類模型不能處理指標之間高度共線性的不足，但應(yīng)該注意到，不同主成分體現(xiàn)原始指標體系信息的能力(方差貢獻率)往往相差懸殊，如果忽略不同主成分重要性的客觀差異，不加區(qū)別地直接將主成分代替原始指標聚類，則必然會影響主成分聚類分析的準確性.

設(shè)F1，F(xiàn)2，，F(xiàn)s(s≤p)為提取的主成分因子的列向量，其中Fi=(Fi1，，F(xiàn)ip).假設(shè)所提取主成分因子F1，F(xiàn)2，，F(xiàn)s對應(yīng)的特征值分別為λ1，λ2，，λs，且λ1≥λ2≥≥λs，

(1)

式中：dij(q)為樣本Ii與Ij之間的距離，dij(q)越小(大)表示兩樣本接近程度越大(小).不難發(fā)現(xiàn)，該距離定義直接將主成分因子代替原始指標聚類，在實際運用時存在一個前提假設(shè)，即s個主成分因子對分類的重要性均相等，即主成分因子的特征權(quán)重β1=β2==βs.然而，由于提取主成分因子時已假設(shè)β1≥β2≥≥βs，因此，dij(q)樣本距離定義的前提假設(shè)與主成分因子提取的前提假設(shè)相違背，采用等權(quán)的主成分因子代替原始指標直接進行聚類分析，便削弱了特征權(quán)重較大的第一主成分因子的重要性，同時放大了特征權(quán)重較小的其他主成分因子的重要性，從而導(dǎo)致一般主成分聚類分析方法的分類結(jié)果失真.

1.3 加權(quán)主成分聚類分析方法及其不足

借鑒主成分聚類分析思想，考慮主成分體現(xiàn)原始指標信息含量的差異性[11]，本文通過賦予各主成分相應(yīng)的客觀權(quán)重體現(xiàn)其重要程度的不同，從而定義加權(quán)主成分距離為分類統(tǒng)計量，定義第i個樣本和第j個樣本之間的加權(quán)主成分距離為

(2)

通過主成分分析的特征提取，加權(quán)主成分聚類分析既剔除了原始指標共線性的重疊信息，又體現(xiàn)了各主成分包含原始指標信息含量的差異.

顯然在該距離的定義中，主成分因子Fk(k=1，2，3，，s)對距離dij(q)的權(quán)重實際可理解為

1.4 加權(quán)主成分距離的聚類分析方法

針對上述聚類分析方法在特定情形下的失真問題，本文提出加權(quán)主成分距離聚類分析方法.設(shè)為F1，F(xiàn)2，，F(xiàn)s(sp)由p維指標向量X=(x1，x2，xp)提取的主成分因子列向量.假設(shè)所提取主成分因子F1，F(xiàn)2，，F(xiàn)s對應(yīng)的特征值分別為λ1，λ2，，λs，且為主成分因子Fk所對應(yīng)的特征權(quán)重，于是有采用一般主成分聚類分析方法所定義的樣本Ii與Ij之間的距離為

(3)

其中：與公式(2)不同的地方，公式(3)是按照主成分因子對應(yīng)的權(quán)重對不同主成分因子下的距離進行加權(quán)，由此進行聚類分析.聚類距離的定義需要滿足非負性、對稱性和三角不等式，不難證明公式(3)滿足上述三條性質(zhì).與現(xiàn)有聚類分析改進的研究成果相比，加權(quán)主成分距離聚類的核心優(yōu)勢在于，同時克服了經(jīng)典聚類分析存在的兩個典型缺陷：(1)通過主成分的特征提取，剔除了原始指標體系高度的重疊信息；(2)每一主成分的距離權(quán)重βk來源于原始指標數(shù)據(jù)，體現(xiàn)了不同主成分聚類效率的差異，并且對各主成分因子下的樣本距離賦權(quán)，但沒有改變各主成分因子對分類重要的比例關(guān)系，賦權(quán)準則客觀合理.加權(quán)主成分距離聚類的具體步驟如下：

步驟 1：比較原始指標數(shù)據(jù)數(shù)量級和離散程度的差異，從而確定是采用標準化處理后的無量綱數(shù)據(jù)，還是采用非標準化的原始數(shù)據(jù)；

步驟 2：計算指標的相關(guān)系數(shù)矩陣、KMO檢驗與Bartlett球形檢驗值及顯著性水平，以判斷樣本數(shù)據(jù)是否適宜進行主成分分析，如符合則進入步驟3；

步驟 3：進行主成分分析，計算相關(guān)系數(shù)矩陣或協(xié)方差矩陣的特征值和特征向量，以及各主成分因子的貢獻率和累計貢獻率，提取主成分因子，并結(jié)合因子載荷矩陣對所提取的主成分因子進行命名；

步驟 4：將所提取的主成分因子代替原始指標，采用本文所定義的公式(3)加權(quán)主成分距離，為分類統(tǒng)計量進行聚類，并結(jié)合實際情況確定樣本的所屬類別.

2 仿真實驗及結(jié)果分析

客觀公正地評判模型的分類質(zhì)量是困難而復(fù)雜的問題，目前沒有評判所有聚類模型有效性的統(tǒng)一標準.在眾多的評判標準中，比較客觀的是將聚類模型的分類結(jié)果與預(yù)先已知的本來類屬進行對比，以錯分率為標準判斷不同聚類模型的優(yōu)劣.為驗證拓展聚類模型的有效性，本文選用三個不同品種鳶尾花，將其花瓣長度、花瓣寬度、萼片長度、萼片寬度四個指標生成原始數(shù)據(jù)，下面說明原始指標間的信息高度重疊.按照累計貢獻率≥85%的原則，提取了兩個主成分因子，主成分因子的特征值、方差貢獻率、和因子載荷矩陣見表1.

表1 主成分分析結(jié)果

表1結(jié)果顯示，所提取的兩個主成分因子的累計貢獻率達到了95.55%，能夠反映原指標變量的大量信息.由特征值知第一主成分所含信息量是第二主成分因子的3倍，說明兩個主成分因子對分類重要性差異較大.因此忽略兩個主成分因子對分類重要性的客觀差異，而只是采用一般主成分聚類分析方法對兩個主成分因子等權(quán)重地進行聚類，一方面無法顯現(xiàn)出第一主成分因子對于提高分類質(zhì)量的突出作用，另一方面還會過于放大第二主成分因子的作用，導(dǎo)致低效率的分類結(jié)果.而如果采用加權(quán)主成分聚類分析方法，先按特征權(quán)重對主成分因子賦權(quán)，再對賦權(quán)的主成分因子進行聚類，雖然考慮了不同主成分因子對分類重要性的客觀差異，但其放大了第一主成分因子對分類的重要性，分類結(jié)果的精度亦難以保證.

本文分別用傳統(tǒng)聚類方法、一般主成分聚類方法、加權(quán)主成分聚類方法和加權(quán)主成分距離聚類方法對標準化處理后的鳶尾花無量綱數(shù)據(jù)進行聚類分析.由于距離維數(shù)對分類結(jié)果有影響，本文分別測量并對比的在距離維數(shù)q=2，q=3，q=4情形下的各聚類的效果，如表2所示.

表2 不同聚類方法的分類效果

由表2可知，在q=2時，以錯分率為標準，聚類的優(yōu)劣次序為加權(quán)主成分距離聚類、加權(quán)主成分聚類、一般主成分聚類、傳統(tǒng)聚類.在q=3和q=4時，以錯分率為標準，聚類的優(yōu)劣次序為加權(quán)主成分距離聚類、一般主成分聚類、加權(quán)主成分聚類、傳統(tǒng)聚類.

根據(jù)分類結(jié)果來看，傳統(tǒng)聚類的分類效果最差，一般主成分聚類和加權(quán)主成分聚類的效果也不理想.結(jié)合表1的計算結(jié)果，其原因是各指標之間存在較高的相關(guān)性，并且本文提取的兩個主成分因子的信息含量分別為72.073%和23.477%.采用一般主成分聚類分析方法的時候減弱第一主成分的作用增強第二主成分的作用，因此導(dǎo)致分類效果不明顯.采用加權(quán)主成分聚類分析方法的時放大了第一主成分的作用(特別是在q=3和q=4時)，因此導(dǎo)致結(jié)果失真.

3 結(jié)論與啟示

通過以上的分析，在相同情況下，用不同的分析方法得到不同的分析結(jié)果，顯然可以看出加權(quán)主成分距離聚類方法的錯分率要遠低于其他的幾種方法，這為聚類方法提供了一種更為嚴謹?shù)姆诸惙桨?，顯然這種聚類方案要優(yōu)于其他的幾種聚類方案，而維數(shù)對結(jié)果的影響并不是很大.

統(tǒng)計分析模型的層出不窮為學(xué)術(shù)研究提供了廣闊的選擇空間，但是如果對統(tǒng)計分析方法的理論基礎(chǔ)、適用性前提以及存在的問題缺乏深入理解，可能陷入統(tǒng)計方法的研究誤區(qū).指標之間的高度相關(guān)性導(dǎo)致傳統(tǒng)的聚類分析方法無法取得良好的分類效果，通過主成分分析的方法可以將多維數(shù)據(jù)降至低維，避免指標之間的高度相關(guān)性對聚類產(chǎn)生影響.理論研究和實驗結(jié)果證明加權(quán)主成分距離聚類的優(yōu)點，在各主成分分子信息含量相差不大的時候等同于一般主成分聚類，在第一主成分信息含量遠遠大于其他主成分信息含量的情況下，避免了采用加權(quán)主成分聚類過度放大了第一主成分作用的因素.但是在原始指標變量之間相關(guān)較弱不具備主成分聚類分析的條件時，加權(quán)主成分距離聚類可能會失效，此時采用傳統(tǒng)聚類分析方法較好.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡