張鵬洲,倪長(zhǎng)健
(成都信息工程學(xué)院大氣科學(xué)系,成都 610041)
投影尋蹤就是將高維數(shù)據(jù)向低維空間投影,通過(guò)分析低維空間的投影特性來(lái)研究高維數(shù)據(jù)的特征,是處理多因素復(fù)雜問(wèn)題的統(tǒng)計(jì)方法[1]。投影尋蹤聚類模型則是依據(jù)投影尋蹤思想建立的聚類分析模型,它已在諸多領(lǐng)域獲得了廣泛的應(yīng)用[2~9]。通過(guò)分析,投影尋蹤聚類模型在實(shí)際聚類分析應(yīng)用中還存在有待深入研究和改進(jìn)的問(wèn)題,主要體現(xiàn)在以下兩方面:
(1)投影尋蹤聚類模型中的唯一參數(shù)——密度窗寬取值問(wèn)題。研究表明,密度窗寬的不同取值對(duì)聚類結(jié)果有重要影響[3],可到目前為止其取值大小還是通過(guò)經(jīng)驗(yàn)或試算確定,缺乏理論依據(jù)。采用較普遍的就是 Friedman和 Tukey建議的密度窗寬取全部樣本投影特征值方差的 10%。其次,文獻(xiàn) [4]給出了密度窗寬取值的經(jīng)驗(yàn)公式,并建議可將樣本聚類指標(biāo)個(gè)數(shù)作為其實(shí)際取值,然而,這也是依據(jù)有限實(shí)驗(yàn)的統(tǒng)計(jì)結(jié)果,事實(shí)上,當(dāng)密度窗寬取值太大時(shí),模型中的投影指標(biāo)實(shí)質(zhì)上就只是體現(xiàn)了樣本投影特征值的方差。因此,關(guān)于密度窗寬參數(shù)的合理取值問(wèn)題還有待深入研究。
(2)投影尋蹤聚類模型運(yùn)算結(jié)果的再分析問(wèn)題。對(duì)于沒(méi)有分類標(biāo)準(zhǔn)參照的聚類問(wèn)題,投影尋蹤聚類模型只能得到基于投影特征值大小的樣本排序,并不能直接提供明確的聚類結(jié)果。對(duì)于線性投影尋蹤聚類模型,傳統(tǒng)的處理方法也是目前普遍采用的方法就是繪制投影特征值散布圖[5],分析人員憑肉眼根據(jù)投影特征值散布情況給出樣本聚類結(jié)果。由于沒(méi)有定量的聚類依據(jù),有時(shí)就難以劃定明確的聚類界限,實(shí)際應(yīng)用中不可避免地會(huì)受到人為因素的影響。盡管進(jìn)行了一些改進(jìn)[6],但是投影尋蹤聚類模型在進(jìn)行聚類分析時(shí)仍不能直接提供明確的聚類結(jié)果,不便于推廣應(yīng)用。
針對(duì)投影尋蹤聚類模型的上述問(wèn)題,我們引入動(dòng)態(tài)聚類方法[7],首次以動(dòng)態(tài)聚類原則構(gòu)建投影指標(biāo),從而建立了基于投影尋蹤原理的動(dòng)態(tài)聚類模型,即投影尋蹤動(dòng)態(tài)聚類 (projection pursuit dynamic cluster,簡(jiǎn)稱 PPDC)模型。本文將詳細(xì)介紹投影尋蹤動(dòng)態(tài)聚類模型的實(shí)現(xiàn)過(guò)程,并在邊坡穩(wěn)定性評(píng)價(jià)中進(jìn)行了實(shí)際應(yīng)用,最后和已有的應(yīng)用結(jié)果作了對(duì)比分析。
步驟 1:數(shù)據(jù)無(wú)量綱化。由于各評(píng)價(jià)指標(biāo)的量綱不盡相同,為了消除量綱效應(yīng),在建模之前對(duì)各指標(biāo)數(shù)據(jù)進(jìn)行無(wú)量綱化處理,對(duì)于越大越優(yōu)的指標(biāo)對(duì)于越小越優(yōu)的指標(biāo)分別為第 j個(gè)指標(biāo)的樣本最大值和最小值。
步驟 2:線性投影。投影就是從不同角度觀察數(shù)據(jù),尋找能夠最大程度地反映數(shù)據(jù)特征和最能充分挖掘數(shù)據(jù)信息的最佳觀察角度即最優(yōu)投影方向。高維數(shù)據(jù)信息通過(guò)投影轉(zhuǎn)化到低維空間,不但形象直觀,而且便于運(yùn)用常規(guī)方法進(jìn)行分析處理,本文采用線性投影,即將高維數(shù)據(jù)投影到線性空間。設(shè)為 m維單位投影方向向量,其分量為 a1,a2,…,am,則 xij的投影特征值 zi可表示為:
步驟 3:構(gòu)造投影指標(biāo)。這是投影尋蹤動(dòng)態(tài)聚類模型建立的關(guān)鍵,是高維數(shù)據(jù)向低維空間投影聚類所遵循的原則,是尋找最優(yōu)投影方向的依據(jù),只有構(gòu)造合理的投影指標(biāo)才能取得合理的聚類結(jié)果。本文首次應(yīng)用動(dòng)態(tài)聚類方法[7]來(lái)構(gòu)造投影尋蹤動(dòng)態(tài)聚類模型的投影指標(biāo)。
整個(gè)樣本的投影特征值序列組成的集合記為:Ω={z1,z2,…,zn},采用動(dòng)態(tài)聚類法將其聚為p(p≤n)類,Θh(h=1,2,…,p)為由屬于 h類的所有樣本投影特征值構(gòu)成的集合,定義 s(zi, zj)為任意兩投影特征值間的絕對(duì)值距離。
投影尋蹤動(dòng)態(tài)聚類模型的投影指標(biāo)定義為投影分散度與類內(nèi)聚集度之差,表示類間所有樣本投影特征值的距離之和,對(duì)其求解就是尋求某一投影方向滿足 ss(a)-dd(a)取得最大值,顯然,投影分散度越大或類內(nèi)聚集度越小,則投影指標(biāo)越大。當(dāng)取得最大值時(shí),就實(shí)現(xiàn)了類間樣本盡量散開、類內(nèi)樣本盡量集中的聚類目的,此即為投影尋蹤聚類的思想。
本文采用遺傳算法求解[2]。
邊坡穩(wěn)定性問(wèn)題一直是巖土工程的一個(gè)重要研究?jī)?nèi)容,邊坡穩(wěn)定性的評(píng)價(jià)與預(yù)測(cè)是邊坡工程研究的根本問(wèn)題,也是邊坡研究中最難和最迫切的課題之一,而邊坡穩(wěn)定性評(píng)價(jià)結(jié)果的正確與否直接關(guān)系到邊坡工程的成敗,具有十分重要的意義。邊坡是由漫長(zhǎng)的地質(zhì)作用造成的,地質(zhì)環(huán)境的復(fù)雜性和影響邊坡穩(wěn)定性因素 (如斜坡的外形、巖性、構(gòu)造、水、地震和人為因素等)的不確定性,使邊坡穩(wěn)定性問(wèn)題表現(xiàn)為多因素、多層次和多階段的復(fù)雜動(dòng)態(tài)非線性系統(tǒng),故邊坡穩(wěn)定性評(píng)價(jià)是一項(xiàng)復(fù)雜的綜合評(píng)價(jià)過(guò)程。針對(duì)影響邊坡穩(wěn)定性的諸多因素的不完整性和不確定性,研究人員先后提出了一些新的邊坡穩(wěn)定性評(píng)價(jià)方法,如模糊綜合評(píng)價(jià)方法、灰色聚類評(píng)價(jià)方法、可靠度評(píng)價(jià)方法、系統(tǒng)聚類評(píng)價(jià)方法以及神經(jīng)網(wǎng)絡(luò)評(píng)價(jià)方法等等。這些評(píng)價(jià)方法的提出從不同側(cè)面反映了影響邊坡穩(wěn)定性的不確定性質(zhì),但不論是確定性分析還是不確定性方法其用于邊坡穩(wěn)定性評(píng)價(jià)的準(zhǔn)確性與實(shí)際情況仍有差距 ,另一方面,上述方法往往還存在評(píng)價(jià)過(guò)程中諸如權(quán)重確定沒(méi)有統(tǒng)一的理論和計(jì)算公式、神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)試算確定、評(píng)價(jià)過(guò)程相對(duì)復(fù)雜等不足。本文在邊坡穩(wěn)定性評(píng)價(jià)的投影尋蹤聚類模型的基礎(chǔ)上[8],運(yùn)用投影尋蹤動(dòng)態(tài)聚類模型對(duì)此問(wèn)題進(jìn)行了進(jìn)一步研究。同文獻(xiàn) [8],所選取的指標(biāo)體系包括高差(1)、坡角 (2)、洪水位與滑坡剪出口高程關(guān)系(3)、滑體面積 (4)、滑體透水性 (5)、暴雨強(qiáng)度 (6)、變形破壞跡象 (7)、物質(zhì)結(jié)構(gòu) (8)活動(dòng)面產(chǎn)狀變化情況 (9)、滑帶強(qiáng)度 (10)、剪出口產(chǎn)狀 (11)、人類活動(dòng)情況 (12)、巖石層位組成(13)、巖石傾角 (14)等 14個(gè)指標(biāo),這些指標(biāo)的樣本數(shù)據(jù)見下表。按 PPDC法的計(jì)算步驟,其中m =14,n=12,p=5,得到最優(yōu)投影方向向量為 a*=(0.0224,0.3731,0.0241,0.2214,0.3308, 0.3003,0.3031,0.3570,0.2819,0.2345,0.2948, 0.4081,0.0625,0.0009),把 a*代入式 (1)后即得到各典型滑坡體的投影值 z*(i),結(jié)果見下表。投影特征值 z*(i)越大,表示滑坡體的不穩(wěn)定水平越大。
由下表可知,黃臘石 I、新灘、天寶聚為第 I類,為穩(wěn)態(tài) A級(jí);云陽(yáng)西城單獨(dú)聚為第Ⅱ類,為穩(wěn)態(tài)B級(jí);寶塔、黃臘石Ⅱ、流來(lái)觀聚為第Ⅲ類,為穩(wěn)態(tài) C級(jí);白衣庵、向家灣聚為第Ⅳ類,為穩(wěn)態(tài)D級(jí);百換坪、范家坪、舊縣坪聚為第 V類,為穩(wěn)態(tài) E級(jí)。A、B、C、D為不穩(wěn)定狀態(tài),穩(wěn)態(tài)分級(jí)標(biāo)準(zhǔn)祥見文獻(xiàn) [9]。此聚類結(jié)果與神經(jīng)網(wǎng)絡(luò)方法結(jié)果[9]一致,說(shuō)明投影尋蹤動(dòng)態(tài)聚類模型運(yùn)算可靠,結(jié)果合理。
表 邊坡的分類指標(biāo)樣本數(shù)據(jù)及其投影值Tab. The indexes values of slope samples data and their projection values
應(yīng)用分析表明,投影尋蹤動(dòng)態(tài)聚類模型具有如 下特點(diǎn): (1)在整個(gè)運(yùn)算過(guò)程中,僅僅需要預(yù)先給定樣本的聚類數(shù),而不需要人為給定其他任何參數(shù),避免了投影尋蹤模型中密度窗寬確定的人為任意性,因此,投影尋蹤動(dòng)態(tài)聚類模型具有普適性,便于實(shí)際應(yīng)用推廣。 (2)與投影尋蹤聚類模型相比較,投影尋蹤動(dòng)態(tài)聚類模型不但可以直接得到投影特征值和最優(yōu)投影方向向量,而且可以得到明確的聚類結(jié)果,避免了結(jié)果的經(jīng)驗(yàn)判定。
投影尋蹤動(dòng)態(tài)聚類模型是處理多因素聚類問(wèn)題的一種新的分析方法,它依據(jù)投影尋蹤聚類的建模思想,應(yīng)用動(dòng)態(tài)聚類方法構(gòu)造投影指標(biāo),有效地避免了投影尋蹤聚類模型的不足:一方面,投影尋蹤動(dòng)態(tài)聚類模型在運(yùn)算過(guò)程中不存在需要人為給定的參數(shù);另一方面,投影尋蹤動(dòng)態(tài)聚類模型是投影尋蹤原理與動(dòng)態(tài)聚類方法的有機(jī)結(jié)合,可以直接輸出聚類結(jié)果,避免了結(jié)果的再分析。邊坡穩(wěn)定性評(píng)價(jià)的實(shí)際應(yīng)用表明,投影尋蹤動(dòng)態(tài)聚類模型切實(shí)可行,具有穩(wěn)定性好、客觀性強(qiáng)、分類結(jié)果明確、操作簡(jiǎn)便等優(yōu)點(diǎn),便于推廣應(yīng)用,為多因素樣本聚類分析開辟了一條新途徑。
[1] Friedman J H,Tukey J W.A projection pursuit algorithm for exploratory data analysis[J].IEEE Trans on Computer,1974,C-23 (9):881-890.
[2] 張欣莉,丁 晶,李祚泳,等.投影尋蹤新算法在水質(zhì)評(píng)價(jià)模型中的應(yīng)用[J].中國(guó)環(huán)境科學(xué),2000,20(2):187-189.
[3] 張欣莉,任仕泉,羅 利.企業(yè)競(jìng)爭(zhēng)力評(píng)價(jià)的投影尋蹤模型[J].數(shù)理統(tǒng)計(jì)與管理,2005,25(4):53-55,117.
[4] 王順久,張欣莉,丁 晶,侯 玉.投影尋蹤聚類模型及其應(yīng)用[J].長(zhǎng)江科學(xué)院院報(bào),2002,19(6):53-55,61.
[5] 王順久,侯 玉,張欣莉,丁 晶.流域水資源承載能力的綜合評(píng)價(jià)方法[J].水利學(xué)報(bào),2003,34(1):88-92.
[6] 金菊良,張欣莉,丁 晶.評(píng)估洪水災(zāi)情等級(jí)的投影尋蹤模型[J].系統(tǒng)工程理論與實(shí)踐,2002,22(2):140-144.
[7] 任若恩,王惠文.多元統(tǒng)計(jì)數(shù)據(jù)分析—理論、方法、實(shí)例[M].北京:國(guó)防工業(yè)出版社,1999.76-80.
[8] 汪明武,金菊良.投影尋蹤聚類方法在邊坡穩(wěn)定性分析中的應(yīng)用[J].巖土工程學(xué)報(bào),2002,24(5):619-621.
[9] 崔政權(quán),李 寧.邊坡工程—理論與實(shí)踐最新發(fā)展[M].南京:南京大學(xué)出版社,2000.