趙國彥,彭 俊,劉 建
(中南大學(xué)資源與安全工程學(xué)院,湖南 長沙 410083)
基于KPCA-GPC的地震砂土液化預(yù)測
趙國彥,彭 俊,劉 建
(中南大學(xué)資源與安全工程學(xué)院,湖南 長沙 410083)
砂土液化;特征冗余;核主成分分析;高斯過程分類;預(yù)測模型
砂土液化是指飽和砂土在動(dòng)力荷載作用下,因喪失抗剪強(qiáng)度而致使砂礫處于懸浮狀態(tài)的現(xiàn)象,其極具危害性。目前,在飽和砂土地震液化判別研究方面,已發(fā)展了多種從經(jīng)驗(yàn)到理論的判別方法,包括標(biāo)準(zhǔn)貫入試驗(yàn)法(SPT)、靜力觸探試驗(yàn)法(CPT)、剪切波速試驗(yàn)法(VS)等[1]單指標(biāo)判別法,以及神經(jīng)網(wǎng)絡(luò)法[2]、支持向量機(jī)法[3]、貝葉斯網(wǎng)絡(luò)法[4]、多元判別分析法[5-6]等多指標(biāo)綜合判別法。由于影響砂土液化的因素眾多,從任何單一指標(biāo)預(yù)測砂土液化都是不可靠的;同時(shí),在引起砂土液化因素之間微觀機(jī)制不明確的情況下,利用收集到的歷史數(shù)據(jù)和試驗(yàn)數(shù)據(jù)進(jìn)行多因素綜合評判就成為當(dāng)下砂土液化預(yù)測的重要手段。
在多指標(biāo)綜合判別法中,采用的判別因子數(shù)量一般為5~12[2-6],文獻(xiàn)[7]分析了多達(dá)22個(gè)判別因子。雖然判別因子越多,信息越豐富,但過多的判別因子就會(huì)造成特征冗余,進(jìn)而導(dǎo)致結(jié)果錯(cuò)誤[8-9]。因?yàn)槿哂嗟奶卣鞅徽J(rèn)為是由同一因素引起的不同表現(xiàn)形式,而對于判別算法而言通常將特征賦予同等重要性,這使得冗余特征背后的因素被夸大,從而導(dǎo)致錯(cuò)誤的結(jié)果。文獻(xiàn)[6]將主成分分析(PCA)引入到砂土液化預(yù)測中,通過對初始液化判別指標(biāo)進(jìn)行降維處理和信息提煉,然后再進(jìn)行判別分析。然而,PCA只能進(jìn)行線性特征提取,大量高階統(tǒng)計(jì)信息往往被丟棄,基于砂土液化的非線性特性,本文引入核主成分分析方法(KPCA)對初始判別因子進(jìn)行非線性特征提取。
高斯過程(Gaussian Process, GP)是基于統(tǒng)計(jì)學(xué)習(xí)理論發(fā)展起來的一種具有概率意義的核學(xué)習(xí)機(jī)。它對處理高維數(shù)、小樣本、非線性等復(fù)雜分類和回歸問題具有很好的適應(yīng)性,且具有泛化能力強(qiáng)、計(jì)算簡單、參數(shù)自適應(yīng)獲取等突出優(yōu)點(diǎn)[10-11]。與一般的判別方法相比,高斯過程分類模型(GPC)不僅能反映數(shù)據(jù)庫中數(shù)據(jù)間的概率關(guān)系,而且能對數(shù)據(jù)結(jié)果的可能性加以量化評價(jià)。因此,GPC模型適用于表達(dá)和分析不確定性和概率性事件,特別適用于像液化判別這樣依賴多種控制因素的高度非線性復(fù)雜問題。
本文在對原始砂土液化數(shù)據(jù)進(jìn)行核主成分分析之后,引入高斯過程分類模型(GPC),構(gòu)建了基于KPCA-GPC的砂土液化預(yù)測模型。
KPCA的基本思想是通過非線性映射函數(shù)Φ:Rm→F把輸入數(shù)據(jù)x映射到一個(gè)高維特征空間F,然后在特征空間F中進(jìn)行主元分析,從而可以有效提取輸入數(shù)據(jù)集的非線性結(jié)構(gòu)信息[12]。
設(shè)樣本集為X={x1,x2,…,xN},其中xk∈Rm,N為樣本總數(shù),通過Φ:Rm→F,X→Φ(X)映射到特征空間F,則F空間中樣本的協(xié)方差矩陣為
(1)
式中:C為協(xié)方差矩陣。對C進(jìn)行特征值分解:
Cν=λν
(2)
式中:λ、v分別為C的特征值和特征向量。且:
(3)
式中:αi為常系數(shù)。引入矩陣K:Kij=Φ(xi)·Φ(xj),于是式(2)可寫為:
λNα=Κα
(4)
設(shè)αk表示λk對應(yīng)的特征向量,樣本Φ(x)在F中νk方向的投影
(5)
為對應(yīng)于Φ的第k個(gè)主元。
在KPCA中,核函數(shù)的選擇至關(guān)重要,到目前為止,仍沒有成熟的理論作指導(dǎo)。核函數(shù)的形式很多,常用的核函數(shù)有多項(xiàng)式核函數(shù)(polynomial kernel)和高斯核函數(shù)(Gaussian kernel),具體形式參見文獻(xiàn)[13]。KPCA具體原理詳見文獻(xiàn)[8]。
GPC是一種基于高斯過程原理的分類方法,其分類過程見圖1[11]。假定訓(xùn)練樣本集為D={(xi,yi)|i=1,…,n}=(X,y),X=[x1,…,xn]T為n×d輸入矢量集,y=[y1,…,yn]T為n×1輸出值集合,作為二分類標(biāo)志yi∈{-1,1},f=[f1,…,fn]T為n×1潛在函數(shù)值,其中fi=f(xi)。利用映射關(guān)系Sig(x)將f映射到區(qū)間[0,1],即Sig(f)∈[0,1],通常稱映射關(guān)系Sig(x)為響應(yīng)函數(shù),其一般可取為標(biāo)準(zhǔn)正態(tài)分布的累計(jì)分布函數(shù)。
假定潛在函數(shù)f的先驗(yàn)分布p(f|X)服從高斯分布:
p(f|X)~N(f|m,K)
(6)
在給定潛在函數(shù)f時(shí),觀測數(shù)據(jù)y是相互獨(dú)立的,則聯(lián)合似然分布為:
(7)
根據(jù)貝葉斯公式可得后驗(yàn)分布:
圖1 高斯過程二元分類模型在判別式框架中的圖形描述Fig.1 The graphical representation of GPC in the discriminative framework
(8)
式(6)中:m為均值向量,m=[m1,…,mn]T,一般令m1=m2=,…,=mn=θ1;K為n×n階協(xié)方差矩陣,Kij=k(xi,xj,θ2),k(·)表示與θ2有關(guān)的正定協(xié)方差函數(shù);θ={θ1,θ2}稱為超參數(shù),最優(yōu)超參數(shù)可通過極大似然法來估計(jì)。
給定測試點(diǎn)X*,則與測試點(diǎn)X*對應(yīng)的潛在函數(shù)值f*的后驗(yàn)概率為:
(9)
根據(jù)式(9)可以進(jìn)一步算得對應(yīng)于f*的分類預(yù)測概率:
(10)
GPC模型中,常以p(y*|X,x*,y)=0.5作為分類界限。本文中y*的預(yù)測概率大于0.5的為一類,對應(yīng)的y*=+1;y*的預(yù)測概率小于0.5的為另一類,對應(yīng)的y*=-1。這里只對GPC模型做簡單介紹,具體原理詳見文獻(xiàn)[10]。
砂土液化的影響因素歸納起來有3大類,X.W.Tang[7]等總結(jié)了近20年203篇中外文獻(xiàn)中砂土液化的共計(jì)22個(gè)影響因子,即:(1)動(dòng)荷條件:主要指震動(dòng)的強(qiáng)度和效度,包括地震烈度(a)、震中距離(b)、地震方向(c)、地震頻度(d)、持續(xù)時(shí)間(e);(2)埋藏條件:包括砂層厚度(f)、砂層埋深(g)、地下水位(h)、應(yīng)力歷史(i)、地層結(jié)構(gòu)(j)、地形(k)、地層年代(l);(3)土性條件:包括土質(zhì)組構(gòu)(m)、黏粒含量(n)、平均粒徑(o)、顆粒形狀(p)、不均勻系數(shù)(q)、相對密度(r)、飽和度(s)、排水條件(t)、固結(jié)程度(u)、剪應(yīng)力比(v)。這些因子的出現(xiàn)頻率見圖2。
圖2 砂土液化影響因子引用頻率Fig.2 Citation frequency of influence factors of soil liquefaction
為驗(yàn)證本文提出的砂土液化預(yù)測模型的可行性和實(shí)用性,以唐山地震砂土液化的25個(gè)案例為樣本進(jìn)行建模,原始數(shù)據(jù)見表1。表中,前19個(gè)樣本為學(xué)習(xí)樣本,首先對其進(jìn)行核主成分分析,然后利用GPC進(jìn)行訓(xùn)練,得到砂土液化的高斯過程分類模型,最后以余下6個(gè)樣本進(jìn)行檢驗(yàn)。
一般,引起數(shù)據(jù)特征冗余的原因主要有兩種[8-9]:①數(shù)據(jù)之間具有較強(qiáng)的相關(guān)性;②無關(guān)數(shù)據(jù)或低貢獻(xiàn)數(shù)據(jù)的引入。對表1中的數(shù)據(jù)進(jìn)行Z-score標(biāo)準(zhǔn)化處理(處理后,每個(gè)判別指標(biāo)均值為0,標(biāo)準(zhǔn)差為1),各項(xiàng)因素之間相關(guān)系數(shù)矩陣見表2。由表2可知:判別因子之間有顯著的相關(guān)性,如X5與X2、X4與X3、X3與X2、X4與X2等。同時(shí)采用互信息[14](Mutual Information)方法計(jì)算每個(gè)判別因子對實(shí)測結(jié)果的相關(guān)性,結(jié)果見圖3,計(jì)算所得標(biāo)準(zhǔn)化互信息值(MI)越大,則表明該影響因子對實(shí)測結(jié)果的作用越強(qiáng)。由圖3可知,8個(gè)因子的MI值大體相同,故樣本中不涉及無關(guān)數(shù)據(jù)或低貢獻(xiàn)數(shù)據(jù)。所以,針對本文樣本數(shù)據(jù),特征冗余主要由影響因子之間的相關(guān)性引起,故對原始樣本進(jìn)行去相關(guān)處理以精簡和提煉數(shù)據(jù)。
表1 樣本數(shù)據(jù)及實(shí)測結(jié)果Table 1 Sample data and measured results
注:“-1”代表液化,“1”代表非液化。
圖3 砂土液化影響因子互信息值Fig.3 The mutual information of influence factors of soil liquefaction
分別以高斯核函數(shù)、二次多項(xiàng)式核函數(shù)和三次多項(xiàng)式核函數(shù)對學(xué)習(xí)樣本進(jìn)行核主成分分析,同時(shí)進(jìn)行主成分分析,前4個(gè)主成分的特征值、貢獻(xiàn)率及累計(jì)貢獻(xiàn)率見表3。采用一次多項(xiàng)式核函數(shù)進(jìn)行核主成分分析其實(shí)質(zhì)就是進(jìn)行主成分分析。由表3可知:采用3次多項(xiàng)式為核函數(shù)進(jìn)行核主成分分析后,前三個(gè)主成分的累計(jì)貢獻(xiàn)率已達(dá)到87.31%,超過85%[6],且每個(gè)主成分的貢獻(xiàn)率均大于與PCA相應(yīng)的每個(gè)主成分的貢獻(xiàn)率,這3個(gè)主成分可以反映原變量的絕大部分信息,故本文選取這3個(gè)主成分作為GPC訓(xùn)練輸入指標(biāo)。
以核主成分分析后的前19個(gè)樣本(每個(gè)樣本為4維向量,包括3維主成分輸入指標(biāo)和1維分類標(biāo)志指標(biāo))作為訓(xùn)練樣本進(jìn)行高斯過程分類學(xué)習(xí)。GPC作為一種具有概率意義的分類模型,其分類效果如圖4所示(圖中兩類數(shù)據(jù)分別用“○”,“+”表示,曲線為概率等值線)。
圖4 GPC模型分類示意圖Fig.4 Sketch map of classification from GPC model
指標(biāo)X1X2X3X4X5X6X7X8X110000X20015610000X3005610806010000X400264079100866010000X50026809228076450641910000X6-00642-04516-06444-03991-0530710000X7-01741-02835-02277-02347-028780002010000X8-0022903165024960222701929-01359-0250210000
表3 主成分特征值、貢獻(xiàn)率及累計(jì)貢獻(xiàn)率Table 3 Eigen values, contribution rate and cumulative contribution rate of principal components
借助MATLAB工具箱GPML Version 4.0[15],預(yù)測樣本的識別情況見表4。從識別結(jié)果來看,6個(gè)預(yù)測樣本全部正確識別。表中同時(shí)給出了GPC法、KPCA-DDA法、DDA法(距離判別分析)、Seed法的判別結(jié)果。單獨(dú)使用DDA和GPC時(shí),均出現(xiàn)判別失誤,而當(dāng)采用KPCA-GPC和KPCA-DDA時(shí),全部正確判別,這就說明了對原始數(shù)據(jù)進(jìn)行去冗余和精簡提煉的必要性。從KPCA-GPC法的預(yù)測概率中可以看出,24號樣本的識別概率接近0.5,這說明GPC法對此樣本不十分肯定,實(shí)際中還需要進(jìn)一步調(diào)查研究,這體現(xiàn)了GPC法相較其它確定性判別方法的優(yōu)勢,如DDA、SVM、BP、Seed法等除了獲得單一的識別結(jié)果外,無法再獲得任何有關(guān)識別正確性方面的信息。
表4 預(yù)測樣本判別結(jié)果Table 4 Discriminant results of forecast samples
基于傅立葉振幅靈敏度分析方法(Fourier Amplitude Sensitivity Test, FAST)分別對初始判別因子和核主成分判別因子(Y1,Y2,Y3)進(jìn)行靈敏度分析,以探討砂土液化對上述因素的敏感性。應(yīng)用FAST可以計(jì)算出影響模型輸出值的各參數(shù)的一階靈敏度指數(shù)(First Order Sensitivity Index, FOSI),F(xiàn)OSI表示僅由一個(gè)參數(shù)的變異對模型輸出值的變異所做出的貢獻(xiàn)。
圖5 初始判別因子FOSIFig.5 The FOSI of initial influence factors
圖6 核主成分判別因子FOSIFig.6 The FOSI of kernel principal components
由圖5可知,針對本文選用的8個(gè)判別因子,砂土液化對IF8(剪應(yīng)力與有效上覆應(yīng)力比,X8)最為敏感,其次是IF6(震中距離,X6)和IF5(地震烈度,X5),對其它影響因子不敏感。由圖6可知,針對核主成分判別因子,沙土液化對IF1(Y1)最為敏感,其次是IF3(Y3),最后是IF2(Y2)。Nhat Duc Hoang等[16]針對3個(gè)不同的沙土液化數(shù)據(jù)庫(分別從不同地點(diǎn)收集)進(jìn)行了敏感性分析,3個(gè)數(shù)據(jù)庫的大部分影響因子相同,結(jié)果發(fā)現(xiàn)不同的數(shù)據(jù)庫沙土液化較為敏感的影響因子并不相同;此外,Adel M. Hanna[17]等也曾對上述其中一個(gè)數(shù)據(jù)庫進(jìn)行過敏感性分析,其分析結(jié)果與Nhat Duc Hoang等有較大差異,這反映出沙土液化的高度非線性和地點(diǎn)的差異性。
(1) 在地震砂土液化多指標(biāo)綜合判別法中,采用的判別因子數(shù)量一般為5~12,為防止特征冗余,采用核主成分分析(KPCA)或主成分分析(PCA)算法對原始數(shù)據(jù)進(jìn)行去冗余和精簡提煉處理是非常有必要的,其可提高判別準(zhǔn)確率;與PCA相比,KPCA更能提取判別因子間的非線性結(jié)構(gòu)信息。
(2) 基于KPCA,本文構(gòu)建了地震砂土液化預(yù)測的高斯過程分類模型,工程實(shí)例研究表明,該模型是可行的。GPC克服了常規(guī)方法只能進(jìn)行確定性評判的局限性,可獲得具有概率意義的砂土液化預(yù)測結(jié)果。
(3) 砂土液化是一個(gè)復(fù)雜性的災(zāi)變演化問題,各個(gè)影響因素之間具有較強(qiáng)的非線性相互作用,多指標(biāo)綜合判別法的適用性與可信度在很大程度上取決于原始資料的典型性和代表性。在實(shí)際工程應(yīng)用中,應(yīng)根據(jù)具體情況,廣泛收集工程實(shí)例資料,建立相應(yīng)的樣本數(shù)據(jù)庫,增強(qiáng)模型的識別能力。
[1] 中華人民共和國建設(shè)部. GB/50021—2001 巖土工程勘查規(guī)范[S]. 北京: 中國建筑工業(yè)出版社, 2009.
Ministry of Housing and Urban-Rural Development of the People’s Republic of China. GB/50021—2001 Code for investigation of geotechnical engineering [S]. Beijing: China Architecture & Building Press, 2009.
[2] 薛新華, 陳群. 基于GRNN的砂土液化危害等級評價(jià)模型研究[J]. 四川大學(xué)學(xué)報(bào)(工程科學(xué)版), 2010, 42(1): 42-47.
XUE Xinhua, CHEN Qun. Study on hazard degree evaluation of sand liquefaction based on the generalized regression neural network[J]. Journal of Sichuan University (Engineering Science Edition), 2010, 42(1): 42-47.
[3] 劉勇健. 基于聚類—二叉樹支持向量機(jī)的砂土液化預(yù)測模型[J]. 巖土力學(xué), 2008, 29(10): 2764-2768.
LIU Yongjian. Support vector machine model for predicting sand liquefaction based on clustering binary tree algorithm[J]. Rock and Soil Mechanics, 2008, 29(10): 2764-2768.
[4] 胡記磊, 唐小微, 裘江南. 基于貝葉斯網(wǎng)絡(luò)的地震液化概率預(yù)測分析[J]. 巖土力學(xué), 2016, 37(6): 1745-1752.
HU Jilei, TANG Xiaowei, QIU Jiangnan. Prediction of probability of seismic-induced liquefaction based on Bayesian network[J]. Rock and Soil Mechanics, 2016, 37(6): 1745-1752.
[5] 禹建兵, 劉浪. 不同判別準(zhǔn)則下的砂土地震液化勢評價(jià)方法及應(yīng)用對比[J]. 中南大學(xué)學(xué)報(bào)(自然科學(xué)版), 2013, 44(9): 3849-3856.
YU Jianbing, LIU Lang. Two multiple discriminant methods to evaluate sand seismic siquefaction potential and its comparison[J]. Journal of Central South University (Science and Technology), 2013, 44(9): 3849-3856.
[6] 宮鳳強(qiáng), 李嘉維. 基于PCA-DDA 原理的砂土液化預(yù)測模型及應(yīng)用[J]. 巖土力學(xué), 2016, 37(S1): 448-454.
GONG Fengqiang, LI Jiawei. Discrimination model of sandy soil liquefaction based on PCA-DDA principle and its application[J]. Rock and Soil Mechanics, 37(S1): 448-454.
[7] TANG Xiaowei, HU Jilei, QIU Jiang-nan. Identifying significant influence factors of seismic soil liquefaction and analyzing their structural relationship[J]. KSCE Journal of Civil Engineering, 2016: 1-9.
[8] 楊勝凱. 基于核主成分分析的特征變換研究[D]. 浙江: 浙江大學(xué), 2014.
YANG Shengkai. Research on feature transformation based on kernel principal component analysis[D]. Zhejiang: Zhejiang University, 2014.
[9] 楊先勇, 周曉軍, 張文斌, 等. 基于局域波法和KPCA-LSSVM的滾動(dòng)軸承故障診斷[J]. 浙江大學(xué)學(xué)報(bào)(工學(xué)版), 2010, 44(8): 1519-1524.
YANG Xianyong, ZHOU Xiaojun, ZHANG Wenbin, et al. Rolling bearing fault diagnosis based on local wave method and KPCA-LSSVM[J]. Journal of Zhejiang University (Engineering Science), 2010, 44(8): 1519-1524.
[10] RASMUSSEN C E, WILLIAMS C K I. Gaussian processes for machine learning[M]. Cambridge: MIT Press, 2006.
[11] NICKISCH H, RASMUSSEN C E. Approximations for binary Gaussian Process classification[J]. Journal of Machine Learning Research, 2008(9): 2035-2078.
[12] XU Yong, ZHANG David, SONG Fengxi, et al. A method for speeding up feature extraction based on KPCA[J]. Neurocomputing, 2007, 70(4-6): 1056-1061.
[13] WANG Quan. Kernel principal component analysis and its applications in face recognition and active shape models[J]. Computer Science, 2014.
[14] 童楚東, 史旭華. 基于互信息的PCA方法及其在過程監(jiān)測中的應(yīng)用[J]. 化工學(xué)報(bào), 2015, 66(10): 4101-4106.
TONG Chudong, SHI Xuhua. Mutual information based PCA algorithm with application in process monitoring [J]. CIESC Journal, 2015, 66(10): 4101-4106.
[15] RASMUSSEN C E, NICKISCH H. The GPML Toolbox version 4.0[EB/OL]. [2016-10-28]. http://www.gaussianprocess.org/gpml/code/matlab/doc/manual.pdf.
[16] NHAT D H, DIEU T B. Predicting earthquake-induced soil liquefaction based on a hybridization of kernel Fisher discriminant analysis and a least squares support vector machine: a multi-dataset study[J]. Bulletin of Engineering Geology and the Environment, 2016: 1-14.
[17] HANNA A M, URAL D, SAYGILI G. Neural network model for liquefaction potential in soil deposits using Turkey and Taiwan earthquake data[J]. Soil Dynamics & Earthquake Engineering, 2007, 27(6):521-540.
Predictionmodelofseismic-inducedsandliquefactionbasedonKPCA-GPCprinciple
ZHAO Guoyan, PENG Jun, LIU Jian
(SchoolofResourcesandSafetyEngineering,CentralSouthUniversity,Changsha,Hunan410083,China)
sand liquefaction; feature redundancy; kernel principal component analysis; Gaussian process classification; predictive model
10.16031/j.cnki.issn.1003-8035.2017.04.21
P642.11+6
A
1003-8035(2017)04-0130-07
2016-11-28;
2017-01-07
國家自然科學(xué)基金面上項(xiàng)目(51374244)
趙國彥(1963-),男,湖南沅江人,教授,主要從事采礦工程、礦山安全和巖石力學(xué)與工程等方面的研究工作。E-mail:2469227190@qq.com
彭 俊(1992-),男,碩士,主要從事巖土工程方面的研究工作。E-mail:475513754@qq.com