陳 波 ,詹明強(qiáng) ,黃梓莘
(1. 河海大學(xué) 水利水電學(xué)院, 江蘇 南京 210098; 2. 河海大學(xué) 水文水資源與水利工程科學(xué)國(guó)家重點(diǎn)實(shí)驗(yàn)室, 江蘇南京 210098; 3. 中國(guó)電建集團(tuán)中南勘測(cè)設(shè)計(jì)研究院有限公司, 湖南 長(zhǎng)沙 410014)
庫(kù)岸邊坡的運(yùn)行穩(wěn)定對(duì)水利工程的服役安全至關(guān)重要,其失穩(wěn)災(zāi)害會(huì)對(duì)工程自身效益和周邊安全造成巨大損失。研究表明,庫(kù)岸邊坡失穩(wěn)破壞會(huì)經(jīng)歷漸變到突變的累進(jìn)發(fā)展過程,而邊坡運(yùn)行監(jiān)測(cè)資料記錄了失穩(wěn)災(zāi)害孕育的全過程信息,尤其是失穩(wěn)破壞發(fā)生的前兆信息,有必要結(jié)合監(jiān)測(cè)資料開展庫(kù)岸邊坡的安全監(jiān)控和災(zāi)變預(yù)警研究。
庫(kù)岸邊坡運(yùn)行的影響因素眾多且內(nèi)在關(guān)系復(fù)雜,考慮到傳統(tǒng)邊坡監(jiān)測(cè)分析方法在應(yīng)對(duì)時(shí)空數(shù)據(jù)結(jié)構(gòu)時(shí)存在的局限性,有學(xué)者引入數(shù)據(jù)挖掘領(lǐng)域的聚類分析算法,針對(duì)邊坡工程監(jiān)測(cè)數(shù)據(jù)的類聚性提取特征和獲得知識(shí),為邊坡防護(hù)治理和科學(xué)決策提供依據(jù)。如王述虹等[1]將人工魚群算法和K-means算法相結(jié)合,提出一種用于巖體結(jié)構(gòu)面產(chǎn)狀分類的改進(jìn)AFSA-RSK算法,顯著提升了運(yùn)算速度和預(yù)測(cè)精度;秦雨樵等[2]綜合考慮邊坡點(diǎn)位移及其對(duì)應(yīng)的點(diǎn)安全系數(shù),提出一種基于K-means聚類算法的滑面搜索方法,有效識(shí)別了邊坡潛在的危險(xiǎn)區(qū)域;李佳偉等[3]在考慮邊坡穩(wěn)定性關(guān)鍵影響因素的基礎(chǔ)上建立了投影尋蹤聚類模型,并進(jìn)一步結(jié)合安全系數(shù)法綜合評(píng)價(jià)邊坡的穩(wěn)定性;徐哲等[4]融合K-means聚類及神經(jīng)網(wǎng)絡(luò)算法,構(gòu)建了邊坡的穩(wěn)定性評(píng)價(jià)模型,并結(jié)合工程實(shí)例證明所建立模型的預(yù)測(cè)精確度;王俊杰等[5]采用K-means算法對(duì)優(yōu)勢(shì)結(jié)構(gòu)面的赤平投影交線進(jìn)行劃分聚類,分類結(jié)果較為合理可靠;王卓等[6]結(jié)合統(tǒng)計(jì)分類和K-means聚類方法對(duì)研究區(qū)裂縫段進(jìn)行了危險(xiǎn)性分級(jí),為區(qū)域的防災(zāi)減災(zāi)工作提供有力支持;Wang等[7]結(jié)合K-means聚類算法、Alpha形狀、三次樣條插值提出一種自動(dòng)識(shí)別臨界滑動(dòng)面的方法,根據(jù)極限狀態(tài)下的測(cè)點(diǎn)位移準(zhǔn)確識(shí)別邊坡二維和三維臨界滑動(dòng)面;金永強(qiáng)等[8]針對(duì)邊坡運(yùn)行監(jiān)測(cè)數(shù)據(jù)的高維非線性特征,采用投影尋蹤及和聲搜索相結(jié)合的算法實(shí)現(xiàn)了邊坡穩(wěn)定性的有效評(píng)價(jià);Dyson等[9]采用隨機(jī)有限元法構(gòu)建邊坡穩(wěn)定性分析模型,針對(duì)隨機(jī)場(chǎng)相似性采用層次聚類分析方法對(duì)邊坡幾何性狀進(jìn)行分類。
綜上可見,雖然聚類分析的引入推進(jìn)了邊坡監(jiān)測(cè)數(shù)據(jù)挖掘的發(fā)展,但目前針對(duì)動(dòng)態(tài)多方位的實(shí)時(shí)監(jiān)測(cè)數(shù)據(jù)的挖掘工作開展較少,挖掘工作的開展深度及挖掘結(jié)果的應(yīng)用頻度尚處于淺嘗輒止的階段?;诖耍槍?duì)邊坡監(jiān)測(cè)數(shù)據(jù)的多維時(shí)空特征引入適用于邊坡海量監(jiān)測(cè)信息的時(shí)空數(shù)據(jù)挖掘方法,采用K-means聚類算法劃分測(cè)點(diǎn)區(qū)域和投影聚類算法提取數(shù)據(jù)特征,實(shí)現(xiàn)邊坡監(jiān)測(cè)數(shù)據(jù)約簡(jiǎn)的目的,將深層次的挖掘方法和有價(jià)值的挖掘信息應(yīng)用于邊坡安全監(jiān)測(cè)。
邊坡監(jiān)測(cè)項(xiàng)目繁多,測(cè)點(diǎn)監(jiān)測(cè)信息豐富,采用單項(xiàng)目或單測(cè)點(diǎn)的信息評(píng)價(jià)邊坡穩(wěn)定具有片面性。在時(shí)空數(shù)據(jù)挖掘理論中,聚類分析是將數(shù)據(jù)集合按照一定規(guī)則劃分成不同類簇的方法,使劃分結(jié)果具有“高內(nèi)聚,低耦合”的顯著特征,以達(dá)到類內(nèi)數(shù)據(jù)相似度高、類間數(shù)據(jù)相似度低的目的?;谏鲜鼍垲愃枷?,根據(jù)實(shí)際需求的不同又衍生了包括劃分聚類、層次聚類、網(wǎng)格聚類、密度聚類和投影聚類等多種算法。
為最大程度挖掘邊坡監(jiān)測(cè)資料、反映數(shù)據(jù)時(shí)空特征,本文主要采用劃分聚類和投影聚類算法開展時(shí)空數(shù)據(jù)挖掘,分別對(duì)邊坡監(jiān)測(cè)資料進(jìn)行測(cè)點(diǎn)區(qū)域劃分和特征提取,以達(dá)到邊坡監(jiān)測(cè)數(shù)據(jù)約簡(jiǎn)的目的。
K-means算法是一種基于劃分的無監(jiān)督學(xué)習(xí)的經(jīng)典聚類算法,通過窮舉的方式尋找全局最優(yōu)結(jié)果,并通過計(jì)算簇中對(duì)象的平均值實(shí)現(xiàn)劃分目的[10]。算法步驟為:初始化類簇中心、初步劃分?jǐn)?shù)據(jù)集合、重生成類簇中心、算法收斂判斷。重復(fù)第2~4步不斷更新類簇中心,直至類簇中心不再發(fā)生變化時(shí),循環(huán)結(jié)束并輸出聚類結(jié)果。
考慮到劃分聚類的K-means算法簡(jiǎn)單易行、效果良好的特點(diǎn),選取K-means算法進(jìn)行邊坡測(cè)點(diǎn)分區(qū)。利用K-means算法實(shí)現(xiàn)邊坡測(cè)點(diǎn)分區(qū)目的,關(guān)鍵在于靈活構(gòu)建測(cè)點(diǎn)的距離度量指標(biāo),綜合考慮不同測(cè)點(diǎn)之間的相似程度。其中,空間距離指標(biāo)可衡量不同測(cè)點(diǎn)之間空間位置的遠(yuǎn)近程度,屬性距離指標(biāo)可衡量不同測(cè)點(diǎn)之間的屬性差異程度。同時(shí),邊坡的變形與其穩(wěn)定性密切相關(guān),變形作為邊坡內(nèi)部穩(wěn)定狀態(tài)動(dòng)態(tài)演化的外部直接反映,可以捕捉到與邊坡穩(wěn)定密切相關(guān)的物理信息。因此,采用邊坡位移測(cè)值計(jì)算屬性距離,同時(shí)采用測(cè)點(diǎn)水平向和垂直向的空間坐標(biāo)計(jì)算空間距離,不同的距離指標(biāo)計(jì)算式如下:
式中:d1為 測(cè)點(diǎn)的屬性距離指標(biāo);Zi j為 第i測(cè) 點(diǎn)第j時(shí)刻的位移測(cè)值;n為測(cè)點(diǎn)總數(shù);m為最長(zhǎng)時(shí)刻數(shù);Zkj為第k測(cè)點(diǎn)第j時(shí)刻的位移測(cè)值;d2為 測(cè)點(diǎn)的空間距離指標(biāo);Xi、Yi、Hi表征i測(cè)點(diǎn)水平向和垂直向的空間坐標(biāo);Xk、Yk、Zk表征k測(cè)點(diǎn)水平向和垂直向的空間坐標(biāo)。
綜合考慮屬性距離和空間距離,加權(quán)確定測(cè)點(diǎn)的綜合距離指標(biāo):
式中:d為測(cè)點(diǎn)的綜合距離指標(biāo);w1和w2分別為屬性距離和空間距離指標(biāo)所占的權(quán)重,滿足w1+w2=1,通常取w1=w2=1/2。
在構(gòu)造測(cè)點(diǎn)綜合距離指標(biāo)的基礎(chǔ)上,基于K-means算法原理實(shí)現(xiàn)邊坡位移測(cè)點(diǎn)的區(qū)域劃分。
1.2.1 投影聚類算法原理投影聚類是處理高維、非線性及非正態(tài)數(shù)據(jù)的一類新型統(tǒng)計(jì)方法,通過尋找反映原始資料數(shù)據(jù)特征的投影,將高維樣本數(shù)據(jù)映射到低維子空間中[3,11]。基于前面K-means聚類算法的測(cè)點(diǎn)分區(qū)結(jié)果,采用投影聚類算法進(jìn)一步提取位移數(shù)據(jù)特征并壓縮數(shù)據(jù)量級(jí)。以下分步驟介紹投影聚類算法。
(1)數(shù)據(jù)無量綱處理。對(duì)測(cè)點(diǎn)數(shù)為n、時(shí)序長(zhǎng)度為m的邊坡位移監(jiān)測(cè)數(shù)據(jù)集進(jìn)行無量綱處理,盡可能消除輸入數(shù)據(jù)之間的量綱差異,并將處理后輸入數(shù)據(jù)以x(i,j)表 示,其中,i=1,2,···,n,j=1,2,···,m,x(i,j)為第i測(cè) 點(diǎn)的第j時(shí)刻值。
為充分提取邊坡位移監(jiān)測(cè)數(shù)據(jù)集的特征,通過采取年均值和年極值兩個(gè)統(tǒng)計(jì)特征對(duì)數(shù)據(jù)集進(jìn)行描述,以表征數(shù)據(jù)集的數(shù)值大小、極值分布和測(cè)值變化等情況。將邊坡監(jiān)測(cè)數(shù)據(jù)集轉(zhuǎn)化為均值集和極值集后再進(jìn)行無量綱處理,方便后續(xù)運(yùn)算。
(2)構(gòu)造投影函數(shù)。為實(shí)現(xiàn)線性空間高維數(shù)據(jù)的投影,需要構(gòu)造投影函數(shù),其中,m維 數(shù)據(jù)的投影方向?yàn)閯t為投影方向上的投影聚類序列值,存在:
(3)構(gòu)建投影指標(biāo)函數(shù)。投影指標(biāo)函數(shù)有助于最優(yōu)投影方向的選取,也是將高維數(shù)據(jù)向低維空間映射的關(guān)鍵。定義投影指標(biāo)函數(shù)為:
式 中:投 影 點(diǎn)zi的 標(biāo) 準(zhǔn) 差Ez為 投影點(diǎn)zi的 平均值;投影點(diǎn)zi的 局部密度rij為樣本間距,R為局部數(shù)據(jù)空間密度的窗口半徑,為單位階躍函數(shù),當(dāng)R≥rij時(shí),其值為0,反之其值為1。
(4)優(yōu)化投影指標(biāo)函數(shù)。投影方向a決定了投影指標(biāo)函數(shù)值Q(a)的大小,因此,最優(yōu)投影方向的選取可以轉(zhuǎn)化為投影指標(biāo)函數(shù)極大值求解的問題,數(shù)學(xué)表達(dá)式為:
(5)綜合聚類分析。將步驟(4)求解得到的最優(yōu)投影方向a*代 入式(4),得到投影特征結(jié)果z*(i)。
1.2.2 基于改進(jìn)投影聚類算法的邊坡特征提取投影聚類的關(guān)鍵在于最優(yōu)投影方向的選取。然而,最優(yōu)投影方向的求解本身是一個(gè)復(fù)雜的非線性優(yōu)化問題,同時(shí)由于邊坡監(jiān)測(cè)數(shù)據(jù)量級(jí)較大,客觀上限制了方法的實(shí)用性,有必要引入合適的優(yōu)化算法幫助確定最優(yōu)投影方向。因此,引入遺傳算法[12]優(yōu)化投影聚類的計(jì)算過程。遺傳算法需要確定目標(biāo)函數(shù),算法目標(biāo)函數(shù)見式(7),約束函數(shù)為
適應(yīng)度函數(shù)是評(píng)價(jià)種群個(gè)體好壞的重要因素,要求算法結(jié)構(gòu)簡(jiǎn)單且計(jì)算結(jié)果非負(fù),以盡可能降低算法復(fù)雜度。根據(jù)目標(biāo)函數(shù)設(shè)置適應(yīng)度函數(shù)f=Q(a),由此計(jì)算出每個(gè)種群個(gè)體的適應(yīng)度值。
選取某拱壩庫(kù)首左岸邊坡為研究對(duì)象。此邊坡屬于該拱壩的近岸壩坡,距離大壩600~1 300 m,順河方向長(zhǎng)700 m,相對(duì)坡高500~700 m。高程1 400 m以上平均坡度為25°~45°,高程1 400 m以下為22°~25°,并有多級(jí)緩坡地段。坡面走向約S60°E,巖層產(chǎn)狀近EW/S∠30°~35°,邊坡為二元結(jié)構(gòu)的單斜順向坡。由于邊坡沿河各段的穩(wěn)定程度不一,因此在初步設(shè)計(jì)時(shí),根據(jù)邊坡地質(zhì)構(gòu)造和失穩(wěn)破壞模式的不同,將1 400 m高程以下的邊坡自上游向下游分為Ⅰ、Ⅱ、Ⅲ區(qū),如圖1所示。
圖1 邊坡地理位置示意Fig. 1 Schematic diagram of slope geographical position
基于Ⅰ區(qū)、Ⅱ區(qū)和Ⅲ區(qū)共24個(gè)地表位移測(cè)點(diǎn)的監(jiān)測(cè)數(shù)據(jù),包括順河向、順坡向和垂直向3個(gè)方向,采用Matlab自編K-means聚類算法進(jìn)行測(cè)點(diǎn)區(qū)域劃分。
在進(jìn)行劃分聚類之前,首先計(jì)算測(cè)點(diǎn)空間距離和屬性距離獲得測(cè)點(diǎn)的綜合距離指標(biāo)。根據(jù)X、Y坐標(biāo)和高程計(jì)算各個(gè)測(cè)點(diǎn)之間的空間距離,同時(shí),根據(jù)順河向、順坡向和垂直向的三向位移測(cè)值計(jì)算各測(cè)點(diǎn)的屬性距離。在對(duì)屬性距離和空間距離進(jìn)行標(biāo)準(zhǔn)化處理后,加權(quán)計(jì)算獲得測(cè)點(diǎn)的綜合距離指標(biāo)。
分區(qū)結(jié)果的正確率為聚類分區(qū)結(jié)果和勘測(cè)設(shè)計(jì)人員的參考分區(qū)結(jié)果相吻合的測(cè)點(diǎn)數(shù)與庫(kù)岸邊坡位移測(cè)點(diǎn)總數(shù)的比值。
設(shè)置初始聚類數(shù)目為3,在不指定聚類中心的情況下,計(jì)算不同測(cè)點(diǎn)間的平方歐式距離以度量測(cè)點(diǎn)間的相似程度,并采用循環(huán)迭代的方式實(shí)現(xiàn)測(cè)點(diǎn)區(qū)域劃分的最優(yōu)效果。如圖2所示,對(duì)比基于劃分聚類算法的測(cè)點(diǎn)分區(qū)結(jié)果和基于初設(shè)資料的測(cè)點(diǎn)原始分區(qū)結(jié)果,在24個(gè)位移測(cè)點(diǎn)中,除測(cè)點(diǎn)交5和交23外,其余22個(gè)測(cè)點(diǎn)的分區(qū)結(jié)果均與基于初設(shè)資料的測(cè)點(diǎn)分區(qū)結(jié)果吻合,分區(qū)正確率達(dá)91.7%,這表明基于K-means算法的測(cè)點(diǎn)分區(qū)結(jié)果較為真實(shí)可信。
圖2 測(cè)點(diǎn)分區(qū)結(jié)果對(duì)比Fig. 2 Comparison of zoning results of measuring points
在測(cè)點(diǎn)分區(qū)的基礎(chǔ)上,采用遺傳算法改進(jìn)的投影聚類算法,對(duì)邊坡監(jiān)測(cè)信息做進(jìn)一步的數(shù)據(jù)特征提取。首先針對(duì)24個(gè)地表位移測(cè)點(diǎn)1997—2019年的測(cè)值,求取三向位移的年均值和年極值,初步提取邊坡監(jiān)測(cè)數(shù)據(jù)集的數(shù)據(jù)特征,形成6個(gè)n=23、m=24的位移測(cè)值矩陣在對(duì)測(cè)值數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化的基礎(chǔ)上,設(shè)置遺傳算法的運(yùn)行參數(shù),包括:迭代次數(shù)k=50、窗口半徑系數(shù)α=0.1、變量下界LB=-1、變量上界UB=1。根據(jù)投影聚類算法原理,進(jìn)一步設(shè)置相應(yīng)目標(biāo)函數(shù)、適應(yīng)度函數(shù)及約束函數(shù)。
以順坡區(qū)位移年均值為例,經(jīng)遺傳算法的迭代計(jì)算,求解獲得最優(yōu)投影方向Ba= (-0.188, 0.324, -0.258,0.066, -0.206, -0.222, 0.140, 0.275, -0.105, -0.114, 0.165, 0.167, 0.400, 0.501, -0.025, 0.275, 0.229, 0.008,-0.039, -0.170, -0.129, 0.040, 0.185);由此得到順坡區(qū)位移年均值的投影聚類結(jié)果:Q(a)=(0.463, 0.468,0.359, 0.237, 0, 0.479, 0.394, 0.352, 0.330, 0.332, 0.172, 0.274, 0.172, 0.052, 0.040, 0.893, 0.301, 0.322, 0.371,0.201, 0.525, 0.037, 0.530, 1.000),Q(a)各列數(shù)值對(duì)應(yīng)各個(gè)地表位移測(cè)點(diǎn)的投影聚類特征值。同理可得其余方向位移測(cè)點(diǎn)年均值、年極值的最優(yōu)投影方向,以及相應(yīng)的測(cè)點(diǎn)投影聚類特征結(jié)果。
綜上,各區(qū)基于改進(jìn)的投影聚類算法計(jì)算過程如圖3、4所示,投影聚類特征值匯總?cè)绫?所示。為方便直觀對(duì)比分析,將表1的投影聚類結(jié)果分區(qū)域、分方向整理成如圖5所示的散點(diǎn)圖。根據(jù)圖5基于遺傳算法的位移測(cè)點(diǎn)投影聚類結(jié)果,以投影聚類特征值作為判斷指標(biāo),可以篩選出需要重點(diǎn)關(guān)注的測(cè)點(diǎn)。
圖5 基于遺傳算法的位移測(cè)點(diǎn)投影聚類結(jié)果Fig. 5 Projection clustering results of displacement measuring points based on genetic algorithm
表1 基于遺傳算法的分區(qū)位移測(cè)點(diǎn)投影聚類結(jié)果Tab. 1 Projection clustering results of subarea displacement measurement points based on genetic algorithm
圖3 遺傳算法改進(jìn)的投影聚類計(jì)算過程(均值)Fig. 3 Improved projection clustering calculation process diagram of genetic algorithm (mean value)
圖4 遺傳算法改進(jìn)的投影聚類計(jì)算過程(極值)Fig. 4 Improved projection clustering calculation process diagram of genetic algorithm (extreme value)
以順河向位移測(cè)值的投影聚類計(jì)算結(jié)果為例,結(jié)合圖6(a)所示的典型測(cè)點(diǎn)的測(cè)值過程線,可以看出:年均值和年極值投影聚類特征值最大的都是測(cè)點(diǎn)交11,最小的都是測(cè)點(diǎn)交7,分別對(duì)應(yīng)順河向測(cè)值序列中的極大值和極小值,兩個(gè)測(cè)點(diǎn)的位移時(shí)間曲線各自向正負(fù)兩個(gè)方向延伸,而投影聚類特征值趨近于中值水平的測(cè)點(diǎn),如測(cè)點(diǎn)交10,測(cè)值波動(dòng)幅度不大且不存在明顯遞增、遞減趨勢(shì),測(cè)點(diǎn)運(yùn)行狀態(tài)比較安全。
圖6 典型測(cè)點(diǎn)位移過程Fig. 6 Typical displacement process of measuring points
根據(jù)上述規(guī)律篩選出其余兩個(gè)方向需要重點(diǎn)關(guān)注的測(cè)點(diǎn)。在順坡向測(cè)點(diǎn)中,大部分測(cè)點(diǎn)的投影聚類特征值均小于0.6,測(cè)值變化比較平穩(wěn),而投影特征值趨近于1的Ⅲ區(qū)測(cè)點(diǎn)Ⅱ03和交6都呈現(xiàn)出明顯遞增趨勢(shì),20年間的測(cè)值變幅達(dá)到600 mm;在垂直向測(cè)點(diǎn)中,除Ⅱ區(qū)的測(cè)點(diǎn)交11外,其余測(cè)點(diǎn)的特征值均小于0.6,測(cè)值變化規(guī)律相似且發(fā)展態(tài)勢(shì)平穩(wěn)。
由上述分析可見,基于遺傳算法優(yōu)化的投影聚類算法可以有效提高計(jì)算效率、壓縮數(shù)據(jù)量級(jí),同時(shí)根據(jù)計(jì)算結(jié)果能快速提取測(cè)點(diǎn)數(shù)據(jù)特征,直觀反映出不同區(qū)域、不同方向的測(cè)值分布情況,篩選出其中需要重點(diǎn)關(guān)注的測(cè)點(diǎn)。
結(jié)合工程實(shí)際,針對(duì)邊坡監(jiān)測(cè)信息的多維特性和時(shí)空特征,引入時(shí)空數(shù)據(jù)挖掘領(lǐng)域的聚類方法,開展多測(cè)點(diǎn)多項(xiàng)目海量邊坡監(jiān)測(cè)信息的時(shí)空數(shù)據(jù)挖掘工作。結(jié)果表明, 綜合考慮庫(kù)岸邊坡測(cè)點(diǎn)屬性特征和空間特征,采用K-means算法度量測(cè)點(diǎn)間的相似程度,可實(shí)現(xiàn)測(cè)點(diǎn)區(qū)域準(zhǔn)確劃分。在測(cè)點(diǎn)分區(qū)的基礎(chǔ)上采用遺傳算法優(yōu)化的投影聚類算法,將高維數(shù)據(jù)向低維空間進(jìn)行映射,可以提取測(cè)點(diǎn)數(shù)據(jù)特征,從而壓縮數(shù)據(jù)量級(jí)并篩選出需重點(diǎn)關(guān)注的測(cè)點(diǎn),即基于聚類分析逐步實(shí)現(xiàn)了邊坡位移監(jiān)測(cè)數(shù)據(jù)的約簡(jiǎn)。