傅露瑩 齊慧君 李同春 姜鵬輝 杜效鵠
(1.河海大學(xué) 水利水電學(xué)院, 南京 210098;2.水電水利規(guī)劃設(shè)計(jì)總院, 北京 100120)
大壩變形過(guò)程中會(huì)受多種復(fù)雜因素影響,如降雨、光照、溫度、滲流等因素,導(dǎo)致數(shù)據(jù)波動(dòng)頻繁,真實(shí)的數(shù)據(jù)特征不能很好地被模擬出來(lái),因此挖掘出波動(dòng)數(shù)據(jù)的隱藏信息具有重要意義,小波分析[1]的發(fā)展一定程度上改善了非平穩(wěn)的監(jiān)測(cè)資料的統(tǒng)計(jì)分析質(zhì)量,但由于模型的基函數(shù)不存在自適應(yīng)性,因此如果想要在分離數(shù)據(jù)的同時(shí)保證損失降到最低,就無(wú)法通過(guò)單一的小波變換實(shí)現(xiàn).而經(jīng)驗(yàn)?zāi)B(tài)分解(EMD)是一種處理非平穩(wěn)數(shù)據(jù)常用的方法,該方法依據(jù)信號(hào)自身的時(shí)間尺度特征對(duì)信號(hào)進(jìn)行分解,具有自適應(yīng)性.任超等[2]對(duì)大壩位移序列進(jìn)行經(jīng)驗(yàn)?zāi)B(tài)分解,有效分離出隱含在時(shí)序中的非線(xiàn)性高頻波動(dòng)成分和低頻趨勢(shì)成分,一定程度上提高了大壩變形預(yù)測(cè)精度,但EMD易出現(xiàn)模態(tài)混疊,為解決上述問(wèn)題引入完全自適應(yīng)噪聲集合經(jīng)驗(yàn)?zāi)B(tài)分解(CEEMDAN),武新章等[3]將CEEMDAN 應(yīng)用到風(fēng)電預(yù)測(cè)中,也證實(shí)了CEEMDAN 能有效克服模態(tài)混疊現(xiàn)象.
隨著人工智能的發(fā)展,隨機(jī)森林(RF)[4]、長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)(LSTM)[5]等機(jī)器學(xué)習(xí)方法已被用于預(yù)測(cè)大壩位移,并取得了不錯(cuò)的效果,雖然這些模型可以處理非線(xiàn)性相關(guān)的數(shù)據(jù),但其很難捕捉變化幅度較大的數(shù)據(jù)彼此之間的關(guān)系,因此針對(duì)數(shù)據(jù)的非平穩(wěn)性,將數(shù)據(jù)預(yù)測(cè)模型和數(shù)據(jù)分離模型相結(jié)合能夠極大提高預(yù)測(cè)準(zhǔn)確率.鄭旭東等[6]利用EMD 和PCA 模型結(jié)合對(duì)觀測(cè)數(shù)據(jù)進(jìn)行分析,從而構(gòu)建映射矩陣進(jìn)行轉(zhuǎn)換,實(shí)現(xiàn)消噪效果,但位移的波動(dòng)不一定是觀測(cè)儀器引起的誤差,更多的是由環(huán)境因素導(dǎo)致的波動(dòng),不能完全去除,馬佳佳等[7]將EEMD 和LSTM、MLR模型結(jié)合起來(lái)應(yīng)用到大壩位移預(yù)測(cè)中,有效提高了預(yù)測(cè)精度,但并未考慮分量與輸入變量之間的相關(guān)性.鑒此,本文提出了CEEMDAN-PCCs-TCN-XGBoost組合預(yù)測(cè)模型,通過(guò)CEEMDAN 算法提取數(shù)據(jù)趨勢(shì),Pearson相關(guān)系數(shù)提取復(fù)雜因素的相關(guān)性,同時(shí)應(yīng)用TCN 算法和XGBoost算法分別進(jìn)行預(yù)測(cè),最后將預(yù)測(cè)結(jié)果累加作為最終的預(yù)測(cè)結(jié)果,將該模型應(yīng)用到某重力壩工程來(lái)驗(yàn)證模型的可行性,并與傳統(tǒng)模型和EEMD-LSTM-MLR 等模型預(yù)測(cè)結(jié)果對(duì)比驗(yàn)證準(zhǔn)確性,具有較高的工程應(yīng)用價(jià)值.
本文通過(guò)信號(hào)分解技術(shù)對(duì)原始位移數(shù)據(jù)進(jìn)行預(yù)處理.使用CEEMDAN 方法的主要原因是由于CEEMDAN 比EMD 和EEMD[8]具 有 更 好 的 反 模 式混合性能,通過(guò)加入經(jīng)EMD 分解后含輔助噪聲的IMF分量,并在分解得到的每一階IMF 分量后都進(jìn)行總體平均計(jì)算,有效解決白噪聲從高頻到低頻的傳遞問(wèn)題,提升分解效果,具體步驟如下:
第1步:在待分析信號(hào)S(t)中添加自適應(yīng)性白噪聲B i(t),CEEMDAN 一階分量見(jiàn)式(1).
式中:T表示添加噪聲的總次數(shù),本文取50次;i表示添加噪聲次數(shù).
第2步:構(gòu)造下一個(gè)分解信號(hào)S(t)=S(t)+αi B i(t),得到IMF2.
第3步:重復(fù)前兩步直到結(jié)束,最終余項(xiàng)見(jiàn)式(2).
式中:c表示產(chǎn)生IMF的個(gè)數(shù).
樣本熵(SampEn)是一種時(shí)間序列復(fù)雜性測(cè)度方法,是對(duì)近似熵算法的改進(jìn),其結(jié)果的精度優(yōu)于近似熵.使用一種非線(xiàn)性動(dòng)力學(xué)參數(shù)SE 來(lái)判斷序列復(fù)雜度和序列隨著維數(shù)變化而產(chǎn)生新模式的概率大小,SE會(huì)隨著序列復(fù)雜程度的增加和生成新模式概率的提高而增大.樣本熵只需少量數(shù)據(jù)即可,對(duì)時(shí)間序列數(shù)據(jù)的自相似性和復(fù)雜性程度進(jìn)行定量分析,因此在工程領(lǐng)域得到廣泛應(yīng)用,具體算法理論參見(jiàn)文獻(xiàn)[9-10].
經(jīng)過(guò)CEEMDAN 分解后的位移原始序列產(chǎn)生若干IMF 分量,為了簡(jiǎn)化計(jì)算模型,通過(guò)減少執(zhí)行指令,從而提高整體的運(yùn)行速度,本研究通過(guò)樣本熵對(duì)分解后的IMF分量序列進(jìn)行重構(gòu).
Pearson相關(guān)系數(shù)方法(PCCs)是能夠衡量一對(duì)隨機(jī)序列之間相關(guān)程度的一種統(tǒng)計(jì)學(xué)方法,可以定量地衡量波動(dòng)數(shù)據(jù)和多種因素之間的相關(guān)關(guān)系,其取值范圍在[-1,1]之間,其中1表示完全正相關(guān),相關(guān)系數(shù)的絕對(duì)值越大,相關(guān)性越強(qiáng).
時(shí)間卷積網(wǎng)絡(luò)(TCN)針對(duì)時(shí)序數(shù)據(jù)模型以CNN模型為基礎(chǔ),增加了入因果卷積、膨脹卷積和殘差鏈接3種特殊結(jié)構(gòu).TCN 模型在處理序列數(shù)據(jù)方面明顯優(yōu)于一般的循環(huán)結(jié)構(gòu),如LSTM 和GRU,并且在相同容量的情況下,它們比循環(huán)結(jié)構(gòu)具有更長(zhǎng)的內(nèi)存,梯度穩(wěn)定、感受靈活、并行性好.
膨脹因果卷積可以通過(guò)調(diào)節(jié)感受尺寸受層數(shù),卷積核尺寸和膨脹系數(shù)以滿(mǎn)足不同長(zhǎng)度序列感知需求,從而解決CNN 中時(shí)間建模長(zhǎng)度受卷積核尺寸限制這一難題,殘差鏈接被證明是訓(xùn)練深層網(wǎng)絡(luò)的有效方法,它使得網(wǎng)絡(luò)可以以跨層的方式傳遞信息.一個(gè)殘差塊包含兩層的卷積和非線(xiàn)性映射,在每層中還加入了Weight Norm 和Dropout來(lái)正則化網(wǎng)絡(luò).TCN 的結(jié)構(gòu)簡(jiǎn)圖如圖1所示.
圖1 TCN 結(jié)構(gòu)簡(jiǎn)圖
設(shè)一維序列的輸入l={s1,s2,…,s n-1}∈R n與卷積核f:{0,…,n-1}→R,其序列元素s的卷積運(yùn)算F的表達(dá)式:
式中:*為卷積運(yùn)算;n為卷積核尺寸;d為擴(kuò)張系數(shù),d越大,間隔步長(zhǎng)越大,越能夠捕獲到更長(zhǎng)時(shí)間序列的狀態(tài)知識(shí),本文選擇d為[1,2,4,8].
XGBoost是一種高效的梯度提升決策樹(shù)算法.在原有的GBDT 基礎(chǔ)上進(jìn)行了改進(jìn),使得模型效果得到大大提升.重要的是,XGBoost是一個(gè)集成模型,作為一種前向加法模型,他的核心是融合了集成Boosting思想,將多個(gè)弱學(xué)習(xí)器通過(guò)一定的方法整合為一個(gè)強(qiáng)學(xué)習(xí)器.即用多棵樹(shù)共同決策,并且用每棵樹(shù)的結(jié)果都是目標(biāo)值與之前所有樹(shù)的預(yù)測(cè)結(jié)果之差并將所有的結(jié)果累加即得到最終的結(jié)果,以此達(dá)到整個(gè)模型效果的提升,并且在目標(biāo)函數(shù)中使用歸一化,以降低模型的復(fù)雜性,防止過(guò)擬合,加快學(xué)習(xí)過(guò)程.它由決策樹(shù)的有效實(shí)現(xiàn)組成,以生成一個(gè)組合模型,其預(yù)測(cè)性能優(yōu)于單獨(dú)使用的單個(gè)技術(shù),輸出函數(shù)計(jì)算如下:
本文提出的CEEMDAN-PCCs-TCN-XGBoost組合預(yù)測(cè)模型,步驟如下:
1)利用CEEMDAN 方法對(duì)數(shù)據(jù)進(jìn)行分解,得到各IMF分量,根據(jù)樣本熵值的大小將分量重構(gòu)為趨勢(shì)項(xiàng)和波動(dòng)項(xiàng),趨勢(shì)項(xiàng)用HST 模型表示,波動(dòng)項(xiàng)根據(jù)Pearson相關(guān)系數(shù)提取相關(guān)性大的作為輸入變量.
2)使用時(shí)間卷積網(wǎng)絡(luò)和XGBoost算法分別對(duì)重構(gòu)后的位移分量進(jìn)行預(yù)測(cè),將全部的預(yù)測(cè)值相加得到最終的位移預(yù)測(cè)值.將位移預(yù)測(cè)結(jié)果與實(shí)測(cè)值進(jìn)行誤差分析,并與其他算法結(jié)果進(jìn)行對(duì)比.
CEEMDAN-PCCs-TCN-XGBoost 模型步驟如圖2所示.
圖2 CEEMDAN-PCCs-TCN-XGBoost模型步驟
以位于中國(guó)云南省某重力壩為例,壩頂高程為1 002 m,共19個(gè)壩段.為監(jiān)測(cè)大壩水平位移,在1、7、12、17及19 號(hào)壩段上布設(shè)正倒垂線(xiàn),共計(jì)18 個(gè)測(cè)點(diǎn),其中12 號(hào)為溢流代表性壩段,也是最主要的壩段,布置了3條不同錨固深度組成的倒垂線(xiàn)組,用以相互校核和比較不同深度的基巖變形的測(cè)值的大小,測(cè)點(diǎn)布置如圖3所示.樣本選取12號(hào)壩段的一個(gè)監(jiān)測(cè)點(diǎn)的倒垂線(xiàn)測(cè)點(diǎn)數(shù)據(jù)為測(cè)試案例,選取1999年7月15日到2005年10月9日之間共計(jì)574組數(shù)據(jù)的水平位移數(shù)據(jù)組成的時(shí)間序列,在輸入數(shù)據(jù)前將數(shù)據(jù)進(jìn)行歸一化處理.
圖3 正倒垂測(cè)點(diǎn)布置
大壩測(cè)點(diǎn)采集的原始位移數(shù)據(jù)受復(fù)雜條件的影響,監(jiān)測(cè)數(shù)據(jù)難免會(huì)包含高頻的波動(dòng),對(duì)模型分析的準(zhǔn)確性造成影響.為進(jìn)一步掌握數(shù)據(jù)的變化規(guī)律,從而獲取更多數(shù)據(jù)內(nèi)部的特征信息,本研究采用CEEMDAN 算法對(duì)原始位移數(shù)據(jù)進(jìn)行分解,分解完的各IMF分量和殘差如圖4所示.
圖4 位移數(shù)據(jù)CEEMDAN 分解結(jié)果
原始數(shù)據(jù)分解后得到9 個(gè)不同尺度的IMF 分量,頻率由高到低,對(duì)應(yīng)的IMF 圖像越來(lái)越平滑,考慮到直接對(duì)全部分解分量進(jìn)行預(yù)測(cè),不僅計(jì)算量迅速增加,還會(huì)由于模型復(fù)雜導(dǎo)致預(yù)測(cè)結(jié)果偏差較大.因此需要將分解后的位移分量進(jìn)行重構(gòu)來(lái)提高預(yù)測(cè)精度.
樣本熵的模式維數(shù)取2,相似容限r(nóng)取25%的原序列標(biāo)準(zhǔn)差,根據(jù)樣本熵值分析各位移分量數(shù)據(jù)的復(fù)雜混亂程度以此重構(gòu)位移分量,樣本熵值越大,自我相似性就越低,產(chǎn)生新模式的概率越高,時(shí)間序列就越復(fù)雜,計(jì)算結(jié)果見(jiàn)表1.
表1 原始位移分量的樣本熵
將分量根據(jù)計(jì)算結(jié)果大小進(jìn)行重構(gòu),IMF3、IMF4值比較接近將其進(jìn)行對(duì)比,為了使數(shù)據(jù)更趨近于理想的位移趨勢(shì)變化,選擇更平滑的曲線(xiàn),將值最大的4個(gè)分量合并作為波動(dòng)項(xiàng)進(jìn)行預(yù)測(cè),將其他相似性高的分量合并作為趨勢(shì)項(xiàng)使用HST 模型進(jìn)行預(yù)測(cè),重構(gòu)的趨勢(shì)項(xiàng)與原位移序列前后對(duì)比如圖5 所示,趨勢(shì)項(xiàng)與原序列前后基本一致,說(shuō)明降噪方法保留了監(jiān)測(cè)數(shù)據(jù)的原始特征.
圖5 重構(gòu)前后的對(duì)比
趨勢(shì)項(xiàng)特征明顯,主要以環(huán)境變量(水位、溫度和時(shí)間)為自變量,以影響變量(如變形、開(kāi)裂或滲流)為因變量,建立回歸模型.一般回歸模型可表示為:
式中:y為效應(yīng)變量;H表示上游庫(kù)水位;a i、b i和c i表示回歸系數(shù);t表示觀測(cè)天數(shù);θ=t/100.
波動(dòng)項(xiàng)波動(dòng)變化幅度較大,眾多的監(jiān)測(cè)資料表明,波動(dòng)項(xiàng)的波動(dòng)變化和庫(kù)水位、壩體溫度的變化相關(guān)性較大,而原始的水位、溫度數(shù)據(jù)同樣波動(dòng)幅度較大,隨機(jī)性較高,有必要對(duì)數(shù)據(jù)進(jìn)行分解以清除數(shù)據(jù)噪音并提取關(guān)鍵信息,選取測(cè)量得到的庫(kù)水位數(shù)據(jù)和壩體內(nèi)溫度計(jì)測(cè)量得到的溫度數(shù)據(jù)如圖6所示,數(shù)據(jù)波動(dòng)頻繁,變化特征不明顯,故采用CEEMDAN 算法對(duì)水位數(shù)據(jù)、溫度數(shù)據(jù)進(jìn)行分解如圖7所示.
圖6 上游水位和溫度變化趨勢(shì)
圖7 CEEMDAN 分解結(jié)果
再利用Pearson相關(guān)系數(shù)分別分析波動(dòng)項(xiàng)分量和各分量之間的相關(guān)性,選取相關(guān)性強(qiáng)的作為輸入變量,選取分量結(jié)果見(jiàn)表2.
表2 最終選取的分量與波動(dòng)項(xiàng)的相關(guān)系數(shù)
本研究采用TCN 算法對(duì)趨勢(shì)項(xiàng)進(jìn)行預(yù)測(cè),采用一維卷積網(wǎng)絡(luò),在Tensorflow 下實(shí)現(xiàn),卷積核大小為8,采用Adam 優(yōu)化器,學(xué)習(xí)速率為0.001,而波動(dòng)項(xiàng)因?yàn)橄嚓P(guān)性較差采用高效的隨機(jī)梯度提升實(shí)現(xiàn)的XGBoost算法預(yù)測(cè),選擇Pearson相關(guān)系數(shù)較高的分量作為輸入變量,每次迭代的模型選擇gbtree.預(yù)測(cè)結(jié)果如圖8所示.
圖8 位移預(yù)測(cè)結(jié)果
為了證明此模型的準(zhǔn)確性,本研究選取SVM、EMD-SVM、EEMD-ARIMA、EEMD-LSTM-MLR 模型對(duì)原位移序列進(jìn)行對(duì)比試驗(yàn),截取測(cè)試集進(jìn)行比較,預(yù)測(cè)結(jié)果如圖9 所示,各模型評(píng)價(jià)指標(biāo)對(duì)比見(jiàn)表3.由結(jié)果可知,本研究提出的CEEMDAN-PCCs-TCN-XGBoost模型相比于其他模型對(duì)大壩位移預(yù)測(cè)的擬合效果更高.
表3 各模型評(píng)價(jià)指標(biāo)對(duì)比
圖9 各模型預(yù)測(cè)結(jié)果對(duì)比
為了更準(zhǔn)確的量化模型預(yù)測(cè)效果,本文選取均方根誤差ERMS對(duì)極值點(diǎn)的預(yù)測(cè)偏差進(jìn)行比較、平均絕對(duì)誤差EMA對(duì)區(qū)間平均預(yù)測(cè)誤差進(jìn)行比較、平均絕對(duì)百分比誤差EMAP用來(lái)體現(xiàn)預(yù)測(cè)值與實(shí)測(cè)值之間的偏離程度以及擬合系數(shù)R2比較預(yù)測(cè)曲線(xiàn)與實(shí)測(cè)位移曲線(xiàn)擬合程度.本文提出的CEEMDAN-PCCs-TCN-XGBoost模型的ERMS、EMA、EMAP指標(biāo)相較于SVM 模型減小了72.72%、77.77%、79.58%,且R2指標(biāo)提高了39.58%;相較于EMD-SVM 模型減小了66.67%、71.42%、73.39%,且R2指標(biāo)提高了21.87%;而對(duì)比EEMD-ARIMA 模型和EEMD-LSTM-MLR模型的ERMS、EMA、EMAP指標(biāo),分別減少了57.14%、60%、63.29%和50%、60%、63.75%,R2指 標(biāo) 提 高了10.41%和9.38%,位移預(yù)測(cè)精度相較于別的模型都有明顯的提升,驗(yàn)證了模型的準(zhǔn)確性.
同時(shí)為了驗(yàn)證模型的可行性,進(jìn)一步采用其他測(cè)點(diǎn)進(jìn)行驗(yàn)算,另選測(cè)點(diǎn)進(jìn)行模型可行性的驗(yàn)證,結(jié)果如圖10所示.由結(jié)果可知,該模型適用于不同測(cè)點(diǎn),驗(yàn)證了模型的可行性.
圖10 其他測(cè)點(diǎn)預(yù)測(cè)結(jié)果
本研究提出了基于CEEMDAN-PCC-TCN-XGBoost模型的位移預(yù)測(cè)方法,將模型運(yùn)用到實(shí)例中,研究結(jié)果表明:
1)CEEMDAN 使得數(shù)據(jù)變得光滑特征明顯,有效避免模態(tài)混疊現(xiàn)象,且相較于EMD-SVM、EEMDARIMA、EEMD-LSTM-MLR 等 模 型CEEMDANPCCs-TCN-XGBoost模型預(yù)測(cè)精度得到大幅度提升,能更好的模擬波動(dòng)數(shù)據(jù)的變化特征,并且得到了水位和溫度分量對(duì)位移波動(dòng)影響大.
2)從結(jié)果來(lái)看,對(duì)波動(dòng)項(xiàng)的預(yù)測(cè)精度有待提高,因此未來(lái)還要繼續(xù)發(fā)掘波動(dòng)項(xiàng)和其他輸入變量的變化相關(guān)性,提高波動(dòng)項(xiàng)的預(yù)測(cè)精度.