国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于Apriori和GP-XGBoost的特高拱壩變形缺失數(shù)據(jù)填補(bǔ)方法

2022-12-18 08:59:12吳誠(chéng)姝劉庭赫
關(guān)鍵詞:貝葉斯大壩關(guān)聯(lián)

吳誠(chéng)姝, 陳 波, 劉庭赫,3

(1.河海大學(xué) 水利水電學(xué)院, 江蘇 南京 210098; 2.河海大學(xué) 水文水資源與水利工程科學(xué)國(guó)家重點(diǎn)實(shí)驗(yàn)室, 江蘇 南京 210098; 3.中水東北勘測(cè)設(shè)計(jì)研究有限責(zé)任公司, 吉林 長(zhǎng)春 130021)

1 研究背景

特高拱壩與近壩庫(kù)岸山體構(gòu)成一個(gè)巨型開放系統(tǒng),超高的壩高、超大的庫(kù)容、復(fù)雜的地質(zhì)條件及惡劣的服役環(huán)境給工程安全保障帶來(lái)極大挑戰(zhàn),因而對(duì)大壩運(yùn)行進(jìn)行實(shí)時(shí)安全監(jiān)測(cè)與評(píng)價(jià)尤為重要。隨著監(jiān)測(cè)技術(shù)水平的日益提高,目前評(píng)定大壩運(yùn)行狀態(tài)的方法主要是采用埋設(shè)原位監(jiān)測(cè)儀器獲取能夠表征大壩實(shí)時(shí)運(yùn)行性態(tài)的監(jiān)測(cè)數(shù)據(jù),再通過(guò)數(shù)據(jù)處理和分析對(duì)大壩的運(yùn)行狀態(tài)作出評(píng)價(jià)。然而,由于監(jiān)測(cè)數(shù)據(jù)量龐大,且受儀器本身及外界因素影響,監(jiān)測(cè)信息中往往存在數(shù)據(jù)缺失的現(xiàn)象,會(huì)削弱監(jiān)測(cè)數(shù)據(jù)的有效性,并對(duì)后期的數(shù)據(jù)分析工作帶來(lái)困難。因此,以合理的方式從海量原始監(jiān)測(cè)數(shù)據(jù)中集中挖掘潛在有意義的規(guī)律和模式,利用大數(shù)據(jù)技術(shù)完成對(duì)缺失數(shù)據(jù)的處理,能夠?yàn)閷?shí)際工程提供有價(jià)值的決策參考[1-2]。

國(guó)內(nèi)外學(xué)者針對(duì)缺失數(shù)據(jù)的填補(bǔ)方法做了相應(yīng)研究,大致分為插值填補(bǔ)、回歸填補(bǔ)、機(jī)器學(xué)習(xí)填補(bǔ)等幾個(gè)方面。部分學(xué)者依據(jù)數(shù)據(jù)集在時(shí)間序列上的相關(guān)性取得了一些成果,如Song等[3]分別采用插值填補(bǔ)、時(shí)間序列統(tǒng)計(jì)方法、RNN和LSTM神經(jīng)網(wǎng)絡(luò)算法對(duì)缺失數(shù)據(jù)進(jìn)行了填補(bǔ),結(jié)果表明LSTM神經(jīng)網(wǎng)絡(luò)在填補(bǔ)長(zhǎng)時(shí)間缺失數(shù)據(jù)方面有較大優(yōu)勢(shì);李正欣等[4]基于多元時(shí)間序列變量間的相關(guān)性進(jìn)行了聯(lián)合數(shù)據(jù)填補(bǔ),該方法具有較高的填補(bǔ)精度和抗干擾能力;王一蓉等[5]利用遺傳優(yōu)化算法獲取最優(yōu)的數(shù)據(jù)參數(shù),如均值、方差等,在此基礎(chǔ)上利用馬爾科夫鏈蒙特卡羅法對(duì)缺失數(shù)據(jù)進(jìn)行填補(bǔ),有效提高了缺失數(shù)據(jù)填補(bǔ)的準(zhǔn)確度。然而,上述缺失數(shù)據(jù)的填補(bǔ)方法僅從時(shí)間序列角度進(jìn)行了相關(guān)分析,而未結(jié)合測(cè)點(diǎn)空間位置的鄰近特性,尚存在一定缺陷。研究表明,通過(guò)空間數(shù)據(jù)挖掘技術(shù)可以尋找數(shù)據(jù)中隱藏的規(guī)律特征,如邱德俊等[6]考慮大壩各測(cè)點(diǎn)的空間鄰近關(guān)系,利用極限學(xué)習(xí)機(jī)擬合了缺失數(shù)值;Xu等[7]基于FCM聚類算法提出了實(shí)時(shí)更新隸屬度矩陣的OCS-FCM水質(zhì)監(jiān)測(cè)缺失數(shù)據(jù)還原方法,結(jié)果表明該方法適用于缺失率大和多屬性的數(shù)據(jù)集;鄭霞忠等[8]利用關(guān)聯(lián)規(guī)則識(shí)別出大壩變形監(jiān)測(cè)數(shù)據(jù)中的強(qiáng)關(guān)聯(lián)序列并結(jié)合DBSCAN聚類算法識(shí)別異常點(diǎn),通過(guò)對(duì)比強(qiáng)關(guān)聯(lián)序列來(lái)甄別由環(huán)境突變引起的異常值。有學(xué)者將空間數(shù)據(jù)挖掘技術(shù)引入到大壩安全監(jiān)測(cè)領(lǐng)域內(nèi),發(fā)現(xiàn)了許多能夠?qū)こ贪踩\(yùn)行決策起關(guān)鍵作用的因素,如利用關(guān)聯(lián)規(guī)則研究工程運(yùn)行影響因子的貢獻(xiàn)程度[9-11],利用聚類算法研究大壩運(yùn)行的時(shí)空特性等[12-14]。

基于上述缺失數(shù)據(jù)填補(bǔ)的研究現(xiàn)狀,傳統(tǒng)的依靠人工方法或統(tǒng)計(jì)學(xué)方法對(duì)大壩監(jiān)測(cè)信息預(yù)處理在效率和精度方面均難以滿足要求,而采用人工智能算法進(jìn)行缺失數(shù)據(jù)填補(bǔ)僅考慮時(shí)間序列的相關(guān)性,在精度上具有一定的局限。據(jù)此,本文綜合考慮特高拱壩監(jiān)測(cè)信息的時(shí)空特性,首先利用Apriori空間關(guān)聯(lián)規(guī)則挖掘各測(cè)點(diǎn)間的同步性,對(duì)測(cè)點(diǎn)數(shù)據(jù)的相關(guān)性進(jìn)行分析,然后根據(jù)大壩各測(cè)點(diǎn)間監(jiān)測(cè)數(shù)據(jù)的空間強(qiáng)關(guān)聯(lián)信息,采用優(yōu)化的XGBoost(extreme gradient boosting)回歸模型進(jìn)行目標(biāo)測(cè)點(diǎn)的缺失測(cè)值填補(bǔ)。提出了從時(shí)間與空間維度融合關(guān)聯(lián)規(guī)則挖掘和人工智能算法方面研究監(jiān)測(cè)信息缺失的處理方法,有效提高了監(jiān)測(cè)數(shù)據(jù)的可靠性和完整性,以期為特高拱壩服役性態(tài)分析做好基礎(chǔ)性工作。

2 基于關(guān)聯(lián)分析的監(jiān)測(cè)信息空間挖掘

2.1 關(guān)聯(lián)規(guī)則定義

假設(shè)存在數(shù)據(jù)集D={t1,t2,…,tk,…,tn},tk={i1,i2,…,im,…,ip},tk(k=1,2,…,n)稱為事務(wù),im(m=1,2,…,p)稱為項(xiàng)。設(shè)I={i1,i2,…,im}為D中全體項(xiàng)組成的集合,則I的任何子集稱為D中的項(xiàng)集。若X、Y為D中的兩個(gè)項(xiàng)集,且X∩Y=?,蘊(yùn)涵式X?Y成為關(guān)聯(lián)規(guī)則,X、Y分別稱為X?Y的前項(xiàng)和后項(xiàng)[15]。關(guān)聯(lián)規(guī)則常用的基本概念如表1所示。

表1 關(guān)聯(lián)規(guī)則中常見的基本概念

2.2 Apriori算法原理

Apriori 算法是使用頻繁項(xiàng)集的先驗(yàn)知識(shí)從而生成關(guān)聯(lián)規(guī)則的經(jīng)典算法,該算法采用自底向上的遍歷思想,主要使用逐層搜索的迭代方法挖掘大數(shù)據(jù)中潛在的事物聯(lián)系,以確保關(guān)聯(lián)規(guī)則的準(zhǔn)確性[16]。為提高算法效率,Apriori算法利用了一個(gè)重要性質(zhì),即頻繁項(xiàng)集的任一子集均為頻繁項(xiàng)集。利用該性質(zhì)可有效縮小頻繁項(xiàng)集的搜索空間[17]。

該算法建立關(guān)聯(lián)規(guī)則主要包含兩個(gè)步驟,一是通過(guò)迭代搜索事務(wù)集D中全部的頻繁項(xiàng)集,非頻繁項(xiàng)集在迭代過(guò)程中被剪枝剔除,直至不能搜索到任何頻繁k項(xiàng)集為止;二是比較頻繁項(xiàng)集間的最小置信度以建立強(qiáng)關(guān)聯(lián)規(guī)則。該算法的主要流程如圖1所示。

圖1 基于Apriori算法的關(guān)聯(lián)挖掘流程圖

2.3 基于Apriori算法的大壩監(jiān)測(cè)信息空間關(guān)聯(lián)挖掘

為了評(píng)定大壩各測(cè)點(diǎn)監(jiān)測(cè)信息的相關(guān)性,采用Apriori算法開展多測(cè)點(diǎn)空間關(guān)聯(lián)挖掘,其流程如圖2所示。

結(jié)合圖2將大壩監(jiān)測(cè)信息空間關(guān)聯(lián)挖掘的主要步驟介紹如下:

(1)設(shè)定前、后項(xiàng)。關(guān)聯(lián)挖掘的對(duì)象主要是空間上位于不同位置的兩個(gè)測(cè)點(diǎn),同一時(shí)間截面內(nèi)兩個(gè)測(cè)點(diǎn)具有不同的監(jiān)測(cè)效應(yīng)量,因此將兩個(gè)測(cè)點(diǎn)的監(jiān)測(cè)效應(yīng)量分別作為前項(xiàng)和后項(xiàng),前項(xiàng)X表征某測(cè)點(diǎn)在t時(shí)刻的監(jiān)測(cè)效應(yīng)量信息,后項(xiàng)Y表征另一個(gè)測(cè)點(diǎn)在t時(shí)刻的監(jiān)測(cè)效應(yīng)量信息。

(2)劃分?jǐn)?shù)據(jù)屬性。由于大壩監(jiān)測(cè)數(shù)據(jù)是連續(xù)的測(cè)值,難以反映定性的信息,因此在關(guān)聯(lián)分析前,需要根據(jù)測(cè)值的特征將其歸屬于不同的屬性區(qū)間,這里結(jié)合監(jiān)測(cè)數(shù)據(jù)的相似性特征,以測(cè)值的大小和增量作為衡量測(cè)值相似性的指標(biāo),按照測(cè)值的大小和增量劃分屬性區(qū)間如下:

假設(shè)大壩監(jiān)測(cè)數(shù)據(jù)存在T個(gè)時(shí)間截面的測(cè)值,將測(cè)值特征數(shù)據(jù)集記為DT,按照等距分箱的思想,結(jié)合特征數(shù)據(jù)集中的最大值DT max和最小值DT min將數(shù)據(jù)集DT等距分為3個(gè)屬性區(qū)間,即:

d=(DT max-DT min)/3

(1)

(2)

由此生成測(cè)值特征的屬性區(qū)間包括[a1,a2)、[a2,a3)、[a3,a4]。

(3)設(shè)定閾值。為了評(píng)定測(cè)點(diǎn)間的整體關(guān)聯(lián)性,在支持度的基礎(chǔ)上提出測(cè)點(diǎn)同步支持度的概念,定義如下:

假設(shè)存在測(cè)點(diǎn)δ1,δ2,…,δn,共T個(gè)時(shí)間截面的監(jiān)測(cè)數(shù)據(jù),經(jīng)步驟(2)轉(zhuǎn)換某一時(shí)間截面t的項(xiàng)集集合記為xi(i=1, 2,…,n),則n個(gè)測(cè)點(diǎn)的同步支持度為:

(3)

通過(guò)同步支持度可以定量評(píng)定不同測(cè)點(diǎn)之間時(shí)空數(shù)據(jù)的相似性,在關(guān)聯(lián)挖掘時(shí)需要設(shè)定最小同步支持度和最小置信度作為強(qiáng)關(guān)聯(lián)測(cè)點(diǎn)的篩選條件。

(4)挖掘強(qiáng)關(guān)聯(lián)測(cè)點(diǎn)。最后當(dāng)測(cè)點(diǎn)間滿足設(shè)定的同步支持度和置信度閾值時(shí),輸出強(qiáng)關(guān)聯(lián)測(cè)點(diǎn);否則認(rèn)為測(cè)點(diǎn)關(guān)聯(lián)性較弱,予以刪除。

圖2 大壩監(jiān)測(cè)信息空間關(guān)聯(lián)挖掘流程圖

3 基于GP-XGBoost的監(jiān)測(cè)信息空缺填補(bǔ)

3.1 基于關(guān)聯(lián)測(cè)點(diǎn)的測(cè)值殘缺填補(bǔ)

如圖3所示,假設(shè)某混凝土拱壩上存在測(cè)點(diǎn)①、②、③,測(cè)點(diǎn)②存在殘缺信息,經(jīng)關(guān)聯(lián)分析后建立了測(cè)點(diǎn)①→②,測(cè)點(diǎn)③→②的強(qiáng)關(guān)聯(lián)規(guī)則,即考慮采用測(cè)點(diǎn)①、③對(duì)測(cè)點(diǎn)②的空缺數(shù)據(jù)進(jìn)行填補(bǔ),將測(cè)點(diǎn)②的監(jiān)測(cè)序列表示為測(cè)點(diǎn)①和測(cè)點(diǎn)③的函數(shù)如下:

δ2=g(δ1)+g(δ3)+ε0

(4)

式中:g為測(cè)點(diǎn)①和測(cè)點(diǎn)③關(guān)于測(cè)點(diǎn)②的效應(yīng)量函數(shù);ε0為用測(cè)點(diǎn)①和測(cè)點(diǎn)③擬合測(cè)點(diǎn)②的殘差。

傳統(tǒng)的基于空間近鄰的數(shù)據(jù)缺失填補(bǔ)方法僅考慮了測(cè)點(diǎn)的空間位置,未從測(cè)值本身特征去分析各測(cè)點(diǎn)間的相關(guān)性,且從空間位置上來(lái)看,缺失測(cè)值的目標(biāo)測(cè)點(diǎn)附近布置了多個(gè)測(cè)點(diǎn),很難評(píng)定選用哪些測(cè)點(diǎn)填補(bǔ)數(shù)據(jù)最為合適[18]。為解決這個(gè)問(wèn)題,本文首先對(duì)目標(biāo)測(cè)點(diǎn)的鄰近測(cè)點(diǎn)監(jiān)測(cè)效應(yīng)量進(jìn)行關(guān)聯(lián)分析,然后按照與目標(biāo)測(cè)點(diǎn)的同步支持度進(jìn)行排序,最后優(yōu)先選取關(guān)聯(lián)度高的測(cè)點(diǎn)對(duì)目標(biāo)測(cè)點(diǎn)進(jìn)行填補(bǔ)。為了進(jìn)一步提高填補(bǔ)精度,采用貝葉斯優(yōu)化的XGBoost模型對(duì)缺失值進(jìn)行填補(bǔ)。

圖3 基于關(guān)聯(lián)測(cè)點(diǎn)的測(cè)值殘缺填補(bǔ)方法示意圖

3.2 GP-XGBoost算法原理

XGBoost算法是由傳統(tǒng)梯度提升樹算法(gradient boosting decision tree,GBDT)發(fā)展而來(lái),相比于GBDT算法,XGBoost算法對(duì)損失函數(shù)加以改進(jìn),支持并行計(jì)算,大幅提高了算法效率[19-20]。

本文主要利用XGBoost算法高效、精準(zhǔn)的回歸預(yù)測(cè)能力結(jié)合強(qiáng)關(guān)聯(lián)測(cè)點(diǎn)的已知信息對(duì)目標(biāo)測(cè)點(diǎn)的未知信息進(jìn)行填補(bǔ)。XGBoost算法的核心思想是多個(gè)基礎(chǔ)模型的線性組合[21],對(duì)于一棵含t個(gè)基礎(chǔ)模型的集成樹來(lái)說(shuō),可表示為:

(5)

構(gòu)建目標(biāo)函數(shù)如下:

(6)

其中,Ω(fj)為正則項(xiàng),可表示為:

(7)

式中:γ和λ為正則化系數(shù);T為葉子節(jié)點(diǎn)的個(gè)數(shù);ω為葉子節(jié)點(diǎn)的權(quán)重。

對(duì)函數(shù)式(6)中損失函數(shù)L作二階泰勒展開:

f(x+Δx)≈f(x)+f(x)′Δx+f(x)″Δx2

(8)

(9)

gi和hi可以表示為:

(10)

通過(guò)迭代找到使目標(biāo)函數(shù)最大化降低的ft,即完成模型的訓(xùn)練過(guò)程。

為了進(jìn)一步提高XGBoost模型的精度,本文結(jié)合基于高斯過(guò)程(Gaussian Process, GP)的貝葉斯優(yōu)化算法優(yōu)化XGBoost模型的重要參數(shù),以確定最佳的回歸模型。貝葉斯優(yōu)化框架是一個(gè)迭代的過(guò)程,主要通過(guò)采集函數(shù)選擇下一個(gè)最佳評(píng)估點(diǎn)xt并計(jì)算目標(biāo)函數(shù)值yt,更新歷史觀測(cè)集和概率代理模型,以此不斷循環(huán)得到最優(yōu)解[22-23]。貝葉斯優(yōu)化框架最核心的兩部分是概率代理模型和采集函數(shù),概率代理模型用于代理目標(biāo)函數(shù),其中迭代速度快、擴(kuò)展性高的高斯過(guò)程應(yīng)用較為廣泛,考慮到大壩監(jiān)測(cè)數(shù)據(jù)集龐大,以高斯過(guò)程作為優(yōu)化內(nèi)核可以明顯提高效率[24];采集函數(shù)由后驗(yàn)概率分布決定,作用是選擇下一個(gè)潛力最高的評(píng)估數(shù)據(jù)。以下詳細(xì)介紹概率代理模型(高斯過(guò)程)和采集函數(shù)具體內(nèi)容:

(1)高斯過(guò)程。在以高斯過(guò)程作為內(nèi)核進(jìn)行參數(shù)優(yōu)化時(shí),認(rèn)為目標(biāo)函數(shù)f(x)滿足GP過(guò)程,構(gòu)成如下:

f(x)~GP(E(f(x)),k(x,x′))

(11)

式中:E(x)為期望,通常取值為0;k(x,x′)為x的協(xié)方差。

假設(shè)一個(gè)滿足均值為0的先驗(yàn)分布p(f|X,θ):

p(f|X,θ)=N(0,∑)

(12)

式中:X為訓(xùn)練集{x1,x2,…,xt};f為目標(biāo)函數(shù)值集合{f(x1),f(x2),…,f(xt)}; ∑為k(x,x′)構(gòu)成的協(xié)方差矩陣(∑i,j=k(xi,xj));θ為超參數(shù)。

考慮存在滿足相同高斯分布的觀測(cè)噪聲ε,得到似然分布:

p(ε)=N(0,σ2)

(13)

P(y|f)=N(f,σ2I)

(14)

式中:y為觀測(cè)值集合{y1,y2,…,yt}。

進(jìn)一步地,結(jié)合公式(12)和(14),可以得到邊際似然分布:

=N(0,∑+σ2I)

(15)

根據(jù)高斯過(guò)程,存在如下聯(lián)合分布:

(16)

K*T={k(x1,X*),k(x2,X*),…,k(xt,X*)}

(17)

K**=k(X*,X*)

(18)

式中:f*為函數(shù)預(yù)測(cè)值;X*為輸入值。

根據(jù)公式(16),得到預(yù)測(cè)分布如下 :

p(f*|X,y,X*)=N(, Cov(f*))

(19)

=K*T[∑+σ2I]-1y

(20)

Cov(f*)=K**-K*T[∑+σ2I]-1K*

(21)

式中: 為預(yù)測(cè)均值; Cov(f*)為預(yù)測(cè)協(xié)方差。

(2)采集函數(shù)。采集函數(shù)作為評(píng)估潛力參數(shù)的重要依據(jù),通常優(yōu)化目標(biāo)便是在全集參數(shù)A中尋找f(x)達(dá)到極值時(shí)的X集合,其表達(dá)式如下:

x*=arg maxx∈Af(x)

(22)

為了對(duì)貝葉斯參數(shù)優(yōu)化過(guò)程中的模型精度進(jìn)行定量評(píng)價(jià),本文以K-折交叉驗(yàn)證產(chǎn)生的均方誤差MSE作為訓(xùn)練過(guò)程中模型精度的評(píng)價(jià)指標(biāo)。

假設(shè)通過(guò)關(guān)聯(lián)分析得到目標(biāo)測(cè)點(diǎn)δn+1的n個(gè)強(qiáng)關(guān)聯(lián)測(cè)點(diǎn)δ1,δ2,…,δn,將n個(gè)強(qiáng)關(guān)聯(lián)測(cè)點(diǎn)的測(cè)值作為輸入,目標(biāo)測(cè)點(diǎn)δn+1的測(cè)值作為輸出,則建立的GP-XGBoost算法的訓(xùn)練優(yōu)化過(guò)程如圖4所示。

圖4 GP-XGBoost算法的訓(xùn)練優(yōu)化流程圖

4 工程實(shí)例

錦屏一級(jí)水電站特高拱壩地處深山峽谷河段,壩基高程為1 580.00 m,最大壩高為305.00 m,正常蓄水位為1 880.00 m,屬于大(1)型工程。該工程目前處于穩(wěn)定運(yùn)行階段,為了監(jiān)測(cè)壩體變形,分別在5#、9#、11#、13#、16#和19#壩段不同高程布置垂線測(cè)點(diǎn),如圖5所示,收集了該特高拱壩近5年的水平徑向位移監(jiān)測(cè)數(shù)據(jù)進(jìn)行研究。

4.1 測(cè)點(diǎn)變形序列關(guān)聯(lián)分析

基于Apriori算法進(jìn)行測(cè)點(diǎn)序列的關(guān)聯(lián)分析時(shí),首先從空間位置上選取與目標(biāo)測(cè)點(diǎn)位置相鄰的多個(gè)測(cè)點(diǎn),即以目標(biāo)測(cè)點(diǎn)為中心,關(guān)聯(lián)分析窗口取目標(biāo)測(cè)點(diǎn)相鄰的8個(gè)測(cè)點(diǎn)(圖6),分別計(jì)算與中心目標(biāo)測(cè)點(diǎn)的關(guān)聯(lián)程度。首先將變形數(shù)據(jù)從定量測(cè)值轉(zhuǎn)換為定性屬性,考慮用變形測(cè)值大小和增量衡量測(cè)點(diǎn)變形序列的關(guān)聯(lián)程度,按照測(cè)值大小劃分為A、B、C 3個(gè)屬性區(qū)間,分別表示變形較大、變形一般和變形較??;又按照增量情況劃分為a、b、c 3個(gè)屬性區(qū)間,分別表示變形相對(duì)上一時(shí)刻增大、不變和減小,在此基礎(chǔ)上展開關(guān)聯(lián)挖掘工作。

圖6 關(guān)聯(lián)分析測(cè)點(diǎn)選取窗口示意圖(高程單位:m)

以PL11-3測(cè)點(diǎn)作為目標(biāo)測(cè)點(diǎn),選取2016年1月至2021年3月共1 791組水平徑向位移監(jiān)測(cè)數(shù)據(jù),分別與其空間相鄰測(cè)點(diǎn)PL9-2、PL9-3、PL9- 4、PL11-2、PL11-4、PL13-2、PL13-3、PL13- 4進(jìn)行關(guān)聯(lián)分析,計(jì)算結(jié)果如表2、圖7所示。結(jié)果表明,當(dāng)設(shè)置最小同步支持度為85%時(shí),與PL11-3測(cè)點(diǎn)強(qiáng)關(guān)聯(lián)測(cè)點(diǎn)為PL11-2、PL9-3、PL13-3和PL11-4;當(dāng)設(shè)置最小同步支持度為90%時(shí),強(qiáng)關(guān)聯(lián)測(cè)點(diǎn)為PL11-4。

為了進(jìn)一步驗(yàn)證強(qiáng)關(guān)聯(lián)測(cè)點(diǎn)的可信度,計(jì)算最小同步支持度為85%時(shí)的置信度,設(shè)置最小置信度為80%,表3為PL11-3測(cè)點(diǎn)與強(qiáng)關(guān)聯(lián)測(cè)點(diǎn)置信度計(jì)算表。由表3可見,PL11-4和PL13-3測(cè)點(diǎn)滿足置信度要求,PL11-2和PL9-3測(cè)點(diǎn)在屬性集Ba區(qū)間與目標(biāo)測(cè)點(diǎn)PL11-3的關(guān)聯(lián)規(guī)則略小于最小置信度,但考慮到這兩個(gè)測(cè)點(diǎn)出現(xiàn)在Ba屬性集所占的比例較低,因此保留這兩個(gè)強(qiáng)關(guān)聯(lián)測(cè)點(diǎn),用于填補(bǔ)目標(biāo)測(cè)點(diǎn)PL11-3的殘缺數(shù)據(jù)。

表2 各測(cè)點(diǎn)關(guān)聯(lián)同步支持度計(jì)算表 %

圖7 基于Apriori算法的關(guān)聯(lián)挖掘結(jié)果示意圖

表3 PL11-3測(cè)點(diǎn)與強(qiáng)關(guān)聯(lián)測(cè)點(diǎn)置信度計(jì)算表 %

4.2 GP-XGBoost模型對(duì)缺失值的填補(bǔ)結(jié)果

目標(biāo)測(cè)點(diǎn)PL11-3存在部分連續(xù)的殘缺信息,為了驗(yàn)證本文提出數(shù)據(jù)填補(bǔ)方法的有效性,首先假定該測(cè)點(diǎn)在2020年12月20日測(cè)點(diǎn)數(shù)據(jù)丟失,測(cè)值為42.540,其他關(guān)聯(lián)測(cè)點(diǎn)數(shù)據(jù)集較完整?;谏鲜鲫P(guān)聯(lián)分析的結(jié)果,按照與目標(biāo)測(cè)點(diǎn)PL11-3關(guān)聯(lián)度從高到低的順序,依次選取不同數(shù)量的測(cè)點(diǎn)變形序列作為XGBoost模型的輸入樣本,輸出為目標(biāo)測(cè)點(diǎn)PL11-3除缺失數(shù)據(jù)以外的完整數(shù)據(jù),建立XGBoost模型進(jìn)行訓(xùn)練,再采用訓(xùn)練好的模型對(duì)PL11-3測(cè)點(diǎn)缺失數(shù)據(jù)進(jìn)行填補(bǔ)。

XGBoost模型基于python平臺(tái)進(jìn)行構(gòu)建,主要參數(shù)max_depth(基模型包含最大深度)和n_estimators(基模型數(shù)量)對(duì)XGBoost模型的回歸精度起著關(guān)鍵作用,故采用貝葉斯優(yōu)化,迭代100次,圖8(a)、8(b)分別為貝葉斯優(yōu)化和隨機(jī)搜索過(guò)程中均方誤差MSE的變化曲線。由圖8可見,貝葉斯優(yōu)化每次迭代過(guò)程的MSE均較小,具有主動(dòng)尋優(yōu)的能力,而隨機(jī)搜索由于參數(shù)的隨機(jī)組合會(huì)出現(xiàn)局部MSE較大的情況。貝葉斯優(yōu)化在迭代23次后MSE達(dá)到最小,為7.64×10-6mm2,而隨機(jī)搜索在迭代68次后MSE才達(dá)到最小,為2.60×10-5mm2。因此,貝葉斯優(yōu)化采用貝葉斯優(yōu)化參數(shù)能夠高效尋優(yōu),具有良好的表現(xiàn)。

基于4.1節(jié)關(guān)聯(lián)分析的結(jié)果,按照與目標(biāo)測(cè)點(diǎn)PL11-3關(guān)聯(lián)程度由高到低的順序選取不同的學(xué)習(xí)樣本對(duì)其缺失值進(jìn)行填補(bǔ),XGBoost參數(shù)由貝葉斯優(yōu)化,結(jié)果如表4所示。

圖8 貝葉斯優(yōu)化和隨機(jī)搜索過(guò)程中MSE的變化曲線

表4 不同學(xué)習(xí)樣本對(duì)目標(biāo)測(cè)點(diǎn)PL11-3缺失數(shù)據(jù)的填補(bǔ)結(jié)果

由表4可見,當(dāng)采用強(qiáng)關(guān)聯(lián)測(cè)點(diǎn)PL11-2、PL11-4作為學(xué)習(xí)樣本時(shí),填補(bǔ)值與缺失值(42.540)最為接近,即精度最高。除此以外,采用其他的強(qiáng)關(guān)聯(lián)測(cè)點(diǎn)作為填補(bǔ)測(cè)點(diǎn)時(shí),也能夠取得較好的填補(bǔ)結(jié)果,如{PL11-2、PL11-4、PL9-3}、{PL11-2、PL11-4、PL9-3、PL13-3}等。值得注意的是,當(dāng)學(xué)習(xí)樣本中出現(xiàn)鄰近的非關(guān)聯(lián)測(cè)點(diǎn)時(shí),會(huì)導(dǎo)致模型精度產(chǎn)生不同程度的降低,影響填補(bǔ)值的精度,如當(dāng)學(xué)習(xí)樣本為與目標(biāo)測(cè)點(diǎn)關(guān)聯(lián)程度最低的PL9-2和PL9-4測(cè)點(diǎn)時(shí),模型的估計(jì)值為42.820,是估計(jì)偏差最大的情況。因此在采用空間鄰近關(guān)系填補(bǔ)缺失測(cè)值之前進(jìn)行關(guān)聯(lián)挖掘是很有必要的。

表5給出了不同方法對(duì)測(cè)點(diǎn)PL11-3的數(shù)據(jù)缺失填補(bǔ)結(jié)果比較,可見本文采用的貝葉斯優(yōu)化XGBoost算法的填補(bǔ)精度要優(yōu)于傳統(tǒng)的插值方法。

表5 采用不同方法對(duì)目標(biāo)測(cè)點(diǎn)PL11-3數(shù)據(jù)缺失的填補(bǔ)結(jié)果比較 mm

大壩監(jiān)測(cè)數(shù)據(jù)中的粗差被剔除后,會(huì)出現(xiàn)多個(gè)單點(diǎn)空缺,另外,由于監(jiān)測(cè)儀器損壞或環(huán)境等因素影響,監(jiān)測(cè)數(shù)據(jù)中也會(huì)存在連續(xù)的殘缺信息,因此采用本文提出的方法,利用強(qiáng)關(guān)聯(lián)測(cè)點(diǎn)PL11-2、PL11-4對(duì)目標(biāo)測(cè)點(diǎn)PL11-3存在的多段連續(xù)空缺測(cè)值進(jìn)行填補(bǔ),結(jié)果見表6。

表6 基于GP-XGBoost的測(cè)點(diǎn)PL11-3多測(cè)值填補(bǔ)結(jié)果

5 結(jié) 論

針對(duì)傳統(tǒng)缺失測(cè)值填補(bǔ)效率與精度的不足,借助關(guān)聯(lián)挖掘規(guī)則,構(gòu)建了目標(biāo)測(cè)點(diǎn)空間分布的強(qiáng)關(guān)聯(lián)信息,以此為基礎(chǔ)利用優(yōu)化的回歸模型進(jìn)行數(shù)據(jù)擬合,實(shí)現(xiàn)了從時(shí)空角度結(jié)合關(guān)聯(lián)規(guī)則挖掘、機(jī)器學(xué)習(xí)等技術(shù)手段對(duì)特高拱壩長(zhǎng)期變形缺失數(shù)據(jù)的高效精準(zhǔn)填補(bǔ),為大壩安全監(jiān)控信息的挖掘、建模及評(píng)價(jià)工作提供了可靠基礎(chǔ),主要成果如下:

(1)考慮各測(cè)點(diǎn)間的空間鄰近關(guān)系,引進(jìn)空間關(guān)聯(lián)規(guī)則,基于Apriori算法挖掘了目標(biāo)測(cè)點(diǎn)的鄰近測(cè)點(diǎn)監(jiān)測(cè)效應(yīng)量在空間維度上的關(guān)聯(lián)性,按照與目標(biāo)測(cè)點(diǎn)的同步支持度排序結(jié)果,優(yōu)選出與目標(biāo)測(cè)點(diǎn)關(guān)聯(lián)度高的測(cè)點(diǎn),獲取了測(cè)值填補(bǔ)的強(qiáng)關(guān)聯(lián)信息。

(2)結(jié)合基于高斯過(guò)程的貝葉斯優(yōu)化算法優(yōu)化XGBoost模型的重要參數(shù),確定了最佳的回歸模型。根據(jù)強(qiáng)關(guān)聯(lián)測(cè)點(diǎn)的已知信息,利用XGBoost算法高效、精準(zhǔn)的回歸預(yù)測(cè)能力對(duì)目標(biāo)測(cè)點(diǎn)中的殘缺測(cè)值進(jìn)行填補(bǔ),高精度還原了變形監(jiān)測(cè)數(shù)據(jù)中的缺失信息,保障了監(jiān)測(cè)信息的完整性與準(zhǔn)確性,為后續(xù)的分析工作提拱了高質(zhì)量的數(shù)據(jù)基礎(chǔ)。

(3)以錦屏一級(jí)水電站特高拱壩PL11-3測(cè)點(diǎn)為例,可得采用強(qiáng)關(guān)聯(lián)測(cè)點(diǎn)作為學(xué)習(xí)樣本時(shí),填補(bǔ)值與缺失值最為接近,當(dāng)學(xué)習(xí)樣本中出現(xiàn)鄰近的非關(guān)聯(lián)測(cè)點(diǎn)時(shí),會(huì)導(dǎo)致模型精度產(chǎn)生不同程度的降低,進(jìn)而驗(yàn)證了采用空間關(guān)聯(lián)挖掘填補(bǔ)缺失測(cè)值的必要性。

猜你喜歡
貝葉斯大壩關(guān)聯(lián)
“一帶一路”遞進(jìn),關(guān)聯(lián)民生更緊
大壩:力與美的展現(xiàn)
奇趣搭配
貝葉斯公式及其應(yīng)用
智趣
讀者(2017年5期)2017-02-15 18:04:18
幫海貍建一座大壩
大壩
基于貝葉斯估計(jì)的軌道占用識(shí)別方法
一種基于貝葉斯壓縮感知的說(shuō)話人識(shí)別方法
電子器件(2015年5期)2015-12-29 08:43:15
IIRCT下負(fù)二項(xiàng)分布參數(shù)多變點(diǎn)的貝葉斯估計(jì)
雅安市| 河源市| 武清区| 法库县| 英吉沙县| 四子王旗| 达尔| 金门县| 巴彦淖尔市| 航空| 依兰县| 乌兰察布市| 贵德县| 常熟市| 南康市| 射洪县| 手游| 龙井市| 年辖:市辖区| 兴和县| 耒阳市| 峨眉山市| 民勤县| 大埔区| 太保市| 武隆县| 庆云县| 永兴县| 太仆寺旗| 香格里拉县| 万州区| 喀喇沁旗| 陇川县| 霍邱县| 萨嘎县| 湘潭市| 泾阳县| 出国| 库尔勒市| 黔南| 疏勒县|