谷艷昌,吳云星,黃海兵,龐 瓊
(1.南京水利科學(xué)研究院大壩安全與管理研究所,江蘇 南京 210029; 2.水利部大壩安全管理中心,江蘇 南京 210029)
我國(guó)共有水庫(kù)9.8萬(wàn)余座,其中土石壩占絕大部分。近年來(lái),大壩安全越來(lái)越受到重視,大壩安全早期預(yù)警需求也越來(lái)越迫切[1-2]。如何根據(jù)大壩安全監(jiān)測(cè)數(shù)據(jù),挖掘大壩潛在安全運(yùn)行信息,實(shí)現(xiàn)大壩安全準(zhǔn)確預(yù)警,對(duì)于大壩安全應(yīng)急管理非常重要。目前,在大壩安全預(yù)測(cè)預(yù)警領(lǐng)域,主要有傳統(tǒng)方法和智能方法。傳統(tǒng)方法有統(tǒng)計(jì)模型、確定性模型、混合模型,智能方法諸如支持向量機(jī)(support vector machines,SVM)模型[3]、神經(jīng)網(wǎng)絡(luò)模型[4]、小波分析[5]等已得到廣泛應(yīng)用。其中支持向量機(jī)模型基于結(jié)構(gòu)風(fēng)險(xiǎn)最小原理,能有效地解決小樣本、高維數(shù)、非線性的問(wèn)題,具有良好的泛化能力[6-9]。但支持向量機(jī)精度與懲罰參數(shù)c和核函數(shù)參數(shù)g密切相關(guān),其參數(shù)優(yōu)化方法有傳統(tǒng)的k-折交叉驗(yàn)證法(k-CV)、遺傳算法(GA)[10-11]、粒子群算法(PSO)[12-13]、人工蜂群算法(ABCA)[14]、布谷鳥搜索算法(CS)[15]等啟發(fā)式算法。傳統(tǒng)的支持向量機(jī)在k-CV意義下,采用網(wǎng)格劃分尋找最佳參數(shù),其可以有效避免過(guò)學(xué)習(xí)和欠學(xué)習(xí)狀態(tài)的發(fā)生,但同時(shí)存在精度低、在更大范圍內(nèi)參數(shù)尋優(yōu)費(fèi)時(shí)等缺點(diǎn)[16]。遺傳算法是一種適合復(fù)雜系統(tǒng)優(yōu)化的自適應(yīng)概率優(yōu)化技術(shù),收斂性快、精度高,尋優(yōu)能力和適應(yīng)性強(qiáng)[17],可以不必遍歷網(wǎng)格內(nèi)的所有參數(shù)點(diǎn),即能搜索到全局最優(yōu)解,目前在參數(shù)尋優(yōu)中應(yīng)用普遍。
為提高大壩安全性態(tài)預(yù)測(cè)效果,本文采用遺傳算法對(duì)支持向量機(jī)的懲罰參數(shù)c和核函數(shù)參數(shù)g進(jìn)行優(yōu)選,以影響量和效應(yīng)量歷史監(jiān)測(cè)數(shù)據(jù)對(duì)支持向量機(jī)進(jìn)行訓(xùn)練,建立GA-SVM預(yù)測(cè)模型,并擬定大壩安全性態(tài)三級(jí)指標(biāo)和判別準(zhǔn)則。將GA-SVM模型應(yīng)用于實(shí)際工程的滲流性態(tài)預(yù)測(cè)中,以驗(yàn)證該模型的有效性。
支持向量機(jī)是由Cortes等于1995年正式提出的[18],其可以通過(guò)少量樣本解決非線性高維空間問(wèn)題,具有良好的分類能力和預(yù)測(cè)性能。支持向量機(jī)原理如下:
設(shè)有一組訓(xùn)練樣本(x1,y1),(x2,y2),…,(xi,yi)∈(Rn×R),采用非線性映射φ(x)將樣本映射到更高維的特征空間,在更高維空間構(gòu)造最優(yōu)線性函數(shù)f(x)=ω·φ(x)+b。根據(jù)結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則尋找合適的ω、b,為了降低模型復(fù)雜程度,提高泛化能力,尋優(yōu)過(guò)程等價(jià)于式(1)(2):
(1)
s.t.yi=ωT·φ(xi)+b+ξi(i=1,2,…,l)
(2)
式中:ω——權(quán)向量;c——懲罰參數(shù),c>0;ξ——松弛變量,用來(lái)衡量訓(xùn)練樣本偏離程度;b——常數(shù);l——訓(xùn)練樣本數(shù)。
為實(shí)現(xiàn)上述優(yōu)化問(wèn)題,建立Lagrange函數(shù):
(3)
式中:αi——Lagrange乘子。
根據(jù)最優(yōu)解KKT(Karush-Kuhn-Tucker)條件:
(4)
可得
(5)
定義核函數(shù)K(x,xi)滿足Mercer條件,消去ξi和ω之后,可得到如下線性方程組:
(6)
其中e=[1,1,…,1]Tα=[α1,α2,…,αl]TQij=K(xi,xj) (i,j=1,2,…,l)
式中:I——單位矩陣。
就核函數(shù)而言,只要滿足Mercer條件的均為核函數(shù)。常見(jiàn)的核函數(shù)有線性函數(shù)、Sigmoid函數(shù)、多項(xiàng)式函數(shù)和高斯徑向基(RBF)函數(shù)等,其中RBF函數(shù)應(yīng)用最為廣泛,無(wú)論大樣本還是小樣本都有比較好的性能。本文SVM算法的實(shí)現(xiàn)采用LIBSVM工具箱,選取RBF函數(shù)作為核函數(shù):
(7)
式中:x——函數(shù)中心;g——核函數(shù)參數(shù)。
最終得到的回歸模型如下:
(8)
根據(jù)以上支持向量機(jī)原理可知,懲罰參數(shù)c和核函數(shù)參數(shù)g是影響支持向量機(jī)預(yù)測(cè)性能的關(guān)鍵因素。
遺傳算法把問(wèn)題的解編碼為染色體,再通過(guò)創(chuàng)建適應(yīng)度函數(shù),按適應(yīng)度函數(shù)值的概率分布篩選出高適應(yīng)度值的個(gè)體,然后再進(jìn)行選擇、交叉和變異等操作來(lái)交換種群中染色體的信息,最終產(chǎn)生符合優(yōu)化目標(biāo)的染色體(最優(yōu)解)[19]。
a. 創(chuàng)建適應(yīng)度函數(shù)。適應(yīng)度函數(shù)是個(gè)體適應(yīng)環(huán)境能力的表達(dá),其與目標(biāo)函數(shù)有關(guān),本文以均方誤差作為目標(biāo)函數(shù)。由于遺傳算法只能向著使適應(yīng)度值增大的方向進(jìn)化,因此適應(yīng)度函數(shù)采用均方誤差的倒數(shù)形式。
b. 選擇。從上一代群體中按一定概率選擇優(yōu)秀個(gè)體(適應(yīng)度值大的個(gè)體被選中的概率大),組成新的種群。個(gè)體被選中的概率為
(9)
式中:ps——個(gè)體被選中的概率;Fs——個(gè)體適應(yīng)度值;N——種群數(shù)量。
c. 交叉。從種群中隨機(jī)選擇2個(gè)個(gè)體,以交叉概率β(位于[0,1]區(qū)間)進(jìn)行染色體交換,并將優(yōu)秀的特征遺傳給下一代,經(jīng)交叉運(yùn)算產(chǎn)生的子代替其父代。2個(gè)個(gè)體ak、al在z位的交叉運(yùn)算為
(10)
d. 變異。首先隨機(jī)地從種群中選擇一個(gè)個(gè)體,然后以一定的概率對(duì)個(gè)體的某個(gè)基因進(jìn)行變異,從而保持群體中基因的多樣性。第u個(gè)個(gè)體的第v個(gè)基因進(jìn)行的變異操作為
(11)
式中:amax、amin——基因auv的上界、下界;r——[0,1]間的隨機(jī)數(shù);r1——隨機(jī)數(shù);G——當(dāng)前進(jìn)化代數(shù);Gm——最大進(jìn)化代數(shù)。
圖1 遺傳算法優(yōu)化SVM參數(shù)c和g流程Fig.1 Optimization procedure of SVM parameters c and g by genetic algorithm
遺傳算法優(yōu)化SVM的懲罰參數(shù)c和核函數(shù)參數(shù)g的實(shí)現(xiàn)過(guò)程見(jiàn)圖1。具體步驟為:(a)對(duì)懲罰參數(shù)c和核函數(shù)參數(shù)g進(jìn)行二進(jìn)制編碼,產(chǎn)生初始種群。(b)設(shè)定遺傳算法最大進(jìn)化代數(shù)、交叉概率和變異概率。(c)以k-CV意義下的均方誤差的倒數(shù)作為適應(yīng)度函數(shù),并計(jì)算個(gè)體的適應(yīng)度。(d)判斷是否滿足終止條件,即進(jìn)化次數(shù)是否達(dá)到最大進(jìn)化代數(shù)。若達(dá)到最大進(jìn)化代數(shù),則遺傳算法運(yùn)行終止,輸出最優(yōu)解;否則,進(jìn)行以下步驟。(e)采用輪盤賭法進(jìn)行選擇操作,而后進(jìn)行交叉和變異操作。(f)將所有個(gè)體中適應(yīng)度最高的個(gè)體作為最優(yōu)解,并解碼后輸出。
2.2.1GA-SVM預(yù)測(cè)模型構(gòu)建
根據(jù)實(shí)際需要,選定模型輸入(如庫(kù)水位、溫度、降雨、時(shí)效等)和輸出變量(如變形、滲流壓力等),將用于分析的歷史數(shù)據(jù)分為訓(xùn)練樣本和測(cè)試樣本,然后將遺傳算法尋優(yōu)得到的最佳c和g賦予支持向量機(jī)進(jìn)行訓(xùn)練,最后將訓(xùn)練好的模型對(duì)未來(lái)數(shù)據(jù)進(jìn)行回歸預(yù)測(cè),即為GA-SVM大壩安全性態(tài)預(yù)測(cè)模型。
2.2.2 大壩安全性態(tài)判別準(zhǔn)則
由于庫(kù)水位、降雨等影響因素具有隨機(jī)性,因此受其影響的大壩效應(yīng)量也具有隨機(jī)性。對(duì)于已運(yùn)行時(shí)間較長(zhǎng)的大壩,積累的監(jiān)測(cè)數(shù)據(jù)量較為充分,大壩效應(yīng)量的變化近似服從正態(tài)分布[20]。
根據(jù)概率統(tǒng)計(jì)理論中的3σ準(zhǔn)則,對(duì)于一個(gè)具有正態(tài)或近似正態(tài)分布的樣本,其數(shù)值分布在(μ-σ,μ+σ)中的概率為0.682 6,分布在(μ-2σ,μ+2σ)中的概率為0.954 4,分布在(μ-3σ,μ+3σ)中的概率為0.997 4[21]。據(jù)此,可根據(jù)3σ準(zhǔn)則制定大壩安全性態(tài)三級(jí)指標(biāo),即μ+σ、μ+2σ和μ+3σ。μ、σ分別為GA-SVM模型的均值和標(biāo)準(zhǔn)差。
大壩運(yùn)行安全性態(tài)級(jí)別分4級(jí),若y′為某一時(shí)刻由預(yù)測(cè)模型得到的效應(yīng)量預(yù)測(cè)值,則:(a)當(dāng)y′<μ+σ時(shí),為正常;(b)當(dāng)μ+σ≤y′<μ+2σ時(shí),為基本正常;(c)當(dāng)μ+2σ≤y′<μ+3σ時(shí),為異常;(d)當(dāng)y′ ≥μ+3σ時(shí),險(xiǎn)情很可能發(fā)生。
2.2.3 基于GA-SVM模型的大壩安全性態(tài)判別
GA-SVM大壩安全性態(tài)預(yù)測(cè)模型的實(shí)現(xiàn)流程見(jiàn)圖2。
圖2 GA-SVM大壩安全性態(tài)預(yù)測(cè)模型實(shí)現(xiàn)流程Fig.2 Realization process of GA-SVM prediction model for dam safety behavior
某水庫(kù)正常蓄水位21.16 m,100年一遇洪水位24.60 m,1 000年一遇設(shè)計(jì)洪水位25.62 m,PMP校核洪水位27.72 m,死水位16.68 m。大壩為均質(zhì)土壩,壩頂長(zhǎng)2 222 m,壩頂寬6 m,最大壩高為24.00 m,壩頂高程為28.70 m。
3.1.1 確定輸入和輸出變量
3.1.2 訓(xùn)練和測(cè)試數(shù)據(jù)選取
以該壩B0500A測(cè)點(diǎn)為例,對(duì)本文建立的GA-SVM模型進(jìn)行適用性分析。B0500A測(cè)點(diǎn)位于樁號(hào)0+500距壩軸線12 m處,測(cè)點(diǎn)高程為12.58 m。
通常情況下,輸入數(shù)據(jù)越多,訓(xùn)練后的模型越能反映輸入輸出關(guān)系,但數(shù)據(jù)太多會(huì)增加計(jì)算量,導(dǎo)致模型收斂偏慢,而數(shù)據(jù)過(guò)少則有可能達(dá)不到理想的預(yù)測(cè)效果。另外,受到環(huán)境和儀器本身因素的影響,效應(yīng)量監(jiān)測(cè)數(shù)據(jù)往往由真實(shí)值和觀測(cè)誤差(噪聲)組成,若直接采用未經(jīng)消噪的觀測(cè)數(shù)據(jù)對(duì)支持向量機(jī)進(jìn)行訓(xùn)練會(huì)影響模型的穩(wěn)定性,因而需事先對(duì)所選樣本數(shù)據(jù)進(jìn)行去噪處理,提高數(shù)據(jù)序列的光滑度。鑒于此,選取2010年1月1日至4月10日共100期的庫(kù)水位、降雨數(shù)據(jù)作為訓(xùn)練樣本的輸入,將經(jīng)小波消噪后的滲流壓力值實(shí)測(cè)數(shù)據(jù)作為訓(xùn)練樣本的輸出,其過(guò)程線見(jiàn)圖3。將2010年4月11—20日共10個(gè)期次的實(shí)測(cè)數(shù)據(jù)作為測(cè)試樣本。
3.1.3 數(shù)據(jù)標(biāo)準(zhǔn)化處理
圖3 B0500A測(cè)點(diǎn)滲流壓力與庫(kù)水位和降雨過(guò)程線Fig.3 Hydrograph of reservoir water level, rainfall and B0500A observed seepage pressure
圖4 遺傳算法優(yōu)化SVM參數(shù)適應(yīng)度曲線Fig.4 Fitness curve of SVM parameter in the optimization process by genetic algorithm
圖5 各模型滲流壓力預(yù)測(cè)值過(guò)程線Fig.5 Curves of predicted seepage pressure by different models
表1 3種模型預(yù)測(cè)精度對(duì)比
為加快學(xué)習(xí)速度,需對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理:X′=0.1+0.8(X-Xmin)/(Xmax-Xmin)。其中:X′為標(biāo)準(zhǔn)化后的值,其值介于[0.1,0.9]之間;Xmax、Xmin分別為樣本中每組數(shù)據(jù)的最大值與最小值。
為了對(duì)GA-SVM模型的預(yù)測(cè)效果進(jìn)行橫向比較,本文同時(shí)建立了SVM模型和逐步回歸模型。GA-SVM模型采用遺傳算法優(yōu)化懲罰參數(shù)c和核函數(shù)參數(shù)g,SVM模型采用k-CV法對(duì)參數(shù)進(jìn)行優(yōu)化,其他參數(shù)采用默認(rèn)值。遺傳算法參數(shù)設(shè)置為:最大進(jìn)化代數(shù)取100,種群數(shù)量取50,代溝取0.9,k-CV參數(shù)取5,c介于[0,100],g介于[0,100],交叉概率和變異概率均取0.7。
采用平均絕對(duì)誤差(MAE)、均方根誤差(RMSE)和希爾不等系數(shù)(TIC)評(píng)價(jià)各預(yù)測(cè)模型的性能。平均絕對(duì)誤差可以較好地反映預(yù)測(cè)精度,其越小,預(yù)測(cè)精度越高。均方根誤差可以較好地衡量不同模型預(yù)測(cè)誤差間的微小差別,其值越小越好。希爾不等系數(shù)是評(píng)價(jià)預(yù)測(cè)值相對(duì)實(shí)測(cè)值擬合誤差的指標(biāo),介于[0,1]之間,越接近0,表示擬合誤差越小,計(jì)算公式見(jiàn)文獻(xiàn)[12]。
基于MATLAB R2014a平臺(tái),采用LIBSVM-3.22工具箱,利用遺傳算法優(yōu)化支持向量機(jī)c和g,經(jīng)多次運(yùn)行,得出較佳的適應(yīng)度曲線,其變化過(guò)程見(jiàn)圖4。
經(jīng)遺傳算法優(yōu)化得到的最佳參數(shù)c=98.815 9,g=0.016 403,然后賦予支持向量機(jī)并用訓(xùn)練樣本進(jìn)行訓(xùn)練,再將測(cè)試樣本輸入訓(xùn)練好的模型中進(jìn)行預(yù)測(cè)。3種模型預(yù)測(cè)值及預(yù)測(cè)值過(guò)程線見(jiàn)圖5。
由圖5可知,GA-SVM模型預(yù)測(cè)值較SVM模型和逐步回歸模型預(yù)測(cè)值更接近實(shí)測(cè)值,且其過(guò)程線整體變化趨勢(shì)與實(shí)測(cè)值變化過(guò)程相似,能較為真實(shí)地反映大壩滲流壓力的變化情況。SVM模型和逐步回歸模型預(yù)測(cè)值相差不大,預(yù)測(cè)值過(guò)程線變化趨勢(shì)與實(shí)測(cè)值變化過(guò)程大體相似,但預(yù)測(cè)效果均劣于GA-SVM模型。隨著預(yù)測(cè)期數(shù)的增加,從第8期開(kāi)始,GA-SVM模型預(yù)測(cè)值過(guò)程線開(kāi)始偏離實(shí)測(cè)值過(guò)程線,預(yù)測(cè)誤差明顯增大,這是由于老數(shù)據(jù)刻畫系統(tǒng)演化的作用在逐步降低。因此,使用同一個(gè)訓(xùn)練樣本對(duì)SVM訓(xùn)練后預(yù)測(cè)期數(shù)不宜過(guò)多,且隨著預(yù)測(cè)期數(shù)的推移需不斷加入新的數(shù)據(jù),以增強(qiáng)模型的預(yù)測(cè)效果。
各模型的預(yù)測(cè)精度比較見(jiàn)表1。GA-SVM模型無(wú)論從平均絕對(duì)誤差(MAE)、均方根誤差(RMSE)還是希爾不等系數(shù)(TIC)均小于SVM模型和逐步回歸模型,反映出其預(yù)測(cè)效果較為理想,可以滿足大壩滲流預(yù)測(cè)的需要。
GA-SVM模型均值μ為17.85,標(biāo)準(zhǔn)差σ為0.22。由3σ準(zhǔn)則計(jì)算得到的B0500A測(cè)點(diǎn)的滲流壓力三級(jí)安全性態(tài)指標(biāo)分別為μ+σ=18.07 m、μ+2σ=18.29 m和μ+3σ=18.51 m。在預(yù)測(cè)時(shí)段內(nèi),由GA-SVM模型得到的B0500A測(cè)點(diǎn)滲流壓力預(yù)測(cè)值均小于18.07 m,因此大壩滲流性態(tài)正常,后續(xù)繼續(xù)觀測(cè)。
a. 懲罰參數(shù)c和核函數(shù)參數(shù)g是影響支持向量機(jī)預(yù)測(cè)性能的關(guān)鍵因素,采用遺傳算法進(jìn)行參數(shù)尋優(yōu),有效地克服了k-CV法參數(shù)選擇時(shí)精度低、不易全局優(yōu)化的缺點(diǎn)。
b. 本文建立的GA-SVM模型成功地預(yù)測(cè)了大壩滲流壓力,平均絕對(duì)誤差僅為0.017 9、均方根誤差為0.023 5、希爾不等系數(shù)為0.001 0,其預(yù)測(cè)精度較SVM模型和逐步回歸模型提高了3倍左右。但預(yù)測(cè)期數(shù)不宜過(guò)多,需不斷加入新的數(shù)據(jù)進(jìn)行訓(xùn)練,以使模型的預(yù)測(cè)效果更佳。
c. 基于GA-SVM模型預(yù)測(cè)結(jié)果,根據(jù)大壩滲流安全性態(tài)三級(jí)指標(biāo)和四級(jí)判別準(zhǔn)則,合理判定了大壩滲流安全性態(tài)。