伍小鐵
(湖南省新田水文站 郴州市 425700)
李正最
(湖南省水文水資源勘測(cè)局 長(zhǎng)沙市 410007)
洞庭湖是長(zhǎng)江中游典型的吞吐型調(diào)蓄湖泊,隨著三峽工程的建設(shè)與運(yùn)行,其防洪功能已顯著提高[1,2],但與此同時(shí)其徑流與輸沙量關(guān)系也發(fā)生了很大變化[3,4]。為了探明洞庭湖水沙出入湖量變化和相互關(guān)系,選擇合適的模擬方法非常重要。目前投影尋蹤回歸(PPR)[5,6]和支持向量機(jī)(SVM)模型[7,8]均已成功運(yùn)用到多個(gè)專(zhuān)業(yè)領(lǐng)域,但很少有人將這兩種模型進(jìn)行比較。本文根據(jù)洞庭湖的系列實(shí)測(cè)水文資料,將洞庭湖徑流與輸沙量關(guān)系看作是一種多路水沙交互作用的復(fù)雜的小樣本和非線(xiàn)性問(wèn)題,基于PPR 和SVM 模型對(duì)洞庭湖徑流與輸沙量關(guān)系進(jìn)行了模擬與驗(yàn)證,并對(duì)模擬誤差進(jìn)行了對(duì)比。
投影尋蹤是用于分析和處理非正態(tài)、非線(xiàn)性數(shù)據(jù)的一種新方法,其基本思想是:利用計(jì)算機(jī)技術(shù),把高維數(shù)據(jù)通過(guò)某種組合投影到低維子空間上,并通過(guò)極小化某個(gè)投影指標(biāo),尋找出能反映原數(shù)據(jù)結(jié)構(gòu)或特征的投影,以達(dá)到研究和分析高維數(shù)據(jù)的目的。投影尋蹤回歸模型如下:
設(shè)y=f(X)和X=(x1,x2,…,xp)分別為一維和p維隨機(jī)變量,為了客觀反映高維非線(xiàn)性數(shù)據(jù)結(jié)構(gòu)特征,投影尋蹤回歸采用一系列嶺函數(shù)的“和”去逼近回歸函數(shù),即:
式中:Gm(Zm)為第m 個(gè)嶺函數(shù);M 為嶺函數(shù)的個(gè)數(shù);Zm=aTmX 為嶺函數(shù)的自變量,它是p 維隨機(jī)變量X 在am方向上的投影;am為投影方向。
投影尋蹤回歸模型仍然采用最小二乘法作為極小化判別準(zhǔn)則,即以式(1)中的參數(shù)amj、Gm和嶺函數(shù)個(gè)數(shù)M 的適當(dāng)組合,使下式
達(dá)到極小。
當(dāng)前,建立投影尋蹤回歸模型一般均采用Friedman 和Stuetzle 提出的多重平滑回歸技術(shù)方法。設(shè)非線(xiàn)性系統(tǒng)的數(shù)學(xué)模型為:
式中:r 為多項(xiàng)式的階數(shù),C 為多項(xiàng)式系數(shù),hm表示正交的契比雪夫多項(xiàng)式,采用遞推形式計(jì)算:
根據(jù)樣本值估計(jì)式(2)中的參數(shù),確定回歸函數(shù)f(X)進(jìn)行回歸預(yù)測(cè)。對(duì)于式(1)中的非線(xiàn)性系統(tǒng)模型,實(shí)現(xiàn)投影尋蹤回歸的步驟如下:
step1:確定嶺函數(shù)的個(gè)數(shù)M。
step2:選擇M 個(gè)彼此正交的投影方向a1,a2,…,aM,建立初步回歸模型:
step3:分組優(yōu)化。即將amj(j=1,2,…,p)和Gm[即hmi(i=0,1,…,r)]劃為一組,m=1,2,…,M,共有M組。除去其中一組外,對(duì)另外的M-1 組用step2 中得到的值作為初值,對(duì)留下的一組參數(shù)尋優(yōu)。求得結(jié)果后。把這一組參數(shù)的極值點(diǎn)作為初值,另選一組參數(shù)尋優(yōu),反復(fù)多次直到最后選取的一組參數(shù)值,使式(1)不再減小為止。
step4:參數(shù)處理,并輸出回歸模型:
支持向量機(jī)的基本思想是用少數(shù)支持向量代表整個(gè)樣本集,本質(zhì)上是通過(guò)某一事先選擇好的非線(xiàn)性函數(shù)φ(·)將訓(xùn)練集數(shù)據(jù)X 映射到一個(gè)高維線(xiàn)性特征空間H,在這個(gè)維數(shù)可能為無(wú)窮大的線(xiàn)性空間中按結(jié)構(gòu)風(fēng)險(xiǎn)最小化原理構(gòu)造最優(yōu)分類(lèi)面。并利用原空間的核函數(shù)取代了高維特征空間ω 和Φ(x)的點(diǎn)積運(yùn)算,從而避免了復(fù)雜的點(diǎn)積計(jì)算。對(duì)于給定的樣本數(shù)據(jù)集{(xi,yi)|i=1,2,…,l} ,其中xi為輸入值,yi為預(yù)測(cè)值。要求擬合的函數(shù)形式為:
根據(jù)結(jié)構(gòu)風(fēng)險(xiǎn)化最小原則即要尋求最優(yōu)回歸超平面使:
式中:C 為調(diào)節(jié)訓(xùn)練誤差和模型復(fù)雜度之間折中的正則化常數(shù); ε 為不靈敏損失函數(shù)。則支持向量機(jī)的回歸問(wèn)題就等價(jià)于解決一個(gè)二次規(guī)劃問(wèn)題。最優(yōu)化問(wèn)題為:
SVM 用來(lái)估計(jì)回歸函數(shù)時(shí),常分為線(xiàn)性和非線(xiàn)性擬合回歸兩類(lèi)。由上式可求得線(xiàn)性回歸函數(shù)為:
對(duì)于非線(xiàn)性的情況,引入核函數(shù)即可。此時(shí)求得的是非線(xiàn)性回歸函數(shù)為:
其中K(x,xi)=φ(x)φ(xi)稱(chēng)為核函數(shù)。核函數(shù)的選擇必須滿(mǎn)足Mercer 條件,常見(jiàn)的核函數(shù)有:
(1)多項(xiàng)式核函數(shù)。
此時(shí)的SVM 是一個(gè)σ 階多項(xiàng)式分類(lèi)器。
(2)徑向基函數(shù)。
此時(shí)的SVM 是一種徑向集函數(shù)分類(lèi)器。
(3)Sigmoid 核函數(shù)。
此時(shí)的SVM 是一個(gè)單隱層感知器神經(jīng)網(wǎng)絡(luò)。
目前最常見(jiàn)的支持向量機(jī)是Suykens J.A.K 于1999年提出了最小二乘支持向量機(jī),采用二次規(guī)劃方法代替?zhèn)鹘y(tǒng)的支持向量機(jī)來(lái)解決函數(shù)估計(jì)問(wèn)題。最小二乘支持向量機(jī)在利用結(jié)構(gòu)風(fēng)險(xiǎn)原則時(shí),在優(yōu)化目標(biāo)中選取了不同的損失函數(shù)。核函數(shù)參數(shù)σ 和最小二乘支持向量機(jī)參數(shù)的取值對(duì)模型的推廣預(yù)測(cè)能力有很大的影響,若取值不當(dāng),均會(huì)增大模型誤差,其取值通常是采用試算法或經(jīng)驗(yàn)法,本文采用混沌優(yōu)化算法對(duì)峰值識(shí)別最小二乘支持向量機(jī)模型的參數(shù)σ、C 進(jìn)行優(yōu)化選取。
洞庭湖位于湖南北部、長(zhǎng)江荊江南岸,跨越湘鄂兩省。北面有松滋、太平、藕池和調(diào)弦口(于1958年封堵),分瀉長(zhǎng)江水沙,南有湘、資、沅、澧四水匯入,周邊汩羅江、新墻河等中小河流直接入湖,經(jīng)洞庭湖調(diào)蓄,于城陵磯匯入長(zhǎng)江,是長(zhǎng)江中下游重要的調(diào)蓄型湖泊,對(duì)分瀉荊江洪水和保障下游徑流供給起著十分顯著的作用,洞庭湖河網(wǎng)水系結(jié)構(gòu)見(jiàn)圖1。新中國(guó)成立以來(lái),長(zhǎng)江中游河段經(jīng)歷了調(diào)弦口封堵、下荊江系統(tǒng)裁彎取直、葛洲壩和三峽水庫(kù)建成發(fā)電等;湖南省湘、資、沅、澧四水流域包括柘溪、五強(qiáng)溪等干流骨干性工程在內(nèi)的13 000 多座各種水利工程和水土保持工程,但是一些工程并沒(méi)有取得預(yù)期效果,如下荊江裁彎工程等[9]。
本研究的水文泥沙數(shù)據(jù)來(lái)源于洞庭湖區(qū)水文年鑒和主要水文站監(jiān)測(cè)資料。
圖1 洞庭湖區(qū)河網(wǎng)水系結(jié)構(gòu)
洞庭湖水沙系統(tǒng)具有十分明顯的非線(xiàn)性特征,因此在建模的具體手段上分別選用投影尋蹤回歸和支持向量機(jī)兩種方法。用1956~2004年洞庭湖區(qū)水沙序列進(jìn)行模型擬合,以2005~2008年洞庭湖區(qū)水沙序列進(jìn)行模型檢驗(yàn)。洞庭湖出口城陵磯站的徑流量和輸沙量可簡(jiǎn)單地表述為以下非線(xiàn)性結(jié)構(gòu),即:
式中:Qd為城陵磯出口斷面的徑流量;Sd為城陵磯出口斷面的泥沙;Qu為四水入流量;Su為四水來(lái)沙量;Qλ為三口分流量;Sλ三口分沙量,q 為區(qū)間產(chǎn)水量;V 為洞庭湖調(diào)蓄量;X地形為洞庭湖區(qū)地形特性;φ(·)為水量交換作用函數(shù),Ψ(·)為水沙交互作用函數(shù)。
由于洞庭湖區(qū)域水下地形變化較大,加之城陵磯以上區(qū)域尚有3.96×104km2無(wú)水文站網(wǎng)控制,區(qū)間產(chǎn)水產(chǎn)沙量尚存在很大的不確定性。因此在建模時(shí)不宜直接涉及區(qū)間產(chǎn)流產(chǎn)沙和調(diào)蓄變化的計(jì)算。綜合考慮洞庭湖河網(wǎng)結(jié)構(gòu)的特點(diǎn)和水文資料獲取的可能性,水沙交互模型的具體輸入輸出處理如下:
(1)以荊江三口新江口、沙道觀、彌砣寺、管家鋪、康家崗5 個(gè)水文站和湘、資、沅、澧四水的湘潭、桃江、桃源、石門(mén)4 個(gè)控制站的徑流作為系統(tǒng)輸入,以城陵磯站徑流作為系統(tǒng)輸出,建立洞庭湖水量交換模型;
(2)以荊江三口新江口、沙道觀、彌砣寺、管家鋪、康家崗5 個(gè)水文站和湘、資、沅、澧四水的湘潭、桃江、桃源、石門(mén)4 個(gè)控制站的徑流和泥沙,以及洞庭湖水量交換模型的輸出作為系統(tǒng)輸入,以城陵磯站泥沙作為系統(tǒng)輸出,建立洞庭湖水沙交互模型。
按照建模序列和檢驗(yàn)序列,分別統(tǒng)計(jì)兩種模型的最大誤差和絕對(duì)平均誤差。因檢驗(yàn)序列過(guò)短不宜獨(dú)立計(jì)算誤差標(biāo)準(zhǔn)差,故按建模序列和檢驗(yàn)序列合并計(jì)算。主要誤差指標(biāo)計(jì)算公式如下:
式中:ei為第i 個(gè)樣本的擬合(預(yù)報(bào))誤差;yi為第i 個(gè)樣本實(shí)測(cè)值;yi為第i 個(gè)樣本擬合或預(yù)測(cè)值;emax為最大擬合或預(yù)報(bào)誤差;max(·)為取大運(yùn)算符;ABS(·)為絕對(duì)值運(yùn)算符;emean為平均絕對(duì)誤差;Se為誤差標(biāo)準(zhǔn)差;n 為樣本總數(shù)。
對(duì)上述建立的二種模型分別進(jìn)行回顧檢驗(yàn)和外推預(yù)報(bào),以式(17)計(jì)算相對(duì)誤差,誤差分布情況見(jiàn)圖2。對(duì)于所建立的二種模型,用城陵磯站年徑流和年輸沙量按式(17)~(20)統(tǒng)計(jì)誤差,計(jì)算結(jié)果見(jiàn)圖3。
圖2 洞庭湖徑流與輸沙量關(guān)系模型擬合與檢驗(yàn)誤差分布
圖3 洞庭湖徑流與輸沙量關(guān)系擬合與檢驗(yàn)誤差統(tǒng)計(jì)
從圖2 和圖3 可以看出,所建立的兩種模型均具備一定的復(fù)雜系統(tǒng)仿真能力。而就模型的類(lèi)別而言,以SVM 模型的精度較高,PPR 略低;就模型的輸出物理量而言,兩種模型的徑流量模擬輸出精度均高于輸沙量,說(shuō)明江湖水沙演化中輸沙量的影響因素更為廣泛,演化機(jī)制更為復(fù)雜,非線(xiàn)性特征更為顯著;就模型的推廣和泛化能力而言,PPR 檢驗(yàn)序列精度對(duì)建模序列精度有所下降,SVM 檢驗(yàn)序列精度基本與建模序列相匹配,沒(méi)有表現(xiàn)出明顯的下降趨勢(shì)??梢?jiàn)SVM 的有效性和可信性較好,其系統(tǒng)數(shù)據(jù)與模型數(shù)據(jù)之間具有較好的一致性,因而其對(duì)復(fù)雜水網(wǎng)水沙交互作用的擬合和推廣能力較強(qiáng)。因此,運(yùn)用SVM 模型模擬計(jì)算的洞庭湖水沙出入湖量和區(qū)域泥沙淤積情況,可供江湖治理決策參考。
本文利用洞庭湖近50年來(lái)的水文觀測(cè)資料,基于投影尋蹤回歸和支持向量機(jī)分別建立了洞庭湖徑流與輸沙量?jī)煞N非線(xiàn)性仿真模型,得到以下結(jié)論:
(1)通過(guò)兩種模型的誤差比較,SVM 模型的精度較高,說(shuō)明SVM 模擬和預(yù)測(cè)的結(jié)果與實(shí)測(cè)值吻合度高,試用、可操作性強(qiáng),為復(fù)雜水網(wǎng)區(qū)的水沙分析提供了一種新方法。
(2)支持向量機(jī)的推廣性能與模型的參數(shù)選擇有很大關(guān)系。因此,如何根據(jù)訓(xùn)練樣本選擇合適的模型參數(shù),以保證建立好的模型有很好的推廣性能,成為設(shè)計(jì)支持向量機(jī)關(guān)鍵一步。
(3)通過(guò)模擬可以看出,兩種模型中洞庭湖的徑流量輸出精度均高于輸沙量,說(shuō)明洞庭湖輸沙量變化涉及因素更多,而不僅僅與徑流量有關(guān)。影響輸沙量因素,有待進(jìn)一步研究。
[1] 穆錦斌,張小峰. 荊江-洞庭湖水沙變化影響分析[J]. 水利水運(yùn)工程學(xué)報(bào),2011,(1): 84-91.
[2] 李景保,代勇,歐朝敏,等. 長(zhǎng)江三峽水庫(kù)蓄水運(yùn)用對(duì)洞庭湖水沙特性的影響[J]. 水土保持學(xué)報(bào),2011,25(3): 215-219.
[3] 馬元旭,來(lái)紅州. 荊江與洞庭湖區(qū)近50年水沙變化的研究[J].水土保持研究,2005,12(4): 103-106.
[4] 毛北平,梅軍亞,張金輝,等. 洞庭湖三口洪道水沙輸移變化分析[J]. 人民長(zhǎng)江,2010,(2): 38-42.
[5] FRIEDMAN,J.H.,TUKEY,J.W. A projection pursuit algorithm or exploratory data analysis [J]. IEEE Transactions on Computer,1974,23(9): 881-890.
[6] 王順久,侯玉,張欣莉,等. 流域水資源承載能力的綜合評(píng)價(jià)方法[J]. 水利學(xué)報(bào),2003,(1): 88-92.
[7] VAPNIK,V.N. The nature of statistic learning theory[M].New York:Spring Verlag,1995.
[8] 李正最,謝悅波. 基于支持向量機(jī)的洞庭湖區(qū)域水沙模擬[J]. 水文,2010,30(2): 44-49.
[9] 潘慶燊. 下荊江人工裁彎30年[J]. 人民長(zhǎng)江,2001,32(5):27-29.