丁海蛟,車文剛
(昆明理工大學(xué)信息工程與自動(dòng)化學(xué)院,云南昆明 650500)
?
數(shù)據(jù)誤差處理方法在洪水預(yù)報(bào)中的應(yīng)用
丁海蛟,車文剛
(昆明理工大學(xué)信息工程與自動(dòng)化學(xué)院,云南昆明 650500)
摘要洪水災(zāi)害會(huì)對(duì)我國(guó)的正常農(nóng)業(yè)生產(chǎn)造成非常嚴(yán)重的影響,因此提出一種基于數(shù)據(jù)誤差處理的洪水預(yù)報(bào)方法有重要意義。結(jié)合四川省自貢市某水文站實(shí)測(cè)的流量數(shù)據(jù),應(yīng)用LS-SVM智能算法建立了單輸入單輸出(流量—流量)洪水預(yù)報(bào)模型,并應(yīng)用數(shù)據(jù)誤差處理方法中改進(jìn)的拉依達(dá)準(zhǔn)則法(3σ)和肖維勒準(zhǔn)則法(Chauvenet)來處理樣本數(shù)據(jù)里存在的一些誤差數(shù)據(jù)。實(shí)驗(yàn)結(jié)果表明,應(yīng)用以上2種數(shù)據(jù)誤差處理方法處理過后的LS-SVM預(yù)測(cè)模型可以滿足洪水預(yù)報(bào)精度的要求。
關(guān)鍵詞流量;LS-SVM;洪水預(yù)報(bào);數(shù)據(jù)誤差處理
到目前為止,洪水災(zāi)害是全世界范圍內(nèi)最具毀滅性的自然災(zāi)害,對(duì)正常的農(nóng)業(yè)生產(chǎn)造成了十分嚴(yán)重的影響[1]。為了保障正常的農(nóng)業(yè)生產(chǎn)、保持經(jīng)濟(jì)的平穩(wěn)健康發(fā)展,防洪減災(zāi)工作是非常必要的。洪水預(yù)報(bào)在預(yù)防洪水和防洪預(yù)案的制定工作中一直發(fā)揮著非常重要的作用。筆者研究將數(shù)據(jù)誤差處理方法結(jié)合LS-SVM智能算法[2]應(yīng)用到河道的流量預(yù)報(bào)之中。
1洪水預(yù)報(bào)研究概況
洪水預(yù)報(bào)的方法有很多,比較著名的馬斯金根洪水演算法就是McCarthy等于1938年對(duì)位于美國(guó)境內(nèi)的馬斯金根河進(jìn)行了綜合分析以及研究后提出的[3-4],此方法提出之后就迅速地在全世界范圍內(nèi)獲得了非常廣泛的應(yīng)用。在此時(shí)期內(nèi)提出的許多模型至今仍然被各個(gè)國(guó)家的學(xué)者廣泛應(yīng)用,此后的科學(xué)研究者們還在已有的洪水預(yù)報(bào)模型基礎(chǔ)上提出了很多的改進(jìn)方法[5]。
我國(guó)在洪水預(yù)報(bào)領(lǐng)域的研究起步比較晚,一直以來采用的是超滲產(chǎn)流的概念[6],此概念是美國(guó)學(xué)者霍爾頓在20世紀(jì)30年代提出來的。我國(guó)學(xué)者趙人俊在20世紀(jì)60年代初期提出了蓄滿產(chǎn)流的概念,這個(gè)概念是趙人俊在研究了南方流域特性的基礎(chǔ)上得到的[7]。目前,國(guó)內(nèi)還沒有建立一個(gè)可以較好地解決一些普遍性問題的洪水預(yù)報(bào)系統(tǒng)。我國(guó)洪水預(yù)報(bào)系統(tǒng)的開發(fā),一般都是針對(duì)特定的對(duì)象、特定的問題或者特定的需求,缺乏通用性。所以,我國(guó)目前對(duì)洪水預(yù)報(bào)的研究仍然處于發(fā)展的時(shí)期,在一些實(shí)際的洪水預(yù)報(bào)作業(yè)工作中仍存在很多亟待解決的問題。
2數(shù)據(jù)誤差處理方法
2.1數(shù)據(jù)誤差處理的必要性由于該研究中使用的流量數(shù)據(jù)是源于天然河道的流量數(shù)據(jù)采集,通過對(duì)所研究區(qū)域的所有水文站點(diǎn)進(jìn)行調(diào)查,發(fā)現(xiàn)這些原始的流量數(shù)據(jù)嚴(yán)格意義上說很難準(zhǔn)確地反映出所研究流量的客觀存在,因?yàn)橐恍┤藶橐蛩禺a(chǎn)生的影響,所有的經(jīng)過測(cè)量得到的流量數(shù)據(jù)都會(huì)有誤差,而這種有誤差的原始流量樣本數(shù)據(jù)一定會(huì)影響到LS-SVM所建立預(yù)測(cè)模型的預(yù)測(cè)效果,因此要得到比較準(zhǔn)確的預(yù)測(cè)效果,就要剔除這些藏在原始流量數(shù)據(jù)中的誤差數(shù)據(jù)。該研究應(yīng)用2種數(shù)據(jù)誤差處理方法進(jìn)行處理。
2.2改進(jìn)的拉依達(dá)準(zhǔn)則法(3σ)拉依達(dá)準(zhǔn)則法又可以叫做3σ準(zhǔn)則法,根據(jù)高斯誤差理論:當(dāng)誤差服從正態(tài)分布之時(shí),它落在[-3σ,3σ]內(nèi)的概率為99.7%,即異常的數(shù)據(jù)就是誤差的絕對(duì)值大于3σ的數(shù)據(jù),異常的數(shù)據(jù)應(yīng)該被剔除。應(yīng)用3σ準(zhǔn)則法剔除異常數(shù)據(jù)的步驟如下:
(1)
②計(jì)算各個(gè)測(cè)量值的殘差Ui,以及數(shù)據(jù)列的標(biāo)準(zhǔn)偏差σ,公式分別如下:
(2)
(3)
③各個(gè)測(cè)量值殘差Ui的絕對(duì)值和3σ的比較。經(jīng)過對(duì)此方法進(jìn)行變形改進(jìn),可以得到更加簡(jiǎn)便的方法。根據(jù)平均值的定義,可以得到:
(4)
一般情況下,選取的X0應(yīng)該盡可能地與該測(cè)量序列Xi的平均值相接近,并且令Ωi=Xi-X0。
根據(jù)變化的貝塞爾公式[8],可以得到:
(5)
這里需要說明的是:因?yàn)榭傮w的方差是σ2,而σ2是未知的,樣本方差是S2,它是σ2的一個(gè)估計(jì)值,所以,一般在實(shí)際應(yīng)用時(shí)會(huì)用3S來代替3σ。
(6)
則將Xi剔除,否則就保留。其中,Kn是與樣本容量n有關(guān)的系數(shù),可以查表1得到。
表1 肖維勒準(zhǔn)則Kn數(shù)據(jù)
3 基于數(shù)據(jù)誤差處理方法的LS-SVM預(yù)測(cè)實(shí)驗(yàn)
該研究的整體結(jié)構(gòu)和樣本數(shù)據(jù)誤差處理流程如圖1所示。
圖1 整體結(jié)構(gòu)以及樣本數(shù)據(jù)誤差處理流程Fig.1 Processing flow of sample data error and overall structure
3.1數(shù)據(jù)誤差剔除算例取2012年7月10日一天的25個(gè)流量數(shù)據(jù)如表2所示。接下來應(yīng)用2種方法來剔除這組數(shù)據(jù)中的異常值。
表2 流量數(shù)據(jù)
3.1.1改進(jìn)的拉依達(dá)準(zhǔn)則法。取X0=61.32,因?yàn)棣竔=Χi-Χ0,所以,Ωi的值如表3所示。
表3 Ωi數(shù)據(jù)
由于:
(7)
(8)
因?yàn)橐陨系倪@2個(gè)極值是正常值,所以這2個(gè)極值之間的其他數(shù)值肯定也是正常值,也就可以判定目前該組數(shù)據(jù)中不存在異常值。
經(jīng)過驗(yàn)證,所剩余其他數(shù)據(jù)都是正常值,均保留。因?yàn)橥ㄟ^改進(jìn)的拉依達(dá)準(zhǔn)則法和肖維勒準(zhǔn)則法判斷所剩余的數(shù)據(jù)均不存在異常值,所以可以斷定經(jīng)過異常值剔除后的數(shù)據(jù)中不存在誤差數(shù)據(jù)。
以上2種異常值剔除算法,所剔除的異常值都是最大值和最小值,分析該誤差的來源可能是人為因素所造成的粗大誤差。因?yàn)樵诖俗鳛樗憷齺磉M(jìn)行單組數(shù)據(jù)的計(jì)算是比較簡(jiǎn)單的,但是該研究中所用到的原始樣本數(shù)據(jù)很多,所以,該研究是借助MATLAB的數(shù)據(jù)處理功能來進(jìn)行處理的。
3.2模型預(yù)測(cè)結(jié)果的評(píng)定標(biāo)準(zhǔn)為了驗(yàn)證LS-SVM預(yù)測(cè)模型結(jié)果的可行性及其有效性,該研究在此給出預(yù)測(cè)結(jié)果的評(píng)定準(zhǔn)則。在該研究中所應(yīng)用的精度評(píng)定準(zhǔn)則來自于中華人民共和國(guó)水利部《水文情報(bào)預(yù)報(bào)規(guī)范》(SL250—2000)[9]。接下來給出一些重要參數(shù)的取值范圍:
①結(jié)合現(xiàn)場(chǎng)的實(shí)際情況以及中華人民共和國(guó)水利部《水文情報(bào)預(yù)報(bào)規(guī)范》設(shè)置流量的許可誤差為:0.9m3/s。
②合格率:
(9)
式中,n是合格預(yù)報(bào)次數(shù),m是預(yù)報(bào)總次數(shù);其中,QR≥85.0%時(shí),為甲級(jí)精度;70.0%≤QR<85.0%時(shí),為乙級(jí)精度;60.0%≤QR<70.0%時(shí),為丙級(jí)精度。
③確定性系數(shù):
(10)
④絕對(duì)誤差:
AE=yc(i)-y0(i)
(11)
式中,y0(i)為實(shí)測(cè)值,yc(i)為預(yù)報(bào)值。
⑤相對(duì)誤差:
(12)
式中,y0(i)為實(shí)測(cè)值,yc(i)為預(yù)報(bào)值。
⑥作業(yè)預(yù)報(bào)精度GI為預(yù)報(bào)誤差和許可誤差之比。GI≤25.0%,為優(yōu)秀;25.0%
⑦洪水預(yù)報(bào)方案的精度等級(jí)達(dá)到甲級(jí)或者乙級(jí),可以用于發(fā)布正式的預(yù)報(bào);洪水預(yù)報(bào)方案的精度達(dá)到丙級(jí),可以用于參考性預(yù)報(bào);洪水預(yù)報(bào)方案的精度為丙級(jí)以下,只能用于參考性估報(bào)。
3.3單輸入單輸出流量預(yù)測(cè)模型(流量—流量)該研究中采用網(wǎng)格搜索法[10]尋找最優(yōu)參數(shù),最終確定模型參數(shù)γ=0.5,σ2=1.414 2。該研究建立的單輸入單輸出流量—流量預(yù)測(cè)模型輸入輸出示意圖如圖2所示。
圖2 單輸入單輸出(流量—流量)預(yù)測(cè)模型輸入輸出示意Fig.2 Prediction model of single input and single output(flow-flow)
利用2008年7月到2013年7月的數(shù)據(jù)對(duì)模型進(jìn)行訓(xùn)練后,對(duì)2014年7月一共31 d測(cè)試集的數(shù)據(jù)進(jìn)行預(yù)測(cè),預(yù)測(cè)結(jié)果如圖3所示。對(duì)預(yù)測(cè)模型輸出結(jié)果的分析如表4所示。
圖3 單輸入單輸出LS-SVM流量預(yù)測(cè)Fig.3 LS-SVM flow prediction of single input and single output
驗(yàn)證數(shù)據(jù)Validationdatam3/sLS-SVM預(yù)測(cè)數(shù)據(jù)LS-SVMpredictiondata∥m3/sLS-SVM絕對(duì)誤差LS-SVMabsoluteerror∥m3/sLS-SVM相對(duì)誤差LS-SVMrelativeerror%預(yù)報(bào)是否合格Qualifiedforecastornot107.00106.950.05-0.047合格 91.9092.120.220.24合格 93.8094.060.260.28合格 87.9088.590.690.79合格 61.3064.823.525.74不合格68.3069.040.741.08合格 78.5083.865.366.83不合格101.00100.390.61-0.60合格 151.00150.620.38-0.25合格 104.00104.050.050.05合格 84.7088.193.494.12不合格106.00105.340.66-0.62合格 174.00171.382.62-1.51不合格115.00114.710.29-0.25合格 97.8097.900.100.10合格 94.8095.620.820.86合格
接下表
3.4結(jié)果分析經(jīng)過計(jì)算,LS-SVM單輸入單輸出流量預(yù)測(cè)模型的QR為77.4%(精度等級(jí)為乙);DC=0.899 7(精度等級(jí)為乙);GI=98.81%(合格);絕對(duì)誤差值為0.889 3;相對(duì)誤差均值為0.733 0%。
根據(jù)以上模型精度數(shù)據(jù),并依據(jù)《水文情報(bào)預(yù)報(bào)規(guī)范》(SL250—2000)[9]的相關(guān)規(guī)定,能夠得出:數(shù)據(jù)誤差處理方法結(jié)合LS-SVM智能算法所建立的預(yù)測(cè)模型預(yù)測(cè)的效果比較好,其精度等級(jí)達(dá)到了乙級(jí),可以用于發(fā)布正式的洪水預(yù)報(bào)。
4結(jié)論
該研究應(yīng)用數(shù)據(jù)誤差處理的2種方法結(jié)合LS-SVM智能算法建立了河道流量預(yù)測(cè)模型,通過對(duì)實(shí)例的分析表明:所建立的河道流量預(yù)測(cè)模型是合理可行的,模型的精度等級(jí)達(dá)到了乙級(jí),能夠用于發(fā)布正式的洪水預(yù)報(bào),可以為農(nóng)業(yè)生產(chǎn)中防洪方案的制定工作提供十分有效的參考。
參考文獻(xiàn)
[1] 徐霞,王靜愛,王文宇.自然災(zāi)害案例數(shù)據(jù)庫的建立與應(yīng)用:以中國(guó)1998年洪水災(zāi)害案例數(shù)據(jù)庫為例[J].北京師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2004,36(2):274-280.
[2] 王哲,楊學(xué)軍,柳林.基于混合智能算法優(yōu)化LS-SVM的需水預(yù)測(cè)模型研究[C]//鄧堅(jiān).中國(guó)水文科技新發(fā)展:2012中國(guó)水文學(xué)術(shù)討論會(huì)論文集.南京:河海大學(xué)出版社,2012.
[3] 孫茂相,孫金根.多水庫系統(tǒng)最優(yōu)控制新算法[J].中國(guó)電機(jī)工程學(xué)報(bào),1990(S1):41-48.
[4] HINO M.On-line prediction of hydrologic system[C]//Proc 15th Cong Int Assoc Hydraul Res.Istanbul,Turkey,1973:121-129.
[5] ABBOTT M B,BATHURST J C,CUNGE J A,et al.An introduction to the European hydrological system-Systeme Hydrologique Europeen,“SHE”,2:Structure of a physically-based,distributed modelling system[J].Journal of hydrology,1986,87(1):61-77.
[6] 高軍俠.黃土高原坡耕地超滲產(chǎn)流及作用研究[D].楊凌:西北農(nóng)林科技大學(xué),2002.
[7] 趙人俊.流域匯流的計(jì)算方法[J].水利學(xué)報(bào),1963(3):109.
[8] 魏彥玉,王文祥,李宏福.兩類含兩個(gè)變態(tài)貝塞爾函數(shù)積的積分公式[J].電子科技大學(xué)學(xué)報(bào),1999,28(1):66-69.
[9] 中華人民共和國(guó)水利部.水文情報(bào)預(yù)報(bào)規(guī)范:SL250—2000[S].北京:中國(guó)水利水電出版社,2000.
[10] 邸欣,崔升佐,孫毓慶.用網(wǎng)格搜索尋優(yōu)法選擇分離6種青霉素類藥物的薄層色譜溶劑系統(tǒng)[J].色譜,1996(3):211-213.
Application of the Data Error Processing Method in Flood Prediction
DING Hai-jiao, CHE Wen-gang
(College of Information Engineering and Automation, Kunming University of Science and Technology, Kunming, Yunnan 650500)
AbstractSince the flood disaster causes very serious impacts on normal agricultural production in China, it was of great significance to put forward the flood prediction method based on data error processing. Combining with the flow data measured by a given hydrological station in Zigong City of Sichuan Province, LS-SVM intelligence algorithm was used to establish a single input single output (flow-flow) prediction model. Two kinds of the data error processing method: the improved 3σ method and the chauvenet method to deal with some error data which were hiding in the sample data. The experimental results showed that the application of the above two kinds of data error treatment method used in the LS-SVM prediction model could meet the requirements of flood prediction accuracy.
Key wordsFlow; LS-SVM; Flood prediction; Data error processing
作者簡(jiǎn)介丁海蛟(1989- ),男,遼寧朝陽人,碩士研究生,研究方向:智能控制。
收稿日期2016-03-16
中圖分類號(hào)S 422
文獻(xiàn)標(biāo)識(shí)碼A
文章編號(hào)0517-6611(2016)10-257-04