国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

數據挖掘在傳統(tǒng)洪水預報方案中的應用

2016-11-30 10:11姜濤
東北水利水電 2016年11期
關鍵詞:場次水文站決策樹

姜濤

(水利部松遼水利委員會,吉林長春130021)

數據挖掘在傳統(tǒng)洪水預報方案中的應用

姜濤

(水利部松遼水利委員會,吉林長春130021)

數據挖掘就是從大量數據中提取或挖掘一般性規(guī)律規(guī)律。文中利用weka數據挖掘平臺的多元線性回歸算法和決策樹算法,對兩種傳統(tǒng)經驗洪水預報方案進行了建模和評估,一定程度上提高了洪水預報方案精度。

數據挖掘;weka;洪水預報方案

1 前言

洪水預報方案是開展實時洪水作業(yè)預報的基礎,方案精度的高低直接決定作業(yè)預報的成敗。按照水文情報預報規(guī)范的技術要求,只有精度達到乙級及以上的洪水預報方案方可正式發(fā)布預報,丙級方案只能為防汛決策提供參考。

目前,水文模型在國內應用越來越廣泛,但合成流量法、降雨徑流相關圖法這兩種傳統(tǒng)的經驗預報方法仍在國內得到很多應用。這兩種預報方案參數少,使用簡單,有一定經驗的預報員很容易完成一次精度較高的實時洪水作業(yè)預報。但在實時洪水作業(yè)預報過程中,也暴露出很多問題。一是預報方案信息的提取還停留在人工查線讀數階段,雖然很多系統(tǒng)實現(xiàn)了自動讀取預報方案信息的功能,但信息的“根源”還是來自手工繪制的曲線。二是對歷史水文數據的分析深度不夠,常常因為人類活動影響,導致方案精度不高;三是缺乏理論基礎,屬于“黑箱”預報方法。

近年來,數據挖掘作為一門新興的數據處理技術日益成熟,挖掘平臺功能越來越強大,集成的算法越來越多,它可以在沒有明確假設的前提下發(fā)現(xiàn)數據內在的關系,挖掘有價值信息、發(fā)現(xiàn)知識,與傳統(tǒng)的數據分析、查詢有著本質區(qū)別,因而在水利上的應用也越來越廣泛。

2 數據挖掘

WEKA是一個開源的數據挖掘工作平臺,集成了大量能承擔數據挖掘任務的機器學習算法,包括對數據進行預處理、分類、回歸、聚類、關聯(lián)規(guī)則以及在新的交互式界面上的可視化,是現(xiàn)今最完備的數據挖掘工具之一。文中主要利用weka數據挖掘平臺的回歸分析中多元線性回歸算法和分類中的決策樹算法,實現(xiàn)兩種傳統(tǒng)經驗洪水預報方案模型化,進一步提高洪水預報方案精度。算法原理如下:

2.1 回歸分析算法

回歸分析研究一個變量和一組其它變量之間相關關系的方法,是統(tǒng)計方法中應用最廣泛的方法?;貧w分析按照回歸變量的個數不同可以分為一元回歸分析和多元回歸分析,按照回歸的形式不同可以分為線性回歸分析和非線性回歸分析。通常線性回歸分析法是最基本的分析方法,遇到非線性回歸問題可以通過對變量進行變換,從而轉換為線性問題來解決?;貧w分析主要解決以下幾個方面的問題:

1)確定幾個特定變量之間是否存在相關關系,如果存在的話,找出它們之間合適的數學表達式。

2)根據一個或幾個變量的值,預報或控制另一個變量的取值,并且要知道這種預報或控制的精確度。

3)進行因素分析,確定因素的主次以及因素之間的相互關系等。

2.2 決策樹算法

決策樹是一種常用于預測模型的算法,它通過將大量數據有目的分類,從中找到一些有價值的,潛在的信息。決策樹主要的作用是對集合進行分類,或者是發(fā)現(xiàn)某類對象的特征模式。它的主要優(yōu)點是描述簡單,分類速度快,特別適合大規(guī)模的數據處理。利用信息論中的互信息(信息增益)尋找數據庫中具有最大信息量的字段,建立決策樹的一個結點,再根據字段的不同取值建立樹的分支;在每個分支子集中,重復建立樹的下層結點和分支的過程,即可建立決策樹。

3 應用實例

3.1 多元線性回歸算法改進合成流量預報方案

3.1.1 研究區(qū)概況

大賚水文站位于嫩江干流下游,是嫩江流域總控制站,集水面積221 715 km2。富拉爾基至大賚水文站區(qū)間,右岸有雅魯河、綽爾河、洮兒河幾大支流匯入,左岸沒有支流匯入。大賚水文站洪水一般是以干流來水為主,洮兒河洪水受月亮泡水庫控制一般對干流洪水影響較小,雅魯河支流罕達罕河在碾子山控制斷面下游匯入雅魯河,因而在特殊大水年份,要考慮該河洪水對干流洪水影響。

大賚水文站現(xiàn)有預報方案之一為嫩干富拉爾基水文站、雅魯河碾子山水文站、罕達罕河景星水文站、綽爾河兩家子水文站合成流量與大賚水文站洪峰流量相關,方案合格率為75%,為乙級方案。

合成流量法是河道洪水預算方法之一,通常稱為河道相應水位(流量)法,是根據天然河道洪水波運動原理,分析洪水波上任一位相水位(流量)沿河道傳播過程中的變化規(guī)律。在支流來水較大的情況下,通常采用合成流量法。

3.1.2 研究步驟

1)數據預處理。數據挖掘的基礎是數據的數量和質量。數據量越大,越能從數據中發(fā)現(xiàn)洪水的一般性規(guī)律,數據的準確性和可靠性也是一切建模和分析是否有效的關鍵。數據挖掘的優(yōu)勢也在于可以從海量的水文歷史資料中按照相關性、可靠性、最新性等原則,挑選出與研究最有用的部分。

該研究直接從松花江流域實用洪水預報方案(2003年版)中摘取了富拉爾基、碾子山、景星、兩家子、大賚水文站的9場合格場次洪水歷史特征數據,建立符合weka平臺數據格式要求的數據集,如表1所示。另外,為了驗證模型精度,將方案中2場不合格場次洪水特征數據,作為檢驗模型精度的數據集,如表2所示。

表1 合格場次洪水特征數據 流量:m3/s

表2 不合格場次洪水特征數據 流量:m3/s

需要注意的是還有一場不合格場次洪水特征數據被棄用,主要是因為富拉爾基至大賚水文站區(qū)間河段在1998年第三場特大洪水發(fā)生時,堤防多處決口,大賚站洪峰數據為還原數據,因而不參見建模。

2)選擇算法,建模。利用W eka軟件的Explorer讀取數據,選擇線性回歸建立預報模型;選擇表1的數據集做為訓練數據,選擇表2的數據集做為檢驗數據集;系統(tǒng)運行,得出模型的回歸方程如下:

Q大賚=0.631×Q富拉爾基+1.636×Q碾子山+7.411× Q兩家子+769.692

3.1.3 模型評估

1)利用回歸方程建立的模型,用于檢驗的不合格場次洪水測試精度均達到合格標準,方案合格率為11/12×100%=92%,為甲級方案,遠高于原乙級方案的合格率75%。詳見表3。

2)模型中不包含景星站這個變量,主要是由于景星站洪水對大賚站洪水貢獻過小,在表1中景星站最大洪峰流量僅為414 m3/s,占大賚站洪峰流量的5%,屬于不敏感參數,在數據挖掘過程中被舍棄。但是,當景星洪峰較大時,如1998年8月11日8時,景星洪峰流量高達2 400 m3/s,應該將景星洪峰流量與碾子山洪峰流量合并后,再輸入模型計算,就可以得到令人滿意的預報結果。

表3 不合格場次洪水檢驗 流量:m3/s

3)模型使用簡單,可以脫離waka平臺。當富拉爾基水文站出現(xiàn)洪峰時,提取其余三站同時流量,代入模型(可以使用excel或計算器),即可準確預報出大賚水文站洪峰流量,預見期長達7 d以上。

4 決策樹算法改進降雨徑流相關圖預報方案

4.1 研究區(qū)概況

五道溝水文站是第二松花江支流輝發(fā)河的把口控制站,集水面積12 391 km2。流域內水利工程眾多,大型水庫一座,中小水庫幾十座,控制面積3 000 km2,占五道溝集水面積的24.4%。

五道溝水文站現(xiàn)有預報方案之一為:P+Pa~R降雨徑流相關圖預報方案,產流方案合格率為78%,為乙級方案。

4.2 研究步驟

1)數據預處理。該研究直接摘取了五道溝水文站P+Pa~R降雨徑流相關圖預報方案中40場合格場次洪水歷史特征數據,建立符合weka平臺數據格式要求的數據集。另外,為了驗證模型精度,將方案中11場不合格場次洪水特征數據,作為檢驗模型精度的數據集。

2)選擇算法,建模。利用W eka軟件的Explorer讀取數據,選擇決策樹算法建立預報模型;選擇40場合格場次洪水歷史特征數據做為訓練數據,選擇11場不合格場次洪水特征數據為檢驗數據集;系統(tǒng)運行,得出模型的決策樹結構。

4.3 模型評估

1)決策樹算法建立的預報模型,用于檢驗的11場不合格場次洪水中,有5場測試精度均達到合格標準,方案合格率為45/51×100%=88%,為甲級方案,高于原乙級方案的合格率78%。詳見表4。

表4 不合格場次洪水檢驗

2)由于五道溝上游中小水庫較多,對河道洪水調蓄作用較大,而又無法量化,容易導致從實測洪水數據分割本場次洪水時誤差較大,進而使降雨、前期影響雨量與凈流深的關系偏離原有規(guī)律。

3)徑流深只是P+Pa~R降雨徑流相關圖產流方案的計算結果,但徑流深的預報精度直接決定了洪水總量和洪峰的大小。

5 結語

本文使用兩種數據挖掘算法,對兩種傳統(tǒng)預報方案進行了建模,進一步提高了預報方案精度,可以為經驗洪水預報方案編制以及實時洪水作業(yè)預報提供借鑒和參考。但在研究中也發(fā)現(xiàn)數據挖掘具有如下特點,需要加以注意。

1)數據挖掘在某一領域應用時,需要結合各種專業(yè)知識和實際工作經驗對建模過程進行科學評估,以確保挖掘到的規(guī)律具有一般性,避免不同的研究人員對同樣的數據進行挖掘,產生差異較大的結果。

2)數據挖掘平臺功能強大,但只是一個提供了大量算法的分析工具,并不是萬能的,仍然需要研究人員理解數據挖掘流程,了解算法基本原理和專業(yè)知識。

TV124

B

1002-0624(2016)01-0029-03

2016-08-10

猜你喜歡
場次水文站決策樹
金沙江壩下水文站中泓浮標系數穩(wěn)定性分析
SL流量計在特殊河段的應用——以河源水文站為例
西雙版納州水文站網合理布設及測驗方法探析
一種針對不均衡數據集的SVM決策樹算法
基于運行場次用時誤差的載人設備故障預警可視化研究
排考場次分配方法及其SQL實現(xiàn)
水文站缺測資料插補展延實例分析
決策樹和隨機森林方法在管理決策中的應用
基于決策樹的出租車乘客出行目的識別
地鐵觀影指南