蘇輝東,賈仰文,倪廣恒,龔家國,曹雪健,張明曦,牛存穩(wěn),張 迪
(1. 清華大學水利水電工程系,北京 100084;2. 中國水利水電科學研究院 流域水循環(huán)模擬與調控國家重點實驗室,北京 100038)
近年來,大數(shù)據(jù)技術在全球發(fā)展迅猛,掀起了基于大數(shù)據(jù)的機器學習和人工智能的研究熱潮,引起全球業(yè)界、學術界和各國政府的高度關注[1]。機器學習可以深度挖掘大數(shù)據(jù)的深度價值和內在聯(lián)系,在各個領域、學科交叉中有著良好的應用[2,3]。機器學習,是一門研究怎樣用計算機來模擬或實現(xiàn)人類學習活動的學科,它是人工智能中最具有智能特征的前沿研究領域之一,也是知識發(fā)現(xiàn)、數(shù)據(jù)挖掘等領域的重要基礎[4,5]。例如:數(shù)據(jù)挖掘、計算機視覺、生物特征識別、搜索引擎、醫(yī)學診斷、DNA序列測序、語音和手寫識別、戰(zhàn)略游戲和機器人運用[6]。機器學習可以應用于基于雷達圖像的短期降水預報和徑流預測,從而提升水文預報業(yè)務的效率,用大數(shù)據(jù)力量推動水文預報、徑流預測的發(fā)展。
徑流預測是水資源管理、調配和高效利用的基礎。徑流過程是一個高度復雜的非線性過程,傳統(tǒng)的方法是采用水文模型進行預測。目前的水文模型存在很多的發(fā)展瓶頸,基于概念模型如Horton模型、Philip模型、Kostiakov模型、水箱模型、新安江模型等回歸形式單一,公式表達式單一,無法得到很好的預測效果,難以完全適應所有的水文過程模擬[7]?;谖锢淼姆植际交虬敕植际剿哪P蚚8]問題如:第一,多尺度問題,如時間和空間尺度;第二,參數(shù)化問題,如參數(shù)的異質性等;第三是過程的復雜性,很多控制徑流的過程不是簡單的物理過程,而是化學或者生物過程以及人類活動等,例如蚯蚓和植物活動會在很大程度上影響入滲。
基于大數(shù)據(jù)的機器學習在徑流預測具有操作簡單的優(yōu)點,可以忽略復雜的下墊面情況、水文過程,發(fā)展及其在應用科學領域的不斷拓展,為認識、分析徑流的變化規(guī)律提供了新的理論和方法。BP人工神經(jīng)網(wǎng)絡模型作為人工智能算法的代表,因其結構簡單且具有良好的非線性映射能力,被廣泛地應用于徑流預測[9-11]。SVR算法出色的學習性能使得其在模式識別、回歸估計、概率密度函數(shù)估計等方面都有應用[12,13],在徑流預測中也有很好的應用[14,18,19]。本文采用的對照的傳統(tǒng)水文模型為THREW模型[15-17],在中國的烏魯木齊河流域[16]、美國的Blue River流域[17]和Sangmon流域[18]等得到了較好的應用。
本文采用SVR和BP人工神經(jīng)網(wǎng)絡兩種機器學習的方法,與傳統(tǒng)的分布式水文模型(THREW)進行比較,通過對比 效率系數(shù)和相對誤差指標,對各種預測方法進行分析對比,相關研究有助于徑流預測的發(fā)展。
本次案例選擇的是長江流域的子流域,位于湖北省宜昌市當陽市河溶鎮(zhèn),研究區(qū)地理區(qū)位如圖1所示。流域出口控制斷面為河溶鎮(zhèn)水文站,地理坐標為東經(jīng)111°56′,北緯30°36′,流域面積約200 km2。
圖1 研究流域地理位置及子流域劃分圖
(1)THREW模型。采用的水文模型為THREW 模型,這是一個分布式流域水文模型,主要應用于宏觀尺度。田富強等對代表性單元流域(Representative Elementary Watershed,REW)進行了擴展和補充從而建立了THREW模型[13,19]。代表性流域單元(簡稱REW)是經(jīng)過嚴格定義的子流域,也是模擬流域水文響應的基本單元。THREW 模型將代表性流域單元分為地表和地下2 層,其中對地下層進行進一步劃分,成為2 個子區(qū),地表層劃分為6 個子區(qū),能夠反映植被、裸土、冰川、積雪等4 種典型下墊面類型。針對上述3 個級別的子系統(tǒng),應用連續(xù)介質熱力學守恒定律及均化方法,得到REW 尺度上的質量、動量和能量守恒的通用形式,具有較好的擴展性。在本文研究中,REW 的劃分如圖1 所示,共將全流域分為30個REW。該模型在長江流域的徑流預測取得很好的效果。
(2)BP神經(jīng)網(wǎng)絡。BP神經(jīng)網(wǎng)絡[20-22]是一種按誤差逆向傳播算法訓練的多層前饋網(wǎng)絡,是目前應用最廣泛的神經(jīng)網(wǎng)絡模型之一。BP神經(jīng)網(wǎng)絡能學習和存貯大量的輸入-輸出模式映射關系(見圖2)。網(wǎng)絡模型它的學習規(guī)則是使用最速下降法,通過反向傳播不斷調整網(wǎng)絡的權值和閥值,使網(wǎng)絡的誤差平方和最小[23]。其中權值和閾值的調整公式如下:
(1)
式中:E為網(wǎng)絡輸出與實際輸出樣本之間的誤差平方和;η為網(wǎng)絡的學習速率即權值調整幅度;wij(t)為t時刻輸入層第i神經(jīng)元與隱含層第j神經(jīng)元的連接權值;wij(t+1)為(t+1)時刻輸入層第i神經(jīng)元與隱含層第j神經(jīng)元的連接權值;B為神經(jīng)元的閾值,根據(jù)下標依次推其他符號的意義與權值。
圖2 BP神經(jīng)網(wǎng)絡結構圖
(3)SVR模型。采用SVR(Support Vector Regression)支持向量回歸模型[24-26],支持向量機回歸與BP 神經(jīng)網(wǎng)絡類似,事先通過樣本訓練模型,然后對于訓練好的模型預測,給定輸入數(shù)據(jù),就可以得到相應的預測輸出。針對有限樣本,一定程度上實現(xiàn)結構風險最小化、得到全局最優(yōu)解,解決了在神經(jīng)網(wǎng)絡方法中無法避免的局部極值問題。針對給定的樣本集{(xi,yi)|i=1,2,…,n} 其中xi為輸入值,yi為預測值, 要求擬合的函數(shù)形式為:f(x)=wφ(x)+b。根據(jù)結構風險化最小化的原則,即要尋求最優(yōu)回歸超平面使:
(2)
式中:c為調節(jié)訓練誤差和模型復雜度之間折中的正則化常數(shù);ε為不靈敏損失函數(shù)。
由支持向量機的回歸問題轉化為一個二次規(guī)劃最優(yōu)化問題:
(3)
SVR 用常分為線性和非線性擬合回歸兩類,對于非線性的情況,引入核函數(shù)即可,本文采用的核函數(shù)有:
(4)
本文采用SVR支持向量回歸模型,內部采用不同的核函數(shù)及不同的懲罰因子,對2008-2012年當月及上月降雨量(二維)和當月徑流量(一維)數(shù)據(jù)規(guī)律學習,模擬2013-2014年月徑流量。
(4)Ns效率系數(shù)。
(5)
(5)相對偏差PB。
(6)
式中:Oi為觀測值;Si為模擬值。
采用傳統(tǒng)分布式水文模型THREW,對河容鎮(zhèn)流域進行模擬,本文將研究區(qū)劃分為30個代表性單元子流域,建模中所使用的數(shù)字高程數(shù)據(jù)來自美國聯(lián)邦地質調查局USGS,土壤資料來源于FAO,植被葉面積指數(shù)LAI根據(jù)歸一化植被指數(shù)NDVI估算,水文氣象數(shù)據(jù)分別由中國國家氣象局和水利部水利信息中心提供。參數(shù)率定采用PEST自動調參軟件和手動調參相結合的方法[27]。模型模擬期為2009年1月1日-2014年12月30日,其中2009年1月1日-2013年12月31日為模型率定期、2014年1月1日-2014年12月30日為驗證期。
圖3為THREW模型對河溶鎮(zhèn)流域2009年1月1日-2014年12月30日日徑流過程的模擬結果。從圖3可以看出,THREW模型對流域徑流量的模擬結果很好模擬了河溶鎮(zhèn)流域。對豐水季節(jié)的徑流模擬基本吻合,但是對枯水期的徑流預估偏小。其Ns效率系數(shù)和相對偏差PB分別為0.503和16.6%(見表1)。從圖3可以看出基于物理的THREW模型在枯水期的模擬偏小,在洪水期的徑流預測還可以。從Ns效率系數(shù)來看,THREW模型預估徑流是比較準確的,但是相對偏差PB有點偏大??傮w來看,基于物理的分布式水文模型THREW,對河溶鎮(zhèn)流域的徑流過程擬合預報精度表現(xiàn)較好,從而說明改進的集合徑流預報方法在漢江上游有著較強的應用價值。
圖3 基于THREW模型模擬的徑流結果
本文BP人工神經(jīng)網(wǎng)絡實例選取河溶鎮(zhèn)流域2009年1月1日-2013年12月30日的日降水和日徑流數(shù)據(jù),其中2008年1月-2013年12月的數(shù)據(jù)作為學習訓練樣本,2014年1月1日-12月30日為預測檢驗樣本。模型的輸入采用當日徑流量與前天降水量(二維)作為輸入數(shù)據(jù),輸出數(shù)據(jù)為當日徑流量。
圖4為BP人工神經(jīng)網(wǎng)絡模型對河溶鎮(zhèn)流域2009年1月1日-2014年12月30日日徑流過程的模擬結果。從模擬結果來看,模擬結果的Ns效率系數(shù)為0.463,相對偏差PB為2.3%。影響Ns效率系數(shù)的主要因素是對豐水期的大徑流量預測偏差較大,甚至出現(xiàn)模擬失真的現(xiàn)象,但是對其他時期的預測是高度的準確,這也表明BP人工神經(jīng)網(wǎng)絡模型很難解決局部極值問題??偟膩碚f,如果可以克服洪水期的預測失真問題,BP人工神經(jīng)網(wǎng)絡模型的模擬還是相當可信的。
圖4 基于BP神經(jīng)網(wǎng)絡的徑流模擬結果
本文SVR實例選取河溶鎮(zhèn)流域2009年1月-2014年12月的月降水和月徑流數(shù)據(jù),其中沒有學習訓練樣本,都為預測檢驗樣本,SVR本身自帶正交最小二乘優(yōu)選,不需要進行樣本訓練。模型的輸入采用當日徑流量與前天降水量(二維)作為輸入數(shù)據(jù),輸出數(shù)據(jù)為當日徑流量。內部采用徑向基核函數(shù)。
圖5為基于SVR算法對河溶鎮(zhèn)流域2009年1月-2014年12月月徑流過程的模擬結果。
圖5 基于SVR學習方法的模擬結果
從圖5 可以看出,徑向基核函數(shù)SVR的模擬結果在一定程度上解決了局部極值問題。在模擬效果有很大的提高,優(yōu)于TREW模型和BP神經(jīng)網(wǎng)絡模型,得到全局最優(yōu)解。但是其還是存在一定的最大洪峰預測偏小的狀況,這在一定程度上使得影響Ns效率系數(shù)依舊偏低,但是這對其他的流量模擬相當可信。相對于TREW模型和BP神經(jīng)網(wǎng)絡模型。
從數(shù)據(jù)結構來比較,TREW模型是綜合氣象數(shù)據(jù)、徑流數(shù)據(jù)、土壤、下墊面、高程數(shù)據(jù)以及分析水文過程來預測徑流,其數(shù)據(jù)來源分析復雜。相對而言機器學習需要的數(shù)據(jù)簡單得多,如SVR與BP人工神經(jīng)網(wǎng)絡輸入數(shù)據(jù)為當日徑流量與前天降水量(二維)作為輸入數(shù)據(jù),輸出數(shù)據(jù)為當日徑流量。
為了比較3種徑流預測方法的效果,本文采用Ns效率系數(shù)和相對誤差PB作為比較指標,其結果如表1所示。
表1 3種方法預測效果對比結構
TREW模型模擬效果好,Ns效率系數(shù)為0.503,但是其相對偏差較大。BP神經(jīng)網(wǎng)絡擬綜合效果較差其Ns效率系數(shù)為0.463,但是其相對偏差小,為2.3%。說明其有很好的逼近非線性映射的能力,但是局部極值等模擬失真,如實測值的極大值的峰值無法預測出來,這會影響B(tài)P神經(jīng)網(wǎng)絡在徑流預測中的應用的效果。SVR預測徑流比較而言最好,在低徑流階段模擬準確,對局部最大洪峰流量也模擬較準,但是也存在一定偏差。
不同的預測方法往往有著不同的預測結果,不同的預測方法挖掘不同的有用信息,不同模型的預測結果通常具有互補性,其預測精度也各有懸殊,而沒有一種適用于所有預測的通用方法。一種預測方法都有其適用性和局限性,應依據(jù)實際問題選擇適當?shù)哪P团c方法。本次采用的傳統(tǒng)分布式水文模型,模擬效果較好,具有清晰的物理過程,能明白其中的水文機理,但是數(shù)據(jù)要求較多,操作復雜。本次采用的兩種機械學習方法,都較好的模實現(xiàn)了對徑流的預測。泛化能力較好,即具有將學習成果應用于新知識的能力。本次采用的SVR和BP神經(jīng)網(wǎng)絡模擬案例中,除了洪水預報不準外,日徑流量具有較好的預測。但是同時也存在以下缺點:對數(shù)據(jù)依賴較大,樣本依賴性大,如果數(shù)據(jù)樣本容量再大,預測的結果可能會更理想。另外機器學習預測徑流的方法是一個純黑箱模型,現(xiàn)實意義不清楚,難以對流域本身變化引起徑流的變化進行預測。另外,在本次預測中SVR的綜合效果比BP較好,其兩項指標Ns效率系數(shù)和相對偏差PB都優(yōu)于BP,在一定程度上克服了洪峰徑流的預測失真問題。
本文用SVR和BP人工神經(jīng)網(wǎng)絡兩種機器學習的方法,對比了傳統(tǒng)的分布式水文模型(THREW),采用Ns效率系數(shù)和相對誤差PB指標進行分析。結果顯示,本次采用的傳統(tǒng)分布式水文模型THREW,模擬效果好,Ns效率系數(shù)為0.503,具有清晰的物理過程和水文機理,但是數(shù)據(jù)要求較多,操作復雜。本次采用的兩種機械學習方法,都較好的模實現(xiàn)了對徑流的預測。泛化能力較好,即具有將學習成果應用于新知識的能力。本次采用的BP神經(jīng)網(wǎng)絡模擬案例中,除了洪水預報不準外,日徑流量具有較好的預測,SVR對極大洪峰流量預測準確度有所提高。但是同時也存在以下缺點:對數(shù)據(jù)依賴較大,樣本依賴性大,如果數(shù)據(jù)樣本容量再大,預測的結果可能會更理想。本次模擬結果顯示SVR優(yōu)于TREW模型和BP神經(jīng)網(wǎng)絡模擬結果。
□
參考文獻:
[1] 黃宜華. 大數(shù)據(jù)機器學習系統(tǒng)研究進展[J]. 大數(shù)據(jù), 2015,1(1):28-47.
[2] 雷曉云, 張麗霞, 梁新平. 基于MATLAB工具箱的BP神經(jīng)網(wǎng)絡年徑流量預測模型研究----以塔城地區(qū)烏拉斯臺河為例[J]. 水文, 2008,28(1):43-46.
[3] 張利平, 王德智, 夏 軍,等. 相空間神經(jīng)網(wǎng)絡模型及其在水文預測中的應用[J]. 水電能源科學, 2004,22(1):5-8.
[4] 王雪松. 機器學習理論、方法及應用[M]. 北京:科學出版社,2009.
[5] 楊淑瑩, 張 樺. 模式識別與智能計算:MATLAB技術實現(xiàn)[M]. 北京:電子工業(yè)出版社, 2015.
[6] 李凡長. 機器學習理論及應用[M]. 合肥:中國科學技術大學出版社,2009.
[7] 劉佩瑤, 郝振純, 王國慶,等. 新安江模型和改進BP神經(jīng)網(wǎng)絡模型在閩江水文預報中的應用[J]. 水資源與水工程學報, 2017,28(1):40-44.
[8] 賈仰文, 王 浩, 倪廣恒, 等. 分布式流域水文模型原理與實踐[M]. 北京:中國水利水電出版社, 2005.
[9] 徐中民, 藍永超. 人工神經(jīng)網(wǎng)絡方法在徑流預報中的應用[J]. 冰川凍土, 2000,22(4):372-375.
[10] 藍永超, 康爾泗, 徐中民,等. B-P神經(jīng)網(wǎng)絡在徑流長期預測中的應用[J]. 中國沙漠, 2001,21(1):97-100.
[11] H Raman, N Sunilkumar. Multivariate modelling of water resources time series using artificial neural networks[J]. International Association of Scientific Hydrology Bulletin, 1995,40(2):145-163.
[12] Gui G Q. Face recognition using support vector machines[J]. Computer Science, 2003,30(4):11-15.
[13] Hearst M A, Dumais S T, Osuna E, et al. Support vector machines[J]. IEEE Intelligent Systems & Their Applications, 2002,13(4):18-28.
[14] 王景雷, 吳景社, 孫景生,等. 支持向量機在地下水位預報中的應用研究[J]. 水利學報, 2003,(5):122-128.
[15] 田富強, 胡和平, 雷志棟. 基于代表性單元流域的水文模擬理論與方法[DB/OL]. http:∥www.paper.edu.cn, 2005.
[16] Mou L, Tian F, Hu H, et al. Extension of the representative elementary watershed approach for cold regions: constitutive relationships and an application[J]. Hydrology & Earth System Sciences Discussions, 2007,4(5):565-585.
[17] Tian F, Li H, Sivapalan M. Model diagnostic analysis of seasonal switching of runoff generation mechanisms in the Blue River basin, Oklahoma[J]. Journal of Hydrology, 2012,s418-419(4):136-149.
[18] Liu D F, Tian F Q, Hu H P, et al. Sediment simulation at Upper Sangamon River basin using the THREW model[C]∥ Hydrological Modelling and Integrated Water Resources Management in Ungauged Mountainous Watersheds. Proceedings of A Symposium Held at Chengdu, China, 2009.
[19] TIAN Fuqiang, HU Heping, LEI Zhindong, et al. Extension of the representative elementary watershed approach fof cold regions via explicit treatment of energy related processes[J]. Hydrology and Earth System Sciences, 2006,10(5):619-644.
[20] 崔東文. 多隱層BP神經(jīng)網(wǎng)絡模型在徑流預測中的應用[J]. 水文, 2013,33(1):68-73.
[21] 楊 洪. 改進 BP 神經(jīng)網(wǎng)絡集成模型在徑流預測中的應用[J]. 水資源與水工程學報, 2014,(3):213-219.
[22] 聶 敏, 劉志輝, 劉 洋,等. 基于PCA和BP神經(jīng)網(wǎng)絡的徑流預測[J]. 中國沙漠, 2016,36(4):1 144-1 152.
[23] 季 云. BP算法及其應用實例[J]. 中國新技術新產(chǎn)品, 2010,(9):29.
[24] 明 琦, 劉俊萍. 蘭州站徑流支持向量機預測[J]. 水力發(fā)電學報, 2010,29(4):32-38.
[25] 郭 俊, 周建中, 張勇傳,等. 基于改進支持向量機回歸的日徑流預測模型[J]. 水力發(fā)電, 2010,36(3):12-15.
[26] 盧 敏, 張展羽. 徑流預測的支持向量機應用研究[J]. 中國農(nóng)村水利水電, 2006,(2):47-49.
[27] Doherty J. PEST: a unique computer program for model-independent parameter optimisation[Z]. Australia: 1994.