劉煒 趙麗霞 趙淑饒 趙晶
摘 要:在水文站洪水期流量測驗中,受風(fēng)浪和漂浮物的影響以及設(shè)施設(shè)備的限制,斷面測量是一直以來的難點。傳統(tǒng)的斷面鄰近借用法在斷面發(fā)生較大沖淤變化時會造成較大的流量計算誤差。根據(jù)水深與流速之間存在的相關(guān)性,使用隨機森林算法,以流速分布、水位、河寬等作為輸入?yún)?shù)建立斷面形態(tài)預(yù)測模型,對吳堡站測流斷面形態(tài)進行了預(yù)測。結(jié)果表明:使用基于隨機森林算法的斷面形態(tài)預(yù)測模型來確定測流斷面形態(tài)是對傳統(tǒng)的斷面鄰近借用法的有力補充:吳堡站流量在3 000 m3/s以上測次的流量預(yù)測標準差為13%,大于規(guī)范標準,模型仍需改進。建議從兩方面來提高斷面形態(tài)預(yù)測的準確性:一是增加特征垂線實測水深等附加參數(shù):二是從斷面變化角度出發(fā)分析斷面沖淤與水沙過程的關(guān)系,進而找到更多的影響因子加入回歸模型。
關(guān)鍵詞:隨機森林算法:形態(tài)預(yù)測:測流斷面:吳堡站
中圖分類號:P333:TV882.1
文獻標志碼:A
doi: 10.3969/j.issn.1000-1379.2018.06.003
流量是反映江河湖庫水量變化的基本資料。實測流量時,應(yīng)根據(jù)測流設(shè)施設(shè)備實際情況,在保證測驗精度的前提下,因地制宜地采用合適的測流方法。對于水文測站,當(dāng)遇大洪水或急漲急落的小洪水時,由于洪水來勢兇猛,漂浮物較多,因此全面實測水深、流速的難度較大,此時可以依據(jù)有關(guān)規(guī)范采用水面流速法測流,其形式包括傳統(tǒng)的浮標法測流[1]以及近年來出現(xiàn)的微波流速儀、雷達槍等非接觸手段。對于水面流速,高洪期間的過流斷面測速傳統(tǒng)上采用借用方法,即按照“峰前借峰前,峰后借峰后,鄰近借用”的原則進行估算。借用斷面的形態(tài)是否合理是影響高洪流量測驗精度的關(guān)鍵因素。提高斷面形態(tài)的預(yù)測精度,能有效提高洪水過程的測驗質(zhì)量和報汛精度。
近年來,人T神經(jīng)網(wǎng)絡(luò)[2-3]、小波神經(jīng)網(wǎng)絡(luò)模型[4-5]和支持向量機[6-7]等機器學(xué)習(xí)算法被廣泛應(yīng)用于水文預(yù)報中。河寬、水深、流速等因素相互作用,共同影響了測驗斷面的基本形態(tài),且水深、流速的相關(guān)性較高,本文以吳堡水文站為例,采用隨機森林算法構(gòu)建了斷面形態(tài)預(yù)測模型。
1 隨機森林斷面形態(tài)預(yù)測模型
1.1 隨機森林算法
隨機森林算法[5]是機器學(xué)習(xí)算法的一種,其適應(yīng)性較強,可用于解決非線性回歸問題。決策樹是隨機森林算法的基礎(chǔ)分類器,其構(gòu)造由一個獨立同分布的隨機向量決定。如果將決策樹看成分類任務(wù)中的一個專家,那么隨機森林算法是許多專家在一起對某種任務(wù)進行分類。隨機森林算法是由多個決策樹組成的分類器,輸入向量的最終所屬類別由算法中所有的決策樹投票決定。決策樹通過對參數(shù)數(shù)值(白變量)進行不斷劃分來確定因變量數(shù)值,從而建立自變量一因變量映射關(guān)系。在每“棵”決策樹的構(gòu)造過程中,其分支處參數(shù)的選擇和劃分都是隨機的,因此得到的因變量數(shù)值也具有一定隨機性。在隨機森林算法中,當(dāng)決策樹數(shù)目很大時遵循大數(shù)定律,隨機森林算法不會隨著分類樹的增加出現(xiàn)過度擬合,但有一個有限的泛化誤差值。
隨機森林算法應(yīng)用廣泛,在水文氣象方面,也有基于隨機森林算法的暴雨洪水預(yù)報等模型。本文是隨機森林算法應(yīng)用于洪水期流量測驗斷面預(yù)測的一次初步嘗試。
1.2 模型構(gòu)建和參數(shù)選擇
本文使用scikit -learn算法集合中的Random Forest類建立斷面形態(tài)預(yù)測模型,依據(jù)隨機森林算法在解決非線性問題及其在決策樹構(gòu)建和綜合過程中對數(shù)據(jù)特征識別方面的優(yōu)勢,將其作為模型的核心算法。模型總體上包括數(shù)據(jù)集劃分、模型訓(xùn)練、模型測試和檢驗指標計算等組成部分,見圖1。
模型訓(xùn)練是指將訓(xùn)練集合中的選定參數(shù)作為自變量、目標函數(shù)的實測值(垂線水深)作為因變量輸入模型并建立斷面形態(tài)預(yù)測模型的過程。本文根據(jù)隨機互斥原則,將數(shù)據(jù)集按照85:15的比例劃分為訓(xùn)練集和測試集。在模型測試階段,將測試集中的選定參數(shù)輸入模型,模型輸出目標函數(shù)預(yù)測值。模型檢驗針對測試集目標函數(shù)的實測值及其預(yù)測值進行,具體而言就是以實測水深來檢驗預(yù)測水深的準確度。采用均方誤差(MSE)和決定系數(shù)(R2)兩個經(jīng)典檢驗指標進行準確度判斷:式中:yi為水深預(yù)測值;yi為水深實測值;y為平均水深。
在斷面形態(tài)預(yù)測模型中,預(yù)測因子是白變量,斷面形態(tài)是因變量。模型預(yù)測因子的挑選采用逐步篩選法,對于所有的檢驗樣本,隨機打亂某一白變量取值,再用模型對樣本進行測試,擬合誤差越大,說明該解釋變量越重要。隨機森林模型通過R代碼( RF.impor-tances)給出了每個白變量對因變量作用的重要性的計算命令,計算得出的各自變量重要性之和為1,計算值越大表示該變量越重要,在解釋變量重要性的基礎(chǔ)上,采用隨機森林算法的回歸功能進行斷面形態(tài)預(yù)測。
2 實例應(yīng)用
2.1 吳堡水文站概況
吳堡水文站于1935年建站,是國家重要水文站、黃河重點報汛站、大河干流控制站,位于陜西省吳堡縣宋家川鎮(zhèn)柏樹坪村,距河口站距離為1544 km,集水面積為433 514 km2。吳堡站測驗河段基本順直,河勢穩(wěn)定,主流偏有。流向與斷面基本垂直?;希ɑ鶞蕯嗝嫔嫌危? 300 m有急彎,基下230 m右岸有一小支溝,流域面積約為30 km2,最大山洪流量為200 m3/s。主槽較穩(wěn)定,主流一般在起點距320 m左有,大水時略向有岸移動。下游小支溝漲水時,若黃河干流流量小于1 000 m3/s,則對水面比降有一定影響,大于1000 m3/s時沒有影響。
本文選取吳堡站1953-2012年流量大于1 000m3/s的1 237次實測斷面流量測次(垂線20 855條)作為數(shù)據(jù)全集,使用全集中的85%(1 051個測次,垂線17 700條)作為訓(xùn)練集,用于模擬訓(xùn)練,構(gòu)造隨機森林模型:其他15%(186個測次,垂線3 155條)作為測試集,用來對模型進行檢驗和評估。訓(xùn)練集和測試集采用隨機分配的方法進行劃分。
2.2 斷面形態(tài)預(yù)測因子的選取
斷面形態(tài)預(yù)測模型的回歸目標是由垂線水深構(gòu)成的斷面形態(tài)。斷面形態(tài)與水沙量級有關(guān),水位可以作為其代表,由于斷面形態(tài)與流速分布存在相關(guān)性,因此選擇水位、垂線起點距、垂線平均流速作為首選參數(shù)。又因為斷面形態(tài)預(yù)測中影響這3個參數(shù)的因子有很多,所以從流速分布(起點距一流速數(shù)組)中提取左岸水邊起點距、右岸水邊起點距、垂線最大流速3個特征值作為模型的待選參數(shù),其中前兩個值代表了斷面橫向的位置和河寬,后一個值兼顧表征水沙量級和流速極值特征。
模型預(yù)測因子挑選采用逐步篩選法。本文以不同起點距位置的垂線平均流速作為初選預(yù)測因子,將對應(yīng)起點距位置的測次垂線水深作為預(yù)測對象,輸入逐步篩選程序,并設(shè)置F檢驗的顯著性水平α= 0.1,以垂線流速分布、水位、垂線最大流速、過水?dāng)嗝嫫瘘c距范圍等為參數(shù),采用隨機森林算法建立回歸模型,預(yù)測各起點距對應(yīng)的水深,根據(jù)均方誤差和決定系數(shù)判斷回歸性能,篩選出合適的參數(shù)組合。不同參數(shù)組合的檢驗結(jié)果見表1。
由表1可知,參數(shù)組合編號為119的均方差最?。?.29),決定系數(shù)最大(0.88),所以最終確定模型的6個參數(shù)為水位、左岸水邊起點距、右岸水邊起點距、垂線最大流速、起點距、垂線平均流速,其中各參數(shù)的敏感度見圖2,可知垂線平均流速在所有參數(shù)中最敏感,其余依次分別為水位、起點距、右岸水邊起點距、左岸水邊起點距和垂線最大流速。
2.3 預(yù)測結(jié)果及誤差分析
預(yù)測斷面形態(tài)的目的是進行流量計算,因而本文中斷面形態(tài)預(yù)測模型的檢驗評估分為斷面形態(tài)、流量兩個方面。
2.3.1 斷面形態(tài)
圖3為2012年9月13日9:00斷面形態(tài)預(yù)測結(jié)果。以斷面面積相對誤差作為衡量指標,其概率分布見圖4(E80、E60分別為80%、60%概率所對應(yīng)的最大相對誤差的絕對值,loc為誤差的平均值.std為標準差),由圖4可知回歸的斷面面積存在1%的系統(tǒng)偏差,相對標準差為14%,檢驗測次中80%的面積誤差小于16%,60%的面積誤差小于10%。
2.3.2 流量
流量誤差檢驗方面仍以相對標準差作為主要的評估指標,結(jié)果見表2。圖5、圖6分別為在測試集全集、流量大于3 000 m3/s的測次集合上使用模型進行斷面形態(tài)回歸所計算流量結(jié)果的相對誤差概率分布。
由圖6可知流量大于3 000m3/s時相對誤差絕對值大都在10%以內(nèi),由圖7可知相對誤差有隨著流量增大而減小的趨勢,這說明模型對高洪條件有較好的適應(yīng)性。
從模型在測試集上的回歸結(jié)果中隨機抽取10個3 000 m3/s以上流量測次,預(yù)測斷面面積與實測斷面面積、預(yù)測流量與整編流量的比較見表3。
3 結(jié)語
(1)采用數(shù)學(xué)模型來確定測流斷面形態(tài)是對傳統(tǒng)的鄰近借用法的有力補充。得益于機器學(xué)習(xí)算法對歷史資料中數(shù)據(jù)特征的經(jīng)驗性識別,模型預(yù)測的斷面形態(tài)比簡單的鄰近借用法更有依據(jù)。
(2)對吳堡站流量在3 000 m3/s以上測次的斷面預(yù)測結(jié)果表明,流量計算的標準差為13%,大于流量測驗規(guī)范中浮標法測流標準差小于10%的標準。因此,從生產(chǎn)應(yīng)用角度出發(fā),該模型仍需改進。
(3)斷面形態(tài)是水沙過程與河床相互作用的結(jié)果。根據(jù)目前有限的擴展研究,筆者認為斷面形態(tài)預(yù)測的改進途徑有兩種:一是增加特征垂線實測水深等附加參數(shù):二是從斷面變化角度出發(fā),分析斷面沖淤與水沙過程的關(guān)系,進而找到更多的影響因子加入回歸模型。
參考文獻:
[1]鄭建民,楊禎祥,鄭飛.洪水期浮標法測流應(yīng)用研究[J].東北水利水電,2016,22(2):33-34.
[2] 袁曾任.人T神經(jīng)元網(wǎng)絡(luò)及其應(yīng)用[M].北京:清華大學(xué)出版社.1999:26-41.
[3] KHOTANZAD A, ELRAGAL H, LU T L.Combination ofArtifal Neural Network Forecasters for Prediction of NaturalGas Consumption[J].IEEE, Transactions on Natural Net-work, 2000, 11(2): 464-473.
[4] 陳哲,馮天瑾.小波神經(jīng)網(wǎng)絡(luò)研究進展及展望[J].青島海洋大學(xué)學(xué)報(白然科學(xué)版),1999,29(4):663-668.
[5] 趙學(xué)智,鄒春華,陳統(tǒng)堅,等.小波神經(jīng)網(wǎng)絡(luò)的參數(shù)初始化研究[J].華南理工丈學(xué)學(xué)報(白然科學(xué)版),2003,31
(2):77-79.
[6] 李國正,王猛.支持向量機導(dǎo)論[M].北京:電子工業(yè)出版社,2005:33-48.
[7] 李紅蓮,王春花,袁保宗.一種改進的支持向量機NN-SVM[J].計算機學(xué)報,2003,26(8):1叭5-1叭9.
[8]
BREIMAN L Random Fore.sts[J]. Machine Learning, 2001, 45(1):5-32.