朱銘江,裘 婭,張祖鵬
(1.長興縣水利局,浙江 長興 313100;2.永康市水務局,浙江 永康 321300)
城市用水包括城市居民生活用水、服務業(yè)用水和重要工業(yè)用水。保障城市供水安全是支撐城市長期穩(wěn)定發(fā)展的重要基礎(chǔ)。城市用水量大,天然降水量隨機性強,導致降水偏枯的年份城市供水安全保障壓力較大,對城市供水調(diào)度工作提出了較高要求。準確掌握城市未來時段的用水量需求,是制定精準高效的城市供水調(diào)度方案的關(guān)鍵,是城市供水調(diào)度工作決策部署的基礎(chǔ)和前提。
目前,基于機器學習算法的數(shù)據(jù)挖掘方式在城市用水量預測領(lǐng)域中被廣泛應用:朱智偉[1]等采用ARIMA 模型、灰色GM(1,1)模型和多元線性回歸分析等3 種模型,建立以污水處理量、生產(chǎn)總值、總?cè)丝诘? 種因子為自變量的鄭州市年度用水量預測模型;李彥彬等[2]采用基于HP 濾波分解的GM-LSSVR 預測模型,建立以總?cè)丝凇⑵骄鶜鉁?、綠化率等8 種因子為自變量的鄭州市年度用水量預測模型;吳永強等[3]采用由5 個GM(1,1)模型組成的灰色動態(tài)模型群,建立以歷史上不同周期用水量作為自變量的衡水市年用水量預測模型;白鵬等[4]采用年增長率法、自回歸模型法和灰色神經(jīng)網(wǎng)絡法,建立以歷史用水量作為自變量的京津冀三地年用水量預測模型;陳莊等[5]采用基于MIC-XGBoost 的混合預測模型,建立以溫度、季節(jié)、節(jié)假日等4 種因子作為自變量的月尺度城市用水量預測模型;姚俊良等[6]采用神經(jīng)網(wǎng)絡算法,建立以前1 d 用水量和前8 h 用水量為自變量的城市日用水量預測模型;劉志壯等[7]采用一種基于小波分解與隨機森林模型、ARMA 模型結(jié)合的短期用水量預測方法,構(gòu)建以氣象數(shù)據(jù)、時間信息、節(jié)假日信息等因子作為自變量的城市短期日用水量預測模型。
總結(jié)目前圍繞城市用水量預測的研究成果可知,預測模型采用的理論方法已較為成熟,但是多數(shù)研究的預測模型采用的自變量數(shù)據(jù)缺乏實時監(jiān)測條件,需要通過定期調(diào)查分析的手段獲取,導致只能對年尺度用水量進行預測。隨著浙江省水利數(shù)字化改革的深入推進,運用數(shù)字化手段賦能城市供水調(diào)度工作對于提升城市供水安全保障水平具有重要作用?;诖吮尘埃敬芜x擇具有在線實時監(jiān)測條件的城市水廠取水量數(shù)據(jù)作為自變量,采用基于粒子群算法優(yōu)化的支持向量機方法挖掘城市水廠歷史取水量規(guī)律,建立月尺度城市用水量預測模型,為城市供水數(shù)字化調(diào)度管理提供技術(shù)支撐。
支持向量機(Support Vector Regression,SVR)作為常用的機器學習方法被廣泛應用于時間序列預測,能很好地處理小樣本數(shù)據(jù)、非線性及時間序列等問題,且具有較強的泛化能力[8]。SVR 方法主要思想:利用非線性映射將樣本集從低維空間映射到高維空間,再從高維空間中構(gòu)建回歸方程。
假設給定樣本集S=,x為輸入向量,xi∈Rn,y為相應的輸出向量,yi∈R。其非線性映射可定義為:
式中:x為輸入數(shù)據(jù);φ(x)為非線性映射函數(shù);ω為權(quán)重;b為截距。根據(jù)結(jié)構(gòu)風險最小化原則,f(x) 可等效于求解優(yōu)化問題,即:
式中:L為損失函數(shù);C為懲罰因子,是調(diào)節(jié)樣本回歸模型的復雜性與樣本擬合精度的因子,C越大,則越重視離群點。通過引入松弛變量和來糾正不規(guī)則的因子,此時可得:
式中:ε為不敏感損失因子(允許的最大誤差),ε>0。將回歸問題轉(zhuǎn)換為求取目標函數(shù)的最小化問題,利用對偶原理,同時引入拉格朗日乘法算子,可轉(zhuǎn)換為:
式中:αi和αi*為拉格朗日乘數(shù)。根據(jù)Mercer定理法則,求解上述凸二次規(guī)劃問題并獲得非線性映射SVR 表達式為:
式中:K(xi,x)=φ(xi)φ(xj)為核函數(shù)。徑向基函數(shù)(Radial Basis Function,RBF)用途廣泛,也是被廣大學者所采用的核函數(shù),因此選取RBF核函數(shù),其可定義為:
式中:γ為核參數(shù),。
懲罰因子C和核參數(shù)γ直接決定了SVR 方法的準確性,為了提高SVR 模型的預測精度,需要對這兩個參數(shù)進行尋優(yōu)選取[9]。因此,選取粒子群優(yōu)化算法(Particle Swarm optimization,PSO)對懲罰因子C和核函數(shù)參數(shù)g、p進行尋優(yōu)[10]。
粒子群優(yōu)化算法,其基本思想:在D維目標搜索空間,有m個例子由3 個向量表示,第i個粒子當前位置可表示為xi=(xi1,xi2,L,xiD)T,速度為vi=(vi1,vi2,L,viD)T;pi=(pi1,pi2,L,piD)T表示第i個粒子個體極值點位置;pg=(pg1,pg2,L,pgD)T表示整個種群全局極值點位置。粒子根據(jù)個體極值點和全局極值點重新確定本身位置和速度,速度和位置更新如下:
位置更新公式由3 部分組成:量部分、個體認知部分及社會認知。
粒子群算法優(yōu)化支持向量機的具體流程圖[11]如下:
圖1 PSO-SVR 模型計算流程圖
長興縣地處三省交界、長三角一體化核心區(qū)域,是上海經(jīng)濟區(qū)的交通樞紐,雄踞江蘇、浙江、安徽三省結(jié)合部。長興縣水陸交通便利,距湖州市20 km,距上海市180 km,距杭州市中心90 km。航道通航里程262 km,船只可達湖州、杭州、上海、蘇州等地,為長興物流暢通和經(jīng)濟發(fā)展提供優(yōu)越的便利條件。
長興縣城市用水主要由長興水務公司供水,取水水源主要為合溪水庫。目前,長興水務公司取水量具有在線實時監(jiān)測數(shù)據(jù),數(shù)據(jù)采集頻率為15min/次。本次研究收集長興水務公司2013—2021 年取水實時監(jiān)測數(shù)據(jù),并統(tǒng)計至逐月尺度,結(jié)果見圖2。
圖2 長興水務公司2013—2021 年逐月用水量圖
預測因子是指用水量預測模型的自變量參數(shù)。由于本次長興縣城市用水量預測模型構(gòu)建采用的基礎(chǔ)數(shù)據(jù)為具備在線實時監(jiān)測條件的逐時段用水量,因此自變量參數(shù)也需在時段用水量范圍內(nèi)篩選。考慮與預測輸出結(jié)果(時段用水量)具有相關(guān)關(guān)系的變量為前期(前1 月,前2 月,前3 月,……,前n月)用水量,采用相關(guān)系數(shù)法[12]篩選最終預測因子,相關(guān)系數(shù)是衡量變量之間線性相關(guān)程度的指標,其表達式為:
式中:xi(i=1,2,...,n)為變量x的系列值;yi(i=1,2,...,n)為變量y與x相對應的系列值;分別為x、y的平均值。相關(guān)系數(shù)有正有負,即正負相關(guān)。這里按照絕對值的大小進行衡量,不管正負相關(guān),只要其相關(guān)系數(shù)的絕對值較大,就說明兩者有較好的相關(guān)性。
基于長興水務公司2013—2021 年逐月用水量數(shù)據(jù),采用相關(guān)系數(shù)法篩選長興縣城市用水量預測模型預測因子,結(jié)果見表1。其中選擇相關(guān)系數(shù)在0.5 以上的預測因子作為最終輸入因子。
表1 長興縣城市用水量預測模型預測因子表
以長興水務公司2013 年3 月—2021 年12 月用水量作為長興縣城市用水量預測模型輸出,以預測時段前1 月、前2 月用水量作為模型輸入,采用支持向量機模型構(gòu)建城市用水量預測模型。其中支持向量機模型懲罰系數(shù)c、核函數(shù)參數(shù)g、p采用粒子群算法進行優(yōu)化。將80%的基礎(chǔ)數(shù)據(jù)序列用于模型訓練,20%的基礎(chǔ)數(shù)據(jù)序列用于模型驗證。經(jīng)訓練和驗證的用水量預測模型相關(guān)參數(shù)見表2,模型訓練期和驗證期預測結(jié)果見圖3~4。
表2 長興縣城市用水量預測模型參數(shù)表
圖3 長興縣城市用水量預測模型訓練期預測結(jié)果圖
圖4 長興縣城市用水量預測模型驗證期預測結(jié)果圖
根據(jù)長興縣城市用水量預測模型構(gòu)建結(jié)果可知:模型在訓練期及驗證期精度均較高,其中訓練期模型預測結(jié)果合格率達到97.6%,均方誤差為0.014;驗證期模型精度稍有下降,但合格率也達到95.2%,均方誤差為0.015,均滿足實際管理需求。
提取粒子群算法對支持向量機模型懲罰系數(shù)c、核函數(shù)參數(shù)g、p等參數(shù)的優(yōu)化過程(見圖5)。由此可知,采用粒子群算法優(yōu)化模型參數(shù)可使支持向量機模型適應度快速達到最優(yōu),是提升模型參數(shù)優(yōu)化效率的有效方法。
圖5 粒子群優(yōu)化的支持向量機模型適應度進化過程圖
以長興縣水務公司2013—2021 年逐月用水量數(shù)據(jù)為基礎(chǔ),通過長興縣城市用水量預測模型構(gòu)建的實例研究可知:
(1)長興縣城市用水量預測模型篩選的預測因子為預測時段前1 月、前2 月用水量;模型訓練期和驗證期預測精度較高,可以滿足實際應用需求;
(2)以支持向量機模型為代表的機器學習方法,通過挖掘用水量大數(shù)據(jù)內(nèi)在規(guī)律,在城市用水量預測方面精度較高,具有較好適用性,可以為水利數(shù)字化改革提供高效的用水量預測模型組件。