張璇
(華北水利水電大學(xué)信息工程學(xué)院,河南 鄭州450046)
水資源是各個(gè)國(guó)家和地區(qū)的重要資源。近年來(lái),我國(guó)水資源嚴(yán)重匱乏,各地區(qū)水資源供需不平衡,特別是在促進(jìn)工業(yè)化和城市化的發(fā)展過(guò)程中,水資源利用不科學(xué)、城市水資源供需矛盾等問(wèn)題日趨嚴(yán)重,供水水源日趨緊張。如何科學(xué)的對(duì)水資源進(jìn)行規(guī)劃、調(diào)度、管理、配置和決策是一個(gè)城市發(fā)展的基本問(wèn)題。城市的用水量預(yù)測(cè)是根據(jù)城市過(guò)去的用水量數(shù)據(jù)及其影響因素來(lái)預(yù)測(cè)未來(lái)的需水量。城市用水量預(yù)測(cè)是水資源規(guī)劃與管理的前提和基礎(chǔ),其預(yù)測(cè)結(jié)果直接影響給水系統(tǒng)調(diào)度決策的可靠性和實(shí)用性及城市水資源的可持續(xù)利用和社會(huì)經(jīng)濟(jì)的可持續(xù)發(fā)展[2]。目前,主要預(yù)測(cè)方法有用水定額法、指數(shù)平滑法、系統(tǒng)動(dòng)力學(xué)、Volterra 濾波器預(yù)測(cè)法、時(shí)間序列預(yù)測(cè)方法、自回歸移動(dòng)、支持向量機(jī)、回歸分析法[10-11]、神經(jīng)網(wǎng)絡(luò)法[1-3]、灰色預(yù)測(cè)法[4-5]以及組合預(yù)測(cè)法等[6-10]。本文主要先通過(guò)運(yùn)用灰色關(guān)聯(lián)法分析鄭州市用水量的影響因素,并運(yùn)用主成分分析法對(duì)數(shù)據(jù)進(jìn)行處理后作為BP 神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)模型的輸入,從而建立了PCA-BP 神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)模型對(duì)鄭州市用水量進(jìn)行預(yù)測(cè)。
PCA-BP 神經(jīng)網(wǎng)絡(luò)模型是將主成分分析法與BP 神經(jīng)網(wǎng)絡(luò)進(jìn)行結(jié)合的預(yù)測(cè)模型,通過(guò)主成分分析法對(duì)輸入因子進(jìn)行處理后,再以BP 神經(jīng)網(wǎng)絡(luò)作為預(yù)測(cè)模型而構(gòu)建的組合模型。該模型首先利用主成分分析法對(duì)用水量影響因素進(jìn)行處理,轉(zhuǎn)化為幾個(gè)可以替代的主成分,然后將選取的主成分作為BP 神經(jīng)網(wǎng)絡(luò)輸入特征值對(duì)鄭州市年用水量進(jìn)行預(yù)測(cè)。
主成分分析是把多個(gè)指標(biāo)化為少數(shù)幾個(gè)綜合指標(biāo)的一種統(tǒng)計(jì)分析方法。在多指標(biāo)(變量)的研究中,往往由于變量個(gè)數(shù)太多,且彼此之間存在著一定的相關(guān)性,因而使得所觀測(cè)的數(shù)據(jù)在一定程度上有信息的重疊。當(dāng)變量較多時(shí),在高維空間中研究樣本的分布規(guī)律就更麻煩。主成分分析采取一種降維的方法,找出幾個(gè)綜合因子來(lái)代表原來(lái)眾多的變量,使這些綜合因子盡可能地反映原來(lái)變量的信息量,而且彼此之間互不相關(guān),從而達(dá)到簡(jiǎn)化的目的。
在利用神經(jīng)網(wǎng)絡(luò)模型進(jìn)行預(yù)測(cè)時(shí),模型輸入變量的篩選和輸入結(jié)構(gòu)的簡(jiǎn)化是影響預(yù)測(cè)效果和決定成果可靠性的重要技術(shù)。主成分分析通過(guò)數(shù)學(xué)變換將用水量原始影響因素轉(zhuǎn)換成幾個(gè)能夠解釋主要信息的“新因素”,即主成分,通過(guò)降維提高建模速度,同時(shí)這些“新因素”間彼此獨(dú)立,因此可提高預(yù)測(cè)結(jié)果的準(zhǔn)確性。
設(shè)觀測(cè)樣本的矩陣為
n 為樣本數(shù),p 為變量數(shù)。為使該樣本集在降維中所引起的平方誤差最小,必須進(jìn)行兩方面的工作:一是進(jìn)行坐標(biāo)變換,即用雅可比方法求解正交變換矩陣;二是選取m(m<p)個(gè)主成分。
(1)將原始數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,即對(duì)樣本集中元素xik作
主成分分析的明顯特征是每個(gè)主分量依賴(lài)于測(cè)量初始變量所用的尺度,當(dāng)尺度改變時(shí),會(huì)得到不同的特征值λ??朔@個(gè)困難的方法是對(duì)初始變量進(jìn)行以上標(biāo)準(zhǔn)化處理,使其方差為1。
(2)計(jì)算樣本矩陣的相關(guān)系數(shù)矩陣
(3)對(duì)應(yīng)于相關(guān)系數(shù)矩陣R,用雅可比方法求特征方程|R-λi|=0 的p 個(gè)非負(fù)特征值,λ1>λ2>…叟λp叟0 對(duì)應(yīng)于特征值的相應(yīng)特征向量為C(i)=(C1(i),C2(i),…,Cp(i)),i=1,2,…,p,并且滿(mǎn)足
(4)選擇m(m
BP 神經(jīng)網(wǎng)絡(luò)是在1985 年Rumelhart 等人提出來(lái)的,又叫做誤差反向傳遞學(xué)習(xí)算法,實(shí)現(xiàn)了Minsky 的多層網(wǎng)絡(luò)設(shè)想,如圖1 所示。
圖1 BP 神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖
BP 神經(jīng)網(wǎng)絡(luò)算法包含輸入層節(jié)點(diǎn)、輸出層節(jié)點(diǎn),還可有1個(gè)或多個(gè)隱含層節(jié)點(diǎn)。對(duì)于輸入信號(hào),要先向前傳播到隱含層節(jié)點(diǎn),經(jīng)作用函數(shù)后,再把隱節(jié)點(diǎn)的輸出信號(hào)傳播到輸出節(jié)點(diǎn),最后給出輸出結(jié)果。節(jié)點(diǎn)的作用的激勵(lì)函數(shù)通常選取S 型函數(shù),如
式中Q 為調(diào)整激勵(lì)函數(shù)形式的Sigmoid 參數(shù)。該算法的學(xué)習(xí)過(guò)程由正向傳播和反向傳播組成。在正向傳播過(guò)程中,輸入信息從輸入層經(jīng)隱含層逐層處理,并傳向輸出層。每一層神經(jīng)元的狀態(tài)只影響下一層神經(jīng)元的狀態(tài)。如果輸出層得不到期望的輸出,則轉(zhuǎn)入反向傳播,將誤差信號(hào)沿原來(lái)的連接通道返回,通過(guò)修改各層神經(jīng)元的權(quán)值,使得誤差信號(hào)最小。
設(shè)含有n 個(gè)節(jié)點(diǎn)的任意網(wǎng)絡(luò),各節(jié)點(diǎn)之特性為Sigmoid 型。為簡(jiǎn)便起見(jiàn),指定網(wǎng)絡(luò)只有一個(gè)輸出y,任一節(jié)點(diǎn)i 的輸出為Oi,并設(shè)有N 個(gè)樣本(xk,yk)(k=1,2,…,N),對(duì)某一輸入xk,網(wǎng)絡(luò)輸
如果有M層,而第M層 僅含輸出節(jié)點(diǎn),第一層為輸入節(jié)點(diǎn),則BP 算法為:
第一步,選取初始權(quán)重W。
第二步,重復(fù)下述過(guò)程直至收斂:
(1)對(duì)于k=1 到N
a.計(jì)算Oik,netjk和y贊k 的值(正向過(guò)程);
b.對(duì)各層從M到2 反向計(jì)算(反向過(guò)程);
(2)對(duì)同一節(jié)點(diǎn)j∈M,由式(1)和式(2)計(jì)算δjk;
由此可以看出,BP 神經(jīng)網(wǎng)絡(luò)算法是把一組樣本的I/O 問(wèn)題變?yōu)橐粋€(gè)非線性?xún)?yōu)化問(wèn)題它使用的是優(yōu)化中最普通的梯度下降法。如果把神經(jīng)網(wǎng)絡(luò)的看成輸入到輸出的映射,則這個(gè)映射是一個(gè)高度非線性映射。
一般來(lái)說(shuō),結(jié)構(gòu)模型是根據(jù)所研究領(lǐng)域及要解決的問(wèn)題確定的。通過(guò)對(duì)所研究問(wèn)題的大量歷史資料數(shù)據(jù)的分析及目前的神經(jīng)網(wǎng)絡(luò)理論發(fā)展水平,建立合適的模型,并針對(duì)所選的模型采用相應(yīng)的學(xué)習(xí)算法,在網(wǎng)絡(luò)學(xué)習(xí)過(guò)程中,不斷地調(diào)整網(wǎng)絡(luò)參數(shù),直到輸出結(jié)果滿(mǎn)足要求。
本文采用的評(píng)價(jià)指標(biāo)是均方根誤差(RMSE),相對(duì)誤差,平均絕對(duì)百分誤差(MAPE),模型有效度來(lái)評(píng)價(jià)模型的可靠性。其計(jì)算公式如式(3),式(4),式(5),式(6)
其中,yi表示實(shí)際值,y贊i 表示預(yù)測(cè)值,n 表示預(yù)測(cè)個(gè)數(shù),Ei表示相對(duì)誤差。
MAE 為平均絕對(duì)誤差,PMAE為平均絕對(duì)誤差與裝機(jī)容量的比值,實(shí)際應(yīng)用中通常采用百分?jǐn)?shù)的形式。
城市用水一般包括農(nóng)業(yè)用水、工業(yè)用水、生活用水和生態(tài)環(huán)境用水等。農(nóng)業(yè)用水主要包括農(nóng)業(yè)灌溉用水和林牧副漁用水;工業(yè)用水主要指的是工業(yè)生產(chǎn)中的用水;生活用水包括城鎮(zhèn)生活用水、農(nóng)村生活用水、城鎮(zhèn)公共用水、其他服務(wù)業(yè)用水等;生態(tài)環(huán)境用水指的是修復(fù)環(huán)境的用水量以及公共綠地用水量。每一個(gè)城市的用水量在一定程度上受各種因素的影響,除了會(huì)受到各方面用水量影響之外,還會(huì)受到比如氣候、人口、降雨量等,本文主要通過(guò)四個(gè)方面分析了各種影響用水量因素,并選取了15 個(gè)指標(biāo)與鄭州市年用水量進(jìn)行了灰色關(guān)聯(lián)分析。
表1 年用水量和其影響因子的關(guān)聯(lián)序
(1)農(nóng)業(yè)方面選取的影響因素有:X1 農(nóng)業(yè)播種面積,X2 有效灌溉面積,X3 農(nóng)業(yè)總產(chǎn)值,X4 農(nóng)業(yè)年用水量。
(2)工業(yè)方面對(duì)于鄭州市用水量的影響選取的因包括X5 工業(yè)總產(chǎn)值和X6 工業(yè)年用水量。
(3)生活方面選取的因素包括:X7 鄭州市人口總數(shù),X8 人均用水量,X9 年降雨量,X10 生活用水量,X11 生產(chǎn)用水重復(fù)利用率,X12 建成區(qū)綠化覆蓋面積,X13 生態(tài)環(huán)境用水量。
表2 各影響因素歸一化后處理結(jié)果
表3 主成分的特征值、貢獻(xiàn)率與累計(jì)貢獻(xiàn)率
(4)經(jīng)濟(jì)方面包括X14 國(guó)民生產(chǎn)總值和X15 萬(wàn)元GDP 用水量。
將鄭州市2002-2017 年各指標(biāo)數(shù)據(jù)作為原始數(shù)據(jù),數(shù)據(jù)來(lái)源于鄭州市水利局《水資源公報(bào)》及鄭州市統(tǒng)計(jì)年鑒。通過(guò)對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理后,利用灰色關(guān)聯(lián)分析對(duì)各影響因素及其總用水量之間的關(guān)聯(lián)度進(jìn)行計(jì)算,由表1 的計(jì)算結(jié)果,可以將影響因素大致分為兩個(gè)等級(jí):第1 級(jí)相似程度最高,包括了10 個(gè)因素,相似程度由大到小依次是:X12 建成區(qū)綠化覆蓋面積,X2 有效灌溉面積,X5 工業(yè)總產(chǎn)值,X10 生活用水量,X13 生態(tài)環(huán)境,X3 農(nóng)業(yè)總產(chǎn)值,X14 國(guó)民生產(chǎn)總值,X7 鄭州市人口總數(shù),X11生產(chǎn)用水重復(fù)利用量,X6 工業(yè)用水量,其灰色關(guān)聯(lián)度超過(guò)了0.8,為主要影響因素;第2 級(jí)包括X9 年降雨量,X15 萬(wàn)元GDP用水量,X1 農(nóng)作物播種面積,X4 農(nóng)業(yè)用水量,X8 人均用水量,灰色關(guān)聯(lián)度在0.8 以下,為次要影響因素。
因此選取作為主要影響因素Qi的10 個(gè)數(shù)據(jù),作為后續(xù)計(jì)算的基礎(chǔ)數(shù)據(jù)。
由于鄭州市用水量受眾多因素影響而增加了預(yù)測(cè)過(guò)程的復(fù)雜度,同時(shí)各因素之間的獨(dú)立性有可能會(huì)對(duì)預(yù)測(cè)結(jié)果的準(zhǔn)確性產(chǎn)生影響。
因此,需要對(duì)影響因素Qi進(jìn)行處理和簡(jiǎn)化后,再作為預(yù)測(cè)模型的輸入值。
由于各影響因素?cái)?shù)據(jù)之間的分布及量綱差異較大,因此需要要先將數(shù)據(jù)進(jìn)行歸一化處理后,再進(jìn)行主成分分析。本文采用的是min-max 標(biāo)準(zhǔn)化,其公式為
其中qi表示歸一化后的變量,Qi表示主要影響因素的原始數(shù)據(jù),Qimin表示第i 個(gè)影響因素的最小值,Qimax表示第i 個(gè)影響因素的最大值。歸一化后的結(jié)果如表2。
利用相關(guān)軟件對(duì)歸一化后的影響因素qi進(jìn)行主成分分析,得到主成分的特征值、貢獻(xiàn)率與累計(jì)貢獻(xiàn)率,如表3。由表可知前5 個(gè)主成分f1,f2,f3的貢獻(xiàn)率分別為75.3753%,12.5250%,6.1311%,即前3 個(gè)主成分分別可解釋鄭州市用水量影響因素的75.3753%,12.5250%,6.1311%,且這3 個(gè)主成分的累計(jì)貢獻(xiàn)率為94.03%,能夠代表用水量主要影響因素的大部分信息,滿(mǎn)足主成分選取的原則。
主成分中的因子載荷系數(shù)反映各因子與主成分的相關(guān)性,由表4 的因子載荷矩陣可知,主成分f1中,q1建成區(qū)綠化覆蓋面積,q3工業(yè)總產(chǎn)值,q4生活用水,q6農(nóng)業(yè)總產(chǎn)值,q7國(guó)民生產(chǎn)總值,q9生產(chǎn)用水重復(fù)利用量的因子載荷系數(shù)較大,因此第一主成分主要反映了q1,q3,q4,q6,q7,q9這些因素;主成分f2中,q2有效灌溉面積,q5生態(tài)環(huán)境用水,q8人口的因子載荷系數(shù)較大,因此第二主成分主要反映了有效灌溉面積,生態(tài)環(huán)境用水,人口總數(shù)這些因素;主成分f3中,q10工業(yè)用水的因子載荷系數(shù)最大,因此第三主成分主要反映了工業(yè)用水量這個(gè)因素。
表4 因子載荷矩陣
這三個(gè)主成分從不同角度反映了鄭州市用水量的影響因素,因此選取這3 個(gè)主成分代替影響因素Qi作為BP 神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)模型的輸入值。
以主成分分析得到的前三個(gè)因子作為輸入層數(shù)據(jù),輸入節(jié)點(diǎn)數(shù)為3,以鄭州市年用水量作為預(yù)測(cè)對(duì)象,輸入節(jié)點(diǎn)數(shù)為1。將2002-2017 年鄭州市用水量數(shù)據(jù)分為訓(xùn)練集和驗(yàn)證集,2002-2014 年數(shù)據(jù)作為訓(xùn)練集,2015-2017 年數(shù)據(jù)作為驗(yàn)證集,建立BP 神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)模型,對(duì)鄭州市用水量進(jìn)行預(yù)測(cè),檢驗(yàn)PCA-BP 神經(jīng)網(wǎng)絡(luò)模型的預(yù)測(cè)效果。
另外,為了驗(yàn)證PCA 從簡(jiǎn)化預(yù)測(cè)模型輸入因子方面提高了預(yù)測(cè)精度,本文還建立了基于相同誤差水平的未用主成分分析的BP 神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)模型,并將兩者結(jié)果進(jìn)行了對(duì)比,如表5,表6。
從表5 中可以看出在相對(duì)誤差指標(biāo)中,PCA-BP 神經(jīng)網(wǎng)絡(luò)模型預(yù)測(cè)的相對(duì)誤差每一個(gè)都小于BP 神經(jīng)網(wǎng)絡(luò)的相對(duì)誤差。從表6 中可以看出,PCA-BP 神經(jīng)網(wǎng)絡(luò)模型的RMSE,MAPE 也都小于BP 神經(jīng)網(wǎng)絡(luò)模型的評(píng)價(jià)指標(biāo),在模型有效度上,BP-PCA 神經(jīng)網(wǎng)絡(luò)模型的結(jié)果更接近于1,驗(yàn)證了PCA-BP 神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)模型具有更好我的預(yù)測(cè)準(zhǔn)確性。所以主成分分析法對(duì)于簡(jiǎn)化預(yù)測(cè)模型的輸入,有利于提高預(yù)測(cè)精度。而且,PCA-BP神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)模型預(yù)測(cè)結(jié)果也較好,具有一定的可靠性。
表5 模型預(yù)測(cè)結(jié)果
表6 不同模型的評(píng)價(jià)指標(biāo)
(1)本文在選取因素時(shí)充分考慮到了鄭州市的市情,從15個(gè)因素中選取了10 個(gè)主要因素作為原始數(shù)據(jù)。
(2)以影響因子作為模型的輸入會(huì)對(duì)預(yù)測(cè)結(jié)果產(chǎn)生影響,所以影響因子的多少對(duì)預(yù)測(cè)精度也會(huì)產(chǎn)生影響。本文引入了灰色關(guān)聯(lián)分析和主成分分析法對(duì)用水量影響因素進(jìn)行分析和處理,建立了PCA-BP 神經(jīng)網(wǎng)絡(luò)模型進(jìn)行預(yù)測(cè),與單一的BP 神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)結(jié)果進(jìn)行比較。通過(guò)結(jié)論可以看出,組合模型比單個(gè)模型的預(yù)測(cè)精度要好。
(3)本文在數(shù)據(jù)方面存在一定的問(wèn)題。由于受到各方面限制,只收集到2002-2017 年的數(shù)據(jù),數(shù)據(jù)較少,會(huì)在一定程度上影響模型的預(yù)測(cè)精度。
(4)改進(jìn)方向。本文選取的是鄭州市年用水量的預(yù)測(cè),時(shí)間跨度較大,建議下一步在條件充足的前提下,縮小時(shí)間的跨度對(duì)鄭州市用水量進(jìn)行短期的預(yù)測(cè)。