肖 漢,曹 軍,李凌霄
(山東水利職業(yè)學(xué)院,山東日照 276826)
近年來,我國許多城市給水系統(tǒng)的供需矛盾日趨突出,城市水量緊缺的現(xiàn)象越來越普遍。準(zhǔn)確的城市供水量預(yù)測不僅可為水資源分配、水廠建設(shè)和擴(kuò)建以及選址提供重要的科學(xué)依據(jù),也是城市供水系統(tǒng)優(yōu)化調(diào)度的重要基礎(chǔ)。目前城市供水量預(yù)測的主要方法有長期趨勢分析法、回歸分析法、三角函數(shù)預(yù)測法、灰色預(yù)測法、季節(jié)指數(shù)平滑法和神經(jīng)網(wǎng)絡(luò)法等[1]。由于給水系統(tǒng)的復(fù)雜性,城市供水量不僅受當(dāng)?shù)厮Y源總量的影響,而且還與城市的經(jīng)濟(jì)發(fā)展、人均生活水平、供水設(shè)施建設(shè)、供水價(jià)格以及境外引水等眾多因素有關(guān)。因此,目前尚不存在公認(rèn)的普適性預(yù)測模型。實(shí)際工作中,無論采用何種預(yù)測模型,都需要大量的基礎(chǔ)資料和篩選影響因子,這也是預(yù)測模型的關(guān)鍵和難點(diǎn)所在。首先,人們往往很難全面認(rèn)識(shí)和描述供水系統(tǒng)中各變量間的相互關(guān)系,特別是變量間的非線性函數(shù)關(guān)系;其次,建立供水預(yù)測模型所需的大量基礎(chǔ)統(tǒng)計(jì)資料也常常十分缺乏,并且與之對(duì)應(yīng)的,供水量影響因子選擇過少,必然會(huì)影響預(yù)測結(jié)果的準(zhǔn)確性,而因子過多,會(huì)使網(wǎng)絡(luò)訓(xùn)練復(fù)雜化,可能陷入局部優(yōu)化問題,難以得到全局優(yōu)化解[2]。
BP 神經(jīng)網(wǎng)絡(luò)是利用非線性可微分形式進(jìn)行權(quán)值訓(xùn)練的多層網(wǎng)絡(luò),是神經(jīng)網(wǎng)絡(luò)理論中最為精華的部分,并具有較強(qiáng)的獨(dú)立性和靈活性,尤其是對(duì)于處理復(fù)雜性系統(tǒng)有著先天的優(yōu)越性。本文著眼于通過主成分分析(Principle Component Analysis,PCA)去掉BP 神經(jīng)網(wǎng)絡(luò)輸入樣本的冗余屬性,消除網(wǎng)絡(luò)輸入之間的相關(guān)性,以篩選后的因子集合為輸入指標(biāo),降低網(wǎng)絡(luò)的神經(jīng)元數(shù),進(jìn)而提高模型的學(xué)習(xí)與泛化能力[3]。
PCA 是將多個(gè)變量通過線性變換以選出少數(shù)重要變量的一種多元統(tǒng)計(jì)分析方法。其基本思想是通過變量的相關(guān)系數(shù)矩陣內(nèi)部結(jié)構(gòu)的研究,找出能控制所有變量的少數(shù)幾個(gè)隨機(jī)變量去描述多個(gè)變量直接的相關(guān)關(guān)系。從數(shù)學(xué)角度而言,這屬于降維處理技術(shù)[4]。
PCA 的一般步驟為:
(1)數(shù)據(jù)的標(biāo)準(zhǔn)化處理
其中i=1,2,…,n,n為樣本點(diǎn)數(shù)。j=1,2,…,p,p為樣本原變量數(shù)目。
(2)計(jì)算數(shù)據(jù)[xij]n×p的協(xié)方差矩陣R。
(3)求R 的前m個(gè)特征值:λ1≥λ2≥λ3≥…≥λm,以及對(duì)應(yīng)的特征向量u1,u2,…,um,它們標(biāo)準(zhǔn)正交。
(4)計(jì)算累計(jì)方差貢獻(xiàn)率Q。
(5)求m個(gè)變量的因子載荷矩陣。
BP 神經(jīng)網(wǎng)絡(luò)是目前應(yīng)用最廣泛的一種神經(jīng)網(wǎng)絡(luò)模型。BP 算法的基本思想是,學(xué)習(xí)過程由信號(hào)的正向傳播與誤差的反向傳播兩個(gè)過程組成。正向傳播時(shí),輸入樣本從輸入層傳入,經(jīng)各隱含層逐層處理后,傳向輸出層。若輸出層的實(shí)際輸出與期望的輸出不符,則轉(zhuǎn)入誤差的反向傳播階段。誤差反傳是將輸出誤差以某種形式通過隱含層向輸入層逐層反傳,并將誤差分?jǐn)偢鲗拥乃袉卧瑥亩@得各層單元的誤差信號(hào),此誤差信號(hào)即作為修正各單元權(quán)值的依據(jù)。這種信號(hào)正向傳播與誤差反向傳播的各層權(quán)值調(diào)整過程,是周而復(fù)始地進(jìn)行的。權(quán)值不斷調(diào)整的過程,也就是網(wǎng)絡(luò)的學(xué)習(xí)訓(xùn)練過程。此過程一直進(jìn)行到網(wǎng)絡(luò)輸出的誤差減少到可接受的程度,或進(jìn)行到預(yù)先設(shè)定的學(xué)習(xí)次數(shù)為止[5]。其學(xué)習(xí)算法過程如下:
(1)初始化。給每個(gè)連接權(quán)值wij、vjt,閾值θj和γj賦予空間(-1,1)內(nèi)的隨機(jī)值。
(2)隨機(jī)選取一組輸入Xk=(x1,x2,…,xn)T和目標(biāo)樣本Dk=(d1,d2,…,dp)T提供給網(wǎng)絡(luò)。
(3)計(jì)算隱含層各單元的輸入與輸出。
(4)計(jì)算隱含層各單元的輸入與輸出。
(5)計(jì)算各層各單元一般化誤差。
(6)修正連接權(quán)vjt和閾值γj。
其中α為學(xué)習(xí)速率,取值0<α<1。
修正連接權(quán)wij和閾值θj。
反復(fù)(2)~(6)步驟直到樣本訓(xùn)練完畢。
反復(fù)(2)~(7)步驟直到滿足精度[6]。
選取撫順市市區(qū)1991~2008年供水量序列資料和社會(huì)經(jīng)濟(jì)資料作為基礎(chǔ)數(shù)據(jù)(部分統(tǒng)計(jì)結(jié)果見表1)。選取GDP、人口、工業(yè)總產(chǎn)值、建成區(qū)土地面積、用電總量、園林綠地面積和土地面積等7個(gè)變量,應(yīng)用SPSS 軟件的主成分分析,求得相關(guān)系數(shù)矩陣,結(jié)果見表2。從表2 可知,7個(gè)因子存在不同程度的相關(guān)性。其中,GDP 與工業(yè)產(chǎn)值的相關(guān)性最高,相關(guān)系數(shù)為0.99,工業(yè)產(chǎn)值與用電總量相關(guān)性次之,為0.924。由此可提取出彼此獨(dú)立的變量,篩選有代表性的因了構(gòu)造BP 神經(jīng)網(wǎng)絡(luò)的輸入樣本。
表1 撫順市轄區(qū)典型年供水量及社會(huì)經(jīng)濟(jì)統(tǒng)計(jì)表Table1 Water supply & social economy statistics of Fushun city area
表2 相關(guān)矩陣Table 2 Correlation matrix
表3 主成分特征值和貢獻(xiàn)率Table 3 Eigenvalues and contribution rates of principle constituents
表3 中,可以看出,第一因子的貢獻(xiàn)率為76.671%,前2個(gè)因子的累計(jì)貢獻(xiàn)率達(dá)91.772%,由此表明前2個(gè)因子代表了源數(shù)據(jù)7個(gè)變量90%以上的信息,其中第一個(gè)公共因子的代表性最強(qiáng),第二個(gè)次之,以此類推。因此可以確定由前兩個(gè)因子代替所選的七個(gè)因子。
由表4 可以看出,GDP、建成區(qū)土地面積、工業(yè)產(chǎn)值對(duì)因子1 的荷載都超過了0.95,相對(duì)其他因子貢獻(xiàn)較大;人口對(duì)因子2 貢獻(xiàn)最大。因此,選GDP、建成區(qū)土地面積、工業(yè)產(chǎn)值和人口4個(gè)變量作主成分,并以此構(gòu)造BP 神經(jīng)網(wǎng)絡(luò)的輸入樣本。
表4 因子載荷矩陣Table 4 Component matrix
2.2.1 建立網(wǎng)絡(luò)模型 根據(jù)PCA 的結(jié)果,本文選取GDP、建成區(qū)土地面積、工業(yè)產(chǎn)值和人口四個(gè)影響因子為輸入變量,即一個(gè)4 維向量。目標(biāo)向量就是預(yù)測當(dāng)年的供水量,即輸出變量為1 維向量。網(wǎng)絡(luò)隱含層和輸出層均采用S 型函數(shù)。這是由于函數(shù)的輸出位于區(qū)間[0,1]中,正好滿足網(wǎng)絡(luò)輸出的要求。從樣本數(shù)據(jù)中選取1991~2004年樣本進(jìn)行網(wǎng)絡(luò)訓(xùn)練,2005~2008年的已知樣本對(duì)網(wǎng)絡(luò)進(jìn)行檢驗(yàn)。期望誤差取0.01,運(yùn)算次數(shù)11000,學(xué)習(xí)率為0.75。
2.2.2 預(yù)測結(jié)果為了能找到比較合理的隱含層神經(jīng)元數(shù),建立了3~13個(gè)隱含層神經(jīng)元的BP 網(wǎng)絡(luò)結(jié)構(gòu),通過比較運(yùn)行結(jié)果,選出較合適的神經(jīng)元數(shù)為6。因此網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)為4:6:1,預(yù)測值與實(shí)際值對(duì)比結(jié)果見圖1。訓(xùn)練結(jié)果進(jìn)行樣本檢驗(yàn),檢驗(yàn)結(jié)果及檢驗(yàn)誤差見表5。
表5 供水量預(yù)測檢測結(jié)果Table 5 Testing outcome of total water supply prediction
圖1 BP 神經(jīng)網(wǎng)絡(luò)預(yù)測結(jié)果分析圖Fig.1 Prediction outcome of BP neutral networks
由預(yù)測數(shù)據(jù)與原始數(shù)據(jù)的分析來看,期望輸出與實(shí)際輸出曲線擬合度較高,樣本絕對(duì)誤差均小于允許誤差,滿足精度的要求。檢驗(yàn)樣本2005~2008年實(shí)際需水量與計(jì)算需水量之間的相對(duì)誤差分別為4.1%、7.5%、8.5%和8.9%,2007年和2008年期望輸出與實(shí)際輸出存在較大誤差,其主要原因是模型參數(shù)選擇時(shí)所依據(jù)的樣本系列尚不能代表總體,再有BP 神經(jīng)網(wǎng)絡(luò)模型輸入層節(jié)點(diǎn)數(shù)、隱層節(jié)點(diǎn)數(shù)、節(jié)點(diǎn)轉(zhuǎn)換函數(shù)類型、模型訓(xùn)練方式等都會(huì)對(duì)模型的模擬精度產(chǎn)生影響。
(1)本文運(yùn)用PCA 與BP 神經(jīng)網(wǎng)絡(luò)模型相結(jié)合的方法,以撫順市為例,進(jìn)行供水量預(yù)測,為完善區(qū)域水資源信息系統(tǒng),優(yōu)化水資源配置,有效解決區(qū)域水資源供需矛盾提供了參考依據(jù)。
(2)運(yùn)用PCA 分析的方法對(duì)原始數(shù)據(jù)進(jìn)行預(yù)處理,提出4個(gè)主成分,即GDP、建成區(qū)土地面積、工業(yè)產(chǎn)值和人口。GDP、建成區(qū)土地面積、工業(yè)產(chǎn)值對(duì)因子1 的荷載都超過了0.95;人口對(duì)因子2 貢獻(xiàn)最大。因子1和2 的累計(jì)貢獻(xiàn)率達(dá)91.772%。
(3)由于神經(jīng)網(wǎng)絡(luò)模型具有局部逼近的特征和較強(qiáng)的非線性映射能力,因此它能夠較好地模擬具有較強(qiáng)非線性變化特點(diǎn)的供水預(yù)測問題?;赑CA 的BP 神經(jīng)網(wǎng)絡(luò)簡化了網(wǎng)絡(luò)輸入樣本,消除了網(wǎng)絡(luò)輸入之間的相關(guān)性,加快了網(wǎng)絡(luò)的收斂速度。最終取得了良好的預(yù)測結(jié)果。
(4)隨著預(yù)測時(shí)間的延續(xù),模型所得預(yù)測值不可能完全符合今后的實(shí)際情況。鑒于此,可考慮將今后每年所得到的新數(shù)據(jù)加入到變量樣本中重新建立主成分進(jìn)行預(yù)測。
[1]趙 凌,張 健,陳 濤.基于ARIMA 的乘積季節(jié)模型在城市供水量預(yù)測中的應(yīng)用[J].水資源與水工程學(xué)報(bào),2011,22(1):58-60
[2]李適宇,厲紅梅,林親鐵.深圳市供水最BP 種經(jīng)網(wǎng)絡(luò)預(yù)測[J].給水排水,2004,30(12):105-107
[3]龍訓(xùn)建,錢 鞠,梁 川.基于主成分分析的BP 神經(jīng)網(wǎng)絡(luò)及其在需水預(yù)測中的應(yīng)用[J].成都理工大學(xué)學(xué)報(bào)(自然科學(xué)版),2010,37(2):206-210
[4]余建英,何旭宏.數(shù)據(jù)統(tǒng)計(jì)分析與SPSS 應(yīng)用[M].北京:人民郵電出版社,2003.291-310
[5]楊建剛.人工神經(jīng)網(wǎng)絡(luò)實(shí)用教程[M].杭州:浙江大學(xué)出版社,2003.44-45
[6]倪紅珍,賈傳義,王 浩,等.智能網(wǎng)絡(luò)化水資源的實(shí)時(shí)預(yù)測分析[J].山東農(nóng)業(yè)大學(xué)學(xué)報(bào)(自然科學(xué)版),2004,35(2):231-237