基于PCA- BP 神經(jīng)網(wǎng)絡(luò)的鄭州市年用水量預(yù)測(cè)

2020-09-23 02:52張璇

科學(xué)技術(shù)創(chuàng)新 2020年28期

張璇

（華北水利水電大學(xué)信息工程學(xué)院，河南鄭州450046）

水資源是各個(gè)國(guó)家和地區(qū)的重要資源。近年來(lái)，我國(guó)水資源嚴(yán)重匱乏，各地區(qū)水資源供需不平衡，特別是在促進(jìn)工業(yè)化和城市化的發(fā)展過(guò)程中，水資源利用不科學(xué)、城市水資源供需矛盾等問(wèn)題日趨嚴(yán)重，供水水源日趨緊張。如何科學(xué)的對(duì)水資源進(jìn)行規(guī)劃、調(diào)度、管理、配置和決策是一個(gè)城市發(fā)展的基本問(wèn)題。城市的用水量預(yù)測(cè)是根據(jù)城市過(guò)去的用水量數(shù)據(jù)及其影響因素來(lái)預(yù)測(cè)未來(lái)的需水量。城市用水量預(yù)測(cè)是水資源規(guī)劃與管理的前提和基礎(chǔ)，其預(yù)測(cè)結(jié)果直接影響給水系統(tǒng)調(diào)度決策的可靠性和實(shí)用性及城市水資源的可持續(xù)利用和社會(huì)經(jīng)濟(jì)的可持續(xù)發(fā)展[2]。目前，主要預(yù)測(cè)方法有用水定額法、指數(shù)平滑法、系統(tǒng)動(dòng)力學(xué)、Volterra 濾波器預(yù)測(cè)法、時(shí)間序列預(yù)測(cè)方法、自回歸移動(dòng)、支持向量機(jī)、回歸分析法[10-11]、神經(jīng)網(wǎng)絡(luò)法[1-3]、灰色預(yù)測(cè)法[4-5]以及組合預(yù)測(cè)法等[6-10]。本文主要先通過(guò)運(yùn)用灰色關(guān)聯(lián)法分析鄭州市用水量的影響因素，并運(yùn)用主成分分析法對(duì)數(shù)據(jù)進(jìn)行處理后作為BP 神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)模型的輸入，從而建立了PCA-BP 神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)模型對(duì)鄭州市用水量進(jìn)行預(yù)測(cè)。

1 PCA-BP 神經(jīng)網(wǎng)絡(luò)模型構(gòu)建

PCA-BP 神經(jīng)網(wǎng)絡(luò)模型是將主成分分析法與BP 神經(jīng)網(wǎng)絡(luò)進(jìn)行結(jié)合的預(yù)測(cè)模型，通過(guò)主成分分析法對(duì)輸入因子進(jìn)行處理后，再以BP 神經(jīng)網(wǎng)絡(luò)作為預(yù)測(cè)模型而構(gòu)建的組合模型。該模型首先利用主成分分析法對(duì)用水量影響因素進(jìn)行處理，轉(zhuǎn)化為幾個(gè)可以替代的主成分，然后將選取的主成分作為BP 神經(jīng)網(wǎng)絡(luò)輸入特征值對(duì)鄭州市年用水量進(jìn)行預(yù)測(cè)。

1.1 主成分分析原理

主成分分析是把多個(gè)指標(biāo)化為少數(shù)幾個(gè)綜合指標(biāo)的一種統(tǒng)計(jì)分析方法。在多指標(biāo)(變量)的研究中，往往由于變量個(gè)數(shù)太多，且彼此之間存在著一定的相關(guān)性，因而使得所觀測(cè)的數(shù)據(jù)在一定程度上有信息的重疊。當(dāng)變量較多時(shí)，在高維空間中研究樣本的分布規(guī)律就更麻煩。主成分分析采取一種降維的方法，找出幾個(gè)綜合因子來(lái)代表原來(lái)眾多的變量，使這些綜合因子盡可能地反映原來(lái)變量的信息量，而且彼此之間互不相關(guān)，從而達(dá)到簡(jiǎn)化的目的。

在利用神經(jīng)網(wǎng)絡(luò)模型進(jìn)行預(yù)測(cè)時(shí)，模型輸入變量的篩選和輸入結(jié)構(gòu)的簡(jiǎn)化是影響預(yù)測(cè)效果和決定成果可靠性的重要技術(shù)。主成分分析通過(guò)數(shù)學(xué)變換將用水量原始影響因素轉(zhuǎn)換成幾個(gè)能夠解釋主要信息的“新因素”，即主成分，通過(guò)降維提高建模速度，同時(shí)這些“新因素”間彼此獨(dú)立，因此可提高預(yù)測(cè)結(jié)果的準(zhǔn)確性。

設(shè)觀測(cè)樣本的矩陣為

n 為樣本數(shù)，p 為變量數(shù)。為使該樣本集在降維中所引起的平方誤差最小，必須進(jìn)行兩方面的工作：一是進(jìn)行坐標(biāo)變換，即用雅可比方法求解正交變換矩陣；二是選取m（m＜p）個(gè)主成分。

（1）將原始數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理，即對(duì)樣本集中元素xik作

主成分分析的明顯特征是每個(gè)主分量依賴(lài)于測(cè)量初始變量所用的尺度，當(dāng)尺度改變時(shí)，會(huì)得到不同的特征值λ?？朔@個(gè)困難的方法是對(duì)初始變量進(jìn)行以上標(biāo)準(zhǔn)化處理，使其方差為1。

（2）計(jì)算樣本矩陣的相關(guān)系數(shù)矩陣

（3）對(duì)應(yīng)于相關(guān)系數(shù)矩陣R，用雅可比方法求特征方程|R-λi|=0 的p 個(gè)非負(fù)特征值，λ1>λ2>…叟λp叟0 對(duì)應(yīng)于特征值的相應(yīng)特征向量為C（i）=（C1（i），C2（i），…，Cp（i）），i=1，2，…，p，并且滿(mǎn)足

（4）選擇m（m

1.2 BP 神經(jīng)網(wǎng)絡(luò)原理

BP 神經(jīng)網(wǎng)絡(luò)是在1985 年Rumelhart 等人提出來(lái)的，又叫做誤差反向傳遞學(xué)習(xí)算法，實(shí)現(xiàn)了Minsky 的多層網(wǎng)絡(luò)設(shè)想，如圖1 所示。

圖1 BP 神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖

BP 神經(jīng)網(wǎng)絡(luò)算法包含輸入層節(jié)點(diǎn)、輸出層節(jié)點(diǎn)，還可有1個(gè)或多個(gè)隱含層節(jié)點(diǎn)。對(duì)于輸入信號(hào)，要先向前傳播到隱含層節(jié)點(diǎn)，經(jīng)作用函數(shù)后，再把隱節(jié)點(diǎn)的輸出信號(hào)傳播到輸出節(jié)點(diǎn)，最后給出輸出結(jié)果。節(jié)點(diǎn)的作用的激勵(lì)函數(shù)通常選取S 型函數(shù)，如

式中Q 為調(diào)整激勵(lì)函數(shù)形式的Sigmoid 參數(shù)。該算法的學(xué)習(xí)過(guò)程由正向傳播和反向傳播組成。在正向傳播過(guò)程中，輸入信息從輸入層經(jīng)隱含層逐層處理，并傳向輸出層。每一層神經(jīng)元的狀態(tài)只影響下一層神經(jīng)元的狀態(tài)。如果輸出層得不到期望的輸出，則轉(zhuǎn)入反向傳播，將誤差信號(hào)沿原來(lái)的連接通道返回，通過(guò)修改各層神經(jīng)元的權(quán)值，使得誤差信號(hào)最小。

設(shè)含有n 個(gè)節(jié)點(diǎn)的任意網(wǎng)絡(luò)，各節(jié)點(diǎn)之特性為Sigmoid 型。為簡(jiǎn)便起見(jiàn)，指定網(wǎng)絡(luò)只有一個(gè)輸出y，任一節(jié)點(diǎn)i 的輸出為Oi，并設(shè)有N 個(gè)樣本（xk，yk）（k＝1，2，…，N），對(duì)某一輸入xk，網(wǎng)絡(luò)輸

如果有M層，而第M層僅含輸出節(jié)點(diǎn)，第一層為輸入節(jié)點(diǎn)，則BP 算法為：

第一步，選取初始權(quán)重W。

第二步，重復(fù)下述過(guò)程直至收斂：

（1）對(duì)于k=1 到N

a.計(jì)算Oik，netjk和y贊k 的值（正向過(guò)程）；

b.對(duì)各層從M到2 反向計(jì)算（反向過(guò)程）；

（2）對(duì)同一節(jié)點(diǎn)j∈M，由式（1）和式（2）計(jì)算δjk；

由此可以看出，BP 神經(jīng)網(wǎng)絡(luò)算法是把一組樣本的I/O 問(wèn)題變?yōu)橐粋€(gè)非線性?xún)?yōu)化問(wèn)題它使用的是優(yōu)化中最普通的梯度下降法。如果把神經(jīng)網(wǎng)絡(luò)的看成輸入到輸出的映射，則這個(gè)映射是一個(gè)高度非線性映射。

一般來(lái)說(shuō)，結(jié)構(gòu)模型是根據(jù)所研究領(lǐng)域及要解決的問(wèn)題確定的。通過(guò)對(duì)所研究問(wèn)題的大量歷史資料數(shù)據(jù)的分析及目前的神經(jīng)網(wǎng)絡(luò)理論發(fā)展水平，建立合適的模型，并針對(duì)所選的模型采用相應(yīng)的學(xué)習(xí)算法，在網(wǎng)絡(luò)學(xué)習(xí)過(guò)程中，不斷地調(diào)整網(wǎng)絡(luò)參數(shù)，直到輸出結(jié)果滿(mǎn)足要求。

2 評(píng)價(jià)模型建立

本文采用的評(píng)價(jià)指標(biāo)是均方根誤差（RMSE），相對(duì)誤差，平均絕對(duì)百分誤差（MAPE），模型有效度來(lái)評(píng)價(jià)模型的可靠性。其計(jì)算公式如式（3），式（4），式（5），式（6）

其中，yi表示實(shí)際值，y贊i 表示預(yù)測(cè)值，n 表示預(yù)測(cè)個(gè)數(shù)，Ei表示相對(duì)誤差。

3 基于PCA-BP 神經(jīng)網(wǎng)絡(luò)的鄭州市年用水量預(yù)測(cè)模型

3.1 灰色關(guān)聯(lián)分析

MAE 為平均絕對(duì)誤差，PMAE為平均絕對(duì)誤差與裝機(jī)容量的比值，實(shí)際應(yīng)用中通常采用百分?jǐn)?shù)的形式。

城市用水一般包括農(nóng)業(yè)用水、工業(yè)用水、生活用水和生態(tài)環(huán)境用水等。農(nóng)業(yè)用水主要包括農(nóng)業(yè)灌溉用水和林牧副漁用水；工業(yè)用水主要指的是工業(yè)生產(chǎn)中的用水；生活用水包括城鎮(zhèn)生活用水、農(nóng)村生活用水、城鎮(zhèn)公共用水、其他服務(wù)業(yè)用水等；生態(tài)環(huán)境用水指的是修復(fù)環(huán)境的用水量以及公共綠地用水量。每一個(gè)城市的用水量在一定程度上受各種因素的影響，除了會(huì)受到各方面用水量影響之外，還會(huì)受到比如氣候、人口、降雨量等，本文主要通過(guò)四個(gè)方面分析了各種影響用水量因素，并選取了15 個(gè)指標(biāo)與鄭州市年用水量進(jìn)行了灰色關(guān)聯(lián)分析。

表1 年用水量和其影響因子的關(guān)聯(lián)序

（1）農(nóng)業(yè)方面選取的影響因素有：X1 農(nóng)業(yè)播種面積，X2 有效灌溉面積，X3 農(nóng)業(yè)總產(chǎn)值，X4 農(nóng)業(yè)年用水量。

（2）工業(yè)方面對(duì)于鄭州市用水量的影響選取的因包括X5 工業(yè)總產(chǎn)值和X6 工業(yè)年用水量。

（3）生活方面選取的因素包括：X7 鄭州市人口總數(shù)，X8 人均用水量，X9 年降雨量，X10 生活用水量，X11 生產(chǎn)用水重復(fù)利用率，X12 建成區(qū)綠化覆蓋面積，X13 生態(tài)環(huán)境用水量。

表2 各影響因素歸一化后處理結(jié)果

表3 主成分的特征值、貢獻(xiàn)率與累計(jì)貢獻(xiàn)率

（4）經(jīng)濟(jì)方面包括X14 國(guó)民生產(chǎn)總值和X15 萬(wàn)元GDP 用水量。

將鄭州市2002-2017 年各指標(biāo)數(shù)據(jù)作為原始數(shù)據(jù)，數(shù)據(jù)來(lái)源于鄭州市水利局《水資源公報(bào)》及鄭州市統(tǒng)計(jì)年鑒。通過(guò)對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理后，利用灰色關(guān)聯(lián)分析對(duì)各影響因素及其總用水量之間的關(guān)聯(lián)度進(jìn)行計(jì)算，由表1 的計(jì)算結(jié)果，可以將影響因素大致分為兩個(gè)等級(jí)：第1 級(jí)相似程度最高，包括了10 個(gè)因素，相似程度由大到小依次是：X12 建成區(qū)綠化覆蓋面積，X2 有效灌溉面積，X5 工業(yè)總產(chǎn)值，X10 生活用水量，X13 生態(tài)環(huán)境，X3 農(nóng)業(yè)總產(chǎn)值，X14 國(guó)民生產(chǎn)總值，X7 鄭州市人口總數(shù)，X11生產(chǎn)用水重復(fù)利用量，X6 工業(yè)用水量，其灰色關(guān)聯(lián)度超過(guò)了0.8，為主要影響因素；第2 級(jí)包括X9 年降雨量，X15 萬(wàn)元GDP用水量，X1 農(nóng)作物播種面積，X4 農(nóng)業(yè)用水量，X8 人均用水量，灰色關(guān)聯(lián)度在0.8 以下，為次要影響因素。

因此選取作為主要影響因素Qi的10 個(gè)數(shù)據(jù)，作為后續(xù)計(jì)算的基礎(chǔ)數(shù)據(jù)。

3.2 PCA 用水量預(yù)測(cè)輸入因子確定

由于鄭州市用水量受眾多因素影響而增加了預(yù)測(cè)過(guò)程的復(fù)雜度，同時(shí)各因素之間的獨(dú)立性有可能會(huì)對(duì)預(yù)測(cè)結(jié)果的準(zhǔn)確性產(chǎn)生影響。

因此，需要對(duì)影響因素Qi進(jìn)行處理和簡(jiǎn)化后，再作為預(yù)測(cè)模型的輸入值。

由于各影響因素?cái)?shù)據(jù)之間的分布及量綱差異較大，因此需要要先將數(shù)據(jù)進(jìn)行歸一化處理后，再進(jìn)行主成分分析。本文采用的是min-max 標(biāo)準(zhǔn)化，其公式為

其中qi表示歸一化后的變量，Qi表示主要影響因素的原始數(shù)據(jù)，Qimin表示第i 個(gè)影響因素的最小值，Qimax表示第i 個(gè)影響因素的最大值。歸一化后的結(jié)果如表2。

利用相關(guān)軟件對(duì)歸一化后的影響因素qi進(jìn)行主成分分析，得到主成分的特征值、貢獻(xiàn)率與累計(jì)貢獻(xiàn)率，如表3。由表可知前5 個(gè)主成分f1，f2，f3的貢獻(xiàn)率分別為75.3753%，12.5250%，6.1311%，即前3 個(gè)主成分分別可解釋鄭州市用水量影響因素的75.3753%，12.5250%，6.1311%，且這3 個(gè)主成分的累計(jì)貢獻(xiàn)率為94.03%，能夠代表用水量主要影響因素的大部分信息，滿(mǎn)足主成分選取的原則。

主成分中的因子載荷系數(shù)反映各因子與主成分的相關(guān)性，由表4 的因子載荷矩陣可知，主成分f1中，q1建成區(qū)綠化覆蓋面積，q3工業(yè)總產(chǎn)值，q4生活用水，q6農(nóng)業(yè)總產(chǎn)值，q7國(guó)民生產(chǎn)總值，q9生產(chǎn)用水重復(fù)利用量的因子載荷系數(shù)較大，因此第一主成分主要反映了q1，q3，q4，q6，q7，q9這些因素；主成分f2中，q2有效灌溉面積，q5生態(tài)環(huán)境用水，q8人口的因子載荷系數(shù)較大，因此第二主成分主要反映了有效灌溉面積，生態(tài)環(huán)境用水，人口總數(shù)這些因素；主成分f3中，q10工業(yè)用水的因子載荷系數(shù)最大，因此第三主成分主要反映了工業(yè)用水量這個(gè)因素。

表4 因子載荷矩陣

這三個(gè)主成分從不同角度反映了鄭州市用水量的影響因素，因此選取這3 個(gè)主成分代替影響因素Qi作為BP 神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)模型的輸入值。

3.3 PCA-BP 神經(jīng)網(wǎng)絡(luò)模型預(yù)測(cè)結(jié)果及分析

以主成分分析得到的前三個(gè)因子作為輸入層數(shù)據(jù)，輸入節(jié)點(diǎn)數(shù)為3，以鄭州市年用水量作為預(yù)測(cè)對(duì)象，輸入節(jié)點(diǎn)數(shù)為1。將2002-2017 年鄭州市用水量數(shù)據(jù)分為訓(xùn)練集和驗(yàn)證集，2002-2014 年數(shù)據(jù)作為訓(xùn)練集，2015-2017 年數(shù)據(jù)作為驗(yàn)證集，建立BP 神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)模型，對(duì)鄭州市用水量進(jìn)行預(yù)測(cè)，檢驗(yàn)PCA-BP 神經(jīng)網(wǎng)絡(luò)模型的預(yù)測(cè)效果。

另外，為了驗(yàn)證PCA 從簡(jiǎn)化預(yù)測(cè)模型輸入因子方面提高了預(yù)測(cè)精度，本文還建立了基于相同誤差水平的未用主成分分析的BP 神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)模型，并將兩者結(jié)果進(jìn)行了對(duì)比，如表5，表6。

從表5 中可以看出在相對(duì)誤差指標(biāo)中，PCA-BP 神經(jīng)網(wǎng)絡(luò)模型預(yù)測(cè)的相對(duì)誤差每一個(gè)都小于BP 神經(jīng)網(wǎng)絡(luò)的相對(duì)誤差。從表6 中可以看出，PCA-BP 神經(jīng)網(wǎng)絡(luò)模型的RMSE，MAPE 也都小于BP 神經(jīng)網(wǎng)絡(luò)模型的評(píng)價(jià)指標(biāo)，在模型有效度上，BP-PCA 神經(jīng)網(wǎng)絡(luò)模型的結(jié)果更接近于1，驗(yàn)證了PCA-BP 神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)模型具有更好我的預(yù)測(cè)準(zhǔn)確性。所以主成分分析法對(duì)于簡(jiǎn)化預(yù)測(cè)模型的輸入，有利于提高預(yù)測(cè)精度。而且，PCA-BP神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)模型預(yù)測(cè)結(jié)果也較好，具有一定的可靠性。

表5 模型預(yù)測(cè)結(jié)果

表6 不同模型的評(píng)價(jià)指標(biāo)

4 結(jié)論

（1）本文在選取因素時(shí)充分考慮到了鄭州市的市情，從15個(gè)因素中選取了10 個(gè)主要因素作為原始數(shù)據(jù)。

（2）以影響因子作為模型的輸入會(huì)對(duì)預(yù)測(cè)結(jié)果產(chǎn)生影響，所以影響因子的多少對(duì)預(yù)測(cè)精度也會(huì)產(chǎn)生影響。本文引入了灰色關(guān)聯(lián)分析和主成分分析法對(duì)用水量影響因素進(jìn)行分析和處理，建立了PCA-BP 神經(jīng)網(wǎng)絡(luò)模型進(jìn)行預(yù)測(cè)，與單一的BP 神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)結(jié)果進(jìn)行比較。通過(guò)結(jié)論可以看出，組合模型比單個(gè)模型的預(yù)測(cè)精度要好。

（3）本文在數(shù)據(jù)方面存在一定的問(wèn)題。由于受到各方面限制，只收集到2002-2017 年的數(shù)據(jù)，數(shù)據(jù)較少，會(huì)在一定程度上影響模型的預(yù)測(cè)精度。

（4）改進(jìn)方向。本文選取的是鄭州市年用水量的預(yù)測(cè)，時(shí)間跨度較大，建議下一步在條件充足的前提下，縮小時(shí)間的跨度對(duì)鄭州市用水量進(jìn)行短期的預(yù)測(cè)。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡