竇 淼,李金燕,崔嵐博,魏怡敏,蘇薈琰,李超超
(寧夏大學(xué)土木與水利工程學(xué)院,寧夏 銀川 750021)
水資源是社會(huì)發(fā)展中不可代替的自然資源也是不可或缺的經(jīng)濟(jì)資源。隨著中國(guó)的現(xiàn)代化進(jìn)程加快,對(duì)水資源的需求量越來越大,水資源供需矛盾日益突出[1]。尤其在中國(guó)干旱地區(qū),水利設(shè)施落后,用水效率低下,這一系列問題嚴(yán)重制約了地方的發(fā)展。其中地處西北內(nèi)陸的寧夏回族自治區(qū)是干旱區(qū)域的典型代表,也是中國(guó)最缺水的省份之一。該地區(qū)水資源人均占有量不足全國(guó)人均占有量平均值的1/2,水資源的嚴(yán)重匱乏已經(jīng)成為制約該地區(qū)經(jīng)濟(jì)發(fā)展的主要因素。因此做好水資源規(guī)劃工作對(duì)寧夏的社會(huì)經(jīng)濟(jì)發(fā)展有著舉足輕重的意義,而用水量預(yù)測(cè)是水資源規(guī)劃工作能順利進(jìn)行的前提和保障。由于在預(yù)測(cè)過程中存在影響因素考慮不全以及資料缺失等問題,用水量預(yù)測(cè)工作往往面臨較大的困難。為了克服這些弊端,近些年國(guó)內(nèi)學(xué)者在常規(guī)的系統(tǒng)分析法前均會(huì)對(duì)影響因子進(jìn)行數(shù)學(xué)預(yù)處理,如桑慧茹等[2]在神經(jīng)網(wǎng)絡(luò)模型之前運(yùn)用主成分分析法篩選影響因子;單義明等[3]在支持向量回歸機(jī)模型之前加入灰色關(guān)聯(lián)度篩選影響因子;李曉英等[4]采用主成分分析、遺傳算法和神經(jīng)網(wǎng)絡(luò)三者結(jié)合的預(yù)測(cè)模型; Mahmut Fira等[5]將神經(jīng)網(wǎng)絡(luò)與模糊數(shù)學(xué)相結(jié)合預(yù)測(cè)區(qū)域耗水量;楊利納等[6]在小區(qū)域內(nèi)運(yùn)用灰色關(guān)聯(lián)、遺傳算法和神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)用水量,并引入預(yù)測(cè)區(qū)間覆蓋率、預(yù)測(cè)區(qū)間平均寬帶指標(biāo)和綜合評(píng)價(jià)指標(biāo)檢驗(yàn)預(yù)測(cè)結(jié)果。上述方法通過對(duì)用水量影響因子的篩選,一定程度上提高了模型的預(yù)測(cè)精度,但在處理影響因子時(shí)都忽略了影響因子和行業(yè)用水量的相關(guān)程度,直接分析總用水量和影響因子之間的關(guān)聯(lián)性會(huì)打破各行業(yè)的影響因子數(shù)量的平衡性,且目前沒有將相關(guān)性分析和MLP神經(jīng)網(wǎng)絡(luò)耦合的預(yù)測(cè)模型。故本文提出了將相關(guān)性分析法和MLP神經(jīng)網(wǎng)絡(luò)耦合的用水預(yù)測(cè)模型,分別提取對(duì)行業(yè)用水量影響較大的因子,與傳統(tǒng)利用MLP神經(jīng)網(wǎng)絡(luò)直接預(yù)測(cè)總用水量的方法相比,該方法可以進(jìn)一步提高預(yù)測(cè)的精確度,且可以掌握未來的各行業(yè)用水量的比例。
相關(guān)性分析法是統(tǒng)計(jì)學(xué)中的方法,它是對(duì)總體中具有聯(lián)系的2個(gè)因素進(jìn)行分析,描述客觀事物相互間的密切程度并用相關(guān)的統(tǒng)計(jì)指標(biāo)表示出來的一種數(shù)學(xué)方法[7-8]。相關(guān)性的表達(dá)通常有2種方法:皮爾遜相關(guān)性系數(shù)和斯皮爾曼相關(guān)性系數(shù)。在用水量預(yù)測(cè)中該方法可以用在建立神經(jīng)網(wǎng)絡(luò)模型之前,用來篩選對(duì)用水量影響較大的因子[9]。由于皮爾遜相關(guān)性系數(shù)是用來檢驗(yàn)來自正態(tài)分布的總體,且要求試驗(yàn)數(shù)據(jù)之間的差值不能過大,對(duì)數(shù)據(jù)的要求較高。而用水量影響因子數(shù)據(jù)波動(dòng)性較強(qiáng),通常是隨機(jī)分布,故選擇斯皮爾曼相關(guān)性系數(shù)進(jìn)行相關(guān)性計(jì)算。斯皮爾曼相關(guān)性系數(shù)又稱斯皮爾曼秩相關(guān)系數(shù),其具體計(jì)算步驟如下。
步驟一對(duì)2個(gè)變量x、y的數(shù)據(jù)分別進(jìn)行排序,記錄每個(gè)數(shù)據(jù)的秩次xi、yi。
步驟二計(jì)算每?jī)蓚€(gè)數(shù)據(jù)秩次的差值di(xi-yi),再統(tǒng)計(jì)數(shù)據(jù)的個(gè)數(shù)n,將2個(gè)數(shù)值代入式(1)進(jìn)行計(jì)算相關(guān)系數(shù)ρs。
(1)
步驟三對(duì)斯皮爾曼系數(shù)進(jìn)行相關(guān)系數(shù)的顯著性檢驗(yàn)。對(duì)于小樣本模型,可以直接通過查臨界表,通過對(duì)比斯皮爾曼相關(guān)性系數(shù)和表中數(shù)值確定顯著性。
判斷兩組數(shù)據(jù)是否具有相關(guān)性主要從相關(guān)性系數(shù)(ρs值)和顯著性(P值)2個(gè)方面考慮,其中ρs的絕對(duì)值越接近1,表示相關(guān)性越強(qiáng);P<0.01為相關(guān)性極顯著,0.01≤P<0.05為相關(guān)性顯著,P≥0.05為相關(guān)性不顯著。在判斷行業(yè)用水量影響因子和行業(yè)用水量之間的相關(guān)程度需根據(jù)具體情況采取不同標(biāo)準(zhǔn)。
MLP神經(jīng)網(wǎng)絡(luò)又稱多層前饋神經(jīng)網(wǎng)絡(luò)[10],是一種基于誤差反向傳播算法 (BP算法)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)。誤差反向傳播算法是一種在用水預(yù)測(cè)中常見的訓(xùn)練神經(jīng)網(wǎng)絡(luò)的方法[11-12],可以有效降低模型的計(jì)算誤差。MLP神經(jīng)網(wǎng)絡(luò)模型在建立的過程中只需錄入大量的數(shù)據(jù)行為無需用變量描述映射關(guān)系,故此模型具有很好的擬合能力[13]和抗外界干擾能力[14]。區(qū)域用水量存在很多不確定因素,但在用水量預(yù)測(cè)中利用MLP神經(jīng)網(wǎng)絡(luò)建模一定程度上可以克服這些不確定因素。MLP神經(jīng)網(wǎng)絡(luò)一般由輸入層、輸出層和若干隱藏層組成,典型的結(jié)構(gòu)見圖1。
圖1 MLP結(jié)構(gòu)示意
其中隱含層常用的激活函數(shù)是Sigmoid函數(shù)(S型函數(shù)),假設(shè)輸入值為x,函數(shù)的具體計(jì)算公式為:
(2)
式中α>0是常數(shù),函數(shù)的取值范圍是(0,1),x為輸入值。
另一種隱含層常用的激活函數(shù)是Tanh函數(shù),具體計(jì)算公式為:
(3)
式中α、β>0是常數(shù),函數(shù)取值范圍(-1,1)。
以上2種函數(shù)都是建立MLP神經(jīng)網(wǎng)絡(luò)最常用的2種激活函數(shù),Sigmoid函數(shù)優(yōu)勢(shì)在于求導(dǎo)容易且優(yōu)化的數(shù)據(jù)比較穩(wěn)定,而Tanh函數(shù)的優(yōu)勢(shì)是收斂速度更快。區(qū)域用水量預(yù)測(cè)的模型結(jié)構(gòu)較為簡(jiǎn)單,相比較收斂速度更注重預(yù)測(cè)模型的穩(wěn)定性和適用性,故本次建模的激活函數(shù)選擇Sigmoid函數(shù),在滿足預(yù)測(cè)精度的前提下,為了簡(jiǎn)化模型結(jié)構(gòu)在后續(xù)構(gòu)建一個(gè)隱藏層的預(yù)測(cè)模型[15]。
在用水量預(yù)測(cè)模型中,為了提高輸出值的穩(wěn)定性,輸出層的激活函數(shù)通常選擇簡(jiǎn)單的恒等式函數(shù),該函數(shù)是將隱藏層節(jié)點(diǎn)的數(shù)據(jù)按照訓(xùn)練出的權(quán)重比例進(jìn)行加和,其表達(dá)式為:
(4)
式中Ri——隱含層第i個(gè)節(jié)點(diǎn)的數(shù)據(jù);m——隱藏層節(jié)點(diǎn)個(gè)數(shù);λ——權(quán)值;y——輸出值。
借助相關(guān)性分析法對(duì)各個(gè)行業(yè)的用水量和其影響因子進(jìn)行兩兩分析,計(jì)算相關(guān)性系數(shù)并依據(jù)相關(guān)標(biāo)準(zhǔn)提取和用水量相關(guān)性較強(qiáng)的因子,將提取出來的因子作為MLP神經(jīng)網(wǎng)絡(luò)的輸入層,每個(gè)數(shù)據(jù)作為一個(gè)神經(jīng)元節(jié)點(diǎn)。利用訓(xùn)練數(shù)集訓(xùn)練MLP模型,通過多次的訓(xùn)練,得出隱藏層的最優(yōu)節(jié)點(diǎn)數(shù),從而確定最佳的用水預(yù)測(cè)模型。
寧夏回族自治區(qū)處于中國(guó)西北內(nèi)陸地區(qū),常年干旱少雨,是中國(guó)水資源嚴(yán)重匱乏的地區(qū)之一。2020年全區(qū)用水量為66.54億m3,水資源總量12.58億m3,用水主要源自黃河水。在三大產(chǎn)業(yè)中,農(nóng)業(yè)用水為58.64億m3,占全區(qū)總用水量85%以上,工業(yè)用水和生活用水僅為4.19億、3.71億m3,但農(nóng)業(yè)生產(chǎn)總值僅占全區(qū)生產(chǎn)總值的7.9%,工業(yè)生產(chǎn)總值占全區(qū)生產(chǎn)總值的33.9%。長(zhǎng)期以來寧夏面臨著農(nóng)業(yè)用水效率低下的問題,常年采取大水漫灌的灌溉方法,加上種植結(jié)構(gòu)不夠合理,農(nóng)業(yè)布局不夠優(yōu)化等因素,使單位農(nóng)業(yè)產(chǎn)值用水量過大,遠(yuǎn)遠(yuǎn)高于全國(guó)平均水平。因此在寧夏用水預(yù)測(cè)的工作中,準(zhǔn)確地預(yù)測(cè)農(nóng)業(yè)用水量對(duì)整個(gè)自治區(qū)合理地用水規(guī)劃將起到至關(guān)重要的作用。
2.2.1因子選取
影響用水量的因子較多,本文根據(jù)2002—2020年《寧夏統(tǒng)計(jì)年鑒》和《寧夏水資源公報(bào)》中的數(shù)據(jù),參考已有文獻(xiàn)[16-18],并結(jié)合寧夏當(dāng)?shù)馗鳟a(chǎn)業(yè)結(jié)構(gòu),從經(jīng)濟(jì)、產(chǎn)品耗水量以及行業(yè)相關(guān)元素等不同方面選取18個(gè)具有代表性的用水量影響因子。其中工業(yè)用水選用工業(yè)總產(chǎn)值、工業(yè)固定資產(chǎn)投資、工業(yè)廢水排放量、發(fā)電量、原煤產(chǎn)值和水泥產(chǎn)量6個(gè)因子;農(nóng)業(yè)用水選用農(nóng)業(yè)增加值、農(nóng)業(yè)固定資產(chǎn)投資、萬元GDP增加值用水量、單位灌溉面積用水量、糧食產(chǎn)量、全區(qū)平均降水、農(nóng)作播種面積和7個(gè)影響因素;生活用水選用人均GDP、平均每人購(gòu)買水量、城市化率、人口自然增長(zhǎng)率、每戶居住面積5個(gè)影響因子。由于缺乏相關(guān)歷史數(shù)據(jù),本文不計(jì)算生態(tài)用水。
借助SPSS軟件對(duì)影響因子和行業(yè)用水量進(jìn)行斯皮爾曼系數(shù)相關(guān)性分析,利用式(1)得出的計(jì)算結(jié)果見表1。依據(jù)1.1節(jié)中對(duì)ρs值和P值的相關(guān)性劃分標(biāo)準(zhǔn)以及參考相關(guān)文獻(xiàn)[19],并結(jié)合各行業(yè)具體計(jì)算結(jié)果,每個(gè)行業(yè)分別從經(jīng)濟(jì)、產(chǎn)品耗水量、以及行業(yè)相關(guān)元素3個(gè)方面各選取ρs>0.7,P<0.005的一個(gè)強(qiáng)相關(guān)影響因子,則工業(yè)選取的影響因子有工業(yè)固定資產(chǎn)投資x1和原煤產(chǎn)量x2;農(nóng)業(yè)選取的影響因子有農(nóng)業(yè)固定資產(chǎn)投資x3、萬元GDP增加值用水量x4以及全區(qū)平均降水量x5;生活選取的影響因子有人均GDPx6、城市化率x7。
表1 影響因子斯皮爾曼相關(guān)系數(shù)
2.2.2模型建立
根據(jù)3個(gè)用水行業(yè)各自的不同的特點(diǎn)建立MLP神經(jīng)網(wǎng)絡(luò)用水預(yù)測(cè)模型,根據(jù)相關(guān)性分析選取工業(yè)固定資產(chǎn)投資和原煤產(chǎn)量作為工業(yè)用水預(yù)測(cè)模型的輸入節(jié)點(diǎn);選取農(nóng)業(yè)固定資產(chǎn)投資、萬元GDP增加值用水量以及全區(qū)平均降水量作為農(nóng)業(yè)用水預(yù)測(cè)模型的輸入節(jié)點(diǎn);選取人均GDP、城市化率作為生活用水預(yù)測(cè)模型的輸入節(jié)點(diǎn),各行業(yè)的用水量作為模型的輸出層節(jié)點(diǎn)。通過1.2節(jié)的分析,各行業(yè)建立用水模型時(shí)隱藏層激活函數(shù)選擇式(2)S型函數(shù),輸出層激活函數(shù)選擇式(4)恒等式函數(shù)。為了確定隱含層的節(jié)點(diǎn)數(shù),建立了2~10個(gè)隱藏層節(jié)點(diǎn)個(gè)數(shù)的MLP神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu),均以2002—2016年的各行業(yè)用水量和影響因子的數(shù)據(jù)作為訓(xùn)練樣本進(jìn)行預(yù)測(cè)。通過比較計(jì)算結(jié)果,選出最佳隱藏層節(jié)點(diǎn)個(gè)數(shù),工業(yè)、農(nóng)業(yè)和生活用水模型的最優(yōu)隱藏層節(jié)點(diǎn)個(gè)數(shù)分別為5、6、6個(gè),故得出各行業(yè)合適的模型結(jié)構(gòu),即工業(yè)用水模型結(jié)構(gòu)為2-5-1,農(nóng)業(yè)用水模型結(jié)構(gòu)為3-6-1,生活用水模型結(jié)構(gòu)為2-6-1。
2.2.3預(yù)測(cè)結(jié)果及分析
將2017—2020年的數(shù)據(jù)作為檢驗(yàn)樣本,用來檢測(cè)模型的精確程度。各個(gè)行業(yè)的用水預(yù)測(cè)結(jié)果見表2。
由表2可知,2017—2020年的各行業(yè)用水量和總用水量的預(yù)測(cè)值與實(shí)際值相對(duì)誤差都控制在2%以內(nèi)。各個(gè)行業(yè)用水量和總用水量各年的誤差均在較小的誤差范圍內(nèi),且總用水量預(yù)測(cè)值與實(shí)際值變化趨勢(shì)保持一致,說明模型擬合度較高,預(yù)測(cè)趨勢(shì)可靠。其中農(nóng)業(yè)用水量預(yù)測(cè)精度最高,表明農(nóng)業(yè)影響因子選取較為合理。
此外為了檢驗(yàn)相關(guān)性分析-多層感知器神經(jīng)網(wǎng)絡(luò)模型的精度,利用不經(jīng)篩選的多層感知器神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練歷年數(shù)據(jù),并用此模型預(yù)測(cè)檢測(cè)年總用水量,將兩者的總用水預(yù)測(cè)結(jié)果進(jìn)行對(duì)比。結(jié)果見表3。
表2 各行業(yè)用水預(yù)測(cè)結(jié)果
表3 用水預(yù)測(cè)校驗(yàn)結(jié)果
由表3可知,相關(guān)性分析和MLP神經(jīng)網(wǎng)絡(luò)耦合模型的相對(duì)誤差均值為1.00%,MLP神經(jīng)網(wǎng)絡(luò)模型相對(duì)誤差均值為4.72%。由此可知,基于相關(guān)性分析的MLP神經(jīng)網(wǎng)絡(luò)模型預(yù)測(cè)各行業(yè)用水量精度高于直接用MLP神經(jīng)網(wǎng)絡(luò)模型預(yù)測(cè)總用水量的精度。前者在提高了預(yù)測(cè)精度的同時(shí)還減少了模型輸入的數(shù)據(jù),預(yù)測(cè)寧夏規(guī)劃年用水量的時(shí)候,前者只需要從不同方面各選取一個(gè)相關(guān)系數(shù)最大的影響因子即可,而后者則需要將所有影響因子都輸入模型中;且影響因子經(jīng)過相關(guān)性分析后,能清晰看出各影響因素對(duì)各行業(yè)用水量的影響程度的大小,采用影響程度更高的因子預(yù)測(cè)規(guī)劃年用水量也更為可靠。
2.2.4規(guī)劃年用水量預(yù)測(cè)分析
將此耦合模型應(yīng)用到寧夏回族自治區(qū)2025年用水量預(yù)測(cè)中,根據(jù)寧夏回族自治區(qū)各行業(yè)的“十四五”規(guī)劃(2020—2025)中的要求,確定相關(guān)指標(biāo)的值,其中全區(qū)平均降水量屬于隨機(jī)數(shù)據(jù),按照近五年的平均值確定。綜上,2025年的各影響因子的預(yù)測(cè)值見表4。
將以上數(shù)據(jù)輸入訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)模型中,預(yù)測(cè)出2025年寧夏的各行業(yè)用水量以及總用水量,具體數(shù)值見表5;另外用插值法大致確定2021—2014年的各行業(yè)用水量數(shù)值,進(jìn)行加和繪制現(xiàn)階段到規(guī)劃年的用水量趨勢(shì),見圖2,并計(jì)算出各年份不同行業(yè)的用水占比,見圖3。
表4 規(guī)劃年各影響因子預(yù)測(cè)值
表5 規(guī)劃年用水量預(yù)測(cè) 單位:億m3
圖2 寧夏回族自治區(qū)2002—2025年用水量趨勢(shì)
a)農(nóng)業(yè)用水
b)工業(yè)用水
c)生活用水
由表5、圖2的結(jié)果可知,2021—2025年寧夏總用水量總體呈較快下降趨勢(shì)。根據(jù)《寧夏回族自治區(qū)國(guó)民政府和社會(huì)發(fā)展第十四個(gè)五年規(guī)劃》文件中關(guān)于水資源管理三條紅線用水總量控制指標(biāo)要求,到2025年全區(qū)取水總量除生態(tài)外,大約控制在63.34億m3以內(nèi),預(yù)測(cè)值達(dá)到當(dāng)?shù)卣挠盟恳蟆A碛蓤D3可知,農(nóng)業(yè)用水占比有一定程度的下降,占比由現(xiàn)狀年的88%降到規(guī)劃年的85%;工業(yè)用水占比保持平穩(wěn)上升,生活用水占比大幅提升,這反映出在2025年全區(qū)的用水結(jié)構(gòu)得到進(jìn)一步優(yōu)化,具體表現(xiàn)為生活用水量持續(xù)得到保障,生產(chǎn)用水量控制在一定的范圍內(nèi),農(nóng)業(yè)用水量受到嚴(yán)格約束。
a)在利用MLP神經(jīng)網(wǎng)絡(luò)模型做用水預(yù)測(cè)之前引入相關(guān)性分析,從眾多影響因子中篩選出相關(guān)性強(qiáng)的影響因子作為神經(jīng)網(wǎng)絡(luò)模型的輸入值,分別對(duì)不同行業(yè)進(jìn)行用水量預(yù)測(cè)。并與不經(jīng)過相關(guān)性分析處理的MLP神經(jīng)網(wǎng)絡(luò)直接預(yù)測(cè)的結(jié)果進(jìn)行對(duì)比,可知這種耦合模型減少了輸入節(jié)點(diǎn)的數(shù)量,明顯簡(jiǎn)化了模型的結(jié)構(gòu),明確了各個(gè)因子對(duì)用水量影響程度的大小,且進(jìn)一步提升了預(yù)測(cè)精度。
b)利用訓(xùn)練好的相關(guān)性分析和MLP神經(jīng)網(wǎng)絡(luò)耦合模型預(yù)測(cè)了規(guī)劃年2025年的行業(yè)用水量以及總用水量,通過預(yù)測(cè)結(jié)果可以看出2025年寧夏總用水量有一定幅度的下降,農(nóng)業(yè)在所有行業(yè)用水中的占比依然最高,但和現(xiàn)狀年相比農(nóng)業(yè)用水占比有明顯下降;工業(yè)和生活用水占比均在規(guī)劃年的基礎(chǔ)上有較大幅度的提升。自治區(qū)人民政府辦公廳印發(fā)的寧夏“十四五”用水權(quán)管控指標(biāo)通知中指出,要堅(jiān)持以水定人、以水定產(chǎn)和以水定地。部分政策如下,到2025年全區(qū)灌溉水利用系數(shù)提升至0.6以上,全區(qū)萬元GDP用水量較2020年下降15%,節(jié)水器具普及率達(dá)到95%等。而此次預(yù)測(cè)結(jié)果充分考慮到這一系列的節(jié)水政策,將各個(gè)行業(yè)的部分約束條件作為模型的輸入值,這使得此預(yù)測(cè)結(jié)果具有一定的可靠性,可為自治區(qū)水資源規(guī)劃工作提供相應(yīng)的參考。