周 婭,郭 萍,楊 柳,宋培培
(1.貴州省水利水電勘測設(shè)計(jì)研究院,貴州 貴陽 550002;2.中國農(nóng)業(yè)大學(xué) 水利與土木工程學(xué)院,北京 100083)
崗南水庫位于海河流域子牙河水系滹沱河中游,是滹沱河進(jìn)入河北省后的第一個(gè)大型蓄水水庫,水庫位于河北省石家莊市平山縣境內(nèi),始建于1958年,總庫容15.71億m3,與下游的黃壁莊水庫共同保障石家莊的農(nóng)業(yè)、工業(yè)、生活用水,同時(shí)通過聯(lián)合調(diào)度保證了石家莊市和京廣鐵路的安全[1]。崗南水庫的入庫徑流水量的多少關(guān)系著下游河北衡水、邢臺(tái)、石家莊等地的工農(nóng)業(yè)及生活用水,小覺水文站是山西省進(jìn)入河北省的第一個(gè)水文測站,為流域兩個(gè)大型水庫之一崗南水庫入庫徑流控制水文站,受水庫調(diào)節(jié)作用較小,上游來水相對(duì)天然且資料條件較好,因此選取該代表站的徑流進(jìn)行預(yù)測分析對(duì)石家莊市可利用水資源優(yōu)化分配規(guī)劃具有重要的指導(dǎo)意義。在建立小覺水文站的月徑流預(yù)測模型之前,采用灰色關(guān)聯(lián)分析對(duì)小覺水文站月徑流與各影響因子的關(guān)聯(lián)度進(jìn)行分析,提取出關(guān)聯(lián)性較高的8個(gè)氣象因子作為BP神經(jīng)網(wǎng)絡(luò)的輸入;采用聚類分析法對(duì)1969—2009年小覺水文站月徑流值進(jìn)行分類,在此基礎(chǔ)上采用BP神經(jīng)網(wǎng)絡(luò)對(duì)高流量和低流量分別進(jìn)行預(yù)測模擬,結(jié)果表明,該方法可有效提高對(duì)數(shù)據(jù)序列中極值預(yù)測的精確度。
由中國氣象科學(xué)數(shù)據(jù)共享服務(wù)網(wǎng)提供的五臺(tái)山氣象監(jiān)測站和原平氣象監(jiān)測站1969—2009年的逐月氣象資料,包括降水量、平均風(fēng)速、平均氣溫、平均相對(duì)濕度、平均氣壓、日照時(shí)數(shù)、平均水汽壓6個(gè)與徑流形成相關(guān)的氣象因子數(shù)據(jù);由河北省水文水資源勘測局搜集到的1969—2009年小覺水文站蒸發(fā)量、降水量、月徑流量數(shù)據(jù),源自《海河流域子牙河水系水文資料年鑒》。在具體分析過程中,由于小覺水文站的蒸發(fā)量數(shù)據(jù)只能收集到2009年12月,為了使數(shù)據(jù)序列統(tǒng)一,進(jìn)行建模的時(shí)候,所有的數(shù)據(jù)序列都采用1969—2009年的數(shù)據(jù),未能同時(shí)反映2010—2013年的關(guān)聯(lián)性,有可能影響模型的精度。
人工神經(jīng)網(wǎng)絡(luò)預(yù)測多局限于建立單一構(gòu)型的神經(jīng)網(wǎng)絡(luò)模型,采用此模型的輸出過程常是一種估計(jì)各種數(shù)據(jù)情況的“最佳協(xié)調(diào)解”,其在擬合過程中試圖兼顧全部數(shù)據(jù)的利益,目的在于降低總體誤差,這種模型無法識(shí)別每個(gè)階段徑流量的主要影響因素并分別對(duì)待,因此無法使各個(gè)時(shí)期的徑流模擬都取得較高精度的結(jié)果,如果將所有搜集到的數(shù)據(jù)放在一起進(jìn)行訓(xùn)練得出的神經(jīng)網(wǎng)絡(luò)預(yù)測模型只能較好的模擬中等流量時(shí)間,而對(duì)極值情況,模型的性能則較差[2]。小覺水文站徑流量年內(nèi)變化大,5月多年平均徑流量為5.66 m3/s,8月最高流量值達(dá)334.00 m3/s,每個(gè)時(shí)期的徑流量值差別比較大,徑流量主要集中在7—9月,具有明顯的汛期和枯水期之分,夏季(7—9月)徑流量主要由降水補(bǔ)給,春季主要由冰川融水補(bǔ)給,不同時(shí)期應(yīng)考慮的影響因子也不同,故采用聚類分析法對(duì)1969—2009年月徑流值進(jìn)行分類,對(duì)高流量和低流量分別進(jìn)行預(yù)測模擬。
聚類分析是依據(jù)研究對(duì)象的個(gè)體特征進(jìn)行分類的方法,它能在沒有先驗(yàn)知識(shí)的情況下,將一批樣本數(shù)據(jù)按照性質(zhì)上的親疏關(guān)系進(jìn)行分類,得到多種分類結(jié)果,每個(gè)分類內(nèi)個(gè)體特征之間具有相似性,不同分類間個(gè)體差異性較大[3]。SPSS中的聚類分析方法主要包括系統(tǒng)聚類法和快速聚類法,無論是何種聚類方法,個(gè)體間的“親疏程度”都將直接影響最終的聚類結(jié)果。對(duì)“親疏程度”的測度一般有兩方面:一是個(gè)體之間的相似程度;二是個(gè)體之間的差異程度,常采用距離來測度。聚類分析常用的距離包括定距型變量、定序型變量和二值變量,定距形變量包括歐氏距離(Euclidean distance )、平方歐氏距離(Squared Euclidean distance )、契比雪夫距離(chebychev)、Block距離、閔可夫斯基距離(Minkowski)、夾角余弦距離(Cosine)和用戶自定義距離(Customized);定序型變量包括卡方距離(Chi-Square measure)和Phi方距離(Phi-Square mearsure);二值變量包括簡單相關(guān)系數(shù)和雅克比系數(shù)[4]。聚類分析的步驟如圖1所示。
圖1 聚類分析過程
本文中根據(jù)數(shù)據(jù)類型選擇系統(tǒng)聚類法對(duì)1969—2009年多年平均月徑流值進(jìn)行分類,系統(tǒng)聚類法是目前使用最多的一種方法,其基本思想是首先把n個(gè)樣本看成n類,然后規(guī)定樣本之間的聚類和單個(gè)樣本之間的距離,將距離最近的兩類合為一個(gè)新類,在計(jì)算新類和其他類之間的距離,從中找出最近的兩類繼續(xù)進(jìn)行合并,最后將所有的樣品歸為一類。該方法中常用的數(shù)據(jù)標(biāo)準(zhǔn)化方法包括標(biāo)準(zhǔn)化變換(Z Scores),極差標(biāo)準(zhǔn)化變換(Range-1 to 1),極差正規(guī)化變換(Range 0 to 1),最大值為1(Maximum magnitude of 1),標(biāo)準(zhǔn)差為1(Mean of 1)五種方法,本文中采用極差標(biāo)準(zhǔn)化變換先對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理。
系統(tǒng)聚類中的聚類方法包括組內(nèi)聯(lián)接、組間聯(lián)接、最遠(yuǎn)鄰元素、最近鄰元素、質(zhì)心聚類、中位數(shù)聚類和Ward離差平方和距離法7種方法。大多數(shù)研究表明:綜合特性最好的聚類方法為Ward最小方差法或類平均法,Ward最小方差法傾向于尋找觀察數(shù)相同的類,類平均法偏向?qū)ふ业确讲畹念?,本文中選擇Ward離差平方和法進(jìn)行聚類分析[3]。
采用系統(tǒng)聚類法中Ward離差平方和距離法對(duì)1969—2009年多年平均月徑流標(biāo)準(zhǔn)化值進(jìn)行分類,結(jié)果如下:
從聚類分析樹形圖如圖2所示,當(dāng)聚成2類時(shí),7—10月為一類,1—6月、11—12月為一類。該圖展現(xiàn)了聚類分析中每一次類合并的情況,SPSS自動(dòng)將各類間距離映射在0~25之間,并將聚類過程近似的表示在圖上,本文接下來據(jù)此分類:7—10月為一類,1—6月、11—12月為一類對(duì)數(shù)據(jù)進(jìn)行分組預(yù)測。
圖2 系統(tǒng)聚類分析的樹形圖
聚類分析將徑流分為汛期(7—10月)和枯水期(1—6月、11—12月)兩類,不同時(shí)期的徑流量對(duì)應(yīng)不同的影響因子,如降雨是汛期影響徑流變化的主要因素,而在枯水期相鄰水文站的流量則應(yīng)為主要輸入,需要采用灰色關(guān)聯(lián)分析對(duì)不同時(shí)期月徑流的影響因素做分析,確定每一時(shí)期神經(jīng)網(wǎng)絡(luò)的輸入。
灰色關(guān)聯(lián)分析的基本思想是根據(jù)曲線的相似程度來判斷其間聯(lián)系是否緊密,如果曲線越接近,曲線所代表的序列之間的關(guān)聯(lián)度就越大,反之就越小。如若干序列{Xi(1),Xi(2),…,Xi(n)},i=1,2,…,m(m為序列數(shù))。如果將其看作一個(gè)一個(gè)“點(diǎn)”,他們都是變化的,而且點(diǎn)和點(diǎn)之間有聯(lián)系;如果將他們看作是連續(xù)函數(shù),那么點(diǎn)和點(diǎn)之間又缺乏信息?;疑到y(tǒng)理論中將這種缺乏信息的函數(shù)稱為灰色序列[5]。而灰色關(guān)聯(lián)分析的實(shí)質(zhì)就是系統(tǒng)性的分析多個(gè)灰色關(guān)聯(lián)離散函數(shù)之間接近度,將各個(gè)接近度進(jìn)行排序,而這種接近度在灰色系統(tǒng)中,被稱為灰色關(guān)聯(lián)度。
灰色關(guān)聯(lián)分析反映了離散序列空間的收斂和接近的程度,具有代數(shù)與幾何雙重特點(diǎn)。其對(duì)樣本的要求不高,小樣本也可以進(jìn)行計(jì)算,離散序列可以是時(shí)間序列,也可以是非時(shí)間序列;同時(shí)可以對(duì)同一個(gè)樣本進(jìn)行多個(gè)參考序列的分析。這與單純的回歸分析相比,更具有整體性和層次性[5]。
徑流形成是一個(gè)復(fù)雜的過程,各個(gè)影響因子之間的關(guān)系非常復(fù)雜,故采用灰色關(guān)聯(lián)分析方法,對(duì)影響徑流變化的因素進(jìn)行分析。
小覺水文站位于河北省石家莊市平山縣小覺村,控制海河流域滹沱河(子牙河水系)上的崗南水庫的入庫徑流,結(jié)合上面的分析,選取以下因子:x1五臺(tái)山降水量、x2五臺(tái)山風(fēng)速,x3五臺(tái)山氣壓、x4五臺(tái)山氣溫、x5五臺(tái)山相對(duì)濕度、x6五臺(tái)山日照時(shí)數(shù)、x7五臺(tái)山水汽壓、x8原平降水量、x9原平風(fēng)速、x10原平氣壓、x11原平氣溫、x12原平相對(duì)濕度、x13原平日照時(shí)數(shù)、x14原平水汽壓、x15小覺水文站降水量、x16小覺水文站蒸發(fā)量作為影響小覺站徑流量變化的因素。用DPS軟件對(duì)這些影響因子進(jìn)行灰色關(guān)聯(lián)分析,分辨系數(shù)取為0.5,得到汛期和枯水期徑流量和其他影響因子之間的關(guān)聯(lián)度如表1和表2所示。
表1 汛期各影響因子與徑流量的關(guān)聯(lián)度
表2 枯水期各影響因子與徑流量的關(guān)聯(lián)度
從關(guān)聯(lián)矩陣可以看出,汛期各影響因子與小覺水文站月徑流的關(guān)聯(lián)度排序如下:x15>x1>x5>x8>x12>x10>x9>x7>x14>x11>x4>x2>x6>x16>x13>x3,枯水期排序?yàn)椋簒9>x3>x5>x12>x15>x1>x2>x8>x13>x14>x7>x6>x16>x10>x11>x4,由1和表2可以看出,汛期各氣象因子對(duì)小覺水文站月徑流量的影響更大,相關(guān)系數(shù)均在0.8以上,屬于高度相關(guān),預(yù)測時(shí)將16個(gè)影響因子作為輸入;枯水期各氣象因子與小覺水文站月徑流值關(guān)聯(lián)系數(shù)較汛期低,其中x9、x3、x5、x12、x15、x1、x2、x8對(duì)應(yīng)的灰關(guān)聯(lián)系數(shù)在0.7以上,屬于中度相關(guān),其他因子與小覺水文站徑流量的關(guān)聯(lián)度不大,故選擇前8個(gè)氣象因子:x9原平風(fēng)速、x3五臺(tái)山氣壓、x5五臺(tái)山相對(duì)濕度、x12原平相對(duì)濕度、x15小覺水文站降水量、x1五臺(tái)山降水量、x2五臺(tái)山風(fēng)速、x8原平降水量作為神經(jīng)網(wǎng)絡(luò)訓(xùn)練的輸入。
前面通過聚類分析將小覺水文站徑流量分為汛期和枯水期,汛期采用1969—2009年的7—10月的16個(gè)氣象因子作為神經(jīng)網(wǎng)絡(luò)訓(xùn)練的輸入,徑流量值作為輸出,采用MATLAB R2014a自帶工具箱Time Series Neural Network(ntstool)建立汛期神經(jīng)網(wǎng)絡(luò)預(yù)測模型,采用的是能對(duì)數(shù)據(jù)量少、噪聲大數(shù)據(jù)進(jìn)行高精度模擬的Trainbr函數(shù),網(wǎng)絡(luò)結(jié)構(gòu)輸入層為17個(gè)神經(jīng)元,隱含層為3個(gè)神經(jīng)元,輸出層為1個(gè)神經(jīng)元。
圖4個(gè)圖分別表示:在測試期內(nèi)觀測值和預(yù)測值相關(guān)系數(shù)為0.8578,在測試期,觀測值和預(yù)測值相關(guān)系數(shù)為0.8901,所有數(shù)據(jù)預(yù)測值和觀測值的相關(guān)系數(shù)為0.8484,實(shí)測值和預(yù)測值吻合精度一般,但相關(guān)系數(shù)均顯著的大于0.7,說明此模型也可以較好的模擬徑流,從預(yù)測值和實(shí)測值對(duì)比如圖5所示,模型在前120個(gè)月期間對(duì)峰值的模擬較好,但是對(duì)后40個(gè)月的模擬精度較差,這可能是因?yàn)樵谟?xùn)練過程中訓(xùn)練期和測試期數(shù)據(jù)選擇欠合理導(dǎo)致,但時(shí)間序列預(yù)測需要遵循時(shí)間規(guī)律進(jìn)行,故無法將數(shù)據(jù)打亂進(jìn)行預(yù)測,由此可見有必要對(duì)后40個(gè)月數(shù)據(jù)進(jìn)行預(yù)測。
圖3 汛期觀測值和預(yù)測值回歸分析圖
圖4 汛期各時(shí)期觀測值和預(yù)測值對(duì)照?qǐng)D
由聚類分析結(jié)果得到:枯水期采用1969—2009年的11月至次年6月徑流量值作為輸出,與汛期不同的是,枯水期所選取灰關(guān)聯(lián)分析得到的中度相關(guān)的原平風(fēng)速、五臺(tái)山氣壓、五臺(tái)山相對(duì)濕度、原平相對(duì)濕度、小覺水文站降水量、五臺(tái)山降水量、五臺(tái)山風(fēng)速、原平降水量作為輸入進(jìn)行預(yù)測模擬,同樣采用MATLAB R2014a自帶工具箱Time Series Neural Network建立汛期神經(jīng)網(wǎng)絡(luò)預(yù)測模型,選取Trainbr函數(shù)作為訓(xùn)練函數(shù),網(wǎng)絡(luò)結(jié)構(gòu)輸入層為9個(gè)神經(jīng)元,隱含層為6個(gè)神經(jīng)元,輸出層為1個(gè)神經(jīng)元。
圖 6三個(gè)圖分別表示:測試期內(nèi),觀測值和預(yù)測值相關(guān)系數(shù)為0.8254,在測試期,觀測值和預(yù)測值相關(guān)系數(shù)為0.800 89,所有函數(shù)預(yù)測值和觀測值的相關(guān)系數(shù)為0.819 93,相關(guān)系數(shù)均顯著的大于0.7,說明此模型也可以較好的模擬徑流,從預(yù)測值和實(shí)測值對(duì)比如圖所示,模型在前180個(gè)月期間對(duì)峰值的模擬較差,但是對(duì)后147個(gè)月的模擬精度在精度和變化趨勢上均較好,主要是因?yàn)榍?80個(gè)月內(nèi)徑流量變化比較顯著,而后147個(gè)月內(nèi)徑流量沒有較高峰值的變化,模型體現(xiàn)了枯水期徑流量峰值變化不大的特性,故對(duì)后期的徑流量模擬較好,同時(shí)從前期灰色關(guān)聯(lián)分析可以看出,選取的輸入(氣象因子)與輸出(徑流量)的灰色相關(guān)性一般,說明降水等氣象因子對(duì)枯水期徑流量影響不大,而與上游水文監(jiān)測站得到的徑流量值的相關(guān)性更大,而此部分?jǐn)?shù)據(jù)的缺失也是預(yù)測精度不高的原因之一。
(1)本文針對(duì)小覺水文站徑流量年內(nèi)變化顯著的特性,采用聚類分析法將數(shù)據(jù)按Ward離差平方和距離法分為兩類:7—10月為汛期,11月至次年6月為枯水期;并在此分類的基礎(chǔ)上對(duì)汛期和枯水期各氣象因子進(jìn)行灰色關(guān)聯(lián)分析,選取灰色關(guān)聯(lián)系數(shù)較大的氣象因子作為輸入:汛期16個(gè)氣象因子與徑流量的相關(guān)性均在0.8以上,故將16項(xiàng)氣象因子均作為網(wǎng)絡(luò)輸入;枯水期氣象因子與徑流量的相關(guān)性在0.6~0.8之間,氣象因子整體與徑流量的相關(guān)性相對(duì)較低,選取相關(guān)性在0.7以上的8個(gè)氣象因子作為網(wǎng)絡(luò)輸入;相關(guān)分析結(jié)果與實(shí)際中汛期易受降水等氣象因子的影響、枯水期所受影響較低的情況相符。
(2)采用MATLAB R2014a中自帶的BP神經(jīng)網(wǎng)絡(luò)預(yù)測工具箱ntstool進(jìn)行預(yù)測,建立訓(xùn)練結(jié)果顯示:汛期對(duì)峰值模擬較好,但對(duì)后40個(gè)月的預(yù)測模擬精度不高,這主要是因?yàn)轭A(yù)測中將上一時(shí)期的徑流量值也作為輸入進(jìn)行訓(xùn)練,前期的徑流量變化對(duì)后期的預(yù)測有影響,同時(shí)模型主要是對(duì)多數(shù)數(shù)據(jù)的趨勢進(jìn)行模擬,對(duì)突然在趨勢上產(chǎn)生變化的數(shù)據(jù)響應(yīng)差;
(3)枯水期則與汛期相反,模型對(duì)趨勢的模擬較好,前180個(gè)月對(duì)峰值的模擬較差,在后147個(gè)月內(nèi)徑流量整體變化趨勢減緩,模擬精度提高。
(4)由于在氣象因子選取的過程中考慮滹沱河整個(gè)流域中五臺(tái)山和原平兩地的氣象數(shù)據(jù)的影響,這在一定程度上反映了上游水文監(jiān)測站徑流量的變化,因此得到的模型也可以較好的模擬該時(shí)期的徑流量。