莊承彬,陳曉宏,黃薇穎,彭濤
1. 中山大學(xué)水資源與環(huán)境系,廣東 廣州510275;2. 華南地區(qū)水循環(huán)和水安全廣東普通高校重點實驗室(中山大學(xué)),廣東 廣州 510275
流域多年徑流豐枯特性分析是流域水資源系統(tǒng)研究的重要部分,是水文分析計算中的一項重要工作。流域的多年徑流豐枯聚類是指按年徑流的量和結(jié)構(gòu)等特性的相似程度對其進(jìn)行分組,可以直接而且系統(tǒng)地理解流域多年徑流的豐枯分布。年徑流的量是指年徑流總量,年徑流的結(jié)構(gòu)是指年內(nèi)不同時段的徑流量分布情況。目前,多年徑流豐枯特性研究的傳統(tǒng)方法多建立在年徑流量的單一指標(biāo)之上,沒有考慮徑流的年內(nèi)分配,容易導(dǎo)致分析的片面化。針對這個問題,有研究提出考慮年平均水量、年內(nèi)豐枯水量差、年內(nèi)最大月水量與最小月水量差、調(diào)節(jié)庫容等多種指標(biāo)的徑流豐枯灰色分類評價方法[1],但該方法在分類時主觀性較大、計算較為復(fù)雜;也有研究采用投影尋蹤分類模型來進(jìn)行徑流豐枯分類,計算中既考慮了年徑流的大小,又兼顧了徑流的時間分配[2],該方法在尋求最佳投影方向時需使用遺傳算法等工具進(jìn)行優(yōu)化,計算較為繁瑣。鑒于現(xiàn)有的該類方法的不足,本文提出了一種較全面、客觀且計算方便的方法——基于三維指標(biāo)因子的流域多年徑流豐枯k-means 聚類法。
受天氣系統(tǒng)和下墊面因素等綜合影響,流域徑流呈現(xiàn)出復(fù)雜的年內(nèi)和年際變化,研究流域多年徑流豐枯特性,不僅要從年際變化入手,而且應(yīng)重視其年內(nèi)分布情況。流域的年徑流總量是考量徑流年際變化的一個指標(biāo)因子。對于年內(nèi)變化,年內(nèi)徑流豐枯比是一個重要的考量指標(biāo);另外,在年內(nèi)枯水期,徑流在時間上的均勻分布對于流域水資源開發(fā)利用是很重要的,若枯水期的徑流量分布不均,供水的時段保證率將受到不利的影響。傳統(tǒng)的多年徑流豐枯特性研究方法多只考慮單一的年徑流量指標(biāo),忽視了徑流的年內(nèi)分布,容易導(dǎo)致研究的片面化?;谏鲜隹紤],本文提出了衡量流域多年徑流豐枯特性的三維指標(biāo)因子:年徑流總量、年內(nèi)徑流豐枯比和年內(nèi)枯水期徑流變差系數(shù)。
假如,流域a年的年徑流總量比b年大,但a年年內(nèi)徑流分布比b年不均勻,那么就豐枯特性而言,哪一年是相對較豐些,對流域水資源開發(fā)利用較有利些呢?這涉及到衡量年徑流豐枯特性的指標(biāo)因子權(quán)問題。根據(jù)權(quán)重整合指標(biāo)因子從而判斷年徑流的豐枯特性,在多年徑流按年聚類時,可以有一個整體上的比較和定論。
權(quán)重的確定方法很多,最常用的方法是專家決策法,即專家根據(jù)自己的經(jīng)驗與實際情況對指標(biāo)因子的權(quán)重進(jìn)行分配,例如德爾菲法、層次分析法等。本文運用 AHP層次分析法[3,4]對三維指標(biāo)因子賦權(quán),限于篇幅,此處不對AHP賦權(quán)過程展開論述。賦權(quán)結(jié)果如表1所示。
從表1看出,三維指標(biāo)因子的賦權(quán)結(jié)果較符合實際情況,年徑流總量是考量年徑流豐枯特性的重要指標(biāo),在這個前提下,分別給予了年內(nèi)徑流豐枯比和年內(nèi)枯水期徑流變差系數(shù)一定的權(quán)重。在實際應(yīng)用中,可根據(jù)需要對權(quán)重進(jìn)行調(diào)整。
表1 衡量流域多年徑流豐枯特性的三維指標(biāo)因子權(quán)重Tab.1 Three-dimensional factors' weights of runoff abundant and low state partition
K-means聚類方法最早由MacQueen提出,本文運用其聚類原理[5-8],提出了基于流域多年徑流豐枯特性三維指標(biāo)因子的k-means聚類算法。
流域多年徑流豐枯聚類產(chǎn)生的每一組數(shù)據(jù)稱為一個簇,簇中的每一個數(shù)據(jù)稱為一個對象,每個對象都包含了三維指標(biāo)因子(年徑流總量、年內(nèi)徑流豐枯比和年內(nèi)枯水期徑流變差系數(shù)),簇中所有對象的三維指標(biāo)因子平均值稱為該簇的三維聚類中心。聚類的目的是使同一簇中對象的三維指標(biāo)特性盡可能的相似,而不同簇對象間的三維指標(biāo)特性差異盡可能的大。算法的實現(xiàn)分以下三步:
步驟1:從n個數(shù)據(jù)對象中任意選擇k個對象作為初始的k個三維聚類中心。
步驟 2:清空(初始化)k個簇,逐一分析 n個對象與k個三維聚類中心的相似度。對象與三維聚類中心的相似度通過歐式距離確定,最短距離代表對象與該三維聚類中心最相似。距離計算公式如下:
式中,wi(i=1、2、3)為i維指標(biāo)因子的權(quán)重;xi(i=1、2、3)為i維指標(biāo)因子的值;為三維聚類中心i維指標(biāo)因子的值,即該簇中所有對象i維指標(biāo)因子的平均值。
步驟 3:將所有的對象歸到與之最相似的三維聚類中心所對應(yīng)的簇中,最后計算k個簇各自最新的三維聚類中心值,并計算準(zhǔn)則函數(shù)。不斷重復(fù)步驟2與步驟3,直到準(zhǔn)則函數(shù)與上一次計算的準(zhǔn)則函數(shù)對比不發(fā)生明顯變化為止(設(shè)定變化值小于0.001則不明顯)。計算準(zhǔn)則函數(shù)為:
式中,k為簇的個數(shù);Ci為簇中的對象集合。
在給定三維指標(biāo)因子權(quán)重wi與分組個數(shù)k的前提下,上述聚類方法可以按徑流序列中各個對象的特性進(jìn)行自動分組、生成每個分組的三維聚類中心特征值,代替了人為的徑流豐枯分組過程,消除了人為分組產(chǎn)生的主觀誤差,且通過三維指標(biāo)因子可以更全面的分析徑流的豐枯特性。
鑒江發(fā)源于廣東省信宜縣虎豹坑,流經(jīng)茂名市高州、化州、電白、市區(qū),在湛江市吳川縣沙角旋入海,流域總面積9464 km2,多年平均徑流量84.77億m3,是茂名、湛江兩市的生活、生產(chǎn)水源地,同時還兼顧防洪、發(fā)電等其它多種功能。近年來,隨著當(dāng)?shù)亟?jīng)濟(jì)社會的發(fā)展和產(chǎn)業(yè)結(jié)構(gòu)的調(diào)整,如即將啟動的湛江鋼鐵基地和近些年發(fā)展起來的茂名博賀新港區(qū),使得該地區(qū)用水需求迅速增加,水資源供需矛盾加劇,因此對廣東省鑒江流域水資源系統(tǒng)的研究受到了越來越多的重視。
以廣東省鑒江流域下游化州水文站作為代表站,采用化州站 1956—2006年長系列的旬徑流量資料,分別計算其年徑流總量序列、年內(nèi)徑流豐枯比序列和年內(nèi)枯水期徑流變差系數(shù)序列。
對化州站 1956—2006年的徑流系列(年徑流總量序列、年內(nèi)徑流豐枯比序列和年內(nèi)枯水期徑流變差系數(shù)序列)分別進(jìn)行基于年徑流量單一指標(biāo)的k-means聚類分析與基于流域多年徑流豐枯特性三維指標(biāo)因子的k-means聚類分析,對比兩種方法聚類結(jié)果的差別。
只考慮年徑流總量單一指標(biāo),運用k-means方法對化州站 1956—2006年徑流序列進(jìn)行單一指標(biāo)的聚類分析,k值取4,聚類結(jié)果見表2。
表2 化州站多年徑流系列單一指標(biāo)的k-means聚類分析結(jié)果Table 2 The result of 1956-2006’s runoff series of Huazhou hydrologic station using mere index k-means method
由結(jié)果可知,算法自動生成了較豐、偏豐、偏枯、較枯四個簇,分別對應(yīng)表 2中的 2、4、3、1類。在自動分類時僅考慮了分組對象的年徑流量。
對化州站 1956—2006年年徑流序列進(jìn)行三維指標(biāo)因子的k-means聚類分析,三維指標(biāo)因子權(quán)重wi按表1取值,k值取4,結(jié)果見表3。
由結(jié)果可知,算法自動生成了較豐、偏豐、偏枯、較枯四個簇,分別對應(yīng)表中的2、4、3、1類。在自動分類時不僅考慮了分組對象的年徑流量,而且考慮了年內(nèi)的徑流分布結(jié)構(gòu)。
對比以上兩種聚類結(jié)果,兩種聚類方法對徑流較豐年份的聚類結(jié)果是一致的,都為1973、1976、1981、1983、1997四個年份;對徑流較枯年份的聚類結(jié)果卻有較大的差別,在基于年徑流量單一指標(biāo)的k-means聚類結(jié)果中,徑流較枯年份包括1956、1963、1977、2000四個年份,在基于流域多年徑流豐枯特性三維指標(biāo)因子的k-means聚類結(jié)果中,徑流較枯年份包括1956、1958、1962、1963、1964、1977、1980、1991、1999、2000十個年份(三維指標(biāo)因子數(shù)值情況見表4)。
以 1962年作為例,該年年徑流總量 43.32億m3,在基于年徑流量單一指標(biāo)的k-means聚類結(jié)果中,較枯年、偏枯年的年徑流總量聚類中心值分別為32.74億m3與50.09億m3,1962年歸為偏枯年份類別;在基于流域多年徑流豐枯特性三維指標(biāo)因子的k-means聚類結(jié)果中,較枯年、偏枯年的年徑流總量聚類中心值分別為 38.93億 m3與 53.60億m3,1962年歸為較枯年份類別。只考慮年徑流總量指標(biāo)的情況下,1962年介于偏枯年份類別與較枯年份類別之間,可歸入偏枯年份類別或較枯年份類別;若還考慮徑流的年內(nèi)分配,該年年內(nèi)徑流豐枯比為4.01,豐枯對比懸殊,徑流年內(nèi)分布極為不均,較不利于水資源開放利用,因此,綜合考慮年徑流總量與徑流的年內(nèi)分配,基于流域多年徑流豐枯特性三維指標(biāo)因子的k-means聚類方法將1962年歸為較枯年份類別是比較合適的,而基于年徑流量單一指標(biāo)的k-means聚類方法卻做不到這點。結(jié)合表3與表4分析,整體而言,基于流域多年徑流豐枯特性三維指標(biāo)因子的k-means聚類方法對枯水年份的分類結(jié)果較為細(xì)致,更符合枯水年份的實質(zhì)定義,符合實際的水文水資源分析需求,是一種更為全面、合理的流域多年徑流豐枯特性聚類方法。
表3 化州站多年徑流系列三維指標(biāo)因子的k-means聚類分析結(jié)果Table 3 The result of 1956-2006’s runoff series of Huazhou hydrologic station using three-dimensional index k-means method
表4 化州站多年徑流較枯年份的三維指標(biāo)因子數(shù)值Tab.4 The value of three-dimensional index of low runoff series of Huazhou hydrologic station
本文提出了衡量流域多年徑流豐枯狀態(tài)的三維指標(biāo)因子及其權(quán)重,將其耦合到k-means聚類法的相似度計算與收斂分析中,產(chǎn)生了一種基于三維指標(biāo)因子的流域多年徑流豐枯k-means 聚類法,以該方法對廣東省鑒江流域下游化州站 1956—2006年的徑流系列進(jìn)行聚類分析,并與基于年徑流量單一指標(biāo)的k-means聚類方法進(jìn)行對比。本文研究結(jié)果表明基于流域多年徑流豐枯特性三維指標(biāo)因子的k-means聚類方法是一種較為全面、較為合理科學(xué)的流域多年徑流豐枯特性聚類方法。
[1] 陳意平, 韓金瑣. 年徑流系列劃分的灰色評估方法[C]//夏軍, 丁晶.現(xiàn)代水科學(xué)不確定性研究與進(jìn)展. 成都:四川科技大學(xué)出版社,1994:14-17.CHEN Yiping, HAN Jinsuo. Gray assessment method for partition of annual runoff series[C]//XIAJun, DING Jing. Research and progress on uncertainty in modern water science. Chengdu: University of Elec-tronic Science and Technology of China Press, 1994.
[2] 趙太想, 王文生, 周秀平. 一種徑流豐枯分類的新方法研究[J]. 人民黃河, 2006, 28(5):12-13.ZHAO Taixiang, WANG Wensheng, ZHOU Xiuping. A new method for classification of abundant and low state of runoff[J]. Yellow River,2006, 28(5): 12-13.
[3] Saaty T L. Modeling unstructured decision problems-the theory of analytical hierarchies[J]. Math Compute Simulation, 1978, 20:147-158.
[4] Saaty T L. How to make a decision: The analytic hierarchy process[J].European Journal of Operational Research, 1990, 48(1):9-26.
[5] J.MacQueen. Some methods for classification and analysis of multivariate observations[A]. In Proc. of the 5th Berkeley Symp. On Mathematical Statistics and Probability[C]. University of California Press, 1967:281-297.
[6] Bradley P S, Fayyad U M. Refining initial points for K-Means clustering[C]// Proc. of the 15th International Conf. on Machine Learning.San Francisco, CA: Morgan Kaufmann, 1998:91-99.
[7] Moh’d B Al-Daoud, Stuart A Roberts. New methods for the initialization of clusters[J]. Pattern Recognition Letters, 2001(17):451-455.
[8] Kaufman L, Rousseeuw P J. Finding groups in data: an introduction to cluster analysis[M]. NY: John Wiley&Sons, 1990.