(云南省水文水資源局紅河分局,云南紅河661100)
水庫(kù)型城市集中式飲用水水源地作為中國(guó)集中式飲用水水源地重要類型之一,不但承擔(dān)著城市居民生活供水任務(wù),而且在城市防洪、工農(nóng)業(yè)供水等方面發(fā)揮著重要作用。近年來,隨著經(jīng)濟(jì)社會(huì)發(fā)展和人類活動(dòng)加劇,一些水庫(kù)型城市集中式飲用水水源地水質(zhì)受到不同程度污染,傳統(tǒng)單因子水質(zhì)評(píng)價(jià)法(亦稱一票否決法)以最劣指標(biāo)類別作為最終評(píng)價(jià)結(jié)果,不能客觀、科學(xué)反映水源地水質(zhì)綜合狀況。因此,開展水庫(kù)型水源地水質(zhì)綜合評(píng)價(jià),對(duì)于保障城市居民飲用水源安全,科學(xué)實(shí)施水源地防污治污以及落實(shí)最嚴(yán)格水資源管理制度均具有重要意義。目前,水源地水質(zhì)綜合評(píng)價(jià)方法主要有卡爾森指數(shù)法[1]、模糊綜合評(píng)價(jià)法[2]、支持向量機(jī)法[3]、投影尋蹤法[4]、物元可拓法[5]等,均在水源地水質(zhì)綜合評(píng)價(jià)中取得較好的評(píng)價(jià)效果。隨機(jī)森林(random forest,RF)是由Leo Breiman提出的一種集成機(jī)器學(xué)習(xí)方法,主要利用Bootsrap重抽樣方法從原始樣本中抽取多個(gè)樣本,對(duì)每個(gè)Bootsrap樣本進(jìn)行決策樹建模,然后組合多棵決策樹通過投票方式獲得最終評(píng)價(jià)結(jié)果[6],可以看成由很多弱分類器(決策樹)集成的強(qiáng)分類器,能有效避免“過擬合”和“欠擬合”現(xiàn)象的發(fā)生,已在各領(lǐng)域及水質(zhì)綜合評(píng)價(jià)[7-8]中得到應(yīng)用。然而,在實(shí)際應(yīng)用中,合理選取RF模型決策樹數(shù)量ntree和分裂屬性個(gè)數(shù)mtry2個(gè)參數(shù)對(duì)于提高RF模型預(yù)測(cè)或分類性能至關(guān)重要。目前普遍采用試湊法[9-10]或網(wǎng)絡(luò)搜索法[6,11]確定決策樹數(shù)量、分裂屬性個(gè)數(shù),但取值效果往往不理想。近年來,隨著群體仿生智能算法研究的不斷深入,其已被嘗試用于RF模型決策樹數(shù)量、分裂屬性個(gè)數(shù)的優(yōu)化,如周博翔等人[12]利用蜜蜂交配算法優(yōu)化隨機(jī)森林參數(shù),構(gòu)建HBMO-RF模型用于人體姿態(tài)識(shí)別;王杰等人[13]提出基于粒子群優(yōu)化(PSO)算法的加權(quán)隨機(jī)森林分類模型,并通過實(shí)驗(yàn)數(shù)據(jù)驗(yàn)證了該模型的分類效果;趙東等人[14]采用果蠅優(yōu)化算法(FOA)對(duì)RF關(guān)鍵參數(shù)進(jìn)行優(yōu)化,構(gòu)建FOA-RF模型對(duì)蟲害數(shù)據(jù)進(jìn)行預(yù)測(cè)。但基于群體仿生智能算法優(yōu)化決策樹數(shù)量、分裂屬性個(gè)數(shù)的RF模型用于水質(zhì)綜合評(píng)價(jià)的文獻(xiàn)并不多見。
為進(jìn)一步拓展群體仿生智能算法優(yōu)化RF 2個(gè)關(guān)鍵參數(shù)的應(yīng)用范疇,本文提出一種基于隨機(jī)漂移粒子群(random drift particle swarm optimization,RDPSO)算法優(yōu)化的RF評(píng)價(jià)方法,利用RDPSO算法優(yōu)化RF決策樹數(shù)量和分裂屬性個(gè)數(shù)2個(gè)關(guān)鍵參數(shù),構(gòu)建RDPSO-RF水源地水質(zhì)綜合評(píng)價(jià)模型,并構(gòu)建基于RDPSO算法優(yōu)化的回歸支持向量機(jī)(SVR)模型作對(duì)比分析,以云南省紅河州17個(gè)水庫(kù)型飲用水水源地水質(zhì)綜合評(píng)價(jià)為例進(jìn)行實(shí)例研究。通過選取水源地水質(zhì)綜合評(píng)價(jià)因子,依據(jù)GB 3838—2002《地表水環(huán)境質(zhì)量標(biāo)準(zhǔn)》在各評(píng)價(jià)因子等級(jí)閾值間隨機(jī)內(nèi)插和隨機(jī)選取樣本對(duì)RDPSO-RF、RDPSO-SVR模型進(jìn)行訓(xùn)練和測(cè)試;利用測(cè)試好的RDPSO-RF、RDPSO-SVR對(duì)實(shí)例水質(zhì)綜合類別進(jìn)行評(píng)價(jià),旨在驗(yàn)證RDPSO -RF模型用于水庫(kù)型水源地水質(zhì)綜合評(píng)價(jià)的可行性和有效性。
隨機(jī)漂移粒子群(RDPSO)算法是孫俊等人受PSO算法的軌跡分析和金屬導(dǎo)體中自由電子定向漂移運(yùn)動(dòng)、隨機(jī)無規(guī)則熱運(yùn)動(dòng)啟發(fā)而提出來的一種具有較強(qiáng)全局搜索的群體智能算法。RDPSO算法中自由電子的定向漂移運(yùn)動(dòng)類似于粒子的局部搜索,隨機(jī)無規(guī)則熱運(yùn)動(dòng)類似于粒子的全局搜索[15]。參考文獻(xiàn)[15-17],RDPSO算法數(shù)學(xué)描述如下。
(1)
(2)
式(2)可表示如下:
(3)
(4)
(5)
(6)
(7)
(8)
式中N——群體規(guī)模。將式(6)改寫為:
(9)
綜上,RDPSO算法中粒子速度和位置更新公式表示為:
(10)
(11)
隨機(jī)森林(RF)算法是由Leo Breiman[18]提出的基于決策樹分類器的融合算法,該算法通過隨機(jī)的方法建立一個(gè)由許多決策樹組成的森林,每棵決策樹之間沒有關(guān)聯(lián);每棵決策樹均采用bootstrap方法進(jìn)行采樣,隨機(jī)產(chǎn)生k個(gè)訓(xùn)練集,利用每個(gè)訓(xùn)練集生成對(duì)應(yīng)的決策樹;然后再?gòu)乃蠱個(gè)決策屬性中隨機(jī)抽取m個(gè)屬性進(jìn)行評(píng)價(jià);在訓(xùn)練過程中,一般m的取值維持不變;訓(xùn)練結(jié)束后,當(dāng)測(cè)試樣本輸入時(shí),每棵決策樹均對(duì)測(cè)試樣本進(jìn)行評(píng)價(jià),并將所有決策樹中出現(xiàn)最多的投票結(jié)果作為最終評(píng)價(jià)結(jié)果,具體算法步驟見文獻(xiàn)[13-19]。假設(shè)對(duì)于一個(gè)測(cè)試樣本x,第l棵決策樹的輸出為ftree,l(x)=i,i=1,2,…,c,即為其對(duì)應(yīng)的輸出值,l=1,2,…,L,L為RF中的決策樹棵數(shù),則RF的輸出可表示為:
fRF(x)=argmax{I(ftree,l(x)=i)},i=1,2,…,c
(12)
式中I(·)——滿足括號(hào)中表達(dá)式的樣本個(gè)數(shù)。
研究表明,決策樹數(shù)量ntree和分裂屬性個(gè)數(shù)mtry的合理選取是提高RF評(píng)價(jià)精度的關(guān)鍵,ntree設(shè)置過小易使RF訓(xùn)練不充分而導(dǎo)致模型“欠擬合”,設(shè)置太大又易使RF過度訓(xùn)練而導(dǎo)致“過擬合”;同樣,mtry設(shè)置太小易使RF過度訓(xùn)練而導(dǎo)致“過擬合”,設(shè)置太大會(huì)使得RF訓(xùn)練不充分而導(dǎo)致模型“欠擬合”?!斑^擬合”“欠擬合”均會(huì)降低RF模型的分類性能[20]。本文基于Matlab軟件環(huán)境和randomforest工具箱,利用RDPSO算法尋優(yōu)RF關(guān)鍵參數(shù)決策樹數(shù)量(ntree)和分裂屬性個(gè)數(shù)(mtry)。
Step1基于水源地水質(zhì)評(píng)價(jià)因子和GB 3838—2002《地表水環(huán)境質(zhì)量標(biāo)準(zhǔn)》分級(jí)閾值構(gòu)造RF模型訓(xùn)練及測(cè)試樣本,進(jìn)行歸一化處理,并合理劃分訓(xùn)練樣本和測(cè)試樣本。設(shè)定決策樹數(shù)量ntree和分裂屬性個(gè)數(shù)mtry搜尋范圍。
Step2確定適應(yīng)度函數(shù)。本文選用訓(xùn)練樣本均方誤差作為適應(yīng)度函數(shù),描述如下:
(13)
Step3設(shè)置RDPSO算法群體大小N,最大迭代次數(shù)T,最大、最小熱敏系數(shù)α,常數(shù)c1和c2。設(shè)置當(dāng)前迭代次數(shù)t=0,初始化粒子位置和速度。
Step4計(jì)算漂移系數(shù)β,依據(jù)式(8)更新群體平均最優(yōu)位置。
Step5基于式(13)計(jì)算目標(biāo)適應(yīng)度值,更新全局最優(yōu)位置G和粒子局部最優(yōu)位置P。
Step6根據(jù)式(10)、(11)更新粒子的速度和位置。
Step7判斷算法迭代終止條件是否滿足,若滿足則轉(zhuǎn)至Step8,否則令t=t+1,并執(zhí)行Step4—7。
Step8輸出最優(yōu)適應(yīng)度值和最優(yōu)粒子個(gè)體空間位置,即待優(yōu)化問題的最優(yōu)適應(yīng)度值及最優(yōu)解。
Step9利用RDPSO算法優(yōu)化獲得的決策樹數(shù)量ntree和分裂屬性個(gè)數(shù)mtry代入RDPSO-RF模型對(duì)測(cè)試樣本進(jìn)行評(píng)價(jià)。
Step10利用測(cè)試好的RDPSO-RF模型對(duì)紅河州17個(gè)水庫(kù)型水源地水質(zhì)進(jìn)行綜合評(píng)價(jià)。
紅河州位于云南省東南部,北連昆明,東接文山,西鄰玉溪,南與越南接壤,北回歸線橫貫東西。紅河州是云南省第四大經(jīng)濟(jì)體,經(jīng)濟(jì)總量和部分社會(huì)經(jīng)濟(jì)指標(biāo)居中國(guó)30個(gè)少數(shù)民族自治州之首。全州國(guó)土面積32 931 km2,轄4市9縣,多年平均水資源量214.03億m3。紅河州4市9縣共有城市集中式飲用水水源地25個(gè),其中,水庫(kù)型城市集中式飲用水水源地17個(gè),河流型8個(gè),龍?zhí)缎偷叵滤?個(gè)。本文以云南省水文水資源局紅河分局2017年監(jiān)測(cè)的17個(gè)水庫(kù)型城市集中式飲用水水源地水質(zhì)綜合評(píng)價(jià)為例進(jìn)行實(shí)例研究,選取對(duì)水體影響較大的NH3-N、TN、CODMn、BOD5、TP、氟化物和糞大腸菌群的年均值作為水質(zhì)綜合評(píng)價(jià)影響因子,利用RDPSO-RF及RDPSO-SVR模型分別對(duì)其進(jìn)行綜合評(píng)價(jià)。水質(zhì)監(jiān)測(cè)數(shù)據(jù)及分級(jí)標(biāo)準(zhǔn)見表1、2。
表1 2017年紅河州各水源地7項(xiàng)水質(zhì)評(píng)價(jià)因子監(jiān)測(cè)值
表2 7項(xiàng)水質(zhì)評(píng)價(jià)因子分級(jí)標(biāo)準(zhǔn)值及限值
注:由于GB 3838—2002《地表水環(huán)境質(zhì)量標(biāo)準(zhǔn)》中氟化物Ⅰ~Ⅲ類和Ⅳ~Ⅴ類分級(jí)閾值相同,不甚合理,筆者對(duì)其分級(jí)閾值進(jìn)行劃分
a) 構(gòu)建樣本。采用隨機(jī)內(nèi)插的方法在7個(gè)評(píng)價(jià)因子分級(jí)標(biāo)準(zhǔn)閾值間生成40組樣本(7個(gè)評(píng)價(jià)因子最小值均設(shè)置為0),共隨機(jī)內(nèi)插得到200組樣本,隨機(jī)選取150組作為訓(xùn)練樣本,50組作為測(cè)試樣本,將1~5作為Ⅰ、Ⅱ、Ⅲ、Ⅳ、Ⅴ類水質(zhì)類別的模擬輸出,并對(duì)各評(píng)價(jià)因子進(jìn)行[0,1]歸一化處理。
b) 參數(shù)設(shè)置。RDPSO算法最大迭代次數(shù)T=100,最大、最小熱敏系數(shù)α分別設(shè)置為0.9、0.3(參考文獻(xiàn)[15-17],并經(jīng)反復(fù)調(diào)試確定,當(dāng)最大、最小熱敏系數(shù)α分別設(shè)置為0.9、0.3時(shí)RDPSO算法尋優(yōu)效果最佳),常數(shù)c1、c2均設(shè)置為2。RF、SVR待優(yōu)化參數(shù)搜索空間設(shè)置為:RF決策樹數(shù)量ntree∈[2,400],分裂屬性個(gè)數(shù)mtry∈[2,10];SVR懲罰因子C∈[0.1,1000],核函數(shù)參數(shù)g∈[0.1,1000],不敏感系數(shù)ε∈[0.0001,1],交叉驗(yàn)證參數(shù)V=5。
c) 模型構(gòu)建及評(píng)價(jià)?;谏鲜龇治龊蚆atlabR2011b軟件環(huán)境,分別構(gòu)建7輸入1輸出的水源地水質(zhì)綜合評(píng)價(jià)模型。選取平均相對(duì)誤差絕對(duì)值MRE和最大相對(duì)誤差絕對(duì)值MaxRE作為評(píng)價(jià)指標(biāo)。
利用上述構(gòu)造樣本對(duì)RDPSO-RF、RDPSO-SVR模型進(jìn)行訓(xùn)練及測(cè)試,測(cè)試結(jié)果見表3。并給出RDPSO-RF、RDPSO-SVR模型的進(jìn)化過程和測(cè)試樣本相對(duì)誤差,見圖1、2。
表3 2種模型樣本評(píng)價(jià)結(jié)果 %
a)RDPSO-RF進(jìn)化過程 b)RDPSO-SVR進(jìn)化過程圖1 RDPSO-RF、RDPSO-SVR模型進(jìn)化過程
圖2 RDPSO-RF、RDPSO-SVR模型監(jiān)測(cè)樣本相對(duì)誤差效果
從表3及圖1、2可以看出,RDPSO-RF模型訓(xùn)練樣本的MRE、MaxRE分別為0.33%、7.26%,優(yōu)于對(duì)比模型RDPSO-SVR的1.12%、14.10%;測(cè)試樣本的MRE、MaxRE分別為0.90%、4.83%,優(yōu)于對(duì)比模型RDPSO-SVR的3.07%、17.40%;最優(yōu)適應(yīng)度值0.000 15,同樣優(yōu)于對(duì)比模型RDPSO-SVR的0.012 51??梢姡瑹o論是訓(xùn)練樣本還是測(cè)試樣本,RDPSO-RF模型評(píng)價(jià)精度均優(yōu)于RDPSO-SVR模型,具有較好的評(píng)價(jià)精度和泛化能力。
利用上述測(cè)試好的RDPSO-RF、RDPSO-SVR模型對(duì)表1中紅河州17個(gè)水庫(kù)型集中式飲用水水源地水質(zhì)進(jìn)行綜合評(píng)價(jià),并與單因子評(píng)價(jià)法評(píng)價(jià)結(jié)果進(jìn)行比較,見表4。利用表2中各評(píng)價(jià)因子等級(jí)閾值輸出值劃分水質(zhì)綜合評(píng)價(jià)等級(jí)。經(jīng)模擬,RDPSO-RF模型劃分依據(jù)為:Ⅰ類<1.39、Ⅱ類∈[1.39,2.17)、Ⅲ類∈[2.17,3.10)、Ⅳ類∈[3.10,4.03)、Ⅴ類∈[4.03,5.00)和劣Ⅴ類≥5.00。RDPSO-SVR模型劃分依據(jù)為:Ⅰ類<1.54、Ⅱ類∈[1.54,2.52)、Ⅲ類∈[2.52,3.18)、Ⅳ類∈[3.18,4.19)、Ⅴ類∈[4.19,4.59)和劣Ⅴ類≥4.59。
表4 紅河州水庫(kù)型集中式飲用水水源地水質(zhì)綜合評(píng)價(jià)結(jié)果及比較
a) RDPSO-RF模型的評(píng)價(jià)結(jié)果比單因子評(píng)價(jià)法評(píng)價(jià)結(jié)果低1個(gè)等級(jí)(除洗灑水庫(kù)低2個(gè)等級(jí)外)。其中,莊寨水庫(kù)評(píng)價(jià)為Ⅳ類,從表1來看,莊寨水庫(kù)總氮Ⅴ類、總磷Ⅲ類、糞大腸菌群和氨氮Ⅱ類,莊寨水庫(kù)存在一定程度的污染,水質(zhì)綜合評(píng)價(jià)為Ⅳ類,符合客觀實(shí)際;五里沖水庫(kù)(總氮Ⅳ類、總磷Ⅱ類、其余Ⅰ類)、菲白水庫(kù)(總氮Ⅳ類、總磷和糞大腸菌群Ⅱ類、其余Ⅰ類)、檳榔寨水庫(kù)(總氮Ⅳ類、總磷Ⅱ類、其余Ⅰ類)、板橋河水庫(kù)(總氮Ⅳ類、高錳鹽指標(biāo)和總磷Ⅱ類、其余Ⅰ類)、洗灑水庫(kù)(總氮Ⅴ類、總磷Ⅱ類、其余Ⅰ類)5個(gè)水源地總氮存一定的超標(biāo)現(xiàn)象,但其余指標(biāo)均不劣于Ⅱ類,總體評(píng)價(jià)為Ⅲ類符合水庫(kù)水質(zhì)現(xiàn)狀;其余11個(gè)水庫(kù)各評(píng)價(jià)因子水質(zhì)不劣于Ⅲ類或Ⅱ類,水質(zhì)綜合評(píng)價(jià)牌Ⅱ~Ⅰ類之間較為客觀。
b) RDPSO-RF模型與RDPSO-SVR模型評(píng)價(jià)結(jié)果基本相同,但大魚塘水庫(kù)、俄垤水庫(kù)和洗灑水庫(kù)評(píng)價(jià)結(jié)果存在差異。對(duì)于大魚塘水庫(kù),總磷Ⅲ類,氨氮、總氮、高錳酸鹽指數(shù)和糞大腸菌群Ⅱ類,水質(zhì)綜合評(píng)價(jià)為Ⅰ類顯然不符合客觀實(shí)際,評(píng)價(jià)為Ⅱ類與水質(zhì)現(xiàn)狀較為接近;對(duì)于俄垤水庫(kù),總磷Ⅲ類,總氮和糞大腸菌群Ⅱ類,水質(zhì)綜合評(píng)價(jià)為Ⅱ類符合水質(zhì)現(xiàn)狀;對(duì)于洗灑水庫(kù),總氮Ⅴ類,總磷Ⅱ類,其余Ⅰ類,其影響水質(zhì)綜合評(píng)價(jià)的因素較少,水質(zhì)綜合模輸出3.06,雖然水質(zhì)綜合評(píng)價(jià)為Ⅲ類,但較接近Ⅳ類臨界值3.10,評(píng)價(jià)結(jié)果符合現(xiàn)狀水質(zhì)。表明RDPSO-RF模型較RDPSO-SVR模型具有更高的評(píng)價(jià)精度。
c) RDPSO-RF模型不但可以科學(xué)、客觀評(píng)價(jià)各集中式飲用水水源地水質(zhì)綜合類別,而且可從模型輸出值大小客觀反映17個(gè)水庫(kù)型水源地水質(zhì)相對(duì)優(yōu)劣程度。
a) 依據(jù)隨機(jī)漂移粒子群(RDPSO)算法良好的全局搜索能力和隨機(jī)森林(RF)強(qiáng)分類集成器二者的優(yōu)點(diǎn),提出RDPSO-RF水源地水質(zhì)綜合評(píng)價(jià)模型,并給出RDPSO-RF模型的構(gòu)建方法和實(shí)現(xiàn)步驟,進(jìn)一步拓展了群體仿生智能算法優(yōu)化RF模型關(guān)鍵參數(shù)的應(yīng)用范疇。
b) 基于GB 3838—2002《地表水環(huán)境質(zhì)量標(biāo)準(zhǔn)》指標(biāo)分級(jí)閾值構(gòu)造樣本對(duì)RDPSO-RF、RDPSO-SVR模型進(jìn)行訓(xùn)練和測(cè)試,并利用測(cè)試好的RDPSO-RF、RDPSO-SVR對(duì)實(shí)例水質(zhì)綜合類別進(jìn)行評(píng)價(jià),樣本構(gòu)造方法和模型檢驗(yàn)方法具有一定的參考意義。
c) 通過RDPSO-RF、RDPSO-SVR模型對(duì)測(cè)試樣本檢驗(yàn)和對(duì)實(shí)例17個(gè)水源地水質(zhì)進(jìn)行綜合評(píng)價(jià),結(jié)果表明,RDPSO-RF模型評(píng)價(jià)精度遠(yuǎn)優(yōu)于RDPSO-SVR模型,具有較好的評(píng)價(jià)精度和泛化能力。將RDPSO-RF模型用于集中式飲用水水源地水質(zhì)綜合評(píng)價(jià)是可行和有效的,可為相關(guān)評(píng)價(jià)研究提供參考。