董艷玲
(遼寧省北票市地質(zhì)打井隊(duì),遼寧 北票 122100)
傳統(tǒng)的水質(zhì)評(píng)價(jià)將水質(zhì)指標(biāo)視作水質(zhì)的單一影響因子,并據(jù)此建立多元綜合評(píng)價(jià)線性方程,雖然該方案操作簡(jiǎn)易、可移植性強(qiáng),然而未能確定水質(zhì)指標(biāo)與水體質(zhì)量之間非線性關(guān)系,受共線性或數(shù)據(jù)噪聲影響敏感。隨著機(jī)器學(xué)習(xí)算法的廣泛應(yīng)用,其在水質(zhì)評(píng)價(jià)研究中取得良好效果,有學(xué)者采用BP、RBF、SVM等算法建立了水體質(zhì)量自動(dòng)評(píng)價(jià)模型。隨機(jī)森林算法集合了多個(gè)弱的分類器,其隨機(jī)自助抽取數(shù)據(jù)集實(shí)現(xiàn)自上而下遍歷樹形生長(zhǎng)從而分割至純樣本,有效避免維數(shù)災(zāi)難和過擬合,在各類數(shù)據(jù)挖掘問題中表現(xiàn)良好。鑒于此,本文以北票市為研究區(qū),闡釋了基于隨機(jī)森林算法的水質(zhì)評(píng)價(jià)模型建模過程與應(yīng)用,以期為區(qū)域水質(zhì)綜合評(píng)價(jià)提供參考依據(jù)。
北票市位于我國(guó)東北渤海外流區(qū)、大凌河中游,區(qū)域面積4469km2。區(qū)域自東北向西南傾斜,高程介于0~1074m,以丘陵為主,平原盆地狹小而破碎。由于位居歐亞大陸東岸中高緯度,形成溫帶季風(fēng)性氣候,氣候溫涼、雨熱同期,多年平均氣溫8.6℃,年平均降水量509mm,無霜期153d。生產(chǎn)生活用水以河水為主,地表水資源總量為17343萬m3,地下水資源量達(dá)16090萬m3。
以北票市水源地為研究區(qū),結(jié)合區(qū)域水文情勢(shì)、水源地分布特征,布設(shè)了36個(gè)水樣,于2017年10月天氣穩(wěn)定時(shí)采集水體標(biāo)本,并將樣品封裝后送至實(shí)驗(yàn)室化驗(yàn)分析。
測(cè)定的指標(biāo)分別有pH值,總硬度,NO-3,NH+4,SO24-,Na+,Cl-等,依次來反映區(qū)域水體質(zhì)量。測(cè)定方法安裝SL219—2003《水環(huán)境檢測(cè)規(guī)范》執(zhí)行。
隨機(jī)森林(RandomForest,RF)是由N棵分類回歸樹{p(x,Θn),k=1,2,…,N}集成而形成的組合器算法。其基于隨機(jī)子空間(random subspace) 理 論 和 自 助 聚 集(Bootstrap aggregating) 法對(duì)隨機(jī)向量(X,Y){Θn,k=1,2,…,N}進(jìn)行隨機(jī)選取并進(jìn)行樹形生長(zhǎng)成為決策樹,設(shè)X,Y分別為獨(dú)立隨機(jī)向量(X,Y)中的隨機(jī)子集中的輸入、輸出向量,對(duì)于預(yù)測(cè)樣本的輸出p(h)存在泛化誤差:
隨機(jī)森林輸出結(jié)果是基于對(duì)N棵回歸樹{p(Θ,Xn),k=1,2,…,N}取均值得到,當(dāng)k→∞時(shí),則有:
其泛化誤差(RE)為:
對(duì)于所有單棵樹平均泛化誤差為:
式中為殘差,且單棵樹Θ之間相對(duì)獨(dú)立。
待其構(gòu)成決策樹后節(jié)點(diǎn)的屬性變量值由隨機(jī)選中幾個(gè)屬性子集中產(chǎn)生。對(duì)于待測(cè)試的樣本,隨機(jī)森林通過自助聚集(Bootstrap aggregating)讓每棵樹進(jìn)行投票,票數(shù)最高類別即為輸出結(jié)果,即:
式中 P(x)為隨機(jī)森林組合模型結(jié)果;pi為單棵樹分類模型;I為指示函數(shù)。該算法核心是構(gòu)建回歸決策樹組合模型,單樹由根節(jié)點(diǎn)遍歷向下分裂,使其自由生長(zhǎng)而不剪枝處理,N棵樹集成即為隨機(jī)森林[1-2]。
2.2.1 水質(zhì)評(píng)價(jià)標(biāo)準(zhǔn)
水質(zhì)評(píng)價(jià)分級(jí)標(biāo)準(zhǔn)是進(jìn)行水質(zhì)評(píng)價(jià)的依據(jù),該標(biāo)準(zhǔn)需要具有公開性、統(tǒng)一性,以及反映水體質(zhì)量漸進(jìn)變化。參照相關(guān)學(xué)者的研究經(jīng)驗(yàn),以《水環(huán)境質(zhì)量標(biāo)準(zhǔn)》為依據(jù),選取相應(yīng)指標(biāo)水質(zhì)上下限值,如表1。采用隨機(jī)內(nèi)插法于每一水質(zhì)等級(jí)區(qū)間內(nèi)生成200組樣本數(shù)據(jù),5個(gè)水質(zhì)等級(jí)共計(jì)有1000組樣本數(shù)據(jù)。隨機(jī)選取其中的750組作為訓(xùn)練樣本,另外250組為測(cè)試樣本, 分布以數(shù)字1,2,3,4,5表示水質(zhì)等級(jí)I,II,III,IV,V。以水質(zhì)指標(biāo)數(shù)據(jù)為輸入變量,以水質(zhì)等級(jí)為輸出變量,對(duì)于預(yù)測(cè)輸出值,將其按照四舍五入法進(jìn)行歸類。
表1 水環(huán)境質(zhì)量評(píng)價(jià)標(biāo)準(zhǔn)
2.2.2 模型參數(shù)優(yōu)化
隨機(jī)森林算法中存在ntree和mtry兩個(gè)敏感參數(shù),前者為決策樹數(shù)量,影響著算法運(yùn)行速度與分類效果;后者為分裂屬性集中屬性個(gè)數(shù),影響著結(jié)點(diǎn)分裂屬性賦值;為確立最優(yōu)模型,通常采用網(wǎng)格搜索法進(jìn)行參數(shù)設(shè)置[2-3]。隨著參數(shù)變化,模型精度略有不同如圖1。模型精度隨著mtry變化,精度呈U型趨勢(shì),其在mtry=3時(shí),OOB達(dá)到最小,為0.0298,表明mtry最優(yōu)參數(shù)為3。隨著ntree增加,error總體呈減小趨勢(shì),當(dāng)ntree大于500時(shí),error較小而穩(wěn)定,綜合考慮誤差變化趨勢(shì),將其設(shè)置為600。
圖1 水質(zhì)評(píng)價(jià)模型參數(shù)設(shè)置
2.2.3 OOB重要性
隨機(jī)森林建模過程中能夠排除變量間共線性、數(shù)據(jù)噪聲影響,從而識(shí)別變量的重要性,依據(jù)其重要性分值大小,可以判定水質(zhì)評(píng)價(jià)模型中的各指標(biāo)因子的影響。隨機(jī)森林算法中OOB是變量重要性度量方法之一,在單棵樹中Gini系數(shù)為節(jié)點(diǎn)分裂過程中各節(jié)點(diǎn)的樣本純度,其公式[4-5]:
OOB=2p(1-p)
式中 p為分配到樹節(jié)點(diǎn)k的正樣本的比例,節(jié)點(diǎn)負(fù)樣本比例為(1-p),OOB為系數(shù)值。在隨機(jī)森林中模型中,一個(gè)變量的重要性為用該特征變量進(jìn)行分裂時(shí),所有節(jié)點(diǎn)上從父節(jié)點(diǎn)到子節(jié)點(diǎn)的OOB值減少量的和(Mean Decrease Gini,MDG),其分值越高,表明該變量重要性越大。
將測(cè)定的水體樣本數(shù)據(jù)按照3+δ方法進(jìn)行篩選,移除特異值。在Excel2016中進(jìn)行基本統(tǒng)計(jì)處理,統(tǒng)計(jì)36個(gè)樣本水質(zhì)的極值、平均值和標(biāo)準(zhǔn)差。隨機(jī)森林建模和水質(zhì)評(píng)價(jià)在Rstudio中完成,水質(zhì)評(píng)價(jià)空間分布結(jié)果在GIS平臺(tái)Arcgis10.3中進(jìn)行。
表2為北票市36個(gè)水體樣點(diǎn)水質(zhì)指標(biāo)統(tǒng)計(jì)特征。
表2 北票市水源地水質(zhì)特征 單位:mg/L
由表2可知,本區(qū)水體pH值屬于中性,介于7.01~7.65之間,達(dá)到I類水質(zhì)要求。Cl-含量大部分屬于I類,部分為II類, 超標(biāo)率為4.21%;,,Na+屬于I,II類,超標(biāo)率為6.75%,2.38%,3.17%,但總體達(dá)到I類水質(zhì)要求。NO-3含量在0~2.215mg/L之間,滿足I類水質(zhì)標(biāo)準(zhǔn)。研究區(qū)水體總硬度較小,為54.21~167.52mg/L,平均值為86.24mg/L。水體中Cl-含量為24.12mg/L,NO-3為0.87mg/L,僅為0.085mg/L,和Na+依次為24.64,54.06mg/L,分別低于區(qū)域水環(huán)境背景值。
應(yīng)用前述隨機(jī)森林模型對(duì)研究區(qū)36個(gè)水質(zhì)樣點(diǎn)進(jìn)行綜合評(píng)價(jià),得到評(píng)價(jià)結(jié)果如圖2。
圖2 北票市水源地水質(zhì)空間分布
由圖2可知,36個(gè)樣點(diǎn)中5個(gè)樣點(diǎn)屬于II類水質(zhì),占樣點(diǎn)總數(shù)的13.89%,有31個(gè)樣點(diǎn)屬于I類水質(zhì),占樣點(diǎn)總數(shù)的86.11%。I類水質(zhì)呈片狀分布,分布范圍較廣,表明北票市水源地整體水質(zhì)較好。這是由于這些水源地位于區(qū)域河流中上游,源地原生態(tài)環(huán)境良好、人為活動(dòng)較弱,除了受自然環(huán)境過程影響外,幾乎為遭受破壞。II類水質(zhì)呈斑點(diǎn)狀離散分布,主要由于部分樣點(diǎn)水質(zhì)指標(biāo)略有超標(biāo),雖然II類水質(zhì)樣點(diǎn)較少,但是作為重要水源地,仍然應(yīng)當(dāng)加強(qiáng)水源防護(hù)。
隨機(jī)森林算法通過自助隨機(jī)抽樣規(guī)避了多維變量間線性干擾,其對(duì)各因子重要性的識(shí)別是無偏的。應(yīng)用隨機(jī)森林OOB對(duì)水質(zhì)評(píng)價(jià)模型中各項(xiàng)指標(biāo)因子重要性分值進(jìn)行估計(jì),水資源承載力對(duì)各指標(biāo)的MDG重要性分值如圖3。
圖3 指標(biāo)因子
由圖3可知,NO-3的MDG值最大,為0.784,表明其是北票市水源地水質(zhì)的關(guān)鍵影響因子;NH+4的MDG值次之,為0.651,其對(duì)水質(zhì)具有重要影響;SO24-,Na+,Cl-的MDG介于0.438~0.321之間,對(duì)水資源承載力有較大影響;而pH值和總硬度的MDG值較小,僅為0.274,0.241,其對(duì)水質(zhì)的影響較低。
對(duì)于算法模型精度的衡量,可采用決定系數(shù)(R2)、平均絕對(duì)誤差(MSE)表示,一般認(rèn)為R2接近于1,MSE接近于0時(shí),表明算法擬合度高,模型效果較好,鑒于此計(jì)算了訓(xùn)練樣本和測(cè)試樣本的決定系數(shù)與MSE,并以BP和SVM算法為對(duì)比,結(jié)果如表3。
表3 隨機(jī)森林算法擬合結(jié)果
就RF算法來看,訓(xùn)練樣本的R2,為0.9965,MSE值均較小,檢測(cè)樣本R2為0.9875,MSE為0.0150,表明該算法精度可靠,可用于對(duì)目標(biāo)樣本的預(yù)測(cè)。就BP算法來看,訓(xùn)練樣本的R2,為0.9412,MSE值為0.0184,檢測(cè)樣本R2為0.9214,MSE為0.0224;SVM算法顯示訓(xùn)練樣本的R2為0.9895,MSE為0.0071, 檢測(cè)樣本R2為0.9632,MSE為0.0169。訓(xùn)練模型存在一定誤差,將其代入檢測(cè)樣本進(jìn)行測(cè)試時(shí),由于誤差傳遞而精度降低,故而檢測(cè)樣本的精度略小于訓(xùn)練樣本。綜合分析,基于隨機(jī)森林算法的水質(zhì)評(píng)價(jià)模型精度由于BP和SVM算法,表明隨機(jī)森林算法在水質(zhì)評(píng)價(jià)中具有一定應(yīng)用性。
(1)運(yùn)用隨機(jī)森林原理和水質(zhì)評(píng)價(jià)標(biāo)準(zhǔn),采用隨機(jī)數(shù)的方法生成樣本數(shù)據(jù),據(jù)此建立基于森林的水質(zhì)評(píng)價(jià)模型。訓(xùn)練好的模型可移植于其他目標(biāo)對(duì)象的評(píng)價(jià),并具有智能化特性。
(2)隨機(jī)森林對(duì)于水質(zhì)因子的識(shí)別是無偏的,結(jié)果顯示,北票市水質(zhì)的關(guān)鍵影響因素是NO-3,今后應(yīng)予以防治。
(3)研究區(qū)水質(zhì)屬于I類,NH+4,SO24-,Na+略有超標(biāo),但超標(biāo)率較低。
(4)該方案的應(yīng)用性在于模型簡(jiǎn)潔、學(xué)習(xí)速率快,對(duì)維度較高和數(shù)據(jù)噪聲容忍度好,能夠排除內(nèi)部維度間相互影響,通過袋外誤差對(duì)象模型效果進(jìn)行評(píng)估,相較于BP和SVM等傳統(tǒng)機(jī)器學(xué)習(xí)方法,具有一定優(yōu)勢(shì)。
[1]Boulesteix A L, Bender A, Lorenzo Bermejo J, et al.Random forest Gini importance favours SNPs with large minor allele frequency: impact, sources and recommendations[J].Briefings in Bioinformatics, 2012, 13(3):292.
[2]Wolfslehner B, Vacik H.Evaluating sustainable forest management strategies with the Analytic Network Process in a Pressure-State-Response framework [J].Journal of Environmental Management, 2008, 88(1):1-10.
[3]徐元鳳.ISO發(fā)布關(guān)于水安全的國(guó)際專題組協(xié)議[J].中國(guó)標(biāo)準(zhǔn)化, 2008(6):78-78.
[4]Sabatia C O, Burkhart H E.Predicting site index of plantation loblolly pine from biophysical variables[J].Forest Ecology&Management, 2014, 326:142-156.
[5]吳敏,溫小虎,馮起,等.基于隨機(jī)森林模型干旱綠洲張掖盆地地下水水質(zhì)評(píng)價(jià)[J].中國(guó)沙漠,2018,38(3):1-7.