張云簧 熊玨
摘要:指出了隨著經(jīng)濟(jì)社會的高速發(fā)展,水資源安全問題日益凸顯。竹皮河及其支流作為荊門城區(qū)的納污河流,承接荊門中心城區(qū)90%以上工業(yè)廢水和生活污水,竹皮河及其支流的地表水情況關(guān)乎荊門市的經(jīng)濟(jì)發(fā)展與社會民生。以竹皮河流域為研究對象,通過機(jī)器學(xué)習(xí)的方法對地表水水污染等級進(jìn)行預(yù)報,對竹皮河肖家崗水質(zhì)自動監(jiān)測站的周度數(shù)據(jù)進(jìn)行了分析,運(yùn)用最小二乘支持向量機(jī)對8周的數(shù)據(jù)進(jìn)行了測試。分析結(jié)果可知:只有第六個污染等級預(yù)報錯誤,其他的七個污染等級均預(yù)報正確。這可充分的說明,五個指標(biāo)與水污染等級之間存在一種強(qiáng)烈的對應(yīng)關(guān)系,也說明所使用的LS-SVM算法的正確性和有效性。同時為了對比說明,運(yùn)用RBF神經(jīng)網(wǎng)絡(luò)進(jìn)行了預(yù)測。訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)與LS-SVM預(yù)測法一致。對比預(yù)測結(jié)果發(fā)現(xiàn):RBF神經(jīng)網(wǎng)絡(luò)的預(yù)測結(jié)果與LS-SVM預(yù)測結(jié)果相比,存在預(yù)測精度不高的問題。同時,LS-SVM算法具有簡便的操作性。通過對竹皮河水質(zhì)自動監(jiān)測站評價和預(yù)報,可為將來的優(yōu)化空間布局、調(diào)整產(chǎn)業(yè)結(jié)構(gòu)和劃定重點生態(tài)保護(hù)區(qū)等措施提供理論支撐。
關(guān)鍵詞:竹皮河;水污染;最小二乘支持向量機(jī)
中圖分類號:X703文獻(xiàn)標(biāo)識碼:A 文章編號:1674-9944(2019)16-0100-05
1研究意義
研究選定竹皮河為研究對象,評價各個監(jiān)測站的優(yōu)劣,并對水污染的等級進(jìn)行實時預(yù)報,推進(jìn)解決水污染共同治理機(jī)制建設(shè)。通過實時預(yù)報地表水水污染等級,為處理突發(fā)環(huán)保事件做好預(yù)警,并提供相應(yīng)的應(yīng)對措施,推動健全相關(guān)水域協(xié)調(diào)機(jī)制的運(yùn)行。通過對湖北荊門市境內(nèi)的各個監(jiān)測站進(jìn)行評價和預(yù)報,為未來的優(yōu)化空間布局、調(diào)整產(chǎn)業(yè)結(jié)構(gòu)和劃定重點生態(tài)保護(hù)區(qū)等措施提供行政支撐和保障。
2研究內(nèi)容
通過機(jī)器學(xué)習(xí)的手段,對竹皮河肖家崗水質(zhì)自動監(jiān)測站的數(shù)據(jù)進(jìn)行了深度挖掘。本文欲求得挖掘溶解氧、化學(xué)需氧量、氨氮、水溫和pH值五個指標(biāo)與水污染等級之間的對應(yīng)關(guān)系,通過最小二乘支持向量機(jī)(LSS-VM)對訓(xùn)練數(shù)據(jù)進(jìn)行訓(xùn)練得到了指標(biāo)與污染等級之間的關(guān)系模型,將測試數(shù)據(jù)導(dǎo)人該模型中,即可得到測試數(shù)據(jù)的污染等級。為了說明最小二乘支持向量機(jī)算法的有效性,利用神經(jīng)網(wǎng)絡(luò)算法對數(shù)據(jù)進(jìn)行了同樣的處理,并將結(jié)果進(jìn)行了對比。
3基于LS-SVM的地表水污染等級預(yù)報機(jī)制
3.1數(shù)據(jù)分析與算法流程
3.1.1數(shù)據(jù)分析
通過荊門市環(huán)保局監(jiān)測站獲得了竹皮河肖家崗水質(zhì)自動監(jiān)測站的2017年1月12日到2017年8月20日的31周的周度數(shù)據(jù)。數(shù)據(jù)內(nèi)容包括:pH值、溶解氧(mg/L)、化學(xué)需氧量(mg/L)、氨氮(mg/L)、水溫(℃)和水污染等級。數(shù)值大小為一周之內(nèi)的平均值。圖1為周數(shù)與各個指標(biāo)的關(guān)系圖。
由圖1可知:水污染等級決定于pH值、溶解氧(mg/L)、化學(xué)需氧量(mg/L)、氨氮(mg/L)和水溫(℃)5個指標(biāo)。本文通過機(jī)器學(xué)習(xí)中的最小二乘支持向量機(jī)來挖掘5個指標(biāo)和水污染等級的關(guān)系。
3.1.2算法流程算法流程見圖2。
3.2主成分分析法
對各個監(jiān)測站的數(shù)據(jù)進(jìn)行提取后,可知樣本的特征變量間存在著某些程度的相關(guān)性,即變量間所對應(yīng)的特征信息存在著一定程度的互相涵蓋。主成分分析(Principal Component,Analysis,PCA),這一分析方法有著對所挑選出的樣本特征其提取出的因子進(jìn)行二次篩選的能力,繼而建立數(shù)量較小的全新的變量(理論上當(dāng)提取的特征能夠表現(xiàn)總體特征的85%時,即可認(rèn)為降維成功),使所得到的新變量之間的相關(guān)性更小,各個新變量更能有效地反映其所代表的特征,相比于原變量,極大地降低了特征間的信息冗余,從而成功地提高了對于樣本特征的有效信息和噪聲的有效性,同時也提高了向量機(jī)回歸時的精度。
假設(shè)某變量的樣本數(shù)據(jù)xo,x1,…,xp,運(yùn)用PCA后篩選出m個新變量E1,E2,…,Ex,m
假設(shè)X是具有n個樣本點和p個變量的一個樣本數(shù)據(jù)矩陣,即:
3.3支持向量機(jī)
支持向量機(jī)(Support Vector Machines)開始出現(xiàn)于20世紀(jì)90年代,Vapnik等用于解決數(shù)據(jù)分類問題,隸屬機(jī)器學(xué)習(xí)方法。SVM的作用在于可憑借著有限的樣本信息,平衡著模型的復(fù)雜度和學(xué)習(xí)能力兩個不可調(diào)和的矛盾,尋求獲得最佳推廣能力。當(dāng)支持向量線性可分時,SVM可以根據(jù)使用的支持向量將數(shù)據(jù)分開;當(dāng)支持向量線性不可分時,SVM可以使用核函數(shù)來將數(shù)據(jù)映射到高維空間,從而將數(shù)據(jù)分開。SVM不僅進(jìn)行二分類和多分類,也可以用于回歸?;貧w和分類在本質(zhì)上是一樣的。在回歸問題上,可以簡單的理解為將分類類別替換為回歸數(shù)值。圖3為支持向量機(jī)兩種分類情況。
求解式(6)可得最優(yōu)分類超平面,其中支持矢量滿足距最優(yōu)超平面最近的點λi>O,其余點滿足λi=O,即支持矢量可反映最多的分類信息,其數(shù)量同時可反映出超平面所依賴的獨(dú)立界面。決策函數(shù)表示如下:
3.4最小二乘支持向量機(jī)
在1999年Suykens和Vandewalle提出最小二乘支持向量機(jī)(LS-SVM),LS-SVM對于目標(biāo)函數(shù)的表示,用誤差的平方來表示目標(biāo)函數(shù),用等式條件來表示其約束條件,則面臨的情況即為符合KKT(Karush-Kuhn-Tucker)時,算出一組N維線性方程組的解,最終得到所需的決策函數(shù)。綜上可知,相比SVM在解決大規(guī)模問題方面的表現(xiàn),LS-SVM簡化了整個計算過程的復(fù)雜程度,同時提升了其訓(xùn)練過程的工作效率。
3.5預(yù)報結(jié)果分析及對比
經(jīng)過主成分分析后,將數(shù)據(jù)分為23組訓(xùn)練數(shù)據(jù)和8組預(yù)測數(shù)據(jù)。將23組訓(xùn)練數(shù)據(jù)置入最小二乘支持向量機(jī)中,選擇RBF內(nèi)核為核函數(shù),并將參數(shù)gam設(shè)置為r1.038e+001 1.7435e+006]、sig2設(shè)置為[13.6777357]。經(jīng)過訓(xùn)練后,即可得到5個指標(biāo)和水污染等級的對應(yīng)關(guān)系模型。將8組測試數(shù)據(jù)置入得到的模型,即可得到預(yù)測的水污染等級大小,結(jié)果如圖5所示。