■ 錢黨鉗
(廣東省地質(zhì)災(zāi)害應(yīng)急搶險(xiǎn)技術(shù)中心廣東廣州510425)
支持向量機(jī)在珠江流域片地下水水質(zhì)評價中的應(yīng)用
■錢黨鉗
(廣東省地質(zhì)災(zāi)害應(yīng)急搶險(xiǎn)技術(shù)中心廣東廣州510425)
本文采用支持向量機(jī)方法,結(jié)合珠江流域片的地下水實(shí)際特征與水質(zhì)監(jiān)測數(shù)據(jù),選取pH、Mn、鐵離子、氨氮、F-、NO3-、NO2-七項(xiàng)指標(biāo)作為評價因子,對區(qū)域地下水水質(zhì)進(jìn)行評價。研究結(jié)果表明:區(qū)內(nèi)地下水多為I類和Ⅲ類水,少部分為Ⅴ類水,且水質(zhì)較差的地區(qū)集中在一些地下水開采量較大的地區(qū),這說明地下水的開采使淺層地下水受到不同程度的污染,對地下水環(huán)境造成了不良影響,應(yīng)引起有關(guān)部門關(guān)注。
向量機(jī)水質(zhì)應(yīng)用
地下水污染是當(dāng)今世界面臨的亟待解決的水環(huán)境問題之一。地下水水質(zhì)評價是正確認(rèn)識和研究地下水環(huán)境問題的重要內(nèi)容,評價工作目的在于準(zhǔn)確反映區(qū)域地下水環(huán)境質(zhì)量和污染狀況并預(yù)測未來的水質(zhì)趨勢,是地下水環(huán)境管理保護(hù)和治理恢復(fù)的基礎(chǔ)性工作之一。
在進(jìn)行地下水水質(zhì)評價過程中,選擇正確合理的、能夠準(zhǔn)確反映水環(huán)境質(zhì)量狀況的評價方法至關(guān)重要。支持向量機(jī)(Support Vector Machine,SVM)是近年興起的一種新算法,由于其優(yōu)越的分類性能與計(jì)算速度,在許多領(lǐng)域得到了應(yīng)用和研究。本論文在已有成果的基礎(chǔ)上,研究支持向量機(jī)在珠江流域地下水水質(zhì)評價中的應(yīng)用,將支持向量機(jī)算法引入到地下水水質(zhì)評價過程中,對區(qū)域地下水水質(zhì)進(jìn)行評價。通過基于支持向量機(jī)的地下水水質(zhì)評價,可為珠江流域片地下水資源的開發(fā)利用和管理提供科學(xué)的依據(jù)。
SVM是Vapnik于20世紀(jì)90年代開發(fā)的一種非線性回歸預(yù)測方法,其思想主要是通過非線性變換將輸入向量映射到高維空間,在高維空間中尋求最優(yōu)分類面。在映射過程中引入的函數(shù)稱為核函數(shù)。
1.1線性支持向量機(jī)分類
SVM核心問題為尋求最優(yōu)超平面,其基本思想可用圖1的情況來說明:H為最優(yōu)分類超平面可將兩類樣本正確無誤的分開,而且使H1與H2之間的分類間隔最大,距最優(yōu)分類超平面最近的向量稱為支持向量(SV)(范昕煒,2003)。
圖1 線性可分示意圖
設(shè)線性可分樣本集為(xi,yi),i=1,2,…,n;類別標(biāo)號y={1, -1},超平面程為:
最優(yōu)判斷函數(shù)為:
1.2非線性支持向量機(jī)分類及核函數(shù)
對于非線性問題,主要是依據(jù)Cover定理(梁宏霞,2009),可通過核函數(shù)的內(nèi)積變換,將輸入向量轉(zhuǎn)化為某個高維空間中的線性問題,在高維空間中尋求最優(yōu)分類超平面。
首先,在約束條件上加入一個松弛變量ξi≥0,則優(yōu)化問題為:
支持向量機(jī)的這種非線性變換通過定義適當(dāng)?shù)暮撕瘮?shù)來實(shí)現(xiàn),選擇不同的核函數(shù)就構(gòu)成不同的支持向量機(jī),常用的核函數(shù)有以下4類:(1)線性核函數(shù)(linear);(2)多項(xiàng)式內(nèi)核(polynomial);(3)徑向基函數(shù)核函數(shù)(RBF);(4)二層神經(jīng)網(wǎng)絡(luò)核函數(shù)(sigmoid核函數(shù))。
1.3多類支持向量分類
以上介紹的支持向量機(jī)僅能解決二分類問題,在實(shí)際應(yīng)用中常常會遇到多分類問題,多分類問題有很多解決方法,常見的多分類器有:一對多分類器,一對一分類器,支持向量機(jī)決策樹等(曹曉強(qiáng)等,2008)。
(1)一對多方法。是最早實(shí)現(xiàn)SVM對多類別進(jìn)行分類的方法。其基本想法是將所有的樣本變成一個二分類的問題進(jìn)行解決,即選取其中的一種類別樣本作為一個類別,剩下的類別樣本作為另一個類別。此種算法的優(yōu)點(diǎn)是對于k類問題,只需訓(xùn)練k個子分類器,得到的分類函數(shù)個數(shù)較少,分類速度也隨之加快。但是因?yàn)槊總€分類器的訓(xùn)練都是把全部樣本作為訓(xùn)練樣本,就要求多個變量來實(shí)現(xiàn)二次規(guī)劃問題,導(dǎo)致訓(xùn)練時間加長。(2)一對一方法。具體做法是在整個樣本中隨意地抽取2類進(jìn)行兩兩配對,就把多分類問題轉(zhuǎn)化成二分類問題來進(jìn)行訓(xùn)練學(xué)習(xí),一般采用投票來完成多分類的識別。其優(yōu)點(diǎn)在于對結(jié)果的推廣進(jìn)行了分析,其缺點(diǎn)在于測試的速度很慢,因?yàn)閷⒄麄€樣本轉(zhuǎn)化為二分類后就會產(chǎn)生有過多的子分類器,在測試時要對每兩類一一進(jìn)行比較。不過與一對多的方法對比,一對一方法所需訓(xùn)練的時間還是要短的。(3)支持向量機(jī)決策樹。通常和二叉樹結(jié)合起來,構(gòu)成多類別的識別器。該方法的缺點(diǎn)是如果在某個節(jié)點(diǎn)上發(fā)生了分類錯誤將會把錯誤延續(xù)下去,該節(jié)點(diǎn)后續(xù)下一級點(diǎn)上的分類就失去了意義。
2.1研究區(qū)概況
珠江流域片(簡稱珠江片),包括珠江流域、韓江流域以及廣東、廣西沿海諸河、云南和廣西的國際河流范圍,涉及云南、貴州、廣西、廣東、海南、湖南、江西、福建8個?。ㄗ灾螀^(qū)),地理位置為E102° 06′~117°18′、N43°41′~26°49′,流域面積為79.63萬Km2,約占我國國土總面積的8.3%。區(qū)域?qū)賮啛釒Ъ撅L(fēng)氣候,溫和多雨,多年平均溫度在14~22°C之間,降雨量充沛,多年平均年降雨量1525.1毫米。
流域地處珠江三角洲斷陷區(qū),屬平沙斷裂和橫琴—三灶斷裂向的梯形斷塊。總體地形由西北向東南傾斜,主要山脈呈北東向分布。區(qū)內(nèi)充沛的降雨,為地下水補(bǔ)給創(chuàng)造了良好條件。地下水類型主要包括潛水、承壓水和基巖裂隙水。潛水主要賦存于中粗砂和粘土質(zhì)粗砂礫中;承壓水主要賦存于粗礫砂層及細(xì)砂中;基巖裂隙水賦存于強(qiáng)風(fēng)化花崗巖及中風(fēng)化花崗巖裂隙中,具有微承壓性。
2.2數(shù)據(jù)資料
本研究所采用的水質(zhì)資料主要來源于廣西、廣東和海南等省的地下水監(jiān)測數(shù)據(jù),水質(zhì)監(jiān)測數(shù)據(jù)見表1。
表1 地下水水質(zhì)監(jiān)測數(shù)據(jù)表 mg/L
3.1評價因子及樣本集數(shù)據(jù)處理
首先參照地下水環(huán)境質(zhì)量標(biāo)準(zhǔn),實(shí)驗(yàn)性的構(gòu)造隨機(jī)數(shù)據(jù) (用Matlab中的Rand()函數(shù)來實(shí)現(xiàn)),最后選擇合乎要求的數(shù)據(jù)作為訓(xùn)練樣本。結(jié)合珠江流域水質(zhì)特點(diǎn)及地下水水質(zhì)標(biāo)準(zhǔn),在水質(zhì)評價中選擇pH、Mn、鐵離子、氨氮、F-、NO3-、NO2-七項(xiàng)指標(biāo)作為評價因子。
由于水質(zhì)評價中各項(xiàng)指標(biāo)的量級不同,須在評價之前進(jìn)行數(shù)據(jù)的歸一化處理,此處采用極差化處理方法。對訓(xùn)練樣本集合按每類中樣本數(shù)量進(jìn)行排序,樣本數(shù)量最多的為第一類,以此類推;構(gòu)造支持向量機(jī)的訓(xùn)練樣本集合,如果訓(xùn)練的是第k個支持向量機(jī),則其訓(xùn)練樣本集合為
3.2評價模型
支持向量機(jī)水質(zhì)評價按以下基本步驟進(jìn)行。
(1)核函數(shù)及懲罰系數(shù)C的選擇:
使用LibSVM軟件包進(jìn)行參數(shù)推求,通過改變其中的參數(shù)來實(shí)現(xiàn)核函數(shù)、懲罰系數(shù)C等的選擇。最終選擇懲罰系數(shù)在100~500,與核函數(shù)組合,吻合率最高為96.8661%,對應(yīng)的懲罰系數(shù)為500,核函數(shù)選擇為高斯核函數(shù),即
(2)將學(xué)習(xí)樣本xi和所對應(yīng)的分類值yi帶入式(5),并求解最大值。求出非零并小于C的拉格朗日算子對應(yīng)樣本作為支持向量。
(3)將支持向量重新組合,并輸入學(xué)習(xí)機(jī)中,求出學(xué)習(xí)機(jī)核函數(shù)后,將待預(yù)測的數(shù)據(jù)輸入評價模型中,得到評價結(jié)果。
3.3模型應(yīng)用及結(jié)果
以采樣分析數(shù)據(jù)為例進(jìn)行實(shí)證研究,對研究區(qū)水質(zhì)進(jìn)行評價,評價結(jié)果見表2。
表2 SVM模型運(yùn)行結(jié)果
從上表中可以看出,本區(qū)地下水水質(zhì)多屬于III類,占總數(shù)的59.1%,I級水占全部評價點(diǎn)的21.74%,特別值得關(guān)注的是水質(zhì)較差的地區(qū)集中在廣西北海和廣東湛江一些地下水開采量較大的地區(qū),這說明地下水的開采使區(qū)域淺層地下水受到不同程度的污染,應(yīng)引起有關(guān)部門的關(guān)注。
(1)本文建立了地下水水質(zhì)量評價的支持向量機(jī)模型,并應(yīng)用該模型對研究區(qū)地下水水質(zhì)數(shù)據(jù)進(jìn)行了評價,評價結(jié)果表明,本區(qū)地下水水質(zhì)普遍良好,水質(zhì)較差的地區(qū)集中在廣西北海和廣東湛江一些地下水開采量較大的地區(qū),這說明地下水的開采使淺層地下水受到不同程度的污染,對地下水環(huán)境造成了不良影響。
(2)通過本次評價也發(fā)現(xiàn),在利用支持向量機(jī)進(jìn)行訓(xùn)練的過程中,對訓(xùn)練數(shù)據(jù)的選擇沒有統(tǒng)一的規(guī)則,而具還存在一定的的隨機(jī)性,這對最后的訓(xùn)練結(jié)果產(chǎn)生一定的影響,有待進(jìn)一步改進(jìn)。
[1]范昕煒.支持向量機(jī)算法的研究及其應(yīng)用[D].杭州:浙江大學(xué),2003.
[2]梁宏霞.支持向量機(jī)模型研究及應(yīng)用[D].大連:遼寧師范大學(xué),2009.
[3]曹曉強(qiáng),黃學(xué)敏,劉勝榮,等.微波改性活性炭對甲苯吸附性能的實(shí)驗(yàn)研究 [J].西安建筑科技大學(xué)學(xué)報(bào), 2008,40(2):249-253.
P641[文獻(xiàn)碼]B
1000-405X(2016)-3-2-2
錢黨鉗(1965~),男,中專學(xué)歷,助理工程師,研究方向?yàn)樗きh(huán)。