鄧偉萍 桂超 汪波 石黎 關(guān)培超
摘? 要:針對(duì)水質(zhì)評(píng)估因子的模糊性和非線性特征,且水質(zhì)樣本小類(如高污染水質(zhì)類)因樣本量少而容易導(dǎo)致誤分的問題,深入研究了支持向量機(jī)(SVM)這一善于解決非線性問題的智能模型,設(shè)計(jì)了一種多寬度復(fù)合高斯核的支持向量機(jī)模型。該模型通過多個(gè)復(fù)合高斯核擴(kuò)大和控制核函數(shù)寬度,以此擴(kuò)大樣本間歐氏距離與差異,以解決小類的誤分問題。運(yùn)用MATLAB平臺(tái)對(duì)2017 年全國(guó)98 個(gè)重點(diǎn)斷面水質(zhì)周報(bào)數(shù)據(jù)進(jìn)行算法對(duì)比實(shí)驗(yàn),結(jié)果證實(shí)多寬度核評(píng)估模型較好地提升了SVM的分類精度,對(duì)水質(zhì)分類問題是可行有效的,對(duì)其他小樣本分類問題也有一定的借鑒作用。
關(guān)鍵詞:水質(zhì)評(píng)估;多寬度高斯核; 支持向量機(jī);參數(shù)尋優(yōu)
中圖分類號(hào):TP391.4? ? ?文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):2096-1472(2022)-01-47-03
Abstract: In view of the ambiguity and non-linear characteristics of water quality assessment factors, and the problem of small water quality samples (such as high-polluted water quality) that are easy to cause misclassification due to the small sample size, support vector machine (SVM), a smart model which is good at for solving nonlinear problems, is deeply studied. This paper proposes to design a support vector machine model with a multi-width compound Gaussian kernel. The proposed model expands and controls the width of the kernel function through multiple compound Gaussian kernels to expand the Euclidean distance and difference between samples, so that the problem of misclassification of small classes can be solved. The MATLAB platform is used to conduct algorithm comparison experiments on the water quality weekly report data of 98 key sections across China in 2017. The results prove that the multi-width kernel assessment model improves the classification accuracy of SVM, which is feasible and effective for water quality classification problems. It also provides a reference for problems of other small sample classification.
Keywords: water quality assessment; multi-width Gaussian kernel; support vector machine; parameter optimization
1? ?引言(Introduction)
隨著經(jīng)濟(jì)的高速發(fā)展,我國(guó)的水資源污染狀況也愈發(fā)嚴(yán)峻,局部地區(qū)的水質(zhì)惡化事件時(shí)有發(fā)生。因此,實(shí)時(shí)監(jiān)測(cè)和評(píng)估地表水的質(zhì)量與變化,將為環(huán)境決策、工農(nóng)業(yè)生產(chǎn)服務(wù)提供依據(jù),是防止污染與合理利用水資源的基礎(chǔ)[1]。水質(zhì)評(píng)估分單因子評(píng)估與多因子評(píng)估,在沒有突發(fā)水污染事件的情況下,對(duì)斷面進(jìn)行長(zhǎng)期監(jiān)測(cè)與評(píng)估時(shí)一般采用多因子評(píng)估方法。
鑒于水質(zhì)評(píng)估中各評(píng)估因子的模糊不確定性和非線性特征,有學(xué)者采用智能計(jì)算方法進(jìn)行水質(zhì)評(píng)估。陳海洋等人[2]通過構(gòu)建多個(gè)子分類器的決策樹支持向量機(jī)模型評(píng)估水質(zhì)的多分類問題;馬創(chuàng)等人[3]使用遺傳算法與支持向量機(jī)建立自適應(yīng)權(quán)重水質(zhì)預(yù)測(cè)模型;方國(guó)華等人[4]采用粒子群算法,計(jì)算水量與水質(zhì)聯(lián)合配置模型;石晴宜等人[5]采用模糊神經(jīng)網(wǎng)絡(luò)計(jì)算洪澤湖入湖水質(zhì)等問題;XIA等人[6]采用粒子群、蜂群、支持向量機(jī)等多種混合優(yōu)化算法評(píng)定水質(zhì)富營(yíng)養(yǎng)化分級(jí)。上述方法解決了水質(zhì)評(píng)估的多分類問題,也對(duì)參數(shù)尋優(yōu)的過程進(jìn)行了優(yōu)化,但對(duì)分類過程中的小樣本類別的誤分問題沒有側(cè)重考慮,本文決定對(duì)支持向量機(jī)(Support Vector Machine, SVM)中的核函數(shù)進(jìn)行改進(jìn),重點(diǎn)解決多因子分類中小樣本訓(xùn)練不夠易誤分的問題。
2? ?支持向量機(jī)(Support Vector Machine)
支持向量機(jī)分類模型的原理是通過核函數(shù)將樣本點(diǎn)映射到多維特征空間,通過構(gòu)造最優(yōu)分類超平面,使得超平面與不同類樣本集之間的距離最大,從而達(dá)到最大的泛化能力。
SVM標(biāo)準(zhǔn)算法中,設(shè)有訓(xùn)練樣本集為,
與分別表示兩類不同的樣本;樣本集可被一超平面,即沒有錯(cuò)誤地分開,對(duì)任意一個(gè)訓(xùn)練樣本都有:
使分類間隔最大的分類面稱為最優(yōu)分類超平面,尋找過程轉(zhuǎn)化為求如下一個(gè)二次規(guī)劃問題:,滿足約束條件(1)。采用LaGrange轉(zhuǎn)換,將二次規(guī)劃問題轉(zhuǎn)為如下一個(gè)對(duì)偶問題:
稱為核函數(shù),將高維特征空間中內(nèi)積運(yùn)算轉(zhuǎn)化為低維模式空間上一個(gè)簡(jiǎn)單的函數(shù)計(jì)算。核函數(shù)中以高斯核函數(shù)(Radial Basis Function, RBF)運(yùn)用最廣泛:
其中,為高斯分布的寬度。
3? 多寬度高斯核支持向量機(jī)(Multi-width Gaussian kernel Support Vector Machine)
高斯核支持向量機(jī)中可調(diào)的參數(shù)僅有核寬度,樣本映射到特征空間后其分布是不均勻的,容易導(dǎo)致支持向量機(jī)模型在樣本集中的區(qū)域產(chǎn)生過學(xué)習(xí)現(xiàn)象,而在樣本稀疏區(qū)又學(xué)習(xí)不足,從而產(chǎn)生錯(cuò)分問題或陷入局部最優(yōu)解現(xiàn)象。針對(duì)此類問題,多寬度高斯核被提出[7],其核函數(shù)是一種復(fù)合函數(shù),形式如下:
通過二項(xiàng)式定理展開后:
形成一種復(fù)合核函數(shù),是由一系列不同寬度的高斯核構(gòu)成,每個(gè)核的寬度為,影響單個(gè)高斯核的空間收放程度。文獻(xiàn)[8]闡述了當(dāng)時(shí),二項(xiàng)式展開式的前面若干個(gè)高斯核將被放大,影響程度高,權(quán)重加大;反之,當(dāng)時(shí),二項(xiàng)式展開式的后面若干個(gè)高斯核將被放大,權(quán)重加大。
多個(gè)不同寬度的高斯核累加在一起,通過多參數(shù)調(diào)節(jié),能解決其可調(diào)參數(shù)單一容易導(dǎo)致的過學(xué)習(xí)問題,提高單一高斯核函數(shù)的抗干擾性和泛化能力;常量因子將點(diǎn)集之間的矢量距離放大了,這也將擴(kuò)大樣本點(diǎn)映射在特征空間的差異,從而提高分類器的效率[9]。
多寬度核的參數(shù)增加,給參數(shù)尋優(yōu)增加了困難[10]?,F(xiàn)討論參數(shù)對(duì)核函數(shù)的影響,對(duì)式(5)做簡(jiǎn)化處理:
當(dāng)時(shí),是普通的高斯核;增大,核寬度明顯縮小,有利于函數(shù)收斂;當(dāng)增大時(shí),等同于增大,核寬度縮小;當(dāng)時(shí),核函數(shù)徑向作用范圍被顯著拉伸,加大樣本在特征空間的距離差異,有利于分類,三個(gè)參數(shù)需要結(jié)合樣本進(jìn)行協(xié)調(diào)[11]。
4? ?實(shí)例驗(yàn)證(Example verification)
本文以全國(guó)主要流域重點(diǎn)斷面水質(zhì)自動(dòng)檢測(cè)周報(bào)[12]作為數(shù)據(jù)源,選取了2017 年第1 周、第8 周、第31 周、第44 周不同時(shí)期的水質(zhì)監(jiān)測(cè)數(shù)據(jù)。以PH值、溶解氧(DO)、高錳酸鹽指數(shù)(CODMn)與氨氮(NH3-N)四項(xiàng)因子作為水質(zhì)評(píng)估指標(biāo)。2017 年有效斷面監(jiān)測(cè)點(diǎn)為98 個(gè),包括長(zhǎng)江、黃河、淮河、松花江、太湖、遼河、海河等主要江河流域和重要湖泊,取58 個(gè)樣本作為訓(xùn)練集進(jìn)行SVM模型的訓(xùn)練,另外取40 個(gè)樣本作為測(cè)試集進(jìn)行預(yù)測(cè)。表1列出了中華人民共和國(guó)國(guó)家地表水環(huán)境質(zhì)量標(biāo)準(zhǔn)(GB3838—2002)提供的指標(biāo)限值標(biāo)準(zhǔn)。
本文以LIBSVM軟件包為開發(fā)工具,在MATLAB 2016平臺(tái)上分別對(duì)水質(zhì)樣本做了比較試驗(yàn),對(duì)比研究了不同樣本集、不同參數(shù)下多寬度高斯核與標(biāo)準(zhǔn)高斯核的分類結(jié)果。以2017 年第31 周水質(zhì)樣本為例,闡述實(shí)驗(yàn)結(jié)果:參數(shù)組如表2所示,參數(shù)對(duì)應(yīng)式(7)中的和懲罰因子,令,為突出比較其他主要參數(shù),表2中統(tǒng)一設(shè)。多寬度高斯核分類準(zhǔn)確率對(duì)比如表3所示。多寬度高斯核與標(biāo)準(zhǔn)高斯核(RBF)的最優(yōu)預(yù)測(cè)結(jié)果如圖1、圖2所示,反映一類至五類及劣五類共六個(gè)水質(zhì)等級(jí),符號(hào)○表示Labels,代表實(shí)際水質(zhì)評(píng)估結(jié)果;符號(hào)*與分別表示多寬度高斯核與標(biāo)準(zhǔn)高斯核的預(yù)測(cè)值。
從實(shí)驗(yàn)結(jié)果可以看出,參數(shù)d放大高斯核徑向作用的范圍,拉大了樣本距離,對(duì)高斯影響最大,直接影響精度。對(duì)比參數(shù)組Ⅱ與Ⅴ、Ⅲ與Ⅵ,在相同的情況下,d增大,準(zhǔn)確率均有提高。決定高斯核的寬度,對(duì)比參數(shù)組Ⅰ、Ⅴ、Ⅵ,在d相同的情況下,增大,核寬度縮小,有利于加快收斂,快速找到最優(yōu)解。但和d增長(zhǎng)到一定程度,精度將不再提高,如參數(shù)組Ⅱ、Ⅲ、Ⅳ,提高將導(dǎo)致過學(xué)習(xí)狀態(tài)產(chǎn)生。
現(xiàn)討論多寬度核的特例情況,令,多寬度核轉(zhuǎn)變?yōu)闃?biāo)準(zhǔn)高斯核,其可調(diào)節(jié)參數(shù)為c和,調(diào)節(jié)參數(shù)后經(jīng)實(shí)驗(yàn)演算,得到如圖2所示的最優(yōu)解。
對(duì)比圖1、圖2中相同40 個(gè)預(yù)測(cè)樣本在不同方法下的最優(yōu)預(yù)測(cè)結(jié)果可以發(fā)現(xiàn),多寬度高斯核評(píng)估結(jié)果更吻合實(shí)際評(píng)估值,其分類精度要優(yōu)于標(biāo)準(zhǔn)高斯核(RBF),特別是在易錯(cuò)分的四、五、六等小類上分類精度也有所提高。
5? ?結(jié)論(Conclusion)
分析水質(zhì)評(píng)估問題的特點(diǎn)后,引入多寬度高斯核SVM方法進(jìn)行水質(zhì)評(píng)估。多寬度高斯核是一種復(fù)合核函數(shù),較之標(biāo)準(zhǔn)高斯核,其通過拉大樣本在特征空間的歐式距離來降低誤分率。該模型對(duì)弱特征類別、小樣本分類非常有利,能較好地解決水質(zhì)分類中局部高污染點(diǎn)這種小樣本類的錯(cuò)分問題。
通過比較多組實(shí)驗(yàn)數(shù)據(jù),分析了不同參數(shù)對(duì)核函數(shù)分類性能、收斂速度和泛化能力的影響,為合理尋找最優(yōu)核函數(shù)提供依據(jù),并闡述多寬度高斯核的收斂速度略落后于標(biāo)準(zhǔn)高斯核,但是其分類性能、泛化能力要優(yōu)于標(biāo)準(zhǔn)高斯核。
經(jīng)實(shí)驗(yàn)研究證實(shí),該綜合模型對(duì)水質(zhì)評(píng)估是高效可行的,為合理選擇水源,充分利用和管理水資源提供了重要依據(jù)。
參考文獻(xiàn)(References)
[1] 郭彥英,鄧云峰.AHP法在地表水水質(zhì)綜合評(píng)估指標(biāo)權(quán)重確定中的應(yīng)用[J].蘭州交通大學(xué)學(xué)報(bào)(自然科學(xué)版),2006(6):70-72.
[2] 陳海洋,滕彥國(guó),王金生.改進(jìn)的決策樹支持向量機(jī)地下水水質(zhì)評(píng)估[J].計(jì)算機(jī)應(yīng)用,2011(3):848-850.
[3] 馬創(chuàng),王堯,李林峰.基于遺傳算法與支持向量機(jī)的水質(zhì)預(yù)測(cè)模型[J].重慶大學(xué)學(xué)報(bào),2021,44(07):108-114.
[4] 方國(guó)華,王雪,方應(yīng)學(xué),等.基于改進(jìn)粒子群算法的區(qū)域水量水質(zhì)聯(lián)合配置研究[J].水資源保護(hù),2021(10):1-15.
[5] 石晴宜,董增川,羅赟,等.基于機(jī)器學(xué)習(xí)方法的洪澤湖入湖水質(zhì)評(píng)估及預(yù)測(cè)研究[J].中國(guó)農(nóng)村水利水電,2021(10):1-14.
[6] XIA J J, ZENG J. Environmental factor assisted chlorophyll—a prediction and water quality eutrophication grade classification: A comparative analysis of multiple hybrid models based on a SVM[J]. Environmental Science: Water Research and Technology, 2021,7(6):1040-1049.
[7] 田徑,趙犁豐,趙宇倩.一種基于WGKMW的網(wǎng)絡(luò)結(jié)構(gòu)核函數(shù)框架[J].中國(guó)海洋大學(xué)學(xué)報(bào),2009(9):471-474.
[8] 常群,王曉龍,林沂蒙,等.支持向量分類和多寬度高斯核[J].電子學(xué)報(bào),2007(3):484-487.
[9] 汪廷華,趙東巖,張瓊.多類核極化及其在多寬度RBF核參數(shù)選擇中的應(yīng)用[J].北京大學(xué)學(xué)報(bào)(自然科學(xué)版),2012,48(05):727-731.
[10] 羅浪.基于多寬度高斯核的支持向量機(jī)參數(shù)優(yōu)化與特征選擇算法研究[D].武漢:中南民族大學(xué),2018.
[11] 鄧偉萍.基于智能算法的洪災(zāi)綜合評(píng)估模型研究[D].武漢:華中科技大學(xué),2013.
[12] 中國(guó)環(huán)境監(jiān)測(cè)總站.水質(zhì)自動(dòng)監(jiān)測(cè)周報(bào)[EB/OL]. (2017-01-09)[2017-11-03]. http://www.cnemc.cn/sssj/szzdjczb/201712/t20171211_660224.shtml.
作者簡(jiǎn)介:
鄧偉萍(1979-),女,博士,副教授.研究領(lǐng)域:機(jī)器學(xué)習(xí),智能評(píng)估與預(yù)測(cè).
桂? 超(1966-),男,碩士,教授.研究領(lǐng)域:智能計(jì)算,網(wǎng)絡(luò)編碼.
汪? ?波(1977-),男,碩士,副教授.研究領(lǐng)域:計(jì)算機(jī)系統(tǒng)結(jié)構(gòu).
石? ?黎(1980-),女,博士,副教授.研究領(lǐng)域:機(jī)器學(xué)習(xí),決策與決策支持.
關(guān)培超(1977-),男,博士,講師.研究領(lǐng)域:軟件工程,空間信息共享與集成.