国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于決策樹支持向量機的地表水水質評價研究

2021-11-03 01:13:10廖振良
環(huán)境科技 2021年5期
關鍵詞:水質評價湖泊分類器

周 妍,廖振良,周 燦

(同濟大學 環(huán)境科學與工程學院,上海 200092)

0 引言

水質評價在本質上是一種多指標、多類別的屬性識別的過程,對水資源開發(fā)利用、水環(huán)境質量監(jiān)督與保護都有著重要作用,如何使水質評價更加科學、客觀、合理是現(xiàn)代環(huán)境領域研究的重要課題之一。隨著非線性理論、不確定性理論的出現(xiàn)以及計算機技術的快速發(fā)展和不斷普及,從最初的生物評定法和專家評價法[1],到現(xiàn)在的單因子評價法[2]、灰色理論法[3]、模糊綜合評價法[4-5]等。其中,以單因子為代表的指數(shù)評價法雖然計算方法簡單,但僅僅采用單一信息的水質評價方法,對于目前復雜多變的水質情況,評價結果往往不能全面的反映出實際的綜合水質類別;模糊綜合評價法在評價過程中確定效用函數(shù)、權重系數(shù)等步驟依賴人的主觀性,以及指標權重、模糊算子、最大隸屬度原則等方面的不確定性,使該方法的評價模式在水質評價領域的通用性有所限制,也對評價結果的可靠性有所影響[6]。因此,如何綜合考慮多個水質指標及其濃度成為水質評價的一個難點。

基于統(tǒng)計學習理論的支持向量機(Support Vector Machine,SVM)是近幾年迅速發(fā)展起來的一種分類模型,為水質評價研究提供了一條新的途徑。SVM 是針對分類問題提出的一種機器學習方法[7-8],不但結構簡單,而且在眾多數(shù)據(jù)模型中具有較好的泛化能力,尤其對于小樣本的問題,可成功解決神經(jīng)網(wǎng)絡學習過程中“過學習”等問題,同時也能夠避免模型陷入局部最優(yōu),保證最后得到的極值解是全局最優(yōu)解[9]。目前,SVM 算法廣泛應用在模式識別、時間序列分析[10]、聚類分析[11]等方面。由于水質指標屬于一種有限的、非線性的指標,越來越多的專家學者將支持向量機運用到水質評價的領域[12-14]。運用SVM 解決多類問題的分類方法主要有3 種:“一對一”、“一對余”以及“決策樹”[15]。本文采用分類正確率較高、學習訓練代價較小且重復訓練樣本也較少的“決策樹”分類算法。利用基于決策樹的支持向量機建立模型對研究區(qū)域進行水質評價,同時與作為參考的單因子評價法和模糊綜合評價法的評價結果進行對比分析,以佐證SVM 評價方法的先進性和合理性。

1 研究方法

1.1 原理概述

SVM 分類模型基于結構風險最小化的原理是以分類邊界距離最大為目的進行分類識別。樣本分類數(shù)據(jù)分為線性可分和線性不可分2 種情況,當分類數(shù)據(jù)屬于線性可分時,SVM 分類模型通過尋求能夠正確劃分訓練數(shù)據(jù)集并且?guī)缀伍g隔最大的最優(yōu)超平面進行模式識別;而當分類數(shù)據(jù)線性不可分時,則需要將低維空間中線性不可分的樣本數(shù)據(jù)通過非線性映射算法(核函數(shù))轉化為在高維特征空間中線性可分的樣本分類問題,繼而采用線性分類的方法對其進行求解。

假設從某一未知概率分布函數(shù)F(x,y)中隨機抽取給定訓練樣本集,{(xi,yi),i=1,2, …,l},xiCRd,yiCR。為使分類超平面可以正確分類所有樣本,并使分類間隔最大,其約束條件為:

式中:xi為輸入值;w 為可調的權重函數(shù);b 為閾值;w·xi表示向量w 與xi的內積。

(1)當樣本分類數(shù)據(jù)線性可分時,分類間隔為:

式中:xi為yj=+1 時的值,xj為yj=-1 時的值。

求解最優(yōu)超平面的問題可轉化為約束最優(yōu)的問題:即在滿足約束條件(1)的前提下,通過最小化使得分類間隔最大。這可以通過建立拉格朗日函數(shù)的對偶形式來解決:

約束條件為:

式中:拉格朗日乘子α={α1,…,αN}。

(2)線性不可分數(shù)據(jù)見圖1。由圖1 可以看出,三角形和圓形所代表的2 類樣本數(shù)據(jù)是線性不可分時,亦即某些樣本數(shù)據(jù)不滿足式(1)條件,則需要引入松弛項ξi來盡可能地降低模型泛化出錯的風險。

圖1 線性不可分數(shù)據(jù)

約束條件為:

目標函數(shù)為:

式中:ξ為松弛變量;C 為常數(shù),且C>0,主要用于平衡機器的復雜程度和不可分離點數(shù)以及控制錯分樣本的懲罰程度,C 越大表示對錯誤的懲罰越重,被稱為“懲罰因子”。

SVM 分類模型主要包括“構建分類器、選取訓練及驗證樣本、選擇核函數(shù)及參數(shù)、構建訓練模型、模型的驗證”5 個步驟。其中關鍵步驟在于核函數(shù)及參數(shù)的選擇,核函數(shù)的選擇取決于數(shù)據(jù)的分布特征,不同的核函數(shù)具有不同的特點和適用范圍。本文選取的是目前使用最廣泛的徑向基核函數(shù)(RBF),SVM 分類模型中的懲罰系數(shù)C 和核函數(shù)的參數(shù)γ 采用交叉驗證的方法來確定這2 個參數(shù)的最優(yōu)組合,并選取交叉的折數(shù)V=5 進行C 和γ 的最優(yōu)求解[17]。

1.2 支持向量機多分類算法

SVM 分類模型最早是針對二分類問題提出的,在實際應用中,有很多問題是多分類問題,例如水質評價問題,因此分類算法的選擇對SVM 分類模型深入應用到更多的領域至關重要。徐紅敏[16]通過比較SVM 分類模型的3 種多分類算法,得到的結果見表1。其中,“決策樹”分類方法在所有SVM 分類模型多類別分類方法中應用較為廣泛,它將多類別的各個類別重新組合,同時也考慮結合SVM 分類模型的二類別分類特點,構建的多個子分類器類似于決策樹,最終實現(xiàn)多類別分類,解決各種多分類問題。

表1 多類支持向量機分類算法對比

本文采用分類正確率較高、學習訓練代價較小且重復訓練樣本也較少的決策樹分類算法。根據(jù)不同案例的實際情況構建多個分類器,每個分類器通過相應的樣本數(shù)據(jù)分別進行訓練和檢驗。

2 研究過程

2.1 研究區(qū)域

選擇某城市一處人工湖泊為研究區(qū)域,該人工湖泊地處北亞熱帶季風區(qū),平均水深約4 m。根據(jù)當?shù)貙υ摵粗贫ǖ乃|規(guī)劃目標,基本達到人類非直接接觸娛樂用水以及城市一般工業(yè)用水的需求[17]。因此,為使湖泊處于健康良性的發(fā)展,同時改善提升整體功能,需對其湖區(qū)水質進行長期監(jiān)測和水質評價。

因SVM 分類模型前期需要一定數(shù)量的數(shù)據(jù)集進行訓練和驗證,綜合考慮實際情況選取該人工湖泊最具代表性的2018年1月~12月的水質數(shù)據(jù),分別通過SVM 分類模型、單因子評價法和模糊綜合評價法對其水質進行逐月評價分析。該湖泊在線監(jiān)測點分布見圖2。在其湖心設置4 個浮標站并布設8條人工垂線,在7 個支流出入口設置7 個岸邊站,在河網(wǎng)關鍵斷面設置10 個集成站。

圖2 某城市人工湖泊在線監(jiān)測點分布示意

根據(jù)GB 3838—2002《地表水環(huán)境質量標準》和該湖泊的限制因子以及其他各種影響因素,從24個地表水環(huán)境質量指標中選取DO,CODMn,BOD5,NH3-N,TN,TP 作為主要影響因子進行水質評價,并確認評價等級集合:V={Ⅰ,Ⅱ,Ⅲ,Ⅳ,Ⅴ}。同時,根據(jù)岸邊站、浮標站以及集成站的水質在線監(jiān)測數(shù)據(jù),結合人工取樣監(jiān)測結果,得到該湖泊2018年12 個月的水質指標數(shù)據(jù)。

2.2 構建分類器

根據(jù)地表水質評價等級,將本文中的地表水質評價案例共分為5 個等級,構建的基于決策樹的SVM 分類模型見圖3。每個節(jié)點是1 個分類器,共構建4 個分類器。

圖3 決策樹分類模型

2.3 選取訓練樣本

首先,將2018年該湖泊17 個監(jiān)測點收集到的412 組監(jiān)測水質數(shù)據(jù),按7 ∶3 的比例劃分為288 組訓練集和124 組驗證集。其次,為消除不同水質指標之間因量級不同所造成的差異,用極差法對國標中選取的6 個指標因子進行歸一化無量綱處理,使其數(shù)值都歸一化至區(qū)間[0,1],具體公式如下:

式中:i=1,2,…,6;j = 1,2,…,5;xmax,xmin分別為國標中各項目因子的最大值和最小值;為歸一化處理后的數(shù)值。

盡管SVM 分類模型支持小樣本訓練,但對訓練集的數(shù)據(jù)數(shù)量還是有一定的基本要求,以水質評價為例,地表水質分為Ⅰ~Ⅴ類水,5 組閾值組成的訓練樣本數(shù)據(jù)難以達到模型訓練精度要求,因此為生成足夠的訓練樣本,采取隨機插值方法進行插補。選取《地表水環(huán)境質量標準》中與樣本水質數(shù)據(jù)對應的污染物指標作為訓練樣本數(shù)據(jù)屬性,用Matlab R2018a 中的隨機均勻分布函數(shù)進行加密插值[18],每個分類器構造出約1 000 組不同區(qū)間的標準樣本數(shù)據(jù)。

以分類器一為例,該分類器的目的是將Ⅰ類水和Ⅱ~Ⅴ類水區(qū)分開,故加密構造出700 組數(shù)據(jù)。其中100 組為Ⅰ類水,對應的標簽Y1 取值為1;另外600 組為非Ⅰ類水,對應的標簽Y1 取值為-1;所有計算均在Windows10 平臺上的Matlab R2018a 進行。

2.4 構建訓練模型

為實現(xiàn)參數(shù)的網(wǎng)格尋優(yōu)及交叉驗證,調用Libsvm 軟件包中的grid.py 程序,結合Gnuplot 5.2交互式繪圖軟件可輸出網(wǎng)格法尋優(yōu)交叉驗證的等精度圖。首先根據(jù)等精度圖得到4 個分類器的最優(yōu)參數(shù)組合分別為C = 0.031 25,γ = 2;C = 0.5,γ =0.5;C=2,γ=8;C=0.5,γ=8。然后在Matlab 中編寫建模函數(shù)語句及調用模型語句,最后構建訓練模型進行訓練。

2.5 模型的驗證與實例評價

模型訓練完畢后,為驗證模型的泛化能力,還需用驗證集進行驗證。先將2018年該湖泊12 個月的水質數(shù)據(jù)進行歸一化處理;對于每一個月份,在Matlab 里輸入命令:

式中:x1~x6為當月6 個水質指標歸一化后的數(shù)值;Y 為標簽值,可取任意值,此處選取1。

用Matlab 進行逐月水質評價,水質指標變化及水質評價結果詳見圖5 和表2。

圖5 2018年某城市人工湖泊的水質指標變化

表2 SVM 分類模型的水質評價結果

2.6 其他水質評價方法對比

為驗證SVM 水質評價模型的優(yōu)越性,將SVM與其他2 種傳統(tǒng)的地表水水質評價方法的差異進行對比分析評價結果見表3。

表3 單因子法、模糊綜合評價法和SVM 分類模型的水質評價結果

3 討論

(1)由圖5 可以看出,2018年該人工湖泊水質整體呈變好趨勢。根據(jù)湖泊水質數(shù)據(jù)分析,除TP外,CODMn,BOD5,NH3-N,TN 等指標濃度整體下降,DO 指標濃度呈整體上升趨勢,TP 指標一直在Ⅲ類和Ⅳ類之間波動變化,而TN 指標則是由Ⅴ類慢慢向Ⅲ類過渡??傮w而言,TP 和TN 是主要的減排目標。而單因子評價法和模糊綜合評價法的評價結果未能顯著表明該人工湖泊水質的細微波動變化。

(2)由表3 可知,單因子評價法的結果均為Ⅳ,Ⅴ類水,該方法是將單一的且最嚴重的污染物超標程度作為整體水質的表征,雖然評價過程簡單直觀,但將整體水質均歸于Ⅳ,Ⅴ類水顯得略為悲觀,無益于真實反映水體功效是否滿足基本要求,也無法精確描述水環(huán)境的實際綜合狀態(tài)。

(3)對比分析SVM 分類模型與模糊綜合評價法的評價結果,由圖5 和表3 可知,除2月、4月、6月、7月外,其余月份用模糊綜合評價法比SVM 均高出1~2 個等級,即評價結果略顯悲觀;且8月至12月的水質評價結果均為Ⅳ類水質,對前期在現(xiàn)場收集的在線監(jiān)測數(shù)據(jù)進行分析得知,除去之前所選取的國標規(guī)定的化學指標,其他一些物理和生物指標從側面也說明了該湖泊水質在11月份有所改善。由此看出,傳統(tǒng)模糊綜合評價法無法辨別兩者更細微的差異,評價結果不能真切描述實際水質情況。相比SVM 分類模型的評價結果更為合理,更貼近實際情況,同時能夠辨別水質變化中更加細微的差異。

此外,模糊綜合評價法易出現(xiàn)模型“失效”的情況,需要人為給定賦值權重,導致評價結果具有較強的主觀性;雖然基于較為精確的數(shù)學模型進行描述,但模糊綜合評價法忽略了各類評價因子和水質等級之間呈現(xiàn)的復雜的非線性關系,沒有很好地解決這個關鍵問題。相對而言,SVM 水質評價模型則沒有水質參評項目個數(shù)的限定,能夠全面、客觀地反映水資源中各水質指標的綜合污染程度,在小樣本的情況下也能得到較好的分類結果,有助于水環(huán)境領域中的決策者作出更加科學客觀的決策,為防治水污染、合理利用水資源奠定堅實基礎。

雖然SVM 所建立的水質評價模型具有良好的預測能力,支持小樣本問題,但由于前期需要數(shù)據(jù)集對模型進行訓練和驗證,與傳統(tǒng)方法相比較仍需依賴大量的樣本數(shù)據(jù);同時SVM 作為一個黑箱模型,只能看見輸入和輸出而非評價過程,對于評價結果的可解釋性較差,可考慮與傳統(tǒng)統(tǒng)計方法相結合。此外,SVM 分類模型在解決多類的分類問題方面還不完善,需進一步深入研究。

4 結論

以某城市一處人工湖泊的實測數(shù)據(jù)作為樣本,結合實際選取合適的影響因子及相關影響因素作為模型輸入量及輸出量,基于決策樹分類算法的支持向量機(SVM)構建地表水水質評價模型,并與傳統(tǒng)水質評價方法的評價結果進行對比分析。得出以下結論:

(1)將SVM 分類模型應用于某城市人工湖泊的水質分類,結果表明,該人工湖泊的整體水質正在好轉,這與該人工湖泊各評價指標的分析結果相一致。

(2)將SVM 分類模型與單因子法和模糊綜合評價法2 種傳統(tǒng)的地表水水質評價方法進行比較,SVM 水質評價模型能客觀考慮各項指標和影響因素,既避免了單因子評價法結果的過保護問題,同時沒有限制水質參評項目的個數(shù),能夠更加客觀全面地反映水環(huán)境的水質現(xiàn)狀及其變化趨勢,在小樣本的情況下也能得到較好的分類結果,有助于讓水管理者更加準確真實地進行水質評價,更好地監(jiān)督和管理水環(huán)境。因此,SVM 分類模型可有效應用于地表水水質評價中。

(3)雖然SVM 分類模型已具有良好的預測能力,但還需進一步研究、完善,比如:①SVM 分類模型與傳統(tǒng)統(tǒng)計方法相結合在水質管理中的應用;②SVM 分類模型可考慮結合其他分類算法的優(yōu)勢,提高多類問題的分類精度;③在訓練SVM 分類模型的過程中,如何尋求更優(yōu)的算法模型和選取更適于水質監(jiān)測與評價的SVM 分類模型核函數(shù)及參數(shù)。

猜你喜歡
水質評價湖泊分類器
你相信嗎?湖泊也可以“生死輪回”
“害羞”的湖泊
BP-GA光照分類器在車道線識別中的應用
電子測試(2018年1期)2018-04-18 11:52:35
滻灞河水質評價方法研究
奇異的湖泊
基于概率統(tǒng)計和模糊綜合評價法的水質評價模型及其應用——以拉薩河水質評價為例
加權空-譜與最近鄰分類器相結合的高光譜圖像分類
結合模糊(C+P)均值聚類和SP-V-支持向量機的TSK分類器
基于SPAM的河流水質評價模型
基于LLE降維和BP_Adaboost分類器的GIS局部放電模式識別
容城县| 西藏| 缙云县| 湘潭市| 荣成市| 玉环县| 武清区| 庄浪县| 普兰店市| 汽车| 仙居县| 镇康县| 寿阳县| 临桂县| 康定县| 博湖县| 唐海县| 柳林县| 盐山县| 辽阳市| 宜黄县| 龙井市| 呼和浩特市| 安陆市| 丰镇市| 堆龙德庆县| 墨玉县| 甘泉县| 南乐县| 嘉黎县| 平度市| 阿合奇县| 海阳市| 金昌市| 开原市| 原阳县| 兴仁县| 曲靖市| 长顺县| 怀化市| 当涂县|