劉 東 李 帥 付 強 劉春雷
(1.東北農業(yè)大學水利與土木工程學院, 哈爾濱 150030; 2.農業(yè)部農業(yè)水資源高效利用重點實驗室, 哈爾濱 150030)
地下水是水資源系統(tǒng)中的主要組成部分,作為地球上的重要水體,以其穩(wěn)定的供水條件、良好的水質,成為農業(yè)、工業(yè)以及城市生活用水的重要水源,是人類社會必不可少的資源[1]。地下水資源具有可再生性,但同時具有脆弱性[2],循環(huán)周期較長,一旦賦存環(huán)境遭到破壞,再生能力將會減弱。隨著人類社會的飛速發(fā)展,長期不合理、無規(guī)則的開采使地下水水質惡化、水位持續(xù)下降,地下水系統(tǒng)遭受破壞難以避免。因此,開展地下水水質評價可以掌握地下水污染現(xiàn)狀,對合理開采地下水資源、保護水環(huán)境具有十分重要的意義。
迄今為止,已有眾多國內外專家學者研究過地下水水質評價問題。KIURSKI-MILPSEVI等[3]運用模糊邏輯法對塞爾維亞Zrenjanin市的地下水水質進行了評價;ZHANG等[4]運用灰關聯(lián)分析法(GRA)評價了中國北方滹沱河沖積扇區(qū)域的地下水水質;BOUDERBALA[5]將水質指數(shù)法(WQI)應用于阿爾及利亞北部Low-Isser平原地區(qū)的地下水水質評價;WU等[6]應用基于熵權的密切值法(OVM)對銀川北郊水源的地下水水質進行了評價。雖然上述方法在水質評價方面取得了一定成果,但是也存在一些不足之處:模糊邏輯法在獲得評價集時采用線性加權平均的方法,容易出現(xiàn)失真、失效、跳躍等現(xiàn)象,導致等級評價不準確[7-8];傳統(tǒng)灰關聯(lián)分析法面對復雜情況時存在評價因子權重影響程度低等缺點[9-10];水質指數(shù)法缺陷在于評價結果會出現(xiàn)失真或物理意義不明確的現(xiàn)象[11-12];密切值法進行多樣本評價時,對各指標權重的處理較為隨意,導致評價結果的誤差較大[13]。BP神經網絡是一種基于人工智能的非線性動力學系統(tǒng),具有較強的自學習和自適應能力,能夠通過已有數(shù)據(jù)信息自動調整網絡的閾值和權值,從而減小主觀因素的影響,使得評價結果更加符合客觀實際,已被國內外學者廣泛應用[14-15]。因此,本文擬構建基于 BP神經網絡的地下水水質評價模型。然而,傳統(tǒng)BP神經網絡各層的連接權值和閾值均由隨機初始化獲得,收斂速度慢,訓練時間長且易陷入局部最優(yōu)。為了提高模型評價精度,必須改進BP神經網絡。
GANDOMI等[16]于2012年提出的KHA算法是一種新型的智能優(yōu)化算法,該算法用于優(yōu)化支持向量機(SVM)的目標威脅估計模型[17],整體性能要優(yōu)于GSO(Group search optimization)和PSO(Particle swarm optimization);用于入侵檢測系統(tǒng)的構建[18],性能優(yōu)于PSO、GA(Genetic algorithm);應用于SVDD的參數(shù)優(yōu)化[19],性能優(yōu)于SA(Simulated annealing)、ACO(Ant colony optimization);應用于汽輪機熱耗率預測問題[20],性能優(yōu)于PSO、BBO(Biogeography-based optimization)。以上研究表明,KHA具有較強的收斂速度和搜索能力,簡單易用、魯棒性強,是一種性能優(yōu)越的智能優(yōu)化算法。因此,針對BP神經網絡的缺陷,本文擬將磷蝦群算法引入到網絡連接權值和閾值的優(yōu)化過程中,改進BP神經網絡。以建三江管理局為例,構建基于KHA優(yōu)化BP神經網絡的地下水水質綜合評價模型,分析區(qū)域地下水水質等級空間分布特征及造成地下水水質污染的可能成因,驗證KHA-BP模型在區(qū)域地下水水質評價中的可行性與優(yōu)越性。
黑龍江省農墾建三江管理局位于黑龍江省東北部,地處三江平原腹地,位于黑龍江、松花江和烏蘇里江匯流的河間地帶。地理坐標132°31′38″~134°32′19″E,46°49′47″~48°12′58″N。區(qū)內水系發(fā)達,河網縱橫交錯,地表水資源豐富[21]。作為重要的商品糧基地,建三江管理局糧食總產占黑龍江墾區(qū)糧食總產的1/3,占黑龍江省的1/9,區(qū)內農業(yè)生產主要以水稻種植為主[22]。建三江管理局下轄15個國營農場,具體行政分區(qū)見圖1。
圖1 建三江管理局行政分區(qū)Fig.1 Administrative division map of Jiansanjiang Administration
長期以來,建三江地區(qū)由于工程調蓄能力弱,地表水利用率不高,農業(yè)灌溉主要以開發(fā)地下水為主[23]。由于大規(guī)模抽取地下水灌溉水田,同時大量施用化肥農藥,灌溉水攜帶污染物質滲入地下,對地下水體造成污染,嚴重危害了飲用水安全和生態(tài)系統(tǒng)安全。因此開展建三江管理局地下水水質評價和污染分析,對確保該地區(qū)飲用水安全、合理提出地下水資源保護措施等均具有重要的理論和現(xiàn)實意義。
圖2 各農場地下水水質指標質量濃度Fig.2 Concentration map of groundwater quality index
從2017年《黑龍江墾區(qū)統(tǒng)計年鑒》收集整理建三江管理局耕地總面積、頃均化肥施用總量、頃均氮肥施用量、頃均磷肥施用量和頃均農藥施用量數(shù)據(jù),用于分析建三江地下水水質污染的原因。
BP網絡是一種單向傳播的多層前饋神經網絡,標準BP網絡算法包括前向傳播和反向傳遞兩個方面[14-15,24-25]。在前向傳播中,輸入信號經過輸入層、隱含層處理后,最終到達輸出層。當輸出層得不到期望輸出時,就會進行反向傳遞,通過計算輸出層所有神經元的期望輸出與實際值之間的總誤差對網絡權值和閾值進行調整,從而使神經網絡實際輸出不斷逼近期望輸出。BP神經網絡結構如圖3所示。
圖3 BP神經網絡結構圖Fig.3 BP neural network structure diagram
KHA算法是對南極海洋中磷蝦群覓食活動的模擬[16]。磷蝦群中的磷蝦個體在覓食活動中受到食物和附近磷蝦的綜合影響,在這種綜合作用下向著食物移動[26-27]。具體來說,磷蝦位置變化主要受3個因素影響:其他磷蝦個體引起的運動、覓食行動以及隨機擴散。
由上所知,每個磷蝦個體i的位置移動由3部分構成
(1)
式中Xi——第i只磷蝦個體的位置
Ni——第i只磷蝦的誘導速度
Fi——第i只磷蝦的覓食速度
Di——第i只磷蝦的擴散速度
(1)其他磷蝦個體影響引起的運動
磷蝦的游動方向受到種群排斥效應、附近磷蝦個體以及種群位置最優(yōu)個體的影響,具體表示為
Ni,new=Nmax(αi,local+αi,target)+wnNi,old
(2)
式中Ni,new——新的位置變化量
Nmax——最大誘導速度,通常取0.01 m/s
Ni,old——上次產生的位置變化量
wn——慣性權值,取值范圍[0,1]
αi,local——鄰近個體的誘導向量
αi,target——最優(yōu)個體提供的誘導向量
(2)覓食行為
磷蝦個體的覓食運動可以表達為
Fi,new=Vf(βi,food+βi,best)+wfFi,old
(3)
式中Fi,new——新的覓食位置變化量
Fi,old——上一次覓食位置變化量
Vf——覓食速度,通常取0.02 m/s
βi,food——食物源對于個體吸引的向量
βi,best——第i個個體最優(yōu)的目標向量
wf——慣性權值,取值范圍[0,1]
(3)隨機擴散
磷蝦群的隨機擴散一般由一個隨機的方向向量和磷蝦群的最大擴散速度決定,即
Di=Dmaxδ
(4)
式中Dmax——個體最大擴散速度,一般取0.005 m/s
δ——隨機向量,δ∈[-1,1]
隨著迭代次數(shù)的增加,磷蝦群逐漸靠近最優(yōu)位置,相應的其隨機擴散也應該逐漸減弱。因此需要在式(4)中加入新的變量使得隨機擴散部分隨迭代線性遞減,即
(5)
式中I——當前迭代次數(shù)
Imax——最大迭代次數(shù)
經過以上3種行為之后,在t到t+Δt的時間間隔內磷蝦個體的位置為
(6)
(7)
式中 Δt——時間間隔常量,取決于搜索空間
Xi(t+Δt)、Xi(t)——t+Δt、t時刻的磷蝦個體位置
Uj——第j個變量的上限
Lj——第j個變量的下限
Nv——變量總數(shù),通過經驗發(fā)現(xiàn)
目前在普洱旅游道內的工作人員沒有經過系統(tǒng)的培訓,難以滿足游客的求知欲。,普洱茶文化作為云南旅游的名片,吸引了大批量的國外游客,但在景區(qū)內外語接待人員十分缺乏。沒有新型的旅游服務人才,不能為游客提供導游規(guī)范化或個性化服務,無法據(jù)游客個體差異提供準確的養(yǎng)生指導。本地居民在旅游接待時還是以采摘工作為主,游客參與度低。
Ct——[0,2]區(qū)間內的一個常數(shù),其值越小,算法的搜索步長越小
(4)遺傳操作
在KHA算法中,遺傳操作分為交叉和變異操作。交叉操作是指通過替換重組生成一個新個體的操作,即
(8)
式中xi,m——xi第m個參量
xr,m——異于xi,m的個體的第m個參量,r∈[1,2,…,Np]且r≠i
rand——[0,1]間一個均勻分布的隨機數(shù)
Cr——交叉概率
變異操作是對個體元素作變動調整的操作,即
(9)
式中xgbest,m——當前全局最優(yōu)個體的第m個參量
μ——[0,1]之間的數(shù)
Mu——變異概率
KHA-BP算法的具體步驟如下:
(1)設定算法初始參數(shù),確定種群大小Np、最大迭代次數(shù)Mi、最大誘導速度Nmax、覓食速度Vf以及個體最大擴散速度Dmax等。
(2)初始化搜索空間范圍內的一組種群,每只磷蝦個體代表優(yōu)化問題的一個可行解。
(3)計算個體適應度值,輸入訓練樣本對神經網絡進行訓練,并用測試樣本進行預測,從而得到測試樣本的期望輸出X=(x1,x2,…,xn)及預測輸出Y=(y1,y2,…,yn),則個體適應度計算公式為
F=‖xi-yi‖
(10)
本文構建評價模型的訓練樣本由地下水質量分類標準數(shù)據(jù)獲得,輸出的預測則為具體的水質類別,訓練樣本與測試樣本的獲取方法詳見2.2.1節(jié)。
(4)計算3個影響因素引起的磷蝦位置變化量,加入遺傳操作后重新計算磷蝦個體的位置。
(5)返回步驟(3)計算個體適應度直到滿足終止條件。
(6)輸出最優(yōu)個體位置,即最優(yōu)權值和閾值,構建最終評價模型,得出評價結果。
KHA-BP評價模型的構建流程如圖4所示。
圖4 KHA-BP評價模型構建流程圖Fig.4 Flow chart of KHA-BP evaluation model
依據(jù)GB/T 14848—2017《地下水質量標準》選取9個具有代表性的指標作為水質評價因子,根據(jù)GB/T 14848—2017的分類標準,將水質等級劃分為5類,各等級標準指標濃度見表1。
2.2.1訓練樣本集和測試樣本集的生成
由表1共得到I~V類水的5個標準等級區(qū)間,根據(jù)表1中數(shù)值可以得到用于神經網絡訓練的幾組輸入和輸出數(shù)據(jù)。然而,僅僅利用幾組數(shù)據(jù)對BP神經網絡進行訓練無法實現(xiàn)精確建模,得到的水質模型也無法精確評價水質。因此,本文對標準水質評價指標采用內插取值方法對每類水質分別生成
表1 地下水質量分類標準Tab.1 Groundwater quality classification standard
500組樣本數(shù)據(jù),取前400組為訓練樣本,后100組為測試樣本,以滿足水質建模的需求,樣本生成規(guī)則以Ⅲ類水質標準為例,如表2所示。所選指標除pH值為適度指標外,其他指標均為越小越優(yōu)型指標。為消除各指標量綱和統(tǒng)一指標值的變化范圍,采用歸一化方法處理上述生成的樣本數(shù)據(jù)[28]。
表2 神經網絡訓練樣本生成規(guī)則Tab.2 Generation rules of training sample of neutral network
(11)
x——原始數(shù)據(jù)
xmax、xmin——數(shù)據(jù)序列中的上、下限
xup、xdown——適度區(qū)間的上、下限
2.2.2網絡結構的確定
本文選取9個水質指標進行水質評價,因此神經網絡的輸入層神經元個數(shù)為9;由于輸出層的期望輸出是水質評價等級,故輸出層有一個神經元。采用單層隱含層的BP神經網絡,在隱含層節(jié)點數(shù)的選取上,目前并沒有統(tǒng)一的計算方法,一般采取試湊法進行選定。通過反復訓練,最終確定隱含層節(jié)點數(shù)為15。選取指數(shù)型S函數(shù),即logsig函數(shù)作為KHA-BP模型的激勵函數(shù)[29],以BP神經網絡中權值和閾值為待優(yōu)化變量,利用KHA優(yōu)化BP神經網絡,構建9-15-1的KHA-BP模型。參照文獻[16],對KHA中重要參數(shù)進行設定,種群數(shù)量Np=30,最大迭代次數(shù)Mi=200,最大誘導速度Nmax=0.01 m/s,覓食速度Vf=0.02 m/s,個體最大擴散速度Dmax=0.005 m/s。考慮算法隨機性的問題,多次運行KHA-BP算法,選取具有較高適應度的最優(yōu)權值和閾值構建評價模型。
2.2.3等級模擬區(qū)間確定
利用式(11),將表1各等級臨界指標濃度值歸一化,歸一化后數(shù)據(jù)代入上述所建的KHA-BP評價模型中,得到臨界值模擬結果和各等級模擬區(qū)間,結果如表3所示。
表3 KH-BP地下水水質評價模型的等級模擬區(qū)間Tab.3 Hierarchical simulation interval of model of groundwater quality assessment based on KHA-BP
將圖2所示建三江管理局各農場地下水水質指標值按式(11)歸一化,歸一化后數(shù)據(jù)代入所建的KHA-BP地下水水質評價模型中,得到各農場地下水水質模擬結果和相應等級,結果如表4所示。
由表4可以看出,建三江管理局各農場地下水水質總體較好,所有農場水質均處于Ⅲ類以上(包括Ⅲ類)。勝利、紅衛(wèi)、創(chuàng)業(yè)、七星4個農場水質等級為Ⅰ類,從水質模擬結果來看,地下水水質污染程度由大到小為:創(chuàng)業(yè)、紅衛(wèi)、七星、勝利,紅衛(wèi)、創(chuàng)業(yè)、七星3個農場水質模擬值接近所處等級區(qū)間上限,可以認為這3個農場地下水水質有向Ⅱ類水質轉化的趨勢,勝利農場距離Ⅰ類水質上下限均有一定距離,說明水質較為穩(wěn)定;前哨、二道河、前鋒、鴨綠河、洪河、濃江、青龍山、大興、勤得利9個農場水質均為Ⅱ類,根據(jù)水質模擬結果,地下水水質污染程度由大到小為:前鋒、前哨、濃江、鴨綠河、青龍山、勤得利、二道河、大興、洪河,其中前鋒、前哨、濃江、鴨綠河、青龍山、勤得利6個農場水質模擬結果與Ⅱ類水質上下限有一定距離,說明水質等級穩(wěn)定,二道河、大興、洪河3個農場水質等級模擬結果距離Ⅱ類水質下限很近,可以認為這3個農場水質有向Ⅰ類水質改善的趨勢;八五九、前進2個農場的水質等級為Ⅲ類,根據(jù)水質模擬結果,八五九地下水污染程度高于前進,其中前進農場的水質模擬結果距離Ⅲ類水質下限很近,說明有向Ⅱ類水質改善的趨勢,八五九農場水質模擬結果與Ⅲ類水質上下限均有一定距離,可以認為八五九農場地下水水質可以基本穩(wěn)定在Ⅲ類。
表4 各農場地下水水質模擬結果及等級Tab.4 Simulation results and grades of groundwater quality in each farm
圖5 建三江管理局地下水水質等級空間分布圖Fig.5 Spatial distribution map of groundwater quality of Jiansanjiang Administration
根據(jù)表4評價結果繪制建三江管理局地下水水質等級空間分布圖,見圖5。可以看出,建三江管理局地下水等級在空間分布上呈一定規(guī)律性,水質等級為Ⅰ類的4個農場分布較為集中,主要分布于管理局西南位置;水質等級為Ⅱ類的除大興農場在管理局南部,其他農場均集中分布于北部;水質等級為Ⅲ類的前進農場和八五九農場則分布于管理局中部偏西和中部偏東位置,較為分散。
表5 評價結果中各指標權重Tab.5 Weight of each index in evaluation results
為驗證所建模型的穩(wěn)定性和可靠性,本文構建基于粒子群優(yōu)化的BP神經網絡模型(PSO-BP)和BP模型,對建三江管理局各農場地下水水質進行評價。兩種模型均采用與KHA-BP模型相同的網絡結構,即9個輸入層神經元,15個隱含層神經元以及1個輸出層神經元的9-15-1網絡結構,利用前文中的訓練集訓練PSO-BP模型與BP模型。其中PSO-BP模型與KHA-BP模型同樣進行多次運行以獲得具有較高適應度值的最優(yōu)權值和閾值。PSO-BP模型、BP模型、KHA-BP模型的評價結果如表6所示。
由表6可以看出,BP模型、PSO-BP模型的評價結果與KHA-BP雖有差異,但總體來看建三江管理局各農場的地下水水質基本良好,均不低于Ⅲ類水質。
表6 不同方法下的水質評價結果對比Tab.6 Comparison of water quality evaluation results under different methods
表7 不同方法下的水質評價結果指標權重對比Tab.7 Comparison of weight of index in water quality evaluation results under different methods
采用區(qū)分度作為各種評價方法評價結果的可靠性指標[33]。區(qū)分度概念來自于考試,指試卷測試題目對被測試者知識和能力水平的鑒別能力。本文區(qū)分度是指各種評價方法評價結果對評價對象實際水平的區(qū)別能力。
對于某一種評價方法的評價結果,假設有m個評價對象,將其按分值G高低進行降序排列,每個分值編號為A,則函數(shù)G=f(N)是單調遞減函數(shù),評價結果分值最好的坐標為(G1,1),分值最差的坐標為(Gm,m),則區(qū)分度定義為
(12)
式中D——區(qū)分度
Gi——第i(i=1,2,…,m)個對象評價分值,即評價結果相鄰兩點距離之和與首尾兩點距離比值,D≥1,D越大則相鄰點越分散,評價結果區(qū)分度越好,評價方法可靠性越高
由于各評價方法結果極值范圍不一,為使評價結果具有可比性,需要對評價結果進行標準化,本文將標準化處理后分值設定處于0~m之間,計算公式為
(13)
式中G′i——標準化后的評價分值
標準化后區(qū)分度的計算公式簡化為
(14)
根據(jù)式(13)和式(14)分別計算BP模型、KHA-BP模型、PSO-BP模型區(qū)分度,如表8所示。對表8中的區(qū)分度進行排序,得出各評價方法的可靠性由大到小為:KHA-BP模型、PSO-BP模型、BP模型。
表8 各評價方法區(qū)分度Tab.8 Diversity of different evaluation methods
進一步采用序號總和理論[34]對3種評價方法的穩(wěn)定性進行分析。根據(jù)序號總和理論,對各種評價方法得到的排序序號進行加和并重新排序,所得到的序號總和排序即是相對合理的排序結果。因此,哪種評價方法與相對合理排序結果的相關性更高,就可以認為這種方法更合理,穩(wěn)定性更好[34]。評價方法穩(wěn)定性分析可參考文獻[34-35]。3種評價方法的排序評價結果與相對合理排序如表9所示。
表9 各評價方法的排序評價結果與相對合理排序Tab.9 Ranking evaluation results and relative rational ranking of each evaluation method
計算各評價方法排序評價結果與相對合理排序的Spearman等級相關系數(shù),結果如表10所示。
表10 各評價方法與相對合理排序的等級相關系數(shù)Tab.10 Rank correlation coefficient of each evaluation method between relative reasonable order
一般認為,隨著排序次數(shù)的增加,接近真實排序結果的合理排序出現(xiàn)概率會更大,排序結果的穩(wěn)定性會增加[36]。因此如果經過足夠多次的排序,大多數(shù)情況下與相對合理排序結果相關性更高的評價方法,就可以認為這種方法相對于其他方法更穩(wěn)定。為獲得多次Spearman等級相關系數(shù),本文從15個農場中隨機選取12個農場重新計算各評價方法排序評價結果與相對合理排序結果的Spearman等級相關系數(shù),得到25組數(shù)據(jù),如表11所示。
表11 25次隨機抽樣各評價方法與相對合理排序的等級相關系數(shù)Tab.11 Rank correlation coefficient of each evaluation method between relative reasonable order in 25 random samples
由表11可知,Spearman等級相關系數(shù)之和分別為:BP模型13.031 5,KHA-BP模型22.842 7,PSO-BP模型19.300 7。對比表10、11可以看出,表11所得等級相關系數(shù)與表10所得等級相關系數(shù)的平均值極為接近。25次隨機抽樣的等級相關系數(shù)區(qū)間分配情況如圖6所示。
圖6 各方法等級相關系數(shù)區(qū)間分配Fig.6 Interval distribution of correlation coefficient of each method
由圖6可知,25次隨機抽樣中,BP模型的等級分配系數(shù)主要集中于[0.3,0.6],處于[0.3,0.5]的有10次,處于[0.5,0.6]有12次;PSO-BP模型的等級分配系數(shù)則主要處于[0.7,0.9]這一區(qū)間,處于[0.7,0.8]的有12次,處于[0.8,0.9]的有9次;KHA-BP模型等級分配系數(shù)全部處在[0.8,1]區(qū)間,其中分布于[0.8,0.9]的有5次,處在[0.9,1]的則多達20次。顯然,KHA-BP模型在區(qū)域地下水水質評價中的穩(wěn)定性更好。
(1)利用KHA算法對BP神經網絡的權值和閾值進行優(yōu)化,建立了KHA-BP地下水水質綜合評價模型,并以建三江管理局下轄的15個農場為典型案例進行地下水水質評價,研究發(fā)現(xiàn)各農場地下水水質基本良好,均處于Ⅲ類(包括Ⅲ類)以上。
(3)對比KHA-BP模型、PSO-BP模型以及BP模型3種評價方法的可靠性與穩(wěn)定性,結果顯示KHA-BP模型可靠性、穩(wěn)定性均優(yōu)于其他兩種評價方法,更適用于區(qū)域地下水水質評價。