趙 令,蘇 濤,周 亮,樊 宇
(安徽理工大學(xué)測繪學(xué)院,安徽 淮南 232001)
內(nèi)蒙古河套灌區(qū)屬于自流引黃灌區(qū)。作為其中最大的灌域,義長灌域的農(nóng)業(yè)生產(chǎn)對該地區(qū)的農(nóng)業(yè)發(fā)展和全國商品糧食供應(yīng)有重要意義[1]。土壤鹽漬化問題是制約該地區(qū)農(nóng)業(yè)生產(chǎn)與發(fā)展的主要因素之一,有效地防治土壤鹽漬化對灌域至關(guān)重要。而地下水礦化度的大小與土壤鹽堿化程度密切相關(guān),同時地下水礦化度也是灌域用水管理的重要依據(jù)。因此,對灌域地下水礦化度的監(jiān)測與預(yù)測尤為重要,有利于對灌域進(jìn)行合理的土地利用規(guī)劃,促進(jìn)該地區(qū)的農(nóng)業(yè)發(fā)展。
支持向量機(jī)是作為數(shù)據(jù)挖掘中的一項新技術(shù),通過建立最優(yōu)分類超平面將實驗樣本準(zhǔn)確地區(qū)分,即借助于最優(yōu)化方法解決機(jī)器學(xué)習(xí)問題[2,3]。當(dāng)前,支持向量機(jī)在地下水動態(tài)監(jiān)測以及水質(zhì)評價等方面已經(jīng)廣泛應(yīng)用,且取得很多成果,如:張霞等[4]提出了基于支持向量機(jī)的陜西省洛惠渠灌區(qū)地下水動態(tài)預(yù)測方法,很好地描述地下水動態(tài)與各因子之間響應(yīng)與耦合關(guān)系,通過實證分析,表明該方法在灌區(qū)地下水動態(tài)預(yù)測中切實可行;司訓(xùn)練等[5]提出基于支持向量機(jī)的地下水質(zhì)量綜合評價方法簡便易行、準(zhǔn)確度高,具有很強(qiáng)的實用性;付俊娥等[6]建立了基于支持向量機(jī)的西北干旱地區(qū)地下水位遙感監(jiān)測模型,模型擬合結(jié)果與實際相符,可以為西北干旱區(qū)水循環(huán)研究和流域水資源管理提供技術(shù)手段。
本文在前人研究基礎(chǔ)上,嘗試以內(nèi)蒙古河套地區(qū)義長灌域作為實驗區(qū),利用灌域1990-2009年的蒸發(fā)量、引水量、地下水埋深以及礦化度等數(shù)據(jù),建立基于支持向量機(jī)的灌域年均地下水礦化度預(yù)測模型,并與多元回歸預(yù)測模型和BP神經(jīng)網(wǎng)絡(luò)預(yù)測模型進(jìn)行精度對比分析,探討支持向量機(jī)方法在研究灌域年均地下水礦化度預(yù)測中的可行性,以期為改善灌域土壤次生鹽漬化現(xiàn)象、實現(xiàn)農(nóng)業(yè)可持續(xù)發(fā)展提供新方法。
義長灌域位于內(nèi)蒙古河套灌域東北部,地理位置約為107°37′19″~108°51′04″E、40°45′57″~41°17′58″N,東西長約106 km,南北寬約48 km。灌域灌溉面積186 420 hm2,占總土地面積的55.6%。灌域整體地勢平坦,西南較高東北較低,坡度從1/10 000變化到1/5 000。灌域為溫帶大陸性氣候,年平均氣溫為6.1 ℃,多年平均降水量約為172 mm,且降雨集中在夏季;蒸發(fā)量在2 117 mm左右,降水少,蒸發(fā)量大,氣候干燥。灌域是典型的引黃河水自流灌域,灌溉方式多以漫灌為主,但由于降雨極少、蒸發(fā)旺盛,灌域內(nèi)河溝多為短小山洪溝,多年平均年徑流深在10 mm左右。灌域境內(nèi)地下水位較高,地下水埋深一般不超過2.5 m,其中夏灌和秋澆時期地下水位最高,地下水埋深在1.25 m左右;灌域每年會經(jīng)歷一段時間的凍結(jié)期,此時也是地下水位低谷期,地下水埋深下降到2.5 m左右。此外,灌域境內(nèi)居民用水對地下水埋深和礦化度的空間變化也有一定影響[7]。由于灌域地下水位的上升會導(dǎo)致土壤表層鹽分含量增加,因此,該地區(qū)土壤極易出現(xiàn)次生鹽漬化現(xiàn)象。
河套灌域內(nèi)布有220個觀測井對灌域地下水位進(jìn)行長年觀測,其中義長灌域40眼為地下水質(zhì)觀測井,對灌域地下水質(zhì)及水狀況進(jìn)行長期監(jiān)測。本文對義長灌域內(nèi)40個觀測井(見圖1)的長年觀測數(shù)據(jù)整理分析,得到1990-2009年間地下水埋深以及礦化度等數(shù)據(jù)。由于引起灌域地下水礦化度變化的因素有很多,本文選取該地區(qū)年均地下水埋深作為灌域年均地下水礦化度的主要影響因子。同時,引入年蒸發(fā)量與引水量作為預(yù)測模型輔助參數(shù)。
圖1 研究區(qū)觀測井位置
灌域農(nóng)業(yè)灌溉模式直接影響著該地區(qū)地下水埋深的變化,淺層地下水礦化度也隨農(nóng)業(yè)灌溉灌水量的增加而增加。因此,地下水礦化度的變化在一定程度上與地下水埋深存在必然的聯(lián)系。由于地下水埋深與礦化度容易受到氣候、灌溉模式以及土壤類型等多種因素影響,分析短時期內(nèi)地下水埋深與地下水礦化度的變化規(guī)律很難找到它們之間的聯(lián)系,因此考慮以年為時間單位,對灌域20 a的年均地下水埋深與礦化度進(jìn)行相關(guān)性分析。由圖2可知,這期間年均地下水礦化度隨著年均地下水埋深的增大而減小,其決定系數(shù)R2=0.440 7,2者具有一定的相關(guān)性。所以,選取年均地下水埋深作為預(yù)測年均地下水礦化度的主要影響因子切實可行。
圖2 地下水礦化度與地下水埋深的關(guān)系
本文樣本數(shù)據(jù)來源為義長灌域1990-2009年觀測數(shù)據(jù),其中1990-2004年間的15組樣本數(shù)據(jù)作為構(gòu)建年均地下水礦化度預(yù)測模型的訓(xùn)練樣本,2005-2009年間5組樣本為測試模型的檢驗樣本。由于上述影響因子量綱不同,故將各影響因子數(shù)據(jù)進(jìn)行歸一化處理到[0,1〗之間[8]。
含有n個自變量和單個因變量的多元回歸模型一般形式為:
y=b0+b1x1+b2x2+…+bnxn
式中:xn為自變量;y為因變量;bn為參數(shù)。
本文建立的多元回歸預(yù)測模型有3個自變量,x1、x2、x3分別對應(yīng)蒸發(fā)量、引水量以及年均地下水埋深,因變量y對應(yīng)年均地下水礦化度。借助Spss軟件對1990-2004年間的15組訓(xùn)練樣本數(shù)據(jù)進(jìn)行多元回歸分析,得到灌域年均地下水礦化度多元回歸模型:
y=5.366-1.228x1+1.112x2-1.368x3
(1)模型原理。BP神經(jīng)網(wǎng)絡(luò)是當(dāng)前應(yīng)用最為廣泛的神經(jīng)網(wǎng)絡(luò)之一,具有良好的非線性映射及自學(xué)習(xí)能力,相比于其他傳統(tǒng)模型,BP神經(jīng)網(wǎng)絡(luò)模型的持久性和預(yù)測性更為出色[9-11]。BP神經(jīng)網(wǎng)絡(luò)模型建模方法就是在確定各層節(jié)點數(shù)的基礎(chǔ)上通過不斷地調(diào)整權(quán)重系數(shù)使總誤差達(dá)到最小,從而達(dá)到預(yù)期效果。
(2)模型建立。研究表明[12],建立3層BP神經(jīng)網(wǎng)絡(luò)即可滿足本文要求。本文借助Matlab 2014軟件建立灌域年均地下水礦化度BP神經(jīng)網(wǎng)絡(luò)預(yù)測模型。首先,對權(quán)值和閾值初始化,給定輸入x和期望輸出y。文中BP神經(jīng)網(wǎng)絡(luò)模型輸入節(jié)點數(shù)為3個,輸入因子分別為蒸發(fā)量x1、引水量x2、年均地下水埋深x3。輸出節(jié)點數(shù)為1個,輸出因子為年均地下水礦化度y。然后,信息從輸入層傳入,經(jīng)過隱含層處理,正向計算輸出y。如果實際輸出與期望值不符,即期望誤差較大不滿足計算要求,則輸出將按原路徑反向傳播,不斷修正各層連接權(quán)值ω,達(dá)到期望誤差最小。一般來講,隱含層節(jié)點數(shù)的選擇無法確定,通常根據(jù)經(jīng)驗公式所得,本文求得隱含層神經(jīng)元個數(shù)3~12。模型訓(xùn)練函數(shù)為Trainlm,最大迭代次數(shù)為50 000,訓(xùn)練目標(biāo)最小誤差為 0.001,輸出層選擇的函數(shù)為Purelin,學(xué)習(xí)效率0.05。同時,選取均方根誤差為該模型精度主要評價指標(biāo)。通過調(diào)整隱含層節(jié)點數(shù),確定本研究網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)為3∶6∶1(見圖3)時,網(wǎng)絡(luò)表現(xiàn)出較好的誤差收斂性,且泛化能力強(qiáng)、誤差最小,此時模型訓(xùn)練最優(yōu)(RMSE= 0.06)。 值得注意,網(wǎng)絡(luò)在每一次訓(xùn)練結(jié)束可以收斂到最小值,但不能保證在每一次訓(xùn)練后收斂到全局最小。因此,在具體實踐中要根據(jù)實際情況選擇最優(yōu)模型。
圖3 BP神經(jīng)網(wǎng)絡(luò)原理示意
2.3.1 支持向量機(jī)基本理論
支持向量機(jī)是基于統(tǒng)計學(xué)習(xí)理論發(fā)展起來的,根據(jù)結(jié)構(gòu)化風(fēng)險最小原則提高學(xué)習(xí)機(jī)推廣能力[13,14]。其基本原理是通過實現(xiàn)經(jīng)驗風(fēng)險和置信范圍的最小化,進(jìn)而獲得良好的統(tǒng)計規(guī)律[15,16]。因此,支持向量機(jī)能夠很好地處理許多小樣本問題。
支持向量機(jī)是用線性回歸函數(shù)f(x)=ωx+b擬合數(shù)據(jù){xi,yi},i=1,2,…,n,xi∈Rn,yi∈R,假設(shè)訓(xùn)練數(shù)據(jù)在 精度下無誤差,用線性函數(shù)擬合樣本數(shù)據(jù)可解如下優(yōu)化問題,即:
(1)
約束條件:
(2)
(3)
約束條件:
(4)
對于待分析樣本集{xi,yi},i=1,2,…,n,xi∈Rn為輸入,yi∈Ri為輸出,則支持向量機(jī)對偶形式為:
(5)
(6)
(7)
常用核函數(shù)有以下幾類:
(1) 多項式核函數(shù):K(x,y)=(xy+1)d,d=(1,2,…,n)。
(2) 徑向基函數(shù)核函數(shù):K(x,y)=exp(-γ‖x-y‖2)。
(3) Sigmoid核函數(shù):K(x,y)=tanh[φ(xy)+θ]。
2.3.2 支持向量機(jī)預(yù)測模型的建立
支持向量機(jī)預(yù)測模型的建立同樣借助Matlab 2014編寫相應(yīng)程序。灌域年均地下水礦化度支持向量機(jī)預(yù)測模型的建立就是尋找灌域年均地下水礦化度與其影響因子(蒸發(fā)量、引水量、年均地下水埋深)之間的關(guān)系,即尋求公式(7)的成立,x為地下水礦化度的影響因子,xi為k個樣本中的第i個樣本,K(x,xi)為核函數(shù)。在建立SVM回歸模型過程中,模型精度的高低取決于模型參數(shù)的選擇,其中主要影響模型精度的參數(shù)為懲罰因子參數(shù)C和核函數(shù)參數(shù)g。本文輸入向量分別為蒸發(fā)量、引水量、年均地下水埋深,輸出為灌域年均地下水礦化度。再確定學(xué)習(xí)樣本后,此模型的建立主要是選擇相應(yīng)的核函數(shù)和懲罰因子參數(shù)C。通過對上述3類核函數(shù)的測試,本研究的支持向量機(jī)預(yù)測模型的核函數(shù)為徑向基函數(shù)。利用網(wǎng)格搜索法求得模型的最優(yōu)懲罰因子參數(shù)C和核函數(shù)參數(shù)g,確定最優(yōu)參數(shù)C=2,g=0.35。最后,根據(jù)式(5)、式(6)得到灌域年均地下水礦化度支持向量機(jī)預(yù)測模型。
分別用以上3種模型對2005-2009年間的灌域年均地下水礦化度進(jìn)行預(yù)測,表1為通過3種模型得到的年均地下水礦化度預(yù)測值與實測值的比較,其中包括3種相對誤差和絕對誤差的比較??梢钥闯觯嘣貧w模型的平均誤差為0.47 g/L,最大誤差為1.15 g/L;BP神經(jīng)網(wǎng)絡(luò)預(yù)測模型平均誤差為0.20 g/L,最大誤差為0.38 g/L;支持向量機(jī)預(yù)測模型平均誤差為0.15 g/L,最大誤差為-0.21 g/L。BP神經(jīng)網(wǎng)絡(luò)預(yù)測模型與多元回歸預(yù)測模型相比,其平均誤差和最大誤差分別降低了57%和67%;支持向量機(jī)預(yù)測模型與多元回歸預(yù)測模型相比,平均誤差和最大誤差分別降低68%和82%;支持向量機(jī)預(yù)測模型與BP神經(jīng)網(wǎng)絡(luò)預(yù)測模型相比,平均誤差和最大誤差降低了25%和45%。由此可見,BP神經(jīng)網(wǎng)絡(luò)預(yù)測模型與支持向量機(jī)預(yù)測模型都取得了相對較好的預(yù)測結(jié)果,但支持向量機(jī)預(yù)測模型預(yù)測效果最佳,明顯優(yōu)于多元回歸預(yù)測模型與BP神經(jīng)網(wǎng)絡(luò)預(yù)測模型,其預(yù)測精度最高。
表13種模型預(yù)測值與實測值比較g/L
年份實測值/(g·L-1)多元回歸模型預(yù)測值絕對誤差相對誤差/%BP神經(jīng)網(wǎng)絡(luò)模型預(yù)測值絕對誤差相對誤差/%支持向量機(jī)模型預(yù)測值絕對誤差相對誤差/%20054.434.300.130.0294.420.010.0024.60-0.17-0.03820064.454.070.380.0844.070.380.0864.58-0.13-0.02920074.644.96-0.32-0.0684.520.120.0264.73-0.09-0.01920084.473.321.150.2564.120.350.0774.68-0.21-0.04620094.924.570.350.0724.770.150.0314.790.130.026平均誤差0.470.200.15最大誤差1.150.38-0.21
由表2和圖2看出,多元回歸預(yù)測模型的預(yù)測值與實測值相差較大,其變化曲線變化幅度明顯,尤其是在2008年絕對誤差達(dá)到1.15 g/L,說明在檢驗樣本較少的情況下,多元回歸預(yù)測模型對灌域年均地下水礦化的預(yù)測具有不穩(wěn)定性,預(yù)測值與實測值相關(guān)性R2=0.28,預(yù)測效果不是很理想。BP神經(jīng)網(wǎng)絡(luò)預(yù)測模型預(yù)測值與實測值逐年變化趨勢大體相同,但在2006年和2008年得到的預(yù)測值偏離實測值較多,分別達(dá)到0.38和0.35 g/L,預(yù)測值與實測值相關(guān)性R2=0.72,預(yù)測精度明顯提高。對比以上2種預(yù)測模型,支持向量機(jī)預(yù)測模型所得到的預(yù)測值變化曲線與實際變化曲線最為接近,且變化趨勢一致,平均誤差最小,僅為0.15 g/L,預(yù)測值與實測值相關(guān)性R2=0.81,預(yù)測效果最為理想,能夠很好地反應(yīng)研究區(qū)年均地下水礦化度在2005-2009年的實際變化情況。
圖4 3種模型預(yù)測值與實測值對比
決定系數(shù)R2多元回歸模型預(yù)測值BP神經(jīng)網(wǎng)絡(luò)模型預(yù)測值SVM模型預(yù)測值實測值0.280.720.81
本文為探究義長灌區(qū)地下水礦化度長年變化規(guī)律,建立了基于支持向量機(jī)的內(nèi)蒙古義長灌域年均地下水礦化度預(yù)測模型,并與多元回歸預(yù)測模型和BP神經(jīng)網(wǎng)絡(luò)預(yù)測模型進(jìn)行對比,得出以下結(jié)論。
(1)本文建立的3種預(yù)測模型(多元回歸模型、BP神經(jīng)網(wǎng)絡(luò)模型、支持向量機(jī)模型)最大誤差分別為1.15、0.38、-0.21 g/L,平均誤差分別為0.47、0.20、0.15 g/L。可見,3種模型中支持向量機(jī)預(yù)測模型預(yù)測效果優(yōu)于BP神經(jīng)網(wǎng)絡(luò)預(yù)測模型,而BP神經(jīng)網(wǎng)絡(luò)預(yù)測模型預(yù)測效果優(yōu)于多線回歸預(yù)測模型。
(2)通過實測數(shù)據(jù)對3種模型進(jìn)行驗證,多元回歸預(yù)測模型預(yù)測值與實測值相關(guān)性較低,R2僅有0.28,預(yù)測效果不佳。BP神經(jīng)網(wǎng)絡(luò)預(yù)測模型、支持向量機(jī)預(yù)測模型預(yù)測值與實測值相關(guān)性分別是R2=0.72和R2=0.81??梢姡珺P神經(jīng)網(wǎng)絡(luò)預(yù)測模型和支持向量機(jī)預(yù)測模型都能夠較大地提高了灌區(qū)年均地下水礦化度的預(yù)測精度,其中支持向量機(jī)預(yù)測模型預(yù)測效果最好。
(3)灌域地下水礦化度受很多因素影響,通過利用支持向量機(jī)的方法,能夠以較少因子對灌域多年平均地下水礦化度進(jìn)行預(yù)測而取得良好的效果,說明支持向量機(jī)模 型在長年地下水礦化度監(jiān)測方面有很好的適用性,為灌域地下水研究和生態(tài)環(huán)境改善提供新思路。