宋敬茹,滿衛(wèi)東,2,3,4*,高均海,張永彬,劉明月,2,3,4,郝玉峰,鄭 浩,楊曉蕪
(1.華北理工大學(xué) 礦業(yè)工程學(xué)院,河北 唐山 063210;2.唐山市資源與環(huán)境遙感重點(diǎn)實(shí)驗(yàn)室,河北 唐山 063210;3.河北省礦區(qū)生態(tài)修復(fù)產(chǎn)業(yè)技術(shù)研究院,河北 唐山 063210;4.河北省礦業(yè)開發(fā)與安全技術(shù)重點(diǎn)實(shí)驗(yàn)室,河北 唐山 063210;5.中煤科工生態(tài)環(huán)境科技有限公司唐山分公司,河北 唐山 063012)
【研究意義】土壤是生態(tài)系統(tǒng)的重要組成部分,是植物生長的必需因素。土壤含水量是土壤中必不可少的成分之一,是水文、林業(yè)和農(nóng)業(yè)領(lǐng)域關(guān)注的熱點(diǎn)[1]。植物依托土壤水分獲取土壤鹽分,土壤含水量直接影響土壤-植被生態(tài)系統(tǒng)中的水分和養(yǎng)分循環(huán)[2]。土壤含水量是評(píng)價(jià)土壤水分的重要指標(biāo),可以調(diào)節(jié)土壤所受的侵襲程度影響土壤持水能力。常規(guī)土壤含水量獲取是一項(xiàng)需消耗大量的人力、物力和資金的工程,且大多是地面測(cè)定實(shí)驗(yàn),難以實(shí)現(xiàn)大尺度的快速監(jiān)測(cè)[3]。灘涂位于海洋與陸地交會(huì)處,因其獨(dú)特的地理位置,使土壤樣品采樣難度增加,對(duì)灘涂土壤含水量進(jìn)行區(qū)域尺度監(jiān)測(cè)耗費(fèi)更大。如何實(shí)現(xiàn)濱海灘涂土壤含水量預(yù)測(cè),是目前海岸帶生態(tài)環(huán)境管理亟待解決的重要問題,構(gòu)建濱海灘涂土壤含水量預(yù)測(cè)模型對(duì)快速、高效地監(jiān)測(cè)其土壤含水量具有重要意義?!厩叭搜芯窟M(jìn)展】高光譜技術(shù)能夠直接獲取連續(xù)的土壤反射率信息,其對(duì)土壤含水量的細(xì)微變化較為敏感,可為灘涂土壤含水量定量反演提供技術(shù)支持[4]。眾多學(xué)者通過尋求土壤含水量高光譜最佳波段,進(jìn)行基于各種反射率數(shù)據(jù)的土壤含水量定量預(yù)測(cè)研究。Li 等[5]開發(fā)了一種利用手持式光譜輻射計(jì)估算土壤含水量水平的方法,發(fā)現(xiàn)當(dāng)土壤含水量低于19% db時(shí),土壤水分含量與對(duì)應(yīng)高光譜反射率呈線性相關(guān),得到了利用地面遙感獲得的高光譜反射率來估算土壤含水量是可行的結(jié)論。Wu 等[6]采用流行的線性回歸算法,選取695,711,736,747,767,778,796 nm 波段構(gòu)建灌溉農(nóng)田土壤含水量高精度反演模型。王靜等[7]采集175個(gè)土樣及相應(yīng)含水量,并結(jié)合對(duì)應(yīng)土樣實(shí)驗(yàn)室光譜數(shù)據(jù),建立了在1 423,1 524,1 746 nm 光譜波段下土壤含水量的預(yù)測(cè)回歸模型。劉偉東等[8]利用相對(duì)反射率法、一階微分法、反射率對(duì)數(shù)一階微分、差分法等方法分別對(duì)10 種土壤含水量進(jìn)行預(yù)測(cè),結(jié)果表明:反射率對(duì)數(shù)一階微分、差分法對(duì)土壤含水量具有很好的預(yù)測(cè)效果。以上研究多基于室內(nèi)的高光譜數(shù)據(jù),通過算法或光譜反射率變換研究發(fā)現(xiàn)反映土壤含水量信息的主要波段集中在1 400,1 900,2 200 nm波段周圍,而關(guān)于野外原位土壤光譜對(duì)土壤含水量的響應(yīng)以及二者之間的預(yù)測(cè)模型研究較少。自20世紀(jì)90年代起,土壤屬性預(yù)測(cè)模型經(jīng)歷了從線性回歸方法到機(jī)器學(xué)習(xí)方法的演變過程[9],提高模型預(yù)測(cè)精度一直是相關(guān)領(lǐng)域關(guān)注的焦點(diǎn)。Moore 等[10]采用線性回歸與判別分析結(jié)合的方法對(duì)土壤屬性進(jìn)行預(yù)測(cè)。Hong 等[11]利用支持向量機(jī)(SVM)估算土壤有機(jī)質(zhì)(SOM)含量,比較了分?jǐn)?shù)階導(dǎo)數(shù)(FOD)與光譜變量選擇技術(shù)(CARS)、彈性網(wǎng)(ENET)和遺傳算法(GA)不同組合優(yōu)化土壤近紅外光譜模型,并取得了較好的效果。Tomislav 等[12]研究發(fā)現(xiàn)RF 模型相較于線性回歸模型對(duì)土壤屬性的預(yù)測(cè)誤差明顯下降,說明RF模型對(duì)于非洲土壤屬性制圖方面具有良好的適用性。Curtis等[13]使用統(tǒng)計(jì)學(xué)習(xí)方法與機(jī)器學(xué)習(xí)算法分別對(duì)玉米種植區(qū)土壤氮含量進(jìn)行預(yù)測(cè),對(duì)比發(fā)現(xiàn)基于機(jī)器學(xué)習(xí)算法構(gòu)建的模型預(yù)測(cè)精度更高。Zhang等[14]使用多元線性回歸模型和隨機(jī)森林模型預(yù)測(cè)復(fù)墾土壤的有機(jī)碳含量,發(fā)現(xiàn)隨機(jī)森林模型可以獲得更高的R2和更低的誤差指數(shù)。Forkuor等[15]利用遙感變量采用機(jī)器學(xué)習(xí)和多元線性回歸對(duì)土壤性質(zhì)進(jìn)行了對(duì)比研究。多數(shù)研究表明機(jī)器學(xué)習(xí)模型較傳統(tǒng)線性模型能更好地預(yù)測(cè)土壤的屬性,但仍需基于不同土壤類型和區(qū)域特性選擇適用的建模方法。
【本研究切入點(diǎn)】滄州市濱海區(qū)域是典型的淤泥質(zhì)海灘,該區(qū)域內(nèi)灘涂廣泛分布,植物種類豐富,構(gòu)建濱海灘涂土壤含水量預(yù)測(cè)模型對(duì)土壤-植被生態(tài)系統(tǒng)水分循環(huán)研究具有重要意義?!緮M解決的關(guān)鍵問題】基于實(shí)測(cè)濱海灘涂土壤原位高光譜和對(duì)應(yīng)土壤含水量數(shù)據(jù),采用逐步線性回歸(MSR)和支持向量機(jī)回歸(SVR)方法構(gòu)建濱海灘涂土壤含水量預(yù)測(cè)模型,比較不同變換形式的土壤反射率下表層灘涂土壤含水量預(yù)測(cè)模型精度,分析出最優(yōu)預(yù)測(cè)模型,以期更加快速精準(zhǔn)地獲取濱海灘涂土壤含水量,解決土壤含水量獲取復(fù)雜的問題,推動(dòng)滄州沿海區(qū)域?yàn)┩可鷳B(tài)系統(tǒng)科學(xué)管理。
滄州(37°29′~38°57′N,115°42′~117°50′E)地處河北省東南部,北依京津,南接山東,總面積約為14 304.26 km2(圖1),屬于暖溫帶大陸性季風(fēng)氣候,年均降水量達(dá)600 mm 左右。四季分明,河流眾多,素有“九河下梢”之稱。滄州海岸帶的近岸灘涂資源豐富,濱海灘涂因渤海潮汐堆積形成,以沙土、黏土和淤泥為主要土壤類型。濱海灘涂表層土壤(0~20 cm)粒徑變化約為2.15~55.73 μm,屬粉砂質(zhì)土壤。
圖1 研究區(qū)概況與采樣點(diǎn)分布Fig.1 Survey of the study area and distribution of sampling sites
1.2.1 濱海灘涂土壤樣品采集與土壤含水量測(cè)定 2019 年8 月,沿滄州海岸線從北到南依次確定14 個(gè)濱海灘涂土壤采樣點(diǎn)(圖1),每點(diǎn)采集表層(0~20 cm)土壤樣品2 個(gè)并密封保存,用于測(cè)定土壤含水量。采用烘干法測(cè)定土壤含水量。烘干前將采集的濱海灘涂土壤樣品稱重記為m1,在105 ℃的烘箱中烘干土壤樣品,直至前后兩次稱重恒定不變,稱重記為m2,土壤水分計(jì)算公式如下:
其中,ω為土壤含水量,m1為烘干前土樣的質(zhì)量(g),m2為烘干后土樣的質(zhì)量(g)。
1.2.2 濱海灘涂土壤原位光譜采集與處理 利用FieldSpec 4 便攜式光譜儀(350~2 500 nm)實(shí)測(cè)灘涂土壤原位光譜。高光譜數(shù)據(jù)采集時(shí),天氣晴朗無風(fēng),在每天10:00—14:00 獲取濱海灘涂土壤高光譜數(shù)據(jù)。采樣前先去除暗電流影響,并利用白板進(jìn)行定標(biāo)。FieldSpec 4便攜式光譜儀傳感器探頭垂直于地面,并與地面相距1 m,每個(gè)采樣點(diǎn)采集5條土壤反射率光譜曲線。
用ViewSpecPro 軟件對(duì)每個(gè)采樣點(diǎn)的5條實(shí)測(cè)光譜數(shù)據(jù)取平均值作為原始光譜反射率[16]。將取均值后的土壤光譜數(shù)據(jù)進(jìn)行Savitzky-Golay 卷積平滑處理(窗口大小:50,多項(xiàng)式階數(shù):2),以去除噪聲影響[17]。在對(duì)原始光譜反射率進(jìn)行土壤含水量特征分析的基礎(chǔ)上,采用倒數(shù)(1/R)、反射率倒數(shù)的對(duì)數(shù)(log(1/R))、一階微分(R′)以及去包絡(luò)線(CR)等變換方法[18],獲取土壤含水量預(yù)測(cè)模型構(gòu)建的變量。
1.3.1 相關(guān)性分析 利用Pearson 相關(guān)系數(shù)分析原位光譜和4 種光譜變換形式下的光譜數(shù)據(jù)與濱海灘涂土壤含水量的相關(guān)性[62]。根據(jù)土壤含水量與光譜數(shù)據(jù)的相關(guān)程度,快速準(zhǔn)確地選取了土壤對(duì)應(yīng)的特征光譜波長。這為進(jìn)一步構(gòu)建濱海灘涂含水量預(yù)測(cè)模型提供了便利。相關(guān)性分析具有很強(qiáng)的目的性,精度高,可靠性好。相關(guān)系數(shù)高于0.7 表示關(guān)系非常緊密;0.4~0.7 表明關(guān)系密切;從0.2~0.4 表明關(guān)系正常。
式中:xi表示光譜反射率值,表示光譜反射率值的平均測(cè)量值,yi表示土壤含水量的測(cè)量值表示土壤含水量的平均測(cè)量值,n表示樣品的數(shù)量,i=1,2,3…,n,r表示相關(guān)程度。
1.3.2 多元逐步回歸模型(MSR)基于多個(gè)變換形式下光譜反射率,采用多元逐步回歸方法分別建立灘涂表層土壤含水量的高光譜預(yù)測(cè)模型,多元逐步回歸模型的結(jié)構(gòu)形式為:
式中:x1、x2、x3…xn為光譜反射率值,為表層灘涂土壤含水量預(yù)測(cè)值,α1、α2、α3…αk為自變量回歸系數(shù),b0為常數(shù)項(xiàng)。
1.3.3 支持向量回歸模型(SVR)SVR 基于支持向量機(jī)(SVM)來擬合曲線,其是由SVM 擴(kuò)展而來的[19]。SVR 與SVM 類似,SVR 使用條帶擬合數(shù)據(jù),其優(yōu)點(diǎn)是可以高精度近似復(fù)雜的非線性連續(xù)函數(shù)[20]。優(yōu)化SVR模型的目的是通過調(diào)整超參數(shù)來實(shí)現(xiàn)的,以找到超平面滿足所有數(shù)據(jù)的最小距離的位置。
SVR 模型有兩個(gè)非常重要的超參數(shù)cost 與gamma,cost 是懲罰系數(shù),即對(duì)誤差的寬容度,cost 值越大則越不能容忍出現(xiàn)誤差,容易過擬合;cost值越小,容易欠擬合[21]。RBF 函數(shù)作為核函數(shù)(kernel),其自帶超參數(shù)為gamma,其隱含地決定了數(shù)據(jù)映射到新的特征空間后的分布,gamma 值越大,支持向量個(gè)數(shù)越少;反之gamma 值越小,支持向量個(gè)數(shù)越多[22]。而支持向量的個(gè)數(shù)影響訓(xùn)練與預(yù)測(cè)的速度,故調(diào)整參數(shù)cost和gamma可以達(dá)到優(yōu)化SVR的作用。
1.3.4 模型精度評(píng)定 灘涂土壤預(yù)測(cè)模型建立時(shí),采用留一交叉驗(yàn)證法(leave-one-out cross-validation,簡稱LOO-CV)對(duì)模型進(jìn)行驗(yàn)證[23]。該方法是一種K 折疊交叉驗(yàn)證法,使K 等于數(shù)據(jù)集中的數(shù)據(jù)量。每次只使用一個(gè)測(cè)試集,其余的都作為訓(xùn)練集[24]。這種方法得到的結(jié)果最接近于訓(xùn)練整個(gè)測(cè)試集的預(yù)期值,適合于基于本研究的小樣本數(shù)據(jù)。
模型的檢驗(yàn)精度采用預(yù)測(cè)值與實(shí)測(cè)值的調(diào)整型決定系數(shù)(Adjusted-R2)、均方根誤差(RMSE)和相對(duì)分析誤差(RPD)來評(píng)價(jià)[25]。Adjusted-R2越大、RMSE 越小,表明模型估算精度越高。RPD 值可以用來解釋模型的預(yù)測(cè)能力,當(dāng)RPD<1.4 時(shí),表明模型無法進(jìn)行準(zhǔn)確預(yù)測(cè);當(dāng)1.4≤RPD<2.0 時(shí),表明模型的預(yù)測(cè)能力一般;RPD≥2.0時(shí),表明模型具有較好的預(yù)測(cè)能力[26],公式如下:
式中,yi為土壤含水量實(shí)測(cè)值,?為土壤含水量預(yù)測(cè)值,為土壤含水量實(shí)測(cè)值的平均值,n為樣本數(shù)量[27],用i=1,2,3,…,n表示,SD為實(shí)測(cè)值標(biāo)準(zhǔn)偏差。
濱海灘涂土壤含水量會(huì)對(duì)土壤光譜反射率造成較強(qiáng)的非線性干擾,比較不同濱海灘涂土壤含水量反射光譜,發(fā)現(xiàn)隨著濱海灘涂土壤含水量增加,在原位光譜區(qū)間可見近紅外(VIS-NIR)(350~2 500 nm)的光譜反射率有明顯下降趨勢(shì)(圖2),與其他研究者得到規(guī)律一致[28]。不同濱海灘涂土壤樣品的光譜走勢(shì)基本相同,波峰與波谷所在波段一致,均在500~1 500 nm和2 000~2 200 nm光譜區(qū)間濱海灘涂土壤光譜反射率隨波長增加而增加,1 600~1 800 nm 光譜區(qū)間濱海灘涂土壤光譜反射率波動(dòng)較小,2 200~2 500 nm光譜區(qū)間濱海灘涂土壤光譜反射率隨波長增加反射率降低。野外實(shí)測(cè)原位光譜受大氣水汽的影響,在1 900 nm光譜處存在較為明顯的反射峰。1 400~1 600 nm和2 000~2 200 nm光譜區(qū)間處分別存在較為明顯的土壤含水量吸收谷。
圖2 濱海灘涂土壤光譜曲線Fig.2 Spectral curve of tidal flat soils
濱海灘涂土壤含水量與原位光譜相關(guān)性通過Pearson 相關(guān)系數(shù)進(jìn)行分析,快速、準(zhǔn)確篩選出用于構(gòu)建濱海灘涂土壤含水量預(yù)測(cè)模型的光譜區(qū)間。原始光譜反射率(R)、倒數(shù)(1/R)、反射率倒數(shù)的對(duì)數(shù)(log(1/R))、一階微分(R′)以及去包絡(luò)線(CR)與濱海灘涂土壤含水量的相關(guān)程度在0.4以上的光譜波段如圖3 所示。研究發(fā)現(xiàn)原位光譜R 和R′、1/R、log(1/R)、CR 均在1 000~1 300 nm、1 400~1 600 nm 和1 900~2 400 nm 維持與濱海灘涂土壤含水量相關(guān)性緊密,而光譜R′與濱海灘涂土壤含水量相關(guān)性高低分布較為明顯。結(jié)合光譜特征區(qū)間選擇用于建模的波段為1 400~1 600 nm 和1 900~2 400 nm。
圖3 不同濱海灘涂土壤光譜反射率變換形式對(duì)應(yīng)的濱海灘涂土壤含水量相關(guān)系數(shù)及波段Fig.3 Correlation coefficient and band of soil water content in tidal flats corresponding to different tidal flats soil spectral reflectance transformation form
不同濱海灘涂土壤含水量預(yù)測(cè)模型精度顯示:基于MSR構(gòu)建的濱海灘涂土壤含水量預(yù)測(cè)模型中,精度最高的是基于R構(gòu)建的濱海灘涂土壤含水量預(yù)測(cè)模型,精度最低的為基于CR 構(gòu)建的濱海灘涂土壤含水量預(yù)測(cè)模型;利用MSR 方法構(gòu)建的濱海灘涂土壤含水量預(yù)測(cè)模型由于Adjusted-R2值均小于0.4,RPD均低于1.4且RMSE較高,導(dǎo)致模型均不具有良好的預(yù)測(cè)能力。
表1 不同濱海灘涂土壤含水量預(yù)測(cè)模型的驗(yàn)證與對(duì)比Tab.1 Verification and comparison of soil water content prediction models in different tidal flats
與MSR 對(duì)比,同種光譜變換形式下,采用SVR 方法構(gòu)建的濱海灘涂土壤含水量預(yù)測(cè)模型結(jié)果更優(yōu),Adjusted-R2和RPD 值均有提高,且RMSE 值也顯著降低。其中,在R′變換形式下,采用SVR 方法構(gòu)建的濱海灘涂土壤含水量預(yù)測(cè)模型的Adjusted-R2最高為0.81,RMSE 較小為2.56,且滿足RPD≥2.0,模型具有很好的預(yù)測(cè)能力。比較基于以上10 個(gè)模型的濱海灘涂土壤含水量預(yù)測(cè)值與實(shí)測(cè)值(圖4),分析濱海灘涂土壤含水量預(yù)測(cè)值與真實(shí)值的95%置信帶和預(yù)測(cè)帶,發(fā)現(xiàn)在R′變換形式下采用MSR 和SVR 方法得到結(jié)果中95%置信帶和預(yù)測(cè)帶會(huì)更加接近真實(shí)值和預(yù)測(cè)值的1∶1線,并結(jié)合對(duì)模型的精度評(píng)價(jià),說明在R′變換形式下采用SVR方法構(gòu)建的濱海灘涂土壤含水量預(yù)測(cè)模型為最優(yōu)模型。
圖4 五種光譜反射率處理模式的回歸模型驗(yàn)證Fig.4 Regression model validation diagram of five spectral reflectance processing modes
全波段建模既會(huì)引起信息冗余,又容易產(chǎn)生嚴(yán)重的多重共線性[29],對(duì)濱海灘涂土壤原位光譜區(qū)間進(jìn)行選取是克服上述問題實(shí)現(xiàn)濱海灘涂土壤含水量預(yù)測(cè)模型構(gòu)建的重要方法。通過分析原位光譜及其變換后的光譜數(shù)據(jù)與濱海灘涂土壤含水量相關(guān)性,篩選出用于構(gòu)建濱海灘涂土壤含水量預(yù)測(cè)模型的光譜(1 400~1 600 nm和1 900~2 400 nm),此研究結(jié)果與Han等[30]研究的土壤含水率引起的光譜吸收谷(1 450 nm 和1 940 nm)相一致。產(chǎn)生的微小范圍差異可能與濱海灘涂土壤類型、環(huán)境因素、植被生長等研究區(qū)現(xiàn)狀有關(guān)[31-33]。
同種原位光譜變換形式下,采用SVR 方法構(gòu)建的濱海灘涂土壤含水量預(yù)測(cè)模型精度高于MSR 方法。當(dāng)土壤含水量與對(duì)應(yīng)的VIS-NIR 光譜之間存在線性關(guān)系時(shí),MSR 方法具有結(jié)構(gòu)簡單、計(jì)算方便、便于理解等優(yōu)勢(shì)[34]。當(dāng)濱海灘涂土壤含水量與原位光譜較難呈現(xiàn)理想化的線性關(guān)系,利用SVR 方法處理其非線性關(guān)系,構(gòu)建的濱海灘涂土壤含水量預(yù)測(cè)結(jié)果具有明顯的精度優(yōu)勢(shì)。相應(yīng)結(jié)論在Forkuor 等[15]的研究中得到了證實(shí):比較多元線性回歸(MLR)、隨機(jī)森林回歸(RFR)、支持向量機(jī)(SVM)、隨機(jī)梯度提升(SGB)4 種方法,發(fā)現(xiàn)RFR 在大多數(shù)情況下提供了最高的準(zhǔn)確性,而MLR 無法處理因變量和自變量之間的非線性關(guān)系。濱海灘涂土壤含水量與光譜數(shù)據(jù)可能呈現(xiàn)的線性關(guān)系與非線性關(guān)系,未來可采用決策樹、隨機(jī)森林和神經(jīng)網(wǎng)絡(luò)等多種機(jī)器學(xué)習(xí)方法建模,增加模型的可靠性,以探求更適用于濱海灘涂土壤的最優(yōu)建模方法。
利用FieldSpec 4便攜式光譜儀高效獲取原位濱海灘涂土壤VIS-NIR光譜數(shù)據(jù)(350~2 500 nm),對(duì)光譜反射率進(jìn)行變換處理(R、1/R、log(1/R)、R′、CR),采用MSR 和SVR 兩種建模方法基于土壤含水量高相關(guān)性光譜波段探究濱海灘涂土壤含水量預(yù)測(cè)模型。主要研究結(jié)論如下:
1)濱海灘涂土壤原位光譜反射率隨土壤含水量增加而下降,在1 400~1 600 nm、1 900~2 400 nm 光譜存在較為明顯的反射峰和吸收谷,光譜反射率經(jīng)過變換處理后與濱海灘涂土壤含水量密切相關(guān)。
2)對(duì)比兩種建模方法發(fā)現(xiàn)無論在何種變換形勢(shì)下,機(jī)器算法SVR比普通線性回歸方法MSR得到預(yù)測(cè)模型更加準(zhǔn)確,Adjusted-R2更高,RMSE更小。其中在R′變換形式下利用SVR方法構(gòu)建的濱海灘涂含水量模型建模效果最好,即為最優(yōu)預(yù)測(cè)模型,其能夠?yàn)樵诙虝r(shí)間內(nèi)獲取濱海灘涂土壤含水量提供數(shù)據(jù)支持。
致謝:唐山市科技計(jì)劃重點(diǎn)研發(fā)項(xiàng)目(19150231E)、唐山市科技研發(fā)平臺(tái)培養(yǎng)計(jì)劃(2020TS003b)、中煤科工生態(tài)環(huán)境科技有限公司生產(chǎn)力轉(zhuǎn)化基金項(xiàng)目(0206KGST005)同時(shí)對(duì)研究給予了資助,張闊、李京對(duì)土壤樣品采集給予了幫助,謹(jǐn)致謝意!
江西農(nóng)業(yè)大學(xué)學(xué)報(bào)2023年2期