王 希, 陳桂芬, 2*, 曹麗英, 馬 麗
1. 吉林農(nóng)業(yè)大學(xué)信息技術(shù)學(xué)院, 吉林 長春 130118 2. 長春人文學(xué)院, 吉林 長春 130117
使用高光譜數(shù)據(jù)對作物葉片氮素含量進行反演的實驗已不少見。 但不少實驗對葉片水分因素并未給予相應(yīng)的重視。 目前已知植物葉片光譜特性主要由水分、 色素、 干物質(zhì)等的光吸收和散射的特性所決定[1]。 從新鮮葉片的反射光譜估算氮的準確性低于植株或地上的干葉[2]。 葉片水分因素對葉片光譜特性的主要影響是水分對入射光輻射的吸收, 比如975, 1 200, 1 450和1 950 nm等水分子振動的倍頻或合頻處的光譜吸收特征[3]; 次要影響是葉片細胞因含水量的變化而膨脹/收縮, 從而改變光在葉片內(nèi)部的多次散射特性, 并影響葉片近紅外波段的光譜反射率[4-5]。 不難看出, 如果不充分評估葉片水分因素對反演精度的影響, 相關(guān)實驗很有可能存在整體偏差。
國內(nèi)外在此領(lǐng)域的相關(guān)研究已有一些報道, 如: Ramoelo等采用了Gao和Goetz最初提出的一種除水技術(shù)[6], 以消除吸水分帶來的影響, 從而改進了對氮含量的估計[7]。 Pacheco-Labrador等提到氮素的一些吸收特征被水分吸收所掩蓋, 因此在新鮮葉片的SWIR反射光譜中無法清晰可見, 從而導(dǎo)致整個光譜中氮素的信號較弱[8]。 Li將連續(xù)小波分析(CWA)與水分去除技術(shù)相結(jié)合, 通過減少水分吸收的影響和增強SWIR區(qū)域的吸收信號, 提高了N含量和LMA的估計[9]。 鄧來飛等以梭梭作為研究對象, 設(shè)置了三個水分梯度; 使用原始光譜、 紅邊位置參數(shù), 結(jié)合植被指數(shù)及二維相關(guān)光譜研究其葉片光譜特征以及在不同水分脅迫作用下的梭梭葉片光譜反射率差異[10]。
使用玉米葉級高光譜數(shù)據(jù), 依據(jù)等效水厚度梯度, 對葉片葉綠素含量進行了對比反演, 以期定量探索等效水厚度因素對葉片反射率特性及反演建模精度的影響。 實驗對比了使用原光譜與參考等效水厚度因素大小滑動劃分后的子光譜的模型的反演精度, 并對相關(guān)模型進行了驗證和評價, 希望能對探索更加貼合實際的無損、 穩(wěn)健葉片葉綠素高光譜反演技術(shù)做出一定貢獻。
數(shù)據(jù)集延用美國林肯大學(xué)Schnable實驗室報道中的數(shù)據(jù), 其中包含高光譜數(shù)據(jù)1 210條。 分為溫室及大田兩種氮肥施用制度下(大田和大田高氮)的共5種情況。 大田數(shù)據(jù)于2018和2019年采集于美國內(nèi)布拉斯加州林肯大學(xué)哈夫洛克研究農(nóng)場(45°51′49″N, 96°31′09″W), 溫室數(shù)據(jù)于2018年采集于林肯溫室創(chuàng)新中心。 數(shù)據(jù)集詳情見表1。
表1 數(shù)據(jù)集明細表
此次實驗并未使用溫室組數(shù)據(jù), 這是因為其他四組數(shù)據(jù)(2018大田低氮, 2018 Field -N; 2019大田低氮, 2019Field -N; 2018大田高氮, 2018 Field +N; 2019大田高氮, 2019 Field +N)更貼近實際農(nóng)業(yè)生產(chǎn)。
首先構(gòu)建等效水厚度(equivalent water thickness, EWT)參數(shù),
EWT=(LFW-LDW)/LA
(1)
式(1)中, LFW是葉鮮重, LDW是葉干重, LA是葉面積。 然后根據(jù)數(shù)據(jù)集中樣本的EWT數(shù)值按從小到大進行排序。 滑動窗口寬度取值范圍是40~80, 步進長度都是10, 對排序后的數(shù)據(jù)集進行滑動劃分。 實驗使用的具體劃分情況見表2。
常見的光譜預(yù)處理方法一般有基線矯正類, 散射校正類和平滑處理類。 基線校正是為了消除儀器背景或漂移對信號的影響, 常見方法包括一階導(dǎo)、 二階導(dǎo)等。 散射校正是為了消除由于顆粒分布不均勻及大小不同導(dǎo)致的散射光對光譜的影響, 常見方法包括MSC和SNV等。 平滑處理是為了消除光譜信號中的隨機噪聲, 提高樣本信號的信噪比。 Savitzky-Golay(SG)平滑法是使用多項式對移動窗口內(nèi)的原始光譜進行多項式分解并用最小二乘法進行擬合, 其實質(zhì)是一種移動加權(quán)平均法。
PLSR是一種線性建模技術(shù), 在響應(yīng)變量和潛在變量(PLS latent variables)之間進行回歸[11]。 潛在變量是原始波段的線性組合, 可以實現(xiàn): (1) 高光譜數(shù)據(jù)的最大可變性, (2) 與響應(yīng)變量間的最大相關(guān)性[12]。
在模型訓(xùn)練中采用10倍交叉驗證來平衡模型復(fù)雜度和預(yù)測精度(即避免過擬合)。 將數(shù)據(jù)集分成10份, 輪流將其中9份作為訓(xùn)練集, 1份作為測試集進行試驗, 每次試驗會獲得對應(yīng)的結(jié)果, 再將10次結(jié)果的平均值作為對模型精度的估計值。
對模型的評價指標有R2(coefficient of determination), RMSE(root mean squared error)和RPD(ratio of performance to deviation)。
RMSE基本公式如式(2)
(2)
RPD基本公式為
RPD=SD/RMSE
(3)
式(3)中, SD為標準差。
根據(jù)文獻[13-14]中的一些指導(dǎo)原則, 我們將RPD值的評價標準劃分為4級: RPD>3.5, 甚至達到代替化學(xué)實驗水平; 3.5>RPD>2.5, 模型具有定量測量水平; 2.5>RPD>1.5, 模型具有定性測量水平; RPD<1.5, 模型無效。
實驗在Python語言環(huán)境下完成, 核心依賴庫有Scikit-Learn, SciPy, NumPy, Pandas和Matplotlib。
PLSR模型中需要優(yōu)化的參數(shù)是n_components, 其數(shù)量在1~30范圍內(nèi)遍歷。 當RMSECV數(shù)值最小時對應(yīng)的n_components數(shù)就是建模所需的最優(yōu)參數(shù)。 在光譜預(yù)處理方法中, SG平滑法的窗口寬度也是需要優(yōu)化的參數(shù)。 窗口寬度取值從3開始, 只取奇數(shù)。
表3 氮素反演結(jié)果
由圖1可知, 2018和2019大田低氮兩組EWT均值分別為0.016 6和0.016 5, 差值較小; 2018和2019大田高氮兩組EWT均值分別為0.019和0.018, 差值也不大。 但若對比同一年度高低氮兩組的EWT均值則會發(fā)現(xiàn), 2018大田高氮組的EWT均值出現(xiàn)了14.46%的提升, 而2019大田高氮組的EWT均值出現(xiàn)了9.09%的提升。 這說明在保障氮肥供應(yīng)條件下, 葉片的單位面積含水量也出現(xiàn)了明顯提升。
圖1 父集EWT數(shù)值分布圖
圖2 變窗口寬度反演精度分布圖
由圖3, 借助PLSR模型中的coef_參數(shù)觀察一下各個頻率(400~2 500 nm)對模型反演水平的貢獻情況。 最明顯的差異在近紅外區(qū)域(750~2 500 nm)出現(xiàn), 2 200 nm一帶父集相應(yīng)頻率有較高貢獻值出現(xiàn), 而子集對應(yīng)頻率貢獻值則偏低。 但考慮到父集反演水平整體是低于最優(yōu)子集的, 這也許是在表明2 200 nm一帶出現(xiàn)的高貢獻值其實意義有限。 而在可見光, 紅邊和近紅外水分吸收峰區(qū)域, 整體趨勢未見特別明顯差異。
圖3 頻率貢獻值分布圖
使用葉級高光譜數(shù)據(jù), 依據(jù)等效水厚度梯度劃分樣本, 建立了梯度連續(xù)的全波段氮素PLSR反演模型, 初步定量探索了等效水厚度因素對反演精度的影響。 實驗結(jié)果表明: (1)等效水厚度對于氮素建模精度存在顯著影響, 該因素應(yīng)該引起相應(yīng)重視; (2)四組數(shù)據(jù)最優(yōu)子集的反演精度均達到甚至超過定性模型水平; (3)存在一個最優(yōu)子集區(qū)域, 本實驗中該區(qū)域的反演精度比使用全樣本反演時附加任何一種光譜變換方法所得的精度都要高, 以效果而論這種子集的劃分方法堪比光譜變換方法; (4)在今后制作反演數(shù)據(jù)集時需要將等效水厚度因素納入考慮, 以避免過于寬泛的樣本選取導(dǎo)致整體反演精度的損失。
據(jù)檢索, 我們尚未發(fā)現(xiàn)依據(jù)EWT梯度劃分子集的方式來分析水分含量因素對葉級高光譜氮素反演建模精度影響的實驗。 對比前人的比如水去除技術(shù)(water removed technique), 我們的方法不存在機理不明的顧慮, 且反演精度提升明顯。 當然, 這次實驗使用的數(shù)據(jù)畢竟有限, 所進行的探索也還很初級。 希望能對探索更加實用的無損、 連續(xù)監(jiān)測玉米葉片養(yǎng)分的反演方法做出一定貢獻。