李 明,胡岑龍,陶光林
(黔東南州林業(yè)科學研究所,貴州 凱里 556000)
葉綠素作為植物進行光合作用的重要生化參數(shù),其含量變化與植物光合速率、氮素水平以及植株健康狀況等密切相關(guān),在植物生長、營養(yǎng)狀況及光合作用等方面具有指示作用[1-2]。傳統(tǒng)的葉綠素測量方法主要是通過野外采樣和室內(nèi)分析獲得,該方法不但費時、費力,且對采集對象具有一定的破壞性和不可恢復性,難以實現(xiàn)大面積葉綠素含量的實時獲取[3]。當前已廣泛使用SPAD值反映葉綠素含量,SPAD值表示葉片單位面積葉綠素的相對含量,是一個無量綱的比值。與傳統(tǒng)方法相比,SPAD測定具有快速、無損和簡便的特點,但僅能進行某個點或小范圍的測量,不利于大范圍葉綠素含量的監(jiān)測[4]。而隨著遙感技術(shù)的不斷發(fā)展,高光譜憑借其高空間分辨率、多波段和光譜信息豐富的特點和優(yōu)勢,使實時、快速監(jiān)測植被葉綠素含量成為可能,為采用遙感無損大尺度監(jiān)測植被葉綠素含量提供了有效手段[5]。20世紀90年代,Blackburn[6]通過光譜指數(shù)估計葉片色素濃度得出葉綠素與高光譜波段之間存在一定的關(guān)系。隨后,許多學者利用高光譜原始數(shù)據(jù)或由原始數(shù)據(jù)構(gòu)建的植被指數(shù)、基于經(jīng)驗統(tǒng)計模型估算葉綠素含量開展了大量的研究,但大多集中在農(nóng)作物小麥、玉米、棉花等方面,而在森林植被方面,杜華強等[7]基于偏最小二乘回歸模型建立了馬尾松葉綠素含量與光譜反射率及9個特征參數(shù)之間的預測模型,其精度遠大于傳統(tǒng)線性回歸模型。林輝等[8]以杉木成熟林為研究對象,通過分析葉綠素總量與原始光譜、原始光譜一階微分之間的相關(guān)性,構(gòu)建了杉木葉綠素含量的高光譜模型。隨著研究的不斷深入,模型構(gòu)建方面開始使用機器學習模型,馮海寬等[9]基于特征光譜參數(shù)利用隨機森林模型較好估算了蘋果葉片葉綠素含量。尼格拉·吐爾遜等[10]基于光譜一階導數(shù)的地理加權(quán)最小二乘支持向量回歸模型較好實現(xiàn)了對紅棗樹葉片SPAD值的預測。
油茶(CamelliaoleiferaAbel.)為我國4大木本油料樹種之一。本文分別對原始光譜進行一階導數(shù)、S-G平滑、多元散射校正(MSC)、標準正態(tài)變量(SNV)及向量歸一化(VN)處理,結(jié)合偏最小二乘回歸模型進行油茶葉片SPAD值估算,探索簡便、快捷的油茶葉片光譜預處理方法和油茶葉片SPAD值反演模型,為提高油茶葉綠素含量遙感估算精度,以便精準監(jiān)測其生長及健康狀況提供一定的理論依據(jù)和技術(shù)支持。
研究區(qū)位于貴州省黎平縣東風林場(東經(jīng)109°11′15″,北緯26°20′23″),研究對象為2021年7月采集的油茶葉片,為保證試驗結(jié)果的代表性,在油茶試驗林內(nèi)隨機選取林齡為11 a生長健康的油茶樹50株作為樣本,每個樣本按照上、中、下3層隨機各采集健康、完整、無損的葉片3片,共采集9片作為1個樣本的樣葉,將采集的葉片裝入密封袋并編號,帶回實驗室進行光譜數(shù)據(jù)的測定。
使用FX2000光譜儀(光譜儀波長范圍為350—1 100 nm,狹縫寬度25 μm,光譜分辨率0.73 nm,以鎢石英鹵素燈為光源)在暗室內(nèi)進行油茶葉片光譜數(shù)據(jù)采集,為降低環(huán)境對測量結(jié)果的干擾,每次光譜測量前用白板進行定標,并用干燥紙巾將葉片表面擦試干凈,然后鋪平放置于操作平臺,探頭在距葉片2 cm處垂直向下測量,每個樣本的樣葉重復測量5次,取其平均值作為該樣本的光譜反射率。根據(jù)Chan等[11]人的研究,葉綠素敏感波段主要分布在可見光-近紅外波段。因此,本研究選擇400—1 000 nm波段進行油茶葉片特征波段的選擇和葉綠素含量的估算研究。
為保證數(shù)據(jù)的一致性和精度,每個樣本光譜測量完后隨即采用HM-YD葉綠素儀進行SPAD值的測量,測量時避開主脈,每個樣本的樣葉隨機選擇5個不同部位進行測量,最終取平均值作為該樣本的SPAD值。
本文使用Unscrambler 10.4軟件對原始光譜進行一階導數(shù)(主要是消除不同程度的背景干擾、實現(xiàn)光譜基線校正、提高不同吸收特征的對比度和光譜特征值)、S-G平滑(消除數(shù)據(jù)噪聲在提取地物光譜信息時產(chǎn)生的干擾)、多元散射校正(MSC,主要是消除顆粒大小對光譜產(chǎn)生的光譜差異,增加光譜與數(shù)據(jù)間的相關(guān)性)、標準正態(tài)變量(SNV,主要用于消除表面散射及光程度變化所帶來的光譜誤差)和向量歸一化(VN,主要通過光譜數(shù)據(jù)減去光譜的吸光度平均值,來消除光程變化對光譜產(chǎn)生的影響)5種預處理。
為了提高估算模型的普適性,需對構(gòu)建的估測模型進行精度評價,將樣本實測值帶入估測模型進行實際樣本值與估測模型值之間的精度比較。本研究采用以下3種評價指標對構(gòu)建的模型效果進行評價:
(1)決定系數(shù)(R2)。R2用于表示實測值與預測值間的擬合程度,數(shù)值范圍為0—1。R2越大, 模型的穩(wěn)定性和準確性越高。
(2)均方根誤差(RMSE)。用RMSE來確定模型的預測能力。RMSE越小,模型的精度越高,預測能力越好。
(3)相對誤差(RE)。RE表示預測值與實測值的偏差。RE越小, 模型的估算能力越強, 則預測值與實測值擬合效果更好。
在原始光譜數(shù)據(jù)的采集中,不僅包含有用信息,同時還受到雜散光、儀器噪聲、樣品背景、基線漂移等因素的干擾,這些因素都影響了特征波長的選取,從而影響光譜的定量和定性分析結(jié)果。因此,為了使提取的光譜信息更加準確反映樣本曲線的變化,需要對原始光譜進行預處理,盡量消除或減少光照強度、環(huán)境因素和噪聲干擾對光譜信息的影響。本試驗采用一階導數(shù)、S-G平滑、MSC、SNV和VN方法對原始數(shù)據(jù)進行預處理,原始光譜與處理后的光譜對比見圖1。
圖1 原始光譜與預處理后的光譜
在對樣本進行光譜信息采集時,采集的每條光譜曲線包含有數(shù)百甚至數(shù)千個數(shù)據(jù)點,同時,光譜信息中含有大量的冗余、共線和重疊信息,大量的數(shù)據(jù)明顯影響建模的精度。本文利用連續(xù)投影算法[12](SPA)篩選油茶光譜數(shù)據(jù)SPAD值的敏感特征波段。作為一種前向特征向量選擇方法,它以較高的精度在光譜分析領(lǐng)域得到了廣泛的應用。當用于光譜敏感特征波段的篩選時,可以通過設置特征波段的數(shù)量來降低建模的復雜性,研究設置特征波段篩選的數(shù)目范圍為1—15,在均方根誤差達最小時篩選出共線性最小、相關(guān)性最高的油茶葉片光譜對SPAD值敏感的特征波段。圖2為通過SPA算法對原始光譜及預處理光譜篩選的特征波段,橫軸表示波長,縱軸表示光譜反射率。由圖2可以看出,在500—1 000 nm波段為主要的敏感特征波段分布范圍,以670—780 nm波段范圍的特征波段最多。
圖2 基于SPA算法的特征波長選擇結(jié)果
在R軟件下采用pls包進行偏最小二乘回歸(PLSR)模型的構(gòu)建,以連續(xù)投影算法從原始光譜和預處理光譜中提取的特征波長作為回歸模型的自變量,以油茶葉片的SPAD值作為因變量,采用SPXY算法[13]按7∶3的比例進行樣本劃分,將油茶葉片SPAD樣本劃分為35個建模集和15個預測集,分別進行PLSR模型的構(gòu)建和預測,結(jié)果如表1所示。
表1 基于PLSR的油茶葉片SPAD值估算模型結(jié)果
由表1建模集可知,光譜經(jīng)過預處理后,建模精度較原始光譜數(shù)據(jù)均有不同程度的提高,對5種預處理方法(一階導數(shù)、S-G平滑、MSC、SNV和VN)建立的PLSR模型的精度對比發(fā)現(xiàn),經(jīng)過MSC預處理后的建模集決定系數(shù)R2最高達0.855。S-G平滑建模集決定系數(shù)R2最低為0.623。SNV預處理與MSC預處理的建模精度相差較小,從整個建模效果對比可知MSC>SNV>一階導數(shù)>VN>S-G平滑>原始光譜。
從表1的預測集可知,原始光譜預測精度R2為0.794,預測精度大于預處理的一階導數(shù)、SNV和VN模型的預測精度。5種預處理方法中S-G平滑處理的預測精度最高,決定系數(shù)R2達0.835;其次是MSC預處理,決定系數(shù)R2達0.818。通過對預測集結(jié)果的殘差分析可知,S-G平滑處理預測結(jié)果殘差的正態(tài)檢驗不通過,雖然決定系數(shù)R2最高,但模型預測的結(jié)果不準確。通過模型綜合分析可知,MSC預處理的建模集和預測集的精度具有較好的一致性,建立的模型預測效果最好,能更好實現(xiàn)對油茶葉片SPAD值的估算。圖3為不同預處理光譜SPAD值PLSR模型實測值和預測值散點圖。
圖3 不同預處理光譜SPAD值PLSR模型實測值和預測值散點圖
本文以油茶葉片SPAD值為研究對象,以簡化和提高油茶葉片SPAD值模型估測精度為研究目的,對原始光譜曲線分別進行了一階導數(shù)、S-G平滑、MSC、SNV和VN預處理,然后通過SPA算法對油茶葉片光譜數(shù)據(jù)進行SPAD值敏感特征波段篩選,最后采用SPXY算法進行模型樣本的劃分,并建立了估算油茶葉片SPAD值的偏最小二乘回歸模型,結(jié)果顯示,光譜經(jīng)不同變換和SPA算法處理后,有效降低了光譜信息的冗余,剔除了大量的重疊信息,還保證了篩選的特征波段之間共線性最小,減少了模型自變量的個數(shù),降低了模型構(gòu)建的復雜程度,模型精度也得到了提高。
與直接采用原始光譜數(shù)據(jù)建模相比,光譜經(jīng)不同變換后減少了各種干擾信息的影響,有價值波段信息得到增強,采用MSC預處理建立的估算模型精度最高,其建模集R2,RMSE和RE分別為0.855,2.361和3.194%;預測集R2,RMSE和RE分別為0.818,1.980和2.533%,預測效果最好,建立的模型可較好實現(xiàn)對油茶葉片SPAD值的估算。
葉綠素是植物葉片中吸收光能的主要物質(zhì),其濃度的多少對植株的生長情況產(chǎn)生重要影響[14]。且植物葉片中其他營養(yǎng)元素的合成也與葉綠素內(nèi)部結(jié)構(gòu)有一定的聯(lián)系,通過對葉綠素含量的監(jiān)測,可有效估算植物營養(yǎng)狀況及生理狀態(tài)[15]。而植物葉片的營養(yǎng)狀況與自身的光譜特征密切相關(guān),植物葉片的光譜反射率隨著葉綠素含量的不同而呈現(xiàn)出不同的光譜響應曲線[16]。而高光譜遙感信息量豐富,原始光譜易受環(huán)境、背景及噪聲的影響,不可避免會攜帶一些與測試樣本不相關(guān)的信息,如果直接將原始光譜用于建模,反演模型的精度將受到一定程度的制約。基于此,本文采用一階導數(shù)、S-G平滑、MSC、SNV和VN共5種常用的光譜預處理方法,對預處理后的光譜信息進行特征波段選取,并嘗試性地對油茶葉片SPAD值進行光譜建模。MSC預處理建立的SPAD值模型預測能力最好,R2為0.818,SNV預處理預測效果最差,R2為0.769。由于光譜曲線經(jīng)MSC處理后部分有用信息得到增強,建立的模型質(zhì)量較好。一階導數(shù)、SNV和VN預處理的模型預測能力,比直接采用原始光譜建模的預測能力較差,這說明不同的光譜預處理方法能直接影響模型預測效果[17]。
由于高光譜數(shù)據(jù)包含的信息量大,對高光譜數(shù)據(jù)進行分析的方法也多種多樣,如何從數(shù)百甚至數(shù)千個光譜信息中提取針對油茶葉綠素的敏感光譜參數(shù),一直都是高光譜數(shù)據(jù)反演的重點和難點。本文只是進行了幾種簡單的光譜預處理,通過連續(xù)投影算法實現(xiàn)油茶葉片SPAD值預測模型構(gòu)建,仍存在不足,未進行多種預處理方法的組合及多個模型對比,建立的模型以及篩選的最佳預處理方法還需進一步探索,模型的穩(wěn)健性及普適性有待進一步完善。