依爾夏提?阿不來提 買買提?沙吾提,3,* 白燈莎?買買提艾力 安申群 馬春玥
?
基于隨機森林法的棉花葉片葉綠素含量估算
依爾夏提?阿不來提1,2買買提?沙吾提1,2,3,*白燈莎?買買提艾力4安申群1,2馬春玥1,2
1新疆大學資源與環(huán)境科學學院, 新疆烏魯木齊 830046;2新疆綠洲生態(tài)教育部重點實驗室, 新疆烏魯木齊 830046;3新疆智慧城市與環(huán)境建模普通高校重點實驗室, 新疆烏魯木齊 830046;4新疆農(nóng)業(yè)科學院核技術生物技術研究所, 新疆烏魯木齊 830046
為了高效和無損地估算棉花葉片的葉綠素含量, 本研究測定了棉花光譜反射率及葉綠素含量(soil and plant analyzer development, SPAD)值, 對光譜數(shù)據(jù)進行包絡線去除處理、立方根轉換和倒數(shù)轉換, 以SPAD值與反射光譜之間的相關性為基礎, 通過隨機森林法篩選出對棉花葉片SPAD值影響較大的特征波段, 構建估算棉花葉片SPAD值的BP神經(jīng)網(wǎng)絡(back propagation artificial neural networks, BP ANN)、偏最小二乘回歸(partial least squares regression, PLSR)兩個模型。結果表明, 在605~690 nm范圍內的反射率與SPAD值相關性達0.01顯著水平, 均呈負相關, 相關系數(shù)最高值為-0.619。與原始光譜相比, 經(jīng)過變換后的棉花反射率與SPAD值相關性結果相差較大, 其中去除包絡線光譜在550~750 nm波段范圍有效提高了相關性, 相關性效果優(yōu)于倒數(shù)轉換數(shù)據(jù)和立方根轉換數(shù)據(jù)。隨機森林法能夠有效評出對SPAD值影響較大的特征波段, 進而提高模型估算精度。在兩種模型中, 基于去除包絡線光譜建立的PLSR和BP神經(jīng)網(wǎng)絡模型的決定系數(shù)2分別為0.92、0.83, 說明這兩種模型的估算能力較好; 兩種模型RMSE分別為0.88、1.26, RE分別為1.30%、1.89%, 表明PLSR模型的估算精度比BP神經(jīng)網(wǎng)絡模型高。從模型的驗證效果來看, PLSR模型在估算棉花SPAD值方面有一定的優(yōu)勢和參考價值。
SPAD值; 棉花; 隨機森林法; 高光譜估算模型
葉綠素在植物光合作用中起著能量傳遞和捕獲的作用, 且可反映植物氮、磷利用效率以及光合速率的強弱[1-3], 并指示植物生長發(fā)育狀況。高光譜遙感技術作為一種無損、廉價、無污染的技術方法, 近年來廣泛應用于葉綠素信息在植被長勢、生理脅迫狀況中的監(jiān)測及作物估產(chǎn)[4-5]。
國內外學者在高光譜估算農(nóng)作物葉綠素含量方面取得了一定的成果, 估算方法可概括為以下兩類。一類是經(jīng)驗模型。從原始光譜或各種轉換數(shù)據(jù)的基礎上選取敏感波段或以建立的植被指數(shù)為變量, 構建估算模型[6]; 第二類是物理模型。通過冠層和地物特性來反演光譜, 將獲取的結果通過輻射傳輸?shù)任锢砟P瓦M行解釋[7]。Li等[8]通過自創(chuàng)新技術(WREP)從連續(xù)小波轉換的水稻和小麥反射光譜中提取紅邊參數(shù), 并估算兩種作物的葉片葉綠素含量; 毛博慧等[9]采用遺傳算法尋優(yōu)選出486、599、699和762 nm波長處的光譜反射值, 組合計算了12 個植被指數(shù), 并以DVI (726, 699)、SAVI (762, 599)指數(shù)構建苗期冬小麥葉綠素含量估算模型。丁永軍等[10]對番茄葉綠素含量進行估算, 并將原始光譜數(shù)據(jù)進行一階導數(shù)轉換、吸光度光譜轉換和包絡線去除處理, 采取多種共線性診斷選取四類光譜的敏感波段, 構建多元線性回歸模型, 其中, 在去包絡線模型中, 建模集2為0.88, 檢驗集決定系數(shù)2為0.82, 即模型具有較好的預測能力。姚霞等[11]對紅邊位置進行提取, 分析比較利用不同算法所提取的紅邊位置對氮素營養(yǎng)監(jiān)測模型的準確性和可靠性產(chǎn)生的影響。Yi等[12]人對水稻光譜進行主成份分析再建立估算水稻氮含量的線性回歸模型和人工神經(jīng)網(wǎng)絡回歸模型,發(fā)現(xiàn)通過主成份分析和人工神經(jīng)網(wǎng)絡結合建立的回歸模型估算能力更強。上述研究豐富了農(nóng)作物參數(shù)反演方法, 為今后大尺度估算作物葉綠素含量的準確性提供了一定的科學依據(jù)。
以往研究大部分直接選取相關系數(shù)較高的特征參數(shù)建立估算模型, 這可能導致變量的選擇隨機和單一, 缺乏定量化, 模型估算能力并未達到最佳效果。用隨機森林法可計算SPAD值對特征波段的重要性評分并選出最佳估算參數(shù), 對參數(shù)進行定量化, 提高模型估算精度。因此本研究以棉花葉綠素相對含量為研究對象, 對原始光譜數(shù)據(jù)進行包絡線去除處理、立方根轉換和倒數(shù)轉換, 通過相關性分析選取跟SPAD值相關性較高的特征波段, 并用隨機森林法尋優(yōu)選擇最佳估算參數(shù), 建立偏最小二乘回歸模型和BP神經(jīng)網(wǎng)絡回歸模型。
新疆瑪納斯縣新疆農(nóng)業(yè)科學院試驗站位于新疆瑪納斯縣中部的包家店鎮(zhèn)(85°19′~86°25′E, 44°16′~ 44°22′ N), 面積為0.4 hm2, 屬于典型的中溫帶大陸性氣候區(qū), 其特點是冬季時間長, 寒冷; 夏季時間短, 酷熱。該地區(qū)光照較強, 晝夜溫差較大, 年均氣溫7.2℃, 年均降水量193.3 mm, 年平均無霜期168.5 d。試驗田被劃分為60個小區(qū), 供試棉花主要品種為新陸早57號、新陸中21號、農(nóng)墾5號等。種植模式為“1膜3帶6行”, 膜寬為2.35 m, 行距為60 cm, 株距為10 cm。2017年4月28日播種, 5月5日灌出苗水, 化學調控與其他管理措施按照當?shù)馗弋a(chǎn)栽培要求進行。研究區(qū)位置和采樣點分布情況如圖1所示。
對花鈴期的棉花, 使用ASD FieldSpecHandHeld便攜式光譜儀在晴朗無云無風條件下測取北京時間11:30-15:30, 波長為350~1050 nm的光譜, 光譜儀探頭距離棉花葉片冠層高度25 cm, 并保持垂直向下, 設置光譜掃描時間為8 s, 每個樣點測6次。其間, 每測3次進行一次白板標定, 確保數(shù)據(jù)的精確性, 并用Viewspec PRO計算出每樣點6條曲線的平均值作為該點光譜反射值。
為減少光照條件引起的乘性因素, 對光譜數(shù)進行包絡線去除處理(continuum-removal transformation, Rcr)、倒數(shù)轉換(Reciprocal transformation, 1/R)和立方根轉換(cube-root transformation, ?R)。此3種光譜轉換可增強可見光區(qū)域光譜差異, 突出光譜的吸收、反射特征[11]。其中去除包絡線處理可壓抑背景光譜, 并擴大弱吸收特征信息[13-15]。
圖1 研究區(qū)位置和采樣點分布圖
在60個樣區(qū)內用葉綠素計(SPAD-502Plus, Konica Minoita, Japan)測定棉花冠層葉片SPAD值, 每個樣點隨機測量5~6次, 取平均值作為該樣點最終葉片葉綠素含量值。測定時間與光譜測定同步, 位置與光譜測定保持一致。
隨機森林法(random forest, RF)是高維學數(shù)據(jù)分析方法之一, 主要用于高維數(shù)據(jù)分類和回歸, 并可計算出自變量對因變量重要性評分[16-18], 本文以DPS數(shù)據(jù)處理系統(tǒng)計算隨機森林變量重要性評分。首先對棉花SPAD值與四類反射光譜數(shù)據(jù)的相關性進行分析, 在原始光譜和轉換光譜中分別選取12個特征波段, 運用隨機森林法對光譜進行敏感波段尋優(yōu), 并建立偏最小二乘回歸模型和BP神經(jīng)網(wǎng)絡模型。進行隨機森林重要性評分時, 以袋外數(shù)據(jù)對b棵回歸樹進行測試分析, 可分別得均方殘差MMSE,1、MMSE,2、MMSE,3、……、MMSE,b, 在各袋外數(shù)據(jù)集中, 將隨機擾動方法對變量進行置換, 形成新袋外測試集[19-20]。用袋外測試集對b棵回歸樹進行測試, 得出隨機置換后的均方誤差矩陣。
第個輸入變量重要性評分為MMSE,1、MMSE,2、MMSE,3、……、MMSE,b與均方誤差矩陣第行之差的均值與b棵回歸樹標準誤差SE的比值, 可得變量的均方殘差平均減小量。
采用DPS數(shù)據(jù)處理系統(tǒng), 通過隨機森林法篩選出來的特征波段建立估算棉花冠層葉綠素含量的偏最小二乘法回歸(PLSR)模型和BP神經(jīng)網(wǎng)絡(BP ANN)回歸模型。其中, PLSR方法在回歸建模過程中采用數(shù)據(jù)降維、信息綜合和篩選技術。在估算葉綠素含量時, 其主要思想為, 減少光譜維數(shù)的同時, 明確葉綠素含量變化的主控因子, 使模型具備更好的魯棒性[21-22]。BP神經(jīng)網(wǎng)絡模型主要由輸入層、隱含層和輸出層3層組成[23], 通過調整權值將網(wǎng)絡誤差最小化, 把學習結果反饋到隱含層, 改變其權系數(shù)矩陣, 進而達到預期學習目的[24]。將通過相關性分析選出來的, 跟SPAD值相關性較高的高光譜參數(shù)作為神經(jīng)網(wǎng)絡的輸入層, SPAD值作為輸出層, 經(jīng)過多次訓練, 隱含層節(jié)點數(shù)和最大代次數(shù)調節(jié)為最佳估算精度, 建立估算棉花葉片SPAD值BP神經(jīng)網(wǎng)絡回歸模型。分別采用決定系數(shù)(2)、均方根誤差(RMSE)、相對誤差(RE)對模型評估, 以保證模型穩(wěn)定性和估算精度。2越接近1, 表明模型的穩(wěn)定性越好, 且精度高; RMSE和RE越小, 模型的估算能力越精確, 預測方程所得預測值與實測值擬合效果更好。PLSR模型中, 原始光譜和包絡線光譜的6個特征波段分別作為自變量, SPAD值作為因變量, 在已獲取的60組數(shù)據(jù)中隨機選取29組數(shù)據(jù)作為訓練樣本, 24組作為檢驗樣本創(chuàng)建回歸模型; BP神經(jīng)網(wǎng)絡模型將通過隨機森林法選出的原始光譜和去除包絡線光譜的特征波段作為神經(jīng)網(wǎng)絡的輸入層, SPAD值作為輸出層, 經(jīng)過多次訓練, 隱含層節(jié)點數(shù)定為10, 訓練時最大代次數(shù)定為1000。
由圖2可看出, 不同SPAD值的棉花反射率曲線變化趨勢基本相同, 且具有明顯變化規(guī)律。在350~680 nm波段范圍內的反射率比680~1050 nm波段范圍內低, 總體上繼承了棉花葉片光譜反射率的特征。在350~680 nm波段范圍內隨著SPAD值的增加, 光譜反射率顯著降低, 光譜差異較大, 其中在490~550 nm波段范圍反射率平穩(wěn)上升, 綠光區(qū)域的550 nm處出現(xiàn)綠色強反射, 產(chǎn)生峰值, 678 nm處形成葉綠素吸收谷; 在680~1050 nm范圍內, 680~750 nm處反射率隨波長呈現(xiàn)急劇增高趨勢, 而在750~1050 nm波段范圍內反射率隨SPAD值增高未表現(xiàn)出明顯梯度型差異, 光譜曲線變化趨于平穩(wěn)。棉葉的健康狀況直接決定了SPAD值的大小, 而SPAD值直接影響著葉片的反射率。由此可知, 葉綠素含量的差異會引起棉花葉片光譜曲線特征的變化, 葉片反射率會隨著SPAD值的增加而降低, 呈負相關。
圖2 棉花葉片光譜
為了進一步明確棉花SPAD值相應的敏感波段, 將棉花葉片SPAD值和原始光譜在內的四類光譜數(shù)據(jù)做Pearson相關性分析和波段之間的自相關性分析, 由圖3和圖4所示, 棉花葉片SPAD值和反射率緊密相關。在605~690 nm和745~1050 nm區(qū)域內的反射率與SPAD值相關性達0.01的顯著水平, 相關系數(shù)最高值為-0.619, 此波段范圍主要受葉綠素吸收的影響, 均呈負相關。與原始光譜相 比, 經(jīng)過變換后的棉花反射率與SPAD值相關性相差較大, 其中去除包絡線光譜和SPAD值呈極顯著相關, 相關系數(shù)峰值的絕對值為0.799, 相關性最高值的呈現(xiàn)區(qū)域跟原始光譜數(shù)據(jù)大致相似, 相關性效果優(yōu)于倒數(shù)轉換數(shù)據(jù)和立方根轉換數(shù)據(jù)。去除包絡線光譜達0.01顯著水平的敏感波段均集中于570~730 nm波段范圍內, 可知, 包絡線去除法更有利于發(fā)現(xiàn)棉花SPAD值相應的敏感波段。倒數(shù)光譜和立方根光譜雖然增強效果不明顯, 但是敏感波段的出現(xiàn)區(qū)域跟原始光譜和去除包絡線光譜保持一致, 從圖可看出四類光譜數(shù)據(jù)的相關性最高值均出現(xiàn)在550~750 nm波段范圍內, 說明此光譜范圍與棉花SPAD值之間存在著高度相關, 為選取特征波段的最佳區(qū)間。
對原始光譜和去除包絡線光譜的751個波段進行兩兩組合, 得出決定系數(shù)2, 并用Matlab-R2016a繪制相對決定系數(shù)等值線圖。圖中顏色從深藍色到深紅色表示決定系數(shù)由小到大, 相同色調越深說明相關系數(shù)越大。由圖4可知, 基于自相關性分析的原始光譜和去除包絡線光譜的決定系數(shù)最高值均在620~690 nm和740~920 nm范圍, 其余波段范圍2較小, 即相關性較低。去除包絡線光譜在可見光波段范圍內顏色最深, 即相關性顯著, 且在570~750 nm波段范圍內, 數(shù)據(jù)冗余最小, 信息含量最豐富, 結果與Pearson相關性結果吻合。
經(jīng)相關分析可選出相關性較高的波段作為隨機森林分類的參考值, 經(jīng)過反復實驗和比較分析, 最后隨機森林生成樹的變量(NTree)設置為300, 節(jié)點處變量數(shù)設置3, 對敏感波段重要性VIM值(variable importance measure)進行了評價。由表1和圖5可知, VIM值越大, 說明敏感波段(自變量)在估算SPAD值(因變量)時有更重要的作用。原始光譜數(shù)據(jù)中, VIM值最大的波段為614 nm, VIM值最小的波段為689 nm和786 nm, VIM值最大的6個波段對應的變量依次為12、1、6、3、4、11, 這些特征波段均出現(xiàn)在610~700 nm和900~950 nm波段范圍內; 在去除包絡線光譜中, VIM值最大的波段為695 nm, VIM值最小的波段為612 nm, VIM值最大的6個波段對應的變量依次為'10、'12、'1、'11、'4、'8, 相比原始光譜敏感波段的出現(xiàn)范圍較分散。通過隨機森林法篩選出來的這些敏感波段可視為對模型貢獻較大的變量。
圖3 不同轉換光譜曲線與葉SPAD值的相關性
R: 相關系數(shù); RR: 原始光譜; Rcr: 包絡線光譜; ?R: 立方根光譜; 1/R: 倒數(shù)光譜。
R: correlation coefficient; RR: raw reflectance; Rcr: continuum-removal reflectance; ?R: cube-root reflectance; 1/R: reciprocal reflectance.
圖4 光譜自相關矩陣
表1 特征波段的選取
: 原始光譜特征波段的變量名;': 包絡線光譜特征波段的變量名; RR: 原始光譜; Rcr: 包絡線光譜。
: characteristic band’s variable name of the raw reflectance;': characteristic band’s variable name of the continuum-removal reflectance; RR: raw reflectance; Rcr: continuum-removal reflectance.
圖5 變量重要性評估
運用隨機森林法選出的6 個特征波段和建模樣本實測葉綠素含量數(shù)據(jù)分別建立PLSR模型和BP神經(jīng)網(wǎng)絡模型, 模型評價參數(shù)如表2所示。從建模效果看, 基于原始光譜建立的兩種模型中2都低于0.8, RMSE相差不大, 說明兩種模型的穩(wěn)定性較低, 預測效果接近; 基于包絡線數(shù)據(jù)的兩 種模型中BP神經(jīng)網(wǎng)絡模型的2為0.90, RMSE降低至0.91, 表明數(shù)據(jù)轉換后模型的穩(wěn)定性和估算精度有了一定的提高。從預測值和實測值之間的擬合分析可以看出(圖6), 基于去除包絡線數(shù)據(jù)的點和原始光譜相對均勻地分布在1︰1直線的兩側, 表明利用去除包絡線光譜建立的兩種模型的擬合效果更好。
表2 建模結果比較
2: 決定系數(shù); RMSE: 均方根誤差; RE: 相對誤差; RR: 原始光譜; Rcr: 包絡線光譜。
2: coefficient of determination; RMSE: relative root mean-squared error; RE: relative error; RR: raw reflectance; Rcr: continuum-removal reflectance.
為了進一步驗證模型的估算精度, 利用驗證樣本對兩種模型進行驗證(表 1), 從驗證效果看, 基于原始建立的兩種模型中2分別為0.64、0.78, 均小于0.8, 與建模效果保持一致, RE分別為3.01%、2.27%, 說明這兩種模型穩(wěn)定性和估算能力都較低, 不能作為估算棉花葉片葉綠素含量的最佳模型, 這可能是由于實測光譜受外界因素干擾, 因目標物的粒度、密度、紋理、粗糙度等物理特性所故; 包絡線光譜建立的PLSR和BP神經(jīng)網(wǎng)絡模型2分別為0.92和0.83, 說明兩種模型的穩(wěn)定性較好; 在PLSR模型中, RMSE從原始光譜的2.06降到0.88, RE從3.01%降到1.30%, 說明PLSR模型的估算能力比BP神經(jīng)網(wǎng)絡模型更優(yōu)異。從模型的驗證效果來看, PLSR模型效果比BP神經(jīng)網(wǎng)絡更好。因此, 本研究選取PLSR模型對棉花SPAD值進行估算。從預測值和實測值的擬合度可以看出(圖6), 基于原始光譜的數(shù)據(jù)點與包絡線相比分布較為離散, 估算精度較低。
冠層尺度的葉綠素含量的統(tǒng)計估算方法有不同的表現(xiàn)形式, 最常用的辦法就是構建地面實測生化要素含量和田間、機載或者星載傳感器測得的冠層反射率的統(tǒng)計關系[25-27]。另一種辦法是將葉片尺度上的光譜指數(shù)與色素含量的關系直接用在冠層尺度上[28-30]。本研究按照第一種方法, 以田間測定來獲取光譜數(shù)據(jù)和SPAD值, 進行了冠層尺度上的葉綠素相對含量估算。以田間尺度的光譜反射率作為應用條件建立了估算模型, 其中, PLSR模型具有運算量小、速度快、變量更少的特點, 且適用于對模型精度要求不高的場合; 神經(jīng)網(wǎng)絡模型是依賴于大量輸入的統(tǒng)計學算法的數(shù)學模型, 與線性方法相比, 神經(jīng)網(wǎng)絡模型在解決非線性問題上的應用較為廣泛, 且能夠識別葉片色素和光譜指數(shù)之間復雜非線性關系[31]; 至于兩種模型的樣本數(shù), 賈學勤等學者利用PLSR模型對180組冬小麥樣進行地上干生物量高光譜估測, 其模型的決定系數(shù)2為0.692; 尼加提等人采用PLSR模型估算春小麥葉片葉綠素含量, 其樣本數(shù)為55, 模型的決定系數(shù)2達到0.8; 郭云開等學者利用BP神經(jīng)網(wǎng)絡模型對40個土壤樣本進行銅含量高光譜反演, 最后模型的擬合度為0.721; 余蛟洋等使用BP神經(jīng)網(wǎng)絡模型估算蘋果葉片SPAD值, 采用的樣本數(shù)總共是120組, 模型最后的決定系數(shù)達到0.95, 總之, 應用這兩種模型的研究者們采用的樣本數(shù)都不一致[20,32-36]。因此本研究按照以往研究者們的經(jīng)驗具備了53組樣本, 29組為建模, 24組為檢驗, 最后兩種模型的估算精度分別為PLSR模型2為0.92; BP神經(jīng)網(wǎng)路模型2為0.83, 估算效果均優(yōu)異, 但是如何控制樣本數(shù)才能達到最佳效果需進一步探討。在植被光譜分析中, 對原始光譜的預處理可更好地挖掘生物參量特征波段, 從而建立更加穩(wěn)定精確的回歸模型。本文對原始光譜數(shù)據(jù)進行倒數(shù)轉換、立方根和去除包絡線處理, 通過相關性分析可知, 包絡線光譜較原始光譜在特征波段與棉花SPAD值的相關性更好, 基于去除包絡線光譜所構建模型的驗證精度高于原始光譜特征參數(shù)建立的模型, 去除包絡線光譜更適合估算棉花葉片的SPAD值, 且倒數(shù)轉換和立方根轉換對光譜信息的獲取未表現(xiàn)出明顯的作用, 相關系數(shù)也未得到顯著提高, 此結果對棉花SPAD值估算的研究意義較小。綜合以上研究結果發(fā)現(xiàn), 高光譜數(shù)據(jù)的衍生變化對模型的估算效果起到了一定的優(yōu)化作用。
圖6 PLSR和BP神經(jīng)網(wǎng)絡模型對實測值與預測值的擬合分析結果
高光譜數(shù)據(jù)特征選擇常用的方法主要有PCA、判別分析、光譜微分處理技術與ICA等, 其中隨機森林法具有容易實現(xiàn)、簡捷、調整參數(shù)少、經(jīng)濟等優(yōu)點[37-39]。因此本研究通過隨機森林法進行了變量重要性選擇, 且對特征波段進行了定量化處理, 更精確地評估出了對SPAD值影響較大的特征波段, 有效地提高了模型的估算精度。
不同建模算法對估算模型預測精度的影響較大, 驗證結果說明PLSR模型的估算精度高于BP神經(jīng)網(wǎng)絡模型, 估算效果較為優(yōu)異。主要是因為包絡線去除法對數(shù)據(jù)進歸一化處理, 可釋放一些原本被遮蔽的光譜吸收特征信息, 從而改善模型精度, 此結果與眾多學者的研究相一致[40-42]。而BP神經(jīng)網(wǎng)絡算法的網(wǎng)絡權值初始化隨機, 且其程序運行結果、選用的輸入?yún)?shù)均存在差異, 致使其模型精度較低[43]。因此在以后的研究中, 需要重點考慮BP神經(jīng)網(wǎng)絡輸入?yún)?shù)的選擇。
(1) 在605~690 nm和745~1050 nm區(qū)域內, 反射率與SPAD值極顯著負相關(<0.01), 此波段范圍主要受葉綠素吸收的影響。
(2) 經(jīng)去除包絡線光譜變換和立方根轉換后的棉花反射率與SPAD值相關性比原始光譜高, 且以去除包絡線光譜變換最高; 倒數(shù)轉換后棉花反射率與SPAD值相關性較原始光譜低。
(3) 通過隨機森林法篩選出的去除包絡線光譜波段建立的PLSR和BP神經(jīng)網(wǎng)絡模型的估算能力均高于原始光譜波段; 且PLSR估算能力高于BP神經(jīng)網(wǎng)絡模型。
[1] 史典義, 劉忠香, 金危危. 植物葉綠素合成、分解代謝及信號調控. 遺傳, 2009, 31: 698–704. Shi D Y, Liu Z X, Jin W W. Biosynthesis, catabolism and related signal regulations of plant chlorophyll., 2009, 31: 698–704 (in Chinese with English abstract).
[2] 劉燕婕, 李建設, 高艷明. 可見光波段不同氮處理生菜葉片光譜反射率與葉片全氮、葉綠素的相關性研究. 北方園藝, 2015, 39(22): 12–16. Liu Y J, Li J S, Gao Y M. Correlation between lettuce leaf spectral reflectance in visible light area and leaf nitrogen content and leaf chlorophyll content under different levels of nitrogen.,2015, 39(22): 12–16 (in Chinese with English abstract).
[3] 姜海玲, 楊杭, 陳小平, 王樹東, 李雪軻, 劉凱. 利用光譜指數(shù)反演植被葉綠素含量的精度及穩(wěn)定性研究. 光譜學與光譜分析, 2015, 35: 975–981. Jiang H L, Yang H, Chen X P, Wang S D, Li X K, Liu K. Research on accuracy and stability of inversing vegetation chlorophyll content by spectral index method., 2015, 35: 975–-981 (in Chinese with English abstract).
[4] Inoue Y, Guérif M, Baret F, Skidmore A, Gitelson A, Schlerf M. Simple and robust methods for remote sensing of canopy chlorophyll content: a comparative analysis of hyper-spectral data for different types of vegetation., 2016, 39: 2609–2623.
[5] Vane G, Goetz A. Terrestrial imaging spectrometry: Current status, future trends., 1993, 44: 117–126.
[6] Curran P J. Remote sensing of foliar chemistry., 1989, 30: 271–278.
[7] Jacquemoud S, Baret F. PROSPECT: a model of leaf optical properties spectra., 1990, 34: 75–91.
[8] Li D, Cheng T, Zhou K, Zheng H, Yao X, Tian Y. WREP: a wavelet-based technique for extracting the red edge position from reflectance spectra for estimating leaf and canopy chlorophyll contents of cereal crops., 2017: 103–117.
[9] 毛博慧, 李民贊, 孫紅, 劉豪杰, 張俊逸, Zhang Q. 冬小麥苗期葉綠素含量檢測光譜學參數(shù)尋優(yōu). 農(nóng)業(yè)工程學報, 2017, 33(S1): 164–169. Mao B H, Li M Z, Sun H, Liu H J, Zhang J Y, Zhang Q. Optimization of spectroscopy parameters and prediction of chlorophyll content at seeding stage of winter wheat., 2017, 33(S1): 164–169 (in Chinese with English abstract).
[10] 丁永軍, 張晶晶, 孫紅, 李修華. 玻璃溫室環(huán)境下番茄葉綠素含量敏感光譜波段提取及估測模型. 光譜學與光譜分析, 2017, 37: 194–199. Ding Y J, Zhang J J, Sun H, Li X H. Sensitive bands extraction and prediction model of tomato chlorophyll in glass green house., 2017, 37: 194–199 (in Chinese with English abstract).
[11] 姚霞, 田永超, 劉小軍, 曹衛(wèi)星, 朱艷. 不同算法紅邊位置監(jiān)測小麥冠層氮素營養(yǎng)指標的比較. 中國農(nóng)業(yè)科學, 2010, 43: 2661–2667. Yao X, Tian Y C, Liu X J, Cao W X, Zhu Y. Comparative study on monitoring canopy leaf nitrogen status on red edge position with different algorithms in wheat., 2010, 43: 2661–2667 (in Chinese with English abstract).
[12] Yi Q X, Huang J F, Wang F M, Wang X Z. Evaluating the performance of PC-ANN for the estimation of rice nitrogen concentration from canopy hyperspectral reflectance., 2010, 31: 931–940.
[13] Curran P J, Dungan J L, Peterson D L. Estimating the foliar biochemical concentration of leaves with reflectance spectrometry: testing the Kokaly and Clark methodologies., 2001, 76: 349–359.
[14] 郭超凡, 郭逍宇. 基于可見光波段包絡線去除的濕地植物葉片葉綠素估算. 生態(tài)學報, 2016, 36: 6538–6546. Guo C F, Guo X Y. Estimation of wetland plant leaf chlorophyll content based on continuum removal on visible domain., 2016, 36: 6538–6546 (in Chinese with English abstract).
[15] Mielke C, Boesche N K, Rogass C, Kaufmann H, Gauert C. New geometric hull continuum removal algorithm for automatic absorption band detection from spectroscopic data., 2015, 6: 97–105.
[16] Breiman L. Random forests., 2001, 45: 5–32.
[17] 李振國, 楊德森. 生活質量與臨床醫(yī)學. 中國社會醫(yī)學, 1994, (3): 34–35. Li Z G, Yang D S. Quality of life and clinical medicine., 1994, (3): 34–35 (in Chinese).
[18] Donnelly S, Walsh D. Quality of life assessment in advanced cancer., 2000, 2: 338–342.
[19] Gr?mping U. Variable importance assessment in regression: linear regression versus random forest., 2009, 63: 308–319.
[20] 梁智, 孫國強, 衛(wèi)志農(nóng), 臧海祥. 基于變量選擇與高斯過程回歸的短期負荷預測. 電力建設, 2017, 38(2): 122–128. Liang Z, Sun G Q, Wei Z N, Zang H X, Short-term load forecasting based on variable selection and gaussian process regression., 2017, 38(2): 122–128 (in Chinese with English abstract).
[21] 尼加提·卡斯木, 師慶東, 王敬哲, 茹克亞·薩吾提, 依力亞斯江·努爾麥麥提, 古麗努爾·依沙克. 基于高光譜特征和偏最小二乘法的春小麥葉綠素含量估算.農(nóng)業(yè)工程學報,2017, 33(22): 208–216. Nijat K, Shi Q D, Wang J Z, Rukeya S, Ilyas N, Gulnur I. Estimation of spring wheat chlorophyll content based on hyper-spectral features and PLSR model., 2017, 33(22): 208–216 (in Chinese with English abstract).
[22] 翁永玲, 戚浩平, 方洪賓, 趙福岳, 路云閣. 基于PLSR方法的青海茶卡-共和盆地土壤鹽分高光譜遙感反演. 土壤學報, 2010, 47: 1255–1263. Weng Y L, Qi H P, Fang H B, Zhao F Y, Lu Y G. PLSR-Based hyper-spectral remote sensing retrieval of soil salinity of Chaka-gonghe basin in Qinghai province., 2010, 47: 1255–1263(in Chinese with English abstract).
[23] 劉全明, 成秋明, 王學, 李相君. 河套灌區(qū)土壤鹽漬化微波雷達反演. 農(nóng)業(yè)工程學報, 2016, 32(16): 109–114. Liu Q M, Cheng Q M, Wang X, Li X J. Soil salinity inversion in Hetao Irrigation district using microwave radar., 2016, 32(16): 109–114 (in Chinese with English abstract).
[24] 王靜, 劉湘南, 黃方, 唐吉龍, 趙冷冰. 基于ANN技術和高光譜遙感的鹽漬土鹽分預測. 農(nóng)業(yè)工程學報, 2009, 25(12): 161–166. Wang J, Liu X N, Huang F, Tang J L, Zhao L B. Salinity forecasting of saline soil based on ANN and hyper-spectral remote sensing., 2009, 25(12): 161–166 (in Chinese with English abstract).
[25] Johnson L F, Hlavka C A, Peterson D L. Multivariate analysis of AVIRIS data for canopy biochemical estimation along the oregon transect., 1994, 47: 216–230.
[26] Matson P, Johnson L, Billow C, Miller J, Pu R. Seasonal patterns and remote spectral estimation of canopy chemistry across the oregon transect., 1994, 4: 280–298.
[27] Curran P J, Kupiec J A, Smith G M. Remote sensing the biochemical composition of a slash pine canopy., 1997, 35: 415–420.
[28] Peterson D L, Aber J D, Matson P A, Card D H, Swanberg N, Wessman C. Remote sensing of forest canopy and leaf biochemical contents., 1988, 24: 85–108.
[29] Yoder B J, Pettigrew-Crosby R E. Predicting nitrogen and chlorophyll content and concentrations from reflectance spectra (400–2500 nm) at leaf and canopy scales., 1995, 53: 199–211.
[30] Chen L, Huang J F, Wang F M. Comparison between back propagation neural network and regression models for the estimation of pigment content in rice leaves and panicles using hyper-spectral data., 2007, 28: 3457–3478.
[31] 劉平, 馬美湖. 基于高光譜技術檢測全蛋粉摻假的研究. 光譜學與光譜分析, 2018, 38: 246–252. Liu P, Ma M F. Application of hyper-spectral technology for detecting adulterated whole egg powder., 2018, 38: 246–252 (in Chinese with English abstract).
[32] 賈學勤, 馮美臣, 楊武德, 王超, 肖璐潔, 孫慧, 武改紅, 張松. 基于多植被指數(shù)組合的冬小麥地上干生物量高光譜估測. 生態(tài)學雜志, 2018, 37: 424–429. Jia X Q, Feng M C, Yang W D, Wang C, Xiao L J, Sun H, Wu G H, Zhang S. Hyper-spectral estimation of aboveground dry biomass of winter wheat based on the combination of vegetation indices., 2018, 37: 424–429 (in Chinese with English abstract).
[33] 孫紅, 鄭濤, 劉寧, 程萌, 李民贊, Zhang Q. 高光譜圖像檢測馬鈴薯植株葉綠素含量垂直分布. 農(nóng)業(yè)工程學報, 2018, 34(1): 149–156. Sun H, Zheng T, Liu N, Cheng M, Li M Z, Zhang Q. Vertical distribution of chlorophyll in potato plants based on hyper-spectral imaging., 2018, 34(1): 149–156 (in Chinese with English abstract).
[34] 郭云開, 劉寧, 劉磊, 李丹娜, 朱善寬. 土壤Cu含量高光譜反演的BP神經(jīng)網(wǎng)絡模型. 測繪科學, 2018, 43(1): 135–139.Guo Y K, Liu N, Liu L, Li D N, Zhu S K. Hyper-spectral inversion of soil Cu content based on BP neural network model., 2018, 43(1): 135–139 (in Chinese with English abstract).
[35] 余蛟洋, 常慶瑞, 由明明, 張卓然, 羅丹. 基于高光譜和BP神經(jīng)網(wǎng)絡模型蘋果葉片SPAD值遙感估算. 西北林學院學報, 2018, 33(2): 156–165. Yu J Y, Chang Q R, You M M, Zhang Z R, Luo D. Estimation of apple leaf SPAD value based on hyperspectrum and BP Neural Network., 2018, 33(2): 156–165 (in Chinese with English abstract).
[36] Zagolski F, Pinel V, Romier J, Alcayde D, Fontanari J, Gastellu-Etchegorry J P. Forest canopy chemistry with high spectral resolution remote sensing., 1996, 17: 1107–1128.
[37] Pal M. Random forest classifier for remote sensing classification., 2005, 26: 217–222.
[38] Deschamps B, Mcnairn H, Shang J, Jiao X. Towards operational radar-only crop type classification: comparison of a traditional decision tree with a random forest classifier., 2012, 38: 60–68.
[39] 黃健熙, 侯矞焯, 蘇偉, 劉峻明, 朱德海. 基于GF-1 WFV數(shù)據(jù)的玉米與大豆種植面積提取方法. 農(nóng)業(yè)工程學報, 2017, 33(7): 164–170. Huang J X, Hou Y Z, Su W, Liu J M, Zhu D H. Mapping corn and soybean cropped area with GF-1 WFV data., 2017, 33(7): 164–170 (in Chinese with English abstract).
[40] 陳紀波, 胡慧, 陳克垚, 王桂芝. 基于非線性PLSR模型的氣候變化對糧食產(chǎn)量的影響分析. 中國農(nóng)業(yè)氣象, 2016, 37: 674–681. Chen J B, Hu H, Chen K Y, Wang G Z. Effects of climate change on the grain yield based on nonlinear PLSR model., 2016, 37: 674–681 (in Chinese with English abstract).
[41] 于雷, 洪永勝, 耿雷, 周勇, 朱強, 曹雋雋, 聶艷. 基于偏最小二乘回歸的土壤有機質含量高光譜估算, 農(nóng)業(yè)工程學報, 2015, 31(14): 103–109. Yu L, Hong Y S, Geng L, Zhou Y, Zhu Q, Cao J J, Nie Y. Hyperspectral estimation of soil organic matter content based on partial least squares regression., 2015, 31(14): 103–109 (in Chinese with English abstract).
[42] Gomez C, Lagacherie P, Coulouma G. Continuum removal versus PLSR method for clay and calcium carbonate content estimation from laboratory and airborne hyperspectral measurements., 2008, 148: 141–148.
[43] 劉曉莉, 楊靈娥, 宋春玲. 提高多目標輸出神經(jīng)網(wǎng)絡模型泛化能力和預測精度的方法. 佛山科學技術學院學報(自然科學版), 2008, 26(1): 31–33. Liu X L, Yang L E, Song C L. Improvement of the genera and the learn enlcienin BP network models.(Nat Sci Edn), 2008, 26(1): 31–33 (in Chinese with English abstract).
Estimation of leaf chlorophyll content in cotton based on the random forest approach
Ershat ABLET1,2, Mamat SAWUT1,2,3,*, Baidengsha MAIMAITIAILI4, AN Shen-Qun1,2, and MA Chun-Yue1,2
1College of Resources and Environmental Science, Xinjiang University, Urumqi 830064, Xinjiang, China;2Key Laboratory of Oasis Ecology of Ministry of Education, Urumqi 830064, Xinjiang, China;3Key Laboratory for Wisdom City and Environmental Modeling, Xinjiang University, Urumqi 830064, Xinjiang, China;4Institute of Nuclear and Biotechnologies, Xinjiang Academy of Agricultural Sciences, Urumqi 830064, Xinjiang, China
The main objective of this study is the estimation of the leaf chlorophyll content efficiently and harmlessly. SPAD values and spectral data were collected from field observation. Original spectra processed to continuum-removal transformation, cube-root transformation and reciprocal transformation. Based on the correlation between SPAD values and canopy spectral reflectance, we selected characteristic bands by random forest approach to establish two kinds of estimating models, including back propagation artificial neural network (BP ANN) model and partial least squares regression (PLSR) model. The reflectivity in the range of 605-690 nm was negatively correlated with the SPAD value at< 0.01, with the correlation coefficient of-0.619. After transformations, the spectral reflectance exhibited different correlations with SPAD value, continuum-removal spectra improved the correlation in the range of 550-750 nm, and had a better correlation with SPAD value than cube-root and reciprocal transformations. Random forest approach effectively evaluated the characteristic bands with large influence on SPAD value, which can help improve the estimation accuracy of the model.2of the PLSR and BP neural network model based on continuum-removal spectra was 0.92 and 0.83 respectively, show the two models with good stability in estimation of cotton SPAD values. The RMSE of the two models was 0.88, 1.26, and RE was 1.30% and 1.89% respectively, which indicates that estimation accuracy of PLSR model is higher that of BP neural network model. From the validation of the model, PLSR model has certain advantages and reference value in estimating chlorophyll content of cotton.
SPAD value; cotton; random forest method; hyper-spectral estimation model
2018-04-22;
2018-08-20;
2018-09-20.
10.3724/SP.J.1006.2019.84058
通信作者(Corresponding author): 買買提·沙吾提, E-mail: korxat@xju.edu.cn
E-mail: 13201349501@163.com
本研究由國家自然科學基金項目(41361016, 41461051)和大學生創(chuàng)新訓練計劃項目(201710755058)資助。
This study was supported by the National Natural Science Foundation of China (41361016, 41461051) and the Student Innovation Training Program (201710755058).
URL:http://kns.cnki.net/kcms/detail/11.1809.S.20180918.1712.012.html