張宏鳴 劉 雯 韓文霆 劉全中 宋榮杰 侯貴河
(1.西北農(nóng)林科技大學(xué)信息工程學(xué)院, 陜西楊凌 712100; 2.西北農(nóng)林科技大學(xué)機(jī)械與電子工程學(xué)院, 陜西楊凌 712100)
葉面積指數(shù)(Leaf area index,LAI)是生態(tài)系統(tǒng)能量流動(dòng)中極其重要的植被特征[1]。在LAI定義的不斷發(fā)展中,為了既可以適用針葉植被又可以適用闊葉植被,最終被定義為單位地表面積上綠葉表面積總和的一半[2]。傳統(tǒng)獲取LAI的方法主要依靠人工實(shí)地測(cè)量[3],不僅浪費(fèi)人力,而且對(duì)作物破壞性極大。隨著遙感技術(shù)的不斷發(fā)展,獲取LAI的方法開始轉(zhuǎn)向于遙感反演[4-6]。目前,遙感數(shù)據(jù)主要來(lái)源于衛(wèi)星和無(wú)人機(jī),但衛(wèi)星遙感屬于高空遙感技術(shù),在獲取遙感圖像過(guò)程中易受到大氣因素的干擾[7]。且衛(wèi)星遙感的研究區(qū)域面積適合在公頃以上,如果進(jìn)行小范圍的區(qū)域研究,其分辨率受到一定的限制。因此,近年來(lái)產(chǎn)生了利用無(wú)人機(jī)搭載多光譜或高光譜相機(jī)的方式采集遙感圖像,該技術(shù)彌補(bǔ)了衛(wèi)星遙感的不足,提高了圖像的地面分辨率,可快速準(zhǔn)確獲得作物葉面積指數(shù),為農(nóng)情信息監(jiān)測(cè)提供了有效手段[8-9]。
中國(guó)作為農(nóng)業(yè)大國(guó),玉米是不可或缺的農(nóng)作物。長(zhǎng)期以來(lái),我國(guó)在作物的葉面積指數(shù)反演方面進(jìn)行了相關(guān)研究[10]。早期在進(jìn)行LAI反演時(shí)都選擇用單一植被指數(shù)作為輸入變量[11-12],但單一的植被指數(shù)存在不同程度飽和性[13],對(duì)于LAI的反演受到了一定的限制。之后的研究中發(fā)現(xiàn),紅波段和近紅外波段的反射率與作物葉片的特征不僅最為密切相關(guān)且有別于其他地物[14],可組合出多種的植被指數(shù),因而是當(dāng)前用于LAI反演的常用波段[15]。為了可以融合多種與LAI相關(guān)性較強(qiáng)的植被指數(shù)及其他相關(guān)數(shù)據(jù),衍生出了機(jī)器學(xué)習(xí)的方法。機(jī)器學(xué)習(xí)就單因子訓(xùn)練模型進(jìn)行了改進(jìn),利用多種相關(guān)因子的非線性擬合來(lái)構(gòu)建較為精確的模型,使得驗(yàn)證集與實(shí)際值之間的預(yù)測(cè)誤差最小,泛化能力最強(qiáng)[16]。
謝巧云等[17]利用高光譜數(shù)據(jù)進(jìn)行作物L(fēng)AI遙感反演,結(jié)果表明,非線性支持向量機(jī)模型最適宜用于研究區(qū)域冬小麥LAI反演;王麗愛等[18]將支持向量回歸和反向傳播神經(jīng)網(wǎng)絡(luò)算法作為比較模型,證明隨機(jī)森林模型具有強(qiáng)學(xué)習(xí)能力和預(yù)測(cè)能力;張春蘭等[19]基于無(wú)人高光譜模型研究了4個(gè)生育期小麥的LAI,發(fā)現(xiàn)隨機(jī)森林模型LAI的反演精度較高,且適用性較強(qiáng);HOUBORG等[20]發(fā)現(xiàn),利用機(jī)器學(xué)習(xí)的方法,可有效分析和利用數(shù)量大、維度高的觀測(cè)數(shù)據(jù)。以上研究成果表明,機(jī)器學(xué)習(xí)中的回歸模型廣泛應(yīng)用于作物遙感反演,且取得了較好的研究成果[21-22]。但回歸模型都存在小樣本數(shù)據(jù)出現(xiàn)過(guò)擬合的問(wèn)題,且無(wú)法判斷輸入因子中的主要貢獻(xiàn)因子。梯度提升樹算法(GBDT)可以解決以上問(wèn)題,該算法通過(guò)每一棵樹學(xué)習(xí)之前所有樹的殘差和結(jié)果,一步步迭代構(gòu)建弱學(xué)習(xí)器,糾正原模型誤差,有效提高了預(yù)測(cè)精度[23],可作為反演夏玉米LAI的有效方法。
本文以2018年內(nèi)蒙古自治區(qū)鄂爾多斯市達(dá)拉特旗實(shí)驗(yàn)基地為研究區(qū)域,采集夏玉米無(wú)人機(jī)多光譜影像,提取關(guān)鍵生育期V3~R5(出苗期至初入蠟熟期)的8種植被指數(shù),實(shí)測(cè)LAI及玉米株高。將株高和8種植被指數(shù)作為輸入變量,LAI作為輸出變量輸入SVM算法、RF算法、GBDT算法3個(gè)模型中訓(xùn)練學(xué)習(xí),以驗(yàn)證GBDT算法反演模型在夏玉米LAI反演中的適用性。
實(shí)驗(yàn)基地(40°25′46.99″ N, 109°36′35.68″ E)位于內(nèi)蒙古自治區(qū)鄂爾多斯市達(dá)拉特旗昭君鎮(zhèn),屬于典型的溫帶大陸性氣候,干旱多大風(fēng),主要糧食作物為小麥和玉米。實(shí)驗(yàn)區(qū)所種作物為夏玉米,屬于春播中晚熟型,一年一熟。播種時(shí)間為2018年5月中旬,收割時(shí)間為9月。選取株高為60 cm,葉片寬度約兩指寬(3 cm左右)時(shí)進(jìn)行田間玉米LAI實(shí)驗(yàn)。由于當(dāng)?shù)氐慕邓繜o(wú)法滿足玉米生長(zhǎng)期內(nèi)的需水量,主要的供水方式為噴灌機(jī)灌水。據(jù)此,將研究區(qū)中的④區(qū)利用噴灌機(jī)作水分脅迫,使之除大氣降水外,額外供水量少于其余區(qū)域。研究區(qū)無(wú)人機(jī)影像如圖1所示,實(shí)驗(yàn)區(qū)域面積約為1.13 hm2,以噴灌機(jī)為中心,分為5個(gè)扇形區(qū)域,每個(gè)扇形區(qū)域內(nèi)劃分3個(gè)4 m×4 m的實(shí)驗(yàn)樣方,即研究區(qū)總計(jì)15個(gè)小樣方。
圖1 研究區(qū)無(wú)人機(jī)影像和分區(qū)示意圖Fig.1 UAV image and partition map of study area
田間夏玉米LAI的測(cè)量使用LAI-2200C型植物冠層儀進(jìn)行。數(shù)據(jù)于2018年6月26日開始采集,2018年8月25日結(jié)束,共9次實(shí)驗(yàn),期間覆蓋夏玉米的V3(出苗期)、V6(拔節(jié)期)、VT(抽雄期)、R1(吐絲期)、R3(乳熟期)、R5(初入蠟熟期)6個(gè)關(guān)鍵生育期。前8次實(shí)驗(yàn)數(shù)據(jù)用于建立模型,最后1次實(shí)驗(yàn)數(shù)據(jù)用于模型預(yù)測(cè)及驗(yàn)證。LAI采集方式采用ABBBB,即測(cè)量時(shí),取4次冠下B值,一次冠上A值。由于玉米屬于行栽作物,測(cè)量方式通常采用對(duì)角線法:B值取樣點(diǎn)位于兩壟之間均勻分布,A值取樣點(diǎn)避免陽(yáng)光直射,位于冠層上方。每個(gè)小樣方重復(fù)采集4組數(shù)據(jù),取均值??紤]正午時(shí)分陽(yáng)光強(qiáng)烈,測(cè)量時(shí)需配備遮光帽,以減少視野遮蓋帽周圍的反射光對(duì)數(shù)值的影響。夏玉米的株高在測(cè)量LAI時(shí)一同測(cè)量同一樣方對(duì)角線的點(diǎn),在對(duì)角線3點(diǎn)的區(qū)域內(nèi)每一點(diǎn)測(cè)量5組數(shù)據(jù),取均值。
遙感圖像數(shù)據(jù)采集為六翼無(wú)人機(jī)RedEdge五波段搭載多光譜相機(jī),相機(jī)焦距為5.5 mm,視場(chǎng)角為47.2°,圖像分辨率為1 280像素×960像素。相機(jī)配備了光強(qiáng)傳感器和兩個(gè)3 m×3 m的灰板。光強(qiáng)傳感器可對(duì)無(wú)人機(jī)航拍過(guò)程中外界光線的變化對(duì)光譜影像造成的影響進(jìn)行校正,而灰板由于具有固定的反射率,可對(duì)航拍影像進(jìn)行反射率的校正,從而生成反射率影像圖,進(jìn)行植被指數(shù)的提取。相機(jī)的波段信息以及灰板的反射率如表1所示。實(shí)驗(yàn)時(shí)晴朗無(wú)云,平均氣溫28.6℃,平均相對(duì)濕度61.96%,平均風(fēng)速1.12 m/s,微風(fēng)。時(shí)間在11:30—14:30。多光譜無(wú)人機(jī)飛行高度為70 m,飛行方向?yàn)槟媳狈较?,航向、旁向重疊度分別為80%和70%。將每次實(shí)驗(yàn)按照固定航線拍攝的多張圖像,以日期為索引導(dǎo)入到瑞士Pix4D公司的Pix4D mapper軟件中,以實(shí)時(shí)動(dòng)態(tài)(Real time kinematic,RTK)測(cè)量的方法獲取地面像控點(diǎn),導(dǎo)入小圖對(duì)應(yīng)的POS數(shù)據(jù),在軟件中進(jìn)行初始化處理,幾何校正,構(gòu)建三維模型,提取紋理以及構(gòu)造地物特征,最終生成高清正射多光譜影像。由于拼接預(yù)處理后的原始圖像包含除研究區(qū)域以外很大的區(qū)域,為了更加突顯遙感影像的作物特征,需在ENVI軟件中裁剪處理。根據(jù)可見光影像中的樣方對(duì)應(yīng)裁剪出多光譜影像的15塊實(shí)測(cè)區(qū)域,每一塊實(shí)測(cè)區(qū)域一一對(duì)應(yīng)實(shí)驗(yàn)樣地的每一小樣方。取裁剪后每一小樣方的對(duì)角線3點(diǎn),生成這3點(diǎn)對(duì)應(yīng)的各項(xiàng)植被指數(shù),最終以均值來(lái)確定每個(gè)小樣方的植被指數(shù)。
表1 RedEdge多光譜相機(jī)參數(shù)及灰板對(duì)其中心波長(zhǎng)的反射率Tab.1 Multispectral camera parameters and reflectivity of gray plate to its center wavelength
由于正午時(shí)分和黃昏時(shí)分葉片的蜷縮程度受溫度影響會(huì)有一定的區(qū)別,且在不同的時(shí)間段接收的光譜信息也有很大的差異,因此多光譜影像數(shù)據(jù)和地面數(shù)據(jù)采集需在同一天的同一時(shí)間段。
植被對(duì)于不同波段入射光子的吸收作用和散射作用不同,形成了特殊的光譜響應(yīng)特征。由于植被和農(nóng)作物在紅光波段強(qiáng)吸收和在近紅外波段強(qiáng)反射的特性,大量的研究證明這兩個(gè)波段與作物覆蓋度和LAI具有很好的相關(guān)關(guān)系[24]。因此本文借鑒前人研究,選擇紅光、綠光和近紅外波段組合出與LAI相關(guān)性較強(qiáng)的8種植被指數(shù)進(jìn)行LAI反演,各計(jì)算公式[25-26]見表2。
表2 植被指數(shù)計(jì)算公式Tab.2 Formulas of vegetation index
注:RNir、RRed、RGreen分別為灰板對(duì)RedEdge相機(jī)近紅外、紅波段、綠波段的平均反射率。
1.4.1支持向量機(jī)
支持向量機(jī)(Support vector machine,SVM)中的支持向量回歸(Support vector regression,SVR)是早期機(jī)器學(xué)習(xí)中常用的回歸模型。SVR就是尋找一個(gè)最優(yōu)的回歸平面,讓集合中所有的數(shù)據(jù)到這個(gè)回歸平面的距離最近[13]。本文選擇了SVM中優(yōu)化的LIBSVM庫(kù)進(jìn)行夏玉米的LAI預(yù)測(cè)。LIBSVM[27]具有操作簡(jiǎn)單、快速有效和可處理高維空間數(shù)據(jù)等特點(diǎn),常用來(lái)做分類和回歸。支持向量回歸與傳統(tǒng)的回歸模型相比,優(yōu)點(diǎn)是此算法可容忍基于模型的輸出f(x)與真實(shí)的輸出y之間有ε的偏差,也就是當(dāng)|f(x)-y|>ε時(shí)才計(jì)算損失。但SVM算法對(duì)非線性問(wèn)題沒有通用的解決方案,難以找到合適的核函數(shù)。
1.4.2隨機(jī)森林
隨機(jī)森林(Random forest,RF)是決策樹的集成算法,通過(guò)對(duì)大量分類樹的匯總以提高模型的預(yù)測(cè)精度,是取代神經(jīng)網(wǎng)絡(luò)等傳統(tǒng)機(jī)器學(xué)習(xí)方法的新算法。隨機(jī)森林算法中包含多個(gè)決策樹來(lái)降低過(guò)擬合風(fēng)險(xiǎn)[28],思想是Bagging算法和隨機(jī)特征選取[20]。隨機(jī)森林通過(guò)對(duì)訓(xùn)練樣本重新采樣的方法得到不同的訓(xùn)練樣本集;在新的訓(xùn)練樣本集上分別進(jìn)行訓(xùn)練學(xué)習(xí),由于每個(gè)學(xué)習(xí)器相互獨(dú)立,所以此類方法更容易并行;最后合并每一個(gè)學(xué)習(xí)器的結(jié)果,從而得到最終的學(xué)習(xí)結(jié)果。隨機(jī)森林的一個(gè)缺點(diǎn)是在噪聲較大的分類或者回歸問(wèn)題中容易過(guò)擬合。
1.4.3梯度提升樹
梯度提升樹(Gradient boosting decision tree,GBDT)是集成學(xué)習(xí)中重要的一種算法,是基于Booting算法的一種改進(jìn)[29-30]。Booting算法的工作原理是在初始訓(xùn)練集樣本上給每個(gè)訓(xùn)練樣本賦予相同的權(quán)值,在每一次訓(xùn)練之后對(duì)于出錯(cuò)的樣本進(jìn)行增加錯(cuò)分點(diǎn)的權(quán)值,在經(jīng)過(guò)多次迭代后,生成相應(yīng)的多個(gè)基學(xué)習(xí)器,之后對(duì)于這些基學(xué)習(xí)器進(jìn)行組合,最終通過(guò)加權(quán)或投票得到模型。而梯度提升樹回歸與分類算法的區(qū)別是輸入的訓(xùn)練數(shù)據(jù)是殘差,即將上一次的預(yù)測(cè)結(jié)果帶入殘差中求出本輪的訓(xùn)練數(shù)據(jù),而不是損失函數(shù)的梯度[22]。
梯度提升樹具有可靈活處理各種數(shù)據(jù)、預(yù)測(cè)準(zhǔn)確率高、使用健壯的損失函數(shù)和對(duì)異常值具有很強(qiáng)的魯棒性等優(yōu)點(diǎn),可有效進(jìn)行回歸預(yù)測(cè)。GBDT回歸算法如下:
(1)輸入訓(xùn)練樣本
D={(x1,y1),(x2,y2),…,(xm,ym)}
(2)初始化弱學(xué)習(xí)器
式中L——損失函數(shù)
c——樣本y的均值
(3)計(jì)算負(fù)梯度
式中T——最大迭代次數(shù)
(4)利用(xi,rti)擬合一棵分類回歸樹(Classification and regression tree,CART)中的回歸樹,從而得到第t棵回歸樹,其對(duì)應(yīng)的葉子節(jié)點(diǎn)區(qū)域Rtj(j=1,2,…,J),J為回歸樹t的葉子節(jié)點(diǎn)的個(gè)數(shù)。
(5)計(jì)算最佳擬合值
(6)更新強(qiáng)學(xué)習(xí)器
(7)得到強(qiáng)學(xué)習(xí)器表達(dá)式
(8)輸出為強(qiáng)學(xué)習(xí)器。
梯度提升樹算法中,所產(chǎn)生的樹是回歸樹而不是分類樹,GBDT的樹會(huì)累加之前所有樹的結(jié)果,這種累加的實(shí)現(xiàn)只能用CART回歸樹實(shí)現(xiàn)。
以決定系數(shù)(R2)和均方根誤差(RMSE)來(lái)進(jìn)行模型精度的評(píng)價(jià)。
為保證模型的有效性和穩(wěn)定性,本文基于實(shí)驗(yàn)分區(qū)來(lái)劃分不重復(fù)的訓(xùn)練集和驗(yàn)證集,將樣本3次分組,重復(fù)放入模型訓(xùn)練學(xué)習(xí)。樣本組1的訓(xùn)練集為區(qū)域①、②、④,驗(yàn)證集為區(qū)域③和⑤;樣本組2的訓(xùn)練集為區(qū)域②、③、⑤,驗(yàn)證集為區(qū)域①和④;樣本組3的訓(xùn)練集為區(qū)域①、③、⑤,驗(yàn)證集為區(qū)域②和④。
基于前人對(duì)于作物L(fēng)AI反演進(jìn)展的研究,分析光譜特征信息發(fā)現(xiàn)作物L(fēng)AI對(duì)于紅光參數(shù)與近紅外參數(shù)較為敏感,為后期的植被指數(shù)的選擇提供了方向。本文對(duì)3組樣本中8種植被指數(shù)和株高與LAI進(jìn)行相關(guān)性分析,結(jié)果如表3所示, LAI與8種植被指數(shù)和株高在P<0.01水平呈極顯著相關(guān),訓(xùn)練集相關(guān)系數(shù)均不小于0.660,驗(yàn)證集相關(guān)系數(shù)均不小于0.668。NDVI、OSAVI、RDVI、RVI、SAVI、EVI2、MASVI、TVI與LAI在總樣本中相關(guān)系數(shù)平均為0.777、0.765、0.751、0.769、0.747、0.743、0.744、0.715(P<0.01),因此可選擇此8種植被指數(shù)作為構(gòu)建LAI反演模型的變量。而本實(shí)驗(yàn)中新加入的實(shí)測(cè)株高在P<0.01水平下與LAI的相關(guān)系數(shù)均值也達(dá)到了0.769,說(shuō)明株高與夏玉米的葉面積指數(shù)有著較強(qiáng)的相關(guān)性,可以選擇與8種植被指數(shù)一同作為SVM、RF和GBDT模型的輸入變量,進(jìn)行夏玉米LAI的預(yù)測(cè)研究。
由于實(shí)地采集的樣本相對(duì)較少,因此選取3個(gè)區(qū)夏玉米生長(zhǎng)關(guān)鍵生育期的9次實(shí)驗(yàn)數(shù)據(jù)進(jìn)行反演模型的訓(xùn)練,8種植被指數(shù)和同期的株高共9個(gè)因子一同作為訓(xùn)練模型的輸入變量,夏玉米LAI作為輸出變量,分別使用SVM算法、RF算法和GBDT算法來(lái)構(gòu)建夏玉米LAI反演模型。SVM算法模型用LIBSVM庫(kù)來(lái)實(shí)現(xiàn),核函數(shù)選擇徑向基,其余參數(shù)根據(jù)網(wǎng)格搜索法來(lái)確定最優(yōu)參數(shù);RF算法模型根據(jù)多次實(shí)驗(yàn),確定決策樹的數(shù)量為100,節(jié)點(diǎn)分割變量為3;而本文構(gòu)建GBDT算法模型,用Python語(yǔ)言編寫回歸程序,根據(jù)輸入樣本組的不同,防止出現(xiàn)過(guò)擬合現(xiàn)象,需多次實(shí)驗(yàn)確定每組訓(xùn)練集的子模型數(shù)目(n_estimators)、損失函數(shù)(loss)、樹的最大深度(max_depth)等參數(shù)。
表3 植被指數(shù)與LAI相關(guān)性分析結(jié)果Tab.3 Correlation analysis result of LAI and vegetation index
注:** 表示在P<0.01水平上極顯著相關(guān)。
以樣本組2為例說(shuō)明參數(shù)選擇過(guò)程:調(diào)參前,樣本組2由于選擇的樹深和子模型數(shù)目等過(guò)大引起過(guò)擬合(圖2a)。調(diào)參時(shí),選擇最小絕對(duì)偏差(lad)為損失函數(shù),n_estimators為500,max_depth為4,步長(zhǎng)(learning_rate)為0.01,葉節(jié)點(diǎn)最小樣本(min_samples_leaf)為6,作為樣本組2的模型參數(shù)(圖2b)。由圖2可以看出,在提升迭代次數(shù)(Boosting iterations)為500時(shí),訓(xùn)練集偏差和驗(yàn)證集偏差(Deviance)分別最小,500為最優(yōu)的提升迭代次數(shù),過(guò)大或過(guò)小都會(huì)造成預(yù)測(cè)精度的降低。
圖2 樣本組2調(diào)參對(duì)比Fig.2 Contradistinction of parameter adjustment for sample group 2
GBDT算法模型訓(xùn)練結(jié)束后,會(huì)出現(xiàn)所使用輸入變量的相對(duì)重要度(Relative importance),便于理解哪些因素對(duì)于預(yù)測(cè)結(jié)果有關(guān)鍵影響力。同樣也可以判別出幾種由紅、近紅外波段組合出的與LAI強(qiáng)相關(guān)的相似植被指數(shù)中,對(duì)于夏玉米LAI反演結(jié)果的影響力強(qiáng)弱。由圖3可知,3組樣本中株高在相對(duì)重要度中比例占據(jù)第一,是影響模型精度的主要因素;而MASVI在3組樣本中相對(duì)重要度比例相對(duì)比較低,即MASVI對(duì)LAI反演模型的影響力較弱;綜合3組的變量重要性分析,株高對(duì)于LAI反演模型的結(jié)果貢獻(xiàn)較大,MASVI對(duì)于LAI反演模型的結(jié)果貢獻(xiàn)較小。
圖4 夏玉米LAI實(shí)測(cè)值與預(yù)測(cè)值關(guān)系Fig.4 Relationship graphs of measured and predicted summer maize LAI
先將3組訓(xùn)練集分別以3種算法進(jìn)行訓(xùn)練,不斷進(jìn)行調(diào)參和多次迭代訓(xùn)練,得到優(yōu)化的模型;進(jìn)而分別將3組樣本組中獨(dú)立于訓(xùn)練集的驗(yàn)證集,作為訓(xùn)練模型的最后驗(yàn)證;最后將訓(xùn)練集和驗(yàn)證集模型預(yù)測(cè)得到的LAI與實(shí)地測(cè)量的LAI分別進(jìn)行散點(diǎn)圖分析,擬合成線性的回歸線(圖4)。
由圖4可知,GBDT算法對(duì)于連續(xù)值的預(yù)測(cè)效果較SVM算法和RF算法好。GBDT算法在每一樣本組中都體現(xiàn)出強(qiáng)大的學(xué)習(xí)能力,訓(xùn)練集的決定系數(shù)R2分別為0.815 4、0.746 5、0.847 5,對(duì)應(yīng)的RMSE為0.000 7、0.000 8、0.000 6;驗(yàn)證集的決定系數(shù)R2分別是0.571 0、0.755 8、0.644 1,對(duì)應(yīng)的RMSE為0.002 7、0.001 5、0.001 6。
依據(jù)GBDT算法對(duì)3個(gè)樣本組反演結(jié)果的分析,選取效果最佳的樣本組2模型作為反演模型,對(duì)8月23日的數(shù)據(jù)進(jìn)行研究區(qū)內(nèi)夏玉米LAI反演,該研究區(qū)的夏玉米LAI空間分布如圖5所示。
圖5 研究區(qū)夏玉米LAI空間分布圖Fig.5 Spatial distribution map of summer maize in study area
由圖5可知,8月23日的夏玉米LAI在①、②、③、⑤區(qū)主要集中在1.8左右,④區(qū)的LAI在1.4左右。與8月23日的實(shí)測(cè)LAI相比較,總研究區(qū)域?qū)崪y(cè)均值為1.851 4,實(shí)測(cè)最大值為2.190 0,實(shí)測(cè)最小值為1.315 8。5個(gè)區(qū)域?qū)崪y(cè)均值分別為2.092 6、1.795 8、2.087 0、1.406 9、1.888 1。由以上數(shù)據(jù)可知LAI反演數(shù)據(jù)與實(shí)測(cè)數(shù)據(jù)基本相符。整體上①、②、③、⑤區(qū)LAI較高,這是因?yàn)棰?、②、③、⑤區(qū)噴灌正常,玉米長(zhǎng)勢(shì)均勻;研究區(qū)④夏玉米LAI較低,主要是因?yàn)棰軈^(qū)進(jìn)行了一定的水分脅迫,導(dǎo)致夏玉米生長(zhǎng)較其余4個(gè)區(qū)緩慢,區(qū)域內(nèi)作物稀疏;綜上,基于GBDT算法模型反演的LAI與研究區(qū)的LAI空間分布相對(duì)一致,進(jìn)一步證明了該模型的合理性和可靠性。
LAI反映的是葉片的疏密程度,隨著作物的生長(zhǎng),高度不斷增長(zhǎng),葉片的疏密程度按照稀疏-稠密-稀疏變化,高度表現(xiàn)出對(duì)于LAI的顯著影響。本文經(jīng)過(guò)輸入變量相關(guān)性分析和輸出結(jié)果相對(duì)重要度分析兩方面佐證了株高對(duì)LAI具有極顯著關(guān)系,將遙感數(shù)據(jù)(植被指數(shù))與實(shí)測(cè)數(shù)據(jù)(株高)相結(jié)合一同進(jìn)行LAI的反演,可得到較好的反演效果。因此,LAI反演中不應(yīng)只局限于遙感圖像提取的植被指數(shù),還可考慮其他對(duì)于LAI有影響的因子。
機(jī)器學(xué)習(xí)算法與作物遙感反演密切相關(guān),一個(gè)回歸能力很強(qiáng)的機(jī)器學(xué)習(xí)算法模型,可以融合眾多因子(多種植被指數(shù)和株高)共同反演LAI,大幅度提高結(jié)果的精度。本文將GBDT算法應(yīng)用到農(nóng)作物鄰域,反演夏玉米LAI?;谀P头€(wěn)定性的考慮,分為3組樣本重復(fù)訓(xùn)練,以8種植被指數(shù)和株高構(gòu)建GBDT算法反演模型,并與SVM算法和RF算法R2、RMSE相比較,結(jié)果表明GBDT算法構(gòu)建的模型兩項(xiàng)指標(biāo)均高于SVM算法的模型,同樣也較同出一派的RF算法構(gòu)建的模型性能有了進(jìn)一步的提升。在后期的研究中可以將GBDT算法應(yīng)用到玉米葉綠素、玉米生物量等作物相關(guān)參數(shù)的反演,以擴(kuò)大精準(zhǔn)農(nóng)業(yè)技術(shù)支持的范圍。
GBDT算法的優(yōu)勢(shì)在于將若干個(gè)弱學(xué)習(xí)器組合成強(qiáng)學(xué)習(xí)器,結(jié)果是多棵回歸樹的累加之和。由此算法構(gòu)建的模型可以靈活處理各種數(shù)據(jù),不論是本文中的LAI連續(xù)值,還是后續(xù)研究中作物冠層溫度的離散值;在小樣本的回歸問(wèn)題中,GBDT算法可通過(guò)設(shè)置不同的損失函數(shù)以及在相對(duì)較少的調(diào)參時(shí)間下,提高反演精度。GBDT算法不僅減少了SVR模型因選擇核函數(shù)和其他參數(shù)造成的時(shí)間復(fù)雜度的浪費(fèi),而且也解決了RF算法對(duì)待各輸入因子是同一權(quán)值,無(wú)法判斷其中每一因子的貢獻(xiàn)率的問(wèn)題。因此,GBDT算法在回歸問(wèn)題中有很強(qiáng)的應(yīng)用價(jià)值。但還需要注意兩點(diǎn):①利用GBDT算法進(jìn)一步判斷了在紅波段和近紅外波段組成的幾種相似植被指數(shù)的不同影響度,突出了算法的優(yōu)勢(shì),但在精度方面的后續(xù)研究中還有進(jìn)一步提升空間。②GBDT算法中的基學(xué)習(xí)器之間存在依賴關(guān)系,一般難以進(jìn)行并行計(jì)算。本文尚未考慮各個(gè)基學(xué)習(xí)器之間的并行操作,在今后的研究中應(yīng)著重考慮如何實(shí)現(xiàn)部分的并行操作,進(jìn)一步提高反演模型的效率。
將機(jī)器學(xué)習(xí)中梯度提升樹應(yīng)用到夏玉米的LAI反演中,并與機(jī)器學(xué)習(xí)中的支持向量機(jī)和隨機(jī)森林算法進(jìn)行了對(duì)比。該算法構(gòu)建的模型與無(wú)人機(jī)多光譜圖像相結(jié)合,具有較好的反演效果,為實(shí)現(xiàn)大面積、無(wú)損夏玉米LAI反演和遙感監(jiān)測(cè)作物長(zhǎng)勢(shì)提供了技術(shù)支持。