甘 甜,李 雷,李紅葉,宋成陽,謝永盾,陶志強,肖永貴,孟亞雄
(1.甘肅農(nóng)業(yè)大學(xué)農(nóng)學(xué)院,甘肅蘭州 730070;2.中國農(nóng)業(yè)科學(xué)院作物科學(xué)研究所,北京 100081)
小麥作為世界主要糧食作物[1],在我國播種面積約2 400萬hm2,產(chǎn)量約1.3億t,產(chǎn)量約占全世界的30%[2]。然而,由于耕地減少、氣候變化和人口增加,我國小麥供求處于“緊平衡”狀態(tài),在我國人口壓力大與耕地面積不足的大背景下,小麥產(chǎn)量關(guān)乎人民生活水平提高和國家糧食安全[3]。收獲前及時、準(zhǔn)確地監(jiān)測預(yù)報小麥產(chǎn)量對于國民經(jīng)濟發(fā)展、糧食政策制定、糧食市場調(diào)節(jié)等均具有重要意義[4]。
遙感技術(shù)因其尺度大、效率高、無損傷等優(yōu)點,被廣泛應(yīng)用于各類精準(zhǔn)農(nóng)業(yè)研究領(lǐng)域[5-6]。在各尺度遙感平臺中,衛(wèi)星遙感常被用于區(qū)域作物產(chǎn)量預(yù)測[7-8]。衛(wèi)星平臺視點高、視域廣、數(shù)據(jù)采集快[9],但存在重訪周期長、影像分辨率低、混合像元和氣象條件限制等問題,對農(nóng)業(yè)生產(chǎn)者的實際輔助效果甚微[10]。搭載各類傳感器的無人機(unmanned aerial vehicle,UAV)低空遙感平臺[11]具有快速靈活、空間分辨率高的特點,在精準(zhǔn)農(nóng)業(yè)領(lǐng)域受到廣泛關(guān)注[12-13],利用其能夠高通量獲取作物冠層生長信息,并及時對產(chǎn)量做出預(yù)測[14-15]?;诘孛娓吖庾V遙感平臺獲取的連續(xù)精細的波段反射率數(shù)據(jù)具有信息豐富且光譜分辨率高特點[16]。無人駕駛地面車輛(unmanned ground vehicle,UGV)搭載的地面高光譜設(shè)備作為全新的高通量生理表型鑒定平臺,其生理表型鑒定性能顯著優(yōu)于UAV平臺[17]。采用單一平臺獲取的小麥產(chǎn)量相關(guān)信息往往不夠全面,目前作物估產(chǎn)研究也大多限于同一遙感平臺,將多個遙感平臺數(shù)據(jù)結(jié)合的研究鮮有報道。
近年來,利用各尺度遙感數(shù)據(jù)作為機器學(xué)習(xí)算法輸入特征,在建立作物性狀評估模型時表現(xiàn)出較高的預(yù)測精度和魯棒性[18],已廣泛用于小麥、大豆、玉米等作物產(chǎn)量評估[19-21]?;趩我粰C器學(xué)習(xí)算法對作物性狀的評估精度在不同生長環(huán)境下有所差異,而結(jié)合多種機器學(xué)習(xí)算法的集成學(xué)習(xí)有著更為穩(wěn)定的預(yù)測能力[22]。Stacking是一種使用“學(xué)習(xí)法”的多模型結(jié)合策略,由Breiman于1992年提出[23]。通過次級學(xué)習(xí)器對多個初級學(xué)習(xí)器的輸出結(jié)果再次訓(xùn)練,可將不同學(xué)習(xí)器解析數(shù)據(jù)的能力進行結(jié)合,并且在集成時使用多元線性回歸(multiple linear regression,MLR)作為次級學(xué)習(xí)器,具有較好的集成效果[24]。Stacking集成通常能得到比單一學(xué)習(xí)器更高的預(yù)測精度,尤其對高光譜遙感等高維度數(shù)據(jù)進行訓(xùn)練時效果顯著,已廣泛應(yīng)用于地理信息分類、植物光合能力評估和作物產(chǎn)量預(yù)測等領(lǐng)域[25-26]。
本研究基于冬小麥田間試驗,通過無人機遙感平臺、地面表型車平臺及手持式冠層鑒定平臺,選擇灌漿期作為最佳生育期,獲取RGB、多光譜和高光譜數(shù)據(jù)并分別構(gòu)建光譜指數(shù)集,再以光譜指數(shù)集作為輸入變量,通過決策樹(decision tree,DT)、嶺回歸(ridge regression,RR)、隨機森林(random forest,RF)、支持向量機(support vector machine,SVM)4種機器學(xué)習(xí)方法與集成算法(ensemble learning,EL)分別構(gòu)建基于ASD-高光譜、UGV-高光譜、UAV-多光譜、RGB-顏色指數(shù)的冬小麥產(chǎn)量預(yù)測模型,并探討4種遙感數(shù)據(jù)的預(yù)測精度及最優(yōu)組合,以期為冬小麥產(chǎn)量預(yù)測提供新的思路和方法。
利用中麥175/輪選987重組自交系F7代群體中70個家系為試驗材料,于2020年種植于中國農(nóng)業(yè)科學(xué)院作物科學(xué)研究所昌平試驗基地(116.24°E,40.17°N)。試驗采用隨機區(qū)組設(shè)計,2次重復(fù),行距為0.2 m,小區(qū)面積為4.2 m2(3 m×1.4 m)。出苗后對缺苗斷垅處進行移栽,確保苗全苗勻。田間管理按照北部冬麥區(qū)區(qū)域試驗標(biāo)準(zhǔn)進行,并及時進行病蟲害及雜草防控。
按圖1所示流程獲取冬小麥冠層的光譜數(shù)據(jù)和各個小區(qū)的實際產(chǎn)量,并結(jié)合機器學(xué)習(xí)算法和集成算法,對小麥產(chǎn)量進行預(yù)測研究。
圖1 技術(shù)路線
1.3.1 無人機遙感影像獲取與處理
使用DJI精靈4無人機搭載多光譜相機和可見光相機,于小麥灌漿期(5月29日)執(zhí)行飛行任務(wù),使用軟件GS Pro2.0規(guī)劃飛行任務(wù),規(guī)劃航線和航點任務(wù)的航向和旁向重疊率均設(shè)置為85%,無人機飛行高度設(shè)定為30 m,空間分辨率為每像素3.55 cm。獲取數(shù)據(jù)后利用Pix4D 4.5.6軟件進行影像拼接、輻射定標(biāo),結(jié)合ArcGIS軟件提取小區(qū)的冠層信息,計算多光譜的反射率和RGB的DN值。
1.3.2 ASD高光譜數(shù)據(jù)獲取與處理
采用高光譜輻射儀(Fieldspec 4,Analytical Spectral Devices ASD,Boulder,CO,United States)在小麥灌漿期測定冠層光譜。獲取光譜后,利用ViewSpecPro(ASDInc,Boulder,Colorado)軟件進行數(shù)據(jù)檢查,獲取反射率數(shù)據(jù)。
1.3.3 UGV高光譜數(shù)據(jù)獲取與處理
利用UGV獲取數(shù)據(jù)前,將單個小區(qū)的四個點進行坐標(biāo)測定,將數(shù)據(jù)錄入UGV的GPS模塊中以實現(xiàn)對小區(qū)的自動劃分。由于UGV自帶穩(wěn)定光源,在小麥灌漿期16:00-19:00采集數(shù)據(jù)。采集時車廂位于小麥冠層上方20 cm處,以0.7 m·s-1的速度進行移動測量。利用FieldExplorer分析軟件中生成的csv和bmp文件,獲得300~1 000 nm的光譜波段。
1.3.4 地面數(shù)據(jù)獲取與處理
成熟后,使用小區(qū)聯(lián)合收割機進行收獲,晾曬后籽粒含水量約為6.5%時稱重,并換算為公頃產(chǎn)量,共獲得144個產(chǎn)量數(shù)據(jù),以4∶1的比例劃分為訓(xùn)練集與測試集。
光譜指數(shù)是由不同波段的反射率以代數(shù)形式組合成的一種參數(shù),可降低條件背景對光譜反射率數(shù)據(jù)的干擾,比單波段具有更高的靈敏性[27]。本試驗選擇29個多光譜指數(shù)[27-40]和32個高光譜指數(shù)[41-49]。
RGB光譜指數(shù)模型中波長為650 nm(紅)、560 nm(綠)和450 nm(藍)的光譜色為三原色,在軟件的直方圖中采集葉片圖像的紅光值(R)、綠光值(G)和藍光值(B)。根據(jù)R、G、B算法組合得出33個RGB光譜指數(shù)[49-54]。
選取在農(nóng)作物產(chǎn)量預(yù)測中廣泛應(yīng)用的4種傳統(tǒng)機器學(xué)習(xí)算法[決策樹(DT)、隨機森林(RF)、支持向量機(SVM)和嶺回歸(RR)]用以構(gòu)建產(chǎn)量預(yù)測模型[55],并使用典型的集成學(xué)習(xí)算法Stacking。交叉驗證具有簡單和通用的特點,能夠有效避免過擬合問題[56]。算法集成是在每次劃分后以SVM、RF、DT、RR為初級模型,以MLR為次級模型并使用10折交叉驗證進行訓(xùn)練和測試。算法-傳感器集成是以SVM 、RF、DT、RR四種機器學(xué)習(xí)算法和RGB、ASD、UAV、UGV四個傳感器為初級模型,以MLR為次級模型并使用10折交叉驗證法進行訓(xùn)練和測試。
以10折交叉驗證的10次驗證結(jié)果的決定系數(shù)(coefficient of determination,r2)和均方根誤差(root mean square error,RMSE)的平均值檢驗?zāi)P途群皖A(yù)測能力。計算公式如下:
(1)
(2)
采用SPSS軟件進行P-P圖檢驗,70個家系實測產(chǎn)量值呈正態(tài)分布(圖2),產(chǎn)量最小值為 4 131 kg·hm-2,最大值為9 798 kg·hm-2,平均值為7 204 kg·hm-2,標(biāo)準(zhǔn)差為756 kg·hm-2,變異系數(shù)為10.49%。母本中麥175的平均產(chǎn)量為8 539 kg·hm-2,父本輪選987的平均產(chǎn)量為7 500 kg·hm-2,雙親在產(chǎn)量性狀上有較大差異,群體平均產(chǎn)量低于雙親,說明該重組自交系具有豐富的遺傳變異。
圖2 小麥實測產(chǎn)量密度分布
相關(guān)性分析(表1)表明,除高光譜指數(shù)DSI、PVI、MCARI外,其余指數(shù)與小麥實測產(chǎn)量均呈顯著或極顯著相關(guān)。RGB-顏色指數(shù)與產(chǎn)量多數(shù)呈極顯著負相關(guān),其中RBDI的相關(guān)性最高(r=-0.71),ExG的相關(guān)性最低(r=0.24)。UAV-多光譜指數(shù)與產(chǎn)量多數(shù)呈極顯著正相關(guān),其中NPCI和PSRI的相關(guān)性最高(r= -0.71),MNVI的相關(guān)性最低(r=0.39)。UGV-高光譜指數(shù)與產(chǎn)量也多數(shù)呈極顯著正相關(guān),其中PSRI的相關(guān)性最高(r=-0.73),PVI的相關(guān)性最低(r= -0.11)。ASD-高光譜指數(shù)與產(chǎn)量也多數(shù)呈極顯著正相關(guān),其中PSRI的相關(guān)性最高(r= -0.69),MCARI的相關(guān)性最低(r=-0.15)。由此可見,灌漿期各遙感平臺數(shù)據(jù)均能獲取與小麥產(chǎn)量相關(guān)的信息,且各平臺間差異較小。因此,建立產(chǎn)量預(yù)測模型時使用全部光譜指數(shù)作為各模型的輸入特征。
表1 光譜指數(shù)與冬小麥實測產(chǎn)量的相關(guān)性Table 1 Correlation between spectral index and measured yield of winter wheat
將各光譜指數(shù)分別作為DT、RR、RF、SVM算法的輸入變量構(gòu)建產(chǎn)量預(yù)測模型(表2)。結(jié)果表明,基于RGB預(yù)測產(chǎn)量精度最高的模型為SVM算法模型,r2為0.76,RMSE為 451.58 kg·hm-2;基于ASD預(yù)測產(chǎn)量精度最高的模型為RR算法模型,r2為 0.72,RMSE為501.73 kg·hm-2;基于UAV預(yù)測精度最高的模型為SVM算法模型,r2為0.75,RMSE為482.35 kg·hm-2;基于UGV預(yù)測產(chǎn)量精度最高的模型為RR算法模型,r2為0.72,RMSE為531.71 kg·hm-2。就傳感器而言,RGB的預(yù)測能力最為穩(wěn)定,且預(yù)測精度較高,平均r2為0.74;就算法而言,RR模型預(yù)測能力較為穩(wěn)定,平均r2為0.73。
表2 基于不同傳感器冬小麥產(chǎn)量預(yù)測精度Table 2 Estimation precision of winter wheat yield based on different sensors
將DT、RR、RF、SVM四種初級學(xué)習(xí)器輸出的預(yù)測產(chǎn)量作為輸入特征建立冬小麥產(chǎn)量預(yù)測模型(圖3)。結(jié)果表明,基于RGB的r2由初級學(xué)習(xí)器中預(yù)測精度最高的0.76(SVM)提升至 0.77,RMSE為481.80 kg·hm-2;基于ASD的r2為0.71,雖然r2并未提升,但RMSE降為 488.16 kg·hm-2;基于UAV的r2由初級學(xué)習(xí)器中預(yù)測精度最高的0.75(SVM)提升至0.77,RMSE降至479.45 kg·hm-2;基于UGV的r2由初級學(xué)習(xí)器中預(yù)測精度最高的0.72(RR)提升至 0.73,RMSE降至519.08 kg·hm-2。這說明利用Stacking方法能提高產(chǎn)量預(yù)測精度,具有比單一模型更優(yōu)異的泛化能力。
圖3 基于算法集成的小麥產(chǎn)量預(yù)測精度驗證
為了進一步評估集成方法的性能,通過使用DT、RR、RF、SVM四種初級學(xué)習(xí)器和RGB、ASD、UAV、UGV四個傳感器組合的集成方法來實現(xiàn)冬小麥產(chǎn)量預(yù)測。利用Stacking方法在驗證集上冬小麥產(chǎn)量預(yù)測結(jié)果與實測產(chǎn)量結(jié)果做散點圖(圖4)。算法-傳感器組合預(yù)測的r2為 0.79,RMSE為469.98 kg·hm-2,預(yù)測精度和能力大于上述的各種組合,并且RMSE也較低。用Excel軟件對產(chǎn)量實測值和預(yù)測值兩組數(shù)據(jù)進行t檢驗,得到P=0.64,說明兩組數(shù)據(jù)差異不顯著(P>0.05),模型集成的精度提高具有統(tǒng)計學(xué) 意義。
圖4 基于算法-傳感器集成的小麥產(chǎn)量預(yù)測精度驗證
小麥產(chǎn)量的精準(zhǔn)預(yù)測對于提升育種工作效率具有重要意義。本研究分別獲取了基于ASD和UGV的高光譜數(shù)據(jù),兩種傳感器計算得到的GARI、NDRSR、VREI、SRI、ARVI、RENDVI和PSRI與產(chǎn)量的相關(guān)性均較高(r=0.58~0.73)。上述指數(shù)波長大多位于700~800 nm,說明700 nm和800 nm組合的高光譜指數(shù)對預(yù)測產(chǎn)量有很好的精度。這與崔懷洋等[57]的研究結(jié)果一致。
本研究通過比較基于UGV-高光譜和ASD-高光譜兩種遙感技術(shù)建立的冬小麥產(chǎn)量預(yù)測模型發(fā)現(xiàn),基于DT、RF、SVM、RR四種機器學(xué)習(xí)算法和集成方法建立的預(yù)測模型中,UGV預(yù)測精度均大于ASD。UGV以高光譜圖像為載體,通過結(jié)合地表作物生理圖像信息,形成了光譜與圖像的結(jié)合,具有更高的光譜分辨率能敏感捕捉不同地物在光譜維上的細微差異,進而大大提高獲取地物表型信息的能力。ASD僅得到冠層反射率,與圖像相比,包含的信息較少。相比于其他作物長勢監(jiān)測平臺,UGV因價格昂貴,導(dǎo)致國內(nèi)小規(guī)模育種公司和科研單位難以用于實際。ASD預(yù)測精度雖低于UGV,但成本較低且便于攜帶,對于多環(huán)境田間表型調(diào)查更為高效實用。本研究還發(fā)現(xiàn),RR模型較其他模型能獲得較好的預(yù)測結(jié)果和穩(wěn)定性,可能歸因于共線數(shù)據(jù)分析模型的偏向性和大多數(shù)性狀的綜合關(guān)系[58-60]。
利用遙感平臺可以避免估產(chǎn)過程中工作量大、人為干擾等不利因素[61]。將遙感數(shù)據(jù)與多個模型的優(yōu)點結(jié)合起來,可以提高在各種生長條件下冬小麥產(chǎn)量預(yù)測的精度。集成學(xué)習(xí)方法通過組合不同的基礎(chǔ)機器學(xué)習(xí)算法來增加算法的多樣性,而基礎(chǔ)機器學(xué)習(xí)算法的更多異質(zhì)性的組合提高了集成學(xué)習(xí)模型的預(yù)測能力[60-62]。本研究將4種不同原理和內(nèi)部結(jié)構(gòu)的機器學(xué)習(xí)算法結(jié)合在一起,在預(yù)測冬小麥產(chǎn)量方面具有比單一學(xué)習(xí)機器更高的精度。此外,本研究還發(fā)現(xiàn)將無人機遙感平臺、地面遙感平臺和地面?zhèn)鹘y(tǒng)生理表型(產(chǎn)量)集于一體,提出近地面“天空地一體化”冬小麥產(chǎn)量預(yù)測模式,預(yù)測精度大于單個傳感器和單個算法,r2為0.79,RMSE為469.98 kg·hm-2,證明了該模式可提高冬小麥產(chǎn)量預(yù)測能力。
本研究基于多源平臺與算法的集成實現(xiàn)了對小麥產(chǎn)量的預(yù)測且效果較好,但存在一些問題需要改進:(1)研究中使用的機器學(xué)習(xí)模型均為經(jīng)驗?zāi)P停鋬?yōu)點在于方法簡單,且可重復(fù)操作,但該類模型在更多種生長環(huán)境下實施時需要進一步地完善研究和驗證其穩(wěn)定性;(2) 研究中選用的生長階段較少,缺乏對于小麥生長初期如返青期和拔節(jié)期等時期的產(chǎn)量預(yù)測精度研究。下一步研究內(nèi)容可以包括:(1)在多種復(fù)雜生長條件下驗證與本研究結(jié)論是否一致,并探索更多影響構(gòu)建模型的因素,獲得更優(yōu)的機理解釋;(2)本研究僅利用一年冬小麥數(shù)據(jù)分析,未來將針對多生長季時間序列數(shù)據(jù)進行深入探討。
相對于高光譜和多光譜,RGB傳感器預(yù)測產(chǎn)量精度最高;相對于傳統(tǒng)機器學(xué)習(xí)算法DT、RF、SVM,RR機器學(xué)習(xí)算法預(yù)測產(chǎn)量精度最高。4種算法集成的模型預(yù)測精度高而且穩(wěn)定,4種機器學(xué)習(xí)算法和四個傳感器構(gòu)成算法-傳感器集成模型的預(yù)測精度最高,r2為0.79。這說明利用Stacking集成方法將不同算法、傳感器進行結(jié)合,能夠有效地提高產(chǎn)量預(yù)測精度,可為冬小麥育種工作中產(chǎn)量預(yù)測提供參考。