張 杰,徐 波,馮海寬,競 霞,王嬌嬌,明世康,傅友強,宋曉宇*
1.北京市農(nóng)林科學(xué)院信息技術(shù)研究中心,北京 100094 2.西安科技大學(xué)測繪科學(xué)與技術(shù)學(xué)院,陜西 西安 710054 3.廣東省農(nóng)業(yè)科學(xué)院水稻研究所, 廣東 廣州 510640
水稻是我國種植面積最大、覆蓋范圍最廣的糧食作物,長期以來我國注重水稻產(chǎn)量發(fā)展,以解決人民生活溫飽為目標(biāo),近年來,隨著人民生活消費水平不斷提高,對稻米的需求也從過去的“高產(chǎn)”向“品質(zhì)-食味”轉(zhuǎn)變,獲取高產(chǎn)、高品質(zhì)的水稻是我國實施精準農(nóng)業(yè)的新要求[1]。稻米蛋白質(zhì)含量是決定水稻營養(yǎng)品質(zhì)的重要指標(biāo),氮素是水稻生長發(fā)育的關(guān)鍵因素,既影響水稻營養(yǎng)代謝、物質(zhì)積累,也影響稻米最終營養(yǎng)及食味品質(zhì)。高光譜遙感技術(shù)是實現(xiàn)對水稻氮素營養(yǎng)及品質(zhì)進行綠色無損監(jiān)測的重要途徑,建立水稻氮素營養(yǎng)及籽粒蛋白含量監(jiān)測模型,是精準制定田間管理措施、快速評估水稻品質(zhì)的可靠依據(jù)[2]。一些學(xué)者已利用高光譜遙感對水稻氮素狀況及籽粒蛋白含量等品質(zhì)相關(guān)參數(shù)進行了深入研究[3-4]。張浩等采用主成分分析(principal component analysis,PCA)對200~1 100 nm之間的光譜波段進行降維,選用貢獻率最高的兩個主成分作為模型的輸入變量,對水稻葉片氮素含量及籽粒蛋白含量進行預(yù)測,模型決定系數(shù)R2達到0.847以上[5]。孫雪梅等探討了不同氮素水平下的水稻光譜曲線特征,利用統(tǒng)計相關(guān)分析,研究了9個植被指數(shù)和8個微分參數(shù)與葉片葉綠素、全氮含量的相關(guān)關(guān)系,建立了葉綠素和全氮含量的監(jiān)測模型,并通過葉綠素監(jiān)測模型間接對水稻籽粒蛋白含量進行預(yù)測[6]。劉蕓等分析了米粉光譜與蛋白質(zhì)含量、直鏈淀粉含量的關(guān)系,通過提取敏感波段的特征參數(shù),利用多元逐步回歸構(gòu)建的模型決定系數(shù)R2達到0.7以上,檢驗精度也達到了80%以上[7]。
目前對高光譜數(shù)據(jù)的處理大多通過主成分分析等方法實現(xiàn)對數(shù)據(jù)的特征降維,以較少的特征參數(shù)參與模型的構(gòu)建,在降低模型構(gòu)建難度的同時可能會丟失部分有效信息,而機器學(xué)習(xí)模型具備強大的處理高維數(shù)據(jù)與冗余數(shù)據(jù)的能力,基于更高效益的數(shù)學(xué)方法與數(shù)據(jù)處理方式實現(xiàn)對數(shù)據(jù)中有效信息的提取[8-9]。Bao等在小麥品種快速分類模型的構(gòu)建中,使用連續(xù)投影算法(successive projections algorithm,SPA)、主成分分析算法(PCA)和隨機蛙跳(random frog,RF)三種特征提取方法,從數(shù)百個光譜波段中篩選可用于建立分類模型的光譜變量,使用線性判別分析(linear discriminant analysis,LDA)支持向量機(support vector machine, SVM)、極限學(xué)習(xí)機(extreme learning machine,ELM)三種機器學(xué)習(xí)算法分別以全波段和經(jīng)過特征篩選的波段作為輸入變量進行小麥品種分類模型構(gòu)建,以全波段作為輸入變量的ELM算法分類精度最優(yōu)[10]。上述研究大多使用個體學(xué)習(xí)器的機器學(xué)習(xí)方法進行建模,相比于個體學(xué)習(xí)器,集成學(xué)習(xí)往往具備更好的穩(wěn)定性和更高的精度。Chan等使用RF和Adaboost對航空高光譜圖像進行了生態(tài)區(qū)分類研究,并評估了分類精度,表明RF和Adaboost的精度均優(yōu)于神經(jīng)網(wǎng)絡(luò)分類器[11]。Gislason等對RF,Boosting和Bagging三種集成方法進行了土地覆蓋分類的精度對比研究,表明RF在與其他集成學(xué)習(xí)方法精度相當(dāng)?shù)耐瑫r,擁有更快的訓(xùn)練速度并且不會過擬合[12]。Pham等在邊坡穩(wěn)定性問題上應(yīng)用集成學(xué)習(xí)建立了分類模型,并與八種傳統(tǒng)機器學(xué)習(xí)模型進行了對比,模型的平均F1分數(shù)、準確度與ROC曲線下面積(AUC)分別提高2.17%,1.66%和6.27%,認為集成學(xué)習(xí)中的極端梯度增強集成分類器(XGB-CM)更適用于滑坡風(fēng)險評估問題[13]。
基于遙感的植被理化參數(shù)的監(jiān)測有助于適時、精準地獲取作物氮素營養(yǎng)信息,是作物肥水診斷及管理決策的基礎(chǔ)。而水稻品質(zhì)形成與其生長過程中氮素營養(yǎng)代謝的合成與轉(zhuǎn)運直接相關(guān),結(jié)合作物光譜響應(yīng)機理與碳氮代謝轉(zhuǎn)運機制進行作物蛋白質(zhì)含量預(yù)測具有可行性[14]。本文在前人研究的基礎(chǔ)上,選擇水稻關(guān)鍵生育期冠層全波段光譜數(shù)據(jù),分別基于四種個體學(xué)習(xí)器算法(PLSR,KNN,BRR,SVR)及三種集成學(xué)習(xí)算法(RF,Adaboost,Bagging),開展:(1)水稻氮素營養(yǎng)遙感監(jiān)測;(2)水稻籽粒蛋白含量遙感監(jiān)測,將集成學(xué)習(xí)應(yīng)用于水稻生長參數(shù)及品質(zhì)的遙感監(jiān)測,通過研究,探索其適用性,分析不同算法在水稻氮素營養(yǎng)監(jiān)測中的優(yōu)劣,同時篩選水稻籽粒蛋白含量遙感建模的最優(yōu)算法及最優(yōu)變量因子,為水稻品質(zhì)的監(jiān)測應(yīng)用提供依據(jù)。
2019年—2020年在廣東省廣州市白云區(qū)鐘落潭試驗基地(23°23′24″N—23°23′59″N, 113°25′48″E—113°26′24″E)開展水稻變量施肥的小區(qū)實驗。試驗基地內(nèi),2019年的試驗品種為美香占2號(V1),插秧時間2019年8月8日,插秧密度為20 cm×20 cm,試驗共設(shè)計15個小區(qū)采樣測試;每個小區(qū)插秧規(guī)格為16穴×16穴。2020年的試驗品種為美香占2號(V1)和五豐優(yōu)615(V2),插秧時間為2020年8月8日,共30個小區(qū),插秧密度為20 cm×20 cm,根據(jù)插秧規(guī)格,每個小區(qū)16穴×20穴。
2019年及2020年試驗共設(shè)計5個氮素水平(N0, N1, N2, N3, N4),分別為0,60,120,180,240 kg N·ha-1,設(shè)3次重復(fù);其中基肥、分蘗肥、穗肥的施用比例為5∶2∶3;磷、鉀肥用量分別為54和144 kg·ha-1。分化期(2019.9.13,2020.9.10)和抽穗期(2019.10.11,2020.10.9)進行田間植株取樣,獲取水稻葉片及植株氮素含量數(shù)據(jù),水稻品質(zhì)數(shù)據(jù)分區(qū)于2019年及2020年水稻成熟期獲取,其中2019年每時期獲取15個樣本,2020年每時期獲取30個樣本,數(shù)據(jù)獲取情況見表1。
表1 試驗數(shù)據(jù)獲取情況
水稻冠層高光譜數(shù)據(jù)采集使用的是美國ASD Filed Spec Pro 2500背掛式野外光譜儀,儀器采集的光譜范圍為350~2 500 nm。根據(jù)前人的研究,作物光譜的可見光與近紅外范圍已能夠反映作物的生長狀況,因此本次實驗采用454~950 nm的冠層光譜數(shù)據(jù),重采樣后間隔為4 nm[15-16]。測量時間為北京時間10:00—14:00,期間天氣晴朗,在每一個采樣點測量前后均用標(biāo)準白板對冠層輻亮度數(shù)據(jù)進行校正。冠層光譜數(shù)據(jù)采集時距離冠層高度約1 m,探頭垂直向下,探頭角度為25°,每個采樣點取10次測量平均值作為該樣方的冠層輻亮度值。同一年的試驗中,記錄采樣點的位置,保證不同生育期同一小區(qū)在相同位置采集數(shù)據(jù)。對測定的冠層輻亮度和白板輻亮度利用式(1)計算目標(biāo)的光譜反射率。
(1)
式(1)中,R為冠層反射率,Ltarget為冠層輻亮度(μW·cm-2·nm-1·sr-1),Lboard為白板輻亮度(μW·cm-2·nm-1·sr-1),Rboard為白板反射率。
光譜測量完成后,在小區(qū)內(nèi)隨機選擇6穴水稻植株樣本,去根并逐叢計數(shù)莖蘗數(shù),分化期莖葉分離,抽穗期將莖葉和穗分離,分開放入105 ℃烘箱殺青30 min,并在80 ℃下干燥至恒重,分別稱重并記錄。然后使用凱氏定氮儀分別測量莖、葉、穗的氮含量。計算公式如式(2)
NC=(V×0.05×14×1 000)/(1 000×M)
(2)
式(2)中,NC為氮含量(%),V為鹽酸體積(mL),M為樣品質(zhì)量(g)。
根據(jù)采樣點種植密度和水稻樣本的干重計算單位面積葉片和植株的生物量和氮積累量,計算公式如式(3)
LNA=(LAGB×LNC)/1 000
(3)
PNA=(LAGB×LNC+SAGB×SNC+EAGB×ENC)/100
(4)
式(3)和式(4)中,LNA為葉片氮積累量(kg·m-2);PNA為植株氮積累量(kg·m-2);LAGB,SAGB和EAGB分別為測試樣本中葉片、莖、穗的生物量(g·m-2);LNC,SNC和ENC分別為葉片、莖、穗的氮濃度(%)。在分化期時,由于水稻的穗還未發(fā)育,只計算葉片和莖的相關(guān)參量即可。
于成熟期逐小區(qū)實收125叢稻株(5 m2),水稻植株脫粒,籽粒曬干3個月后,脫殼碾磨成精米,然后磨細成粉,采用半微量凱氏定氮法測定籽粒氮素含量,籽粒蛋白質(zhì)含量(%)=籽粒氮素含量×5.95。
機器學(xué)習(xí)中根據(jù)算法的構(gòu)建形式,可以將其分為個體學(xué)習(xí)器與集成學(xué)習(xí)器,其中個體學(xué)習(xí)器各自遵循獨立的學(xué)習(xí)策略對目標(biāo)進行預(yù)測,而集成學(xué)習(xí)則是將多個已有的個體學(xué)習(xí)器通過某種策略結(jié)合起來,建立一個新的學(xué)習(xí)器,最終以多個基學(xué)習(xí)器的預(yù)測結(jié)果的均值或加權(quán)均值作為最終預(yù)測結(jié)果。本文選擇了四種基于不同理論的個體機器學(xué)習(xí)算法,三種基于不同構(gòu)建思想的集成學(xué)習(xí)算法,研究兩類算法在水稻氮素營養(yǎng)與籽粒蛋白品質(zhì)監(jiān)測上的優(yōu)缺點。
個體學(xué)習(xí)器算法包括PLSR,KNN,BRR和SVR,其中PLSR通過最小化誤差的平方和,尋找一組新的潛在變量來解釋自變量X與因變量Y之間存在的統(tǒng)計關(guān)系,是一種常見的對數(shù)據(jù)進行降維處理、解決數(shù)據(jù)多重共線性問題、簡化建模過程的方式[17]。KNN是通過k個最接近的鄰居計算與預(yù)測因子之間空間相似性關(guān)系進行預(yù)測,常被用來分類問題,后來逐漸應(yīng)用于參數(shù)估計[18]。BRR是基于貝葉斯方法與最小二乘法的改進而提出的,通過對線性貝葉斯回歸模型加入L2正則化,結(jié)合相關(guān)參數(shù)的先驗信息形成先驗分布并給出預(yù)估數(shù)值[19]。SVR的基本思想是通過尋找最優(yōu)劃分超平面,忽略小于偏差ε的的樣本,對其他樣本進行回歸,偏差ε的引入是SVR區(qū)別于傳統(tǒng)回歸模型的地方,即以預(yù)測y值為中心,與真實y值之間存在一個寬度為2ε的區(qū)域,在此區(qū)域內(nèi),預(yù)測y值與真實y值的差別認為是0。其回歸模型為f(x)=wTx+b,w和b為模型待確定參數(shù)[20]。
集成學(xué)習(xí)算法包括Bagging,RF和Adaboost,其中Bagging的個體學(xué)習(xí)器的訓(xùn)練集通過自助采樣得到,每個個體學(xué)習(xí)器采用的訓(xùn)練集不同,但個體學(xué)習(xí)器權(quán)重相同,在每個個體訓(xùn)練完之后進行平均,從而得到更高的準確性;RF是Bagging以決策樹為基學(xué)習(xí)器的拓展變體,并進一步引入屬性的隨機選擇,抗噪性能和泛化性能有所提高,RF和Bagging均屬于并行化集成;Adaboost是每個個體使用相同的訓(xùn)練集,但每輪訓(xùn)練中樣本權(quán)重不同,并且后一個學(xué)習(xí)器的運行依賴前一個學(xué)習(xí)器的結(jié)果,運行過程中不斷優(yōu)化和提升,最終將一族弱學(xué)習(xí)器提升為損失函數(shù)極小的強學(xué)習(xí)器,屬于序列化集成[21,23]。
利用PLSR,KNN,BRR,SVR,RF,Adaboost和Bagging七種算法構(gòu)建水稻氮素參數(shù)及籽粒蛋白含量預(yù)測模型時,采用k-fold交叉驗證方法(k=5)進行建模。采用決定系數(shù)(R2), 均方根誤差(root mean square error,RMSE), 平均絕對誤差(mean absolute error,MAE)三個指標(biāo)聯(lián)合驗證模型預(yù)測精度,R2越大,代表模型擬合度越高,RMSE和MAE越小,模型穩(wěn)定性越好。
2019年與2020年不同生育期水稻氮素參量與籽粒蛋白含量進行相關(guān)性分析,分化期LNC,LNA,PNC,PNA與籽粒蛋白含量的相關(guān)性系數(shù)分別為0.452,0.794,0.499和0.804,抽穗期LNC,LNA,PNC,PNA與籽粒蛋白含量的相關(guān)性系數(shù)分別為0.787,0.774,0.824和0.756,LNC與PNC在分化期與籽粒蛋白含量的相關(guān)性低于抽穗期,PNC較分化期提高LNA與PNA在分化期與抽穗期均具有較好的相關(guān)性,且除分化期的LNC外,其余氮素參量均達到了0.001水平顯著。同時,四種氮素參量之間相關(guān)性為0.7左右,LNC和LNA代表葉片尺度的氮素含量與積累情況,PNC和PNA表示植株地上部分整體的氮素含量與積累情況,由于水稻籽粒蛋白的形成是一個動態(tài)的生物學(xué)過程,同一時期,不同部位與不同形式的氮素參量可能對籽粒蛋白的形成具備不同的轉(zhuǎn)運與作用機理,故建模過程中分別加入LNC,LNA,PNC和PNA四個參量探究其對水稻籽粒蛋白形成的影響。
2.2.1 冠層光譜與水稻氮素參數(shù)的相關(guān)性分析
圖1是兩年試驗不同生育期水稻冠層光譜與氮素相關(guān)參數(shù)的相關(guān)系數(shù)圖。整體來看,所有長勢參數(shù)在兩生育期相關(guān)系數(shù)有所不同,但均具有相似的變化趨勢,近紅外部分均保持在某一值持平,整體變化幅度很小且以正相關(guān)為主,可見光部分則以負相關(guān)為主。所有長勢參數(shù)在550 nm附近出現(xiàn)相關(guān)性“低谷”,相關(guān)系數(shù)低于其他可見光部分。在可見光區(qū)域與近紅外區(qū)域的交界處,光譜反射率受葉片內(nèi)細胞間隙折射率不同的影響,反射率急劇增加,相關(guān)系數(shù)迅速由負轉(zhuǎn)正,有明顯的降低后再抬升的趨勢。
圖1 2019年與2020年水稻不同生育期冠層光譜與氮素參數(shù)相關(guān)性(n=45)
LNC隨著生育期的推進,與冠層反射率相關(guān)性在全波段均有所提高,分化期最大相關(guān)系數(shù)為0.450(950 nm),抽穗期最大相關(guān)系數(shù)達到0.585(942 nm)。LNA在可見光部分與冠層光譜的相關(guān)性分化期高于抽穗期,而在近紅外部分則相反,兩生育期最大相關(guān)系數(shù)分別為-0.602(662 nm),0.662(950 nm)。PNC與LNC具有相似的趨勢,在分化期與冠層反射率相關(guān)性普遍較低,最大相關(guān)系數(shù)僅為0.431(950 nm),抽穗期PNC與冠層反射率的相關(guān)性在可見光部分與近紅外部分均有較大提升,特別是近紅外部分,在750~950 nm區(qū)間,最大相關(guān)系數(shù)達到0.710(940 nm)。分化期PNA在可見光部分的658 nm附近,與冠層反射率存在較好的相關(guān)性,最大相關(guān)系數(shù)為-0.641(666 nm),隨著生育期的推進,在抽穗期的近紅外部分,PNA與冠層反射率的相關(guān)性優(yōu)于分化期,最大相關(guān)系數(shù)為0.663(922 nm)。
2.2.2 基于光譜信息的水稻氮素含量監(jiān)測
基于2019年與2020年數(shù)據(jù),以全波段光譜作為輸入?yún)?shù),分別采用PLSR,KNN,BRR,SVR,RF,Adaboost和Bagging七種不同算法構(gòu)建分化期、抽穗期及全生育期水稻氮素參數(shù)LNC,LNA,PNC和PNA監(jiān)測模型。結(jié)果如表2、表3、表4所示,七種算法均能利用全波段光譜信息實現(xiàn)對各個氮素參數(shù)不同程度的表達。其中,分化期、抽穗期及全生育期LNC的最優(yōu)建模精度R2分別為0.927,0.954和0.922,RMSE為0.110,0.241和0.135,MAE為0.187,0.185和0.107,LNA的最優(yōu)建模精度R2分別為0.944,0.948和0.943,RMSE為0.272,0.591和0.440,MAE為0.230,0.436和0.325,PNC的最優(yōu)建模精度R2分別為0.930,0.951和0.925,RMSE為0.084,0.073和0.115,MAE為0.079,0.057和0.091,PNA的最優(yōu)建模精度R2為0.938,0.920和0.952,RMSE為0.399,1.346和0.978,MAE為0.353,1.042和0.716,LNC在分化期、抽穗期的最優(yōu)監(jiān)測模型為Adaboost,全生育期最優(yōu)監(jiān)測模型為RF,在進行LNA,PNC和PNA監(jiān)測時,均為RF模型表現(xiàn)最優(yōu),表明RF方法在氮素監(jiān)測時具有良好的適應(yīng)性與精度。這些參數(shù)和籽粒蛋白含量的相關(guān)性顯著,故利用作物生長前期的光譜數(shù)據(jù)進行籽粒蛋白含量監(jiān)測是可行的。
表2 基于水稻分化期冠層光譜數(shù)據(jù)的氮素參數(shù)模型精度(n=45)
表3 基于水稻抽穗期冠層光譜數(shù)據(jù)的氮素參數(shù)模型精度(n=45)
表4 基于水稻全生育期冠層光譜數(shù)據(jù)的氮素參數(shù)模型精度(n=90)
利用PLSR,KNN,BRR,SVR,RF,Adaboost和Bagging七種不同算法,以水稻不同生育期冠層光譜數(shù)據(jù),以及冠層光譜數(shù)據(jù)結(jié)合氮素參量為輸入?yún)?shù),構(gòu)建水稻蛋白品質(zhì)監(jiān)測模型,并分析對比模型精度。
2.3.1 基于水稻冠層光譜信息的籽粒蛋白含量預(yù)測
圖2是基于不同算法,利用水稻分化期與抽穗期冠層全波段光譜信息所建模型的精度對比結(jié)果。由于采用分化期與抽穗期全波段光譜信息進行建模,多重共線性可能是一個問題,而不同算法處理多重共線性的能力不同,各個算法在水稻籽粒蛋白含量的監(jiān)測上表現(xiàn)差距較大。從圖2中可以看出,分化期KNN、PLSR的預(yù)測結(jié)果R2僅分別為0.538和0.580,而RF、Adaboost、Bagging監(jiān)測結(jié)果R2則分別達到了0.935,0.916和0.874,同時也具有更低的RMSE和MAE,各個算法的監(jiān)測能力依據(jù)R2排名為RF>Adaboost> Bagging>SVR>BRR>PLSR>KNN;利用抽穗期數(shù)據(jù)進行預(yù)測時,各個算法的監(jiān)測精度均有提高,監(jiān)測能力依據(jù)R2及RMSE排名為RF>Adaboost>Bagging>SVR>BRR>KNN>PLSR。三種集成算法(RF、Adaboost、Bagging)在處理多重共線性問題上表現(xiàn)出更為良好的性能。
圖2 基于水稻不同生育期冠層光譜數(shù)據(jù)籽粒蛋白含量模型的R2,RMSE和MAE
2.3.2 基于水稻冠層光譜信息氮素參量的籽粒蛋白含量監(jiān)測
利用PLSR,KNN,BRR,SVR,RF,Adaboost和Bagging七種不同算法,分別以水稻不同生育期冠層光譜數(shù)據(jù)與四個不同實測氮素參量為輸入?yún)?shù),構(gòu)建水稻蛋白品質(zhì)監(jiān)測模型,分析對比了模型驗證精度,圖3顯示了七種算法在兩個不同生育期,采用不同參數(shù)組合所構(gòu)建模型的R2,RMSE和MAE變化的統(tǒng)計圖,以光譜數(shù)據(jù)結(jié)合不同氮素參數(shù)作為輸入?yún)?shù)的模型,與僅采用光譜信息所建立的模型相比,大部分算法的監(jiān)測精度和穩(wěn)定性均得到了提升,即在不同運行規(guī)則下的大部分算法認為氮素參數(shù)是監(jiān)測籽粒蛋白含量的有效參數(shù),其含量的高低受到植株氮素的影響。
圖3 分化期和抽穗期不同參數(shù)組合下7種算法的R2、RMSE和MAE
通過綜合對比,在分化期,光譜信息結(jié)合PNA作為輸入?yún)?shù)時,各個算法的精度提升最明顯,較以光譜信息作為輸入?yún)?shù)的模型,各個算法R2分別提高0.131,0.182,0.013,0.041,0.020,0.044和0.063;在抽穗期,以光譜信息結(jié)合PNC作為輸入?yún)?shù)時,各個算法的精度提升最明顯,較以光譜信息作為輸入?yún)?shù)的模型,各個算法R2分別提高0.073,0.054,0.028,0.043,0.013,0.022和0.019。在這兩組輸入?yún)?shù)下,兩時期均為Adaboost表現(xiàn)最優(yōu),RF和Bagging方法稍低于Adaboost,但也表現(xiàn)極好,PLSR,KNN,BRR和SVR在氮素參數(shù)影響下,模型精度提升更為明顯,但仍未能超過RF,Adaboost和Bagging。
圖4給出了基于不同機器學(xué)習(xí)算法以分化期水稻冠層全波段光譜信息及水稻植株氮素累積量PNA作為輸入?yún)?shù)的水稻蛋白品質(zhì)模型預(yù)測值與實測值的散點圖。
圖4 分化期以全波段光譜信息和PNA為輸入的七種算法的R2,RMSE和MAE
圖5給出了抽穗期以全波段光譜信息結(jié)合水稻PNC作為輸入?yún)?shù)的水稻蛋白品質(zhì)模型預(yù)測值與實測值的散點圖。
圖5 抽穗期以全波段光譜信息和PNC為輸入的七種算法的R2,RMSE和MAE
從圖4和圖5中可以看出,三種集成算法更有利于在相同輸入?yún)?shù)下獲取更高精度,PLSR,KNN,BRR和SVR算法預(yù)測實測值散點圖圍繞1∶1線仍然存在一定離散點,相比于單學(xué)習(xí)器的機器學(xué)習(xí)回歸算法,三種基于集成學(xué)習(xí)器的算法RF,Adaboost和Bagging的準確度及穩(wěn)定性均明顯提高,且不同算法對輸入?yún)?shù)具備不同的“適應(yīng)性”,例如,RF和Bagging算法獲得最優(yōu)精度時是抽穗期以光譜信息和PNA作為輸入?yún)?shù)的,R2分別為0.958和0.943,Adaboost算法在水稻分化期、抽穗期的其中結(jié)合作物冠層光譜數(shù)據(jù)及氮素信息(PNC及PNA)蛋白品質(zhì)模型R2均達到0.96以上。
水稻品質(zhì)形成與其生長過程中氮素營養(yǎng)代謝的合成與轉(zhuǎn)運直接相關(guān),本研究獲取水稻不同生育期冠層光譜及水稻氮素營養(yǎng)參數(shù),采用多種機器學(xué)習(xí)算法,進行作物氮素營養(yǎng)監(jiān)測及水稻籽粒蛋白質(zhì)含量監(jiān)測研究。研究表明:
(1)基于水稻冠層光譜信息的水稻氮素參量遙感監(jiān)測表明:冠層光譜信息能夠較好的表達不同生育期水稻的氮素營養(yǎng)狀況,其中基于不同算法的監(jiān)測結(jié)果差異明顯,傳統(tǒng)回歸方法和部分機器學(xué)習(xí)方法并不能夠較好利用光譜信息對水稻氮素營養(yǎng)狀況的監(jiān)測,而RF和Adaboost對兩時期的氮素參數(shù)監(jiān)測結(jié)果R2能夠達到0.90以上,表明冠層光譜中與植株氮素營養(yǎng)相關(guān)的信息被較好的利用。由于水稻關(guān)鍵生育期的氮素含量與其籽粒蛋白含量相關(guān)性顯著,因此利用分化期與抽穗期冠層光譜信息監(jiān)測水稻籽粒蛋白品質(zhì)是可行的。
(2)基于冠層光譜數(shù)據(jù)的水稻籽粒蛋白含量監(jiān)測結(jié)果表明:在利用作物冠層全波段信息可能存在強共線性的情況下,七種算法的準確度與穩(wěn)定性不同,三種集成算法在水稻蛋白品質(zhì)監(jiān)測上具有明顯優(yōu)勢,其中RF算法兩個不同生育期蛋白品質(zhì)監(jiān)測模型的R2分別為0.935, 0.941, Adaboost算法兩個不同生育期蛋白品質(zhì)監(jiān)測模型的R2分別為0.916, 0.941;Bagging算法兩個不同生育期蛋白品質(zhì)監(jiān)測模型的R2分別0.874, 0.920,RF,Adaboost和Bagging三種集成算法幾乎不受多重共線性的影響,對比單學(xué)習(xí)器的機器學(xué)習(xí)算法,利用多個基學(xué)習(xí)器進行訓(xùn)練的算法能夠解讀更多籽粒蛋白含量與各種參數(shù)間尚未明確的關(guān)系,為最終的監(jiān)測目標(biāo)挖掘更多的決策信息。
(3)將氮素參量及水稻冠層光譜信息作為模型輸入因子,進行水稻籽粒蛋白含量監(jiān)測預(yù)測時,模型精度得到進一步改善,表明氮素參量對籽粒蛋白含量存在一定程度的影響,其中在分化期以光譜信息和PNA作為輸入?yún)?shù)時,模型精度提升更明顯(R2從 0.935提高到0.960),在抽穗期以光譜信息和PNC作為輸入?yún)?shù)時,模型精度提升更明顯(R2從0.941提高到0.963)。利用抽穗期數(shù)據(jù)進行監(jiān)測時,獲取的監(jiān)測精度比分化期更高,可能是抽穗期水稻株體發(fā)育趨于完善,籽粒蛋白質(zhì)的產(chǎn)生與植株氮素的關(guān)系更加明確,故利用抽穗期數(shù)據(jù)進行水稻籽粒蛋白含量能夠獲取更高的精度。
實驗結(jié)果表明,全波段光譜攜帶的信息能夠較好的對水稻氮素營養(yǎng)參數(shù)進行監(jiān)測,也表明利用分化期與抽穗期冠層光譜監(jiān)測當(dāng)季水稻籽粒蛋白含量是可行的,七種方法中,僅輸入全波段光譜的時候,RF最優(yōu),最大R2為0.941,加入氮素參數(shù)后,Adaboost表現(xiàn)最優(yōu),最大R2為0.963,Bagging也取得了較好的監(jiān)測結(jié)果。集成學(xué)習(xí)方法能夠解決數(shù)據(jù)存在的多重共線性問題,k-fold交叉驗證方法也在一定程度上避免了模型的過擬合,利用所有信息進行回歸建模,較大程度的保留了與水稻氮素營養(yǎng)和籽粒蛋白含量相關(guān)的信息,且簡化了數(shù)據(jù)處理流程,在實際農(nóng)業(yè)監(jiān)測中更有利于推廣與應(yīng)用。論文在將不同參數(shù)組合作為自變量進行輸入時只對各類參數(shù)簡單拼接,未考慮不同參數(shù)的權(quán)重分布,不同參數(shù)與籽粒蛋白含量是否存在最優(yōu)映射的關(guān)系有待下一步研究。