李 莉 藍 天 趙奇慧 孟繁佳
(1.中國農(nóng)業(yè)大學農(nóng)業(yè)信息獲取技術(shù)農(nóng)業(yè)農(nóng)村部重點實驗室, 北京 100083;2.中國農(nóng)業(yè)大學現(xiàn)代精細農(nóng)業(yè)系統(tǒng)集成研究教育部重點實驗室, 北京 100083)
基質(zhì)栽培番茄的氮元素含量直接影響番茄生長狀況和果實品質(zhì)。番茄苗期、花期、果期3個時期的正常生長對氮元素含量有不同的需求[1-4]。其中花期最容易產(chǎn)生氮元素缺乏現(xiàn)象,原因是這一階段既需要完成第1花序開花坐果,又需要保證植株莖干和葉片生長以及第2、3花序開花,因此需要在花期進行實時監(jiān)測以保障番茄的正常生長[5-10]。
通過葉綠素含量、葉片光譜數(shù)據(jù)等參數(shù)結(jié)合葉片顏色、形狀特征能很好地判別氮元素缺乏程度[11-18]。胡昊等[19]利用手持式GreenSeeker型作物傳感器和SPAD-502型葉綠素儀分析不同氮處理條件下冬小麥葉片SPAD和冠層NDVI,結(jié)果表明三者相關(guān)系數(shù)均很高。鄭一力等[20]采用波段為350~2 500 nm的地物光譜儀獲取金鑲玉竹葉片光譜數(shù)據(jù),對比4種估測模型校驗,結(jié)果表明在光譜反射率的對數(shù)一階微分變化下,采用拓撲結(jié)構(gòu)為6-10-1的基于主成分分析的BP神經(jīng)網(wǎng)絡估測模型,校驗環(huán)節(jié)決定系數(shù)為0.838,均方根誤差為0.045 2。王遠等[21]利用數(shù)碼相機依據(jù)水稻數(shù)字圖像綠色通道和紅色通道差值設定閾值對圖像進行分割,分割后圖像中提取的紅光標準化NRI與SPAD值、葉片含氮量相關(guān)系數(shù)達到-0.87和-0.65?;诠庾V學判斷植物組織氮含量設備價格昂貴,測量過程易受環(huán)境光線因素制約。
CHEN等[22]基于靜態(tài)掃描技術(shù)獲取稻米葉片和鞘的圖像顏色和形狀特征,通過支持向量機(SVM)鑒定水稻氮含量4個不同生長階段準確率分別為94%、98%、96%和100%,使用不同年份數(shù)據(jù)進行驗證,識別準確率分別為88%、98%、90%和100%。提取的形狀特征雖然增加了識別準確率,但是采集過程過于繁瑣且僅能在實驗室環(huán)境采集。
上述研究只關(guān)注信息獲取和處理本身,并未考慮葉片本身生理特征對圖像信息的影響。經(jīng)研究發(fā)現(xiàn),春季育苗、夏季種植的番茄幼苗半數(shù)以上會在表面覆蓋有粘質(zhì)腺毛。若采取原有的顏色特征建模判別會降低模型準確率。本文以溫室番茄葉片為研究對象,基于形狀特征和顏色特征采用隨機森林機器學習算法,開展番茄葉片氮含量差異分析,建立氮含量缺乏分級預測模型,以指導科學施肥。
2020年3—7月在中國農(nóng)業(yè)大學精細農(nóng)業(yè)研究中心的日光溫室進行了番茄氮元素缺乏程度判別試驗。所用氮肥為四水合硝酸鈣和硝酸鉀。采集不同氮離子濃度施肥策略下番茄葉片表面RGB圖像和SPAD-502型葉綠素儀測定的番茄葉片氮含量。
灌溉系統(tǒng)采用中國農(nóng)業(yè)大學日光溫室封閉式栽培水肥智能調(diào)控系統(tǒng)。利用JZH-0xx型集成傳感器采集溫室內(nèi)光照強度、空氣相對濕度、空氣溫度。采集時間為每天07:00—21:00,采集間隔為1 h。連續(xù)采集番茄花期開始前至結(jié)束后共40 d(包含花期30 d)環(huán)境參數(shù)數(shù)據(jù)。2020年春季,溫室內(nèi)部平均溫度保持在(23.7±0.3)℃(白天)/(19.7±0.1)℃(夜晚),相對濕度為52%。2020年夏季,溫室保持平均溫度為(28.3±0.2)℃(白天)/(23.5±0.4)℃(夜晚),相對濕度為69%。白天光照強度在1 125~9 543 lx范圍內(nèi)變化。
番茄幼苗高度為15~20 cm(包含根系長度),兩個品種幼苗區(qū)別是植株表面是否覆蓋粘質(zhì)腺毛(白色絨毛)。盆栽容量為7 L,基質(zhì)配比按體積分數(shù)分別為20%珍珠巖、20%蛭石、60%泥炭。
當植株生長至第一花序開花即番茄花期開始時,將所有植株分成3個試驗組,使用質(zhì)量濃度70、140、210 mg/L營養(yǎng)溶液分別對3組植株進行施肥灌溉。質(zhì)量濃度210 mg/L氮營養(yǎng)溶液配方見表1。每周在固定時間用新配置肥料溶液對番茄植株施肥,其余時間每隔1 d用去離子水灌溉保證植株水分供需。依據(jù)以上施肥灌溉策略,可保證不同試驗組番茄植株中組織氮水平具備明顯差異。
表1 營養(yǎng)溶液各物質(zhì)種類和含量Tab.1 Types and dosages of various substances in nutrient solution
現(xiàn)場圖像數(shù)據(jù)采集使用樹莓派3b+微處理器,樹莓派官方8×106像素攝像模塊,樹莓派鋰電池擴展模塊以及塑料樹莓派外殼共同組成RGB圖像采集單元。通過直徑41 mm的圓形云臺和三腳架調(diào)節(jié)圖像采集單元的高度和角度。樹莓派上安裝Apache Web服務器用來為RPi-Cam-Web-Interface提供服務,使其通過唯一的地址連接樹莓派。智能手機使用RPi-Cam-Web-Interface控制樹莓派捕獲番茄植株RGB彩色圖像。智能手機與圖像采集單元和本地計算機使用WiFi或4G網(wǎng)絡進行交互連接。圖像獲取系統(tǒng)結(jié)構(gòu)如圖1所示。
為了盡量消除環(huán)境光線對RGB彩色圖像的影響,在番茄開花期30 d內(nèi)固定每日11:00采集不同氮濃度處理下番茄主干中部枝杈上生長的葉片圖像。采集圖像中至少包括該枝杈最前端葉片在內(nèi)6片葉子。調(diào)節(jié)三腳架高度保證RGB圖像采集攝像頭清晰聚焦,拍攝位置保持在植物斜側(cè)方距目標葉片約0.3 m處,圖像分辨率為3 648像素×2 736像素。為了準確提取葉片形狀特征,拍攝時需要使用厚度為3 mm長方形透明亞克力板置于葉片背面使葉片盡可能平整展開。采集的圖像以特定文件名傳輸至云平臺存儲。
整個番茄花期,每日16:00使用SPAD-502型葉綠素儀分別對番茄植株的目標葉片進行葉綠素含量測定。每棵植株至少選取主干中部的兩個枝杈上各5個葉片,總計10個葉片進行采集。重復測量每個葉片3次取平均值以降低因儀器操作帶來的誤差,最大程度保證葉綠素含量準確測量。
分割植物前需要消除采集圖像時因陰天、多云、少云等天氣原因造成環(huán)境光線過暗對圖像亮度的影響,使用直方圖均衡化或?qū)?shù)變化方法只提高圖像亮度,不改變圖像色度。從背景中分割植物分為2個步驟:①使用OpenCV中的TenenGrad評價函數(shù)實現(xiàn)圖像分割。②使用“2g-r-b”算法[23]得到背景為黑色僅含有目標葉片的RGB彩色圖像。圖像預處理流程如圖2所示。
覆蓋粘質(zhì)腺毛的番茄葉片單個葉面積、周長均小于未覆蓋粘質(zhì)腺毛的番茄葉片,并且前者葉片在整個花期因組織氮素缺乏產(chǎn)生顏色變化程度明顯低于后者。若將二者提取出的輸入特征共同放入判別模型會極大降低模型準確率,因此需要在輸入特征中添加形狀特征(葉面積和葉片周長)進行種類區(qū)分。此處選取單個枝葉(尖端葉片)提取形狀特征。形狀特征提取分為4個步驟:①高斯模糊消除圖像中的噪點。②二值化得到葉片對象。③形態(tài)學閉操作(先腐蝕后膨脹)填充葉片中間的小洞。④RETR_EXTERNAL函數(shù)確定葉片輪廓后,用contourArea函數(shù)和arcLength函數(shù)分別計算葉片像素面積和像素周長。
顏色特征通過RGB彩色圖像獲取,分別使用minMaxLoc函數(shù)、mean函數(shù)、meanStdDev函數(shù)獲得R、G、B三通道各自最大值、平均值、標準差共9個變量顏色特征作為模型輸入特征參數(shù)。獲取葉片紋理特征同樣僅使用尖端葉片,過程見圖3。
番茄花期圖像采集時間為2020年3月14日—4月15日(共32 d);夏季番茄花期圖像采集時間為2020年5月15日—6月17日(共32 d)。整個番茄花期共獲得576幅不同氮元素濃度的RGB彩色圖像。其中覆蓋粘質(zhì)腺毛和未覆蓋粘質(zhì)腺毛番茄植株圖像分別為192幅和384幅,包含3個不同營養(yǎng)液離子梯度。整個圖像采集周期內(nèi)不同營養(yǎng)液離子梯度下兩種番茄葉片圖像如圖4所示。
由圖4可知,營養(yǎng)溶液中所含氮元素減少,葉片黃化過程加快,反之葉片逐漸變成深綠。同時能夠看出植株表面是否覆蓋粘質(zhì)腺毛對其產(chǎn)生的影響。
隨機森林屬于集成學習的一個重要分支,特點是將各個沒有依賴關(guān)系的弱學習器(CART決策樹)并行擬合以提升整體模型分級判別準確率,如圖5所示。
對于一個樣本,它在含m個樣本的訓練集隨機采樣中,每次被采集到的概率為1/m。不被采集到的概率是1-1/m。m次采樣都沒有被采集到的概率是(1-1/m)m。當m趨近于無窮大時,(1-1/m)m趨近于1/e,約等于0.368。Bagging每輪隨機采樣中,數(shù)據(jù)集中約有36.8%的數(shù)據(jù)沒有被采樣集采集到。對于這部分約36.8%的沒有被采樣到的數(shù)據(jù),稱之為袋外數(shù)據(jù)(Out of bag, OOB)。這些數(shù)據(jù)沒有參與訓練集模型的擬合,因此可以用來檢測模型的泛化能力。
傳統(tǒng)隨機森林模型每棵決策樹投票權(quán)重相等,低分級準確率的單棵決策樹會影響整個森林分級準確率。解決這一問題的方法是提前確定每棵樹的權(quán)重,投票時每棵樹均乘以對應權(quán)重。獲得對應權(quán)重需要將訓練樣本分為兩部分,即訓練集和測試集。訓練完成后對每棵樹進行測試,分類正確率計算式為
式中Xright,i——第i棵樹分類正確樣本數(shù)
Xi——測試部分樣本數(shù)
分類正確率即為對應權(quán)重?;趥鹘y(tǒng)窮舉搜索的網(wǎng)格尋優(yōu)無法匹配機器學習種類愈發(fā)繁多的超參數(shù),而基于隨機搜索的貝葉斯優(yōu)化恰好可解決這一問題。本文使用其優(yōu)化模型參數(shù),使判別準確率達到最優(yōu)[24-27]。使用2020年春季試驗數(shù)據(jù)集中的384幅未覆蓋粘質(zhì)腺毛番茄圖像構(gòu)成第1類數(shù)據(jù)集,并依據(jù)葉面顏色特征進行氮元素缺乏分級建模。再將2020年夏季試驗數(shù)據(jù)集中192幅覆蓋粘質(zhì)腺毛番茄圖像和192幅未覆蓋粘質(zhì)腺毛番茄圖像組成第2類數(shù)據(jù)集,使用同樣方式建模。分別使用真正率和假正率作為縱坐標和橫坐標繪制ROC曲線,計算ROC曲線下面積(Area under the curve,AUC)作為模型評價標準。
ROC曲線越接近縱坐標軸點(0,1)且AUC越接近1,則模型分級效果越好。SVM是機器學習經(jīng)典分級算法,將其作為對照模型。使用準確率對兩種數(shù)據(jù)模型進行多次測試,結(jié)果如圖6所示。
由圖6可以得出,圖6a整體ROC曲線面積遠高于圖6b且ROC曲線更加靠近點(0,1)。圖6a模型測試準確率均值0.82,圖6b測試準確率均值僅0.65。
氮含量通過葉片中葉綠素含量可間接反映,見圖7。葉綠素含量作為監(jiān)督學習模型的響應變量確定判別準確率。其中,SPAD值大于33時定義為高氮輸出變量,SPAD值在28~33內(nèi)定義為中氮輸出變量,SPAD值小于28定義為低氮輸出變量。
同第2類數(shù)據(jù)集相同的384幅圖像構(gòu)成第3類數(shù)據(jù)集,依據(jù)訓練集和測試集7∶3比例劃分。訓練集包含269幅圖像,測試集115幅圖像,將訓練集269幅圖像按照7∶3再次劃分得到加權(quán)隨機森林模型相應權(quán)重。將反映該組特征的11個參數(shù)(顏色特征9個,形狀特征2個)作為模型的自變量,依據(jù)葉綠素儀判別出的植物組織氮缺乏程度作為響應變量,建立番茄花期組織氮含量缺乏程度加權(quán)隨機森林判別模型,并將加權(quán)模型判別結(jié)果同隨機森林模型及SVM模型判別結(jié)果進行對比。使用sklearn庫中RandomForestClassifier函數(shù),乘以相應權(quán)重實現(xiàn)加權(quán)隨機森林分類算法。為了確保模型分類準確率,需要進行貝葉斯參數(shù)(n_estimators、max_depth、max_features、min_samples_leaf)調(diào)優(yōu)。加權(quán)隨機森林模型輸入特征參數(shù)調(diào)整后ROC曲線如圖8所示。SVM模型、隨機森林模型、加權(quán)隨機森林模型在3類數(shù)據(jù)集上的AUC如圖9所示。
由圖8、9可知,SVM模型、隨機森林模型和加權(quán)隨機森林模型在添加形狀參數(shù)后模型整體ROC曲線和AUC都有提高;加權(quán)隨機森林模型在3類數(shù)據(jù)集上表現(xiàn)優(yōu)于SVM和隨機森林模型。加權(quán)隨機森林模型訓練集判別準確率為0.84~0.88,測試集判別準確率為0.80~0.83。比第2類數(shù)據(jù)集單獨使用顏色特征作為模型自變量提升判別準確率近0.2。
(1)建立了一種基于樹莓派攝像模塊、RPi-Cam-Web-Interface軟件以及云平臺的溫室番茄葉片圖像采集單元,圖像采集單元可以通過智能手機控制樹莓派攝像模塊采集所需圖像。試驗結(jié)果表明,該圖像采集單元能夠適用溫室環(huán)境,操作簡便易學。相比基于光譜學圖像采集單元受環(huán)境光線影響較小。
(2)番茄因為植株表面覆蓋粘質(zhì)腺毛會對不同氮離子濃度營養(yǎng)溶液產(chǎn)生不同的葉片形狀和顏色特征變化。原因是覆蓋粘質(zhì)腺毛番茄對氮元素需求量較少,整個缺素試驗期內(nèi)葉片葉綠素含量相對未覆蓋粘質(zhì)腺毛葉片更高。通過增加葉片周長和葉面積兩個形狀參數(shù)有效解決覆蓋粘質(zhì)腺毛番茄葉片影響整體模型判別準確率的問題,加權(quán)隨機森林判別模型測試集準確率可達0.80~0.83。