李 紅 張 凱 陳 超 張志洋 劉振鵬
(江蘇大學(xué)流體機(jī)械工程技術(shù)研究中心, 鎮(zhèn)江 212013)
生菜是典型的葉菜類蔬菜,其生長期間需水量大,水分直接影響生菜的長勢、品質(zhì)和產(chǎn)量[1]。因此,快速、準(zhǔn)確測定生菜的含水率對實(shí)時(shí)監(jiān)測生菜植株長勢具有重要意義。近年來,光譜分析技術(shù)作為一種間接分析方法已廣泛應(yīng)用于作物生理信息的定量檢測,具有快速、無損的優(yōu)點(diǎn),彌補(bǔ)了傳統(tǒng)檢測方法破壞樣本的不足[2-3]。但光譜技術(shù)無法體現(xiàn)整個視場區(qū)域的光譜分布,且易受背景噪聲影響[4]。高光譜成像技術(shù)兼具光譜分析技術(shù)和機(jī)器視覺技術(shù)的優(yōu)勢,在農(nóng)業(yè)[5]、醫(yī)學(xué)[6]、食品[7]等領(lǐng)域中得到了廣泛應(yīng)用。
近年來,國內(nèi)外學(xué)者利用高光譜成像技術(shù)對作物含水率進(jìn)行了檢測研究。文獻(xiàn)[8]對玉米幼苗葉片的高光譜圖像數(shù)據(jù)進(jìn)行降維處理,結(jié)合使用支持向量機(jī)和粒子群算法建立了預(yù)測模型,實(shí)現(xiàn)了對玉米葉片含水率的定量預(yù)測,預(yù)測集相關(guān)系數(shù)為0.768 4。文獻(xiàn)[9]提取波長1 420 nm光譜圖像的紋理特征和灰度特征,并建立偏最小二乘回歸(Partial least squares regression, PLSR)模型,實(shí)現(xiàn)了對生菜葉片含水率的定量預(yù)測,預(yù)測集相關(guān)系數(shù)為0.902。文獻(xiàn)[10-11]研究了光譜特征篩選方法和建模方法,先后對生菜葉片和油麥菜葉片的高光譜圖像進(jìn)行分析,并建立了定量預(yù)測模型,預(yù)測集平均相對誤差分別為9.323%和2.95%。上述研究針對單個葉片的光譜數(shù)據(jù),采用特征提取算法和建模方法建立了定量預(yù)測模型,但冠層光譜易受光照、土壤背景的影響,使高光譜圖像噪聲非常大,導(dǎo)致基于葉片的水分預(yù)測模型不適用于整株冠層水分及分布情況的預(yù)測[12]。因此,對冠層葉片進(jìn)行定量檢測研究非常重要。目前,高光譜成像技術(shù)已經(jīng)應(yīng)用在玉米苗期冠層[13]、柑橘冠層[14]等定量檢測中,但對葉菜類冠層含水率的研究卻鮮有報(bào)道。
本文以蓮座期至結(jié)球期的生菜為研究對象,獲取不同含水率的生菜冠層高光譜信息和對應(yīng)的冠層含水率,采用二值化法和光強(qiáng)校正方法去除光譜圖像的噪聲,組合使用蒙特卡羅無信息變量消除法(Monte Carlo uninformative variable elimination, MCUVE)、基于最小絕對收縮和選擇算法(The least absolute shrinkage and selection operator, LASSO)、連續(xù)投影法(Successive projections algorithm, SPA)3種降維方法篩選特征波長,采用偏最小二乘法(PLS)建立生菜冠層含水率預(yù)測模型,并選擇最優(yōu)模型,以期為生菜冠層含水率的高光譜快速檢測提供一種參考方法。
試驗(yàn)樣本選用意大利全年耐抽苔生菜,采用盆栽土培方式培育,于2020年5月20日至7月25日在江蘇大學(xué)現(xiàn)代農(nóng)業(yè)裝備與技術(shù)實(shí)驗(yàn)室內(nèi)進(jìn)行。將3~5顆種子放入每個花盆中培育,待其長到“五葉一心”時(shí),每盆留下一株長勢狀況相似的幼苗,并充分灌溉。選用6種水分控制處理方式,每種處理為30個盆栽,采用滴箭(SLD109+SLD012型,廣州順綠噴灌設(shè)備有限公司)灌水。6種處理[15-16]分別為:設(shè)定計(jì)劃濕潤層為15 cm,保持土壤含水率分別為田間持水量的40%~50%、50%~60%、60%~70%、70%~80%、80%~90%、90%~100%。每天用土壤水分傳感器(HM-WSY型,山東恒美科技電子有限公司)測量各處理下的土壤含水率,當(dāng)土壤含水率到達(dá)下限時(shí),灌水至土壤含水率達(dá)到上限。
試驗(yàn)采用GaiaField型便捷式高光譜成像系統(tǒng)(四川雙利合譜科技有限公司)采集生菜冠層高光譜信息,系統(tǒng)主要由高光譜成像儀(GaiaField Pro-V10E型,內(nèi)置推掃)、成像鏡頭(HSIA-OLE23型)、校正白板(HSIA-CT-250*280型)、專用測試架(HSIA-TP-L型,包含均勻光源)和數(shù)據(jù)采集軟件(SpecView)組成,如圖1所示。成像儀的標(biāo)稱光譜范圍為400~1 000 nm(實(shí)際為391.6~1 018 nm),光譜分辨率為2.8 nm,設(shè)176個光譜通道數(shù)。
為了減小自然光的影響,在昏暗的環(huán)境中進(jìn)行試驗(yàn),將鏡頭與冠層頂部距離設(shè)置為75 cm,曝光時(shí)間設(shè)置為2.5 ms[17]。為消除光照強(qiáng)度和相機(jī)內(nèi)暗電流噪聲對光譜圖像質(zhì)量的影響,對光譜數(shù)據(jù)進(jìn)行黑白校準(zhǔn)[18]。在試驗(yàn)條件下,獲取標(biāo)準(zhǔn)白板的高光譜圖像數(shù)據(jù)W。蓋上CCD相機(jī)鏡頭,獲取黑板的高光譜圖像數(shù)據(jù)B,原始圖像校正公式為
(1)
式中I——生菜冠層原始光譜數(shù)據(jù)
R——校正后的生菜冠層光譜數(shù)據(jù)
使用Matlab R2018a軟件,校正光譜圖像、處理分析光譜數(shù)據(jù)。
采用干燥法測定冠層含水率,去根取出生菜葉片稱其鮮質(zhì)量m1。先在恒溫105℃干燥箱下殺青30 min,然后調(diào)至80℃干燥至恒質(zhì)量,并測其干質(zhì)量m2。冠層樣本的干基含水率w[19]計(jì)算公式為
(2)
由于高光譜數(shù)據(jù)維數(shù)較高,且有大量的冗余數(shù)據(jù),需要去除無關(guān)信息,提取特征波長。本文采用蒙特卡羅無信息變量消除法(MCUVE)去除無關(guān)數(shù)據(jù),并結(jié)合使用連續(xù)投影法(SPA)、基于最小絕對收縮和選擇算法(LASSO)篩選波長。
1.4.1蒙特卡羅無信息變量消除法
蒙特卡羅無信息變量消除法[20](MCUVE)是蒙特卡羅采樣和無信息變量消除法的結(jié)合,其變量重要性衡量依據(jù)依然是回歸系數(shù)的穩(wěn)定性值,通過設(shè)定閾值,去除穩(wěn)定性小于閾值的波長。該算法步驟如下:
(1)采用蒙特卡羅法采樣r次,將樣本集Xr×p按照一定比例隨機(jī)分成建模集與預(yù)測集,然后基于建模集建立r個PLS模型,得到回歸系數(shù)矩陣αr×p。
(2)計(jì)算αr×p中每一列的平均值和標(biāo)準(zhǔn)偏差的商Ci作為穩(wěn)定性值,i=1,2,…,p。
(3)將變量穩(wěn)定性的絕對值從大到小排列,采用PLS前向加法模型,分別求預(yù)測集的均方根誤差(RMSEP),選取當(dāng)RMSEP最小時(shí),最后加入變量的穩(wěn)定性作為閾值,去除穩(wěn)定性小于閾值的變量,保留其余變量。
1.4.2基于最小絕對收縮和選擇算法
基于最小絕對收縮和選擇算法[21](LASSO)是一種壓縮估計(jì)。它是在最小二乘法的基礎(chǔ)上增加L1范數(shù)作為懲罰項(xiàng),將回歸系數(shù)絕對值之和設(shè)置小于某個固定值,使殘差平方和最小化。LASSO估計(jì)式為
(3)
式中X——n×q自變量矩陣
Y——n×1響應(yīng)變量
β——q×1參數(shù)向量
a——懲罰參數(shù)
使用LASSO估計(jì)時(shí),通過調(diào)整a,可以使一些變量的系數(shù)為0,達(dá)到變量選擇的效果。
1.4.3連續(xù)投影法
連續(xù)投影法[22](SPA)是一種前向特征變量選擇方法,通過向量的投影分析,使選擇的光譜變量間共線性最小,冗余信息最少。該算法首先選擇一個波長k(0),計(jì)算其他波長的投影向量,挑選投影向量最大的光譜波長加入變量集,將投影向量與剩余波長進(jìn)行組合,一直循環(huán)選取波長,直至結(jié)束。基于變量集的波長分別建立前向PLS模型,最小的RMSECV所對應(yīng)的變量集為最優(yōu)選擇。
剔除18個破損樣本,剩余162個樣本作為總樣本,樣本的干基含水率為8.523 4~20.798 3,平均值為15.330 8,標(biāo)準(zhǔn)差為2.243 1。根據(jù)含量梯度法[23]將樣本按3∶1劃分為建模集和預(yù)測集,122個樣本為建模集,40個樣本為預(yù)測集,劃分結(jié)果如表1所示。此種劃分方法使得預(yù)測集樣本的含水率均在建模集樣本含水率范圍之內(nèi),且樣本含水率分布更為均勻。
表1 樣本干基含水率及樣本集劃分結(jié)果Tab.1 Dry basis moisture content of samples and results of sample sets partition
由于生菜冠層RGB圖像較暗,不易觀察圖像的背景噪聲,對圖像進(jìn)行增強(qiáng)處理,如圖2a所示。由圖可見,冠層圖像中不止包含生菜樣本的圖像信息,還存在土壤、花盆以及黑色載物臺等背景噪聲,這些噪聲會影響預(yù)測精度,所以需要分割生菜和背景區(qū)域。在圖2a中選取葉片、陰影葉片和背景的像素點(diǎn),其反射率曲線如圖2b所示,由于背景曲線較復(fù)雜,分兩步去除背景噪聲。在波長400~1 000 nm范圍內(nèi)土壤和花盆背景的反射率比葉片的低,在波長810.0 nm處,設(shè)分割閾值為反射率0.25,得到該波長的二值化圖像。在波長710.7 nm處,黑色載物臺的反射率明顯比樣本的低,設(shè)分割閾值為反射率0.15,得到二值化圖像。將2幅二值化圖像點(diǎn)乘得到最終的二值化圖像,并用此圖像對生菜冠層高光譜圖像進(jìn)行掩模來消除背景噪聲。
在同一均勻光源下,由于生菜葉片角度不一,會產(chǎn)生部分過曝葉片和陰影葉片,本文采用光強(qiáng)校正方法[24],以分割后的生菜冠層區(qū)域?yàn)檠芯繉ο?,?jì)算區(qū)域內(nèi)所有像素點(diǎn)在各波段下的平均反射率Im,計(jì)算公式為
(4)
式中N——分割后生菜冠層內(nèi)的總像素點(diǎn)數(shù)
I(λ,i)——生菜冠層區(qū)域內(nèi)第i個像素點(diǎn)在波長λ處的反射率
將各像素點(diǎn)進(jìn)行光譜歸一化,保證數(shù)據(jù)處于同一范圍內(nèi),再校正各像素點(diǎn)的光譜反射率,其計(jì)算公式為
(5)
式中I(x,y,λ)——坐標(biāo)(x,y)像素點(diǎn)在波長λ處的反射率
Ic(x,y,λ)——光強(qiáng)校正后的光譜反射率
圖2c為生菜冠層高光譜曲線校正后的RGB圖像,與圖2a對比可以看出,較亮的部分亮度降低,較暗的部分亮度增大,該方法改善了生菜冠層高光譜圖像光照不均的問題。
采集高光譜圖像數(shù)據(jù)時(shí),儀器噪聲和隨機(jī)噪聲會導(dǎo)致生菜冠層樣本的原始光譜曲線中存在無關(guān)信息,影響含水率定量預(yù)測模型的精度,因此需要光譜預(yù)處理。標(biāo)準(zhǔn)正態(tài)變量變換[25](SNV)可以消除樣本顆粒尺寸及分布不均勻造成的散射影響。以校正后的生菜冠層光譜數(shù)據(jù)的平均光譜作為一株生菜樣本的光譜數(shù)據(jù),采用SNV變換方法對每個樣本的光譜數(shù)據(jù)進(jìn)行預(yù)處理,處理后的曲線如圖3b所示,預(yù)處理后的曲線變得更加光滑。
2.4.1基于MCUVE消除無關(guān)變量
用MCUVE對176個光譜變量剔除無關(guān)信息變量,在此過程采用蒙特卡羅法采樣1 000次,每次抽取120個樣本建立PLS模型,變量的穩(wěn)定性指標(biāo)如圖4a所示。將變量穩(wěn)定性指標(biāo)絕對值從大到小排序,抽取120個樣本建立PLS前向加法模型,42個樣本作為預(yù)測集,預(yù)測均方差變化如圖4b所示,當(dāng)變量數(shù)為53時(shí),對應(yīng)的預(yù)測均方差最低,為0.939 3,以此變量集為特征變量。
2.4.2基于MCUVE-LASSO提取特征波長
采用LASSO對經(jīng)MCUVE選擇后的53個變量進(jìn)行變量篩選,壓縮無關(guān)變量為0,壓縮后得到23個波長。在運(yùn)行LASSO算法程序時(shí),參數(shù)a通過10倍交叉驗(yàn)證確定,當(dāng)a為0.001 1時(shí), 均方誤差達(dá)到最小,為1.266 7。篩選出的特征波長為395.0、408.7、425.8、439.5、442.9、487.7、494.6、501.6、571.4、581.9、585.4、596.0、716.9、727.7、731.3、767.3、771.0、821.8、924.8、939.6、958.2、965.7、969.4 nm。
2.4.3基于MCUVE-SPA和MCUVE-LASSO-SPA提取特征波長
采用SPA算法對經(jīng)MCUVE選擇后的53個光譜變量進(jìn)行篩選,消除剩余變量間的共線性,篩選結(jié)果如圖5所示。由圖5a可知,在選擇29個變量之前,隨著篩選波長數(shù)的增加,均方根誤差逐漸減小,當(dāng)變量數(shù)達(dá)到29時(shí),達(dá)到最小,為1.067 7,之后緩慢增加。圖5b為使用SPA算法篩選波長結(jié)果在全譜中的分布情況。
基于MCUVE-LASSO算法篩選后的部分變量分布較密集,存在一定的共線性,使用SPA算法再次壓縮變量,消除冗余信息,均方根誤差變化趨勢和MCUVE-SPA算法的基本一致,當(dāng)變量數(shù)達(dá)到14時(shí),達(dá)到最小,為1.066 2。篩選出的特征波長為395.0、408.7、487.7、571.4、581.9、585.4、596.0、731.3、767.3、771.0、821.8、924.8、939.6、958.2 nm。
將生菜冠層光譜數(shù)據(jù)和干基含水率作為輸入值,采用PLS對不同方法選擇的特征變量建模,選擇7個主成分,建立干基含水率預(yù)測模型,以建模集相關(guān)系數(shù)(Rc)、交叉驗(yàn)證均方根誤差(RMSECV)、預(yù)測集相關(guān)系數(shù)(Rp)和預(yù)測集均方根誤差(RMSEP)為評價(jià)標(biāo)準(zhǔn),結(jié)果如表2所示。
從表2可以看出,用經(jīng)SNV處理后的全光譜數(shù)據(jù)建立PLS模型的預(yù)測能力良好,但包含176個波長,數(shù)據(jù)量大,計(jì)算較為復(fù)雜。采用MCUVE方法去除全光譜中的無關(guān)信息變量,建立的MCUVE-PLS模型的預(yù)測能力優(yōu)于全光譜的PLS模型,其中預(yù)測相關(guān)系數(shù)Rp從0.865 0提升至0.898 3,對應(yīng)的RMSEP從1.078 2降低至0.939 3,波長變量數(shù)減少至53個。MCUVE-LASSO-PLS模型的相關(guān)系數(shù)Rc相對于MCUVE-PLS模型降低了0.001 5,但波長數(shù)量減少至23個,因?yàn)長ASSO方法是有偏估計(jì),通過犧牲一些精度來壓縮變量,該方法大大壓縮了變量個數(shù),提升了預(yù)測速度。MCUVE-SPA-PLS模型的相關(guān)系數(shù)Rc和預(yù)測相關(guān)系數(shù)Rp分別提高為0.882 3和0.902 1,建模均方根誤差和預(yù)測均方根誤差分別降低為1.067 7和0.924 9,波長變量減少至29個。MCUVE-LASSO-SPA-PLS模型的精度和MCUVE-SPA-PLS相當(dāng),所選的波長數(shù)量為14個。對比4種模型可知,LASSO方法壓縮變量能力強(qiáng),但存在一定的冗余信息,精度不高,通過SPA方法篩選變量可以去掉冗余信息,提高模型精度。綜合考慮而言,MCUVE-LASSO-SPA-PLS建模變量為14個,比MCUVE-SPA-PLS少了15個,具有更好的應(yīng)用能力,采用MCUVE-LASSO-SPA-PLS組合篩選變量方法比MCUVE-SPA-PLS組合方法更佳。
表2 不同組合波長篩選方法下的PLS模型結(jié)果Tab.2 PLS modeling results based on different combination wavelength selection methods
利用MCUVE-LASSO-SPA-PLS模型估算生菜冠層每個像素點(diǎn)的干基含水率,運(yùn)用偽彩圖處理技術(shù)生成干基含水率分布圖,不同顏色和深淺程度代表不同含水率,白色區(qū)域?yàn)楸尘?,結(jié)果如圖6所示。由圖6可知,葉脈部分含水率高,主要為紅色,葉邊含水率低,主要為深藍(lán)色。圖6a中,干基含水率為11.509 2的生菜冠層主要為藍(lán)色和藍(lán)綠色,干基含水率集中在8~16,均值為12.115 8,與實(shí)際均值相差0.606 6,小于RMSEP。圖6b中,干基含水率為16.386 0的生菜冠層主要為綠色,干基含水率集中在12~21,均值為16.839 2,與實(shí)際均值相差0.453 2。圖6b的含水率比圖6a中的高,與實(shí)際檢測值相符合。利用干基含水率可視化分布圖有助于在線查看整株生菜水分分布情況。
為驗(yàn)證可視化預(yù)測結(jié)果的可靠性,提取生菜冠層中不同部位且面積較大的葉片,共提取8片葉片,分別對其干基含水率均值與其對應(yīng)圖像區(qū)域的預(yù)測均值作對比分析,結(jié)果如表3所示。由表3可知,干基含水率的參考均值與預(yù)測均值有較高的一致性,預(yù)測均方根誤差為0.838 9,小于RMSEP,說明可視化結(jié)果可靠。
表3 生菜不同部位葉片的干基含水率均值及對比結(jié)果Tab.3 Mean value and comparison results of dry basis moisture in different parts of lettuce leaves
(1)對獲取的生菜冠層高光譜圖像進(jìn)行了黑白標(biāo)定,利用810.0、710.7 nm波長處的圖像構(gòu)建二值化圖像,利用掩模消除高光譜圖像中的背景噪聲,并采用光照強(qiáng)度校正方法改善了生菜冠層由于葉片形狀導(dǎo)致光照不均的問題。
(2)采用不同變量篩選方法組合提取生菜冠層高光譜的特征波長,結(jié)合PLS共建立了5個生菜冠層含水率檢測模型。經(jīng)對比發(fā)現(xiàn),采用特征波長建立的PLS模型的預(yù)測能力高于基于全波段的PLS模型預(yù)測能力,而且模型復(fù)雜度降低。
(3)以MCUVE-LASSO-SPA選擇的特征波長建立的PLS模型最優(yōu),該模型提取的特征變量數(shù)最少,且預(yù)測能力與MCUVE-SPA-PLS模型相當(dāng),模型的預(yù)測集相關(guān)系數(shù)Rp為0.901 5,均方根誤差為0.928 7。利用MCUVE-LASSO-SPA-PLS模型計(jì)算生菜冠層每個像素點(diǎn)的干基含水率,實(shí)現(xiàn)了生菜冠層含水率的可視化檢測。