(張 樂 吳靜珠 李江波 劉翠玲 孫曉榮 余 樂
(北京工商大學(xué)食品安全大數(shù)據(jù)技術(shù)北京市重點(diǎn)實(shí)驗(yàn)室1,北京 100048)
(北京農(nóng)業(yè)智能裝備技術(shù)研究中心2,北京 100097)
玉米是目前我國種植面積最廣、產(chǎn)量第一的農(nóng)作物,不僅是“飼料之王”,還是重要的工業(yè)原料[1]。近年來隨著美國先鋒公司“單粒播”玉米種子的推出[2],以及歐美等發(fā)達(dá)國家的玉米機(jī)械化單粒精量播種技術(shù)的引入,我國傳統(tǒng)玉米播種模式發(fā)生了深刻的改變[3]。單粒精量播種技術(shù)較傳統(tǒng)播種模式更有利于機(jī)械化操作,省工、省種、高產(chǎn),但是對(duì)每顆種子都提出了更高的檢測需求,其中單粒播種的玉米種子含水量不能高于14%,否則會(huì)導(dǎo)致種子呼吸增大、消耗養(yǎng)分、活力下降[4]。根據(jù)GB 4404.1—2008[5],水分是我國農(nóng)作物種子質(zhì)量四大必檢項(xiàng)目之一。因此單粒玉米種子水分的快速、高通量、無損檢測對(duì)于單粒精量播種具有重要的現(xiàn)實(shí)意義。
GB/T 3543.6—1995《農(nóng)作物種子檢驗(yàn)規(guī)程水分測定》中規(guī)定了種子水分測量方法有低恒溫烘干法、高溫烘干法、高水分預(yù)先烘干法[6],這些方法測試精度高但普遍存在試樣破壞性、耗時(shí)長、無法單顆測定等問題。近年來,近紅外光譜(Near Infrared Spectrometry,NIR)技術(shù)以其快速、無損、綠色分析特點(diǎn)在種子質(zhì)量檢測領(lǐng)域展開了大量深入研究[7-9]。GB/T 24900—2010[10]用于玉米種子批水分的測定,表明近紅外光譜技術(shù)在玉米種子批水分檢測領(lǐng)域具有實(shí)際應(yīng)用可行性,但是目前鮮有針對(duì)單粒種子水分近紅外檢測的方法或標(biāo)準(zhǔn)等。
隨機(jī)森林(Random forest, RF)具有許多其他傳統(tǒng)的機(jī)器學(xué)習(xí)方法無法比擬的優(yōu)點(diǎn),不需要顧慮一般回歸分析面臨的多元共線性的問題,便于非線性數(shù)據(jù)處理[11]。邵琦等[12]基于隨機(jī)森林算法,在有效波段和紋理信息特征組合下,能充分利用高光譜圖像的光譜和紋理信息,準(zhǔn)確地鑒別玉米品種,為玉米品種的自動(dòng)識(shí)別提供了一種新方法。王麗愛等[13]利用隨機(jī)森林回歸算法構(gòu)建每個(gè)生育期的小麥葉片SPAD(Soil and plant analyzer development)值遙感反演模型,并以基于支持向量回歸和反向傳播神經(jīng)網(wǎng)絡(luò)算法構(gòu)建的模型作為比較模型,以R2(coefficient of determination,R2)和均方根誤差為指標(biāo),結(jié)果表明,RF-SPAD模型在3個(gè)生育期都表現(xiàn)出最強(qiáng)的學(xué)習(xí)能力和預(yù)測能力。李盛芳等[14]使用隨機(jī)森林對(duì)不同種類的水果(蘋果、梨)糖分進(jìn)行預(yù)測。實(shí)驗(yàn)表明,對(duì)于同一種類的水果,RF和PLS(Partial least squares)的建模和預(yù)測結(jié)果均較好。但對(duì)于不同種類的水果,RF明顯增加了模型的預(yù)測能力。
近紅外光譜結(jié)合隨機(jī)森林算法在農(nóng)作物、瓜果定性鑒別以及定量預(yù)測組分濃度都具有較好的應(yīng)用效果。但是近紅外光譜技術(shù)結(jié)合隨機(jī)森林算法鮮有應(yīng)用于檢測單粒玉米的水分,因此本研究重點(diǎn)探索將近紅外光譜與隨機(jī)森林算法相結(jié)合建立性能優(yōu)秀的單粒玉米種子水分快速、無損檢測定量檢測模型,以期為玉米精量播種技術(shù)的推廣和發(fā)展探索可行的檢測手段。
本實(shí)驗(yàn)玉米樣本購于種子市場,共計(jì)購買55組樣本,品種包括中地77、沈玉29、中地168、強(qiáng)碩68、奔誠15和春育8。從每組樣本中分別選取2個(gè)玉米籽粒,共計(jì)110份玉米樣本。首先采用單籽粒采樣附件掃描近紅外光譜后, 再使用HB43-S鹵素水分測定儀測定每組樣本水分。
表1為110份玉米樣本的含水量統(tǒng)計(jì)信息。按照3∶1的比例隨機(jī)進(jìn)行劃分訓(xùn)練集和測試集,其中訓(xùn)練集樣本82份,測試集樣本28份。
表1 樣本集統(tǒng)計(jì)信息
本實(shí)驗(yàn)采用VERTEX 70傅立葉變換紅外光譜儀,及直徑為 2. 5 cm 的單籽粒采樣附件采集單粒玉米種子光譜。為減少裝樣引起的干擾,放樣本時(shí)統(tǒng)一將樣本胚面朝下,樣本尖端朝向一致。儀器參數(shù)設(shè)定如下:波數(shù)范圍為4 000 ~ 12 500 cm-1,分辨率為8 cm-1,掃描次數(shù)為64次。樣本近紅外光譜如圖1所示[15]。由于不同顆粒的玉米種子表面平整度不一且種子形態(tài)、種皮性質(zhì)均存在明顯差異,導(dǎo)致光譜采集過程中光反射、散射影響程度不同,從圖1中也可以看出,樣本集近紅外光譜在整個(gè)譜區(qū)范圍內(nèi)離散度較大。但是所有樣品的光譜趨勢基本一致,玉米近紅外光譜在波數(shù)為8 400、7 000、5 000 cm-1附近有3個(gè)明顯的特征峰。水分子由兩個(gè)氫原子和一個(gè)氧原子結(jié)合而成的結(jié)構(gòu)使得水分子具有多個(gè)原子鍵振動(dòng)能級(jí),水的近紅外吸收譜分布較寬。其中波數(shù)為7 000 cm-1處的特征峰主要為氫氧鍵伸縮振動(dòng)的一級(jí)倍頻,8 400 cm-1處的特征峰為氫氧鍵伸縮振動(dòng)的一級(jí)倍頻和合頻,5 000 cm-1處的特征峰也為氫氧鍵伸縮振動(dòng)的合頻[16],這些特征峰均明顯地反映了玉米種子中的水分子對(duì)不同波長的近紅外光的吸收程度。
圖1 樣本集近紅外原始光譜
1.3.1 光譜預(yù)處理
由于復(fù)雜樣品光譜信號(hào)往往會(huì)受到雜散光、噪聲、基線漂移等因素的干擾[17],樣品粒徑是影響光譜測量的一個(gè)重要參數(shù),隨著樣品粒徑的增加,所測光譜的重現(xiàn)性變差,光譜的變動(dòng)性隨粒徑的增加呈指數(shù)形式增加。每顆玉米籽粒形狀、直徑都不相同,所測光譜差異性變大,造成測量誤差無法消除[18],從而影響最終的定量分析結(jié)果。因此為了降低由種子形態(tài)等引起的光譜噪聲干擾,采用合適的光譜預(yù)處理方法提升光譜質(zhì)量是必要的。選用Savitzky-Golay卷積求導(dǎo)法 (SG7_2)、均值中心化(mean centering, MC)、歸一化(Normalization,NOR) 、標(biāo)準(zhǔn)正態(tài)變量變換(Standard normal variate transformation,SNV)、多元散射校正(Multiplicative scatter correction,MSC)方法分別進(jìn)行數(shù)據(jù)預(yù)處理。
1.3.2 光譜降維
在實(shí)際應(yīng)用中,近紅外光譜數(shù)據(jù)量通常較大,具有一定冗余性,因此對(duì)近紅外光譜降維就變得尤為重要,本研究采用主成分分析和去噪自編碼器兩種光譜降維消噪算法在預(yù)測模型上的效果。
主成分分析(Principal Component Analysis,PCA)是一種常用的數(shù)據(jù)分析方法,通過線性變換將原始數(shù)據(jù)變換為一組各維度線性無關(guān)的表示,可用于提取數(shù)據(jù)的主要特征分量,這些主要特征分量就稱之為主成分,常用于高維數(shù)據(jù)的降維[19]。然而,PCA作為一種線性算法,不能有效地降低非線性數(shù)據(jù)集的維數(shù)。PCA的線性特征組合會(huì)丟失原始數(shù)據(jù)中的大量有用信息[20]。
去噪自編碼器(denoising auto encoder,DAE)是由輸入層、隱藏層和輸出層三層結(jié)構(gòu)組成的神經(jīng)網(wǎng)絡(luò)。在自動(dòng)編碼器(Auto Encoder,AE)的基礎(chǔ)上,通過向輸入中注入噪聲,然后利用含噪聲的樣本去重構(gòu)不含噪聲的輸入,這種訓(xùn)練策略也使得DAE能夠?qū)W習(xí)到更能反映輸入數(shù)據(jù)的本質(zhì)特征。DAE在訓(xùn)練過程中,采取無監(jiān)督學(xué)習(xí)機(jī)制和有監(jiān)督微調(diào)的方式,它使用了反向傳播算法,通過逐層訓(xùn)練,使輸出值與輸入值相等。DAE的意義在于學(xué)習(xí)的最中間的隱層,這一層是輸入向量的良好表示,可以用于原始數(shù)據(jù)的降維,起到特征學(xué)習(xí)的作用。
1.3.3 隨機(jī)森林回歸
隨機(jī)森林是一種基于分類樹的算法,它使用觀測數(shù)據(jù)的子集和變量的子集來建立一個(gè)決策樹,再建立多個(gè)這樣的決策樹并集成,提高了模型更穩(wěn)定的預(yù)測能力。隨機(jī)森林的決策樹選擇的是CART算法,即利用基尼指數(shù)最小化準(zhǔn)則進(jìn)行特征選擇,CART既可以處理分類,也可以用于回歸。最優(yōu)特征選擇原則是采用和方差度量,度量目標(biāo)是對(duì)于劃分特征A,對(duì)應(yīng)劃分點(diǎn)s兩邊的數(shù)據(jù)集D1和D2,求出使D1和D2各自集合的均方差最小,同時(shí)D1和D2的均方差之和最小。表達(dá)式為:
(1)
式中:c1為D1的樣本輸出均值;c2為D2的樣本輸出均值。
隨機(jī)森林模型中的生成決策樹數(shù)目(ntree)和選擇分裂屬性個(gè)數(shù)(mtry)直接影響結(jié)果的準(zhǔn)確性,通常對(duì)ntree和mtry的選擇采用嘗試方法,從而獲得比較適合的值[21]。
RF算法的優(yōu)點(diǎn)體現(xiàn)在:學(xué)習(xí)過程較快;對(duì)于大規(guī)模數(shù)據(jù)集,是一種高效的處理算法,且對(duì)數(shù)據(jù)集中的噪聲有較強(qiáng)的魯棒性;不需要另外預(yù)留部分?jǐn)?shù)據(jù)做交叉驗(yàn)證;相對(duì)于偏最小二乘法、多元線型回歸法等方法,隨機(jī)森林回歸方法對(duì)非線性數(shù)據(jù)的解析能力較強(qiáng)[14]。
采用 Matlab 2018b 軟件進(jìn)行數(shù)據(jù)處理及建模。由于采集單粒玉米種子光譜時(shí),引入了顆粒形態(tài)等噪聲的非線性干擾,因此本研究選用隨機(jī)森林回歸方法建立預(yù)測模型,利用Matlab軟件中的RandomForest 工具箱,根據(jù)經(jīng)驗(yàn)及多次實(shí)驗(yàn),確定模型中ntree、mtry這2個(gè)參數(shù)分別取100和4。結(jié)果見表2。
表2 基于不同光譜預(yù)處理的RF模型預(yù)測效果比較
由表2可以看出,經(jīng)過不同預(yù)處理后的光譜建模結(jié)果有所差異。卷積求導(dǎo)并不適用于單粒玉米種子光譜數(shù)據(jù)預(yù)處理,單粒種子光譜本身含有的噪聲較大,求導(dǎo)更加劇了噪聲的引入,因此大大降低了模型的準(zhǔn)確性;多元散射校正可以有效消除近紅外漫反射光譜中由于樣品的鏡面反射及不均勻造成的噪聲[23],消除光譜的基線漂移現(xiàn)象及光譜的不重復(fù)性,多元散射校正方法是現(xiàn)階段多波長標(biāo)定建模常用的一種數(shù)據(jù)處理方法, 經(jīng)過散射測試后得到的光譜數(shù)據(jù)可以有效地消除散射的影響, 增強(qiáng)了與成分含量相關(guān)的光譜吸收信息[24],因此基于多元散射校正相對(duì)其他預(yù)處理方法而言,建立的單粒種子水分模型性能較好,其訓(xùn)練集的相關(guān)系數(shù)為0.986 2,訓(xùn)練集均方根誤差(Root Mean Square Error of Correction Set,RMSEC)為0.141 4;測試集的相關(guān)系數(shù)為0.968 9,測試均方根誤差(Root Mean Square Error of Prediction,RMSEP)為0.445 7。
由近紅外全波段 RF建模結(jié)果可知,全波段光譜對(duì)單粒玉米種子水分具有較好的預(yù)測效果,但由于其光譜數(shù)據(jù)量龐大,含有較多的冗余信息和共線性變量,影響模型的預(yù)測能力和高效性。因此將經(jīng)過MSC預(yù)處理后的110份樣本近紅外光譜,每份樣本光譜包含的2 074個(gè)波段,分別作為PCA、DAE光譜降維消噪算法的輸入變量,去掉自變量之間具有強(qiáng)線性相關(guān)的冗余變量。最后,基于重新組合的特征變量分別建立隨機(jī)森林回歸模型,并對(duì)模型進(jìn)行檢驗(yàn)分析,結(jié)果見表3。
表3 基于不同變量篩選方法的RF模型預(yù)測效果比較
研究結(jié)果表明,在光譜降維消噪方法分析中,DAE-RF模型效果比PCA-RF更好,DAE-RF測試集的R較全波段RF模型提升了1.39%, RMSEP較全波段RF模型降低了5.63%, 對(duì)比PCA-RF測試集的效果反而不如全波段RF模型。這是因?yàn)镻CA 是輸入空間向最大變化方向的簡單線性變換,而自動(dòng)編碼器可以對(duì)相對(duì)復(fù)雜的非線性關(guān)系進(jìn)行建模。并且PCA將變量降維到四維,僅占原特征變量數(shù)的0.19%,可能遺漏了原始數(shù)據(jù)中的大量有用信息,而最佳光譜降維消噪方法DAE重新組合了100個(gè)光譜特征,占原特征變量數(shù)的4.82%。由DAE的算法原理與特點(diǎn)可知,這種方法在降維的基礎(chǔ)上,既能保留原始輸入數(shù)據(jù)的信息,又能確保獲得一種有用的特征表示[24]。因此在處理引入了非線性干擾的單粒玉米種子水分近紅外數(shù)據(jù)時(shí),去噪自編碼器效果更好。
本研究首先采用多種光譜預(yù)處理方法消除單粒種子采集光譜時(shí)由于顆粒形態(tài)等引起的噪聲干擾,然后比較建立了基于RF模型的單粒玉米種子水分近紅外檢測模型。隨后利用2種光譜降維消噪方法PCA、DAE選出與玉米種子水分相關(guān)的波段,并建模比較預(yù)測效果。實(shí)驗(yàn)結(jié)果表明,相對(duì)其他預(yù)處理方法而言,多元散射校正處理后建立的單粒種子水分模型性能較好,其訓(xùn)練集的R為0.986 2,RMSEC為0.141 4;測試集的R為0.968 9,RMSEP為0.445 7。進(jìn)一步對(duì)比光譜降維消噪方法,基于DAE的模型效果更好,其訓(xùn)練集的R為0.988 5,RMSEC為0.175 31;測試集的R為0.982 4,RMSEP為 0.420 6。本研究將近紅外光譜技術(shù)、光譜預(yù)處理、光譜降維消噪和RF算法相結(jié)合,可以有效降低單粒玉米種子近紅外光譜采集時(shí)引入的非線性干擾,有助于提升單粒玉米種子水分近紅外快速無損檢測實(shí)際應(yīng)用可行性,有望為玉米精量播種技術(shù)的推廣和發(fā)展提供可行的檢測手段。