池江濤,張淑娟,任銳,廉孟茹,孫雙雙,穆炳宇
(山西農(nóng)業(yè)大學(xué)農(nóng)業(yè)工程學(xué)院,山西太谷 030801)
茄子(Solanum melongenaL.)又稱昆侖瓜、矮瓜、落蘇和酪酥等,屬于非呼吸躍變型果實(shí),起源于亞洲東南熱帶地區(qū),西漢時(shí)傳入我國[1]。茄子富含膳食纖維、維生素、多酚、蛋白質(zhì)和礦物質(zhì)等多種營養(yǎng)物質(zhì),具有降血脂、防治高血壓和糖尿病、保肝以及抗氧化等保健功效[2]。茄子的生產(chǎn)和開發(fā)利用市場前景廣闊,然而茄子存在木栓化和爛果等缺陷問題,嚴(yán)重影響了茄子的產(chǎn)量和品質(zhì),進(jìn)而降低了其商品性。木栓化可能是高溫或者氣候變化異常導(dǎo)致茄子鈣硼缺失引起;爛果則可能由蟲害、菌害、雨水和光照等因素造成。在實(shí)際生產(chǎn)過程中,將茄子木栓化和爛果樣本剔除仍然靠人工來完成,不僅耗時(shí)耗力、效率低下,還易造成漏選,因此實(shí)現(xiàn)一種能夠快速、準(zhǔn)確識(shí)別木栓化和爛果茄子的方法則尤為重要。
高光譜成像技術(shù)將光譜分析技術(shù)和數(shù)字成像技術(shù)相結(jié)合,可以同時(shí)獲得樣本大量波段的空間圖像信息和每一像素點(diǎn)的光譜信息,具有靈敏度高、測量速度快和抗干擾能力強(qiáng)等優(yōu)點(diǎn),廣泛應(yīng)用于農(nóng)產(chǎn)品無損檢測、病害檢測等領(lǐng)域中[3]。劉立新等[4]利用高光譜技術(shù)結(jié)合機(jī)器學(xué)習(xí)算法,基于CARS 提取的特征波段建立LDA、KNN 和SVM 模型來鑒別紅棗品種,總準(zhǔn)確率分別達(dá)到85.53%、98.68%和98.25%;A.Del Fiore 等[5]利用高光譜成像技術(shù),在光譜范圍為400~1000 nm內(nèi)對(duì)玉米產(chǎn)毒真菌進(jìn)行研究,實(shí)現(xiàn)了玉米早期病害的檢測;Folch-Fortuny 等[6]利用高光譜成像技術(shù),采用排列測試法提取特征波長并建立多路PLS 判別模型,實(shí)現(xiàn)了柑橘腐爛病的檢測;Sun 等[7]利用高光譜成像技術(shù)對(duì)無損、輕度腐爛、中度腐爛和重度腐爛的桃子進(jìn)行病害檢測,進(jìn)一步提高了其病害識(shí)別率;李宏強(qiáng)等[8]采用高光譜分析技術(shù)結(jié)合模式識(shí)別,通多分層、分步驟建立了8 種馬鈴薯微型種薯的分類模型,其平均正確識(shí)別率達(dá)到89.75%,表明高光譜分析技術(shù)可用于馬鈴薯微型種薯的分類檢測;YEH 等[9]基于高光譜成像技術(shù),對(duì)草莓葉狀炭疽病進(jìn)行研究,利用光譜角度映射器實(shí)現(xiàn)了對(duì)病害的3 個(gè)不同感染階段的有效檢測;LAN 等[10]運(yùn)用多種機(jī)器學(xué)習(xí)算法,分別對(duì)健康和黃龍病感染的柑橘多光譜樣本建模,實(shí)現(xiàn)了很強(qiáng)的分類效果。上述研究均為利用高光譜成像技術(shù)對(duì)各種農(nóng)產(chǎn)品進(jìn)行識(shí)別分類,就目前研究狀況來看,尚未有學(xué)者利用高光譜對(duì)茄子外部缺陷類型進(jìn)行鑒別研究。
本研究采用高光譜技術(shù)對(duì)茄子完好、木栓化和爛果進(jìn)行檢測,通過多種預(yù)處理方法對(duì)原始光譜數(shù)據(jù)進(jìn)行預(yù)處理,并建立PLS 判別模型比較分析,選擇最佳預(yù)處理方法進(jìn)行后續(xù)研究。采用SPA、RC 和CARS對(duì)預(yù)處理后的光譜數(shù)據(jù)提取特征波長,基于特征波長分別建立PLS 和MLR 判別模型進(jìn)行比較分析,以實(shí)現(xiàn)對(duì)茄子缺陷的定性判別,為進(jìn)一步開發(fā)茄子在線分選裝備提供了理論依據(jù)。
1.1 試驗(yàn)材料
所有用于試驗(yàn)的茄子樣本均采摘于山西省晉中市太谷區(qū)明星鄉(xiāng)武家堡村(茄子于2020 年5 月23 日移栽,7 月20 日采摘),品種為“紫光”茄子。為保證研究的可靠性,采摘時(shí)選擇大?。▎喂|(zhì)量450 g~680 g)均勻,形狀為近圓球形以及缺陷類型(完好、木栓化和爛果)齊全得茄子作為試驗(yàn)樣本,圖1 所示為3 類樣本圖。運(yùn)回實(shí)驗(yàn)室后,對(duì)其表面泥土進(jìn)行清理以避免誤判。共挑選252 個(gè)樣本,包含完好樣本170 個(gè),木栓化樣本60 個(gè)和爛果樣本22 個(gè)。采集各樣本的高光譜圖像,然后從中提取252 個(gè)光譜數(shù)據(jù),運(yùn)用Kennard-Stone 算法將3 類樣本按近似3:1 的比例隨機(jī)劃分為校正集樣本189 個(gè)和預(yù)測集樣本63 個(gè)。
圖1 采集的茄子樣本 Fig.1 Sample of eggplant collected
1.2 高光譜信息采集
本試驗(yàn)采集樣本信息的儀器為北京卓立公司開發(fā)的“蓋亞”高光譜分選儀,儀器部件包括:計(jì)算機(jī)、Image-λ-N17E 光譜相機(jī)、4 個(gè)溴鎢燈、暗箱以及電控移動(dòng)平臺(tái),采集到的光譜波長范圍為900~1700 nm。采集的信息過度飽和會(huì)出現(xiàn)失真現(xiàn)象,因此在信息采集前需調(diào)試曝光時(shí)間和平臺(tái)的移動(dòng)速度。根據(jù)實(shí)驗(yàn)經(jīng)驗(yàn),設(shè)置曝光時(shí)間為20 ms,平臺(tái)移動(dòng)速度為2 cm/s,樣本與鏡頭的距離為22 cm 時(shí),采集效果最佳。
為消除光強(qiáng)的變化和鏡頭中暗流對(duì)成像產(chǎn)生影響,以及計(jì)算掃描物體的相對(duì)反射光譜值,因此要在光譜采集前進(jìn)行黑白板校正[11]。計(jì)算公式如式(1):
式中,R 是校正后的高光譜圖像,I 是原始高光譜圖像,B 是黑板校正后的高光譜圖像,W是白板校正后的高光譜圖像。
1.3 光譜分析和數(shù)據(jù)處理軟件
研究中的數(shù)據(jù)處理和分析基于ENVI 4.7、Matlab R2012a、The Unscrambler X 10.1、Origin 8.5 和Microsoft Excel 2010 等軟件完成。
2.1 茄子完好、木栓化和爛果3 種區(qū)域的平均光譜曲線圖
使用ENVI 4.7 軟件的提取感興趣區(qū)域(ROI)函數(shù)分別提取茄子的木栓化、爛果和完好3 種區(qū)域的光譜數(shù)據(jù),然后計(jì)算并求取各類樣本的平均光譜,如圖2 所示。“紫瓜”茄子呈類球狀,且表皮光滑發(fā)亮,導(dǎo)致采集到的高光譜圖像中間區(qū)域漫反射強(qiáng)度大、信噪比高,影響建模精度以及試驗(yàn)可靠性。因此,在利用ENVI4.7 提取感興趣區(qū)域時(shí)應(yīng)避開中間反光區(qū)域。
圖2 完好、木栓化和爛果區(qū)域平均光譜圖 Fig.2 Average spectral image of sound,suberized and decayed regions
由圖2 可知,完好茄子、木栓化區(qū)域和爛果區(qū)域的平均光譜曲線具有很大差別,在900~1300 nm 范圍內(nèi),完好區(qū)域的反射率最高,原因可能是完好茄子表皮光滑,對(duì)光的反射最強(qiáng);在1200 nm 附近的3 種曲線均為波谷,這是由于茄子表皮葉綠素的C-H 基團(tuán)二級(jí)倍頻吸收作用[12];大于1350 nm 的波段范圍,完好區(qū)域的反射率低于木栓化和爛果區(qū)域的反射率。
2.2 光譜數(shù)據(jù)預(yù)處理
對(duì)采集到的原始光譜數(shù)據(jù)預(yù)處理,可以有效降低或消除因采集背景、噪聲干擾和暗電流等產(chǎn)生的大量與樣本固有性質(zhì)無關(guān)的冗余信息,起到提高模型精度和預(yù)測能力的作用[13]。本研究采用標(biāo)準(zhǔn)歸一化(standard normalized variate,SNV)、多元散射校正(multiplicative scatter correction,MSC)、中值濾波(median filter,MF)、卷積平滑(savitzkygolay,SG)和歸一化(normalize)等方法對(duì)原始光譜數(shù)據(jù)進(jìn)行預(yù)處理,通過建立PLS 模型,比較模型參數(shù)決定系數(shù)(Rc2、Rp2)和標(biāo)準(zhǔn)偏差(RMSEC、RMSEP)(決定系數(shù)越大,標(biāo)準(zhǔn)偏差越小,其建模精度越高)以確定最佳光譜預(yù)處理方法。
由表1 可以看出,經(jīng)Normalize 預(yù)處理后所建立的PLS 模型精度最高,其校正集決定系數(shù)Rc2最大,為0.74;均方根誤差RMSEC 最小,為0.33。其預(yù)測集決定系數(shù)Rp2為0.85,均方根誤差RMSEP 為0.26,同樣均為最優(yōu)。因此,最終選擇Normalize 作為預(yù)處理方法進(jìn)行后續(xù)研究。
表1 不同預(yù)處理方法對(duì)3 類茄子PLS 分類模型精度的影響 Table 1 Effects of different pretreatment methods on the accuracy of PLS classification model of eggplant
2.3 特征波段提取
特征波段來源于全光譜波段,攜帶其最重要的光譜判別信息。其作用主要有:消除原始數(shù)據(jù)的線性相關(guān)性、奇異性和不穩(wěn)定性;降低數(shù)據(jù)維數(shù),減少變量數(shù),排除多余的干擾信息等。特征波段的提取直接影響模型建立的效率以及建模后預(yù)測結(jié)果的可靠性和準(zhǔn)確性。
2.3.1 連續(xù)投影法(SPA)
連續(xù)投影算法(successive projection salgorithm,SPA)是一種使矢量空間共線性最小化的前向變量選擇算法。作為一種新興的特征波長篩選方法,它能夠有效消除波長變量之間共線性的影響,進(jìn)而有效提取出特征波長變量[14]。對(duì)normalize 預(yù)處理后的樣本光譜數(shù)據(jù)進(jìn)行SPA 特征波長提取,如圖3 所示。當(dāng)特征波長數(shù)為14 時(shí),RMSE 值為0.3274,且值達(dá)到最??;所提取的特征波長分別為:931.02、924.64、1399.29、1093.68、950.17、902.3、1380.21、1147.86、895.91、1345.23、1265.68、1332.5、1173.34、982.08 nm,其重要程度依次遞減。
圖3 特征波長分布圖 Fig.3 Characteristic wavelength distribution map
2.3.2 回歸系數(shù)法(RC)
圖4 RC 提取的特征波長 Fig.4 Key variables selection results of RC
回歸系數(shù)法[15](RC):通過對(duì)預(yù)處理后的樣本光譜數(shù)據(jù)建立PLS 判別模型,并從模型中提取回歸系數(shù)。本研究選取了9 個(gè)特征波長值,分別為924、978、1103、1202、1367、1402、1586、1666、1681 nm,所依據(jù)的原則為:將局部極值作為特征波長值,如圖5 所示。
2.3.3 競爭性自適應(yīng)重加權(quán)算法(CARS)
競爭性自適應(yīng)重加權(quán)算法基于達(dá)爾文生物進(jìn)化論“適者生存”的法則,將蒙特卡羅采樣與偏最小二乘回歸系數(shù)相結(jié)合,以實(shí)現(xiàn)變量優(yōu)選。在變量優(yōu)選過程中,指數(shù)衰減函數(shù)決定變量剔除數(shù)量。變量剔除后,將保留的變量數(shù)據(jù)利用自適應(yīng)重加權(quán)采樣建立PLS 模型,比較模型的交叉驗(yàn)證均方根誤差RMSECV 值,算出RMSECV 值最小時(shí)對(duì)應(yīng)的PLS 模型,其對(duì)應(yīng)的子集變量即CARS 方法優(yōu)選出的特征變量[16],如圖5 所示。由圖5 可以看出,第32 次采樣所得RESECV 最小,因此第32 次采樣保留的變量為所提取的特征波長,分別為:18、20、65、67、78、79、81、157、158、159、163、230 nm。
圖5 CARS 關(guān)鍵變量選擇 Fig.5 Key variables selection results of CARS
2.4 基于特征波長的判別模型建立及性能比較
對(duì)3 類樣本各假定一個(gè)值作為判別缺陷類型的依據(jù),將完好樣本賦值為1,木栓化樣本賦值為2,爛果樣本賦值為3。基于上述3 種特征波長優(yōu)選方法,分別以SPA 算法提取的14 個(gè)特征波長、RC 提取的9 個(gè)特征波長以及CARS 提取的12 個(gè)最優(yōu)變量和類別值作為輸入,建立偏最小二乘法(PLS)和多元線性回歸(MLR)模型對(duì)預(yù)測集進(jìn)行識(shí)別分類,如圖6 和圖7。由圖可以知道,模型預(yù)測結(jié)果數(shù)值非整數(shù),因此將最大偏離值設(shè)定為0.5,即預(yù)測值與假定值之差的絕對(duì)值在0~0.5 范圍內(nèi)時(shí),則將其認(rèn)定為此類樣本,否則為誤判。
圖6 PLS 模型預(yù)測集鑒別結(jié)果 Fig.6 Prediction set of discrimination results of PLS model
圖7 MLR 模型預(yù)測集判別結(jié)果 Fig.7 Prediction set of discrimination results of MLR model
表2 列出了以3 種特征波長提取方法所優(yōu)選的變量和類別值作為輸入時(shí),PLS 模型和MLR 模型對(duì)茄子完好、木栓化和爛果的判別結(jié)果。由表2 可得,CARS提取的12 個(gè)最優(yōu)變量能更好地代替原始光譜信息,原因是SPA 算法和RC 在提取特征變量時(shí),雖然降低了原始波長的冗余度,但是同時(shí)也剔除了部分有用的信息。因此,基于CARS 提取的特征波長所建立的預(yù)測模型效果最好。比較模型對(duì)樣本的預(yù)測性能及參數(shù)可得,CARS-MLR 模型的預(yù)測精度最高,其Rc2值為0.94,Rp2值為0.90,相比于其他模型,Rc2和Rp2值較優(yōu),同時(shí)RMSEC 和RMSEP 值都相對(duì)較小,分別為0.19 和0.21;比較模型對(duì)預(yù)測集樣本判別的準(zhǔn)確率,CARS-MLR 模型的準(zhǔn)確率最高,為96.82%,其次為CARS-PLS(95.24%),RC-MLR 模型判別準(zhǔn)確率最低,為88.89%。綜合判別模型的決定系數(shù)R2、均方根誤差RMSE 以及預(yù)測集判別準(zhǔn)確率三大指標(biāo),認(rèn)為CARS-MLR 模型對(duì)茄子外部缺陷的鑒別分類效果最優(yōu)。
表2 PLS 預(yù)測模型與MLR 預(yù)測模型性能比較 Table 2 Performance comparison of PLS and MLR models
3.1 基于高光譜技術(shù)采集茄子樣本的高光譜數(shù)據(jù)。比較原始光譜數(shù)據(jù)和經(jīng)過多種預(yù)處理方法預(yù)處理后建立PLS 模型,結(jié)果表明,經(jīng)Normalize 預(yù)處理后的PLS判別模型效果最佳,其校正集決定系數(shù)Rc2為0.74,均方根誤差RMSEC 為0.33;其預(yù)測集決定系數(shù)Rp2為0.85,均方根誤差RMSEP 為0.26。
3.2 采用SPA、RC 和CARS 分別對(duì)Normalize 預(yù)處理后的光譜數(shù)據(jù)提取特征波長,基于特征波長分別建立PLS 和MLR 模型。比較多種模型可知,CARS-MLR模型效果最優(yōu),其校正集決定系數(shù)Rc2為0.94,預(yù)測集決定系數(shù)Rp2為0.90,RMSEC和RMSEP分別為0.19和0.21,預(yù)測集判別準(zhǔn)確率達(dá)到96.82%,較好地實(shí)現(xiàn)了茄子外部缺陷的檢測。