吉海彥, 任占奇, 饒震紅
(1. 中國(guó)農(nóng)業(yè)大學(xué) 現(xiàn)代精細(xì)農(nóng)業(yè)系統(tǒng)集成研究教育部重點(diǎn)實(shí)驗(yàn)室, 北京 100083; 2. 中國(guó)農(nóng)業(yè)大學(xué) 農(nóng)業(yè)部農(nóng)業(yè)信息獲取技術(shù)重點(diǎn)實(shí)驗(yàn)室, 北京 100083; 3. 中國(guó)農(nóng)業(yè)大學(xué) 理學(xué)院, 北京 100083)
菠菜是我國(guó)普遍栽培的品種,為極常見(jiàn)的蔬菜之一,以其鮮、嫩的品質(zhì)以及較高的營(yíng)養(yǎng)價(jià)值,深受廣大消費(fèi)者喜愛(ài),市場(chǎng)需求量大且較容易種植,具有很好的經(jīng)濟(jì)價(jià)值。在菠菜的生長(zhǎng)過(guò)程中,有的農(nóng)戶為保證其免受各種病蟲(chóng)害影響,會(huì)使用多種農(nóng)藥或殺蟲(chóng)劑,農(nóng)藥大部分都?xì)埩粼诓げ巳~子上,即使采取專業(yè)的清洗也難以消除其表面的農(nóng)藥[1]。更可怕的是有些農(nóng)戶在剛打完藥后沒(méi)多久就采摘進(jìn)行銷售,這樣就會(huì)進(jìn)一步增加農(nóng)藥殘留的量,長(zhǎng)期食用含有農(nóng)藥殘留的蔬菜,會(huì)誘發(fā)各種疾病,甚至可能導(dǎo)致癌癥和基因突變[2]。菠菜中的農(nóng)藥殘留是否達(dá)標(biāo)是評(píng)判菠菜質(zhì)量的關(guān)鍵因素之一,而農(nóng)藥殘留檢測(cè)中鑒別有無(wú)農(nóng)藥殘留及農(nóng)藥殘留的種類是農(nóng)藥殘留檢測(cè)的前提[3]。果蔬表面的農(nóng)藥殘留檢測(cè)有許多成熟可行的方法,例如:氣相色譜法和高效液相色譜法,但這些方法有檢測(cè)時(shí)間長(zhǎng)、需要依賴化學(xué)試劑、對(duì)樣品有一定的損壞、操作復(fù)雜等缺點(diǎn)[4]。高光譜成像技術(shù)具備圖像和光譜的雙重優(yōu)勢(shì),檢測(cè)過(guò)程無(wú)損、無(wú)污染、樣品無(wú)需預(yù)處理且檢測(cè)效率較高,在現(xiàn)代農(nóng)業(yè)檢測(cè)分析方面得到了廣泛的應(yīng)用[5-8]。
李增芳等用高光譜成像技術(shù)無(wú)損檢測(cè)贛南臍橙表面不同稀釋濃度的農(nóng)藥殘留[9];Shao 等通過(guò)使用近紅外高光譜成像技術(shù)無(wú)損檢測(cè)微藻上的農(nóng)藥種類[10];Sun等運(yùn)用高光譜圖像技術(shù)檢測(cè)桑葉表面的農(nóng)藥殘留[11];劉民法等運(yùn)用近紅外高光譜技術(shù)鑒別長(zhǎng)棗表面的農(nóng)藥種類[12];Qiao等利用短波高光譜圖像技術(shù)對(duì)真菌污染的花生進(jìn)行分類鑒別[13];Sun等利用高光譜成像技術(shù)結(jié)合CARS和RF-RFE等特征波長(zhǎng)選擇算法并建立支持向量機(jī)回歸模型定量檢測(cè)萵苣葉片上的農(nóng)藥殘留[14];陳欣欣等利用高光譜成像技術(shù)對(duì)庫(kù)爾勒梨的早期損傷進(jìn)行識(shí)別[15];Huang等用高光譜技術(shù)對(duì)不同年份的玉米種子分類進(jìn)行了研究[16];Barbin 等運(yùn)用高光譜圖像技術(shù)結(jié)合主成分分析技術(shù)研究了對(duì)豬肉的等級(jí)進(jìn)行分類[17]。國(guó)內(nèi)外的研究表明,高光譜成像技術(shù)被廣泛用于農(nóng)產(chǎn)品品質(zhì)檢測(cè),但將高光譜成像技術(shù)結(jié)合特征選擇算法和多種分類建模算法用于菠菜葉片表面多種類農(nóng)藥鑒別的研究未見(jiàn)報(bào)道。
本文以不含農(nóng)藥的菠菜葉片及分別含有常用4種農(nóng)藥(菊酯、樂(lè)果、滅多威、辛硫磷)殘留的菠菜葉片為研究對(duì)象,利用高光譜成像技術(shù)、光譜預(yù)處理技術(shù)、主成分分析技術(shù)、卡方檢驗(yàn)特征提取算法和分類機(jī)器學(xué)習(xí)算法對(duì)菠菜葉片農(nóng)藥殘留種類鑒別進(jìn)行研究,并結(jié)合10折交叉驗(yàn)證技術(shù)選擇出了最佳特征波段和分類模型,減少了模型的運(yùn)行時(shí)間,實(shí)現(xiàn)了快捷無(wú)損識(shí)別出菠菜葉片上的農(nóng)藥殘留種類。
實(shí)驗(yàn)用的菠菜購(gòu)于北京某批發(fā)市場(chǎng),實(shí)驗(yàn)農(nóng)藥為:氯氰菊酯、樂(lè)果、滅多威和辛硫磷。對(duì)樂(lè)果農(nóng)藥,用蒸餾水將其配置成1∶500的溶液;由于氯氰菊酯、滅多威和辛硫磷這3種農(nóng)藥難溶于水,所以用甲醇分別將其配置成1∶500的溶液。甲醇作為一種溶解劑被添加進(jìn)來(lái),它可能會(huì)影響到含有農(nóng)藥葉片的真實(shí)光譜信息,但其作為背景因素對(duì)農(nóng)藥殘留種類的判別影響很小。如圖1為只噴灑甲醇的菠菜葉片的平均光譜曲線。把同濃度的農(nóng)藥和蒸餾水均勻噴灑到125個(gè)菠菜葉片表面,每種類噴灑25個(gè)葉片,將葉片放置12 h后晾干,采集高光譜圖像。
圖1 噴灑甲醇后菠菜葉片的平均光譜曲線
高光譜成像系統(tǒng)采用北京卓立漢光公司的GaiaSorter“蓋亞”高光譜分選儀,核心部件包括高光譜成像儀、均勻光源、電控移動(dòng)平臺(tái)、計(jì)算機(jī)及控制軟件等部分,如圖2所示。光譜相機(jī)是采用卓立漢光公司Image-λ譜像系列,該相機(jī)能獲取900~1 700 nm波長(zhǎng)范圍內(nèi)共256個(gè)波長(zhǎng)點(diǎn)的灰度圖像,光源由4個(gè)200 W的溴鎢燈構(gòu)成。高光譜成像系統(tǒng)的工作原理是通過(guò)光源照射在放置于電控移動(dòng)平臺(tái)上的待測(cè)樣品,樣品的反射光通過(guò)鏡頭被光譜相機(jī)捕獲,得到一維的影像以及光譜信息,隨著電控移動(dòng)平臺(tái)的移動(dòng),最終能獲得一個(gè)包含了影像信息和光譜信息的三維數(shù)據(jù)立方體,電控移動(dòng)平臺(tái)的移動(dòng)速度由軟件控制。
圖2 高光譜成像系統(tǒng)示意圖
采集高光譜數(shù)據(jù)時(shí),將樣品放置于電動(dòng)平移臺(tái)上,為了得到清晰的圖像需要多次的相機(jī)調(diào)焦和平臺(tái)運(yùn)動(dòng)速度的調(diào)整,經(jīng)過(guò)多次調(diào)試,最終確定平臺(tái)的運(yùn)動(dòng)速度為0.3 cm/s,曝光時(shí)間0.08 s。采集到的高光譜成像數(shù)據(jù)為樣品的光譜數(shù)據(jù)和圖像數(shù)據(jù)組成的三維數(shù)據(jù)立方體,為了盡可能降低圖像噪聲和暗電流的影響,需要將采集的原始高光譜圖像進(jìn)行黑白校正[18],在采集高光譜數(shù)據(jù)時(shí)將相機(jī)對(duì)準(zhǔn)白板采集的數(shù)據(jù)為W,蓋上CCD相機(jī)鏡頭采集的數(shù)據(jù)為D,其校正公式為
(1)
式中:R為校正后的高光譜圖像;I為原始高光譜圖像;D為全黑的標(biāo)定圖像;W為全白的標(biāo)定圖像。校正的工具為高光譜系統(tǒng)自帶的軟件SpecVIEW。后續(xù)所用到的分析軟件包括:Matlab 2016b、Envi5.1、IBM SPSS Statistics 22.0和python3.6。
首先利用Envi5.1軟件選取菠菜葉片上的感興趣區(qū)域(Region of interest,ROI),為了充分利用每個(gè)菠菜樣品同時(shí)增加模型訓(xùn)練樣本數(shù),每個(gè)菠菜葉片樣品選取4個(gè)ROI,ROI的選取避開(kāi)主莖干,選取ROI的位置如圖3所示。ROI選取的像素點(diǎn)數(shù)為50個(gè),計(jì)算出ROI內(nèi)像素點(diǎn)光譜的平均值,以該平均值作為該樣品其中的一條光譜記錄,最后一共搜集到500條光譜曲線,每類樣品100條。為了清晰分辨出不同種類的樣本之間的光譜信息差異,對(duì)每類樣品100條光譜曲線求平均,平均光譜曲線如圖4所示。從圖4中可以看出,不同種類農(nóng)藥殘留的菠菜葉片光譜反射率有一定的差異,與正常葉片不同,滴過(guò)農(nóng)藥的葉片的光譜反射率在某些波段明顯低于正常葉片,而不同種類的農(nóng)藥殘留葉片光譜反射率也有一定的差異。目前已有相關(guān)研究表明:農(nóng)藥脅迫會(huì)導(dǎo)致植物的某些生理生化指標(biāo)(如植物內(nèi)部的組織形態(tài)、葉綠素、可溶性多糖等)發(fā)生改變[19-20],這些改變將會(huì)影響近紅外波段的植被反射率[21],所以可以利用光譜信息來(lái)判別菠菜是否有農(nóng)藥殘留及殘留農(nóng)藥的種類。
圖4 無(wú)殘留和不同種類農(nóng)藥殘留菠菜葉片表面ROI平均光譜曲線
在菠菜葉片高光譜數(shù)據(jù)的采集過(guò)程中,所測(cè)樣品的色澤差異、葉片表面的不平整性、葉片的水分含量以及質(zhì)地不完全相同等因素可能會(huì)引起樣品發(fā)生散射現(xiàn)象進(jìn)而掩蓋與農(nóng)藥相關(guān)的光譜信息。農(nóng)藥殘留分析屬于痕量分析的一種,因此由于散射所引起的光譜差異可能會(huì)大于農(nóng)藥種類不同所引起的光譜差異,所以需要用多元散射校正算法(Multiplicative scatter correction,MSC)對(duì)原始光譜曲線進(jìn)行校正,MSC可以消除漫反射光譜的基線漂移,對(duì)樣品不均勻性造成的噪聲也有較好的效果,經(jīng)過(guò)散射校正后能最大程度消除光譜散射的影響[22]。校正前后光譜曲線的對(duì)比如圖5所示。
圖5 原始光譜曲線(a)和MSC校正后的光譜曲線(b)
主成分分析(Principal components analysis,PCA)是通過(guò)線性數(shù)據(jù)轉(zhuǎn)換的方法提取最重要的信息,從而降低數(shù)據(jù)的維度,被廣泛應(yīng)用于高光譜數(shù)據(jù)降維和分析中[23]。在本文中,利用PCA對(duì)不同菠菜樣品的光譜數(shù)據(jù)進(jìn)行可視化判別,如圖6所示,前兩個(gè)主成分的累計(jì)貢獻(xiàn)率達(dá)到了96.5%,故用前2個(gè)主成分能較好地表示出原來(lái)的高維光譜數(shù)據(jù),從圖中可以看出在經(jīng)過(guò)多元散射校正后不同種類菠菜樣品光譜數(shù)據(jù)分布差異明顯,因此,PCA可以更直觀地對(duì)五類菠菜樣品進(jìn)行定性識(shí)別。但PCA是無(wú)監(jiān)督算法,它分析出來(lái)的結(jié)果只和樣品的光譜數(shù)據(jù)有關(guān)而和樣品的類別無(wú)關(guān),那些貢獻(xiàn)率小的主成分對(duì)于葉片殘留農(nóng)藥種類的鑒別也可能很重要,經(jīng)過(guò)PCA降維后的數(shù)據(jù)也失去了原數(shù)據(jù)的意義,不適合用于日后在線分析檢測(cè)的研制。綜上,有必要使用有監(jiān)督的學(xué)習(xí)算法對(duì)其進(jìn)行研究。
圖6 含有不同種類農(nóng)藥殘留菠菜樣品的高光譜數(shù)據(jù)PCA分析
本研究中需要處理的菠菜葉片的高光譜圖像的特征維數(shù)高達(dá)256維,有必要對(duì)其進(jìn)行特征選擇以剔除冗余的特征,從而減少模型的運(yùn)行時(shí)間,為日后在線檢測(cè)設(shè)備的研制提供便利。為了選擇出最優(yōu)的特征波長(zhǎng)子集和分類預(yù)測(cè)模型,本文嘗試了統(tǒng)計(jì)學(xué)上的卡方檢驗(yàn)特征選擇方法并結(jié)合常用的4種機(jī)器學(xué)習(xí)分類算法,分別為:支持向量機(jī)(Support vector machine,SVM)、樸素貝葉斯模型(Naive bayesian model,NBM)、決策樹(shù)(Decision tree)和線性判別分析(Linear discriminant analysis,LDA)??ǚ綑z驗(yàn)(Chi-squared test)是分類問(wèn)題常用的特征選擇方法之一,該方法采用了統(tǒng)計(jì)學(xué)上的卡方檢驗(yàn),需要計(jì)算并排序各維特征與類別間的相關(guān)程度,然后只保留最相關(guān)的k維特征,k可由程序設(shè)定[24-26]。為了增加模型的穩(wěn)定性,采用了10折交叉驗(yàn)證的方法對(duì)樣本進(jìn)行劃分訓(xùn)練集和測(cè)試集,取10次交叉驗(yàn)證預(yù)測(cè)準(zhǔn)確率的平均值和標(biāo)準(zhǔn)差對(duì)模型進(jìn)行評(píng)估。如圖7中實(shí)心淺藍(lán)線和實(shí)心紅線所示,紅線的長(zhǎng)度代表標(biāo)準(zhǔn)差的大小,標(biāo)準(zhǔn)差為0時(shí)紅線消失,結(jié)合模型的預(yù)測(cè)準(zhǔn)確率和選擇的波長(zhǎng)個(gè)數(shù),藍(lán)色虛線畫(huà)出了各個(gè)模型的最優(yōu)參與分類的特征個(gè)數(shù)占總特征個(gè)數(shù)的百分比,具體的波長(zhǎng)選擇結(jié)果及模型的預(yù)測(cè)性能如表1所示。
圖7 卡方檢驗(yàn)結(jié)合不同分類模型預(yù)測(cè)結(jié)果示意圖。(a)卡方檢驗(yàn)結(jié)合支持向量機(jī);(b)卡方檢驗(yàn)結(jié)合樸素貝葉斯;(c)卡方檢驗(yàn)結(jié)合線性判別分析;(d)卡方檢驗(yàn)結(jié)合決策樹(shù)。
注:圖中橫坐標(biāo)為卡方檢驗(yàn)篩選出的變量個(gè)數(shù)百分比,縱坐標(biāo)為該模型預(yù)測(cè)的準(zhǔn)確率。
Note: The abscissa is shown in the percentage of the number of variables selected by chi-squared test, the ordinate is the accuracy of the model prediction.
表1 波長(zhǎng)的選擇結(jié)果及模型的預(yù)測(cè)性能
從表1的分析可以得出,Chi-squared test結(jié)合LDA的判別模型相比其他模型選出的特征子集的個(gè)數(shù)最少,選擇波長(zhǎng)的范圍為1 439.3~1 462 nm共8個(gè)波長(zhǎng),分別為:1 439.3,1 442.5,1 445.8,1 449,1 452.3,1 455.5,1 458.7,1 462 nm, 預(yù)測(cè)的準(zhǔn)確率達(dá)到0.993,預(yù)測(cè)準(zhǔn)確率的標(biāo)準(zhǔn)差為0.009,故可認(rèn)為Chi-squared test結(jié)合LDA的判別模型為判別菠菜葉片上的農(nóng)藥殘留種類的最佳模型。
基于高光譜成像系統(tǒng)利用PCA對(duì)菠菜葉片上的農(nóng)藥殘留種類進(jìn)行可視化的判別分析,結(jié)果表明PCA可以直觀地對(duì)菠菜葉片上的農(nóng)藥殘留種類進(jìn)行定性識(shí)別。PCA雖然有比較直觀的優(yōu)點(diǎn),但對(duì)本研究也有不利的地方,基于此,采用了Chi-squared test結(jié)合常用的4種分類建模算法篩選出了最佳波段和最優(yōu)的LDA判別模型。篩選出的8個(gè)特征波長(zhǎng)為:1 439.3,1 442.5,1 445.8,1 449,1 452.3,1 455.5,1 458.7,1 462 nm,縮短了模型的運(yùn)行時(shí)間。將這8個(gè)特征波長(zhǎng)代入LDA模型結(jié)合10折交叉驗(yàn)證技術(shù),預(yù)測(cè)準(zhǔn)確率達(dá)到0.993且10次交叉驗(yàn)證的標(biāo)準(zhǔn)差為0.009。本研究中,從將準(zhǔn)備好的樣品送進(jìn)實(shí)驗(yàn)室開(kāi)始到檢測(cè)結(jié)束,平均每個(gè)樣品花費(fèi)時(shí)間2 min左右,未來(lái)可考慮將實(shí)驗(yàn)流程實(shí)現(xiàn)自動(dòng)化從而進(jìn)一步提高檢測(cè)效率。
本研究可基于高光譜成像技術(shù)、光譜預(yù)處理多元散射校正技術(shù)、Chi-squared test特征選擇算法和分類建模算法準(zhǔn)確鑒別出菠菜葉片表面的農(nóng)藥殘留種類,為菠菜葉片的農(nóng)藥殘留種類在線檢測(cè)提供了參考。