張 萌 賈世杰
(1.吉林鐵道職業(yè)技術(shù)學(xué)院電氣工程分院,吉林 吉林 132200;2.大連交通大學(xué)電子信息工程學(xué)院,遼寧 大連 116028)
農(nóng)藥為世界農(nóng)業(yè)的發(fā)展和糧食可持續(xù)供應(yīng)提供了極大幫助[1]。中國(guó)作為一個(gè)農(nóng)業(yè)大國(guó),每年農(nóng)藥使用量超過50萬t,居世界第一,是世界平均水平的2.5倍。進(jìn)入21世紀(jì)以來,食品安全逐漸成為社會(huì)關(guān)注的焦點(diǎn)[2]。由于農(nóng)藥的廣泛使用會(huì)直接或間接進(jìn)入人體,危害人體健康,因此農(nóng)藥殘留檢測(cè)已成為重中之重。
目前,常見的食品農(nóng)藥殘留檢測(cè)方法主要為氣相色譜法、液相色譜法、氣質(zhì)聯(lián)用法、液質(zhì)聯(lián)用法等,而基于高光譜成像技術(shù)的水果表面農(nóng)藥殘留無損檢測(cè)技術(shù)研究較少。楊昌標(biāo)等[3]采用液相色譜—串聯(lián)質(zhì)譜分析法快速檢測(cè)出西紅柿中的18種殘留農(nóng)藥,該方法具有良好的線性關(guān)系,且在批量樣品的檢測(cè)中既快速又穩(wěn)定。薄璐等[4]在視覺成像技術(shù)的基礎(chǔ)上,提出了一種番茄表面農(nóng)殘無損檢測(cè)方法,該方法具有良好的無損檢測(cè)性能,提高了番茄表面農(nóng)殘的檢測(cè)能力。姚云恒等[5]提出了一種使用氣相色譜—質(zhì)譜分析技術(shù)快速測(cè)定蘋果梨中19種殘留農(nóng)藥的方法,該檢測(cè)方法簡(jiǎn)便、準(zhǔn)確,適用于蘋果梨中19種殘留農(nóng)藥的篩選和測(cè)定。張晶等[6]建立了一種氣相色譜—質(zhì)譜分析方法,用于檢測(cè)蔬菜中的8種氨基甲酸酯農(nóng)殘,該檢測(cè)方法靈敏度高、操作簡(jiǎn)便、定性和定量分析準(zhǔn)確可靠,在植物氨基甲酸酯的檢測(cè)中準(zhǔn)確率較高且穩(wěn)定。徐潔等[7]提出了一種哈密瓜表面農(nóng)殘判別分析方法,并驗(yàn)證了該檢測(cè)方法的準(zhǔn)確性。李增芳等[8]提出了一種用高光譜成像技術(shù)對(duì)贛南臍橙樣品農(nóng)藥殘留進(jìn)行無損檢測(cè),并驗(yàn)證了該檢測(cè)方法的準(zhǔn)確性。趙曼彤等[9]提出了一種利用高光譜成像技術(shù)對(duì)香梨表面低農(nóng)殘進(jìn)行檢測(cè),通過多元線性回歸法建立農(nóng)殘檢測(cè)模型,并驗(yàn)證了該檢測(cè)方法的準(zhǔn)確性。以上檢測(cè)技術(shù)不僅操作復(fù)雜、耗時(shí)長(zhǎng)等,甚至還會(huì)破壞樣品,因此需要尋找更加快速、精確、高效的農(nóng)殘無損檢測(cè)技術(shù)。
試驗(yàn)擬基于高光譜成像技術(shù),提出細(xì)菌群體趨藥性(BCC)算法和最小二乘支持向量機(jī)(LS-SVM)算法相結(jié)合建立水果表面農(nóng)殘檢測(cè)模型,通過對(duì)采集數(shù)據(jù)進(jìn)行預(yù)處理和特征提取,建立農(nóng)藥殘留濃度檢測(cè)模型,并與改進(jìn)前進(jìn)行試驗(yàn)對(duì)比,驗(yàn)證該方法的優(yōu)越性和準(zhǔn)確性,旨在為水果表面農(nóng)殘的無損檢測(cè)提供依據(jù)。
高光譜成像技術(shù)是計(jì)算機(jī)技術(shù)和光學(xué)技術(shù)的結(jié)合。由于其豐富的圖像信息和光譜數(shù)據(jù),近年來已被應(yīng)用于醫(yī)學(xué)和農(nóng)業(yè)領(lǐng)域。原始圖像所包含的光譜信息不僅僅是特定像素,還有特定波長(zhǎng)的圖像信息。高光譜成像平臺(tái)主要由高光譜相機(jī)(CCD相機(jī)、光譜儀、鏡頭)、光源(紫外線燈、鹵素?zé)?、電動(dòng)平臺(tái)和控制計(jì)算機(jī)等組成(見圖1),采用推掃成像原理,高光譜相機(jī)使用分束器將寬波混合反射光散射為各種頻率的單波長(zhǎng)光。
使用標(biāo)準(zhǔn)正態(tài)變換(SNV)結(jié)合去趨勢(shì)算法完成數(shù)據(jù)預(yù)處理,用SNV校正由粒子散射導(dǎo)致的誤差[10],其原理是每個(gè)光譜中不同波長(zhǎng)的吸收是不同的,因此有必要校正每個(gè)原始光譜,并按式(1)進(jìn)行計(jì)算。
(1)
式中:
XiSNV——第i條光譜經(jīng)SNV處理后的數(shù)據(jù)。
去趨勢(shì)主要解決SNV校正光譜數(shù)據(jù)中基線漂移問題[11],即使用多項(xiàng)式擬合光譜的吸收率和波長(zhǎng)以獲得趨勢(shì)線,用SNV校正光譜數(shù)據(jù)減去趨勢(shì)線。
1.CCD 相機(jī) 2.光譜儀 3.鏡頭 4.紫外燈 5.鹵素?zé)?6.試驗(yàn)樣本 7.電動(dòng)平移臺(tái) 8.光源控制箱 9.電動(dòng)平移臺(tái)控制箱 10.計(jì)算機(jī)圖1 高光譜成像采集系統(tǒng)Figure 1 Hyperspectral imaging acquisition system
高光譜圖像含有大量光譜數(shù)據(jù),由數(shù)百個(gè)波段構(gòu)成,并且每個(gè)波段都高度相關(guān)[12]。對(duì)整個(gè)頻帶進(jìn)行分析和建模不僅會(huì)影響試驗(yàn)的準(zhǔn)確性,而且計(jì)算量大大增加,降低了建模的速度[13]。故采用主成分分析(PCA)和連續(xù)投影算法(SPA)提取光譜數(shù)據(jù)的特征波長(zhǎng)進(jìn)行比較分析。
2.2.1 PCA特征提取 PCA具有降維和降噪的效果。降維后得到一組新的自變量,這些自變量將原始變量的所有信息最大化。處理后的圖像如式(2)所示[14]。
(2)
式中:
Pcm——第m個(gè)主成分圖像;
Ii——第i波段對(duì)應(yīng)的圖像;
αi——第i波段圖像權(quán)重系數(shù);
n——圖像的數(shù)量。
第一個(gè)主成分包含最原始的信息,貢獻(xiàn)最大。通常前10個(gè)主成分圖像的累積貢獻(xiàn)為原始圖像的99%。因此,只要選擇適當(dāng)?shù)闹鞒煞謭D像,就可以獲得高光譜數(shù)據(jù)的特征波長(zhǎng)。
2.2.2 SPA特征提取 SPA可以從光譜信息中充分找到冗余信息最低的變量組,減少信息重疊。同時(shí),減少建模中使用的變量數(shù)量,從而提高建模的速度和效率[15]。SPA算法的主要原理是:設(shè)置Xn×m為光譜矩陣,其中n為樣本數(shù),m為光譜波長(zhǎng)數(shù),N為需選擇的變量數(shù)。
(1) 首先選取j列光譜矩陣xj,初始迭代向量為xk(0)。
(2) 將剩余的光譜數(shù)據(jù)放入集合S中,S={j,1≤j≤J,j?[k(0),…,k(n-1)]}。
(3) 計(jì)算xj在剩余列向量上的投影,如式(3)所示[16]。
(3)
(4) 記k(n)=arg[max(‖pxj‖)],j∈s,同時(shí)令xj=pxj,j∈s。
(5) 令n=n+1 ,若n
對(duì)于每個(gè)k(0)和N,在一個(gè)周期后進(jìn)行多元線性分析,獲得的最小預(yù)測(cè)標(biāo)準(zhǔn)偏差為k(0)和N對(duì)應(yīng)的最優(yōu)值。
2.3.1 LS-SVM算法 LS-SVM解決了SVM算法在處理大量數(shù)據(jù)時(shí)訓(xùn)練速度較慢的問題,大大節(jié)省了收斂時(shí)間[17]。LS-SVM是處理小樣本集的最合適算法之一,該算法可以從有限數(shù)量的樣本中提取信息并預(yù)測(cè)未知數(shù)據(jù)[18]。
LS-SVM使用非線性映射函數(shù)φ(x)來建立方程,并使用拉格朗日算子求解最優(yōu)化問題。根據(jù)Mercer條件,映射函數(shù)φ(x)和核函數(shù)K(xi,xj)的對(duì)數(shù)函數(shù)如式(4)所示[19]。
φ(xk)Tφ(x1)=K(xk,x1),
(4)
式中:
xk——第k個(gè)輸入樣本。
文中采用RBF核函數(shù):
(5)
LS-SVM算法的函數(shù)方程如式(6)所示[20]。
(6)
式中:
αk——Lagrange乘子;
b——偏差參數(shù)。
2.3.2 BCC-LS-SVM算法 LS-SVM算法通常使用RBF內(nèi)核函數(shù)。采用兩步網(wǎng)格搜索和留一法確定RBF內(nèi)核參數(shù),對(duì)RBF函數(shù)的正則化參數(shù)γ和核參數(shù)σ2進(jìn)行優(yōu)化[21]。γ和σ2反映了算法的學(xué)習(xí)能力和泛化能力。
BCC算法是一種群體智能算法。細(xì)菌不僅依靠自身行為產(chǎn)生的信息,而且優(yōu)化周圍細(xì)菌運(yùn)動(dòng)產(chǎn)生的信息。BCC算法具有全局搜索功能、收斂速度快、精度高等優(yōu)點(diǎn)。該方法提高了支持向量機(jī)參數(shù)選擇的效率,避免了人工參數(shù)設(shè)置的不足,大大縮短了優(yōu)化時(shí)間。
文中提出了基于BCC改進(jìn)的LS-SVM算法,通過BCC找到最優(yōu)的γ和σ2。BCC-LS-SVM算法的基本步驟:
(1) 初始化。初始細(xì)菌種群、位置、優(yōu)化參數(shù)的限制、初始迭代次數(shù)和最大迭代次數(shù)等。
(2) 計(jì)算參數(shù)T0、b1、tc,如式(7)所示[22]。
(7)
式中:
T0——與計(jì)算精度ε有關(guān)的時(shí)間參數(shù);
tc——與細(xì)菌在運(yùn)動(dòng)方向上的旋轉(zhuǎn)角度有關(guān)的細(xì)菌移動(dòng)時(shí)間;
b1——與維度無關(guān)的參數(shù)。
(3) 根據(jù)細(xì)菌的位置對(duì)LS-SVM模型進(jìn)行訓(xùn)練,對(duì)初始目標(biāo)函數(shù)值進(jìn)行評(píng)估,記錄最大目標(biāo)函數(shù)及其對(duì)應(yīng)的正則化參數(shù)γ和核參數(shù)σ2[23]。
(4) 通過BCC算法找到最佳的γ和σ2,為每種細(xì)菌計(jì)算新位置,并對(duì)細(xì)菌種群進(jìn)行更新。
(5) 確定最佳細(xì)菌并求得最佳函數(shù)值。
(6) 如果前后函數(shù)值的差的絕對(duì)值小于給定精度或達(dá)到最大迭代次數(shù),則執(zhí)行下一步,否則跳到步驟2.3.2(3)。
(7) 使用最佳細(xì)菌位置(γ和σ2)作為L(zhǎng)S-SVM模型中的參數(shù)。
BCC-LS-SVM算法流程圖如圖2所示。
圖2 BCC-LS-SVM算法流程Figure 2 BCC-LS-SVM algorithm flow
CCD相機(jī):ORCA-R2型,日本濱松公司;
光譜儀:V10E-QE型,芬蘭SPECIM公司;
超亮紫外線燈:ML3500型,美國(guó)SP公司;
光纖鹵素?zé)簦篋CR III型,150 W,德國(guó)肖特公司。
以噠螨靈農(nóng)藥為試驗(yàn)對(duì)象,對(duì)80份水果樣品進(jìn)行洗滌,置于通風(fēng)處干燥[24]。隨機(jī)分為4組,每組20份。從每組中隨機(jī)選擇8個(gè)樣本作為訓(xùn)練數(shù)據(jù),共選擇32個(gè)樣本,其余48個(gè)樣本作為測(cè)試集。提取全光譜數(shù)據(jù)的特征波長(zhǎng)后,PCA提取的特征波長(zhǎng)分別為500,580,680,850,930,980 nm;SPA提取的特征波長(zhǎng)分別為461,549,600,680,740,830,900,960 nm。建立LS-SVM和BCC-LS-SVM檢測(cè)模型,輸出數(shù)據(jù)在樣本類別中。水果表面上噠螨靈殘留濃度(V噠螨靈∶V水)可分為4類[25]:1∶400,1∶800,1∶1 500以及無噠螨靈殘留。
3.2.1 LS-SVM模型試驗(yàn)分析 使用PCA、SPA提取的特征波長(zhǎng)作為輸入數(shù)據(jù),建立LS-SVM模型判別水果表面農(nóng)藥殘留濃度。基于PCA特征波長(zhǎng)的LS-SVM判別水果表面農(nóng)藥殘留濃度如圖3所示。由圖3可知,基于PCA特征波長(zhǎng)的LS-SVM模型成功預(yù)測(cè)了43個(gè)樣本,準(zhǔn)確率為89.58%。
圖4為基于SPA特征波長(zhǎng)的LS-SVM判別水果表面上的殘留農(nóng)藥濃度,其成功預(yù)測(cè)了44個(gè)樣本,每種類型吡噠螨均存在誤判,準(zhǔn)確率為91.67%。
比較圖3、4可知,基于PCA和SPA的LS-SVM模型檢測(cè)水果表面農(nóng)藥殘留濃度準(zhǔn)確度分別為89.58%,91.67%,采用SPA的模型優(yōu)于PCA的。這是因?yàn)椴捎肧PA算法挑選出的有效波長(zhǎng)能充分代表原始光譜的有效信息,預(yù)測(cè)效果較好。因此,將LS-SVM模型應(yīng)用于水果表面殘留農(nóng)藥檢測(cè)的連續(xù)投影更為有效。
3.2.2 BCC-LS-SVM模型試驗(yàn)分析 使用PCA和SPA提取的特征波長(zhǎng)作為輸入數(shù)據(jù),建立BCC-LS-SVM模型,用于水果表面農(nóng)藥殘留濃度的判別,基于PCA特征波長(zhǎng)結(jié)合改進(jìn)的最小二乘支持向量機(jī)模型(BCC-LS-SVM)檢測(cè)水果表面農(nóng)藥殘留如圖5所示。由圖5可知,基于PCA的特征波長(zhǎng)的BCC-LS-SVM成功預(yù)測(cè)了45個(gè)樣本,準(zhǔn)確率為93.75%。
圖6為基于SPA的特征波長(zhǎng)信息的BCC-LS-SVM模型檢測(cè)水果表面上的殘留農(nóng)藥濃度。由圖6可知,該模型成功預(yù)測(cè)了47個(gè)樣本,準(zhǔn)確率為97.92%。
比較圖5、6可知,基于PCA和SPA這兩種特征波長(zhǎng)提取方法建立的改進(jìn)的最小二乘支持向量機(jī)模型(BCC-LS-SVM)可以檢測(cè)水果表面上殘留的農(nóng)藥濃度,準(zhǔn)確率分別為93.75%,97.92%,SPA選擇特征波長(zhǎng)的模型精度高于PCA的。因此,BCC-LS-SVM模型可用于檢測(cè)水果表面殘留的農(nóng)藥濃度,其中連續(xù)投影更為有效。
圖3 基于PCA的LS-SVM模型判別圖Figure 3 PCA based LS-SVM model discriminant graph
圖4 基于SPA的LS-SVM模型判別圖Figure 4 SPA based LS-SVM model discriminant graph
圖5 基于PCA的BCC-LS-SVM模型判別圖Figure 5 PCA based BCC-LS-SVM model discriminant graph
圖6 基于SPA的BCC-LS-SVM模型判別圖Figure 6 SPA based BCC-LS-SVM model discriminant graph
3.2.3 不同模型對(duì)比分析 特征波長(zhǎng)提取方法分別選擇PCA和SPA,并分別使用LS-SVM和BCC-LS-SVM進(jìn)行建模,預(yù)測(cè)模型的結(jié)果見表1。由表1可知,基于連續(xù)投影法(SPA)的特征波長(zhǎng)的檢測(cè)模型整體精度高于基于主成分分析(PCA)的特征波長(zhǎng)的檢測(cè)模型,說明連續(xù)投影法的特征提取效果極好。在SPA特征波長(zhǎng)下,BCC-LS-SVM模型的準(zhǔn)確度為97.92%,優(yōu)于LS-SVM模型,是因?yàn)锽CC算法找到最優(yōu)的正則化參數(shù)和核參數(shù),使BCC-LS-SVM模型更加精準(zhǔn)。
試驗(yàn)表明,在高光譜成像中,連續(xù)投影結(jié)合BCC-LS-SVM模型可以有效地檢測(cè)水果表面上殘留的噠螨靈濃度,且優(yōu)于LS-SVM模型,通過BCC算法找到最優(yōu)的LS-SVM模型參數(shù),將檢測(cè)準(zhǔn)確率從93.75%提高至97.92%。該檢測(cè)方法仍處于起步階段,后續(xù)將不斷改進(jìn)檢測(cè)模型的性能,完善基于高光譜成像技術(shù)的水果表面殘留農(nóng)藥的無損檢測(cè)方法。
表1 不同建模結(jié)果對(duì)比Table 1 Comparison of different modeling results