馮 潔劉云宏,2王慶慶于慧春,2石曉微
(1. 河南科技大學食品與生物工程學院,河南 洛陽 471023;2. 河南省食品原料工程技術研究中心,河南 洛陽 471023)
金銀花是中國傳統(tǒng)藥食同源食材及中藥材[1-2],有抗菌抗炎、清熱解毒等功效[3],具有極高的營養(yǎng)價值。金銀花在貯藏運輸過程中,經(jīng)常由于包裝不嚴、吸潮而發(fā)生霉變變質(zhì)等現(xiàn)象,這不僅會嚴重影響金銀花的外觀與風味,還會造成營養(yǎng)成分的大量流失以及有毒有害物質(zhì)的生成積累。一旦霉變金銀花被人畜誤食,將會嚴重威脅到人們的生命健康[4]。因此,及時檢測出霉變金銀花尤為重要。
目前,農(nóng)產(chǎn)品霉變的檢測主要依靠人工定性分析,通常是根據(jù)檢測人員對農(nóng)產(chǎn)品的色澤、氣味等感官指標變異情況進行判別[5],這種方式分選檢測范圍小、效率低、經(jīng)驗依賴性強,若應用于金銀花霉變程度識別,極易產(chǎn)生人為誤差。現(xiàn)有的農(nóng)產(chǎn)品霉變理化檢測方法主要包括生物學方法、免疫學方法和化學儀器分析法[6-8]。這些方法雖然檢測精度高,但操作繁瑣、時間長及成本高,難以及時、無損分析金銀花霉變程度。因此,亟需建立一種快速、準確、實用的金銀花霉變程度的檢測方法。
近年來,高光譜成像技術由于操作簡單、快速、無損等優(yōu)點,在農(nóng)產(chǎn)品品質(zhì)鑒定與檢測中的應用非常廣泛[9-11]。目前,國內(nèi)外學者在利用高光譜成像技術檢測不同農(nóng)產(chǎn)品病變程度、鑒別不同霉變菌種等方面已有一些研究[12-13]。如龔中良等[14]利用高光譜成像技術快速無損鑒別不同霉變程度的秈稻;Zhang等[15]利用高光譜成像技術鑒別小麥白粉??;Siripatrawan等[16]運用高光譜圖像技術實時監(jiān)控貯藏大米中腐敗霉變真菌生長狀況。上述研究均取得了較好的預測效果,說明高光譜成像技術能夠?qū)崿F(xiàn)農(nóng)產(chǎn)品霉變情況的快速、無損、準確檢測。然而,目前尚無利用高光譜技術進行金銀花霉變程度快速檢測方法構建的研究報道。
本研究擬通過高光譜成像技術采集金銀花不同霉變程度的數(shù)據(jù)信息,結(jié)合化學計量學方法建立有效、準確的檢測模型。首先,使用Savitzky-Golay(SG)卷積平滑、多元散射校正(Multiple Scatter Correct,MSC)和Savitzky-Golay卷積平滑-多元散射校正(SG-MSC)3種預處理方法建立全光譜偏最小二乘(Partial Least Square,PLS)模型,選擇最佳預處理方法后,運用連續(xù)投影系數(shù)法(Successive Projection Algorithm,SPA)和競爭性自適應重加權算法(Competitive Adaptive Reweighted Sampling,CARS)提取經(jīng)預處理后得到光譜的特征波長,并分別建立偏最小二乘判別(Partial Least Square Discriminant Analysis,PLS-DA)和最小二乘支持向量機(Last Squares Support Vector Machine,LS-SVM)判別分析模型,最終實現(xiàn)對霉變金銀花的有效鑒別。以期為高光譜成像技術在金銀花農(nóng)產(chǎn)品的霉變檢測及品質(zhì)鑒定中的應用提供參考。
金銀花:產(chǎn)地為河南封丘,河南洛陽同仁堂大藥房;
恒溫恒濕培養(yǎng)箱:HWHS-100HC型,深圳市澳德瑪電子科技有限公司;
高光譜攝像儀:Inno-Spec IST50-3810型,德國Inno-Spec GmbH公司;
光纖鹵素燈:90000420108型,德國ESYLUX公司;
控制箱:SC100型,北京光學儀器廠;
電控位移臺:SC100型,北京光學儀器廠。
1.2.1 樣品的制備與劃分 將金銀花放置于溫度為25 ℃、濕度85%的恒溫恒濕培養(yǎng)箱中進行培養(yǎng)。分別挑選無霉變、輕度霉變、中度霉變、重度霉變4個時期的金銀花為試驗對象,對應的貯藏時間分別為0,5,10,15 d。每組金銀花隨機選擇90個樣本,應用高光譜成像技術進行光譜數(shù)據(jù)采集。其中對照組金銀花為青綠色,沒有損害跡象;輕度霉變金銀花出現(xiàn)輕微變色與發(fā)潮現(xiàn)象,表面開始有微量菌絲出現(xiàn),但由于金銀花表面存在被毛與菌絲的顏色相近,肉眼很難直接觀察;中度霉變?yōu)槊咕采w面積約占金銀花表面10%~40%,并有輕微霉味和霉斑;重度霉變金銀花表面布滿白色菌落出現(xiàn)嚴重的霉味、酸味和異常,少量樣品產(chǎn)生黏連現(xiàn)象。
1.2.2 高光譜圖像采集與校正 在圖像采集前為了保證圖像的清晰度、避免失真現(xiàn)象的發(fā)生,首先應確定物鏡距離、高光譜攝像機的曝光時間和輸送裝置的移動速度。經(jīng)過反復調(diào)整,最終確定物鏡高度為250 mm,CCD相機的曝光時間為90 ms,輸送裝置的移動速度為1.20 mm/s。4個光源分布在高光譜系統(tǒng)的前后兩邊,以保證花蕾表面形成足夠的光照強度,防止由于光照不足或不均勻而產(chǎn)生噪音[17-19]。
光譜測定條件為:光譜掃描范圍371~1 024 nm,在光譜范圍內(nèi)共1 288個波段,光譜分辨率2.8 nm。金銀花光譜采集時,每次將一個金銀花與傳送帶垂直放置。每個金銀花及其對應的光譜視為一個樣本,對照組(無霉變)、輕度霉變、中度霉變和重度霉變金銀花4組樣本各測量90個樣本,最終獲得360個樣本。
在進行光譜處理前,需要進行黑白校正,以清除由于傳感器暗電流等原因而在圖像信息中產(chǎn)生的較大噪音。因此,在同一樣本采集系統(tǒng)條件下,掃描標準白色校正板(99%反射率)與關閉攝像頭快門進行圖像采集,分別得到全白和全黑的標定圖像,根據(jù)式(1)進行圖像標定[20-21]。
(1)
式中:
I——原始的高光譜圖像;
B——全黑的標定圖像;
W——全白的標定圖像;
R——標定后的高光譜圖像。
圖像校正后,采用ENVI 5.1軟件選取整個金銀花花蕾為感興趣區(qū)域(Region of Interest,ROI),將ROI內(nèi)所有光譜信息的平均值作為對應樣本的光譜值進行數(shù)據(jù)分析[22-23]。
1.2.3 化學計量學方法 利用MATLAB R2014a (The Math Works,Natick,USA)軟件,將采集到的樣本數(shù)據(jù)使用SG、MSC[24]和SG-MSC 3種方法進行預處理。利用SPA[25]和CARS算法[26]選擇經(jīng)預處理光譜的特征波段,并使用所提取的特征波段分別建立偏最小二乘判別[27](PLS-DA)和最小二乘支持向量機[28-29](LS-SVM)判別分析模型,試驗采用判別正確率來評價檢測分析模型的精度。經(jīng)過反復調(diào)試,試驗中LS-SVM算法選用的核函數(shù)為RBF函數(shù),懲罰因子設置γ為500,RBF核函數(shù)參數(shù)σ2為620。
利用高光譜成像系統(tǒng)采集金銀花樣本的光譜數(shù)據(jù),由于光譜數(shù)據(jù)前端和后端波動較大,明顯具有較大的噪聲影響,因此研究時去掉前端和后端中有明顯噪聲的波段。本研究采用第199~988波段,共計790個波段,即對波長范圍在472.35~874.46 nm的光譜進行分析。圖1為金銀花不同霉變程度的平均光譜曲線圖,可見4組不同霉變程度的金銀花具有相似的光譜曲線趨勢,不同霉變程度金銀花的反射值在所選波段存在差異。隨著貯藏時間的延長,金銀花開始發(fā)生褐變反應,導致類黑素的生成,表面色澤逐漸變暗[30],其內(nèi)部化學組分發(fā)生一系列的反應,金銀花所含酚類、黃酮類物質(zhì)不斷降解[31],這可能是中度霉變與輕度霉變的光譜反射值之間存在很大差距的原因。由于重度霉變金銀花表面覆蓋一層菌絲,在可見光范圍內(nèi),重度霉變組的光譜反射值要大于中度霉變組。而樣本光譜曲線在650~700 nm,對照組與輕度霉變、中度霉變與重度霉變金銀花之間樣本的光譜反射值極為相近,難以將4組不同霉變程度金銀花利用光譜曲線辨別出來。因此,需要進一步處理數(shù)據(jù),以提高檢測金銀花霉變程度的建模精度。
圖1 不同霉變程度的金銀花平均光譜圖Figure 1 Average spectrum of honeysuckle with different moldy degrees
為減少樣本數(shù)據(jù)噪聲,保留光譜曲線中的有用信息。本試驗使用Kennard-Stone(KS)算法,每組隨機選擇60個樣本,共240個樣本數(shù)據(jù)組成訓練集,取各組剩余30個樣本共120個樣本數(shù)據(jù)組成校正集,分別運用SG、MSC和SG-MSC 3種算法對光譜數(shù)據(jù)進行預處理。
SG卷積平滑、MSC和SG-MSC 3種預處理結(jié)果如表1所示,3種預處理方法的R2和RMSE值相差很小,說明3種預處理方式均能很好地消除光譜數(shù)據(jù)噪聲。對比3種預處理結(jié)果可知,SG-MSC訓練集與校正集的R2最大、RMSE最小,所得到的訓練集與驗證集的R2分別為0.987 3和0.969 7,RMSE值分別為0.536 9和1.024 1,說明SG-MSC預處理后光譜數(shù)據(jù)的擬合性最好。SG-MSC算法結(jié)合了其他2種預處理算法的優(yōu)點,在減少隨機噪聲影響的同時增加光譜信噪比,可確定為試驗最佳預處理方法。因此,本研究選用SG-MSC算法對光譜數(shù)據(jù)進行預處理。
表1 基于全波段的PLS判別分析結(jié)果Table 1 Discriminant results of PLS-DA models based on full wave band
對預處理后的數(shù)據(jù)使用SPA進行波長的優(yōu)選,然后利用優(yōu)選的波長數(shù)據(jù)建立PLS-DA和LS-SVM校正模型,最小均方根誤差值對應的波長變量個數(shù)即為最終結(jié)果。圖2為SPA模型中均方根誤差的趨勢變化及光譜變量個數(shù)的選擇。由圖2可知,當選擇變量小于10個波長時,模型的RMSE值隨著變量的增大而減少;當選擇變量大于10個波長時,模型的均方根誤差隨著變量的增大呈不規(guī)則波動。由于波長過多容易增加模型的運算量和復雜度,因此選擇10個波長的變量進行建模,此時RMSE為1.032,篩選的10個特征波長分別為536.41,563.05,592.76,610.17,631.15,646.50,667.96,771.37,798.75,817.48 nm。
圖2 SPA模型中變量數(shù)量的選擇Figure 2 Selection of variables in SPA models
CARS算法的主成分個數(shù)A和算法進化次數(shù)N分別設定為5個和40次。CARS算法是對試驗中790個變量進行逐一篩選淘汰的過程,利用指數(shù)衰減函數(shù)(EDP)和交叉驗證確定試驗最佳的變量個數(shù)。隨著采樣次數(shù)的增加,試驗選擇采樣變量個數(shù)、RMSECV、各光譜變量回歸系數(shù)的變化趨勢以及最小RMSECV所對應的采樣次數(shù)分別見圖3(a)~(c)。其中,圖3(c)中的一條曲線對應著一個光譜變量回歸系數(shù)的變化趨勢,“×”表示的是每一個光譜變量逐一經(jīng)過運算得到的最小RMSECV所對應的采樣次數(shù)。由圖3(b)、(c)可知,當采樣次數(shù)為19次時,得到最佳波長變量子集,最終篩選出特征波長變量21個,分別為500.53,501.56,511.81,528.21,530.77,541.53,565.91,567.15,571.76,593.28,608.12,614.27,648.54,706.75,744.44,748.51,758.67,761.72,823.55,860.87,865.91 nm。
圖3 CARS算法運行結(jié)果Figure 3 Results of CARS calculation
2.4.1 基于SPA的特征篩選和模型建立 基于SPA提取特征波長后,共篩選出10個特征波段,利用優(yōu)選波段分別建立PLS-DA和LS-SVM判別模型,其模型結(jié)果分別見表2、3。由表2、3可以看出,2種建模方式的訓練集和驗證集結(jié)果均在90%以上。PLS-DA訓練集平均判別正確率為90.4%,驗證集的平均判別正確率為92.5%。LS-SVM訓練集和驗證集的平均判別正確率分別達到了94.6%和96.7%。本試驗基于SPA算法提取的特征波長所建立的判別模型LS-SVM算法優(yōu)于PLS-DA算法。
2.4.2 基于CARS的特征篩選和模型建立 表4為使用CARS提取特征波長的PLS-DA判別分析結(jié)果,其訓練集判別正確率為95.4%,驗證集的判別正確率為97.5%。表5為基于CARS提取特征波長的LS-SVM判別分析結(jié)果,其訓練集和驗證集的判別正確率均達到了100%。本試驗基于CARS算法提取的特征波長所建立的檢測模型LS-SVM算法優(yōu)于PLS-DA算法。
表2 基于SPA提取特征波長的PLS-DA判別分析結(jié)果Table 2 Discriminant results of PLS-DA models based on the characteristic wavelengths of SPA extraction
表3 基于SPA提取特征波長的LS-SVM判別分析結(jié)果Table 3 Discriminant results of LS-SVM models based on the characteristic wavelengths of SPA extraction
表4 基于CARS特征波長的PLS-DA判別分析結(jié)果Table 4 Discriminant results of PLS-DA models based on the characteristic wavelengths of CARS extraction
表5 基于CARS特征波長的LS-SVM判別分析結(jié)果Table 5 Discriminant results of LS-SVM models based on the characteristic wavelengths of CARS extraction
由表2~5可以看出,試驗運用SPA和CARS 2種算法分別建立的PLS-DA和LS-SVM檢測模型中,對照組和輕度霉變金銀花可以與中度霉變、重度霉變金銀花完全區(qū)分開來,其中前2組金銀花之間相互有樣本的錯分,后2組樣本間同樣發(fā)現(xiàn)有相互錯分的現(xiàn)象。這可能是金銀花在貯藏初期,樣本逐漸吸收外部環(huán)境中的水分子進入樣本內(nèi)部,導致其內(nèi)部對水分敏感物質(zhì)如多酚氧化酶、過氧化物酶與霉菌等的活躍[31],致使褐變和霉變現(xiàn)象在很短的時間內(nèi)發(fā)生,又因為時間較短,霉菌的生長需要一個適應階段,樣本內(nèi)部成分并沒有很大變化,因此試驗中對照組與輕度霉變組較易產(chǎn)生錯分樣本;而隨著貯藏時間的延長,霉菌可能處于對數(shù)期和穩(wěn)定期,樣本逐漸被霉菌覆蓋,內(nèi)部組分被大量分解,其內(nèi)部組分較貯藏初期發(fā)生了很大程度的變化,因而前2組樣本與后2組樣本之間較難出現(xiàn)錯分現(xiàn)象。
根據(jù)表2~5可知,經(jīng)過2種算法提取的特征波長,所建立的PLS-DA和LS-SVM檢測模型的訓練集判別正確率均達到90.4%以上,驗證集的判別正確率亦在92.5%以上,說明試驗所建立的檢測模型均能很好地鑒別金銀花霉變程度。建模效果由次到優(yōu)依次為:SPA-PLS-DA、CARS-PLS-DA、SPA-LS-SVM、CARS-LS-SVM。由建模結(jié)果可知,LS-SVM判別識別率要優(yōu)于PLS-DA的,說明LS-SVM算法的執(zhí)行效率更好;經(jīng)SPA所建立的模型,其結(jié)果要低于經(jīng)CARS所建立的,說明CARS所選擇特征波長更能體現(xiàn)不同霉變程度金銀花樣本之間的差異,進而提高模型的鑒別效果。光譜經(jīng)SG-MSC聯(lián)合預處理后得到的光譜數(shù)據(jù),使用CARS提取特征波長并建立LS-SVM判別分析模型為不同霉變程度金銀花最優(yōu)判別模型,該模型能夠較好地實現(xiàn)分類。
本試驗以不同霉變程度金銀花為研究對象,采用高光譜成像技術獲取樣本的光譜信息,使用SG、MSC和SG-MSC 3種預處理方法,利用全波段光譜信息建立PLS判別模型,得到SG-MSC預處理的效果最佳。將經(jīng)SG-MSC預處理后得到的光譜使用SPA和CARS 2種算法進行降維處理,并分別選取了10個和29個波段作為特征波段。分別建立了PLS-DA和LS-SVM判別分析模型,其判別模型結(jié)果均在90.4%以上。綜合分析判別分析模型結(jié)果,得到CARS優(yōu)于SPA,LS-SVM優(yōu)于PLS-DA。因此,光譜經(jīng)SG-MSC預處理后,使用SPA提取特征波長并建立LS-SVM判別分析模型為不同霉變程度金銀花最優(yōu)判別模型,其訓練集與驗證集的判別正確率均達到100.0%。
上述研究證明高光譜成像技術能夠?qū)崿F(xiàn)不同霉變程度金銀花的快速、無損、有效識別,但本研究僅使用光譜信息對不同霉變程度的金銀花進行辨別,未涉及其圖像信息。因此,在后續(xù)研究中可通過圖像光譜信息融合來進行金銀花霉變檢測模型構建及分析。