高 峰,邢雅閣,羅華平,張遠華,郭 玲*
1. 塔里木大學機械電氣化工程學院,新疆 阿拉爾 843300 2. 自治區(qū)教育廳普通高等學?,F(xiàn)代農(nóng)業(yè)工程重點實驗室,新疆 阿拉爾 843300 3. 塔里木大學園藝與林學學院,新疆 阿拉爾 843300 4. 新疆生產(chǎn)建設(shè)兵團塔里木盆地生物資源保護利用重點實驗室,新疆 阿拉爾 843300
新疆南疆地區(qū)得益于其獨特的自然地理環(huán)境,孕育了極其豐富而又復雜的杏種質(zhì)資源。 根據(jù)2021年FAO數(shù)據(jù)記載,我國杏樹種植面積為2.46萬ha,年產(chǎn)量為6.90萬t,產(chǎn)量為2.8 t·ha-1,而南疆是我國杏種植面積最大的地區(qū),鮮果遠銷到全國各地。 杏果肉富含多糖、 多酚、 類胡蘿卜素、 類黃酮和有機酸等多種活性物質(zhì)[1-3],具有很高的營養(yǎng)價值。 不同品種的杏在品質(zhì)和價格方面差異很大,僅僅通過外觀難以區(qū)分和鑒定,化學分析法可以實現(xiàn)杏的品種鑒別[4],但檢測時間長、 成本高,不利于推廣使用。 隨著杏鮮果產(chǎn)業(yè)的興起,實現(xiàn)杏果實的在線分揀鑒定顯得尤其重要。
光譜分析技術(shù)通過利用化學計量學方法在樣品光譜數(shù)據(jù)和待測屬性之間建立聯(lián)系,實現(xiàn)定性和定量分析,具有分析速度快、 成本低、 無破壞性等特點,經(jīng)過近半個世紀的發(fā)展,已經(jīng)較為成熟[5],廣泛應用于食品[6]、 醫(yī)療[7]、 環(huán)境[8]等各個方面。 在食品與農(nóng)副產(chǎn)品的摻假鑒別、 品種識別、 產(chǎn)地溯源等定性分析方面,Zhang等[9]使用近紅外光譜結(jié)合模式識別方法,實現(xiàn)摻假食用明膠的鑒定。 Li等[10]和Cortes等[11]使用近紅外光譜實現(xiàn)了蘋果品種的鑒別。 Tong等[12]使用近紅外光譜與化學計量學方法實現(xiàn)水稻的品種和來源的鑒別。 何勇等[13]使用中紅外光譜和反向傳播神經(jīng)網(wǎng)絡(BPNN)模型實現(xiàn)核桃產(chǎn)地及品種的鑒別。 Dan[14]利用近紅外光譜與機器學習方法,實現(xiàn)對橙子產(chǎn)地的鑒別。 Qian等[15]使用傅里葉近紅外光譜和偏最小二乘判別實現(xiàn)綠豆產(chǎn)地和品種的判別。 在杏品種鑒別方面,采用光譜分析技術(shù)實現(xiàn)杏品種鑒別的研究有待開展。 以新疆南疆地區(qū)的6個品種杏為研究對象,采集樣品在350~1 000和1 000~2 500 nm兩個范圍的光譜數(shù)據(jù),結(jié)合化學計量學算法檢測杏的品種,建立杏品種的準確鑒別模型。
在新疆生產(chǎn)建設(shè)兵團第一師阿拉爾市分別采集“黃杏”、 “橄欖杏”、 “小白杏”、 “小米杏”、 “庫買提杏”、 “小吊干杏”6個品種杏樣品,使用便攜式車載冰箱冷藏保存后帶回實驗室,待樣品恢復至室溫后采集光譜。 挑選同一品種中大小均勻一致、 表面色澤鮮亮且無損傷的樣品,最終每個品種挑選出90個作為實驗對象,共計540個樣品。
使用美國海洋光學公司的USB-650紅潮(Red Tide)光譜儀(350~1 000 nm)、 ISP-REF反射式積分球(自帶光源)、 標準白板(STAN-SSH)采集樣本可見/近紅外(visible/near infrared,VIS/NIR)范圍光譜; 使用美國賽默飛世爾的Antaris Ⅱ FT(NIR型傅里葉近紅外光譜儀(1 000~2 500 nm)采集樣本近紅外(near infrared,NIR)范圍光譜。
1.3.1 光譜采集
將樣品從車載冰箱中取出后,使用紙巾將樣品表面擦拭干凈,等待恢復至室溫后開始采集光譜。 采集樣品VIS/NIR范圍光譜時,對海洋光學USB-650光譜儀及ISP-REF反射式積分球(自帶光源)進行預熱30min,使光源趨于穩(wěn)定。 以標準漫反射白板作為參考,去除背景噪聲,將樣品放置于反射式積分球上,采集樣品赤道部位光譜,光譜儀設(shè)置為自動參比,光譜平均次數(shù)為4,光譜平滑次數(shù)為1,并按照采集順序保存光譜數(shù)據(jù)。 使用Antaris Ⅱ FT-NIR傅里葉近紅外光譜儀采集樣品NIR范圍光譜時,提前預測光譜儀自帶光源30 min,之后以儀器內(nèi)部空氣為背景進行參比,將樣品放置于光譜采集裝置上,采集樣品赤道部位光譜,確保光譜采集區(qū)域與VIS/NIR范圍光譜一致。 設(shè)置譜區(qū)采集范圍: 1 000~2 500 nm,光譜分辨率: 4 cm-1,掃描次數(shù): 32次,增益: 4倍,之后保存光譜數(shù)據(jù)。
1.3.2 數(shù)據(jù)處理
光譜采集時受儀器噪聲及環(huán)境光影響會產(chǎn)生一定噪聲,對光譜數(shù)據(jù)進行Savitzky-Golay(SG)卷積平滑處理(設(shè)置窗口數(shù)為5,擬合3次多項式),以降低光譜信號中背景噪聲與基線漂移。 不同品種杏的表皮光滑程度不同,因此對光譜進行多元散射校正(multiple scatter correction,MSC)處理,以消除杏表皮差異帶來的散射影響。
全波段光譜數(shù)據(jù)中可能含有對品種分類沒有幫助的冗余信息,且全光譜數(shù)據(jù)建立的模型復雜程度較高、 工作效率低,不利于實際應用; 利用化學計量學方法對光譜數(shù)據(jù)降維,從而簡化模型,提高工作效率[16-17]。 使用主成分分析(principal component analysis,PCA)、 競爭性自適應加權(quán)算法(competitive adaptive re-weighted sampling,CARS)、 隨機蛙跳算法(random frog,RF)、 連續(xù)投影算法(successive projection algorithm,SPA)4種方法對光譜數(shù)據(jù)進行降維,降低光譜數(shù)據(jù)共線性。
為獲取可靠分類結(jié)果,選用線性判別法(linear discriminant analysis,LDA)、 樸素貝葉斯(Naive Bayesian,NB)、 k近鄰法(K-nearest neighbor,KNN)、 支持向量機(support vector machine,SVM)4種方法建立分類模型并進行對比。 KNN模型設(shè)置最近鄰數(shù)量為5,SVM模型使用線性內(nèi)核。 使用混淆矩陣計算分類精度,準確率(accuracy)為分類模型的評價指標。 準確率越接近1,說明模型預測效果越好。
(1)
式(1)中:TP實際為正,預測為正的數(shù)量;TN實際為負,預測為負的數(shù)量;FP實際為負,預測為正的數(shù)量;FN實際為正,預測為負的數(shù)量。
由于350~400 nm范圍光譜包含大量噪聲,選擇400~1 000和1 000~2 500 nm范圍內(nèi)光譜進行后續(xù)分析。 圖1(a)和(b)為6個品種的杏經(jīng)過預處理后的平均光譜。 由圖1可以看出,各類光譜有著相同的變化趨勢,光譜圖中波峰、 波谷位置基本一致,說明杏果實所含的水分、 糖分、 有機酸等成分有相同之處,光譜吸收峰強度差異可能與品種間各組分含量有關(guān)。 圖1(a)中,400~500 nm可見光譜反射值較低,對應為類胡蘿卜素光譜吸收范圍,680 nm處出現(xiàn)明顯吸收峰對應C—H振動,540~680和720~920 nm兩處出現(xiàn)較寬的反射峰對應果肉中多種有機物的含氫基團。 圖1(b)可見光譜中,1 200 nm附近吸收峰對應C—H的第三泛頻帶,1 450 nm附近吸收峰與O—H鍵的一級倍頻伸縮振動有關(guān),1 950 nm附近吸收峰對應C—H和C—O的組合帶,與杏果肉中的果膠、 類胡蘿卜素、 有機酸等物質(zhì)在近紅外光譜的吸收有關(guān)。
圖1 杏可見光光譜(a)與近紅外光譜(b)Fig.1 Visible spectrum (a) and Near infrared spectrum (b) of Apricot
將樣本按照3∶1的比例劃分為訓練集和預測集,基于全波段光譜數(shù)據(jù)建立LDA、 NB、 KNN和SVM分類模型,預測集預測結(jié)果如表1所示。 在VIS/NIR范圍內(nèi),4種模型的總分類正確率均大于80%,其中SVM模型的總分類正確率高達95.7%。 同時,“庫買提杏”和“小吊干杏”在4種模型中分類正確率均較高,可能與其光譜在540~680 nm范圍與其他品種杏有較大差異有關(guān)。 NIR范圍內(nèi),NB與KNN模型的分類效果較差,正確率僅為64.5%、 65.2%,而LDA與SVM模型的分類效果較好,正確率分別為97.8%、 90.6%。 在4種模型中,不同品種杏的分類正確率無較大差異,原因可能是NIR范圍內(nèi)不同品種杏的光譜無明顯差異。 由以上結(jié)果可知,基于全光譜數(shù)據(jù)結(jié)合合適的建模方法可以較好地實現(xiàn)對不同品種杏的鑒別分析,且VIS/NIR范圍內(nèi)模型的平均分類正確率更高,更適用于杏品種的區(qū)分; 4種分類模型中,NB與KNN模型在NIR范圍的分類正確率較低,說明NB和 KNN可能不適用于NIR范圍內(nèi)杏品種的判別分析。 由于全光譜模型運算效率低,不利于實際應用,部分模型預測效果較差可能與全光譜數(shù)據(jù)中存在的與分類無關(guān)的冗余信息有關(guān),因此有必要對光譜數(shù)據(jù)降維。
表1 基于全波段光譜的分類模型對比Table 1 Comparison of classification models based on full-band spectrum
PCA基于數(shù)學變換原理,降維后的數(shù)據(jù)能保留原始變量的信息,且變量彼此間互不相關(guān)。 前20個主成分的累積貢獻率如圖2(a,b)所示。 在兩個光譜范圍內(nèi),取前3個主成分時,累積貢獻率都在95%以上,說明前3個主成分已經(jīng)能很好地表達原始光譜數(shù)據(jù)中的信息。 前3個主成分的空間分布圖如圖3(a,b)所示。 在VIS/NIR范圍內(nèi),6類杏樣本的空間分布有一定差異,但無法實現(xiàn)準確區(qū)分,在NIR范圍內(nèi),6類杏樣本的空間分布有很大程度重疊交織,無法實現(xiàn)品種區(qū)分。 取前三個主成分時,能很好表達原始光譜信息,但無法實現(xiàn)很好的分類效果,使用PCA降維后的數(shù)據(jù)進行杏品種分類識別時,應當對比分析選擇不同主成分數(shù)目時的建模結(jié)果。
圖2 杏光譜主成分分析的累積貢獻率(a): 可見光譜; (b): 近紅外光譜Fig.2 Cumulative contribution rate of PCA for apricot spectra(a): Visible spectrum; (b): Near-infrared spectrum
圖3 杏光譜主成分分析的前三個主成分分布圖(a): VIS; (b): NIRFig.3 Principal components analysis score plot of apricots(a): VIS; (b): NIR
為了探究PCA降維對各模型分類結(jié)果的影響,基于PCA選取不同主成分數(shù)目對原始光譜數(shù)據(jù)進行降維,結(jié)合4種建模方法建立不同分類模型,結(jié)果如圖4(a,b)所示。 由圖4(a,b)可知,主成分數(shù)目對各模型分類結(jié)果有較大影響,且各模型的分類正確率變化趨勢一致; 4種分類模型中,LDA、 NB、 SVM三種模型的分類效果優(yōu)于KNN模型; 兩個范圍光譜的模型中,VIS/NIR范圍內(nèi)的模型分類效果優(yōu)于NIR范圍內(nèi)的模型。 對比PCA降維模型與全光譜模型的預測結(jié)果可知,在VIS/NIR范圍內(nèi),LDA與NB模型的總分類正確率得到顯著提升,分別由80.4%、 81.2%提升至最高97.8%、 94.2%; 在NIR范圍內(nèi),NB模型的總分類正確率相比于全光譜模型得到顯著提升,由64.5%提升至89.1%; 兩個范圍光譜中,KNN和SVM模型對全光譜與PCA降維數(shù)據(jù)的判別結(jié)果無明顯差異; NIR范圍內(nèi),LDA模型的分類正確率低于全光譜模型,但由圖4趨勢可知,當主成分數(shù)目繼續(xù)增加時,其分類正確率會與全光譜模型結(jié)果一致。 以上結(jié)果表明,PCA降維能夠簡化模型,提高部分模型的預測效果。
圖4 主成分數(shù)目對模型分類結(jié)果的影響(a): VIS; (b): NIRFig.4 The effect of PCs on the classification results(a): VIS; (b): NIR
2.5.1 基于CARS的特征波長提取
CARS采用隨機取樣方法,選擇一部分樣本建立偏最小二乘模型,重復迭代N次,最終選擇交互驗證均方根誤差(RMSECV)最小的一組變量。 CARS選擇特征波長的過程如圖5(a,b)所示,設(shè)置迭代次數(shù)50次,最大主成分數(shù)為20,交互驗證次數(shù)為10次,隨著迭代次數(shù)增加,RMSECV呈現(xiàn)先降后升的趨勢。 在VIS/NIR范圍內(nèi),第14次采樣時RMSECV最小,選擇了132個特征波長,占全波段的21.96%; NIR范圍內(nèi),第17次采樣時RMSECV最小,選擇了177個特征波長,占全波段的11.36%。 由于使用CARS方法選擇的特征波長數(shù)量較多,可能仍包含與分類無關(guān)的信息,因此使用SPA方法進一步篩選特征波長。 經(jīng)SPA進一步篩選后,在VIS/NIR范圍內(nèi),選擇的特征波長數(shù)量由132降為25,在NIR范圍內(nèi),特征波長數(shù)量由177降為26,分別占全波段的4.16%、 1.67%。
圖5 CARS選擇杏光譜特征波長結(jié)果(a): 可見光譜; (b): 近紅外光譜Fig.5 Result for variable selecting by CARS in the spectra of apricot(a): Visible spectrum; (b): Near-infrared spectrum
2.5.2 基于RF的特征波長提取
RF基于初始變量提取子集進行多次迭代計算,最終給出每個變量的選擇概率,選擇概率較高的變量則為特征波長。 選擇特征波長時,設(shè)置初始抽樣變量為2,模擬蛙跳次數(shù)2 000次,閾值為0.2。 對全波段光譜使用RF選擇特征波長,結(jié)果如圖6(a,b)所示。 在VIS/NIR范圍內(nèi),選取了173個特征波長,占全波段的27.79%,NIR范圍內(nèi),選擇了142個特征波長,占全波段的9.12%。 由于使用RF選擇的特征波長數(shù)量仍然較多,使用SPA方法進一步優(yōu)化篩選特征波長。 經(jīng)過SPA再次篩選后,在VIS/NIR范圍內(nèi),選擇的特征波長由173降為10,在NIR范圍內(nèi),特征波長數(shù)量由142降為25,分別占全波段數(shù)量的1.66%、 1.60%。
圖6 RF選擇杏光譜特征波長結(jié)果(a): 可見光譜; (b): 近紅外光譜Fig.6 Result for variable selecting by RF in the spectra of apricot(a): Visible spectrum; (b): Near-infrared spectrum of apricot
2.5.3 基于SPA的特征波長提取
SPA基于向量的投影分析,將波長投影到其他波長上,選擇不同波長向量投影中最大的波長為特征波長,將這些特征波長點組成波長子集,最終選擇的波長組合即為特征波長組合,能夠有效降低數(shù)據(jù)共線性。 選擇特征波長時,設(shè)置特征波長上限為50。 對全波段光譜使用SPA篩選特征波長,結(jié)果如圖7(a,b)所示。 在VIS/NIR范圍內(nèi),選取了10個特征波長,占全波段的1.66%; NIR范圍內(nèi)選擇了27個特征波長,占全波段的1.73%。
為了驗證CARS、 RF與SPA選擇的特征波長對各模型分類結(jié)果的影響,基于特征波長建立不同分類模型,結(jié)果如表2、 表3所示。 由表2可知,在VIS/NIR波段,CARS-SPA-LDA與SPA-SVM模型的分類正確率最高,均為95.7%,但SPA-SVM僅使用了10個特征波長,因此模型更為簡潔。 由表3可知,在NIR波段,RF-SPA-LDA分類正確率最高,達到95.7%,對應的特征波長數(shù)量為25。 對比表2與表3,VIS/NIR范圍光譜建立的模型分類效果更優(yōu); 4種分類模型中,LDA與SVM模型的分類效果優(yōu)于NB與KNN模型; VIS/NIR范圍內(nèi),SPA方法選擇的特征波長建模效果最優(yōu),NIR范圍內(nèi),RF-SPA方法選擇的特征波長建模效果最優(yōu)。 通過比較表1與表2、 表3可知,經(jīng)過三種方法選擇特征波長后,僅有VIS/NIR范圍內(nèi)的LDA模型的分類精度得到明顯提升,由80.4%提升至最高95.7%。 整體上VIS/NIR范圍內(nèi)其他三種模型與NIR范圍內(nèi)4種模型的分類效果均略低于全光譜模型,原因可能是選擇特征波長時,部分對分類有用的信息被剔除,影響了分類結(jié)果。
表2 基于VIS/NIR降維數(shù)據(jù)的模型分類結(jié)果Table 2 Classification model results based on VIS/NIR dimensionality reduction data
表3 基于NIR降維數(shù)據(jù)的模型分類結(jié)果Table 3 Classification model results based on NIR dimensionality reduction data
通過比較表1、 圖4、 表2、 表3結(jié)果可知,整體上VIS/NIR范圍內(nèi)模型的分類效果優(yōu)于NIR范圍內(nèi)模型。 最優(yōu)預測模型為VIS/NIR范圍內(nèi)的PCA-LDA模型,分類正確率高達97.8%,且僅使用了前14個主成分; 經(jīng)過降維后LDA模型分類正確率得到有效提升; NB與KNN模型在降維前后分類精度變化不大,模型較為穩(wěn)定,但總體分類效果較差; SVM模型在降維前后分類效果變化幅度較小,且能保持較高分類正確率。 LDA與SVM模型更適用于杏品種的鑒別。
基于“黃杏”、 “橄欖杏”、 “小白杏”、 “小米杏”、 “庫買提杏”、 “小吊干杏”在VIS/NIR與NIR兩個范圍的光譜結(jié)合化學計量學方法建立了一種杏品種快速無損鑒別的方法。 結(jié)果表明: 全光譜數(shù)據(jù)建立的模型可以實現(xiàn)不同品種杏的鑒別,最高鑒別正確率達到97.8%; 經(jīng)過降維后,模型依然能保持較高的正確率,VIS/NIR范圍內(nèi),部分模型的鑒別正確率提高,NIR范圍內(nèi),模型鑒別正確率無明顯提升,表明選擇合適的降維及建模方法能夠簡化模型、 提高模型預測能力。 對比不同模型結(jié)果可知,基于VIS/NIR范圍光譜建立的模型鑒別能力較好; 幾種降維方法中PCA降維效果最優(yōu),不僅能簡化模型還提升了部分模型的鑒別正確率; 4種分類器中,LDA與SVM更適用于杏品種的鑒別,降維后仍能保持較高正確率。 研究結(jié)果表明,基于VIS/NIR范圍光譜結(jié)合PCA與LDA可以實現(xiàn)不同品種杏的鑒別分析,對杏果實的在線分揀鑒定有一定的指導意義。 在今后的研究中,將對其他品種杏進行分析,建立更為完善的杏品種鑒別模型。 同時,考慮經(jīng)濟效益,應當將杏的品質(zhì)指標與光譜建立聯(lián)系,探究一種能同時實現(xiàn)品種定性判別與品質(zhì)定量檢測的方法。