張淑芳, 雷 蕾, 雷順新, 譚學(xué)才, 劉紹剛, 嚴(yán) 軍*
1. 廣西民族大學(xué)化學(xué)化工學(xué)院, 林產(chǎn)化學(xué)與工程國家民委重點實驗室, 廣西林產(chǎn)化學(xué)與工程重點實驗室,廣西林產(chǎn)化學(xué)與工程協(xié)同創(chuàng)新中心, 廣西高校食品安全與藥物分析化學(xué)重點實驗室, 廣西 南寧 530006
2. 橫州市綜合檢驗檢測中心, 廣西 橫州 530300
茉莉(Jasminumsambac(L.) Ait)為常綠灌木, 屬木犀科(Oleaceae)素馨屬(Jasminum), 茉莉花廣泛應(yīng)用于茶葉、 醫(yī)藥、 精油、 園林等領(lǐng)域, 具有較高的藥用、 經(jīng)濟和美學(xué)價值[1]。 我國的茉莉花主產(chǎn)地集中在廣西、 福建、 云南、 四川等南部地區(qū), 其中廣西橫州的茉莉花種植量居全國首位, 約占全國產(chǎn)量的80%和世界產(chǎn)量的60%。 茉莉花芳香化學(xué)成分主要有: 乙酸苯甲酯、 茉莉酮、 茉莉內(nèi)脂、 苯甲酸順-3-己烯酯、 苯甲醇、 吲哚等; 風(fēng)味物質(zhì)之外, 茉莉花蕾還含有豐富的黃酮、 多糖、 萜類、 粗蛋白、 氨基酸等非揮發(fā)性成分[2]。 茉莉花產(chǎn)地的土壤環(huán)境、 氣候等自然因素對茉莉花的次生代謝過程有重要影響, 進(jìn)而影響其在營養(yǎng)、 藥用、 風(fēng)味等方面的質(zhì)量品質(zhì)。 因此, 對茉莉花進(jìn)行產(chǎn)地溯源對于保證茉莉花產(chǎn)地特征的真實性, 實現(xiàn)“從農(nóng)田到消費者”全過程追溯, 保護(hù)地理標(biāo)志產(chǎn)品的品牌價值, 保護(hù)消費者合法權(quán)益, 促進(jìn)茉莉花產(chǎn)業(yè)的健康發(fā)展具有意義。
農(nóng)產(chǎn)品溯源的常用分析技術(shù)有礦物元素指紋譜、 穩(wěn)定同位素、 DNA條形碼、 色譜指紋圖譜、 電子鼻、 分子光譜等[3-8]。 其中, 近紅外光譜技術(shù)因操作簡便、 分析速度快、 易于或無需樣品前處理、 環(huán)境友好、 能夠?qū)崿F(xiàn)原位在線檢測等優(yōu)勢而在農(nóng)產(chǎn)品溯源領(lǐng)域受到了越來越多的關(guān)注[9]。 例如, 夏珍珍等利用近紅外漫反射光譜結(jié)合偏最小二乘判別分析對吉林、 湖北、 福建3個省份的栽培香菇進(jìn)行產(chǎn)地識別, 經(jīng)波長選擇后得到的判別模型預(yù)測準(zhǔn)確率達(dá)到了93.94%[10]; 吳習(xí)宇等利用近紅外光譜結(jié)合不同的光譜預(yù)處理技術(shù)建立了四川、 重慶、 云南、 貴州、 陜西五個省市8個產(chǎn)地的花椒樣品近紅外判別模型, 總體分類準(zhǔn)確率在85.37%~97.56%之間[11]。 張勇等綜述了近紅外光譜技術(shù)在農(nóng)產(chǎn)品、 藥材等樣本的產(chǎn)地溯源領(lǐng)域中的研究與應(yīng)用[12-14]。
目前, 對于茉莉花產(chǎn)地識別的報道較少, 王吉平等研究了廣西橫州不同地域的茉莉花香氣特征, 發(fā)現(xiàn)香氣成分及含量均存在較大差異[15]; 王淑燕等利用電子鼻和氣相色譜質(zhì)譜聯(lián)用技術(shù)分析茉莉花茶香氣成分, 結(jié)合多元統(tǒng)計分析技術(shù)實現(xiàn)了對廣西橫州和福建福州茉莉花茶的產(chǎn)地區(qū)分[16]。 本研究通過積分球和光纖探頭兩種方式采集了廣西、 福建、 四川、 云南四個省份茉莉花樣品的近紅外漫反射光譜, 然后利用化學(xué)計量學(xué)方法建立了不同產(chǎn)地的茉莉花識別模型, 為茉莉花產(chǎn)地溯源提供了一種快速、 準(zhǔn)確、 綠色的新方法。
茉莉花樣品分別采自廣西橫州、 四川犍為、 福建福州、 云南元江四個產(chǎn)地(產(chǎn)地分布圖見圖1), 均在當(dāng)?shù)胤N植基地現(xiàn)場采購, 每個產(chǎn)地收集樣品25批次, 共有茉莉花樣品100批次, 采摘時間為2021年盛花期。 茉莉花鮮花自然風(fēng)干后粉碎過60目篩, 得到淺黃色干燥粉末, 裝透明塑料密封袋置于干燥器中待用。
圖1 茉莉花樣本產(chǎn)地地理分布圖
i-Spec型便攜式近紅外光譜儀(美國必達(dá)泰克公司), 光譜采集附件: 積分球采集模塊、 光纖探頭采集模塊, 配置InGaAs檢測器; 中藥粉碎機(寶利, 中國江陰); Agilent 1260高效液相色譜儀(美國安捷倫公司), 色譜柱: Gemini-NX C18(4.6×250 mm, 5 μm); 所用化學(xué)計量學(xué)算法均通過Matlab R2020a(Mathworks Inc., 美國)編程實現(xiàn), 在64位Windows 7.0系統(tǒng)下運行。
近紅外光譜分析: 移取適量干燥的茉莉花花蕾粉末樣品裝入透明密封袋(3 cm×4 cm), 壓平樣品, 厚度約5 mm, 提前將樣品放置于實驗室1~2 h。 實驗前檢查近紅外分析儀器與電腦連接良好并打開光源預(yù)熱30 min。 測樣時先關(guān)閉光源測得暗電流作為背景信號, 再以聚四氟乙烯材質(zhì)的白色底板測得參比光譜, 通過積分球(光源直徑2 cm)和光纖探頭測得茉莉花粉末樣品的近紅外漫反射光譜。 實驗參數(shù): 掃描波段900~1 700 nm, 分辨率1.5 nm, 單個樣本光譜采集數(shù)據(jù)點511個, 積分球采樣積分時間25 ms, 光纖探頭采樣積分時間2 000 ms, 掃描次數(shù)20次, 每個樣本采集3次光譜, 取3次光譜信息的平均值用于數(shù)據(jù)分析。
色譜分析條件: 柱溫35 ℃; 檢測波長255 nm; 流動相: 0.1%甲酸水溶液和乙腈; 梯度洗脫程序: 0~3 min(5%乙腈), 3~48 min(5%~30%乙腈), 48~50 min, (30%~95%乙腈); 50~55 min(95%乙腈), 55~60 min(95%~5%乙腈); 流速1.0 mL·min-1; 進(jìn)樣量10 μL, 每個樣本平行測定三次, 取3次結(jié)果的平均值用于數(shù)據(jù)分析。
近紅外漫反射光譜信號容易受到背景雜散光、 樣本顆粒不均勻、 儀器噪聲、 基線漂移等因素的影響, 從而在光譜信息中產(chǎn)生部分冗余信息和干擾信息, 影響建模效果。 因此, 在建模過程中通常需要對漫反射光譜信息進(jìn)行光譜預(yù)處理和波長選擇, 以獲取有效的光譜信息, 提高模型性能。 在本工作中, 采用Savitzky-Golay (SG)光譜平滑[17]和多元散射校正(multivariate scatter correction, MSC)[18]相結(jié)合進(jìn)行光譜預(yù)處理。 SG平滑能有效降低噪聲對光譜信號的影響, 提高信噪比, MSC能夠修正漫反射光譜因粉末樣品不均勻所導(dǎo)致的光譜信息線性變化。
主成分分析(principal component analysis, PCA)[19]是一種常用的無監(jiān)督分析技術(shù), 通過對高維數(shù)據(jù)降維來實現(xiàn)數(shù)據(jù)結(jié)構(gòu)可視化、 去噪等功能, 能夠直觀地反映出不同類別的樣本之間的關(guān)系。 通過對100個茉莉花樣本的近紅外光譜數(shù)據(jù)(X100×511)進(jìn)行奇異值分解, 并對第一主成分(PC1)和第二主成分(PC2)進(jìn)行投影分析。
線性判別分析(linear discriminant analysis, LDA)[20]又稱為fisher判別分析, 該方法借助于方差分析的思想將高維空間的樣本投影到低維空間上, 從而使得投影后的樣本數(shù)據(jù)在新的子空間上有最小的類內(nèi)距離以及最大的類間距離, 通過線性判別函數(shù)和分類原則可以對新樣本的類別歸屬進(jìn)行預(yù)測。 K近鄰法(k-nearest neighbor, KNN)[21]是一種常用的機器學(xué)習(xí)算法, 屬于有監(jiān)督模式識別分析。 KNN的核心思想是對于一個給定的訓(xùn)練集, 當(dāng)需要對新樣本進(jìn)行預(yù)測時, 在訓(xùn)練集中找到與待預(yù)測樣本最鄰近的k個樣本, 并根據(jù)這k個樣本的多數(shù)類別標(biāo)簽對帶預(yù)測樣本進(jìn)行分類。 本工作中, 首先利用PCA對近紅外光譜數(shù)據(jù)矩陣進(jìn)行主成分分解, 再取若干主成分作為LDA和KNN的輸入變量。
不同產(chǎn)地茉莉花樣品的近紅外漫反射原始光譜如圖2(a)和(b)所示, 光譜輪廓呈現(xiàn)一致性, 均在1 050、 1 200、 1 450和1 550 nm附近有明顯的吸收峰, 主要為茉莉花蕾中有機物的C—H, N—H, O—H等含氫基團(tuán)的倍頻峰, 包括O—H二級倍頻(950 nm)、 C—H二級倍頻(1 200 nm)、 O—H一級倍頻(1 450 nm)、 —CH3與—CH2合頻(1 360~1 390 nm)等。 比較發(fā)現(xiàn), 積分球和光纖探頭所采集的光譜在整體上呈現(xiàn)相似的光譜特征, 但積分球采集信號的信噪比較高, 光譜更加平滑, 光纖探頭采集信號的信噪比較低, 光譜呈現(xiàn)明顯的噪音信號干擾, 在光譜兩端尤為嚴(yán)重。 結(jié)合SG和MSC兩種光譜預(yù)處理方法對近紅外光譜進(jìn)行處理可以有效地降低噪音及顆粒散射引起的背景干擾, 預(yù)處理后的光譜圖如圖2(c)和(d)所示。 由于近紅外光譜是弱信號, 同時峰寬較大, 譜峰重疊嚴(yán)重, 因此不同產(chǎn)地茉莉花的光譜信息差異較小, 無法直接從漫反射光譜圖中找出特異性信息來實現(xiàn)產(chǎn)地識別, 必須借助化學(xué)計量學(xué)技術(shù)來解析不同產(chǎn)地茉莉花的近紅外光譜信息間的區(qū)別。
圖2 茉莉花粉末樣品的近紅外光譜圖
為揭示不同產(chǎn)地茉莉花在近紅外漫反射光譜信息上的潛在差異, 首先對茉莉花樣本的近紅外漫反射光譜數(shù)據(jù)進(jìn)行主成分分析, 并在PC1和PC2上進(jìn)行投影分析, 結(jié)果如圖3所示。 由圖3(a)可見, 通過積分球采樣得到的近紅外光譜數(shù)據(jù)能夠?qū)λ膫€不同產(chǎn)地的茉莉花進(jìn)行較好的組內(nèi)聚集和組間分散, 聚類效果良好。 方差分析結(jié)果表明, PC1能解釋63.50%的信息量, PC2能解釋33.48%的信息量。 但是, 當(dāng)采用光纖探頭進(jìn)行信號采集時, 所得光譜數(shù)據(jù)的聚類效果顯著下降, 尤其是福建和云南兩地的茉莉花樣本存在嚴(yán)重重疊, 無法區(qū)分[圖3(b)]。 方差分析結(jié)果表明, PC1能解釋82.67%的信息量, PC2能解釋14.92%的信息量。 其原因在于光纖探頭采樣所得光譜的信噪比較低, 光譜信息量不如積分球采樣, 從而需要進(jìn)行進(jìn)一步的光譜預(yù)處理以提高信噪比。 因此, 采用了SG平滑技術(shù)結(jié)合MSC校正方法對原始光譜數(shù)據(jù)進(jìn)行預(yù)處理, 對預(yù)處理后的光譜數(shù)據(jù)進(jìn)行主成分分析的結(jié)果如圖3(c)和(d)所示。 由圖可見, 經(jīng)過預(yù)處理后, 積分球采樣數(shù)據(jù)和光纖探頭采樣數(shù)據(jù)的主成分分析聚類效果都有明顯提升, 尤其是對于光纖探頭采樣數(shù)據(jù), 福建和云南兩地的茉莉花樣本從嚴(yán)重重疊到完全區(qū)分。 結(jié)果表明, SG平滑技術(shù)結(jié)合MSC校正方法能夠有效地提高光譜信噪比, 后續(xù)建模數(shù)據(jù)均采用SG-MSC預(yù)處理后的光譜數(shù)據(jù)。
圖3 主成分分析投影圖
主成分分析是一種無監(jiān)督分析方法, 沒有利用到樣本的標(biāo)記信息。 為建立準(zhǔn)確的產(chǎn)地識別模型, 下面采取兩種有監(jiān)督分析方法: K近鄰法和偏最小二乘判別分析。 在建立模型之前, 從每個產(chǎn)地的茉莉花樣本中隨機選取17個樣本, 共得到68個樣本作為訓(xùn)練集, 剩余的32個作為測試集。 訓(xùn)練集用于建立模型, 測試集用于評估模型的預(yù)測能力。 在利用訓(xùn)練集建立模型的過程中, 通過交互檢驗進(jìn)行參數(shù)優(yōu)化以獲得最優(yōu)的模型性能。
2.3.1 線性判別分析
采用Fisher線性判別分析法對訓(xùn)練集中的68個樣本建立判別模型, 由于近紅外光譜數(shù)據(jù)存在的共線性問題會導(dǎo)致極大的計算誤差, 因此首先對近紅外光譜數(shù)據(jù)矩陣進(jìn)行主成分分解, 再取若干主成分作為線性判別分析的輸入變量。 結(jié)果表明, 對于積分球采集的近紅外數(shù)據(jù),F1和F2解釋的累積方差達(dá)到總方差的98.71%, 當(dāng)主成分?jǐn)?shù)大于3時線性判別分析即可獲得100%的分類預(yù)測準(zhǔn)確率。 如圖4(a)所示, 當(dāng)訓(xùn)練集和測試集中的樣本投影到前2個判別函數(shù)(F1和F2)構(gòu)成的二維空間時, 訓(xùn)練集中的68個樣本呈現(xiàn)明顯的分類聚集特征, 測試集中的32個樣本也均能投影在相同產(chǎn)地的訓(xùn)練樣本區(qū)域。 對于光纖探頭采集的近紅外數(shù)據(jù),F1和F2解釋的累積方差達(dá)到總方差的89.69%, PCA-LDA投影分析如圖4(b)所示。 由圖4(a)和(b)對比可見, 由于光纖探頭采集的光譜數(shù)據(jù)信噪比(S/N)比積分球低, 在相同參數(shù)下建立得到的判別模型分類效果有所降低, 樣本更加分散。 盡管如此, 基于光纖探頭數(shù)據(jù)建立的PCA-LDA模型仍然對測試集中的32個樣本有100%的預(yù)測準(zhǔn)確率。
2.3.2 K近鄰法
在K近鄰法中, 同樣以經(jīng)主成分分解后的光譜數(shù)據(jù)的若干個主成分作為輸入數(shù)據(jù)進(jìn)行建模, 以標(biāo)準(zhǔn)歐氏距離作為距離參數(shù)。 通過留一法交互檢驗對主成分?jǐn)?shù)(PCs)和近鄰數(shù)(k)進(jìn)行參數(shù)優(yōu)化, 結(jié)果如圖5所示。 結(jié)果表明, 在3~5個主成分?jǐn)?shù)以及1~9個近鄰數(shù)的模型空間中均能獲得高預(yù)測準(zhǔn)確率, 從模型簡潔性和計算效率考慮, 設(shè)定主成分個數(shù)為3, 近鄰數(shù)為1。 利用建立的KNN模型對測試集中的32個樣本進(jìn)行預(yù)測, 積分球光譜數(shù)據(jù)的預(yù)測準(zhǔn)確率為100%, 光纖探頭光譜數(shù)據(jù)的預(yù)測準(zhǔn)確率為93.75%。
圖5 留一法交互檢驗參數(shù)(PCs和k)優(yōu)化結(jié)果示意圖
近紅外光譜反映的是樣本中所有有機化合物含氫基團(tuán)的分子振動信息, 盡管通過整個光譜的差異能夠?qū)崿F(xiàn)樣本的識別, 但無法直觀反映樣本的組分差異。 為進(jìn)一步揭示不同產(chǎn)地茉莉花樣本的化學(xué)組成差異, 本研究通過測定了不同產(chǎn)地茉莉花花蕾樣本的液相色譜(圖6)。 通過總離子流圖對比分析可以看出不同產(chǎn)地的茉莉花樣本具有相同的整體相似特性, 這是由其固有的植物種屬特征決定的, 但是由于生長環(huán)境的影響, 其色譜指紋圖譜依然在含量分布及局部特征物質(zhì)方面呈現(xiàn)出差異性, 相似度評價結(jié)果表明四個產(chǎn)地的茉莉花樣本相似性在0.868 6~0.969 4之間。 這種化學(xué)組成定性定量的差異進(jìn)一步影響了樣本的近紅外光譜特征, 進(jìn)而奠定了基于近紅外光譜實現(xiàn)產(chǎn)地識別的物質(zhì)基礎(chǔ)。
圖6 不同產(chǎn)地茉莉花提取液的色譜總離子流圖
近年來, 隨著原產(chǎn)地保護(hù)理念在全球范圍的流行, 農(nóng)產(chǎn)品的產(chǎn)地溯源問題受到了生產(chǎn)企業(yè)、 學(xué)術(shù)界、 政府管理部門以及消費者等多個群體的普遍關(guān)注。 茉莉花獨特的香味特征、 有效成分等均與其產(chǎn)地有密切關(guān)系。 因此, 茉莉花產(chǎn)地溯源可以有效保護(hù)地方特色經(jīng)濟作物, 并為茉莉花下游產(chǎn)品開發(fā)提供可靠的原料質(zhì)量保證, 促進(jìn)茉莉花產(chǎn)業(yè)的良性發(fā)展。 本工作通過近紅外漫反射光譜結(jié)合化學(xué)模式識別方法建立了廣西橫州、 四川犍為、 福建福州、 云南元江四個省份的茉莉花產(chǎn)地識別模型, 總體識別準(zhǔn)確率達(dá)到了93.75%~100%。 近紅外光譜是一種綠色、 快速、 準(zhǔn)確的光譜分析技術(shù), 特別是利用光纖探頭可以實現(xiàn)方便快捷的數(shù)據(jù)采集, 對于開發(fā)在線的茉莉花產(chǎn)地識別技術(shù)有重要意義, 同時該技術(shù)也可以拓展到其他農(nóng)作物的溯源研究領(lǐng)域。