廖金燕 洪雪珍 付賢樹
摘要 [目的]研究安吉白茶源產(chǎn)地追溯方法,建立高識別率追溯方法。[方法]對266個來自7大源產(chǎn)地產(chǎn)區(qū)安吉白茶和118個來自六大茶葉主產(chǎn)區(qū)的非安吉白茶進行近紅外光譜檢測,預處理方法分別采用SNV和MSC,通過LDA模型識別率比較二者優(yōu)劣,并通過PCA、K-means聚類和HCA聚類等方法進行模型驗證。采用SPSS分析聚類結(jié)果與樣品地理位置的關(guān)系。[結(jié)果] MSC預處理效果優(yōu)于SNV,LDA分析模型識別率可達100%。模型驗證顯示,經(jīng)MSC預處理后,PCA方法可在前3個PC下清晰聚類,K-means和HCA聚類方法都可將266個產(chǎn)地內(nèi)和118個產(chǎn)地外樣品成功預測出。SPSS聚類分析顯示,7個安吉白茶的聚類結(jié)果與樣品采集地的地理位置遠近存在對應關(guān)系。[結(jié)論] 安吉白茶近紅外光譜經(jīng)MSC預處理,LDA建模可作為安吉白茶源產(chǎn)地追溯方法。
關(guān)鍵詞 安吉白茶;近紅外光譜;源產(chǎn)地追溯;數(shù)據(jù)劃分;模型驗證
中圖分類號 S126文獻標識碼 A文章編號 0517-6611(2020)13-0224-05
Abstract [Objietive] To study traceability model of Anji white tea and to establish a high origin tracing method. [Methods] 266 real and representive Anji white tea from 7 tea plantations in their original producing areas, as well as 118 nonAnji white tea samples of similar appearance from 6 important tea producing areas, were collected and detected by NIR. For data pretreatment, SNV and MSC were respectively applied to improve the raw spectra. The advantage and disadvantage of the two were compared by the recognition rate of LDA model. Model validation was subsequently verified by PCA, Kmeans and HCA clustering. The SPSS clustering analysis was used to analyze the relationship between clustering results and geographical location of samples. [Results] The effect of MSC pretreatment was significantly better than that of SNV. After MSC pretreatment, the recognition rate of LDA analysis model could be up to 100%. Model verification demonstrated that PCA method with MSC spectra could clear cluster under the first three PCS. For the clustering models, Kmeans and HCA clustering methods could successfully predict 266 Anji white tea and 118 nonAnji white tea from 384 samples. According to the SPSS clustering analysis, there was positive correlation between the clustering results of Anji white teas and the geographical locations of the samples. [Conclusions] The proposed method, which combined NIR and LDA with MSC spectra, can be an feasible identificition method for Anji white tea.
Key words Anji white tea;Near infrared (NIR);Origin tracing;Data splitting;Model validation
安吉白茶產(chǎn)自浙北安吉縣[1],是典型地理標志產(chǎn)品,雖冠以“白茶”之名,但安吉白茶卻是綠茶。茶葉的品質(zhì)和特征主要受到茶葉種植地理位置的影響[2],由于經(jīng)緯度、光照、氣候、溫度、濕度等影響,不同種植地的茶葉口感、香味等有很大差異。安吉白茶由于其獨特的口感而廣受消費者的喜愛,2014年后,安吉縣將1.13萬hm2安吉白茶茶園進行分級保護[3],這對保障安吉白茶原產(chǎn)地的真實性具有重要作用,但隨著安吉白茶銷售量的劇增,摻雜、摻假及以次充好等不良現(xiàn)象屢屢出現(xiàn),使得安吉白茶的聲譽受到嚴重影響。
目前,常用的茶葉源產(chǎn)地追溯方法主要有感官評價、滋味因子分析(電子舌、電子鼻等)、氣相色譜法、毛細管電泳法等[4]。但是這些方法有操作復雜、儀器昂貴、檢測時間長、前處理麻煩、靈活度低等缺點。近紅外光譜技術(shù)是近年發(fā)展起來的一種新型特征指紋檢測技術(shù),具有快速、無損、低成本等優(yōu)點。其原理是C—H、O—H、N—H等氫原子團的振動包含了樣品分子結(jié)構(gòu)和成分信息,通過倍頻、頻合、頻差疊加等方法檢測氫原子團的振動,從而確定樣品的物理性質(zhì)和化學成分[5]。
應用化學計量學對近紅外光譜進行建模分析,已廣泛應用在產(chǎn)品化學成分含量測定[6-7]、質(zhì)量級別判定[8]、品種判定[9]及產(chǎn)地鑒別[10-20]等方面?,F(xiàn)有文獻報道顯示,近紅外光譜技術(shù)在茶葉源產(chǎn)地追溯上的研究對象主要是綠茶、黑茶和烏龍茶,2018年綠茶的全國產(chǎn)量約172萬t,占茶葉總產(chǎn)量的649%,而目前綠茶研究主要針對的是西湖龍井、碧螺春、信陽毛尖等家喻戶曉的地標產(chǎn)品,對于安吉白茶研究甚少,安吉作為習總書記“綠水青山就是金山銀山”科學論斷的發(fā)祥地,對作為排頭兵的安吉白茶進行源產(chǎn)地追溯研究尤為顯得重要。
筆者以產(chǎn)地內(nèi)、外安吉白茶為研究對象,基于不同預處理方法和模式識別算法對安吉白茶進行源產(chǎn)地追溯分析,茶樣近紅外光譜采用標準正態(tài)變換(Standard Normal Variation,SNV)和多元散射校正(Multiplicative Scatter Correction,MSC)進行預處理,并采用線性判別分析(Linear Discriminant Analysis,LDA)進行建模分析判斷SNV和MSC的優(yōu)劣;然后,采用主成分分析(Principal Component Analysis,PCA)、K-means聚類分析和層次聚類(Hierarchical Cluster Analysis,HCA)分析等不同分類算法進行模型驗證;最后,采用SPSS分析聚類結(jié)果與樣品地理位置的關(guān)系。
1 材料與方法
1.1 材料與試劑
以安吉白茶為對象,共采摘384個安吉白茶樣品,其中正宗安吉白茶樣品266個,采集于安吉縣7個地區(qū),分別為高禹鎮(zhèn)、遞鋪鎮(zhèn)、上墅鄉(xiāng)、昆銅鄉(xiāng)、良朋鎮(zhèn)、溪龍鄉(xiāng)、梅溪鎮(zhèn);安吉縣外非安吉白茶樣品118個,采集于6個地區(qū),分別為安徽廣德、浙江長興、湖南永州、浙江湖州、江西瑞金、浙江文成。樣品具體情況如表1所示。
1.2 儀器與設(shè)備
Tensor37 FT-NIR光譜儀(配備InGaAs檢測器)購自德國Bruker公司。
1.3 方法
1.3.1 樣品原始光譜采集方法。
白茶樣品無需處理,直接裝于石英管中進行檢測。光譜波數(shù)為12 000~4 000 cm-1,分辨率為8 cm-1,掃描間隔設(shè)置為1.928 cm-1,掃描64次,每條白茶樣品原始光譜中共有4 148個數(shù)據(jù)點,因此原始數(shù)據(jù)集的大小為384個樣品×4 148個變量。所有測量均在(25±1) ℃室溫下進行。
1.3.2 train-test-split數(shù)據(jù)劃分方式。
采用隨機劃分方式為train-test-split數(shù)據(jù)劃分方式,隨機劃分方式即隨機選取產(chǎn)地內(nèi)和產(chǎn)地外樣品的70%為訓練集,剩余30%為預測集,用于驗證模型的準確性(表2)。
1.4 原始光譜數(shù)據(jù)預處理方法
近紅外光譜儀掃描得到的光譜數(shù)據(jù)往往含有噪音,這主要由2個原因造成:一方面受到儀器自身和測量環(huán)境的影響;另一方面可能來自于光源自身和樣品基質(zhì)的差異[21]。為了降低上述2種因素對分析模型的影響、提高分析模型的準確性和穩(wěn)定性,必須對近紅外光譜數(shù)據(jù)進行預處理。
1.4.1 SNV標準正態(tài)變換。
SNV是一種轉(zhuǎn)換光譜的預處理方法,通常用于消除散射、噪聲、粒徑和光程變化的多元綜合干擾[22]。在SNV中,每個頻譜都被標準化為零均值和單位方差。
1.4.2 MSC多元散射校正。
MSC是一種常用的光譜預處理技術(shù),用于在建模前去除光譜數(shù)據(jù)矩陣中不希望出現(xiàn)的散射效應[23],還用于補償光譜數(shù)據(jù)中由于不同粒徑的不均勻分布所引起的不均勻散射的影響。其工作原理是將每個光譜線性化為與校準裝置的平均光譜相對應的“理想”光譜,而平均光譜主要通過最小二乘法確定[24]。
1.5 數(shù)據(jù)分析方法
1.5.1 LDA線性判別分析。
LDA通過標記數(shù)據(jù)的線性組合構(gòu)造判別函數(shù),是一種監(jiān)督方法,主要包括2個階段:分離和分配。前一階段是尋找能夠很好地將群體分離的判別函數(shù),后一階段是利用判別函數(shù)將未知對象賦給其中一個群體。
1.5.2 PCA主成分分析。
PCA是對原始變量進行線性組合,并用較少的新變量盡可能多地表征原始數(shù)據(jù)的結(jié)構(gòu)特征,這幾個相互正交的新變量即為主成分[25]。PCA已用于觀察多個傳感器數(shù)據(jù)集中可能的分組。性能最好的PC通常顯示最重要的信息。因此,相似的樣品彼此之間的分組更接近,反之亦然。
1.5.3 K-means聚類分析。
K-means算法的中心思想是給定一個數(shù)據(jù)庫和聚類數(shù)K,根據(jù)樣品到聚類中心的距離將樣品劃分到離它最近的類別中,在空間聚類算法中有重要的運用。
1.5.4 HCA層次聚類分析。
HCA是聚類算法的一種,其主要原理是通過計算2類數(shù)據(jù)點間的相似性,將數(shù)據(jù)中最相似的2類點進行組合,并反復迭代,創(chuàng)建1棵有層次結(jié)構(gòu)的嵌套聚類樹。
2 結(jié)果與分析
2.1 近紅外光譜分析
圖1顯示了產(chǎn)地內(nèi)、外安吉白茶9 000~4 000 ?/cm波段的原始光譜圖(a)、平均光譜圖(b)以及在不同預處理方法下(SNV、MSC)的平均光譜圖(c和d)。在9 000~4 000 /cm波段內(nèi)有一些密集的光譜峰,這些峰主要是由C—H、N—H、O—H和C—O鍵的拉伸或變形振動產(chǎn)生的,C—H、N—H、O—H和C—O鍵是有機分子的主要結(jié)構(gòu)成分,而這些振動主要是由茶葉中的兒茶素、氨基酸、多酚、生物堿以及一些芳香化合物等成分引起的[26]。
圖1b是產(chǎn)地內(nèi)、外2個茶葉群組的原始平均光譜圖。圖中顯示,產(chǎn)地內(nèi)、外茶葉樣品的平均吸光度趨于平行,且產(chǎn)地內(nèi)的略高于產(chǎn)地外。在12 000~9 000 cm-1區(qū)域內(nèi),產(chǎn)地內(nèi)、外茶葉樣品的平均吸光度基本保持不變,產(chǎn)地內(nèi)保持在0.55左右,產(chǎn)地外保持在0.50左右,可認為在該波段不包含待測對象的有用信息,其靈敏度和信噪比較低[27],因此該試驗將9 000~12 000 /cm的波段排除在外。
由圖1a可知,原始光譜圖較雜亂,需進行預處理。比較圖1c的SNV、圖1d的MSC預處理后的平均光譜圖與原始平均光譜圖(圖1b)可知,SNV預處理后產(chǎn)地內(nèi)、外茶葉樣品的平均吸光度趨近,肉眼難以區(qū)分;而經(jīng)MSC預處理后的平均光譜圖更加接近于原始平均光譜圖,且肉眼可分。對SNV和MSC預處理后的數(shù)據(jù)分別進行LDA建模分析,進一步比較和探討不同預處理方法的效果。
2.2 LDA區(qū)分產(chǎn)地內(nèi)、外茶葉的結(jié)果
用于分類鑒定的模式識別算法有很多,該試驗采用LDA來建立分類模型,主要是因為LDA在初始樣品降維中就表現(xiàn)出較好的效果。圖2為LDA將初始樣品降至二維的結(jié)果圖。從圖2可知,產(chǎn)地內(nèi)、外的茶葉樣品數(shù)據(jù)可以清楚地區(qū)分開來,且LD1 的方差貢獻率高達100%。
采用LDA建立分類模型,隨機選取樣品的70%作為訓練集,用于模型的建立;30%作為預測集,用于模型的驗證。同時采用隨機數(shù)的方法,做50次分析,并取所得準確度的平均值作為最終的數(shù)據(jù)結(jié)果和評判標準,具體結(jié)果如下表3所示。由表3可知,SNV預處理后對分類準確率并沒有提升,即其預處理效果并不明顯,而MSC預處理后的分類準確率均達100%,說明產(chǎn)地內(nèi)、外樣品數(shù)據(jù)經(jīng)MSC預處理后可以通過LDA模型進行準確地區(qū)分。為進一步驗證MSC和SNV預處理效果優(yōu)劣差異,通過PCA、K-means聚類和HCA聚類等方法進行模型驗證。
2.3 SNV和MSC在PCA中的效果比較
圖3顯示樣品數(shù)據(jù)經(jīng)SNV和MSC預處理后在PCA降至三維中的效果圖。由圖3a可知,SNV預處理后降至三維時,PC1的方差占比達到87.88%,PC2的方差占比為8.04%,前2個主成分的方差占比和高達95.92%。由圖3b可知,MSC預處理后降至三維時,PC1的方差占比達到89.86%,PC2的方差占比為893%,前2個主成分的方差占比和高達98.79%,明顯高于SNV。
從圖3可以看出,經(jīng)過PCA降至三維可視化后,MSC的結(jié)果非常好,產(chǎn)地內(nèi)、外的樣品能清晰地區(qū)分開,而SNV的結(jié)果較模糊。這一現(xiàn)象可以解釋為MSC在該試驗中效果更好,具有較強的校正散射效應的能力。
2.4 SNV和MSC在K-means和HCA聚類分析比較
由圖4可知,SNV預處理后的聚類結(jié)果沒有MSC預處理后的結(jié)果好。在SNV預處理后的聚類結(jié)果中,K-means算法預測出155個產(chǎn)地內(nèi)樣品,229個產(chǎn)地外樣品,分數(shù)為470.14,識別率為42.2%;HCA算法預測出221個產(chǎn)地內(nèi)樣品,163個產(chǎn)地外樣品,分數(shù)為393.60,識別率為78.6%。而在MSC預處理后的聚類結(jié)果中,K-means算法和HCA算法都成功地將266個產(chǎn)地內(nèi)樣品和118個產(chǎn)地外樣品預測出來,分數(shù)均為3 492.59,識別率亦為100%,明顯高于SNV。這同樣驗證MSC預處理在該試驗中表現(xiàn)效果較優(yōu)。
2.5 產(chǎn)地內(nèi)樣品SPSS聚類結(jié)果與地理位置的關(guān)系
已知產(chǎn)地內(nèi)茶葉樣品主要采集于安吉縣內(nèi)7個不同的鎮(zhèn)(鄉(xiāng)),包括高禹鎮(zhèn)(15個樣品)、遞鋪鎮(zhèn)(74個樣品)、上墅鄉(xiāng)(15個樣品)、昆銅鄉(xiāng)(72個樣品)、良朋鎮(zhèn)(15個樣品)、溪龍鄉(xiāng)(60個樣品)、梅溪鎮(zhèn)(15個樣品)。其鎮(zhèn)(鄉(xiāng))的具體地理位置見圖5。
采用SPSS軟件對經(jīng)MSC預處理后的產(chǎn)地內(nèi)茶葉樣品數(shù)據(jù)進行聚類,聚類結(jié)果見圖6。由圖6可知,遞鋪鎮(zhèn)和昆銅鄉(xiāng)明顯聚為一類,高禹鎮(zhèn)和良朋鎮(zhèn)明顯聚為一類,梅溪鎮(zhèn)和溪龍鄉(xiāng)可大致聚為一類,上墅鄉(xiāng)單獨成一類,這與地圖上的鎮(zhèn)(鄉(xiāng))地理位置的遠近基本吻合。
根據(jù)上述樹狀圖可知,可將產(chǎn)地內(nèi)茶葉的7個采集地聚類為3類,其中遞鋪鎮(zhèn)、昆銅鄉(xiāng)、高禹鎮(zhèn)、良朋鎮(zhèn)為一類;梅溪鎮(zhèn)和溪龍鄉(xiāng)為一類;上墅鄉(xiāng)單獨為一類,具體情況見表4。
3 結(jié)論
該研究對產(chǎn)地內(nèi)、外共384個茶葉樣品建立定性模型,進行源產(chǎn)地追溯研究,其中產(chǎn)地內(nèi)為正宗安吉白茶,產(chǎn)地外為非安吉白茶茶樣。結(jié)果表明,MSC的預處理效果明顯優(yōu)于SNV。利用MSC預處理方法,建立的LDA分類模型的準確率高達100%,同時通過PCA、K-means聚類和HCA聚類等方法進行模型驗證,結(jié)果顯示MSC優(yōu)于SNV。經(jīng)MSC預處理后,PCA方法可在前3個PC下清晰聚類,K-means和HCA聚類方法都可將266個產(chǎn)地內(nèi)和118個產(chǎn)地外樣品成功預測出。對正宗安吉白茶的7個茶樣采集地進行SPSS聚類分析,其聚類結(jié)果與采集地的地理位置遠近有對應關(guān)系。該研究表明,近紅外光譜技術(shù)結(jié)合MSC預處理和LDA建模能夠很好地運用于安吉白茶的源產(chǎn)地追溯,對保護安吉白茶的產(chǎn)地真實性具有重要的作用,同樣可借鑒用于其他地標產(chǎn)品的地理位置溯源與保護。
參考文獻
[1] 韓樹根.實施標準化戰(zhàn)略 推進茶產(chǎn)業(yè)發(fā)展——安吉縣建設(shè)“全國茶葉標準化示范縣”歷程[J].中國標準化,2019(9):32-35.
[2] ?胡茶根,趙紅霞,邊文亮.近紅外技術(shù)在茶葉快速無損檢測方面的研究與應用[J].食品科學,2007,28(10):638-641.
[3] ?白艷,賴建紅,湯丹.淺談安吉白茶一二三產(chǎn)融合發(fā)展之路[J].中國茶葉,2018,40(12):40-42.
[4] ?袁玉偉,胡桂仙,邵圣枝,等.茶葉產(chǎn)地溯源與鑒別檢測技術(shù)研究進展[J].核農(nóng)學報,2013,27(4):452-457.
[5] ?范方媛,楊夢璇,龔淑英,等.基于近紅外光譜技術(shù)的白茶3種典型感官滋味特征屬性定量評價模型研究[J].茶葉科學,2018,38(3):296-304.
[6] ?陳美麗,張俊,龔淑英,等.茉莉花茶主要品質(zhì)成分定量近紅外光譜分析模型的建立[J].茶葉科學,2013,33(1):21-26.
[7] ?LI L Q,WEI L D,NING J M,et al.Detection and quantification of sugar and glucose syrup in roasted green tea using near infrared spectroscopy[J].Journal of near infrared spectroscopy,2015,23(5):317-325.
[8] ?王曼,張正竹,寧井銘,等.基于近紅外光譜的黃山毛峰茶鮮葉品質(zhì)分析及等級快速評價[J].食品工業(yè)科技,2014,35(22):57-60,64.
[9] ?周健,成浩,葉陽,等.基于近紅外的 Fisher 分類法識別茶葉原料品種的研究[J].光學學報,2009,29(4):1117-1121.
[10] ?CHEN Q S,ZHAO J W,LIN H.Study on discrimination of Roast green tea(Camellia sinensis L.) according to geographical origin by FTNIR spectroscopy an supervised pattern recognition[J]. Spectrochimica acta part A:Molecular & biomolecular spectroscopy,2009,72(4):845-850.
[11] ?曾智朋,尹春玲,胡樂乾,等.近紅外光譜結(jié)合SVM識別4種茶葉[J].河南工業(yè)大學學報(自然科學版),2013,34(5):53-57.
[12] ?顧玉琦,劉瑞婷,壽國忠,等.應用近紅外光譜技術(shù)快速鑒別鐵皮石斛的產(chǎn)地[J].江蘇農(nóng)業(yè)科學,2016,44(5):365-368.
[13] ?劉明地,宋萍,王博.基于大葉三七紅外光譜系統(tǒng)聚類分析的產(chǎn)地鑒別[J].華中師范大學學報(自然科學版),2019,53(2):222-228.
[14] ?FU X S,YU X P,YE Z H,et al.Analysis of antioxidant activity of Chinese brown rice by fouriertransformed nearinfrared(NIR)spectroscopy and chemometrics[J].Journal of chemistry,2015,2015(4):1-5.
[15] ?XU L,F(xiàn)U X S,CAI C B,et al.The feasibility of using near infrared spectroscopy for rapid discrimination of aged shiitake mushroom(Lentinula edodes)after longterm storage[J].Journal of chemistry,2015,2015:1-7.
[16] ?FU X S,XU L,YU X P,et al.Robust and automated internal quality grading of a Chinese green tea(Longjing)by nearinfrared spectroscopy and chemometrics[J].Journal of spectroscopy,2013(1):367-383.
[17] ?HONG X Z,F(xiàn)U X S,WANG Z L,et al.Tracing geographical origins of teas based on FTNIR spectroscopy:Introduction of model updating and imbalanced data handling approaches[J].Journal of analytical methods in chemistry,2019,2019:1-8.
[18] 宋雪健,錢麗麗,張東杰,等.基于漫反射傅里葉變換近紅外光譜技術(shù)對不同年份的大米產(chǎn)地溯源檢測[J].食品科學,2017,38(18):286-291.
[19] ?TEYE E,AMUAH C L Y,MCGRATH T F,et al.Innovative and rapid analysis for rice authenticity using handheld NIR spectrometry and chemometrics[J].Spectrochimica acta part A:Molecular and biomolecular spectroscopy,2019,217:147-154.
[20] ?EISENSTECKEN D,STRZ B,ROBATSCHER P,et al.The potential of near infrared spectroscopy(NIRS)to trace apple origin:Study on different cultivars and orchard elevations[J].Postharvest biology and technology,2019,147:123-131.
[21] ?劉廣昊,祝詩平,袁嘉佑,等.基于近紅外光譜的胡椒產(chǎn)地鑒別方法研究[J].中國調(diào)味品,2019,44(5):58-62,66.
[22] ?BARNES R,DHANOA M S,LISTER S J.Standard normal variate transformation and detrending of nearinfrared diffuse reflectance spectra[J].Applied spectroscopy,1989,43(5):772-777.
[23] ?CORONELREYES J,RAMIREZMORALESA I,F(xiàn)ERNANDEZBLANCO E,et al.Determination of egg storage time at room temperatureusing a lowcost NIR spectrometer and machine learning techniques[J].Computers and electronics in agriculture,2018,145:1-10.
[24] ?WANG H L,PENG J Y,XIE C Q,et al.Fruit quality evaluation using spectroscopy technology:A review[J].Sensors,2015,15(5):11889-11927.
[25] ?吳習宇,祝詩平,黃華,等.近紅外光譜技術(shù)鑒別花椒產(chǎn)地[J].光譜學與光譜分析,2018,38(1):68-72.
[26] ?劉麗霞.茶葉中6種主要兒茶素的高效液相色譜方法建立及應用[D].南京:南京理工大學,2013.
[27] ?MENG W J,XU X N,CHENG K K,et al.Geographical origin discrimination of oolong tea(TieGuanYin,Camellia sinensis(L.)O.Kuntze)using proton nuclear magnetic resonance spectroscopy and nearinfrared spectroscopy[J].Food analytical methods,2017,10(11):3508-3522.