黃 艷,羅玉琴,張靈枝,戴偉東,林 智,林 剛,孫威江,3,*
(1.福建農(nóng)林大學(xué)安溪茶學(xué)院,福建泉州 362400;2.福建農(nóng)林大學(xué)園藝學(xué)院,福建福州 350002;3.中國(guó)白茶研究院,福建福鼎 355200;4.漳州科技職業(yè)學(xué)院茶與食品科技學(xué)院,福建漳州 363202;5.中國(guó)農(nóng)業(yè)科學(xué)院茶葉研究所,浙江杭州 310008;6.福建融韻通生態(tài)科技有限公司,福建福州 350002)
白茶屬微發(fā)酵茶,可分為白毫銀針、白牡丹、貢眉和壽眉四類(lèi)。近年來(lái),白毫銀針、白牡丹類(lèi)高端白茶迎來(lái)消費(fèi)熱潮,貢眉、壽眉散茶等中低端產(chǎn)品的消費(fèi)占比不斷減小[1-2]。白茶的四個(gè)品類(lèi)按照新梢嫩度區(qū)分,不同等級(jí)同品類(lèi)產(chǎn)品間外形差異小,導(dǎo)致同級(jí)不同質(zhì)、同級(jí)不同價(jià)等市場(chǎng)亂象頻現(xiàn)[3]。因此,科學(xué)評(píng)價(jià)白茶等級(jí)對(duì)規(guī)范市場(chǎng)秩序、穩(wěn)定和提高產(chǎn)品質(zhì)量具有重要作用。
常規(guī)茶葉等級(jí)評(píng)價(jià)主要通過(guò)感官審評(píng)與內(nèi)質(zhì)分析。感官審評(píng)通常對(duì)干茶、葉底、茶湯的香氣、滋味、色澤等因子進(jìn)行綜合評(píng)價(jià)、定級(jí)。內(nèi)質(zhì)分析通過(guò)使用感官智能分析系統(tǒng)(如電子舌[4-6]、電子鼻[7-8])、光譜技術(shù)(近紅外光譜(near-infrared spectroscopy,NIR)[9-10]、高光譜[11]、紫外可見(jiàn)分光光度法[12])、色譜技術(shù)(氣相色譜[13]、液相色譜[14-15])、計(jì)算機(jī)視覺(jué)技術(shù)(熒光探針[16]、圖像[17])等,結(jié)合化學(xué)計(jì)量學(xué)方法,提取茶葉的等級(jí)特征并建立等級(jí)評(píng)價(jià)模型。感官智能分析系統(tǒng)屬快速檢測(cè)技術(shù),靈敏性強(qiáng)、成本高,尚未實(shí)現(xiàn)產(chǎn)業(yè)化應(yīng)用;光譜、色譜等分析技術(shù),操作復(fù)雜、成本高;計(jì)算機(jī)視覺(jué)技術(shù)適合色澤和外觀差異較大的樣本,不適合白茶等級(jí)辨別。NIR 技術(shù)具有高效、無(wú)損、低成本的優(yōu)勢(shì),通過(guò)建立光譜數(shù)據(jù)與已知樣品屬性值的關(guān)聯(lián)模型,可實(shí)現(xiàn)對(duì)未知樣品屬性值的快速預(yù)測(cè),在綠茶[18-19]、紅茶[20]、白茶[21]的等級(jí)評(píng)價(jià)已有諸多報(bào)道。與NIR 技術(shù)相似,氣相離子遷移譜
(gas chromatography-ion mobility sepctrometry,GCIMS)是一種高效、高分離、高靈敏度的揮發(fā)性物質(zhì)檢測(cè)技術(shù),適合食品質(zhì)量的快速鑒定[22]。目前,該技術(shù)已應(yīng)用于綠茶風(fēng)味[23-24]與等級(jí)[25]、黃茶加工香氣品質(zhì)監(jiān)測(cè)[26]、白茶年份與產(chǎn)地鑒別[27-28]等。NIR 和GC-IMS 技術(shù)可采集大量樣品特征信息,前人一般利用主成分分析(principal component analysis,PCA)結(jié)合偏最小二乘法(partial least square,PLS)等經(jīng)典算法建立基于特征信息的分類(lèi)模型,進(jìn)行未知樣品的屬性值預(yù)測(cè)。上述算法建立的模型一般缺乏深度算法學(xué)習(xí),且模型的預(yù)測(cè)能力和魯棒性對(duì)數(shù)據(jù)預(yù)處理方法、波長(zhǎng)選擇、樣本背景等因素依賴性強(qiáng)。因此,本文選用自適應(yīng)增強(qiáng)(adaptive boosting,Adaboost)、決策樹(shù)(decision tree,DT)、K 近鄰(k-nearest neighbor,KNN)、多層感知機(jī)(multilayer perceptron,MLP)、隨機(jī)森林(random forest,RF)、隨機(jī)梯度下降(stochastic gradient descent,SGD)、支持向量機(jī)(support vector machines, SVM)合計(jì)7 種有監(jiān)督學(xué)習(xí)的數(shù)據(jù)挖掘分類(lèi)算法,基于不同等級(jí)白牡丹白茶的NIR 和GC-IMS 數(shù)據(jù)進(jìn)行深度算法學(xué)習(xí),開(kāi)展白茶等級(jí)評(píng)價(jià)與分類(lèi)模型研究,探索茶葉等級(jí)智能評(píng)判的可行性,并為其提供理論依據(jù)。
白牡丹茶樣 由福建品品香茶業(yè)有限公司提供,品種為福鼎大毫茶,采制于2019 年春季。依據(jù)國(guó)家標(biāo)準(zhǔn)GB/T 22291-2017《白茶》中白牡丹特級(jí)、一級(jí)、二級(jí)、三級(jí)的感官品質(zhì)要求與GB/T 23776-2018《茶葉感官審評(píng)方法》,評(píng)價(jià)樣品外形、香氣、滋味和葉底,最終將200 份茶樣分為4 個(gè)等級(jí),每個(gè)等級(jí)各50 份。如圖1 所示,不同等級(jí)間白牡丹樣品的外形差異小,難以直觀辨別。隨后,使用高速粉碎機(jī)將茶樣研磨成粉,過(guò)80 目篩,置于4 ℃冰箱備用。用于后續(xù)NIR 的光譜數(shù)據(jù)采集和GC-IMS 的香氣成分檢測(cè)。
圖1 四個(gè)等級(jí)白牡丹(白茶)的干茶、葉底和茶湯Fig.1 Dry leaves, infused leaves and the brewing of Bai Mudan white tea from four grades
ANTARIS Ⅱ FT-NIR 型Analyzer 傅立葉變換近紅外光譜儀 美國(guó)Thermo Fisher Scientific 公司;FlavourSpec?風(fēng)味分析儀 德國(guó)G.A.S.公司;DFY-300 高速粉碎機(jī) 上海鼎廣機(jī)械設(shè)備有限公司;BSA124S 電子天平 德國(guó)Sartorius 公司;CFJ-Ⅱ茶葉篩分機(jī) 杭州大吉光電儀器有限公司。
1.2.1 NIR 光譜采集 NIR 光譜采集方法參考沈詩(shī)鈺等[28]的方法,采集溫度為25 ℃,濕度<70%;采集時(shí)準(zhǔn)確稱(chēng)取10.0±0.5 g 茶粉平鋪于樣品旋轉(zhuǎn)杯中,選擇積分球采樣模式。波數(shù)范圍為4000~10000 cm-1,掃描次數(shù)64,分辨率8.0 cm-1。為確保近紅外光譜檢測(cè)數(shù)據(jù)的可靠性,樣品采集前重新掃描1 次背景,扣除空氣背景光譜以降低環(huán)境因素對(duì)光譜數(shù)據(jù)的影響,每個(gè)樣品重復(fù)采集其原始光譜3 次,取其平均光譜作為最終量測(cè)光譜數(shù)據(jù)。
1.2.2 GC-IMS 譜圖采集 準(zhǔn)確稱(chēng)取0.2000±0.0005 g茶粉于20 mL 磁蓋頂空瓶中,以80 ℃、500 r/min 振動(dòng)孵化15 min 后進(jìn)樣,進(jìn)樣體積為200 μL。儀器檢測(cè)條件參考羅玉琴等[29]的方法,初始漂移氣體流速EPC1 為150 mL/min,載氣流速EPC2 為2 mL/min,運(yùn)行10 min 后EPC1 維持150 mL/min,EPC2 流量爬升至10 mL/min,運(yùn)行至30 min 時(shí)EPC1 為150 mL/min,EPC2 為130 mL/min,在30 min 20 s 時(shí)結(jié)束運(yùn)行程序,每個(gè)樣品檢測(cè)2 次。
應(yīng)用TQ Analyst 8.0 分析軟件獲取NIR 譜圖的原始數(shù)據(jù);應(yīng)用LAV 2.1.1 軟件采集和處理GC-IMS揮發(fā)性物質(zhì)的原始譜圖和標(biāo)記揮發(fā)性物質(zhì)數(shù)據(jù);自建數(shù)據(jù)處理平臺(tái),使用Python 3.8.5 軟件對(duì)NIR、GCIMS 原始譜圖數(shù)據(jù)和標(biāo)記揮發(fā)性物質(zhì)這3 種類(lèi)型數(shù)據(jù),分別進(jìn)行PCA、LDA 降維,選擇最優(yōu)降維結(jié)果。應(yīng)用Adaboost、DT、KNN、MLP、RF、SGD、SVM共計(jì)7 種數(shù)據(jù)挖掘分類(lèi)算法建立白牡丹等級(jí)判別模型。
2.1.1 NIR 數(shù)據(jù)降維 白牡丹茶的NIR 原始譜圖結(jié)果如圖2 所示。所有樣本在4000~10000 cm-1波段的NIR 光譜基本形態(tài)基本一致,吸光度值變化趨勢(shì)相似;隨著波數(shù)的增加,吸光度值總體呈現(xiàn)下降趨勢(shì),變化范圍處于0.266~0.807 之間;不同等級(jí)白牡丹的平均光譜如圖2b 所示,各等級(jí)白茶平均光譜間能基本分開(kāi),因此后續(xù)模型構(gòu)建基于全譜段進(jìn)行。
圖2 不同等級(jí)白牡丹近紅外原始光譜圖Fig.2 Near infrared spectra of different grades of Bai Mudan white tea
分別采用PCA 和LDA 進(jìn)行數(shù)據(jù)降維,結(jié)果如圖3 所示,使用PCA 降維,PC1、PC2 累計(jì)貢獻(xiàn)率為99%,各等級(jí)樣品間的分布存在交叉重疊現(xiàn)象,不同等級(jí)間分離效果差;LDA 降維后,不同等級(jí)間區(qū)分明顯,其中三級(jí)白牡丹(最低等級(jí))與其他3 個(gè)等級(jí)的距離較遠(yuǎn)。LDA 是一種有監(jiān)督的特征提取方法,其原理是將所有樣本點(diǎn)都投影到一個(gè)高維直線上,盡可能使同類(lèi)各樣本點(diǎn)的投影盡量地貼近,而不同類(lèi)各樣本點(diǎn)投影之間盡量分散地分布,即降維的同時(shí)還能進(jìn)行分類(lèi)[30];PCA 是一種無(wú)監(jiān)督的學(xué)習(xí)方法,其可以通過(guò)將數(shù)據(jù)投影到主成分上來(lái)降維,它的目的是使降維后的數(shù)據(jù)盡可能最大程度的保留原始數(shù)據(jù)的信息,但是它不能保證在降維后,新的低維空間中保留數(shù)據(jù)中是最具有判別性的信息。因此,LDA 降維效果更佳,后續(xù)采用此法對(duì)NIR 數(shù)據(jù)降維。
圖3 不同等級(jí)白牡丹近紅外光譜數(shù)據(jù)降維結(jié)果Fig.3 Dimension reduction results of NIR data of different grades of Bai Mudan white tea
2.1.2 基于NIR 等級(jí)判別模型 按照3:1 比例劃分為訓(xùn)練集和測(cè)試集后,使用降維后的NIR 數(shù)據(jù)建立等級(jí)判別模型(圖4)。圖中的虛線表示分類(lèi)邊界,即將樣本分類(lèi)的決策邊界,當(dāng)樣本特征被映射到一個(gè)低維度空間中時(shí),通過(guò)決策邊界就可以劃分不同的樣本等級(jí)。所建的Adaboost、DT、KNN、MLP、RF、SGD和SVM 模型中,測(cè)試集的識(shí)別正確率分別為94%、96%、98%、98%、98%和98%(表1),可見(jiàn)不同模型識(shí)別正確率均大于90%。核對(duì)誤判樣本發(fā)現(xiàn),多數(shù)誤判發(fā)生在特級(jí)、一級(jí)、二級(jí)的相鄰等級(jí)之間,例如特級(jí)白牡丹被誤判為一級(jí)白牡丹,一級(jí)白牡丹被誤判為特級(jí)或二級(jí)白牡丹,不存在間級(jí)誤判。特級(jí)、一級(jí)、二級(jí)的理化性質(zhì)更相似、空間距離更接近,三級(jí)樣本與其他等級(jí)的差異最為明顯,因此模型誤判主要發(fā)生在相鄰等級(jí)之間。
表1 基于近紅外光譜數(shù)據(jù)白牡丹等級(jí)模型判別結(jié)果Table 1 Discrimination results of Bai Mudan white tea grade model based on NIR data
圖4 基于NIR 的白牡丹等級(jí)判別模型Fig.4 Classification models of Bai Mudan white tea based on NIR
DT 模型的變量數(shù)超過(guò)樣本數(shù)(150 個(gè)),產(chǎn)生數(shù)據(jù)過(guò)擬合現(xiàn)象(圖4b),在一級(jí)和二級(jí)樣本的區(qū)域劃分超過(guò)2 次,說(shuō)明該模型不適用于當(dāng)前白茶等級(jí)評(píng)價(jià),后續(xù)可通過(guò)增加訓(xùn)練集數(shù)量、減少模型變量等方法避免數(shù)據(jù)過(guò)擬合。其余6 種模型判別率在94%~98%之間,ROC 曲線下的面積AUC 均≥0.95,表明等級(jí)識(shí)別模型性能好,等級(jí)識(shí)別正確率高。
2.2.1 不同等級(jí)的白牡丹GC-IMS 圖譜 不同等級(jí)的白牡丹GC-IMS 圖譜經(jīng)RIP 歸一化處理后如圖5所示,大多數(shù)揮發(fā)性香氣物質(zhì)在保留時(shí)間110~830 s、遷移時(shí)間1.00~1.77 ms 內(nèi)得到有效分離。不同等級(jí)白牡丹的揮發(fā)性物質(zhì)的組成基本相同,但在含量上存在差異。基于前期已有研究[29],使用LAV 軟件共標(biāo)記了241 種揮發(fā)性香氣物質(zhì),并鑒定出41 種揮發(fā)性香氣物質(zhì)。
圖5 不同等級(jí)白牡丹二維GC-IMS 譜圖Fig.5 Two-dimensional spectra of GC-IMS in different grades of Bai Mudan white tea
2.2.2 GC-IMS 數(shù)據(jù)降維 以241 種揮發(fā)性物質(zhì)對(duì)應(yīng)的特征峰峰高值為變量,對(duì)GC-IMS 香氣數(shù)據(jù)進(jìn)行降維分析,圖6a、圖6c 為GC-IMS 香氣數(shù)據(jù)的PCA 降維結(jié)果,各等級(jí)樣本分布存在交叉重疊現(xiàn)象;圖6b、圖6d 中不同等級(jí)白牡丹各有聚類(lèi)群,LDA 等級(jí)區(qū)分效果優(yōu)于PCA,基于標(biāo)記物L(fēng)DA 等級(jí)區(qū)分效果優(yōu)于篩選譜圖數(shù)據(jù)的LDA 等級(jí)區(qū)分。
2.2.3 基于GC-IMS 等級(jí)判別模型 同2.1.1 結(jié)論一致,LDA 降維效果最佳,采用LDA 對(duì)GC-IMS 數(shù)據(jù)降維?;诤Y選譜圖數(shù)據(jù)和標(biāo)記物質(zhì)譜圖兩種數(shù)據(jù),分別等級(jí)判別模型。將樣本數(shù)據(jù)按照3:1 比例劃分訓(xùn)練集和測(cè)試集。將篩選譜圖數(shù)據(jù)建立7 種模型(圖7),各模型的等級(jí)正判率分別為83%、92%、93%、92%、94%、91%和91%(表2)。如圖7b、圖7c、圖7e 所示,DT、KNN、RF 模型的決策邊界過(guò)于精確地對(duì)樣品進(jìn)行分類(lèi),泛化性不足,存在數(shù)據(jù)過(guò)擬合現(xiàn)象;Adaboost 模型未能對(duì)樣品進(jìn)行分類(lèi),存在欠擬合現(xiàn)象。MLP、SGD 和SVM 模型的等級(jí)正判率在91%~94%之間、AUC 為0.94~0.96,模型性能好,可用于等級(jí)評(píng)價(jià)。
表2 基于GC-IMS 數(shù)據(jù)白牡丹等級(jí)模型判別結(jié)果Table 2 Discrimination results of Bai Mudan white tea grade model based on GC-IMS data
圖7 基于GC-IMS 篩選譜圖數(shù)據(jù)的白牡丹等級(jí)判別模型Fig.7 Classification models of Bai Mudan white tea based on GC-IMS
同樣,基于241 種標(biāo)記揮發(fā)性物質(zhì)的峰強(qiáng)度值數(shù)據(jù),建立等級(jí)判別模型(圖8)。241 種標(biāo)記揮發(fā)物的等級(jí)判別模型,不同等級(jí)之間相互區(qū)分,單獨(dú)聚集。如表2 所示,除RF 模型等級(jí)識(shí)別率為96%、ROC 曲線下的面積AUC 為0.98,其余6 種模型等級(jí)識(shí)別率為100%、AUC 均為1.0。GC-IMS 的241 種標(biāo)記物質(zhì)數(shù)據(jù)篩選可用于區(qū)分白牡丹等級(jí),7 種分類(lèi)器算法均表現(xiàn)出優(yōu)越的模型性能。
圖8 基于GC-IMS 標(biāo)記物質(zhì)的白牡丹等級(jí)判別模型Fig.8 Classification models of Bai Mudan white tea based on GC-IMS marked volatiles
綜上,GC-IMS 采集的揮發(fā)性化學(xué)物特征數(shù)據(jù)庫(kù)能夠用于建立白茶等級(jí)判別模型。無(wú)論是基于篩選譜圖數(shù)據(jù)還是標(biāo)記揮發(fā)性物質(zhì)數(shù)據(jù),都能建立等級(jí)識(shí)別率>90%,AUC>0.9 的等級(jí)判別模型。標(biāo)記揮發(fā)物質(zhì)的等級(jí)模型性能優(yōu)異,判別效果優(yōu)于篩選譜圖的等級(jí)模型。
本研究建立了16 個(gè)高質(zhì)量白牡丹等級(jí)判別模型,證實(shí)了NIR、GC-IMS 結(jié)合數(shù)據(jù)挖掘分類(lèi)器算法用于白茶等級(jí)快速、簡(jiǎn)單識(shí)別的可行性,在茶葉等級(jí)鑒別和質(zhì)量控制方法的選擇上向前邁進(jìn)了一步。為了減少實(shí)際應(yīng)用中,模型對(duì)數(shù)據(jù)預(yù)處理方法、波長(zhǎng)、樣本背景等客觀因素的依賴,進(jìn)一步提高模型的性能和魯棒性[31],后期將繼續(xù)探索使用以多模型融合深度學(xué)習(xí)模型,該方法已在白茶產(chǎn)地溯源中應(yīng)用[32]。將茶葉品質(zhì)智能評(píng)價(jià)模型從傳統(tǒng)單一的機(jī)器學(xué)習(xí)模型轉(zhuǎn)入多模型融合的深度學(xué)習(xí)模型[33-35],是未來(lái)智能茶產(chǎn)業(yè)和智能農(nóng)業(yè)的發(fā)展趨勢(shì)。除此外,后續(xù)將嘗試?yán)没ヂ?lián)網(wǎng)技術(shù),基于所建的高質(zhì)量白茶等級(jí)判別模型,建設(shè)在線判別平臺(tái),實(shí)現(xiàn)遠(yuǎn)程白茶等級(jí)判別,既能豐富和完善數(shù)據(jù)庫(kù),也能進(jìn)一步提升模型質(zhì)量。