宋 彥,汪小中,趙 磊,張 葉,寧井銘,程福壽
(1. 安徽農(nóng)業(yè)大學(xué)工學(xué)院,合肥 230036;2. 安徽農(nóng)業(yè)大學(xué)茶樹生物學(xué)與資源利用國(guó)家重點(diǎn)實(shí)驗(yàn)室,合肥 230036;3. 黃山一品有機(jī)茶業(yè)有限公司,黃山 245000;4. 安徽省智能農(nóng)機(jī)裝備工程實(shí)驗(yàn)室,合肥 230036)
拼配是出口炒青綠茶在精制加工過程中的一項(xiàng)作業(yè),需要根據(jù)各花色等級(jí)產(chǎn)品的質(zhì)量要求,將各類原料茶按一定比例合理拼合,組成各花色等級(jí)的成品茶。采用拼配作業(yè)的原因在于,由鮮葉初制加工的毛茶因產(chǎn)地、栽培水平、加工工藝等因素不同,其品質(zhì)不但與標(biāo)準(zhǔn)樣存在一定差異,而且不同來(lái)源、批次的毛茶質(zhì)量也有明顯差異。而商品茶要求質(zhì)量規(guī)格化、標(biāo)準(zhǔn)化,因此首先需要將毛茶制成半成品茶,進(jìn)一步參照商品茶標(biāo)準(zhǔn)樣,通過拼配作業(yè)拼合各原料茶,達(dá)到保證質(zhì)量一致性、擴(kuò)大產(chǎn)量、充分利用原料的目的。
目前茶葉拼配仍然采用專家拼配的方法,即首先由經(jīng)驗(yàn)豐富的拼配專家對(duì)原料茶進(jìn)行感官審評(píng),然后試拼小樣,與標(biāo)準(zhǔn)樣進(jìn)行比對(duì)后,再優(yōu)化拼配方案。吳步暢等探討了采用無(wú)性系良種茶樹鮮葉加工拼配徑山茶的可行性,采用了理化分析與感官分析相結(jié)合的方法評(píng)價(jià)拼配茶的質(zhì)量。針對(duì)滇紅工夫茶的拼配問題,鄭際雄等提出了兩種有效的成品茶拼配方法,并介紹了拼配實(shí)例。中國(guó)大宗出口綠茶,廣泛采用拼配技術(shù),楊選民等從綠茶拼配技術(shù)的原則、流程、技術(shù)要點(diǎn)出發(fā),闡述了綠茶拼配中的主要技術(shù)要點(diǎn)。通過上述研究發(fā)現(xiàn),茶葉拼配作業(yè)中,如何設(shè)計(jì)優(yōu)化拼配比例,是拼配作業(yè)的關(guān)鍵問題。
在拼配作業(yè)中,一方面要求拼配茶的質(zhì)量要滿足標(biāo)準(zhǔn)樣要求,另一方面企業(yè)也希望實(shí)現(xiàn)降低拼配原料的綜合成本,充分利用庫(kù)存原料。部分學(xué)者將這一問題抽象為多目標(biāo)優(yōu)化問題,如Fomeni等針對(duì)茶葉生產(chǎn)中的拼配問題,提出了一種多目標(biāo)優(yōu)化方法,并重點(diǎn)討論了當(dāng)原料成本和品質(zhì)要求存在矛盾時(shí)的權(quán)衡優(yōu)化問題。國(guó)內(nèi)也有于杰等學(xué)者針對(duì)抹茶的智能拼配問題,提出了基于線性規(guī)劃的拼配比例計(jì)算方法。
總結(jié)上述國(guó)內(nèi)外現(xiàn)狀,在茶葉拼配比例設(shè)計(jì),成本與庫(kù)存優(yōu)化等方面都取得了一定成果。在拼配作業(yè)中,對(duì)茶葉質(zhì)量的審評(píng)是貫穿其中的,無(wú)論是對(duì)各種原料樣的審評(píng),還是對(duì)試拼小樣的品質(zhì)評(píng)價(jià)。而目前研究成果中,對(duì)于茶葉品質(zhì)的評(píng)價(jià)仍然采用人工感官審評(píng)的方法,雖然符合現(xiàn)行國(guó)家標(biāo)準(zhǔn)的要求,但是結(jié)果容易受到審評(píng)人員主觀影響。如何在客觀評(píng)價(jià)商品茶與原料茶品質(zhì)的基礎(chǔ)上,進(jìn)一步計(jì)算其拼配比例,仍然是困擾國(guó)內(nèi)外學(xué)者的難題,相關(guān)的研究成果也極為少見。
近年來(lái),國(guó)內(nèi)外學(xué)者利用多種傳感手段,如近紅外光譜技術(shù)、高光譜技術(shù)、電子鼻/舌用于茶葉或者其他農(nóng)產(chǎn)品的品質(zhì)檢測(cè),取得了很多成果。其中近紅外光譜技術(shù)不但可以用于農(nóng)產(chǎn)品等級(jí)的定性識(shí)別,如等級(jí)、產(chǎn)地判斷,也可以用于其主要化學(xué)成分的定量分析,能夠更為全面表征茶葉的品質(zhì)。這為解決拼配比例計(jì)算問題,提供了新的思路。寧井銘等以祁門工夫紅茶為例,提出了一種基于光譜數(shù)據(jù)的拼配比例計(jì)算方法。
本文面向炒青綠茶中典型產(chǎn)品——眉茶的拼配比例設(shè)計(jì)問題,利用茶葉的近紅外光譜數(shù)據(jù),構(gòu)建用于預(yù)測(cè)拼配比例的機(jī)器學(xué)習(xí)模型,并驗(yàn)證該模型的預(yù)測(cè)效果。以眉茶為研究對(duì)象,選擇若干典型的半成品茶作為拼配原料,模擬拼配過程拼合了若干組拼配茶樣,采集其近紅外光譜數(shù)據(jù)。盡管拼配比例存在差別,但是各組茶樣的近紅外光譜數(shù)據(jù)呈現(xiàn)出高度相關(guān)性,常見的回歸計(jì)算方法難以解決這一問題,本文利用深度學(xué)習(xí)技術(shù)高效的特征提取機(jī)制,提出基于卷積神經(jīng)網(wǎng)絡(luò)的特征提取方法,以期實(shí)現(xiàn)拼配比例的高精度計(jì)算。
本研究目的在于構(gòu)建計(jì)算拼配比例的機(jī)器學(xué)習(xí)模型,將采用炒青綠茶作為試驗(yàn)原料,采用模擬拼配的方法,拼合若干組拼配茶樣,并隨機(jī)劃分為訓(xùn)練集和預(yù)測(cè)集。采集茶樣的近紅外光譜數(shù)據(jù),并利用訓(xùn)練集數(shù)據(jù)訓(xùn)練、驗(yàn)證拼配比例預(yù)測(cè)模型,采用拼配比例預(yù)測(cè)誤差的各統(tǒng)計(jì)量,在預(yù)測(cè)集上測(cè)試拼配比例計(jì)算模型的有效性。
試驗(yàn)原料取自黃山一品有機(jī)茶業(yè)有限公司,該單位多年從事眉茶的生產(chǎn)與出口工作,產(chǎn)品長(zhǎng)期出口西北非,客戶對(duì)滋味品質(zhì)具有較高的要求,市場(chǎng)偏好滋味濃強(qiáng)鮮爽,湯色黃橙明亮的茶葉。在拼配方案中,往往以黃山本地茶作為基準(zhǔn)茶,彰顯屯綠滋味濃厚而不苦澀的特點(diǎn),調(diào)劑茶選取口感濃強(qiáng),香氣重的湖北小葉種茶,以及鮮爽度高,滋味平和的福建茶。根據(jù)上述方案,選取4種典型的原料茶:休寧茶上段正口,福建茶上段子口,湖北小葉種茶,歙縣碎茶。上述原料著重體現(xiàn)了不同產(chǎn)地茶的滋味特點(diǎn),同時(shí)外形上包含了上中下段,容重也包含了正口、子口茶,具有較好的代表性。將以上述半成品茶作為原料,按照預(yù)設(shè)比例拼配若干組茶樣,并采集各原料樣與拼配樣的近紅外光譜數(shù)據(jù),用于訓(xùn)練預(yù)測(cè)拼配比例的機(jī)器學(xué)習(xí)模型,并通過預(yù)測(cè)結(jié)果與預(yù)設(shè)拼配比例的比對(duì),驗(yàn)證預(yù)測(cè)模型的效果。
本文共設(shè)計(jì)25組樣本,如表1所示,包含了單一茶樣,2~4種茶樣混合的不同形式。每組按照拼配比例表所設(shè)比例拼配至凈質(zhì)量500 g,并在茶盤內(nèi)充分混合均勻后,密封保存。
表1 眉茶拼配比例表 Table 1 Proportion table of Mee Tea tea blending
參考韋玲冬等提出的樣品制備方法采集茶樣的近紅外光譜數(shù)據(jù)。首先,將被檢測(cè)樣本放置粉碎機(jī)進(jìn)行研磨粉碎處理;為了減少大顆粒對(duì)漫反射的影響,將研磨后的粉末經(jīng)過80目(篩網(wǎng)孔徑小于0.180 mm)網(wǎng)格篩,篩選去除大顆粒茶樣粉末;其次,稱量3 g量的茶樣粉末,并放置在定制的紅外壓片模具中,并在紅外壓片機(jī)的20 MPa壓力下,壓制成餅狀茶樣。將餅狀茶樣放置在近紅外光譜儀(德國(guó)Bruker公司,MPA型傅里葉變換近紅外光譜儀)的檢測(cè)口,將近紅外光譜儀切換至漫反射檢測(cè)模式后,掃描檢測(cè)窗口處的茶樣;每次掃描完成后,將茶樣旋轉(zhuǎn)120°后,繼續(xù)掃描,待3次掃描完成后,通過OPUS軟件,求取3次掃描反射值的平均值,作為此次茶樣的近紅外光譜反射率。
試驗(yàn)過程中,對(duì)每個(gè)拼配樣本制備20個(gè)子樣本,共計(jì)500個(gè)樣本,分別采集近紅外光譜數(shù)據(jù),用于訓(xùn)練和測(cè)試拼配比例預(yù)測(cè)模型。
在前期的研究過程中發(fā)現(xiàn),盡管不同樣本的拼配比例不同,但是近紅外光譜數(shù)據(jù)是高度相似的。當(dāng)采用傳統(tǒng)的回歸計(jì)算方法求解拼配比例時(shí),產(chǎn)生了多重共線性現(xiàn)象,計(jì)算誤差很大。在各類模式識(shí)別任務(wù)中,特征提取方法對(duì)于模型精度有較大影響,而深度學(xué)習(xí)方法能夠高效、自動(dòng)的從原始信號(hào)中提取關(guān)鍵特征,因此本文采用基于卷積神經(jīng)網(wǎng)絡(luò)和自動(dòng)編碼器,用于提取茶樣的近紅外光譜特征,進(jìn)一步采用Softmax函數(shù),預(yù)測(cè)各原料樣的拼配比例。為了對(duì)比不同特征提取方法的效果,同時(shí)采用兩種方法對(duì)比效果。一種是采用主成分分析(Principal Component Analysis,PCA)方法提取光譜特征,并結(jié)合Softmax函數(shù)預(yù)測(cè)拼配比例;另一種是采用PCA方法提取光譜特征,結(jié)合偏最小二乘回歸(Partial Least Squares Regression,PLS)算法計(jì)算拼配比例。除了特征提取方法以外,提取的特征維度數(shù)量也對(duì)模型精度有一定影響,這也是本文需要對(duì)比、優(yōu)化的關(guān)鍵參數(shù)。
基于卷積神經(jīng)網(wǎng)絡(luò)的拼配比例計(jì)算模型結(jié)構(gòu)如圖1所示,近紅外光譜數(shù)據(jù)首先輸入卷積神經(jīng)網(wǎng)絡(luò)模型提取特征,進(jìn)一步輸入Softmax模型用于拼配比例計(jì)算。卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)主要由卷積層、池化層、全連接層組成。卷積層(Convolutional Layer)是基于卷積運(yùn)算的一種結(jié)構(gòu),通過卷積運(yùn)算來(lái)細(xì)化輸入數(shù)據(jù)的潛在特征。卷積核(filters)是卷積運(yùn)算的核心,它逐行掃描光譜數(shù)據(jù),尋找特征描述。池化層(Pooling Layer)一般是在卷積運(yùn)算后,其主要作用就是提取有效特征,同時(shí)也能夠減少參數(shù)的數(shù)目。全連接層(Fully Connect Layer)一般在網(wǎng)絡(luò)結(jié)構(gòu)的后面幾層,將前面卷積-池化層提取的特征按照特定權(quán)重合并,作為全連接層的輸入。近紅外光譜數(shù)據(jù)經(jīng)過卷積神經(jīng)網(wǎng)絡(luò)提取特征,輸入Softmax模型,用于預(yù)測(cè)各原料樣的拼配比例。
圖1 基于卷積神經(jīng)網(wǎng)絡(luò)的拼配比例計(jì)算模型 Fig.1 Calculating model of blending ratio based on convolution neural network
卷積神經(jīng)網(wǎng)絡(luò)構(gòu)建完成后,就需要對(duì)權(quán)值參數(shù)進(jìn)行優(yōu)化。目前主要的優(yōu)化方法就是利用訓(xùn)練集數(shù)據(jù)進(jìn)行反向傳播,主要做法是從目標(biāo)函數(shù)對(duì)上一層求偏導(dǎo),利用鏈?zhǔn)椒▌t不斷向前傳播,采用梯度下降法迭代更新全連接層和卷積層的權(quán)值參數(shù)。
自動(dòng)編碼器是直接應(yīng)用單層或多層神經(jīng)網(wǎng)絡(luò)映射輸入數(shù)據(jù),獲得輸出向量作為光譜提取信息特征,這樣利用自動(dòng)編碼器所構(gòu)建的網(wǎng)絡(luò)提取光譜數(shù)據(jù)特征。網(wǎng)絡(luò)主要由輸入層、隱藏層以及輸出層組成。在自動(dòng)編碼器的網(wǎng)絡(luò)框架中,神經(jīng)網(wǎng)絡(luò)的前半部分是編碼器,它主要從原始輸入數(shù)據(jù)中提取特征。后一部分為解碼器,在訓(xùn)練過程中根據(jù)提取的特征重構(gòu)原始數(shù)據(jù)?;谧詣?dòng)編碼器的拼配比例計(jì)算模型結(jié)構(gòu)如圖2所示,待網(wǎng)絡(luò)訓(xùn)練完成后,將訓(xùn)練完成的網(wǎng)絡(luò)用于光譜特征提取,同樣采用Softmax模型計(jì)算各原料樣的拼配比例。
圖2 基于自動(dòng)編碼器的拼配比例計(jì)算模型 Fig.2 Calculating model of blending ratio based on automatic encoder
給定個(gè)訓(xùn)練樣本(x,y),其中x表示為經(jīng)特征提取算法提取的維特征向量,y為各原料拼配比例,取值為[ 0,1]之間。預(yù)測(cè)出的拼配比例向量記為y,即
式中e為自然對(duì)數(shù),θx為第個(gè)類別對(duì)應(yīng)的值。構(gòu)造對(duì)數(shù)似然函數(shù)為
式中x為維特征向量,y為表示第個(gè)樣本,第分量的值。將上式對(duì)數(shù)似然函數(shù)取極大值近似等價(jià)于下式損失函數(shù)取極小值:
通過利用梯度下降法對(duì)損失函數(shù)的梯度值進(jìn)行迭代運(yùn)算,直至網(wǎng)絡(luò)模型收斂或達(dá)到預(yù)設(shè)停止條件,完成訓(xùn)練。
本文共采集樣本光譜數(shù)據(jù)500個(gè),每個(gè)拼配比例均按照9∶1的比例隨機(jī)劃分為訓(xùn)練集(Training Set)與測(cè)試集(Testing Set)。為了充分驗(yàn)證模型性能對(duì)比模型參數(shù),對(duì)訓(xùn)練集進(jìn)行3折交叉驗(yàn)證,因此在訓(xùn)練集內(nèi)部,將樣本進(jìn)一步劃分為校準(zhǔn)集(Calibration Set)和驗(yàn)證集(Validation Set)。
擬采用決定系數(shù)()、均方根誤差(Root Mean Squard Error,RMSE)兩項(xiàng)指標(biāo)評(píng)價(jià)拼配比例預(yù)測(cè)模型的性能。決定系數(shù)主要用于衡量實(shí)際值與預(yù)測(cè)值之間的相關(guān)性。它的值越接近1,實(shí)際值和預(yù)測(cè)值之間的相關(guān)性就越好。其計(jì)算公式如下所示:
均方根誤差(RMSE)主要用來(lái)衡量真實(shí)值與預(yù)測(cè)值之間的偏差程度,其計(jì)算公式如下所示:
按照本文試驗(yàn)方法采集的原始近紅外光譜數(shù)據(jù)如圖 3a所示,可見不同拼配比例的茶樣其光譜趨勢(shì)基本一致。為了消除光譜中諸如高頻噪聲、基線漂移和散射等因素的影響,本文采用標(biāo)準(zhǔn)正態(tài)變換(Standard Normal Variate transform,SNV)方法首先對(duì)光譜數(shù)據(jù)進(jìn)行預(yù)處理,25種拼配茶樣的平均光譜如圖 3b所示。從圖3中可以看出,雖然各種拼配樣本的原料茶比例不同,但其光譜曲線極為近似,呈現(xiàn)出高度相關(guān)性。從譜線中可以看出,1 482~1 510 nm的吸收峰應(yīng)為肽鍵的二次諧波吸收峰,1 898 nm處的吸收峰為肽鍵的一次諧波吸收峰,這些官能團(tuán)與茶葉中的氨基酸類物質(zhì)相關(guān);2 032 nm處的吸收峰反映了O-H的吸收峰;2 100 nm為HC=CH鍵的吸收峰,可能與茶葉中的多酚類物質(zhì)相關(guān)。
圖3 拼配樣本的光譜曲線 Fig.3 Spectral curved of blending samples
2.1 不同組別的血清Cys-C、Cr和BUN的水平 隨著窒息程度的加重,對(duì)照組、輕度窒息組和重度窒息組新生兒的血清Cys-C、Cr和BUN水平均依次增高,見表1。對(duì)Cys-C、Cr和BUN分別研究,每一項(xiàng)的重度窒息組、輕度窒息組與對(duì)照組兩兩比較,以Kruskal-Wallis H檢驗(yàn),差異均有統(tǒng)計(jì)學(xué)意義(P<0.01)。
自動(dòng)編碼器設(shè)置為單隱層結(jié)構(gòu),輸入節(jié)點(diǎn)數(shù)和光譜維度相等為2 203,隱含層的節(jié)點(diǎn)個(gè)數(shù)即為自動(dòng)編碼器提取的特征維數(shù),這一參數(shù)和網(wǎng)絡(luò)性能相關(guān)性較強(qiáng)。因此本文以10為步長(zhǎng),在[10,100]維數(shù)區(qū)間內(nèi)進(jìn)行遍歷,網(wǎng)絡(luò)訓(xùn)練完成后,將特征輸入Softmax函數(shù),預(yù)測(cè)拼配比例,結(jié)果如圖4所示。
采用自動(dòng)編碼器提取特征結(jié)合Softmax模型預(yù)測(cè)方法(AE+Softmax)的拼配比例預(yù)測(cè)結(jié)果如圖4所示,圖 4a為校準(zhǔn)集、驗(yàn)證集和測(cè)試集的決定系數(shù)隨特征維數(shù)變化結(jié)果,圖4b為3個(gè)樣本集合均方根誤差隨特征維數(shù)變化結(jié)果。從驗(yàn)證集結(jié)果分析,當(dāng)特征維數(shù)取值為20,決定系數(shù)最大為0.916 6,均方根誤差最小為7.57%,隨著特征維數(shù)的上升,決定系數(shù)呈現(xiàn)出波動(dòng)降低的趨勢(shì),同時(shí)均方根誤差也呈現(xiàn)出波動(dòng)升高的趨勢(shì)。從圖4可以看出,該方法的驗(yàn)證集與測(cè)試集決定系數(shù)顯著低于校準(zhǔn)集,而均方根誤差顯著高于校準(zhǔn)集,說(shuō)明存在一定過擬合現(xiàn)象。
圖4 基于自動(dòng)編碼器結(jié)合Softmax模型的拼配比例 預(yù)測(cè)模型性能 Fig.4 Automatic encoder combined with Softmax model to predict the performance of the blending ratio model
卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜,卷積核,網(wǎng)絡(luò)層數(shù)等參數(shù)都會(huì)影響特征提取結(jié)果。本文作者面向祁門紅茶的等級(jí)評(píng)價(jià)問題,提出了一種提取近紅外光譜數(shù)據(jù)特征的卷積神經(jīng)網(wǎng)絡(luò),本文在上述研究的基礎(chǔ)上設(shè)計(jì)的卷積神經(jīng)網(wǎng)絡(luò)由3個(gè)卷積-池化層、1個(gè)全連接層和1個(gè)用于計(jì)算拼配比例的Softmax回歸層組成(CNN+Softmax)。由于各樣本光譜數(shù)值之間的差異較小,所以第一卷積層采用一個(gè)較寬的卷積核,便于在較寬的波段捕獲光譜特征。然后,1個(gè)小的卷積核用于捕獲詳細(xì)的光譜特征。選擇整流線性單元(ReLU)作為激活函數(shù),池化層采用最大池化(Max-pooling)。全連接層的每個(gè)節(jié)點(diǎn)都連接到上一層的特征信息。為了避免過擬合,提高網(wǎng)絡(luò)的泛化能力,在第3個(gè)池化層和全連接層的之間增加了一個(gè)Dropout操作,神經(jīng)元節(jié)點(diǎn)失活概率為0.5。最后,連接Softmax回歸層。
為了測(cè)試不同特征維度對(duì)計(jì)算結(jié)果的影響,同樣將維數(shù)在[10,100]區(qū)間以10為步長(zhǎng)做遍歷,根據(jù)特征維度對(duì)網(wǎng)絡(luò)部分結(jié)構(gòu)參數(shù)進(jìn)行微調(diào)。完成網(wǎng)絡(luò)模型構(gòu)建后,訓(xùn)練過程可分為3個(gè)步驟:1)在所構(gòu)建網(wǎng)絡(luò)上加載數(shù)據(jù)集進(jìn)行模型參數(shù)訓(xùn)練;2)待所構(gòu)建網(wǎng)絡(luò)模型收效后,保存訓(xùn)練好的網(wǎng)絡(luò)權(quán)重,以供后續(xù)網(wǎng)絡(luò)微調(diào);3)微調(diào)全連接網(wǎng)絡(luò),其全連接層學(xué)習(xí)率為0.05,衰減學(xué)習(xí)率為0.001,批處理數(shù)目為15。計(jì)算結(jié)果如圖5所示。當(dāng)特征維數(shù)從10~100之間變化時(shí),決定系數(shù)與均方根誤差均呈現(xiàn)了上下波動(dòng)的趨勢(shì),說(shuō)明單純?cè)黾犹卣骶S度并不能提升其精度性能指標(biāo)。從驗(yàn)證集的性能指標(biāo)分析,當(dāng)特征維數(shù)取30、40時(shí),性能指標(biāo)較好,決定系數(shù)分別為0.964 0,0.964 3,均方根誤差分別為0.049 9,0.047 2。獨(dú)立測(cè)試集的兩項(xiàng)性能指標(biāo)與訓(xùn)練集、驗(yàn)證集差距不大,說(shuō)明該算法較好反映了數(shù)據(jù)內(nèi)部結(jié)構(gòu)特點(diǎn),對(duì)數(shù)據(jù)的擬合情況較好,詳細(xì)網(wǎng)絡(luò)參數(shù)如表2所示,此時(shí)的網(wǎng)絡(luò)參數(shù)總數(shù)為3 305。本文同時(shí)對(duì)比了采用不同激活函數(shù)時(shí)計(jì)算結(jié)果的性能指標(biāo),結(jié)果如表3所示,在驗(yàn)證集上采用Rule函數(shù)的決定系數(shù)高于采用Tanh函數(shù)和Sigmoid函數(shù)的決定系數(shù),而采用Rule函數(shù)的RMSE值低于采用Tanh函數(shù)和Sigmoid函數(shù)的RMSE值,故采用Rule函數(shù)的性能指標(biāo)優(yōu)于Tanh函數(shù)和Sigmoid函數(shù)。
表3 采用不同激活函數(shù)時(shí)的性能對(duì)比 Table 3 Performance comparison under different activation function
圖5 基于卷積神經(jīng)網(wǎng)絡(luò)結(jié)合Softmax方法的拼配比例 預(yù)測(cè)模型性能 Fig.5 CNN combined with Softmax method to predict the performance of the blending ratio model
表2 用于預(yù)測(cè)茶葉拼配比例的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)參數(shù) Table 2 Structural parameters of the convolutional neural network of tea blending ratio prediction model
本文進(jìn)一步測(cè)試首層卷積核大小對(duì)結(jié)果影響,第一種網(wǎng)絡(luò)為首層大卷積核,卷積核尺寸為204×1,后續(xù)卷積核依次采用下采樣機(jī)制;第二種網(wǎng)絡(luò)為首層小卷積核,首層卷積核尺寸顯著減小,后續(xù)卷積核依次采用下采樣機(jī)制,網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)如表4所示,特征維度選擇40,80。計(jì)算結(jié)果如表5所示,可以看出,采用大卷積核的網(wǎng)絡(luò)結(jié)構(gòu),其驗(yàn)證集的決定系數(shù)和均方根誤差均優(yōu)于小卷積核網(wǎng)絡(luò)。分析這種現(xiàn)象產(chǎn)生的原因,作者認(rèn)為,圖像識(shí)別類機(jī)器學(xué)習(xí)任務(wù)存在目標(biāo)類別多,原始數(shù)據(jù)差異性較大的特點(diǎn),而茶樣的光譜數(shù)據(jù),從趨勢(shì)上來(lái)看基本相似,差異僅存在于部分波段的反射率。此時(shí),若采用小卷積核,將會(huì)提取大量相似而又冗余的信息,可能會(huì)導(dǎo)致學(xué)習(xí)效果不佳,甚至網(wǎng)絡(luò)難以收斂的問題。
表4 兩類不同維度下及不同卷積核大小的網(wǎng)絡(luò)結(jié)構(gòu)參數(shù) Table 4 Network structure parameters under two different dimensions and different convolution kernel sizes
表5 采用不同網(wǎng)絡(luò)結(jié)構(gòu)時(shí)的性能指標(biāo)對(duì)比 Table 5 Performance comparison under different neural network structures
為了對(duì)比不同特征提取方法的效果,本文采用經(jīng)典的PCA方法提取光譜特征,分別采用Softmax與PLS算法,預(yù)測(cè)各原料茶的拼配比例。為了驗(yàn)證不同維度的特征變量對(duì)預(yù)測(cè)效果的影響,也將降維后維數(shù)在[10,100]區(qū)間以10為步長(zhǎng)做遍歷。
在PCA降維后采用Softmax算法(PCA+Softmax)的預(yù)測(cè)結(jié)果如圖6所示,在PCA降維后采用PLS算法(PCA+PLS)的預(yù)測(cè)結(jié)果如圖7所示,從曲線趨勢(shì)來(lái)看,兩種方法有一定共性,即當(dāng)特征維數(shù)在20及以上時(shí),其兩項(xiàng)主要性能指標(biāo)隨特征維數(shù)變化不大。測(cè)試集結(jié)果與訓(xùn)練集、驗(yàn)證集并無(wú)明顯差距,說(shuō)明沒有出現(xiàn)過擬合現(xiàn)象。驗(yàn)證集上定量對(duì)比性能指標(biāo),可以發(fā)現(xiàn)PCA+Softmax的兩項(xiàng)性能指標(biāo)均略高于PCA+PLS方法。
圖6 基于PCA結(jié)合Softmax方法的拼配比例預(yù)測(cè)模型性能 Fig.6 PCA combined with Softmax method to predict the performance of the blending ratio model
圖7 基于PCA結(jié)合PLS方法的拼配比例預(yù)測(cè)模型性能 Fig.7 PCA combined with PLS method to predict the performance of the blending ratio model
驗(yàn)證集性能指標(biāo)通常作為模型選擇的依據(jù),不同方法的驗(yàn)證集決定系數(shù)與均方根隨特征變量的分布關(guān)系如圖8所示。對(duì)比各類方法的性能指標(biāo)可以看出,當(dāng)特征維數(shù)在20~100之間變化時(shí),基于CNN+Softmax方法的決定系數(shù)普遍高于其他3種方法,其RMSE值普遍低于其他3種方法,說(shuō)明基于CNN+Softmax的方法更容易獲得較好的性能指標(biāo)。本文采用的3種方法同時(shí)采用了Softmax模型預(yù)測(cè)拼配比例,但基于不同特征提取方法的結(jié)果卻有顯著性差異,說(shuō)明特征提取方法對(duì)預(yù)測(cè)效果具有顯著的影響。同時(shí)可以發(fā)現(xiàn),基于PCA特征提取方法的性能在特征維數(shù)大于等于20以后基本維持穩(wěn)定,說(shuō)明在獲得了穩(wěn)定的特征信息后,算法的性能指標(biāo)并不與特征數(shù)量呈明顯相關(guān),尤其是基于PCA的特征提取方法,其特征的方差貢獻(xiàn)率往往呈遞減趨勢(shì),單純?cè)黾犹卣骶S數(shù)并不能顯著提高性能指標(biāo)。兩種深度學(xué)習(xí)方法也表現(xiàn)出類似的結(jié)論,即CNN+Softmax以及AE+Softmax方法的性能和特征維度數(shù)量并沒有正相關(guān)關(guān)系。
圖8 不同方法的性能指標(biāo)對(duì)比 Fig.8 Performance index comparison of different methods
各類方法的驗(yàn)證集最優(yōu)性能指標(biāo)與對(duì)應(yīng)的特征維度(同樣的性能指標(biāo)取最小值)如表6所示,從表中可以看出CNN+Softmax方法的決定系數(shù)、均方根誤差在校準(zhǔn)集、驗(yàn)證集、測(cè)試集上沒有出現(xiàn)較大差異,說(shuō)明算法具有較好的泛化能力,均方根誤差值均在5%以下,誤差指標(biāo)較為理想。
表6 各類方法最優(yōu)預(yù)測(cè)精度對(duì)比 Table 6 Optimal prediction accuracy comparison of various methods
滋味品質(zhì)調(diào)控是茶葉拼配過程中的必要內(nèi)容,特別是對(duì)于大宗出口的炒青綠茶,相對(duì)外形指標(biāo),客戶往往更加關(guān)注滋味。滋味品質(zhì)的形成往往和茶葉中的主要化學(xué)成分相關(guān),近年來(lái)的研究成果證明,近紅外光譜數(shù)據(jù)可以有效表征茶葉中茶多酚、兒茶素等主要化學(xué)成分,而滋味品質(zhì)的調(diào)控是調(diào)節(jié)通過不同原料茶的比例來(lái)達(dá)成,這也是本文嘗試采用近紅外光譜數(shù)據(jù)預(yù)測(cè)拼配比例的機(jī)理。
從試驗(yàn)數(shù)據(jù)中可以看出,盡管不同樣品之間的拼配比例不同,但是其近紅外光譜數(shù)據(jù)的趨勢(shì)一致,幅值差異性很小,表現(xiàn)出高度的相關(guān)性。傳統(tǒng)的多元線性回歸方法往往難以解決這一問題,通過本文的研究結(jié)果可以發(fā)現(xiàn),特征提取方法是提高預(yù)測(cè)模型性能指標(biāo)的關(guān)鍵。卷積神經(jīng)網(wǎng)絡(luò)由于其高效的特征提取機(jī)制,更容易從近似的光譜信號(hào)中提取差異性特征信息,以較高精度實(shí)現(xiàn)拼配比例預(yù)測(cè)。
本文采用2種深度學(xué)習(xí)的方法提取光譜數(shù)據(jù)特征,一般認(rèn)為深度學(xué)習(xí)方法需要大量的樣本數(shù)據(jù),而本文的樣本數(shù)據(jù)僅為500個(gè),小樣本訓(xùn)練模型的可靠性和泛化能力是機(jī)器學(xué)習(xí)領(lǐng)域關(guān)注的共性問題。本文中,基于自動(dòng)編碼器的模型就出現(xiàn)了過擬合現(xiàn)象,數(shù)據(jù)量不足可能就是導(dǎo)致該問題的原因之一。本文的研究目的和基于圖像的目標(biāo)識(shí)別問題是不同的,ImageNet數(shù)據(jù)集包含了數(shù)萬(wàn)個(gè)類別的樣本,本文僅為4種茶樣按照不同比例拼合后的25種,樣本類別不在一個(gè)數(shù)量級(jí)上。從茶樣的數(shù)據(jù)特點(diǎn)來(lái)看,其光譜數(shù)據(jù)雖然維度較大(2 203×1),但是不同類別樣本的數(shù)據(jù)趨勢(shì)高度類似,差異僅存在于部分波段的反射率。深度網(wǎng)絡(luò)的任務(wù)是從相似的光譜數(shù)據(jù)中,提取差異性信息。結(jié)合以往的研究結(jié)果和同類文獻(xiàn)報(bào)道來(lái)看,樣本數(shù)量在數(shù)百個(gè)有望達(dá)到較好的效果。為了驗(yàn)證本文提出模型的泛化能力,作者也進(jìn)行了多折交叉驗(yàn)證,性能指標(biāo)顯示模型也具有較好的性能。后續(xù)作者將進(jìn)一步收集不同年份、批次、產(chǎn)地的產(chǎn)品,積累相關(guān)數(shù)據(jù),對(duì)預(yù)測(cè)模型的預(yù)測(cè)能力和泛化能力做出更為深入的研究。
本文以眉茶為研究對(duì)象,針對(duì)其拼配比例構(gòu)建問題,提出了一種基于近紅外光譜數(shù)據(jù)的拼配比例計(jì)算方法,并模擬茶葉拼配過程,構(gòu)造了多組不同含量的茶樣,通過預(yù)測(cè)方法的計(jì)算結(jié)果與預(yù)設(shè)比例的誤差統(tǒng)計(jì)值評(píng)價(jià)預(yù)測(cè)方法的性能。本文采用的4種方法,包括AE+Softmax(自編碼器結(jié)合Softmax模型)、CNN+Softmax(卷積神經(jīng)網(wǎng)絡(luò)結(jié)合Softmax模型)、PCA+Softmax(主成分分析結(jié)合Softmax模型)及PCA+PLS(主成分分析結(jié)合偏最小二乘模型模型),其中基于卷積神經(jīng)網(wǎng)絡(luò)結(jié)合Softmax模型的方法性能較好,當(dāng)特征維度為40時(shí),其驗(yàn)證集決定系數(shù)為0.964 3,均方根誤差為0.047 2,優(yōu)于其他方法,經(jīng)過測(cè)試集測(cè)試后的性能指標(biāo)與驗(yàn)證集較為接近,說(shuō)明算法具有較好的泛化能力。盡管構(gòu)造茶樣中各原料茶的含量不同,但是各類茶樣的近紅外光譜數(shù)據(jù)相似性較強(qiáng),所以常見的回歸計(jì)算方法精度不高,卷積神經(jīng)網(wǎng)絡(luò)由于其高效的特征提取機(jī)制,獲得了較為理想的效果。
茶葉拼配問題,需要調(diào)控的質(zhì)量因子較多,除了滋味品質(zhì)外,外形也是十分重要的質(zhì)量因子,這是近紅外光譜數(shù)據(jù)無(wú)法表征的,也是我們后續(xù)需要進(jìn)一步開展的工作。