周瑞,陳曉明*,張莉麗,張良,許德富,張宿義,代小雪, 毛洪川,謝菲,代漢聰,宋艷,郭佳,陳雯月
1(西南科技大學(xué) 生命科學(xué)與工程學(xué)院,四川 綿陽(yáng),621000)2(瀘州老窖股份有限公司,四川 瀘州,646000) 3(四川省綿陽(yáng)市豐谷酒業(yè)有限責(zé)任公司,四川 綿陽(yáng),621000)
濃香型白酒作為我國(guó)特有的傳統(tǒng)固態(tài)蒸餾酒,在漫長(zhǎng)的發(fā)展過(guò)程中形成了獨(dú)具匠心的釀造工藝及酒體風(fēng)格,在世界范圍內(nèi)受到了廣大白酒消費(fèi)者的一致好評(píng)[1]。白酒酒度是酒體是否達(dá)標(biāo)的判定條件之一,在GB/T 10345—2007《白酒分析方法》中,對(duì)于酒度的測(cè)定主要有酒精計(jì)法和密度計(jì)法,整個(gè)檢測(cè)過(guò)程需要人工采樣以及肉眼目測(cè)后再查表?yè)Q算,較為煩瑣。在檢測(cè)一線如何對(duì)大批量酒樣進(jìn)行快速地判別對(duì)酒度的真實(shí)性鑒定具有重大意義[2]。白酒品牌是消費(fèi)者對(duì)產(chǎn)品標(biāo)識(shí)的第一概念,也是白酒企業(yè)的生存之本,但一些不良商家常常以次充好,這對(duì)相關(guān)企業(yè)造成巨大困擾。因此,為了保證消費(fèi)者與企業(yè)的共同利益,實(shí)現(xiàn)對(duì)不同品牌白酒的無(wú)損檢測(cè)是十分必要的。
紅外光譜分析技術(shù)因其具有無(wú)損、高效、可實(shí)時(shí)在線分析等特點(diǎn),已被廣泛應(yīng)用于白酒內(nèi)在品質(zhì)指標(biāo)的定量分析以及白酒品牌的鑒識(shí)之中[3-4]。近、中紅外光譜皆有映現(xiàn)有機(jī)物分子振動(dòng)信息的功能,但大多數(shù)典型官能團(tuán)的振動(dòng)峰都位于中紅外區(qū),其波數(shù)范圍為4 000~400 cm-1,具有吸收強(qiáng)度大、信息易提取以及分子選擇性好等優(yōu)點(diǎn)[5]。近年來(lái),中紅外光譜技術(shù)結(jié)合化學(xué)計(jì)量學(xué)手段在判別分析中取得了一系列研究進(jìn)展,XIAO等[6]基于中紅外光譜結(jié)合偏最小二乘判別分析(partial least squares discrimination analysis,PLS-DA)對(duì)2種牛奶進(jìn)行識(shí)別,正確率達(dá)95.2%。PEI等[7]也利用中紅外光譜結(jié)合PLS-DA和隨機(jī)森林對(duì)196份野生云南蘑菇的產(chǎn)地進(jìn)行追溯,鑒別正確率為100%?;谥屑t外光譜結(jié)合化學(xué)計(jì)量學(xué)可對(duì)光譜信息進(jìn)行有效提取并建立模型,且辨別效果較好,但在當(dāng)前研究中卻鮮有將中紅外光譜結(jié)合化學(xué)計(jì)量學(xué)對(duì)白酒的品牌、香型、酒度和產(chǎn)地等進(jìn)行識(shí)別。
本研究基于中紅外光譜結(jié)合化學(xué)計(jì)量學(xué)手段對(duì)不同酒度和品牌的濃香型白酒進(jìn)行判別分析,采用平滑濾波(Savitzky-Golay, S-G)和標(biāo)準(zhǔn)正態(tài)變換(standard normal variate, SNV)方法對(duì)光譜進(jìn)行預(yù)處理,選擇主成分分析比較光譜預(yù)處理效果后,再結(jié)合蚱蜢算法優(yōu)化支持向量機(jī)(grasshopper optimization algorithm-support vector machine, GOA-SVM)和誤差反向傳播神經(jīng)網(wǎng)絡(luò)(back-propagation artificial neural network, BP-ANN)為濃香型白酒品牌鑒別以及酒度鑒定提供理論依據(jù)。
試驗(yàn)選擇由瀘州老窖公司提供的不同酒度濃香型酒樣以及市場(chǎng)購(gòu)買(mǎi)的不同品牌濃香型酒樣,樣品信息如表1所示。
表1 濃香型白酒樣品Table 1 The detail of the strong-flavor Baijiu samples
IR Spirit傅里葉變換衰減全反射中紅外光譜儀,日本島津公司。
1.3.1 中紅外光譜采集
本次試驗(yàn)在(20±2)℃下進(jìn)行,提前0.5 h打開(kāi)儀器進(jìn)行預(yù)熱后,設(shè)置中紅外儀器參數(shù):測(cè)定模式:透過(guò)率;掃描次數(shù)32;分辨率8 cm-1;波數(shù)范圍4 000~400 cm-1。將酒樣置于ATR附件上,以空氣作為參比,扣除大氣背景影響。為了減少因試驗(yàn)操作而導(dǎo)致的誤差,要保證環(huán)境的干燥,每測(cè)試完1個(gè)酒樣,要擦拭干凈。酒樣經(jīng)平行測(cè)定3次后,取3次光譜的平均值作為酒樣的最終光譜數(shù)據(jù),每條原始光譜記錄了1 263個(gè)透過(guò)率值。
1.3.2 光譜預(yù)處理
采集的原始光譜數(shù)據(jù)包含由其他因素所產(chǎn)生的各種干擾信號(hào),在創(chuàng)建定性定量模型之前,進(jìn)行光譜預(yù)處理能夠消除無(wú)關(guān)信息的干擾并提取物質(zhì)的有效信息,對(duì)后續(xù)建立模型的精度具有重大影響。S-G是通過(guò)多次測(cè)量光譜信息數(shù)據(jù)求平均值來(lái)減低隨機(jī)誤差和提高信噪比的方法,SNV方法被用于消除因樣品粒徑大小分布不均勻所導(dǎo)致的光譜差異[8]。本次試驗(yàn)將平滑的窗口大小設(shè)置為21,分別基于S-G與SNV方法對(duì)光譜進(jìn)行預(yù)處理,并根據(jù)不同樣品選擇其最適光譜預(yù)處理方法后再進(jìn)一步進(jìn)行判別分析。
1.3.3 樣本集的劃分
采用Kennard-Stone方法根據(jù)不同樣品間的歐氏距離將建模酒樣按7∶3劃分為訓(xùn)練集和測(cè)試集,在構(gòu)建BP-ANN的模型過(guò)程中,測(cè)試集還將被劃分為驗(yàn)證集,占總樣本數(shù)的15%。
1.3.4 主成分分析
主成分分析作為化學(xué)計(jì)量學(xué)中分析中紅外光譜數(shù)據(jù)的常見(jiàn)方法之一,其核心思想是利用方差最大原則,對(duì)光譜數(shù)據(jù)多個(gè)自變量進(jìn)行線性擬合,將高維的數(shù)據(jù)映射到低維的空間中,并期望在所投影的維度上數(shù)據(jù)的方差最大,以此使用較少的數(shù)據(jù)維度,但同時(shí)保留較多的原數(shù)據(jù)點(diǎn)的特性[9]。經(jīng)主成分分析后得到各成分的累積貢獻(xiàn)率,在此基礎(chǔ)上,繪制基于前3個(gè)主成分的各類(lèi)型酒樣聚類(lèi)圖。
1.3.5 GOA-SVM
GOA是一種新型的元啟發(fā)式算法,由SAREMI等[10]于2017年提出,該算法具有很強(qiáng)的全局搜尋能力和局部探尋能力,擁有算法簡(jiǎn)單、利于實(shí)現(xiàn)和配制參數(shù)少等優(yōu)點(diǎn)[11]。支持向量機(jī)能很好的預(yù)防欠學(xué)習(xí)與過(guò)學(xué)習(xí)的發(fā)生,在解決實(shí)際問(wèn)題中屬于較好的化學(xué)計(jì)量學(xué)方法之一,臺(tái)灣大學(xué)林智仁等開(kāi)發(fā)了支持向量機(jī)的訓(xùn)練與預(yù)測(cè)工具箱——LIBSVM 3.24,此處基于該工具箱進(jìn)行判別分析。
在本次研究中,分別將LZLJ 38%vol、45%vol、52%vol、73%vol的酒樣標(biāo)簽設(shè)置為“1”“2”“3”“4”,以便于后續(xù)判別分析模型的建立,創(chuàng)建模型的流程如圖1所示。
圖1 構(gòu)建GOA-SVM判別分析模型流程圖Fig.1 Flow chart of establishing GOA-SVM discriminant analysis model
采用GOA算法進(jìn)行支持向量機(jī)參數(shù)尋優(yōu)后,構(gòu)建GOA-SVM模型,設(shè)置其最大迭代次數(shù)為100,種群大小為20,c的優(yōu)化范圍為10-5~103,g的優(yōu)化范圍為10-5~103,交叉驗(yàn)證折數(shù)為5,選擇徑向基核函數(shù)。使用MATLAB R2018b中Mapminmax函數(shù)對(duì)光譜數(shù)據(jù)進(jìn)行歸一化,將數(shù)據(jù)范圍映射至[0,1]。
1.3.6 誤差反向傳播人工神經(jīng)網(wǎng)絡(luò)
構(gòu)建BP-ANN模型時(shí),傳遞函數(shù)使用purelin,訓(xùn)練次數(shù)設(shè)置為1 000次,學(xué)習(xí)速率設(shè)置為0.01,動(dòng)量因子設(shè)置為0.01,最小性能梯度設(shè)置為1e-6,最高失敗次數(shù)設(shè)置為6,使用MATLAB R2018b中Mapminmax函數(shù)對(duì)光譜數(shù)據(jù)進(jìn)行歸一化處理,將數(shù)據(jù)范圍映射至[-1,1]。
如圖2所示,在本研究中BP-ANN的結(jié)構(gòu)包含1 263個(gè)輸入,3個(gè)輸出,10個(gè)隱含層。不同品牌酒樣的透過(guò)率值所形成的1 263×50的數(shù)據(jù)矩陣作為BP-ANN的輸入層神經(jīng)元,將“1”,“2”和“3”分別設(shè)置為“LZLJ 52%vol”“FG 52%vol”和“WLY 52%vol”的標(biāo)簽后作為BP-ANN的輸出層神經(jīng)元。
圖2 BP-ANN模型結(jié)構(gòu)示意圖Fig.2 Schematic diagram of the structure of the BP-ANN model
使用MATLAB R2018b軟件自編的S-G和SNV方法對(duì)光譜數(shù)據(jù)進(jìn)行預(yù)處理后,再構(gòu)建GOA-SVM與BP-ANN模型進(jìn)行判別分析,Origin 2021進(jìn)行主成分分析并繪制聚類(lèi)圖。
由于各酒樣中水分以及微量有機(jī)成分的不同,造成中紅外光譜存在一定的差異,這為白酒的分類(lèi)鑒別提供了良好的數(shù)學(xué)基礎(chǔ)。為進(jìn)一步解析不同類(lèi)型酒樣的原始光譜特征,分別對(duì)各類(lèi)酒樣的光譜數(shù)據(jù)進(jìn)行平均,得到6條不同類(lèi)型濃香型白酒的平均光譜,如圖3所示。2 981、1 654、1 046 cm-1等附近有特征峰,不同酒樣特征峰的透過(guò)率值大小存在明顯差異,可對(duì)部分酒樣進(jìn)行區(qū)分,但在諸如2 000~1 200 cm-1等波數(shù)范圍之間,還是很難通過(guò)光譜圖對(duì)不同酒樣進(jìn)行分類(lèi)。與此同時(shí),原始光譜中存在較為明顯的譜峰堆疊等現(xiàn)象,需對(duì)光譜做進(jìn)一步處理。
圖3 平均后光譜Fig.3 Spectrum after averaging
由圖4可知,經(jīng)S-G處理后的光譜在4 000~3 600 cm-1和2 400~1 200 cm-1等波數(shù)范圍間較原始光譜得到了良好的區(qū)分,且經(jīng)S-G處理后的全光譜差異性較SNV更為明顯,二者的高頻噪聲和譜峰堆疊等現(xiàn)象都得到改善。直接用肉眼觀察光譜預(yù)處理的效果雖具有一定的合理性,但卻帶有人為主觀的因素,可能導(dǎo)致錯(cuò)誤地評(píng)判光譜預(yù)處理效果,于是需要結(jié)合化學(xué)計(jì)量學(xué)對(duì)預(yù)處理的好壞做進(jìn)一步分析比對(duì)[12]。
a-S-G處理后光譜;b-SNV處理后光譜圖4 光譜預(yù)處理效果Fig.4 Spectral preprocessing effect
如圖5所示,繪制不同酒度以及不同品牌酒樣基于前3個(gè)主成分的三維聚類(lèi)得分圖,可以看出不同類(lèi)型濃香型白酒的聚類(lèi)效果都較好。不同光譜預(yù)處理下PC1、PC2和PC3的累積貢獻(xiàn)率分別達(dá)到了98.3%、97.9%、99.7%和96.1%,這說(shuō)明前3個(gè)主成分能很好地反映整體數(shù)據(jù)集的有效信息。
由圖5-a可知,經(jīng)S-G處理后,僅有LZLJ 45%vol與LZLJ 52%vol可實(shí)現(xiàn)100%區(qū)分,其余2類(lèi)酒樣有部分重疊。由圖5-b可知,經(jīng)SNV處理后,LZLJ 45%vol與LZLJ 73%vol可實(shí)現(xiàn)100%區(qū)分,其余2類(lèi)酒樣的95%置信橢圓幾乎完全重疊,區(qū)分效果很差。因此,針對(duì)不同酒度酒樣的光譜數(shù)據(jù),S-G預(yù)處理效果更好。由圖5-c和圖5-d可知,SNV較S-G處理更好,WLY 52%vol得到區(qū)分。鑒于主成分分析不能完全區(qū)分不同酒度以及不同品牌濃香型白酒,故在選擇最適光譜預(yù)處理方法的基礎(chǔ)上,需進(jìn)一步選擇其他化學(xué)計(jì)量學(xué)手段來(lái)建立識(shí)別不同酒度和不同品牌濃香型白酒的新方法。
a-不同酒度S-G處理后;b-不同酒度SNV處理后;c-不同品牌S-G處理后;d-不同品牌SNV處理后圖5 基于光譜預(yù)處理的主成分分析Fig.5 Principal component analysis based on spectral preprocessing
使用GOA智能優(yōu)化算法,基于訓(xùn)練集數(shù)據(jù)矩陣進(jìn)行支持向量機(jī)參數(shù)尋優(yōu)。如圖6所示,GOA優(yōu)化算法的收斂速度很快,在c=1 000,g=1e-05時(shí),5折檢驗(yàn)下訓(xùn)練集的辨別正確率為100%。
因此,基于徑向基核函數(shù),構(gòu)建c=1 000,g=1e-05的SVM模型后,對(duì)4種酒度濃香型白酒的30組測(cè)試集數(shù)據(jù)進(jìn)行分類(lèi)。圖7表明,以S-G處理后的全光譜數(shù)據(jù)作為輸入特征構(gòu)建的GOA-SVM模型,對(duì)4種不同酒度濃香型白酒的識(shí)別效果極好,測(cè)試集分類(lèi)的正確率可達(dá)100%。
圖7 基于GOA-SVM的不同酒度濃香型白酒分類(lèi)結(jié)果Fig.7 Classification results of strong-flavor Baijiu with different alcoholic strength based on GOA-SVM
BP-ANN通過(guò)擬合不同品牌酒樣與透過(guò)率值間的數(shù)據(jù)來(lái)建立判別分析模型,其擬合回歸系數(shù)R值表示輸入特征與輸出類(lèi)型之間的相關(guān)性[13]。在BP-ANN模型的建立過(guò)程中,所有酒樣的70%作為訓(xùn)練集,15%作為驗(yàn)證集,15%作為測(cè)試集。圖8所示的回歸分析展示了輸出類(lèi)型與實(shí)際類(lèi)型的擬合程度, BP-ANN模型的訓(xùn)練集、驗(yàn)證集、測(cè)試集和總體數(shù)據(jù)集的R值分別為0.999 78、0.999 43、0.994 82和0.999,這表明訓(xùn)練好的模型具有極佳的預(yù)測(cè)能力。
圖8 BP神經(jīng)網(wǎng)絡(luò)模型回歸曲線Fig.8 Regression curve of BP neural network model
由圖9可知,訓(xùn)練后的BP-ANN模型對(duì)測(cè)試集酒樣的分類(lèi)效果很好,預(yù)測(cè)值與實(shí)際期望值高度吻合,3類(lèi)品牌白酒的分類(lèi)正確率達(dá)100%。
圖9 基于BP-ANN的不同品牌濃香型白酒分類(lèi)結(jié)果Fig.9 Classification results of different brands of strong-flavor Baijiu based on BP-ANN
在中紅外光譜分析研究中,光譜預(yù)處理方式和建模方法的選擇是提高模型預(yù)測(cè)精確度的關(guān)鍵,實(shí)際處理光譜數(shù)據(jù)時(shí),還可運(yùn)用智能算法提取最適光譜特征來(lái)不斷優(yōu)化與改善預(yù)測(cè)模型[14]。本文基于中紅外光譜結(jié)合化學(xué)計(jì)量學(xué)對(duì)不同類(lèi)型濃香型白酒進(jìn)行判別分析,采用S-G平滑與SNV對(duì)光譜進(jìn)行預(yù)處理后,再基于主成分分析比較光譜預(yù)處理效果。試驗(yàn)結(jié)果表明,S-G處理后的光譜數(shù)據(jù)經(jīng)主成分分析對(duì)不同酒度酒樣區(qū)分較好,SNV處理則對(duì)不同品牌酒樣區(qū)分更好。
在構(gòu)建模型前,按Kennard-Stone算法將優(yōu)化后的光譜數(shù)據(jù)劃分為訓(xùn)練集和測(cè)試集后,建立GOA-SVM和BP-ANN分類(lèi)器。在實(shí)際使用過(guò)程中,支持向量機(jī)通常會(huì)聯(lián)合智能優(yōu)化算法,對(duì)自身在參數(shù)、核函數(shù)選擇以及使用條件上進(jìn)行尋優(yōu),以提升分類(lèi)能力,降低誤差[15]。試驗(yàn)結(jié)果表明,基于S-G處理后的全光譜數(shù)據(jù)結(jié)合GOA尋優(yōu)算法建立的SVM分類(lèi)器對(duì)不同酒度濃香型白酒的判別正確率為100%。
BP-ANN是一種簡(jiǎn)單的前向分層神經(jīng)網(wǎng)絡(luò),其通過(guò)逆向傳播來(lái)更正網(wǎng)絡(luò)中的權(quán)值和閾值,具有極強(qiáng)的自主學(xué)習(xí)能力?;贐P-ANN的3層網(wǎng)絡(luò)原理設(shè)計(jì)的非線性分類(lèi)器原理簡(jiǎn)單,實(shí)現(xiàn)方便,通過(guò)測(cè)定酒樣所得光譜數(shù)據(jù)對(duì)濃香型白酒進(jìn)行分類(lèi)屬于典型的非線性問(wèn)題,BP-ANN對(duì)其有很好的預(yù)測(cè)分類(lèi)能力。但BP-ANN中也存在收斂速度過(guò)慢,易陷于局部極小和隱含層節(jié)點(diǎn)數(shù)不確定等瑕玷,為克服BP-ANN中的缺陷,在實(shí)際應(yīng)用中也可使用一些優(yōu)化算法對(duì)BP-ANN中的學(xué)習(xí)速率,動(dòng)量因子和隱含層節(jié)點(diǎn)數(shù)進(jìn)行優(yōu)化,以加快收斂速度,具體優(yōu)化算法視樣本而定。在本研究中,試驗(yàn)結(jié)果表明基于SNV處理后光譜結(jié)合BP-ANN分類(lèi)器可以很好地區(qū)分3種不同品牌濃香型白酒,辨別正確率為100%。
本試驗(yàn)雖只選取了部分不同酒度、品牌濃香型白酒進(jìn)行建模分析,但相關(guān)試驗(yàn)結(jié)果仍表明中紅外光譜技術(shù)結(jié)合化學(xué)計(jì)量學(xué)對(duì)不同酒度、品牌濃香型白酒的分類(lèi)鑒別是可行的。在“中國(guó)制造2025”、工業(yè)“4.0”等大背景下,涉及白酒的質(zhì)量控制、產(chǎn)地溯源、市場(chǎng)監(jiān)管和售后管理等都將走向信息化和智能化,然而當(dāng)前許多企業(yè)仍習(xí)慣采用傳統(tǒng)的檢測(cè)方法,導(dǎo)致相關(guān)便攜式設(shè)備的開(kāi)發(fā)尚未得到足夠重視。因此,在今后研究中可基于更大的樣本量,著重開(kāi)發(fā)精確度較高的便攜式中紅外光譜檢測(cè)儀并結(jié)合化學(xué)計(jì)量學(xué)手段為白酒的產(chǎn)地溯源、酒度鑒定和品牌區(qū)分等提供數(shù)字化方案。