韓方凱,張雪柯,呂日琴,張東京,翟科峰
1.宿州學院生物與食品工程學院,宿州,234000;2.江蘇大學食品與生物工程學院,鎮(zhèn)江,212013
葡萄酒色味俱佳、品位高雅,且具有重要的保健功效,在全球范圍內(nèi)廣受歡迎。近年來,我國葡萄酒消費量快速增加,2016年為17.2億升,較2015年增長6.9%,增幅位居全球首位。與此同時,葡萄酒的品質(zhì)問題也愈來愈受到消費者和政府的關注。目前,市場上葡萄酒品牌多樣,品種繁多,各檔次產(chǎn)品玲瑯滿目,價格參差不齊,更甚者出現(xiàn)采用人工色素和酒精溶液勾兌的假酒[1]。價格虛高會造成消費者的經(jīng)濟損失,假冒偽劣的葡萄酒則會直接影響到消費者的身體健康,甚至危及生命安全,因此保障葡萄酒產(chǎn)品的優(yōu)良品質(zhì)具有重要的現(xiàn)實意義。作為品質(zhì)控制重要的一環(huán),葡萄酒品質(zhì)的快速、客觀、準確評價非常重要。
傳統(tǒng)的葡萄酒品質(zhì)檢測方法主要有理化指標測定法和感官評價法。葡萄酒品質(zhì)的理化指標測定法是指通過檢測葡萄酒部分理化指標值來對葡萄酒進行品質(zhì)評定,如品質(zhì)優(yōu)良的葡萄酒酒精度不應低于7.0%vol、干浸出物不應低于16.0 g/L、揮發(fā)性酸不應高于1.2 g/L、甲醇不應高于400 mg/L,且應具有較高的酚類物質(zhì)含量等。理化指標檢測法的重要缺陷在于,難以實現(xiàn)葡萄酒品質(zhì)的綜合評價。實際操作中,葡萄酒綜合品質(zhì)的評價方法主要通過感官分析進行。葡萄酒品質(zhì)的感官分析指評價員用口、眼、鼻等人體感覺器官對葡萄酒產(chǎn)品的感官特性進行檢查與分析評定。國家標準GB 15037-2006《葡萄酒》對葡萄酒的色澤、澄清度、香氣、滋味等感官特性提出了明確的要求,并據(jù)此將成品葡萄酒按品質(zhì)等級分為五類,即優(yōu)質(zhì)品、優(yōu)良品、合格品、不合格品和劣質(zhì)品,而推薦性國家標準GB/T 15038-2006《葡萄酒、果酒通用分析方法》則提供了葡萄酒感官品質(zhì)的詳細分析方法,用以指導實際操作。感官評價實用性較強,然而培訓感官評審專家是一個復雜的過程,成本較高。理化成分是感官評審結果的物質(zhì)基礎,兩者存在重要的相關關系。建立基于理化指標的葡萄酒感官評審結果預測模型,以快速評價葡萄酒的綜合品質(zhì),具有重要的研究意義。2009年,Paulo Cortez等人以葡萄酒理化指標數(shù)據(jù)作為輸入、感官評審結果作為輸出,構建支持向量機(Support Vector Machine,SVM)預測模型。結果顯示,SVM模型的預測準確率優(yōu)于多元回歸和神經(jīng)網(wǎng)絡預測模型[2]。2010年,王金甲等人提出了一種基于線性判別分析的可視化方法評價葡萄酒質(zhì)量,建立葡萄酒理化指標與感官分析結果之間的關系。結果顯示,所開發(fā)的排序分類器的預測性能優(yōu)于SVM和神經(jīng)網(wǎng)絡,平均誤差率為88.4%,且效率最高,耗時為1 238 s[3]。
極限學習機(Extreme Learning Machine,ELM)是一種針對單隱含層神經(jīng)網(wǎng)絡(Single-hidden Layer Feedforward Neural Network,SLFN)的新型算法,由南洋理工大學黃廣斌教授等人于2006年首次提出[4]。與傳統(tǒng)的訓練方法相比,ELM隨機產(chǎn)生輸入層與隱含層的連接權值及隱含層神經(jīng)元閾值,建模過程中只需設置隱含層神經(jīng)元個數(shù),模型便可以獲得唯一最優(yōu)解,具有學習速度快,泛化性能好等優(yōu)點,現(xiàn)已廣泛用于模式識別領域。大量研究表明[5-7],ELM較傳統(tǒng)的神經(jīng)網(wǎng)絡算法可顯著提高運算速度。然而,國內(nèi)外尚未出現(xiàn)ELM算法在葡萄酒品質(zhì)分析中的應用。本研究嘗試采用ELM算法,考察葡萄酒理化指標與感官評審結果的相關關系,構建高品質(zhì)葡萄酒等級的快速識別模型。
研究所用葡萄酒理化指標與感官評審結果數(shù)據(jù)均來自于葡萄牙綠酒區(qū)域葡萄栽培委員會(Commission of Viticulture of the Vinho Verde Region,CVVVR)[2]。理化指標包括固定酸(酒石酸)、揮發(fā)酸(乙酸)、檸檬酸、殘?zhí)?、?氯化鈉)、游離二氧化硫、總二氧化硫、密度、pH值、硫酸鹽(硫酸鉀)和酒精度共11個。感官評審結果將受試樣本劃分為0~10個等級,等級0表示品質(zhì)極差,等級10表示品質(zhì)極好。研究將高品質(zhì)葡萄酒等級定義在6~8等級范圍內(nèi),共包含855個樣品,用于ELM快速預測模型的構建。
ELM是針對SLFN的新算法,假設輸入層有n個神經(jīng)元,即對應n個輸入變量;隱含層有l(wèi)個神經(jīng)元;輸出層有m個神經(jīng)元。本研究中,n=1~11,m=1。設輸入層與輸出層的連接權值為w(l×n),wji表示第i個神經(jīng)元與隱含層第j個神經(jīng)元間的連接權值;隱含層與輸出層連接權值β(l×1),βj表示隱含層第j個神經(jīng)元與輸出層之間的連接權值;隱含層神經(jīng)元閾值b(l×1);具有Q個樣本的訓練集輸入矩陣x和輸出矩陣y如下:
設隱含層神經(jīng)元的激活函數(shù)為g(x),則網(wǎng)絡的輸出T為:
T=[t1,t2,…,tQ]1×Q
其中,wi=[wi1,wi2,…,win],xj=[x1j,x2j,…,xnj]T;亦可表示為Hβ=TT,其中:
由建模數(shù)據(jù)采用的理化指標可以看出,受試葡萄酒樣本的11個理化指標值之間存在一定的共線性。多重共線性的變量無疑存在重疊信息,對模型的運算速度會產(chǎn)生一定影響。主成分分析(Principal Component Analysis,PCA)可通過正交變換將多變量之間的共線性去除,同時起到降維作用[10]。經(jīng)PCA分析,主成分的累積貢獻率如圖1所示,可看出前三個主成分的累計貢獻率可達99.64%,前三主成分得分已能代表原始變量大部分的信息。
圖1 葡萄酒理化指標數(shù)據(jù)主成分累計貢獻率
葡萄酒理化指標前三個主成分的載荷如表1所示??梢钥闯?,對第一主成分和第二主成分影響較大的變量為樣本中二氧化硫殘留;對第三成分影響較大的變量為固定酸和殘?zhí)?。受試葡萄酒樣本在前三個主成分中的空間分布如圖2所示,可看出樣本點分布重疊嚴重,僅僅靠線性判別方法難以實現(xiàn)高品質(zhì)葡萄酒樣本的準確識別。
圖2 葡萄酒樣本理化指標值前三個主成分得分散點圖
由PCA分析結果可知,葡萄酒理化指標數(shù)據(jù)的前三個主成分已可代表原始變量大部分的信息。因此,研究采用葡萄酒樣本的前三個主成分得分作為ELM的輸入,以葡萄酒樣本的品質(zhì)等級作為網(wǎng)絡的輸出,隨機選取樣本總數(shù)的2/3為訓練集,另外1/3為測試集,構建ELM預測模型。經(jīng)過多次比較,選用hardlim函數(shù)作為ELM輸出層傳遞函數(shù)。在ELM模型的構建過程中,考察了不同隱含層神經(jīng)元個數(shù)對模型預測性能的影響,當隱含層神經(jīng)元個數(shù)為151時,訓練集預測的準確率為82.46%,測試集預測準確率為80.7%,達到較好效果。且整個建模與預測過程用時不足1 s,效率極高。
葡萄酒品質(zhì)的準確、快速檢測對保障葡萄酒品質(zhì)具有重要的作用。研究以葡萄酒理化指標值作為輸入,葡萄酒感官評審結果作為輸出,構建ELM定性識別模型。由實驗結果可知,當ELM隱含層神經(jīng)元個數(shù)為151時,模型的預測性能最好,獨立樣本的正確識別率可達80%以上,且效率極高,運算用時不足1 s??梢姡‥LM模型可用于高品質(zhì)葡萄酒等級的快速預測。
圖3 不同隱含層神經(jīng)元個數(shù)下ELM模型訓練集和測試集正確識別率