吳瑞紅,王亞麗,張環(huán)沖,王鮮芳
(河南師范大學(xué) 計算機(jī)與信息技術(shù)學(xué)院,河南 新鄉(xiāng)453003)
葡萄酒具有特殊的營養(yǎng)價值和醫(yī)療保健作用,是食品工業(yè)的重要組成部分 .如何對葡萄酒科學(xué)分類,提高葡萄酒的質(zhì)量,對促進(jìn)行業(yè)健康發(fā)展具有重要的實際意義.人們一直靠感官來判定葡萄酒質(zhì)量的好壞,而感官鑒定受到多種因素的影響,其準(zhǔn)確性難以得到保證.國內(nèi)外對葡萄酒質(zhì)量評判的研究主要有遺傳神經(jīng)網(wǎng)絡(luò)[1]、模糊神經(jīng)網(wǎng)絡(luò)[2]、數(shù)據(jù)挖掘[3]和貝葉斯[4]等算法.本文針對通過感官鑒別葡萄酒質(zhì)量的準(zhǔn)確性難以保證的問題,建立一種基于最小二乘支持向量機(jī)學(xué)習(xí)算法的酒質(zhì)量評判模型.
Suykens等[5]提出的最小二乘支持向量機(jī)(LS-SVM)是標(biāo)準(zhǔn)支持向量機(jī)[6-8]的一種改進(jìn).它將標(biāo)準(zhǔn)支持向量機(jī)中的不等式約束改為等式約束,且將誤差平方和損失函數(shù)作為訓(xùn)練集的經(jīng)驗損失 .這樣就把解二次規(guī)劃問題轉(zhuǎn)化為求解線性方程組問題,提高求解問題的速度和收斂精度.
設(shè)定訓(xùn)練集{xi,yi則最小二乘支持向量機(jī)優(yōu)化問題表示為
式(1)中:ξi≥0是允許錯分的松弛變量;γ為錯誤懲罰分量.
通過式(1)的對偶形式可以求它的最優(yōu)解,而對偶形式可以根據(jù)目標(biāo)函數(shù)和約束條件建立拉格朗日函數(shù) .即
式(2)中:αi是Lagrange乘子.
按照 KKT(Karush-Kuhn-Tucker)條件[9]對式(2)進(jìn)行優(yōu)化,分別對w,b,ξi,αi求導(dǎo),即有
式(3)能被直接表示為
式(4)中:Y=[y1,…,yN],ξ=[ξ1,…,ξN],α=[α1,…,αN],Z=[φ(x1)Ty1,…,φ(xN)TyN],1=[1,…,1],I是單位矩陣.w和ξ的值可以從式(3)得出,那么式(4)可以表示為
根據(jù)文獻(xiàn)[9]中的Mercer定理,可以實用核函數(shù)K(·,·),即
常用的核函數(shù)有多項式核、高斯核、感知器核和B樣條核[10].文中建模選用的是高斯核函數(shù),即徑向基核函數(shù),其形式為
式(7)中:σ為核寬度參數(shù).
通過式(5),(6)就可以得到分類器,避免了標(biāo)準(zhǔn)的SVM中相對復(fù)雜的二次規(guī)劃問題.所求出的α,b可以得到訓(xùn)練集的分類決策函數(shù),其表達(dá)式為
多分類支持向量機(jī)常用的方法有4種:一對多、一對一、導(dǎo)向無環(huán)圖、二叉樹.“一對一”的分類方法雖計算復(fù)雜,但精度高,適合類別數(shù)目較少的情形[11].因此,基于文獻(xiàn)[11,12-16]的思想,設(shè)計了基于最小二乘支持向量機(jī)(LS-SVM)的多元分類器.文中采用“一對一”(OAO)的方法進(jìn)行多元分類,該方法是基于兩類問題的分類方法,但兩類問題是從原來的多類問題中抽取的.應(yīng)用該方法需要構(gòu)建k(k-1)/2個二元分類器,也就是需要構(gòu)建k(k-1)/2個決策函數(shù),k為所需分類問題的種類數(shù).
為了驗證構(gòu)建的多元分類器的預(yù)測準(zhǔn)確率,對 UCI機(jī)器學(xué)習(xí)數(shù)據(jù)庫(http://archive.ics.uci.edu/ml/datasets/Wine)中的葡萄酒數(shù)據(jù)集進(jìn)行仿真實驗.該數(shù)據(jù)集共包括178個樣本,分成3類,第1類的樣本有59個,第2類的樣本有71個,第3類的樣本有48個.每個樣本含有13個特征分量,分別是Al-cohol,Malic acid,Ash,AlKalinity of ash,Magnesium,Total phenols,F(xiàn)lavanoids,Nonflavanoid phenols,Proanthocyanins,Color intensity,Hue,OD280/OD315of diluted wines,Proline,這些特征分量作為分類器的輸入數(shù)據(jù)X.圖1為葡萄酒數(shù)據(jù)可視化圖.
圖1 葡萄酒數(shù)據(jù)的分維可視化圖Fig.1 Fractal dimension visual figure of wine data
所研究的葡萄酒品質(zhì)有3類,基本的LS-SVM是基于兩類的,必須應(yīng)用多元分類LS-SVM,即采用OAO LS-SVM方法對葡萄酒進(jìn)行分類.在OAO LS-SVM分類方案中,要想對葡萄酒進(jìn)行分類,需要構(gòu)建3個二元分類器 .二元分類決策函數(shù)表達(dá)式為式(10),再結(jié)合式(9),可以構(gòu)建出基于LS-SVM的葡萄酒品質(zhì)多元分類器.
為了提高分類準(zhǔn)確率,對數(shù)據(jù)集進(jìn)行歸一化預(yù)處理,采用的歸一化映射為
式(11)中:x,y∈Rn;xmin=min(x);xmax=max(x)歸一化的效果是原始數(shù)據(jù)被規(guī)整到[0,1]范圍內(nèi),即yi=[0,1],i=1,2,…,n.
仿真運用的平臺為Windows 7,4G內(nèi)存,軟件為MATLAB(R2010b).為了驗證模型的健壯性和適應(yīng)性,對預(yù)處理過的178個葡萄酒樣本采取隨機(jī)采樣的方法選取訓(xùn)練集,每次從全體數(shù)據(jù)中隨機(jī)的選擇1/2作為訓(xùn)練集,其余的數(shù)據(jù)作為測試集,即實驗時訓(xùn)練集樣本為89,測試集樣本為89.
利用式(9),(10)構(gòu)建的多元分類器,以及文獻(xiàn)[7]中的交叉驗證方法得到相關(guān)參數(shù).LS-SVM對訓(xùn)練集訓(xùn)練時,多維無約束非線性優(yōu)化問題采用Nelder-Mead單純形算法[18],即為Simplex.最好分類結(jié)果如圖2所示.LS-SVM對4次隨機(jī)采樣的訓(xùn)練結(jié)果,如表1所示.表1中:N為運行次數(shù);γ為懲罰系數(shù);σ為核參數(shù);t為運行時間;φ為準(zhǔn)確度.
圖2 LS-SVM多元分類器分類結(jié)果可視化圖Fig.2 Visual figure of classified results with LS-SVM multi-classifier
為了證明所構(gòu)筑分類器的分類性能,在同樣的輸入數(shù)據(jù)和測試數(shù)據(jù)的條件下,分別又構(gòu)筑了SVM和BP神經(jīng)網(wǎng)絡(luò)多元分類器[17].SVM同樣采用[17]中的交叉驗證得到相關(guān)參數(shù),取值和分類結(jié)果如表2所示.
表1 LS-SVM多元分類器的分類結(jié)果Tab.1 Classified results with LS-SVM multi-classifier
表2 SVM多元分類器的分類結(jié)果Tab.2 Classified results with SVM multi-classifier
在BP神經(jīng)網(wǎng)絡(luò)多元分類器中,輸入層取13個節(jié)點,隱含層取8個節(jié)點,輸出層取3個節(jié)點.其最佳隱含層節(jié)點數(shù)選擇參考如下公式,即
式(12)中:n為輸入層節(jié)點數(shù);l為隱含層節(jié)點數(shù);m為輸入出層節(jié)點數(shù);a為0~10之間的常數(shù).學(xué)習(xí)速率為0.1,慣性系數(shù)為0.01.表3為BP分類器的分類結(jié)果.BP,SVM,LS-SVM分類方法的比較結(jié)果,如表4所示 .表4中的平均運行時間(tav)、平均分類準(zhǔn)確率(φav)分別從表1~3中計算得出.
表3 BP多元分類器分類結(jié)果Tab.3 Classified results with BP multi-classifier
從表4可見:最小二乘支持向量機(jī)其健壯性和適應(yīng)性最好,其平均分類準(zhǔn)確率最高為98.315%,且收斂速度最快.標(biāo)準(zhǔn)支持向量機(jī)的分類準(zhǔn)確率次之為98.3146%,收斂速度較慢.這是因為最小二乘支持向量機(jī)把解二次規(guī)劃問題轉(zhuǎn)化為求解線性方程組問題,提高求解問題的速度和收斂精度,且所需計算資源少.LS-SVM最高分類準(zhǔn)確率達(dá)到100%,表明當(dāng)訓(xùn)練參數(shù)和訓(xùn)練樣本選擇最佳情況時,LS-SVM分類準(zhǔn)確率也將達(dá)到最佳.與BP神經(jīng)網(wǎng)絡(luò)分類方法所得結(jié)果比較發(fā)現(xiàn):SVM和LS-SVM分類器均具有較高的準(zhǔn)確率.這說明支持向量機(jī)能較好地解決小樣本、非線性等實際問題,具有很強(qiáng)的泛化能力.
表4 不同分類方法的結(jié)果對比Tab.4 Comparison of different classified methods′results
模型的參數(shù)最終取使得訓(xùn)練集驗證分類準(zhǔn)確率最高的那組γ和σ做為最佳參數(shù),如有多組γ和σ對應(yīng)于最高的驗證分類準(zhǔn)確率,則取能夠達(dá)到最高分類準(zhǔn)確率中參數(shù)γ最小的那組γ和σ做為最佳的參數(shù),如果對應(yīng)最小的γ有多組σ,就選取搜索到的第1組γ和σ做為最佳參數(shù).
針對通過感官鑒別葡萄酒質(zhì)量的準(zhǔn)確性難以保證的問題,建立了一種基于最小二乘支持向量機(jī)學(xué)習(xí)算法的葡萄酒質(zhì)量評判模型.同時,用BP神經(jīng)網(wǎng)絡(luò)、標(biāo)準(zhǔn)支持向量機(jī)分類器對葡萄酒進(jìn)行訓(xùn)練.
從BP神經(jīng)網(wǎng)絡(luò)、標(biāo)準(zhǔn)支持向量機(jī)和最小二乘支持向量機(jī)3種分類準(zhǔn)確率及運行時間對比,最小二乘支持向量機(jī)平均分類準(zhǔn)確率最高,所能達(dá)到的最高分類準(zhǔn)確率為100%.由此可見,最小二乘支持向量機(jī)在模式分類問題上能提供好的泛化性能,求解速度快,求解所需的計算資源較少.
運用交叉驗證方法選取懲罰系數(shù)和核參數(shù)來訓(xùn)練分類器是有效的.“一對一”算法為多元分類器實現(xiàn)提供了很好的方法,雖其計算復(fù)雜,但精度高,適合類別數(shù)目較少的情形.最小二乘支持向量機(jī)能較好地解決小樣本、非線性等實際問題,在葡萄酒品質(zhì)評判中具有很大應(yīng)用潛力.
[1] 殷勇,邱明,劉云宏,等.基于遺傳神經(jīng)網(wǎng)絡(luò)的酒類鑒別技術(shù)[J].農(nóng)業(yè)機(jī)械學(xué)報,2003,34(6):104-106.
[2] RAPTIS C G,SIETTOS C I,KIRANOUDIS C T,et al.Classification of aged wine distillates using fuzzy and neural network systems[J].Journal of Food Engineering,2000,46(4):267-275.
[3] CORTEZ P,CERDEIRA A,ALMEIDA F,et al.Modeling wine preferences by data mining from physicochemical properties[J].Decision Support Systems,2009,47(4):547-557.
[4] BELTRáN N H,DUARTE-MERMOUD M A,et al.Feature extraction and classiication of Chilean wines[J].Journal of Food Engineering,2006,75(1):1-10.
[5] SUYKENS J K,VANDEWALLE J.Least squares support vector machine classifiers[J].Neural Processing Letter,1999,9(3):293-300.
[6] VAPNIK V N.The nature of statistical learning theory[M].New York:Pringer-Verlag,1995.
[7] VAPNIK V N.Statistical learning theory[M].New York:Pringer-Verlag,1998.
[8] HE Xi-sheng,ZHE Wang,Cheng Jin,et al.A simplified multi-class support vector machine with reduced dual optimization[J].Pattern Recognition Letters,2012,33(1):71-82.
[9] CRISTIANINI N,SHAWE-TAYLOR J.An introduction to support vector machines and other kernel-based learning methods[M].Cambridge:The Press Syndicate of Cambridge University,2000.
[10] 潘立登,李大字,馬俊英.軟測量技術(shù)原理與應(yīng)用[M].北京:中國電力出版社,2009.
[11] WANG Tai-yue,CHIANG Huei-min.One-against-one fuzzy support vector machine classifier:An approach to text categorization[J].Expert Systems with Applications,2009,36(6):10030-10034.
[12] 朱家元,郭基聯(lián),張恒喜,等.多元分類LS-SVM設(shè)計與裝備保障性評估[J].裝備指揮技術(shù)學(xué)院學(xué)報,2003,14(3):12-15.
[13] VEENMAN C J,BOLCK A.A sparse nearest mean classifier for high dimensional multi-class problems[J].Pattern Recognition Letters,2011,32(6):854-859.
[14] 陳志剛,連香姣,于會媛,等.多元支持向量機(jī)在壓縮機(jī)故障診斷中的應(yīng)用[J].石油機(jī)械,2009,37(11):63-65.
[15] LI Xiao-li,NIE Peng-cheng,QIU Zheng-jun,et al.Using wavelet transform and multi-class least square support vector machine in multi-spectral imaging classification of Chinese famous tea[J].Expert Systems with Applications,2011,38(9):11149-11159.
[16] FU Jui-hsi,LEE Sing-ling.A muti-class SVM classification system based on learning methods from indistinguishable chinese official documents[J].Expert Systems with Applications,2012,39(7):3127-3134.
[17] 史峰,王小川,郁磊,等.MATLAB神經(jīng)網(wǎng)絡(luò)30個案例分析[M].北京:北京航空航天大學(xué)出版社,2010.
[18] CHELOUAH R,SIARRY P.A hybrid method combining continuous tabu search and Nelder-Mead simplex algorithms for the global optimization of multiminima functions[J].European Journal of Operational Research,2005,161(3):636-654.