魏舜洋,石國良
(中國傳媒大學理工學部,北京 100024)
葡萄酒是一種以新鮮的葡萄為原料,經酒精發(fā)酵制成的酒精含量不低于8.5%的飲料酒,是國際酒類中僅僅次于啤酒的第二大流行飲料酒[1]。葡萄酒中含有許多人體不可缺少的營養(yǎng)成分,如糖類,維生素,氨基酸,有機酸等。正是由于葡萄酒對人體的這些益處,葡萄酒消費量與日俱增。但是目前市場上的葡萄酒良莠不齊,人們也越來越關注葡萄酒質量的鑒定。而目前葡萄酒質量的鑒別主要是靠感官品嘗和儀器分析來確定,但這兩種方法都存在著缺陷。感官品嘗需要專業(yè)的品酒師,一般人無法做到,借助液相色譜儀、原子吸收光譜、質譜分析儀等儀器分析程序比較復雜,使用的費用昂貴,且不能達到實際應用中實時、快捷的要求,因此這兩種方法都不太適合大規(guī)模的使用。本文主要將模糊聚類的方法運用到了葡萄酒分類的鑒別中,對模糊聚類分析方法用于葡萄酒分類進行探討。本文數(shù)據基于2012年全國大學生數(shù)學建模競賽A題附件2所給的數(shù)據分析如何運用模糊聚類分析[2]的方法來根據釀酒葡萄的理化指標和葡萄酒的質量對這些釀酒葡萄進行分類。
模糊聚類分析,又稱為動態(tài)聚類法。當選定一批聚類中心時,其指標能夠反映該類的特征,將樣本向最近的聚類中心去聚類。再根據分類的結果來確定新的聚類中心,其各項指標就為該類中所有樣本的相應指標的平均值。然后計算出前后兩聚類中心的差異,比如差異大于某個值時,說明分類不合理,需要修改分類,即以新的聚類中心來代替舊的聚類中心,直到前后兩聚類中心的差異小于某個值時,認為分類合理,從而停止分類過程。
本文所采用的數(shù)據基于2012年全國大學生數(shù)學建模競賽A題附件2所給的數(shù)據,給出了紅葡萄酒和白葡萄的釀酒葡萄的理化指標,而本文主要針對其中一種葡萄酒來研究模糊聚類分析在葡萄酒的分類中的應用。本文選擇了紅葡萄酒,其中有27個紅葡萄酒樣品,與之相聯(lián)系有9個理化指標;將數(shù)據進行清洗和處理,得到數(shù)據見表1。
表1 紅葡萄酒的理化指標(部分)
從表1,我們很容易發(fā)現(xiàn)這些釀酒葡萄的理化指標的單位不一致,即每個指標單位和數(shù)量級都存在著差異,我們就不能直接進行比較。若直接運用這些理化指標的數(shù)據進行分析,很可能會突出某些數(shù)量級大的指標在分類中的權重卻忽視了數(shù)量級較小的特征性理化指標,導致了換一個單位就會將聚類結果推翻,得到不同的結果。所以,在聚類分析前,我們應該對這些數(shù)據進行量綱處理,這樣每一種特征的理化指標值都會統(tǒng)一于一個具有可比較性的特定范圍內。為了使不同的量綱的量也能進行比較,通常需要對數(shù)據作適當?shù)淖儞Q。
第一步:數(shù)據標準化
設論域 U={x1,x2,…,xn}為被分類的對象,每個對象又由m個指標表示其性狀,即xi=(xi1,xi2,…,xim)(i=1,2,…,n),于是得到了原始數(shù)據矩陣為
通常根據模糊矩陣的要求,運用數(shù)據標準化方法將數(shù)據壓縮到區(qū)間[0,1]上[3]。樣本的數(shù)據標準化方法有許多種,平移標準差變換、平移極差變換、對數(shù)變換等都是常用的數(shù)據處理方法。
本文采用的是平移極差變換,
設論域 U={x1,x2,…,xn},xi=(xi1,xi2,…,xim),建立模糊相似矩陣和xi與xj的相似程度rij=R(xi,xj)。相似關系R是衡量樣本之間相似度的一種模糊度量的方法,是模糊相似矩陣。
直接距離法:rij=1 -cd(xi,xj),
其中 c為選取適當?shù)膮?shù),使得0≤rij≤1,d(xi,xj)表示xi與xj的距離。常采用的距離有海明(Hamming)距離、歐幾里得(Euclid)距離、切比雪夫(Chebyshev)距離[4]等。
本文采用的是海明距離法,選取合適的常數(shù)c,使得 0≤rij≤1
將釀酒葡萄的理化指標數(shù)據通過一定的數(shù)理統(tǒng)計的方法進行預處理后,使它們具有統(tǒng)一的度量與可比性,可以通過以上模型的計算方法,把數(shù)據代入數(shù)據原始的矩陣,進行計算。
第三步:聚類(求動態(tài)聚類圖)
由模糊相似矩陣R={rij}n×n構建模糊等價矩陣,根據公式,當U有限時,模糊相似矩陣R的傳遞閉包t(R)=Rk,(k>n)定是模糊等價矩陣 R*,因此,用平分法求:計算 R2=R·R,R4=R2·R2,…,直到 R2n=Rn=Rn,則 R*=Rn。
在模糊聚類中,并沒有預先指定聚類數(shù)量,數(shù)據是根據自身的特征自動聚成不同類型的類。若輸入不同的值,便會得到不同的聚類結果,這也是模糊聚類的特征。
相關分析[5]是研究變量之間相關關系的一種統(tǒng)計分析方法,它可以衡量兩個變量之間的相關密切程度,數(shù)據(x1,y1),(x2,y2),…(xn,yn).
由于葡萄酒質量和釀就葡萄質量密切相關,因此對葡萄酒分類時要考慮與葡萄酒有顯著相關的釀酒葡萄的理化指標。通過相關性分析可以找到與葡萄酒有顯著相關的釀酒葡萄的理化指標,一方面,這些指標可以作為對葡萄酒分類的部分指標,另一方面,可以通過對釀酒葡萄的這些理化指標的檢測控制釀葡萄酒原料的質量,從而可以從根源上提高葡萄酒的質量。
下面給出了相關分析的理化指標的部分相關系數(shù)表[6],如表2 所示。
我們從表2可以看出,紅葡萄酒與釀酒葡萄的花色苷,DPPH,總酚,單寧,總黃酮,色澤a*均在水平下顯著相關。其中色澤a*負相關,而紅葡萄酒與釀酒葡萄的白藜蘆醇、色澤L*及b*不相關。
表2 釀酒葡萄理化指標的相關性系數(shù)表
通過對釀酒葡萄與紅葡萄酒的理化指標的相關性分析,從釀酒葡萄的理化指標中選出了與葡萄酒的理化指標有顯著相關性的理化指標作為葡萄酒分類的部分指標,分別是:紅葡萄酒的釀酒葡萄的理化指標有花色苷、單寧、總酚、總黃酮、DPPH、色澤a*。我們結合釀酒葡萄的這些顯著相關性的理化指標重新對葡萄酒運用模糊聚類的方法進行分類。
由3.1節(jié)分析結果可知,各個指標對于釀制葡萄酒所起的作用是不一樣的,因此本文基于屬性的約簡,確定了各個理化指標的權重[7],從而突出各個指標在分類過程中所占有的地位和所起的作用。實驗驗證,權重的確定影響著方案排序結果的可靠性和正確性。各理化指標的權重如表3所示。
表3 顯著相關性理化指標的權重
基于模糊聚類分析的建模思想,將表1中的紅葡萄酒的理化指標的數(shù)據寫成數(shù)據矩陣。運用MATLAB軟件,得到紅葡萄酒分類動態(tài)聚類圖,如圖1所示。
圖1 紅葡萄酒的分類動態(tài)聚類圖
從圖1紅葡萄酒分類的動態(tài)聚類圖中,不難發(fā)現(xiàn)若將樣品分成三類,有
第一類:{1,2},
第二類:{3,9,8,11,20,21,23},
第三類:{15,16,14,17,19,24,27,18,22,26,4,5,13,6,7,12,10}。
基于釀酒葡萄與葡萄酒的理化指標的相關分析,得出了與紅葡萄酒有顯著相關性的理化指標是花色苷、單寧、總酚、總黃酮、DPPH、色澤a*。將這些有顯著相關性的理化指標重新寫成數(shù)據矩陣,運用MATLAB軟件,到紅葡萄酒分類動態(tài)聚類圖,如圖2所示。
圖2紅葡萄酒分類的動態(tài)聚類圖顯示,若將樣品分成三類,有
第一類:{1,8},
圖2 紅葡萄酒的分類動態(tài)聚類圖
第二類:{2,23},
第三類:{24,26,25,27,22,6,17,14,15,10,16,13,19,12,10,16,13,19,12,18,4,6,20,21,3,9,11}。
基于釀酒葡萄理化指標權重的確定,每個理化指標都有相應的權重。將具有權重的釀酒葡萄的理化指標重新寫成數(shù)據矩陣,運用MATLAB軟件,得到紅葡萄酒分類動態(tài)聚類圖,如圖3所示。
圖3 紅葡萄酒的分類動態(tài)聚類圖
圖3紅葡萄酒分類的動態(tài)聚類圖顯示,若將樣品分成三類,有
第一類:{1,8},
第二類:{2},
第三類:
{23,24,26,25,27,22,6,17,14,15,10,16,13,19,12,10,16,13,19,12,18,4,6,20,21,3,9,11}。
文獻[2]中采用的是系統(tǒng)聚類法,分類的結果如下:
第一類:{1},
第二類:{2,8,9},
第三類:{3,4,5,6,7,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27}。
從以上的聚類效果可知,樣品8的類別是存在歧義的,進一步分析釀酒葡萄的理化指標可知,與樣品2的指標數(shù)據相比,樣品1的各指標與樣品8更為接近,因此將樣品1和樣品8歸為一類者似乎更為合理,這就驗證了基于模糊聚類模型的有效性和實用性。
另外,由于模糊聚類分析具有動態(tài)的特征,比較以上實驗結果發(fā)現(xiàn):將27個樣品分為四類時圖2和圖3顯示的結果一致。分類結果如下:
第一類:{1,8},
第二類:{2},
第三類:{23},
第四類:
{24,26,25,27,22,6,17,14,15,10,16,13,19,12,10,16,13,19,12,18,4,6,20,21,3,9,11}。
顯然分成四類結果與三類的結果相同之處在與樣品1、樣品2、樣品8始終屬于離散類別(類別包含樣品較少稱為離散類別),不同之處就在于樣品23是否也為離散類別。根據釀葡萄酒的理化指標數(shù)據顯示,與普通類別(類別包含樣品數(shù)目較多稱為普通類別)有明顯差異,因而我們認為此時分類效果更優(yōu)。
本文主要將模糊聚類分析的思想和方法運用到了市場上良莠不齊的葡萄酒質量鑒定分類中,建立了葡萄酒分類的模糊聚類分析模型。本文采用了相關性分析進行屬性約簡并且用相關性系數(shù)作為各個理化指標的權重,也可以運用粗糙集的相關理論進行屬性約簡,對于權重的確定也可采用基于粗糙集條件信息熵的權重確定,這些將在以后的工作中進一步討論。
[1]高景山.基于人工魚群的模糊聚類算法研究及其在葡萄酒分類中的應用[D].西安:長安大學碩士論文,2013.
[2]Kanade P.Fuzzy ants as a clustering concept[D].M S diassertation,University of South Florida,Tampa,F(xiàn)L,2004.
[3]謝季堅,劉承平.模糊數(shù)學方法及其應用(第3版)[M].武漢:華中科技大學出版,2006.
[4]Nascimento S,Mirkin B,Moura -Pires F.Modeling proportional membership in fuzzy clustering[J].IEEE Transcations on fuzzy Systerms,2003,11(2):173-186.
[5]茆詩松,程依明.概率論與數(shù)理統(tǒng)計[M].北京:高等教育出版社,2011.
[6]霍明娟.基于聚類分析法的葡萄酒評價[J].太原師范學院學報(自然科學版),2014,13(2):35-4.
[7]韓小孩,張耀輝.基于主成分分析的指標權重確定方法[J].四川兵工學報,2012,10(33):124 -126.