許珊珊+譚兵+李屹+何婷??
摘要:現(xiàn)行的葡萄酒質(zhì)量的評價體系是建立在人的感官上進行的,如何通過一些量化的理化指標(biāo)來評價葡萄酒質(zhì)量是一個值得研究的方向。為此,利用多元統(tǒng)計分析的相關(guān)知識,通過研究釀酒葡萄的理化指標(biāo)和葡萄酒的質(zhì)量之間的關(guān)系,客觀的評價了葡萄酒的質(zhì)量,成功的對釀酒葡萄進行了分級。
關(guān)鍵詞:t檢驗法;K均值聚類;典型相關(guān)分析;多元線性回歸
中圖分類號:F27文獻標(biāo)識碼:Adoi:10.19311/j.cnki.16723198.2018.09.028
1問題背景
葡萄酒質(zhì)量的好壞主要依賴于評酒員的感觀評價,由于人為主觀因素的影響,對于酒質(zhì)量的評價總會存在隨機差異,找到一種簡單有效的客觀方法來評酒,如何采用一個量化的評價標(biāo)準(zhǔn)就顯得尤為重要了。本文根據(jù)全國大學(xué)生數(shù)學(xué)建模競賽2012年A題的問題和數(shù)據(jù),通過研究釀酒葡萄的好壞與所釀葡萄酒的質(zhì)量的關(guān)系,以及葡萄酒和釀酒葡萄檢測的理化指標(biāo)之間的關(guān)系,對葡萄酒的質(zhì)量進行了客觀評價和分級。
2模型假設(shè)
(1)假設(shè)附件數(shù)據(jù)來源真實有效;
(2)假設(shè)兩組品酒員在相同環(huán)境下品酒,采用評分標(biāo)準(zhǔn)一樣;
(3)假設(shè)釀酒葡萄和葡萄酒編號一一對應(yīng)。
3符號說明
4模型建立與求解
4.1問題一的模型建立與求解
4.1.1數(shù)據(jù)預(yù)處理
在數(shù)據(jù)分析之前通常要對數(shù)據(jù)進行預(yù)處理,附件1包含兩組品酒員分別對紅葡萄酒和白葡萄酒的評分?jǐn)?shù)據(jù),每組品酒員有10個,紅葡萄酒樣品有27個,白葡萄酒樣品有28個。觀察數(shù)據(jù)我們可以發(fā)現(xiàn),部分?jǐn)?shù)據(jù)存在缺失和異常現(xiàn)象,我們對其正?;幚?。對于數(shù)據(jù)缺失情況,例如第一組紅葡萄酒樣品20號中品酒員4號對色調(diào)評分?jǐn)?shù)據(jù)缺失,我們采用剩余數(shù)據(jù)的均值替換法來修補缺失數(shù)據(jù)。對于數(shù)據(jù)異常情況,例如第一組白葡萄酒樣品3號中品酒員7號對持久性數(shù)據(jù)評分超過其規(guī)定最大值,我們也是采用“先舍棄后均值替換”的方法。
4.1.2評分?jǐn)?shù)據(jù)正態(tài)性的檢驗
對數(shù)據(jù)進行預(yù)處理后,我們對附件1中品酒員對酒樣品的評價總分進行了計算,然后得出了紅葡萄酒和白葡萄酒的得分均值,其圖像如圖1、圖2所示。
觀察圖1、圖2可以發(fā)現(xiàn),兩組品酒員對紅葡萄酒和白葡萄酒的得分均值雖然在數(shù)值上有出入,但其變化趨勢大致一樣,為了評價兩組品酒員的評價結(jié)果有無顯著性差異,我們擬采用雙正態(tài)總體t檢驗法,為此我們需要對兩組品酒員的評分?jǐn)?shù)據(jù)進行正態(tài)性檢驗。
根據(jù)其得分均值數(shù)據(jù),我們采用MATLAB正態(tài)檢驗性的相關(guān)函數(shù),繪制了兩組品酒員對紅葡萄酒得分均值的頻數(shù)分布和正態(tài)概率如圖3所示。
觀察圖3我們可以發(fā)現(xiàn),兩組品酒員對紅葡萄酒得分均值頻數(shù)大致符合正態(tài)分布,而正態(tài)概率圖正說明了得分均值的概率落在直線周圍,所以我們可認(rèn)為兩組品酒員對紅葡萄的得分均值服從正態(tài)分布,我們再利用函數(shù)lillietest來檢驗是否服從正態(tài)分布,結(jié)果顯示H=0,則可以認(rèn)為是服從正態(tài)分布的。針對兩組品酒員對白葡萄酒的得分均值亦采用上述方法,結(jié)果表明其服從正態(tài)分布。
4.1.3雙正態(tài)總體t檢驗
t檢驗是一種比較成熟的檢驗方法,針對本問題,采用雙總體獨立樣本的t檢驗法,其檢驗統(tǒng)計量為:
(1)
其中S21,S22表示兩樣本方差,n1,n2表示兩樣本量。
當(dāng)樣本量n1=n2=n時,t檢驗統(tǒng)計量化簡為:
(2)
首先提出無效假設(shè)與備擇假設(shè):H0:兩組品酒員評價結(jié)果無顯著性差異,H1:兩組品酒員評價結(jié)果有顯著性差異。
計算兩組品酒員對紅葡萄酒和白葡萄酒評分均值的t統(tǒng)計量,繪制其顯著性檢驗結(jié)果如圖4所示。
觀察圖4再結(jié)合t檢驗推斷依據(jù),在顯著性水平為0.05的情況下,t檢驗值小于t(df)0.05,所以接受原假設(shè),即兩組品酒員評價結(jié)果無顯著性差異。接著計算得到了兩組品酒員對紅葡萄酒和白葡萄酒的平均顯著性t檢驗值分別為1.7539和1.1356,這說明品酒員對白葡萄酒評價結(jié)果的差異小于對紅葡萄酒的差異。
4.1.4哪組結(jié)果更可信
為了評價哪一組結(jié)果更可信,我們可以根據(jù)品酒員對酒樣品評價得分的方差來體現(xiàn),方差越小,說明品酒員之間評價結(jié)果越接近,評價結(jié)果越可信。
觀察圖像可以發(fā)現(xiàn),對于紅葡萄酒和白葡萄酒,第一組品酒員評分的方差均大于第二組品酒員評分的方差,綜上,我們可認(rèn)為第二組品酒員的評分?jǐn)?shù)據(jù)更可信一點。
4.2問題二的模型建立與求解
根據(jù)釀酒葡萄理化指標(biāo)和葡萄酒質(zhì)量對釀酒葡萄進行分級,也就是對釀酒 進行聚類。查閱文獻可知,K均值聚類法具有廣泛的應(yīng)用,是典型的基于原型的目標(biāo)函數(shù)聚類方法的代表,它是數(shù)據(jù)點到原型的某種距離作為優(yōu)化的目標(biāo)函數(shù),利用函數(shù)求極值的方法得到迭代運算的調(diào)整規(guī)則。限于篇幅原因,其實現(xiàn)原理和方法見參考文獻。
4.2.1根據(jù)葡萄酒質(zhì)量聚類
由問題一分析可知,兩組品酒員評價結(jié)果無顯著性差異,因此本文采用兩組品酒員評分均值來進行分析。利用K均值聚類算法對紅葡萄酒質(zhì)量進行聚類得到圖7。
圖7紅葡萄酒K均值聚類結(jié)果圖
根據(jù)分類的結(jié)果以及各葡萄樣品酒綜合得分最終將釀酒葡萄分為A(優(yōu)質(zhì))、B(良好)、C(中等)、D(差)四個等級,客觀地反映了釀酒葡萄的理化指標(biāo)與葡萄酒質(zhì)量之間的聯(lián)系。對于紅葡萄酒的分類結(jié)果如表2所示。
4.2.2根據(jù)釀酒葡萄酒理化指標(biāo)聚類
觀察表3中釀酒葡萄的理化指標(biāo),分為一級指標(biāo)和二級指標(biāo),為了指標(biāo)級別的統(tǒng)一性,我們選擇一級指標(biāo)進行研究,但一級指標(biāo)仍然有9個,為此,我們采用主成分分析法(Principal Component Analysis,PCA)對指標(biāo)進行降維。主成分分析,是考察多個變量間相關(guān)性一種多元統(tǒng)計方法,研究如何通過少數(shù)幾個主成分來揭示多個變量間的內(nèi)部結(jié)構(gòu),即從原始變量中導(dǎo)出少數(shù)幾個主成分,使它們盡可能多地保留原始變量的信息,且彼此間互不相關(guān).通常數(shù)學(xué)上的處理就是將原來P個指標(biāo)作線性組合,作為新的綜合指標(biāo)。endprint
利用主成分分析法先對釀酒葡萄指標(biāo)進行降維,然后在利用K均值聚類法對降維結(jié)果進行聚類。以紅葡萄為例,根據(jù)PCA得分利用K均值聚類的結(jié)果如圖9所示。
與根據(jù)葡萄酒質(zhì)量的分級結(jié)果比較,發(fā)現(xiàn)兩者一致性較差,這在情理之中。根據(jù)不同的評判標(biāo)準(zhǔn)就會得到不同的結(jié)果,根據(jù)葡萄酒分級的目的,可能認(rèn)為根據(jù)葡萄酒評分對釀酒葡萄進行分級更合理一點。對于白葡萄酒情況類似,限于篇幅不再給出白葡萄酒的分級結(jié)果。
4.3兩組變量之間的關(guān)系
4.3.1典型相關(guān)分析
欲分析釀酒葡萄與葡萄酒的理化指標(biāo)之間的聯(lián)系,可以采用典型相關(guān)分析法,典型相關(guān)分析的目的識別并量化兩組變量之間的關(guān)系,將兩組變量之間的關(guān)系轉(zhuǎn)化為一組變量的線性組合與另一組變量的線性組合之間的相關(guān)關(guān)系分析,其基本思想是主成分分析。
根據(jù)附件2發(fā)現(xiàn),釀酒葡萄的一級理化指標(biāo)有30個,葡萄酒的一級理化指標(biāo)有9個,我們采用MATLAB中的canoncorr函數(shù)分析這兩組變量之間的關(guān)系,分析結(jié)果表明,九組典型相關(guān)變量的相關(guān)系數(shù)均為1,繪制了九組典型相關(guān)變量得分如圖10所示。
由于典型相關(guān)變量太多,且其表達式較復(fù)雜,故此種方法對分析釀酒葡萄與葡萄酒理化指標(biāo)之間的聯(lián)系用處不大。
4.3.2多元線性回歸模型的建立
多元回歸分析是研究多個變量之間關(guān)系的回歸分析方法,確定變量之間數(shù)量的可能形式,并用數(shù)學(xué)模型表示如下:
(3)
其中β0為截距項,βi為偏回歸系數(shù),ε為殘差項。
假定:
(4)
建立模型后,需要對模型進行擬合度檢驗,就是用R2檢驗樣本回歸方程的變量的線性關(guān)系是否顯著,此外可以用F檢驗對整個回歸進行顯著性檢驗,即Y與所考慮的k個自變量是否有顯著性線性關(guān)系,F(xiàn)檢驗統(tǒng)計量為:
(5)
其中ESS為回歸平方和,RSS為殘差平方和,n為樣本容量,k為自變量個數(shù)。
給定顯著性水平α=0.05,可得到臨界值Fα(k,n-k-1),由樣本求出統(tǒng)計量F的數(shù)值,通過與F的臨界值進行比較,若FF(0.05)(k,n-k-1),則拒絕原假設(shè),即參數(shù)βi不全為0,認(rèn)為回歸方程在0.05水平上顯著。
為了便于分析,我們將附件2中的一級指標(biāo)進行編號,釀酒葡萄的一級指標(biāo)從氨基酸總量、蛋白質(zhì)、VC 含量直到b*(+黃;-藍)分別命名為x1,x2,x3,…xn,葡萄酒的一級指標(biāo)從花色苷、單寧、總酚直到b*分別命名為y1,y2,y3,…,yn。建立葡萄酒理化指標(biāo)y與釀酒葡萄理化指標(biāo)x之間的關(guān)系,由于釀酒葡萄一級指標(biāo)多達30個,為此,需要對釀酒葡萄一級指標(biāo)進行降維,選擇主要的指標(biāo)進行分析。以花色苷為例,針對葡萄酒的其他理化指標(biāo)的分析與之類似。建立釀酒葡萄與花色苷之間的相關(guān)系數(shù)矩陣,選擇相關(guān)系數(shù)絕對值大于均值的變量。其相關(guān)系數(shù)矩陣如表5所示。其中X表示將該變量舍去。
根據(jù)R2的大小,可判斷出多元線性回歸方程的契合度,結(jié)果顯示,在置信度95%下,R2=0.98,可知方程的吻合性非常好。且F=19.4>F(0.95,19,7)=3.46,與顯著性概率0.05相關(guān)的p=0.00027<005,這說明回歸方程中的每個自變量的選取都是有意義的。最后得到葡萄酒花色苷與釀酒葡萄一級理化指標(biāo)的多元線性回歸方程為:
y=β0+β1x2+β2x4+β3x6+…+β19x28+β20x29(6)
其中x2、x4、x4、x28、x29、y分別代表蛋白質(zhì)、釀酒葡萄花色苷、蘋果酸、L*、a*、葡萄酒花色苷。
參考文獻
[1]全國大學(xué)生數(shù)學(xué)建模競賽官網(wǎng),2012年高教社杯全國大學(xué)生數(shù)學(xué)建模競賽賽題[EB/OL].http://www.mcm.edu.cn/problem/2012/2012.html.
[2]百度百科,t檢驗定義[EB/OL].https://baike.baidu.com/item/t%E6%A3%80%E9%AA%8C/9910799?fr=aladdin.
[3]百度百科,K均值聚類[EB/OL].https://baike.baidu.com/item/K-means/4934806?fr=aladdin.
[4]朱建平.應(yīng)用多元統(tǒng)計分析[M].第3版.北京:科學(xué)出版社,2016.
[5]百度百科,主成分分析法[EB/OL].https://baike.baidu.com/item/%E4%B8%BB%E6%88%90%E5%88%86%E5%88%86%E6%9E%90/829840?fr=aladdin.endprint