孫明未
摘要:葡萄酒的質(zhì)量與釀酒葡萄的理化指標(biāo)、葡萄酒的理化指標(biāo)等緊密相關(guān)。本文以釀酒葡萄和葡萄酒為研究對象,利用多種統(tǒng)計方法研究葡萄酒指標(biāo)和葡萄酒質(zhì)量之間的定性和定量關(guān)系。找出評酒員對酒的評價之間存在的顯著性差異,并對釀酒葡萄進(jìn)行了分級,具有一定的應(yīng)用價值。
關(guān)鍵詞:葡萄酒評價 多元配對比較檢驗(yàn) 聚類分析 復(fù)相關(guān)回歸分析 逐步回歸分析
1、引言
在我們?nèi)粘5纳钪校瑢ζ咸丫频姆治鲆话闶峭ㄟ^聘請一批有資質(zhì)的評酒員進(jìn)行品評,從而確定葡萄酒的質(zhì)量。根據(jù)每位評酒員品嘗葡萄酒后對其分類指標(biāo)的打分,求其總和作為該類酒的總分,以此來確定不同葡萄酒樣本的質(zhì)量。釀酒葡萄的好壞一般與所釀葡萄酒的質(zhì)量有直接的關(guān)聯(lián),葡萄酒的理化指標(biāo)和釀酒葡萄檢測的理化指標(biāo)均會在一定程度上反映出葡萄酒的優(yōu)劣和葡萄的質(zhì)量。2012年全國大學(xué)生數(shù)學(xué)建模競賽A題中給出了一批評酒員對某一年份多種葡萄酒的評價結(jié)果,該年份這些葡萄酒的理化指標(biāo)和釀酒葡萄的成分?jǐn)?shù)據(jù),以及釀酒葡萄和葡萄酒中含有的芳香物質(zhì)數(shù)據(jù),本文以此為基礎(chǔ),利用多元統(tǒng)計分析方法解決下列問題:
(1)分析兩組評酒員的評價結(jié)果有無顯著性差異;
(2)根據(jù)釀酒葡萄的理化指標(biāo)和葡萄酒的質(zhì)量對這些釀酒葡萄進(jìn)行分級;
(3)分析釀酒葡萄與葡萄酒的理化指標(biāo)之間的聯(lián)系;
(4)分析釀酒葡萄和葡萄酒的理化指標(biāo)對葡萄酒質(zhì)量的影響,并論證能否用葡萄和葡萄酒的理化指標(biāo)來評價葡萄酒的質(zhì)量。
2、基本假設(shè)
(1)建模僅依據(jù)賽題提供數(shù)據(jù),不考慮其他信息;
(2)不考慮葡萄酒釀酒工藝的差異,即可認(rèn)為選取的葡萄酒樣本產(chǎn)自相同水平葡萄酒加工工藝的廠商;
(3)評酒員對選取的各葡萄酒樣本的打分相互獨(dú)立,不受他人影響及外界因素的干擾。
3、數(shù)據(jù)的預(yù)處理
(1)第一組紅葡萄酒中的數(shù)據(jù)F76缺失,我們采用其他剩余九名評酒員評分的平均值代替該缺失數(shù)據(jù);
(2)第一組白葡萄酒中數(shù)據(jù)J233的異常值為77(因該類評分最高分為8分),我們認(rèn)為其為輸入錯誤,所以把該數(shù)據(jù)定為7;
(3)釀酒葡萄工作表中的數(shù)據(jù)DD34,考察其它兩組樣本數(shù)據(jù),我們認(rèn)為其為輸入錯誤,因此可將其定為226.1;
(4)因?yàn)閱栴}2-4都涉及到理化指標(biāo)數(shù)據(jù)的運(yùn)用,又因?yàn)楦鞣N指標(biāo)的量綱不同,所以必須先對附件2、3中的數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,標(biāo)準(zhǔn)化處理的公式為:
再運(yùn)用SPSS按以上公式對數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理。
4、模型的建立與求解
4.1 問題1的模型建立與求解
Ⅰ、多元配對分析的基本理論
配對樣本是指同一樣本進(jìn)行測試所獲得的兩組數(shù)據(jù),或?qū)蓚€完全相同的樣本在不同條件下進(jìn)行測試所得的兩組數(shù)據(jù),分為自身配對和同源配對[1]。自身配對指同一試驗(yàn)單位在二個不同時間上分別接受前后兩次處理,用其前后兩次的觀測值進(jìn)行自身對照比較;或同一試驗(yàn)單位的不同部位的觀測值或不同方法的觀測值進(jìn)行自身對照比較。同源配對指將來源相同、性質(zhì)相同的兩個個體配成一對,然后對配對的兩個個體隨機(jī)地實(shí)施不同處理,顯然本題為同源配對問題。兩配對樣本t檢驗(yàn)就是根據(jù)樣本數(shù)據(jù)對兩個配對樣本來自的兩配對總體的均值是否有顯著差異進(jìn)行推斷。
(1)兩配對樣本t檢驗(yàn)的前提條件:
1、兩配對應(yīng)該是配對的。(兩樣本的觀測值數(shù)目相同,兩樣本的觀測值的順序不能隨意更改)
2、樣本來自的兩個總體應(yīng)該服從正態(tài)分布。
(2)兩配對樣本t檢驗(yàn)的基本實(shí)現(xiàn)思路:
設(shè)X1服從正態(tài)分布其中,
這樣,檢驗(yàn)的問題就轉(zhuǎn)化為單樣本t檢驗(yàn)問題,即轉(zhuǎn)化為檢驗(yàn)Y的均值是否與0有顯著差異。
第二步,建立零假設(shè)
第三步:構(gòu)造t統(tǒng)計量
第四步,利用SPSS自動計算出t值和對應(yīng)的P值
第五步,作出判斷:
若P值小于顯著性水平α,則拒絕零假設(shè),即認(rèn)為總體存在顯著差異
若P值大于顯著性水平α,則接受原假設(shè),即認(rèn)為兩總體不存在顯著差異。
先對兩組白葡萄酒評分進(jìn)行樣本檢驗(yàn), 得配對變量的相關(guān)系數(shù)為r=0.245,對應(yīng)答概率P值為0.28>0.05,可以認(rèn)為兩配對變量無相關(guān)關(guān)系。兩配對樣本的配對差的均值為-2.48929,T統(tǒng)計量的值為-2.602,對應(yīng)的概率P值為P=0.015<0.05,故拒絕原假設(shè),認(rèn)為兩組評酒員對白葡萄酒的評價結(jié)果有差異性。白葡萄酒兩組評分配對樣本T檢驗(yàn)結(jié)果如下表4-1
表4-1白葡萄酒兩組評分配對樣本檢驗(yàn)結(jié)果
同理,對兩隊(duì)紅葡萄酒評分也進(jìn)行二元配對分析,可以得到如表4-1所示的成對樣本分析數(shù)據(jù),分析可知:兩組間的相關(guān)系數(shù),即配對變量的相關(guān)系數(shù)為,對應(yīng)答概率值為,可以認(rèn)為兩配對變量有相關(guān)關(guān)系。兩配對樣本的配對差的均值為,統(tǒng)計量的值為,對應(yīng)的概率值為,故拒絕原假設(shè),認(rèn)為兩組評酒員對紅葡萄酒的評價結(jié)果有差異性。 由此可以得出對于紅白兩種葡萄酒,兩組評酒員的評價結(jié)果都有顯著性差異的結(jié)論。然后再分別對兩類葡萄酒分別做組內(nèi)方差,可得如下結(jié)果:
表 4-2各組葡萄酒得分方差
則有
Ⅱ、單因素方差分析
根據(jù)附件一中各個評酒員分別對各種葡萄酒樣品各種指標(biāo)的分析評價打分,通過求和可以分別得到各類葡萄酒組內(nèi)各名評酒員對各種葡萄酒樣品的整體評分。
先對兩組白葡萄酒的評分進(jìn)行單因素方差分析可得如表1-1所示的單因素方差分析表。從表中可以看出,第五列是統(tǒng)計量F值,計算得1.313;表中第二行、第三行給出了方差的兩個來源,即“組間”和“組內(nèi)”;第三列是檢驗(yàn)統(tǒng)計量的自由度,組間自由度為27,組內(nèi)為28;總自由度為55。
第二列表示偏差平方和,其中組間偏差平方和為547.266,組內(nèi)偏差平方和為432.375,總偏差平方和為979.641。均方為偏差平方和和自由度的商,分別為20.269和15.442,兩者之比為F分布的觀測值1.313。針對假設(shè)Ho,組間均值存在顯著性差異,計算F分布觀測值為1.313,而對應(yīng)的概率P值為0.239。在默認(rèn)顯著性水平為0.05的前提下,由于F統(tǒng)計量的觀測值對應(yīng)的概率P值大于0.05,則應(yīng)接受原假設(shè),即認(rèn)為兩組評酒員對白葡萄酒的評價結(jié)果無顯著性差異。
再對兩組紅葡萄酒的評分進(jìn)行單因素方差分析,經(jīng)分析,在默認(rèn)顯著性水平為0.05的前提下,由于F統(tǒng)計量的觀測值對應(yīng)的概率P值0.002<0.05,則應(yīng)拒絕原假設(shè),即認(rèn)為兩組評酒員對紅葡萄酒的評價結(jié)果有顯著性差異。又因?yàn)檫M(jìn)行單因素方差分析的前提是:
1.樣本要獨(dú)立;
2.各樣本符合正態(tài)分布;
3.各個總體方差是否齊性,要先進(jìn)行方差齊性檢驗(yàn)。
然而在該種情況下,不能夠完全符合上述條件,所以在本題中進(jìn)行單因素方差分析所得到的結(jié)果不可靠,而實(shí)際上,根據(jù)以上實(shí)驗(yàn)計算,進(jìn)行單因素方差分析所得到的結(jié)果與多元配對分析的結(jié)果不太一樣,因此接受多元配對分析的結(jié)果。
4.2 問題2的模型建立與求解
聚類分析法的原理是將參與聚類的每個個體(或變量)視為一類,根據(jù)各個個體之間的距離或相似性,逐步合并,直到合并為一個大類為止。根據(jù)分層聚類分析原理,對于任何數(shù)據(jù)都沒有唯一正確的分類標(biāo)準(zhǔn)。不同的聚類方法得到的結(jié)果或多或少都有一定的差別。一般情況下,我們可以根據(jù)以下幾個原則確定分類數(shù)[2]:
1.各類重心之間的距離必須很大;
2.確定的類中,各類中包含的元素一般都不要太多;
3.類的個數(shù)必須符合實(shí)用的目的;
4.若采用幾種不同的聚類方法處理,則在各自的聚類途中應(yīng)發(fā)現(xiàn)相同的類
由前面得到的紅白葡萄理化指標(biāo)的標(biāo)準(zhǔn)值矩陣分別對紅白葡萄進(jìn)行聚類。對于白葡萄,使用ward聯(lián)接對其聚類可得圖4-1、圖4-2所示的聚類分析圖。
圖4-2 白葡萄分層聚類分析樹形圖
圖4-2中所示的白葡萄分層聚類分析樹形圖顯示了分層聚類過程中,從每個個體為單獨(dú)的一類,逐次合并,一直到全部合并成一大類,整個過程都在樹形圖中得到體現(xiàn)。
圖4-1是一幅縱向顯示的冰掛圖。從該圖中可以很輕易地看出任何類數(shù)時的分類結(jié)果。對于白葡萄,根據(jù)分類原則,我們選取聚類類數(shù)為6時,根據(jù)圖4-1可以將葡萄樣品分為下列五類A
圖4-3中所示的紅葡萄分層聚類分析樹形圖顯示了分層聚類過程中,從每個紅葡萄個體為單獨(dú)的一類,逐次合并,一直到全部合并成一大類,整個過程都在樹形圖中得到體現(xiàn)。圖4-4是一幅縱向顯示的冰掛圖。從該圖中可以很輕易地看出任何類數(shù)時的分類結(jié)果。對于紅葡萄,根據(jù)分類原則,當(dāng)我們選取聚類類數(shù)為5時,根據(jù)圖4-4可以將葡萄樣品分為下列五類A對上述五類葡萄進(jìn)行標(biāo)準(zhǔn)差和均值計算,由各分類的均值大小可以對其分類級別高低有個客觀的判斷,即:E>B>C>D>A(Ⅰ>Ⅱ>Ⅲ>Ⅳ>Ⅴ),分類結(jié)果如下表4-4
表4-4 紅葡萄聚類分級
4.3 問題3的建模與求解
對于負(fù)相關(guān)系數(shù)的求解,首先要建立葡萄酒的各項(xiàng)理化指標(biāo)分別對釀酒葡萄的所有理化指標(biāo)回歸方程,然后測定系數(shù),再計算其復(fù)相關(guān)系數(shù),并由此說明變量之間的相關(guān)程度的高低,當(dāng)相關(guān)系數(shù)計算出來后,還必須判斷其是否有意義和使用價值,因此必須進(jìn)行復(fù)相關(guān)系數(shù)的顯著性檢驗(yàn)。先利用SPSS做復(fù)相關(guān)回歸分析得到復(fù)相關(guān)分析表和回歸分析表,將復(fù)相關(guān)分析表轉(zhuǎn)移至EXCEL,然后利用EXCEL相關(guān)性排序,但是因?yàn)榭紤]到有負(fù)相關(guān)的影響,因此要首先先加絕對值再由大到小進(jìn)行排序。相關(guān)性排序后發(fā)現(xiàn)Pearson相關(guān)系數(shù)與顯著性單側(cè)檢驗(yàn)有高度的一致性,所以通過EXCEL自動篩選功能,選出單側(cè)檢驗(yàn)值小于等于0.05的自變量即為與因變量相關(guān)的自變量 。由此可以得出紅、白葡萄酒的理化指標(biāo)與紅、白釀酒葡萄的理化指標(biāo)的定量關(guān)系。再通過回歸分析表即可得到模型的結(jié)果,將兩復(fù)相關(guān)分析表和回歸分析表結(jié)合可得到:
1. 紅葡萄酒的理化指標(biāo)與釀酒葡萄的理化指標(biāo)的模型為:
2. 白葡萄酒的理化指標(biāo)與釀酒葡萄的理化指標(biāo)的模型為:
由回歸方程式可以看出:
1. 對于紅釀酒葡萄的理化指標(biāo)x4(花色苷)、x6(蘋果酸)、x9(褐變度)、x10(DPPH自由基)、x12(單寧)與紅葡萄酒的理化指標(biāo)y1(花色苷)呈顯著正相關(guān),而x7(檸檬酸)、x8(多酚氧化酶活力)、x13(葡萄總黃酮)、x25(果梗比)、x26(出汁率)與紅葡萄酒的理化指標(biāo)y1(花色苷)呈顯著負(fù)相關(guān)。
2. 對于白釀酒葡萄的理化指標(biāo)x12(單寧)、x15(黃酮醇)、x18(可溶性固形物)與白葡萄酒的理化指標(biāo)y1(單寧)呈顯著正相關(guān),而x1(氨基酸總量)、x2(蛋白質(zhì))、x10(DPPH自由基)、x11(總酚)、x13(葡萄總黃酮)、x16(總糖)、x25(果梗比)、x27(果皮質(zhì)量)與白葡萄酒的理化指標(biāo)y1(單寧)呈顯著負(fù)相關(guān)。
同樣的可以得到以下紅葡萄酒的理化指標(biāo)與釀酒葡萄的理化指標(biāo)的模型為:
以及白葡萄酒的理化指標(biāo)與釀酒葡萄的理化指標(biāo)的模型為:
4.4 問題的模型建立與求解
(1)逐步回歸分析
逐步回歸分析,首先要建立因變量y與自變量x之間的總回歸方程,再對總的方程及每—個自變量進(jìn)行假設(shè)檢驗(yàn)。當(dāng)總的方程不顯著時,表明該多元回歸方程線性關(guān)系不成立;而當(dāng)某—個自變量對y影響不顯著時,應(yīng)該把它剔除,重新建立不包含該因子的多元回歸方程。篩選出有顯著影響的因子作為自變量,并建立“最優(yōu)”回歸方程[4] 。
回歸方程包含的自變量越多,回歸平方和越大,剩余的平方和越小,剩余均方也隨之較小,預(yù)測值的誤差也愈小,模擬的效果愈好。但是方程中的變量過多,預(yù)報工作量就會越大,其中有些相關(guān)性不顯著的預(yù)報因子會影響預(yù)測的效果。
以紅葡萄為例進(jìn)行逐步回歸分析,使用F的概率進(jìn)入0.10刪除0.15,當(dāng)預(yù)測變量數(shù)為7個時,R 方值大于85%,說明此時模型的擬合程度比較高,繼續(xù)對紅葡萄進(jìn)行分析,方差分析知:統(tǒng)計量為19.831,系統(tǒng)自動檢驗(yàn)的顯著性水平為0.0000(非常?。?,因此回歸方程相關(guān)非常顯著。
再對紅葡萄建立逐步回歸模型。
由 “非標(biāo)準(zhǔn)化回歸系數(shù)”可得出多元回歸模型預(yù)報方程為:
由回歸方程式可以看出,紅葡萄酒的質(zhì)量(x)與y11(總酚) 、y23(果穗質(zhì)量)、y21(固酸比)、y15(黃酮醇)呈顯著正相關(guān),而與y6(蘋果酸)、y8(多酚氧化酶活性)、y14(白藜蘆醇) 呈顯著負(fù)相關(guān)。由此看出,總酚、果穗質(zhì)量、固酸比、黃酮醇,蘋果酸、多酚氧化酶活性、白藜蘆醇是影響紅葡萄酒質(zhì)量的主要原因。
(2)論證
Ⅰ 對(1)分析
由(1)可知:逐步回歸分析模型的R2=0.88,p=0.0000(非常?。椿貧w方程相關(guān)非常顯著,說明得到的模型是一個樂觀結(jié)論。然而,紅葡萄酒的樣本容量N1=27,白葡萄酒的樣本容量N2=28,均為小容量樣本,所以模型穩(wěn)定性較差,且參數(shù)β的標(biāo)準(zhǔn)差較大,因此,完全用釀酒葡萄和葡萄酒的理化指標(biāo)判斷葡萄酒的質(zhì)量不科學(xué)。
Ⅱ 相關(guān)分析
先利用SPSS做芳香物質(zhì)和香氣打分的相關(guān)分析得到相關(guān)分析表,將相關(guān)分析表轉(zhuǎn)移至EXCEL,然后利用EXCEL相關(guān)性排序,但是因?yàn)榭紤]到有負(fù)相關(guān)的影響,因此要首先先加絕對值再由大到小進(jìn)行排序。相關(guān)性排序后發(fā)現(xiàn)Pearson相關(guān)系數(shù)與顯著性雙側(cè)檢驗(yàn)有高度的一致性,所以通過EXCEL自動篩選功能,選出單側(cè)檢驗(yàn)值小于等于0.05的自變量即為與因變量相關(guān)的自變量,分析結(jié)果可知,香氣打分與芳香物質(zhì)x14(檸檬烯)、x31(乙酸辛酯)、x32(2-乙基-1-己醇)、x34(辛酸丙酯)、x37(3,7-二甲基-1,6-辛二烯-3-醇)、x41(3,7-二甲基-1,5,7-辛三烯-3-醇)、x45(辛酸3-甲基丁酯)、x47(丁二酸二乙酯)、x52(十二酸乙酯)、x56(2-吡咯烷酮)、x75(丙酮)、x90(á-蒎烯)、x113(1-辛醇)、x119((Z)-3,7-二甲基-2,6-辛二烯醛)、x123((R)-3,7-二甲基-6-辛烯醇)、x127((E)-3,7-二甲基-2,6-辛二烯-1-醇)有顯著關(guān)系。
5、結(jié)論
本文以釀酒葡萄和葡萄酒為研究對象,建立多元統(tǒng)計模型,對評酒員對酒的評價之間存在的顯著性差異情況進(jìn)行研究,同時研究了釀酒葡萄的分級、釀酒葡萄與葡萄酒的理化指標(biāo)之間的聯(lián)系,論證了葡萄和葡萄酒的理化指標(biāo)對葡萄酒的質(zhì)量評價情況。
參考文獻(xiàn):
[1]周凱,宋軍全,鄔學(xué)軍,數(shù)學(xué)建模競賽入門與提高,杭州,浙江大學(xué)出版社,2012。
[2]張慶利,SPSS寶典,北京:電子工業(yè)出版社,2011.2。
[3]黃賢玲,糧食征超購量與產(chǎn)量、農(nóng)村留用量復(fù)相關(guān)分析,山西財經(jīng)大學(xué)學(xué)報,1985.2。
[4]何曉群,多元統(tǒng)計分析(第三版),北京,中國人民大學(xué)出版社,2012。
[5]周文芳,李民,逐步回歸分析法的一點(diǎn)不足之處,西北水電,2004,第4期。