◎ 徐雨涵
(江西財(cái)經(jīng)大學(xué) 統(tǒng)計(jì)學(xué)院,江西 南昌 330013)
隨著人們對(duì)葡萄酒營(yíng)養(yǎng)價(jià)值的需求,各種參差不齊的葡萄酒品種出現(xiàn)在國(guó)內(nèi)市場(chǎng)。確定葡萄酒的質(zhì)量好壞,需要有資質(zhì)的評(píng)酒員品嘗葡萄酒后對(duì)其指標(biāo)進(jìn)行評(píng)分,最后綜合各項(xiàng)評(píng)分確定葡萄酒的質(zhì)量。一般來(lái)說(shuō),葡萄酒的質(zhì)量直接取決于釀酒葡萄的質(zhì)量[1-2],鑒于此,本文根據(jù)釀酒葡萄的理化指標(biāo),在主成分分析法的基礎(chǔ)上,采用聚類分析法對(duì)這些釀酒葡萄的質(zhì)量進(jìn)行分級(jí),這對(duì)葡萄酒質(zhì)量的評(píng)價(jià)具有一定的指導(dǎo)意義。
數(shù)據(jù)來(lái)源于文獻(xiàn)[3],每組10名評(píng)酒員對(duì)同一樣品進(jìn)行打分,取其平均值,即為該葡萄酒樣品的最終得分。計(jì)算出兩組評(píng)酒員對(duì)28種葡萄酒樣品的評(píng)分,見表1。
表1 評(píng)酒員對(duì)葡萄酒評(píng)分的平均值表
假設(shè)第1組和第2組葡萄酒得分X和Y均滿足正態(tài)分布作變換Zi=Xi-Yi,將該問題轉(zhuǎn)化為單個(gè)正態(tài)總體檢驗(yàn)的問題[4],即Zi滿足分布
建立假設(shè):H0:μ1-μ2=0;H1:μ1-μ2≠0。相應(yīng)的t檢驗(yàn)統(tǒng)計(jì)量為:
取顯著性概率α=0.05,將表1中數(shù)據(jù)代入公式(1)得:t=2.951>t0.975(27)=2.051。
由此可知,對(duì)葡萄酒t檢驗(yàn)統(tǒng)計(jì)量滿足拒絕原假設(shè),即認(rèn)為兩組評(píng)酒員對(duì)葡萄酒的評(píng)分有顯著性差異,即所選數(shù)據(jù)在統(tǒng)計(jì)意義上具有有效性。
對(duì)于葡萄酒評(píng)分,可求得第1組的標(biāo)準(zhǔn)差系數(shù)為:Z1=0.068,第2組的標(biāo)準(zhǔn)差系數(shù)為:Z2=0.042。經(jīng)比較可得Z2<Z1,所以第2組的評(píng)價(jià)結(jié)果更加可靠。
由于對(duì)葡萄酒的質(zhì)量產(chǎn)生影響的指標(biāo)較多,信息冗余量大,故合理提取指標(biāo)信息是葡萄酒質(zhì)量分級(jí)的關(guān)鍵,在主成分分析法的基礎(chǔ)上運(yùn)用聚類分析方法對(duì)釀酒葡萄的質(zhì)量分級(jí)進(jìn)行探討研究。
主成分分析是利用降維思想,在損失信息較少的前提下,將多個(gè)指標(biāo)轉(zhuǎn)化成幾個(gè)互不相關(guān)的綜合指標(biāo)的一種多元統(tǒng)計(jì)分析方法[5]。假設(shè)對(duì)于某種事物有p個(gè)評(píng)價(jià)指標(biāo),構(gòu)成隨機(jī)向量X=(X1,X2,…,Xp),形成多種線性組合和新的綜合變量,按公式(2)計(jì)算:
這些主成分之間互不相關(guān),即i≠j時(shí),Cov(Yi,Yj)=0,每個(gè)主成分的方差依次遞減,即Var(Y1)≥Var(Y2)≥…≥Var(Yp),方差越大,表示包含的信息越多。每個(gè)主成分方差占總方差的比重λi表示該主成分包含信息的貢獻(xiàn)度,既減少了數(shù)據(jù)量,又保留了數(shù)據(jù)的主要信息。因此,當(dāng)累積貢獻(xiàn)度達(dá)到85%以上時(shí),表示前k個(gè)主成分Y1,Y2,…,Yk已經(jīng)能表示出絕大部分信息,成功達(dá)到簡(jiǎn)化系統(tǒng)結(jié)構(gòu)和降維目的。
用SPSS軟件對(duì)30個(gè)指標(biāo)進(jìn)行主成分分析,求得方差貢獻(xiàn)率如表2所示,對(duì)變量的方差貢獻(xiàn)率省略不計(jì)。由表2可知,前10個(gè)主成分因子累積貢獻(xiàn)率達(dá)85%左右,能較好地反映指標(biāo)變量信息,故只需提取前10個(gè)主成分因子即可。主成分分析后雖然已經(jīng)找出主成分因子,但需要知道每一個(gè)主成分因子的含義,以便對(duì)實(shí)際問題進(jìn)行分析。本文采用方差最大正交旋轉(zhuǎn)方法[6],探討釀酒葡萄主成分因子與原變量的關(guān)系,結(jié)果見表3。由表3可以看出這10個(gè)主成分因子所代表的實(shí)際含義。
表2 釀酒葡萄的特征值、貢獻(xiàn)率、累積貢獻(xiàn)率表
表3 釀酒葡萄主成分因子與原變量的關(guān)系表
所謂聚類分析,是一種將樣本歸類的統(tǒng)計(jì)分析方法[5]。根據(jù)所研究的樣本或變量之間的親疏關(guān)系、相似程度將其分成若干類,使得每一類內(nèi)部樣本差異盡可能小,類與類之間的樣本差異較大。聚類分析的主要目的是減少研究對(duì)象數(shù)目,直接用幾大類代表多個(gè)樣品,以達(dá)到減少計(jì)算量的目的。
根據(jù)已經(jīng)提取出來(lái)的主成分以及求出的各樣品所對(duì)應(yīng)的主成分得分,采用組間平均連接聚類分析法,根據(jù)主成分得分score標(biāo)準(zhǔn)化后的數(shù)據(jù)對(duì)釀酒葡萄樣本進(jìn)行聚類,隨后根據(jù)每種葡萄對(duì)應(yīng)葡萄酒的評(píng)分范圍或平均分劃分出等級(jí)。
運(yùn)用SPSS軟件,對(duì)28種釀酒葡萄樣品進(jìn)行聚類分析,聚類分析樹型圖結(jié)果見圖1。根據(jù)組內(nèi)距離小、組間距離大的原則,樣品依據(jù)理化指標(biāo)主成分得分,由圖1可以看出,樣品可分為7類,分別是(6,18,7,15)、(1,13,8,16)、(10,24,12)、(11,27)、(21,23,14,5,20,4,28)、(19,25,2)、(9,22,26,3,17)。
圖1 釀酒葡萄聚類分析樹狀圖
由評(píng)價(jià)結(jié)果的t檢驗(yàn)分析可知,第2組評(píng)酒員評(píng)價(jià)結(jié)果更可信,因此直接采用第2組評(píng)酒員評(píng)分?jǐn)?shù)據(jù)對(duì)釀酒葡萄分級(jí),通過(guò)每一類樣品對(duì)應(yīng)葡萄酒的評(píng)分平均值劃分等級(jí)。求得7類樣品對(duì)應(yīng)評(píng)分的平均值,見表4。
由于第1類和第3類,第5類和第7類的平均值相差很小,故把第1類和第3類合并,第5類和第7類合并。由于第1、3類合并后的均值與第6類接近,故將其再次與第6類合并,得到的釀酒葡萄的等級(jí)劃分如表5所示。
本文以葡萄酒和釀酒葡萄為研究樣本,以多元統(tǒng)計(jì)分析為模型,通過(guò)采用t分布差異檢驗(yàn)法判斷出兩組評(píng)酒員的評(píng)價(jià)存在顯著差異。根據(jù)釀酒葡萄的理化指標(biāo),在主成分分析法的基礎(chǔ)上,采用聚類分析法對(duì)釀酒葡萄的質(zhì)量進(jìn)行了分級(jí)。本研究方法對(duì)葡萄酒質(zhì)量的評(píng)價(jià)具有一定的指導(dǎo)意義。