李東旭
摘 要:該文首先對(duì)數(shù)據(jù)進(jìn)行預(yù)處理剔除誤差數(shù)值,對(duì)數(shù)據(jù)進(jìn)行分布檢驗(yàn),通過(guò)Lillifors統(tǒng)計(jì)法修正Shapiro-Wilk統(tǒng)計(jì)量后確定評(píng)價(jià)得分的分布,由Shapiro-Wilk檢驗(yàn)的顯著水平值Sig.可判斷數(shù)據(jù)是否符合正態(tài)分布,當(dāng)數(shù)據(jù)的顯著水平值Sig.<0.05時(shí)可拒絕數(shù)據(jù)的正態(tài)分布假設(shè)。同時(shí)考慮數(shù)據(jù)的正態(tài)分布偏度Skewness以及數(shù)據(jù)的正態(tài)分布峰度Kurtosis。計(jì)算得評(píng)價(jià)結(jié)果不屬于標(biāo)準(zhǔn)正態(tài)分布。對(duì)兩組數(shù)據(jù)的紅、白兩種葡萄酒的評(píng)價(jià)結(jié)果各進(jìn)行顯著性差異分析,數(shù)據(jù)處理的方法采用Wilcoxon符號(hào)秩檢驗(yàn)法,同時(shí)對(duì)比符號(hào)檢驗(yàn)得到的數(shù)據(jù),結(jié)果為紅葡萄酒相伴概率為4.8995e-005,白葡萄酒的相伴概率為5.25641e-006均小于顯著性水平0.05,因此可認(rèn)為兩組品酒員評(píng)價(jià)結(jié)果中紅、白葡萄酒均具有顯著性差異。
關(guān)鍵詞:Wilcoxon符號(hào)秩檢驗(yàn) Cronbach alpha信度系數(shù) Q型層次聚類(lèi)分析 逐步回歸分析 累積貢獻(xiàn)率
中圖分類(lèi)號(hào):C81 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1674-098X(2014)01(c)-0246-02
1 問(wèn)題重述
確定葡萄酒質(zhì)量時(shí)一般是通過(guò)聘請(qǐng)一批有資質(zhì)的品酒員進(jìn)行品評(píng)。每個(gè)品酒員在對(duì)葡萄酒進(jìn)行品嘗后對(duì)其分類(lèi)指標(biāo)打分,然后通過(guò)求和得到其總分,從而確定葡萄酒的質(zhì)量。同時(shí),釀酒葡萄的好壞亦與所釀葡萄酒的質(zhì)量有直接關(guān)系,葡萄酒與釀酒葡萄檢測(cè)的理化指標(biāo)會(huì)在一定程度上反映葡萄酒和葡萄的質(zhì)量。根據(jù)附件所提供的有關(guān)數(shù)據(jù)建立適當(dāng)?shù)臄?shù)學(xué)模型以解決下列問(wèn)題:
(1)分析兩組品酒員的評(píng)價(jià)結(jié)果有無(wú)顯著性差異,說(shuō)明哪一組的數(shù)據(jù)可信度更高。
(2)根據(jù)釀酒葡萄的理化指標(biāo)和葡萄酒的質(zhì)量對(duì)這些釀酒葡萄進(jìn)行分級(jí)。
(3)分析釀酒葡萄與葡萄酒理化指標(biāo)之間的聯(lián)系。
(4)分析釀酒葡萄與葡萄酒理化指標(biāo)對(duì)葡萄酒質(zhì)量的影響,并論證用葡萄和葡萄酒理化指標(biāo)來(lái)評(píng)價(jià)葡萄酒質(zhì)量的可行性。
2 模型假設(shè)
(1)題目附件中所提供的各項(xiàng)理化指標(biāo)數(shù)據(jù)均真實(shí)可靠;
(2)釀酒葡萄和葡萄酒的理化指標(biāo)和芳香物質(zhì)在一定時(shí)間內(nèi)不發(fā)生改變;
(3)釀酒工藝和貯存條件等對(duì)葡萄酒質(zhì)量及理化指標(biāo)無(wú)影響;
(4)評(píng)酒員打分是公平可信的。
3 問(wèn)題分析
3.1 問(wèn)題一:葡萄酒評(píng)價(jià)結(jié)果的顯著性差異及可信度分析
由題知葡萄酒質(zhì)量的評(píng)價(jià)是通過(guò)品酒員對(duì)酒樣進(jìn)行的評(píng)分?jǐn)?shù)值來(lái)評(píng)價(jià)的,由于品酒員間存在的個(gè)體差異,因而在進(jìn)行數(shù)據(jù)顯著性差異檢驗(yàn)之前,首先對(duì)所給數(shù)據(jù)進(jìn)行預(yù)處理以排除錯(cuò)誤的數(shù)據(jù)對(duì)最后結(jié)果的影響。對(duì)每種酒的得分?jǐn)?shù)據(jù)檢驗(yàn)其分布,根據(jù)具體的分布特征確定合理的數(shù)據(jù)處理方式以檢驗(yàn)其顯著性差異;對(duì)于兩組品酒員評(píng)價(jià)結(jié)果的可信度。
3.2 問(wèn)題二:釀酒葡萄的分級(jí)分析
葡萄酒的質(zhì)量很大程度上取決于釀酒葡萄的質(zhì)量,對(duì)釀酒葡萄進(jìn)行分級(jí)時(shí)考慮將葡萄酒的質(zhì)量評(píng)分作為參考標(biāo)準(zhǔn),同時(shí)加入釀酒葡萄的理化指標(biāo)作為參考。首先對(duì)附件所給數(shù)據(jù)進(jìn)行預(yù)處理,排除錯(cuò)誤的數(shù)據(jù)對(duì)最后結(jié)果的影響。同時(shí)對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,得出綜合理化指標(biāo)。對(duì)釀酒葡萄進(jìn)行分級(jí)時(shí)選取合適的聚類(lèi)分析方法確定釀酒葡萄分級(jí)層數(shù)并分級(jí)。
3.3 問(wèn)題三:理化指標(biāo)對(duì)葡萄酒質(zhì)量評(píng)價(jià)的分析
由于需要考量能否可以用葡萄和葡萄酒的理化指標(biāo)來(lái)評(píng)價(jià)葡萄酒的質(zhì)量,分析兩者間關(guān)系時(shí)還應(yīng)考慮到附件3中所給的芳香物質(zhì)是否也對(duì)前兩者有一定的影響。由于附件所給數(shù)據(jù)繁多,在評(píng)價(jià)分析之前應(yīng)先對(duì)數(shù)據(jù)進(jìn)行篩選,選出更具有代表性的值。同時(shí)在篩選之后將釀酒葡萄理化指標(biāo)、葡萄酒理化指標(biāo)以及芳香物質(zhì)分別對(duì)葡萄酒的評(píng)價(jià)得分進(jìn)行分析。
4 模型的建立與求解
4.1 葡萄酒評(píng)價(jià)結(jié)果的顯著性差異及可信度分析模型
4.1.1 葡萄酒評(píng)價(jià)結(jié)果數(shù)據(jù)預(yù)處理
對(duì)附件1中數(shù)據(jù)通過(guò)Excel篩選觀察時(shí)可發(fā)現(xiàn)某些數(shù)據(jù)錯(cuò)誤,如:第一組紅葡萄酒品嘗評(píng)分中酒樣品20號(hào)下4號(hào)品酒員對(duì)于外觀分析的色調(diào)評(píng)價(jià)數(shù)據(jù)缺失;第一組白葡萄酒品嘗評(píng)分中酒樣品3號(hào)下7號(hào)品酒員對(duì)于口感分析的持久性評(píng)價(jià)數(shù)據(jù)為77,明顯超過(guò)該項(xiàng)上限8;第一組白葡萄酒品嘗評(píng)分中酒樣品8號(hào)下9號(hào)品酒員對(duì)于口感分析的持久性評(píng)價(jià)數(shù)據(jù)為16,明顯超過(guò)該項(xiàng)上限8等。對(duì)這些異常數(shù)據(jù)為減少其對(duì)于總體評(píng)價(jià)結(jié)果的影響,采取預(yù)處理:取該酒樣對(duì)應(yīng)誤差項(xiàng)目其余品酒員評(píng)價(jià)結(jié)果平均值替代該異常數(shù)據(jù)。
4.1.2 葡萄酒質(zhì)量評(píng)價(jià)模型建立與求解
由于樣本容量大,為方便計(jì)算以及更好地突出單項(xiàng)指標(biāo)與評(píng)價(jià)結(jié)果的關(guān)系,對(duì)釀酒葡萄理化指標(biāo)、葡萄酒理化指標(biāo)以及芳香物質(zhì)分別進(jìn)行主成分分析。當(dāng)主成分分析的累積貢獻(xiàn)率達(dá)到85%以上時(shí)取相應(yīng)的數(shù)據(jù)項(xiàng)目作為該數(shù)據(jù)的主要成分。其基本原理為:
(1)確定分析變量,搜集數(shù)據(jù)資料
假如搜集到的來(lái)自原始變量樣本觀測(cè)數(shù)據(jù)矩陣一矩陣。
(2)對(duì)原始數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化變換
原始數(shù)據(jù)標(biāo)準(zhǔn)化變換是為了消除由于量綱的不同可能帶來(lái)的一些不合理影響。
(3)計(jì)算原始觀測(cè)變量樣本數(shù)據(jù)矩陣經(jīng)標(biāo)準(zhǔn)化變換后的協(xié)方差
(4)用樣本協(xié)方差代替總體協(xié)方差陣,計(jì)算的所有特征根及相應(yīng)的特征向量,并按的大小順序排列,為經(jīng)過(guò)標(biāo)準(zhǔn)變化后的值。
(5)計(jì)算主成分的貢獻(xiàn)率及積累貢獻(xiàn)率;各變量的信息提取率。其中,貢獻(xiàn)率為;累積貢獻(xiàn)率為;變量的信息提取率為。
4.1.3 釀酒葡萄分級(jí)的型聚類(lèi)模型建立與求解
Q型聚類(lèi)是層次聚類(lèi)分析的一種形式,其根據(jù)觀察值或變量之間的親疏程度將最相似的對(duì)象結(jié)合在一起,以逐次聚類(lèi)擬合的方式(Agglomerative Clustering)將觀察值分類(lèi),直到最后所有樣本都聚成一類(lèi)。endprint
Q型聚類(lèi)可以使具有共同特點(diǎn)的樣本聚集在一起,以便對(duì)不同類(lèi)的樣本進(jìn)行分析。其中,樣本數(shù)據(jù)之間的親疏程度主要通過(guò)樣本之間的距離、樣本間的相關(guān)系數(shù)來(lái)度量。當(dāng)樣本有個(gè)變量,則可以將樣本看成是一個(gè)k維空間的一個(gè)點(diǎn),樣本和樣本之間的距離就是k維空間點(diǎn)和點(diǎn)之間的距離,這反映了樣本之間的親疏程度。聚類(lèi)時(shí),距離相近的樣本屬于一類(lèi),距離較遠(yuǎn)的樣本屬于不同類(lèi)。
在度量距離時(shí)常采用樣本距離測(cè)量方法有:歐式平方距離、距離、距離等。其中,表示么個(gè)樣本有個(gè)變量;表示第一個(gè)樣本在第個(gè)變量上的取值;表示第二個(gè)樣本在第個(gè)變量上的取值。
在處理樣本數(shù)據(jù)各數(shù)據(jù)之間的親疏關(guān)系時(shí),常用的親疏程度測(cè)量方法有:離差平方和法、類(lèi)內(nèi)平均鏈鎖法、重心法等。由于前面距離度量采取了歐式平方距離,因而此處選用離差平方和法,使得小類(lèi)內(nèi)各個(gè)樣本的歐式距離總平方和增加最小的兩小類(lèi)合并成一類(lèi)。
4.1.4 數(shù)據(jù)預(yù)處理標(biāo)準(zhǔn)化及綜合理化指標(biāo)
在處理附件2中數(shù)據(jù)時(shí)可以發(fā)現(xiàn)某些存在異常的數(shù)據(jù)值,如:葡萄理化指標(biāo)中白葡萄百粒質(zhì)量的第三次檢測(cè)值為2226.1 g,明顯超過(guò)其它兩次的檢測(cè)值。為避免異常數(shù)據(jù)值對(duì)分級(jí)結(jié)果的影響,取其它兩次值的平均值替代該異常值。同時(shí)對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,取其分?jǐn)?shù):
其中,為變量值,為平均數(shù),為標(biāo)準(zhǔn)差。分?jǐn)?shù)表示的是此變量大于或小于平均數(shù)幾個(gè)標(biāo)準(zhǔn)差。由于分?jǐn)?shù)分母的單位與分子的單位相同,故分?jǐn)?shù)沒(méi)有單位,因而可以用分?jǐn)?shù)來(lái)比較兩個(gè)從不同單位總體中抽出的變量值。同時(shí)將原始數(shù)據(jù)直接轉(zhuǎn)化為分?jǐn)?shù)時(shí),常會(huì)出現(xiàn)負(fù)數(shù)和帶小數(shù)點(diǎn)的值。
由于數(shù)據(jù)中所需分析的紅、白葡萄酒指標(biāo)有114個(gè),指標(biāo)間存在一定的內(nèi)部聯(lián)系并具有明顯的共線性,首先對(duì)數(shù)據(jù)進(jìn)行降維處理:
(1)以紅、白釀酒葡萄的理化性質(zhì)(一級(jí)指標(biāo))為自變量,以葡萄酒得分作因變量做線性回歸,表示第中葡萄酒的分?jǐn)?shù),對(duì)于紅葡萄酒,;對(duì)于白葡萄酒,;為第種酒的第個(gè)理化指標(biāo),為系數(shù)。所得線性方程形式如下:
(2)由于對(duì)葡萄的所有理化指標(biāo)進(jìn)行分析過(guò)于繁瑣,因而將所有理化指標(biāo)降維綜合成一個(gè)理化指標(biāo)。對(duì)于上式所得的31個(gè)系數(shù)其中數(shù)值有正負(fù)。將系數(shù)為正的項(xiàng)提取出來(lái)作為有利項(xiàng),系數(shù)為負(fù)的項(xiàng)作為有害項(xiàng)。將所有有利、有害項(xiàng)與其所對(duì)應(yīng)指標(biāo)相乘并取絕對(duì)值,計(jì)算兩者間的平方根之和的差值,分別得紅、白葡萄的綜合理化指標(biāo)模型,形式如下:
其中,為第種葡萄的第個(gè)有利項(xiàng),;為第種葡萄的第個(gè)有害項(xiàng),;為第種葡萄的綜合理化指標(biāo)。
5 模型的評(píng)價(jià)與改進(jìn)
5.1 問(wèn)題一模型的評(píng)價(jià)與改進(jìn)
模型顯著性差異評(píng)價(jià)系統(tǒng)準(zhǔn)確。引入了系數(shù)作為評(píng)價(jià)可信度的標(biāo)準(zhǔn),可綜合評(píng)價(jià)信度但計(jì)算得到兩組間可靠性系數(shù)差值小,區(qū)分度不夠。模型在改進(jìn)和推廣時(shí),除了討論同兩種酒之間的可信度系數(shù),也可以繼續(xù)討論兩組評(píng)價(jià)結(jié)果組內(nèi)結(jié)果得可信度系數(shù)。
5.2 問(wèn)題二模型的評(píng)價(jià)與改進(jìn)
模型引入綜合理化指標(biāo),對(duì)多維數(shù)據(jù)進(jìn)行降維簡(jiǎn)便易行。采用型層次聚類(lèi)分析得到樹(shù)狀圖清晰,可準(zhǔn)確描述分級(jí)級(jí)別數(shù)。引入聚類(lèi)方法評(píng)價(jià)指標(biāo)可以準(zhǔn)確解釋分級(jí)級(jí)數(shù)的選擇。模型雖然在分類(lèi)等級(jí)上分為“品質(zhì)優(yōu)秀”、“品質(zhì)良好”和“品質(zhì)較差”三類(lèi),但類(lèi)目下葡萄樣本分布不能在樣本數(shù)上體現(xiàn)三種等級(jí)的差異。同時(shí)各對(duì)應(yīng)葡萄酒平均值差值小,說(shuō)明模型區(qū)分度不夠。
5.3 問(wèn)題三模型的評(píng)價(jià)與改進(jìn)
模型對(duì)理化指標(biāo)進(jìn)行篩選后逐步回歸分析,數(shù)據(jù)擬合程度較好。減少了龐大數(shù)據(jù)所造成的相關(guān)性不明顯的情況。但釀酒葡萄理化指標(biāo)分類(lèi)少,不能更全面地涵蓋釀酒葡萄與葡萄酒的理化指標(biāo)之間的聯(lián)系。
5.4 問(wèn)題四模型的評(píng)價(jià)與改進(jìn)
模型突出單項(xiàng)指標(biāo)與評(píng)價(jià)結(jié)果的關(guān)系,排除了龐大數(shù)據(jù)中不重要的項(xiàng),結(jié)果更有針對(duì)性。在對(duì)四類(lèi)理化指標(biāo)與葡萄酒評(píng)分進(jìn)行相關(guān)分析時(shí),應(yīng)對(duì)所有篩選指標(biāo)進(jìn)行考察,選出最少項(xiàng)數(shù)對(duì)應(yīng)的對(duì)應(yīng)理化指標(biāo)單項(xiàng)進(jìn)行進(jìn)一步的相關(guān)性分析,則結(jié)果會(huì)更為準(zhǔn)確。
參考文獻(xiàn)
[1] 陳勝可.SPSS統(tǒng)計(jì)分析從入門(mén)到精通[M].北京:清華大學(xué)出版社,2010:453.
[2] 盧紋岱.SPSS for Windows統(tǒng)計(jì)分析[M].3版.北京:電子工業(yè)出版社,2006:153.
[3] (加)喬治(George,D.),(加)馬勒瑞(Mallery,P.)著;SPSS統(tǒng)計(jì)分析簡(jiǎn)明教程何麗娟,李征,韋玉譯.[M].10版.北京:電子工業(yè)出版社,2011:96.
[4] 倪雪梅.精通SPSS統(tǒng)計(jì)分析[M].北京:清華大學(xué)出版社,2010:158.
[5] 柯惠新,沈浩.調(diào)查研究中的統(tǒng)計(jì)分析法[M].2版.北京:中國(guó)傳媒大學(xué)出版社 2005:330.
[6] 莊宇,徐歡,任更新.應(yīng)用數(shù)據(jù)可信度分析重構(gòu)科技創(chuàng)新指標(biāo)體系[J].情報(bào)雜志,2006(1):12-13.
[7] 謝蕾蕾,宋志剛,何旭洪.SPSS統(tǒng)計(jì)分析實(shí)用教程[M].2版.北京:人民郵電出版社,2013:51、205.
[8] 王巖,隋思漣.試驗(yàn)設(shè)計(jì)與MATLAB數(shù)據(jù)分析[M].北京:清華大學(xué)出版社,2012.
[9] 王力賓.多元統(tǒng)計(jì)分析:模型、案例及SPSS應(yīng)用[M].北京:經(jīng)濟(jì)科學(xué)出版社,2010:31、e208.endprint
Q型聚類(lèi)可以使具有共同特點(diǎn)的樣本聚集在一起,以便對(duì)不同類(lèi)的樣本進(jìn)行分析。其中,樣本數(shù)據(jù)之間的親疏程度主要通過(guò)樣本之間的距離、樣本間的相關(guān)系數(shù)來(lái)度量。當(dāng)樣本有個(gè)變量,則可以將樣本看成是一個(gè)k維空間的一個(gè)點(diǎn),樣本和樣本之間的距離就是k維空間點(diǎn)和點(diǎn)之間的距離,這反映了樣本之間的親疏程度。聚類(lèi)時(shí),距離相近的樣本屬于一類(lèi),距離較遠(yuǎn)的樣本屬于不同類(lèi)。
在度量距離時(shí)常采用樣本距離測(cè)量方法有:歐式平方距離、距離、距離等。其中,表示么個(gè)樣本有個(gè)變量;表示第一個(gè)樣本在第個(gè)變量上的取值;表示第二個(gè)樣本在第個(gè)變量上的取值。
在處理樣本數(shù)據(jù)各數(shù)據(jù)之間的親疏關(guān)系時(shí),常用的親疏程度測(cè)量方法有:離差平方和法、類(lèi)內(nèi)平均鏈鎖法、重心法等。由于前面距離度量采取了歐式平方距離,因而此處選用離差平方和法,使得小類(lèi)內(nèi)各個(gè)樣本的歐式距離總平方和增加最小的兩小類(lèi)合并成一類(lèi)。
4.1.4 數(shù)據(jù)預(yù)處理標(biāo)準(zhǔn)化及綜合理化指標(biāo)
在處理附件2中數(shù)據(jù)時(shí)可以發(fā)現(xiàn)某些存在異常的數(shù)據(jù)值,如:葡萄理化指標(biāo)中白葡萄百粒質(zhì)量的第三次檢測(cè)值為2226.1 g,明顯超過(guò)其它兩次的檢測(cè)值。為避免異常數(shù)據(jù)值對(duì)分級(jí)結(jié)果的影響,取其它兩次值的平均值替代該異常值。同時(shí)對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,取其分?jǐn)?shù):
其中,為變量值,為平均數(shù),為標(biāo)準(zhǔn)差。分?jǐn)?shù)表示的是此變量大于或小于平均數(shù)幾個(gè)標(biāo)準(zhǔn)差。由于分?jǐn)?shù)分母的單位與分子的單位相同,故分?jǐn)?shù)沒(méi)有單位,因而可以用分?jǐn)?shù)來(lái)比較兩個(gè)從不同單位總體中抽出的變量值。同時(shí)將原始數(shù)據(jù)直接轉(zhuǎn)化為分?jǐn)?shù)時(shí),常會(huì)出現(xiàn)負(fù)數(shù)和帶小數(shù)點(diǎn)的值。
由于數(shù)據(jù)中所需分析的紅、白葡萄酒指標(biāo)有114個(gè),指標(biāo)間存在一定的內(nèi)部聯(lián)系并具有明顯的共線性,首先對(duì)數(shù)據(jù)進(jìn)行降維處理:
(1)以紅、白釀酒葡萄的理化性質(zhì)(一級(jí)指標(biāo))為自變量,以葡萄酒得分作因變量做線性回歸,表示第中葡萄酒的分?jǐn)?shù),對(duì)于紅葡萄酒,;對(duì)于白葡萄酒,;為第種酒的第個(gè)理化指標(biāo),為系數(shù)。所得線性方程形式如下:
(2)由于對(duì)葡萄的所有理化指標(biāo)進(jìn)行分析過(guò)于繁瑣,因而將所有理化指標(biāo)降維綜合成一個(gè)理化指標(biāo)。對(duì)于上式所得的31個(gè)系數(shù)其中數(shù)值有正負(fù)。將系數(shù)為正的項(xiàng)提取出來(lái)作為有利項(xiàng),系數(shù)為負(fù)的項(xiàng)作為有害項(xiàng)。將所有有利、有害項(xiàng)與其所對(duì)應(yīng)指標(biāo)相乘并取絕對(duì)值,計(jì)算兩者間的平方根之和的差值,分別得紅、白葡萄的綜合理化指標(biāo)模型,形式如下:
其中,為第種葡萄的第個(gè)有利項(xiàng),;為第種葡萄的第個(gè)有害項(xiàng),;為第種葡萄的綜合理化指標(biāo)。
5 模型的評(píng)價(jià)與改進(jìn)
5.1 問(wèn)題一模型的評(píng)價(jià)與改進(jìn)
模型顯著性差異評(píng)價(jià)系統(tǒng)準(zhǔn)確。引入了系數(shù)作為評(píng)價(jià)可信度的標(biāo)準(zhǔn),可綜合評(píng)價(jià)信度但計(jì)算得到兩組間可靠性系數(shù)差值小,區(qū)分度不夠。模型在改進(jìn)和推廣時(shí),除了討論同兩種酒之間的可信度系數(shù),也可以繼續(xù)討論兩組評(píng)價(jià)結(jié)果組內(nèi)結(jié)果得可信度系數(shù)。
5.2 問(wèn)題二模型的評(píng)價(jià)與改進(jìn)
模型引入綜合理化指標(biāo),對(duì)多維數(shù)據(jù)進(jìn)行降維簡(jiǎn)便易行。采用型層次聚類(lèi)分析得到樹(shù)狀圖清晰,可準(zhǔn)確描述分級(jí)級(jí)別數(shù)。引入聚類(lèi)方法評(píng)價(jià)指標(biāo)可以準(zhǔn)確解釋分級(jí)級(jí)數(shù)的選擇。模型雖然在分類(lèi)等級(jí)上分為“品質(zhì)優(yōu)秀”、“品質(zhì)良好”和“品質(zhì)較差”三類(lèi),但類(lèi)目下葡萄樣本分布不能在樣本數(shù)上體現(xiàn)三種等級(jí)的差異。同時(shí)各對(duì)應(yīng)葡萄酒平均值差值小,說(shuō)明模型區(qū)分度不夠。
5.3 問(wèn)題三模型的評(píng)價(jià)與改進(jìn)
模型對(duì)理化指標(biāo)進(jìn)行篩選后逐步回歸分析,數(shù)據(jù)擬合程度較好。減少了龐大數(shù)據(jù)所造成的相關(guān)性不明顯的情況。但釀酒葡萄理化指標(biāo)分類(lèi)少,不能更全面地涵蓋釀酒葡萄與葡萄酒的理化指標(biāo)之間的聯(lián)系。
5.4 問(wèn)題四模型的評(píng)價(jià)與改進(jìn)
模型突出單項(xiàng)指標(biāo)與評(píng)價(jià)結(jié)果的關(guān)系,排除了龐大數(shù)據(jù)中不重要的項(xiàng),結(jié)果更有針對(duì)性。在對(duì)四類(lèi)理化指標(biāo)與葡萄酒評(píng)分進(jìn)行相關(guān)分析時(shí),應(yīng)對(duì)所有篩選指標(biāo)進(jìn)行考察,選出最少項(xiàng)數(shù)對(duì)應(yīng)的對(duì)應(yīng)理化指標(biāo)單項(xiàng)進(jìn)行進(jìn)一步的相關(guān)性分析,則結(jié)果會(huì)更為準(zhǔn)確。
參考文獻(xiàn)
[1] 陳勝可.SPSS統(tǒng)計(jì)分析從入門(mén)到精通[M].北京:清華大學(xué)出版社,2010:453.
[2] 盧紋岱.SPSS for Windows統(tǒng)計(jì)分析[M].3版.北京:電子工業(yè)出版社,2006:153.
[3] (加)喬治(George,D.),(加)馬勒瑞(Mallery,P.)著;SPSS統(tǒng)計(jì)分析簡(jiǎn)明教程何麗娟,李征,韋玉譯.[M].10版.北京:電子工業(yè)出版社,2011:96.
[4] 倪雪梅.精通SPSS統(tǒng)計(jì)分析[M].北京:清華大學(xué)出版社,2010:158.
[5] 柯惠新,沈浩.調(diào)查研究中的統(tǒng)計(jì)分析法[M].2版.北京:中國(guó)傳媒大學(xué)出版社 2005:330.
[6] 莊宇,徐歡,任更新.應(yīng)用數(shù)據(jù)可信度分析重構(gòu)科技創(chuàng)新指標(biāo)體系[J].情報(bào)雜志,2006(1):12-13.
[7] 謝蕾蕾,宋志剛,何旭洪.SPSS統(tǒng)計(jì)分析實(shí)用教程[M].2版.北京:人民郵電出版社,2013:51、205.
[8] 王巖,隋思漣.試驗(yàn)設(shè)計(jì)與MATLAB數(shù)據(jù)分析[M].北京:清華大學(xué)出版社,2012.
[9] 王力賓.多元統(tǒng)計(jì)分析:模型、案例及SPSS應(yīng)用[M].北京:經(jīng)濟(jì)科學(xué)出版社,2010:31、e208.endprint
Q型聚類(lèi)可以使具有共同特點(diǎn)的樣本聚集在一起,以便對(duì)不同類(lèi)的樣本進(jìn)行分析。其中,樣本數(shù)據(jù)之間的親疏程度主要通過(guò)樣本之間的距離、樣本間的相關(guān)系數(shù)來(lái)度量。當(dāng)樣本有個(gè)變量,則可以將樣本看成是一個(gè)k維空間的一個(gè)點(diǎn),樣本和樣本之間的距離就是k維空間點(diǎn)和點(diǎn)之間的距離,這反映了樣本之間的親疏程度。聚類(lèi)時(shí),距離相近的樣本屬于一類(lèi),距離較遠(yuǎn)的樣本屬于不同類(lèi)。
在度量距離時(shí)常采用樣本距離測(cè)量方法有:歐式平方距離、距離、距離等。其中,表示么個(gè)樣本有個(gè)變量;表示第一個(gè)樣本在第個(gè)變量上的取值;表示第二個(gè)樣本在第個(gè)變量上的取值。
在處理樣本數(shù)據(jù)各數(shù)據(jù)之間的親疏關(guān)系時(shí),常用的親疏程度測(cè)量方法有:離差平方和法、類(lèi)內(nèi)平均鏈鎖法、重心法等。由于前面距離度量采取了歐式平方距離,因而此處選用離差平方和法,使得小類(lèi)內(nèi)各個(gè)樣本的歐式距離總平方和增加最小的兩小類(lèi)合并成一類(lèi)。
4.1.4 數(shù)據(jù)預(yù)處理標(biāo)準(zhǔn)化及綜合理化指標(biāo)
在處理附件2中數(shù)據(jù)時(shí)可以發(fā)現(xiàn)某些存在異常的數(shù)據(jù)值,如:葡萄理化指標(biāo)中白葡萄百粒質(zhì)量的第三次檢測(cè)值為2226.1 g,明顯超過(guò)其它兩次的檢測(cè)值。為避免異常數(shù)據(jù)值對(duì)分級(jí)結(jié)果的影響,取其它兩次值的平均值替代該異常值。同時(shí)對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,取其分?jǐn)?shù):
其中,為變量值,為平均數(shù),為標(biāo)準(zhǔn)差。分?jǐn)?shù)表示的是此變量大于或小于平均數(shù)幾個(gè)標(biāo)準(zhǔn)差。由于分?jǐn)?shù)分母的單位與分子的單位相同,故分?jǐn)?shù)沒(méi)有單位,因而可以用分?jǐn)?shù)來(lái)比較兩個(gè)從不同單位總體中抽出的變量值。同時(shí)將原始數(shù)據(jù)直接轉(zhuǎn)化為分?jǐn)?shù)時(shí),常會(huì)出現(xiàn)負(fù)數(shù)和帶小數(shù)點(diǎn)的值。
由于數(shù)據(jù)中所需分析的紅、白葡萄酒指標(biāo)有114個(gè),指標(biāo)間存在一定的內(nèi)部聯(lián)系并具有明顯的共線性,首先對(duì)數(shù)據(jù)進(jìn)行降維處理:
(1)以紅、白釀酒葡萄的理化性質(zhì)(一級(jí)指標(biāo))為自變量,以葡萄酒得分作因變量做線性回歸,表示第中葡萄酒的分?jǐn)?shù),對(duì)于紅葡萄酒,;對(duì)于白葡萄酒,;為第種酒的第個(gè)理化指標(biāo),為系數(shù)。所得線性方程形式如下:
(2)由于對(duì)葡萄的所有理化指標(biāo)進(jìn)行分析過(guò)于繁瑣,因而將所有理化指標(biāo)降維綜合成一個(gè)理化指標(biāo)。對(duì)于上式所得的31個(gè)系數(shù)其中數(shù)值有正負(fù)。將系數(shù)為正的項(xiàng)提取出來(lái)作為有利項(xiàng),系數(shù)為負(fù)的項(xiàng)作為有害項(xiàng)。將所有有利、有害項(xiàng)與其所對(duì)應(yīng)指標(biāo)相乘并取絕對(duì)值,計(jì)算兩者間的平方根之和的差值,分別得紅、白葡萄的綜合理化指標(biāo)模型,形式如下:
其中,為第種葡萄的第個(gè)有利項(xiàng),;為第種葡萄的第個(gè)有害項(xiàng),;為第種葡萄的綜合理化指標(biāo)。
5 模型的評(píng)價(jià)與改進(jìn)
5.1 問(wèn)題一模型的評(píng)價(jià)與改進(jìn)
模型顯著性差異評(píng)價(jià)系統(tǒng)準(zhǔn)確。引入了系數(shù)作為評(píng)價(jià)可信度的標(biāo)準(zhǔn),可綜合評(píng)價(jià)信度但計(jì)算得到兩組間可靠性系數(shù)差值小,區(qū)分度不夠。模型在改進(jìn)和推廣時(shí),除了討論同兩種酒之間的可信度系數(shù),也可以繼續(xù)討論兩組評(píng)價(jià)結(jié)果組內(nèi)結(jié)果得可信度系數(shù)。
5.2 問(wèn)題二模型的評(píng)價(jià)與改進(jìn)
模型引入綜合理化指標(biāo),對(duì)多維數(shù)據(jù)進(jìn)行降維簡(jiǎn)便易行。采用型層次聚類(lèi)分析得到樹(shù)狀圖清晰,可準(zhǔn)確描述分級(jí)級(jí)別數(shù)。引入聚類(lèi)方法評(píng)價(jià)指標(biāo)可以準(zhǔn)確解釋分級(jí)級(jí)數(shù)的選擇。模型雖然在分類(lèi)等級(jí)上分為“品質(zhì)優(yōu)秀”、“品質(zhì)良好”和“品質(zhì)較差”三類(lèi),但類(lèi)目下葡萄樣本分布不能在樣本數(shù)上體現(xiàn)三種等級(jí)的差異。同時(shí)各對(duì)應(yīng)葡萄酒平均值差值小,說(shuō)明模型區(qū)分度不夠。
5.3 問(wèn)題三模型的評(píng)價(jià)與改進(jìn)
模型對(duì)理化指標(biāo)進(jìn)行篩選后逐步回歸分析,數(shù)據(jù)擬合程度較好。減少了龐大數(shù)據(jù)所造成的相關(guān)性不明顯的情況。但釀酒葡萄理化指標(biāo)分類(lèi)少,不能更全面地涵蓋釀酒葡萄與葡萄酒的理化指標(biāo)之間的聯(lián)系。
5.4 問(wèn)題四模型的評(píng)價(jià)與改進(jìn)
模型突出單項(xiàng)指標(biāo)與評(píng)價(jià)結(jié)果的關(guān)系,排除了龐大數(shù)據(jù)中不重要的項(xiàng),結(jié)果更有針對(duì)性。在對(duì)四類(lèi)理化指標(biāo)與葡萄酒評(píng)分進(jìn)行相關(guān)分析時(shí),應(yīng)對(duì)所有篩選指標(biāo)進(jìn)行考察,選出最少項(xiàng)數(shù)對(duì)應(yīng)的對(duì)應(yīng)理化指標(biāo)單項(xiàng)進(jìn)行進(jìn)一步的相關(guān)性分析,則結(jié)果會(huì)更為準(zhǔn)確。
參考文獻(xiàn)
[1] 陳勝可.SPSS統(tǒng)計(jì)分析從入門(mén)到精通[M].北京:清華大學(xué)出版社,2010:453.
[2] 盧紋岱.SPSS for Windows統(tǒng)計(jì)分析[M].3版.北京:電子工業(yè)出版社,2006:153.
[3] (加)喬治(George,D.),(加)馬勒瑞(Mallery,P.)著;SPSS統(tǒng)計(jì)分析簡(jiǎn)明教程何麗娟,李征,韋玉譯.[M].10版.北京:電子工業(yè)出版社,2011:96.
[4] 倪雪梅.精通SPSS統(tǒng)計(jì)分析[M].北京:清華大學(xué)出版社,2010:158.
[5] 柯惠新,沈浩.調(diào)查研究中的統(tǒng)計(jì)分析法[M].2版.北京:中國(guó)傳媒大學(xué)出版社 2005:330.
[6] 莊宇,徐歡,任更新.應(yīng)用數(shù)據(jù)可信度分析重構(gòu)科技創(chuàng)新指標(biāo)體系[J].情報(bào)雜志,2006(1):12-13.
[7] 謝蕾蕾,宋志剛,何旭洪.SPSS統(tǒng)計(jì)分析實(shí)用教程[M].2版.北京:人民郵電出版社,2013:51、205.
[8] 王巖,隋思漣.試驗(yàn)設(shè)計(jì)與MATLAB數(shù)據(jù)分析[M].北京:清華大學(xué)出版社,2012.
[9] 王力賓.多元統(tǒng)計(jì)分析:模型、案例及SPSS應(yīng)用[M].北京:經(jīng)濟(jì)科學(xué)出版社,2010:31、e208.endprint