薛凌云 劉洋洋
(河南師范大學(xué)計算機與信息工程學(xué)院 河南 新鄉(xiāng) 453007)
主成分分析是一種通過降維技術(shù)把多個變量化為少數(shù)幾個主成分(即綜合變量)的多元統(tǒng)計方法,這些主成分能夠反映原始變量的大部分信息,通常表示為原始變量的線性組合[1]主成分分析的基本原理為:
假定有樣本,每個樣本共有p個特征,構(gòu)成一個n×p階的數(shù)據(jù)矩陣:
當(dāng)p較大時,在p維空間中考察問題比較麻煩。為了克服這一困難,就需要進行降維處理,即用較少的幾個綜合指標(biāo)代替原來較多的變量指標(biāo),而且使這些較少的綜合指標(biāo)既能盡量多地反映原來較多變量指標(biāo)所反映的信息,同時它們之間又是彼此獨立的。
記 x1,x2,…,xp為原變量指標(biāo),z1,z2,…,zm(m≤p)為新變量指標(biāo):
從以上的分析可以看出,主成分分析的實質(zhì)就是確定原來變量xj(j=1,2,…,p)在諸主成分 zi(i=1,2,…,m)上的荷載 lij(i=1,2,…,m;j=1,2,…,p)。從數(shù)學(xué)上可以證明,它們分別是相關(guān)矩陣m個較大的特征值所對應(yīng)的特征向量。主成分分析的步驟為:
步驟一:計算相關(guān)系數(shù)矩陣:
rij(i,j=1,2,…,p)為原變量 xi與 xj的相關(guān)系數(shù),rij=rji,其計算公式為:
步驟二:計算特征值與特征向量:
分別求出對應(yīng)于特征值 λi的特征向量 ei(i=1,2,…,p)i,要求‖ei‖=1,即,其中eij表示向量ei的第j個分量。
計算主成分貢獻率及累計貢獻率:
貢獻率:
累計貢獻率:
一般取累計貢獻率達85%~95%的特征值 λ1,λ2,…,λm所對應(yīng)的第 1、第 2、…、第 m(m≤p)個主成分。
計算主成分載荷:
各主成分的得分:
典型相關(guān)分析就是利用綜合變量對之間的相關(guān)關(guān)系來反映兩組指標(biāo)之間的整體相關(guān)性的多元統(tǒng)計分析方法。它能夠揭示出兩組變量之間的內(nèi)在聯(lián)系。
典型相關(guān)分析的基本思想和主成分分析非常相似。其目的是識別并量化兩組變量之間的聯(lián)系,將兩組變量相關(guān)關(guān)系的分析化為一組變量的線性組合與另一組變量線性組合之間的相關(guān)關(guān)系分析。它的基本原理是:為了從總體上把握兩組指標(biāo)之間的相關(guān)關(guān)系,分別在兩組變量中提取有代表性的兩個綜合變量,利用這兩個綜合變量之間的相關(guān)關(guān)系來反映兩組指標(biāo)之間的整體相關(guān)性。
首先在每組變量中找出變量的一個線性組合,使得兩組的線性組合之間具有最大的相關(guān)系數(shù)。然后選取相關(guān)系數(shù)僅次于第一對線性組合并且與第一對線性組合不相關(guān)的第二對線性組合,依次類推下去,直到兩組變量之間的相關(guān)性被提取完畢為止。被選出的線性組合配對稱為典型變量,它們的相關(guān)系數(shù)稱為典型相關(guān)系數(shù)。典型相關(guān)系數(shù)反映了這兩組變量之間聯(lián)系的強度。
設(shè) X=[x,x,…,x],Y=[y,y,…,y]是兩個相互關(guān)聯(lián)的隨機向量,分別在兩組變量中選取若干有代表性的綜合變量Mi,Ni使得每一個綜合變量是原變量的線性組合。
在確保典型變量保持唯一性時,取方差為1的X、Y的線性函數(shù)a1X與b1Y,求使得它們相關(guān)系數(shù)達到最大的這一組。若存在常向量a1、b1,在a1X與b1Y的方差相等且為1情況下,使得相關(guān)系數(shù)ρ(a1X,b1Y)達到最大,則稱a1X與b1Y是X與Y的第一對典型相關(guān)變量。求出第一對典型相關(guān)變量之后,可以類似的求出各對之間互不相關(guān)的第二對典型相關(guān)變量、第三對典型相關(guān)變量……。這些典型相關(guān)變量就反映了X、Y之間的線性相關(guān)情況。我們可以通過檢驗各對典型相關(guān)變量相關(guān)系數(shù)的顯著性,來反映每一對綜合變量的代表性,如果某一對的相關(guān)程度不顯著,那么這對變量就不具有代表性,不具有代表性的變量就可以忽略。這樣就可以通過對少數(shù)典型相關(guān)變量的研究,代替原來兩組變量之間的相關(guān)關(guān)系的研究,從而容易找到問題的本質(zhì)。
對于X(有p個分量)、Y(有q個分量)兩組變量,假設(shè)p≤q。則
其中 V11=Cov(X),V12=V21=Cov(X,Y),V22=Cov(Y)即將總的樣本協(xié)方差分為第一組變量X的協(xié)方差陣V11,兩組變量之間的協(xié)方差陣V12和V21以及第二組變量Y的協(xié)方差陣V22。計算p×p階矩陣和q×q階矩陣可以證明,矩陣A和B具有相同的非零特征根,且非零特征根的個數(shù)r=rank(A)=rank(B)。
根據(jù)證明,矩陣A和B的特征值還具有以下的性質(zhì):
(1)矩陣A和B有相同的非零特征值,且相等的非零特征值的數(shù)目就等于r;
(2)矩陣A和B的特征值非負;
(3)矩陣A和B的全部特征值均在0和1之間。
數(shù)據(jù)采用采用2012年全國數(shù)學(xué)建模競賽中A題中數(shù)據(jù),利用均值法對(附件2-理化指標(biāo))做數(shù)據(jù)處理,然后運用spass對各個樣品葡萄作主成份分析。本操作是選擇以特征根大于1為標(biāo)準(zhǔn)提取主成份,或按照累積方差的觀點,提取大于80%的值。
對紅葡萄主成份分析得到解釋的總方差和成分矩陣。分析解釋的總方差,此處以特征根大于1或按照累積方差大于80%為標(biāo)準(zhǔn)可以提取7個主成份;然后結(jié)合成份矩陣具體提取出花色苷、DPPH自由基、總酚、總糖、還原糖、可溶性固形物、干物質(zhì)含量7個主成份,在建立典型相關(guān)分析模型時以這7種成份作為對紅葡萄進行分析的依據(jù)。同樣的方法,對白葡萄主成份分析得到解釋的總方差和成分矩陣。提取出蛋白質(zhì)、總酚、葡萄總黃酮、總糖、還原糖、可溶性固性物、可滴定酸、固酸比、干物質(zhì)含量9個主成份,在建立典型相關(guān)分析模型時以這9種成份作為對白葡萄進行分析的依據(jù)。
對于紅葡萄酒的主要成分,提取出附件2中的第一指標(biāo)及附件3中其成分在各個樣品總和相對較高者,得到花色苷、單寧、總酚、酒總黃酮、白藜蘆醇、DPPH半抑制體積、辛酸乙酯7中主要成分。
同樣的方法,對于白葡萄酒主要成分,提取出單寧、總酚、酒總黃酮、白藜蘆醇、DPPH半抑制體積、辛酸乙酯、乙醇、己酸乙酯、癸酸乙酯9中主要成分
根據(jù)以上建立的模型,運用matlab[2]對釀紅酒葡萄與紅葡萄酒所處理過的數(shù)據(jù)進行求解,采用2012年全國數(shù)學(xué)建模競賽中A題中數(shù)據(jù),得到矩陣A和矩陣B的特征根及特征向量,由于矩陣A和矩陣B具有相等的特征根,因此可對X、Y兩組變量進行典型相關(guān)分析,由matlab求解得到7對典型相關(guān)變量及典型變量系數(shù)和典型相關(guān)系數(shù)。
第一典型變量:
u1=(1.2549 0.1938-0.2710-0.1240-0.2158 0.2880 0.0489)T
v1=(0.9215 0.3301 0.1270 0.5590 0.1631-1.0091-0.0130)T典型相關(guān)系數(shù)為:0.9426
M1=1.2549x1+0.1938x2-0.2710x3-0.1240x4-0.2158x5+0.2880x6+0.0489x7
Ni=0.9215y1+0.3301y2+0.1270y3+0.5590y4+0.1631y5-1.0091y6-0.0130y7
第二典型變量:
u2=(-0.7322 0.1994 1.3059 0.1943 0.1144-0.1514 0.0455)T
v2=(-1.0678 0.4214 0.2154 0.3990 0.0236 0.4540 0.0756)T
典型相關(guān)系數(shù)為:0.8045
M2=-0.7322x1+0.1994x2+1.3059x3+0.1943x4+0.1144x5-0.1514x6+0.0455x7
N2=-1.0678y1+0.4214y2+0.2154y3+0.3990y4+0.0236y5+0.4540y6+0.0756y7
第三典型變量:
u3=(1.1224 0.7326-0.7681 0.1793 0.8618 1.3542-1.3394)T
v3=(0.4000 1.6146-3.2073 0.3965 0.3392 0.8332-0.5788)T
典型相關(guān)系數(shù)為:0.3604
M3=1.1224x1+0.7326x2-0.7681x3+0.1793x4+0.8618x5+1.3542x6-1.3394x7
N3=0.4000y1+1.6146y2-3.2073y3+0.3965y4+0.3392y5+0.8332y6-0.5788y7
第四典型變量:
u4=(-1.2778-0.8623 0.7279-1.8645 0.0907 1.2485 0.6194)T
v4=(-0.0917-0.5126-0.3531-1.4456-1.2907 2.9930 0.5890)T
典型相關(guān)系數(shù)為:0.2547
M4=-1.2778x1-0.8623x2+0.7279x3-1.8645x4+0.0907x5+1.2485x6+0.6194x8
N4=-0.0917y1-0.5126y2-0.3531y3-1.4456y4-1.2907y5+2.9930y6+0.5890y7
第五典型變量:
u5=(-0.4807 0.0188-0.1859-0.3014-1.5842-0.2575 2.1840)T
v5=(-0.7746 2.3376 1.4723-0.3571-0.0234-2.8456 0.3208)T
典型相關(guān)系數(shù)為:0.1163
M5=-0.4807x1+0.0188x2-0.1859x3-0.3014x4-1.5842x5-0.2575x6+2.1840x7
N5=-0.7746y1+2.3376y2+1.4723y3-0.3571y4-0.0234y5-2.8456y6+0.3208y7
第六典型變量:
u6=(-0.6032-0.5175 0.2491-0.0990 0.1455-1.2639 1.6532)T
v6(-0.1013-1.2236 1.8503-2.3064-0.2305 1.8953-0.5177)T
典型相關(guān)系數(shù)為:0.0973
M6=-0.6032x1-0.5175x2+0.2491x3-0.0990x4+0.1455x5-1.2639x6+1.6532x7
N6=-0.1013y1-1.2236y2+1.8503y3-2.3064y4-0.2305y5+1.8953y6+-0.5177y7
第七典型變量:
u7=(0.8068 1.0451-0.2899-1.4571 0.4521 0.4783 0.3645)T
v7=(-0.6729-0.7583 1.7646 0.8997-0.8239-1.0083-0.3921)T
典型相關(guān)系數(shù)為:0.0185
M7=0.8068x1+1.0451x2-0.2899x3-1.4571x4+0.4521x5+0.4783x6+0.3645x7
N7=-0.6729y1-0.7583y2+1.7646y3+0.8997y4-0.8239y5-1.0083y6-0.3921y7
由典型變量表達式可得原變量上的負載荷矩陣。
表1 綜合變量M的福載荷矩陣
表2 綜合變量N的福載荷矩陣
兩組變量對的相關(guān)性如表3。
表3 紅葡萄酒與釀酒葡萄變量對的相關(guān)性
由表可知,從第一組典型變量來看,釀酒葡萄理化指標(biāo)中的花色苷與葡萄酒中花色苷具有極強的相關(guān)性;從第二組典型變量來看,釀酒葡萄中DPPH自由基的含量影響到葡萄酒中單寧的含量;第三組典型變量表示的是釀酒葡萄中的總酚與葡萄酒總酚之間的關(guān)系,因為相關(guān)系數(shù)僅為0.3604,相關(guān)關(guān)系相對較弱;第四組典型變量相關(guān)系數(shù)為0.2547;第五組典型變量相關(guān)系數(shù)為0.1163;第六組典型變量相關(guān)系數(shù)為0.0973,說明可溶性物質(zhì)和DPPH半抑制體積之間無明顯的相關(guān)關(guān)系;第七組典型變量相關(guān)系數(shù)為0.0185。典型相關(guān)系數(shù)逐漸減小,可以忽略后四組典型變量,主要考慮前四組變量中釀酒葡萄與葡萄酒理化指標(biāo)之間的影響。
用同樣的處理過程,對白葡萄酒與釀酒葡萄的理化指標(biāo)進行典型變量相關(guān)分析,得到的結(jié)果如表4所示。
表4
從第一組典型相關(guān)變量對可看出釀酒葡萄的蛋白質(zhì)與葡萄酒的單寧含量有很大的相關(guān)性;第二組典型相關(guān)變量對都為總酚的含量,表明葡萄酒中總酚的含量與所選釀酒葡萄總酚的含量呈比例關(guān)系;而后四組變量對典型相關(guān)系數(shù)均小于0.1,呈現(xiàn)出的相關(guān)性不是十分明顯,因此可忽略其理化指標(biāo)之間的影響。
本文將主成分分析與典型相關(guān)性分析相結(jié)合,將兩種模型運用到釀酒葡萄與葡萄酒理化指標(biāo)的聯(lián)系分析中去。主成分分析可以將眾多的理化指標(biāo)綜合到幾個主成分中去,而典型相關(guān)性分析則可以分析兩個樣本的相關(guān)性。兩種模型有效的結(jié)合,對于分析兩種樣本的聯(lián)系性有重要的意義。
[1]謝金星,姜啟源.數(shù)學(xué)模型[M].北京:高等教育出版社,2004.
[2]于義良,羅蘊玲,安建業(yè).概率統(tǒng)計與spss應(yīng)用[M].西安:西安交通大學(xué)出版社.