傅祎旭
(東南大學機械工程學院,南京 211189)
主成分分析(PCA)已成為一種傳統(tǒng)的數據分析方法,乳制品(dairy products)以生鮮牛(羊)乳及其制品為主要原料,經加工制成的各種食品,也叫奶油制品,含有豐富的營養(yǎng)成分.將主成分分析方法應用于乳制品營養(yǎng)成分的分析具有泛化能力強和預測準確度高等優(yōu)點.在對乳制品營養(yǎng)成分的研究中,往往需要對反映事物的多個變量進行大量的觀測,收集大量數據以便進行分析尋找規(guī)律.多變量、大樣本無疑會為科學研究提供豐富的信息,但也在一定程度上增加了數據采集的工作量,更重要的是在大多數情況下,許多變量之間可能存在相關性而增加了問題分析的復雜性,同時給分析帶來不便.如果分別分析每個指標,分析又可能是孤立的,而不是綜合的.盲目減少指標會損失很多信息,容易產生錯誤的結論.因此需要找到一個合理的方法,減少分析指標的同時,盡量減少原指標包含信息的損失,對所收集的資料作全面的分析.由于各變量間存在一定的相關關系,因此有可能用較少的綜合指標分別綜合存在于各變量中的各類信息.主成分分析與因子分析就是這樣一種降維的方法.
主成份分析法也稱主分量分析或矩陣數據分析,是將一些實測變量轉換為較少不相關的綜合指標的多元統(tǒng)計分析方法.
若研究對象有兩項指標ζ1和ζ2,從總體ζ(ζ1,ζ2)中抽取N個樣品,它們散布在橢圓平面內(見圖1),指標ζ1與ζ2有相關性.η1和η2分別是橢圓的長軸和短軸, η1⊥η2,故η1與η2互不相關.其中η1是點ζ(ζ1,ζ2)在長軸上的投影坐標,η2是該點在短軸上的投影坐標.從圖1可以看出點的N個觀測值的波動大部分可以歸結為η1軸上投影點的波動,而η2軸上投影點的波動較小.
若η1作為一個綜臺指標,則η1可較好地反映出N個觀測值的變化情況,η2的作用次要.綜合指標η1稱為主成份,找出主成份的工作稱為主成份分析.
主成份分析要選擇恰當的投影方向,將高維空間的點投影到低維空間上, 且使低維空間上的投影盡可能多地保存原空間的信息,使低維空間上投影的方差盡可能地大.
圖1 主成份分析法示意圖
由于綜合指標往往是不能直接觀測到的,但它卻更能反映事物的本質.因為實際的變量間有一定的相關關系,所以可以使用較少數的綜合指標分別綜合存在于各變量中的各類信息,而綜合指標之間彼此不相關,即各指標代表的信息不重疊.
綜合指標稱為因子或主成分(提取幾個因子),一般有兩種方法:
特征值>1
累計貢獻率>0.8
x1,x2,...,xP為原變量指標,新變量指標為z1,z2,...,zm(m≤p),則
z1,z2,...,zm分別稱為原變量指標x1,x2,...,xP的第1,第2,...,第m主成分,在實際問題的分析中,常挑選前幾個最大的主成分.
主成分析的數學特征:
找主成分就是確定原來變量Xj(j=1,2,...,p)在諸主成分zi(i=1,2,...,m)上的載荷lij(i=1,2,...,m;j=1,2,...,p).它們分別是x1,x2,...,xP的相關矩陣的m個較大的特征值對應的特征向量.
z1,z2,...,zm分別稱為原變量指標x1,x2,...,xP的第1,第2,...,第m主成分,在實際問題的分析中,常挑選前幾個最大的主成分.
通過對超市乳制品的調查,數據來源于產品包裝上廠家給定的值,價格取多家超市的均值,7個產品營養(yǎng)值的數據.樣品的常規(guī)組分,即:平均價格,能量,蛋白質,脂肪,碳水化合物,鈉,鈣以及單一產品的凈含量.
表1為乳制品營養(yǎng)成分統(tǒng)計表,營養(yǎng)成分中的“/+數字”為該營養(yǎng)成分在該產品中的參考值.
表1 乳制品各項成分統(tǒng)計表
由于不同的產品受產品本身凈含量的限制,無法做出直接的比較,在此我們將各項營養(yǎng)指標根據售價與凈含量的關系進行單位化,得表2.表2中的“/Y”表示每元所對應的營養(yǎng)值
表2 單位化后統(tǒng)計表
對原始數據進行標準化處理.計算公因子方差,特征值、方差的%、累積%以及各指標的成分矩陣.筆者利用SPSS軟件對標準處理的數據進行處理.公因子方差如表4所示,特征值、方差的%、累積%的結果如表5所示,特征值為圖2.
表3 處理的數據
表4 公因子方差
表5 解釋的總方差
圖2 特征值
乳制品的價格顯然是受多方面因素所影響的,但是不同的因素對價格的影響作用是不一樣的,主成分分析法是將所有的影響因子中提取出最有影響力的因子出來的一種統(tǒng)計方法,本文側重于分析營養(yǎng)成分對乳制品的價格的影響,統(tǒng)計數據有不同乳制品的價格和營養(yǎng)成分的含量,通過SPSS統(tǒng)計軟件處理后,最后結果如表 5 所示,主成分分析的結果表明,提取前 2 個特征值的主成分,成分1對應為能量,方差的百分比為61.615%,成分2對應的是鈣,方差的百分比為21.355%,這兩個主成分的累計方差貢獻率達到82.970%可以基本反映全部 7 個指標所具有的信息,能在一定程度上代表乳制品的綜合因素.這個結果意味著乳制品營養(yǎng)成分里面主要由于能量含量和鈣質含量的多少而影響到乳制品的售價,市面上乳制品日趨豐富,根據本文通過統(tǒng)計計算得出的較為科學的結論,面對琳瑯滿目的乳制品,消費者在選購時可以從乳制品的鈣含量和能量含量兩個指標來考量,更加理性消費.
乳制品的品質受多方面因素的影響,但是不同的因素影響作用不同,主成分分析法是將主要的影響因子中提取相關的影響力因子,本文分析研究后表明,乳制品最主要的營養(yǎng)成分分為兩類:能量和脂肪組成的第一主成分以及鈣和蛋白質組成的第二主成分,其中每種主成分中所包含的成分一定程度上是正相關的,因此對乳制品的品質進行初步評定或檢測的時候,完全可以抽取易于檢測且成本較低的成分,以一定程度上代表其他成份,所得出的結論與全部檢測所有指標得出的結論相近程度較高(可達到82.970%),可以大大降低檢測成本和工作量.其結論對于乳制品消費者的選擇、政府對乳制品的管理和生產企業(yè)的自檢等都具有一定的指導作用.
[1]汪應洛.系統(tǒng)工程[M].北京:機械工業(yè)出版社,2009:54-60.
[2]薛成偉.基于主成分分析的農民收入預測[J].現代經濟信息,2011(23).
[3]范通達.基于主成分分析的生活垃圾產生量模型研究[J].環(huán)境衛(wèi)生工程,2009(2):41-43.
[4]林徐達.基于主成份分析法的飲用水特征性指標分類[J].科技創(chuàng)新導報,2012(12).
[5]郭宇翔,熊黑鋼,李寶富.新疆奇臺縣糧食生產影響因素與模擬預測研究[J].新疆農業(yè)科學,2010(5):1009-1017.
[6]劉丹丹,馮利華,王寧,石磊.基于BP神經網絡的義烏市水資源需求量預測[J].水資源與水工程學報,2010,24(4):(114-117).
[7]方開泰.實用多元統(tǒng)計分析[M].上海:華東師范大出版社,1989:291-302.
[8]王學仁,王松桂.實用多元統(tǒng)計分析[M].上海:上??萍汲霭嫔?1990:270-272.