陳 威
(華北科技學(xué)院,北京 東燕郊 065201)
主成分分析[1-3]也被叫做主分量分析,其主要目的是從原始的多個變量中選取若干個線性組合,最大程度地保留原始變量中的信息。在運用統(tǒng)計學(xué)原理研究多變量的問題時,變量數(shù)太多則會大大增加計算量以及增加分析問題的復(fù)雜性,人們往往希望在進行數(shù)據(jù)分析時,研究較少的變量,得到較多的信息量。
本文通過運用主成分分析方法,對我國主要城市空氣環(huán)境污染狀況進行了總體比較和評價。數(shù)據(jù)研究表明, 哈爾濱、重慶、北京、石家莊、西安、太原等地大氣環(huán)境污染比較嚴(yán)重; 大氣環(huán)境質(zhì)量比較理想的地區(qū)是???、拉薩、南昌、長沙、廣州、杭州等地。
主成分分析主要是利用降維的思想,其主要原理是將多個互相之間有關(guān)聯(lián)的數(shù)值變量轉(zhuǎn)化成少數(shù)幾個可解釋總體數(shù)據(jù)但相互關(guān)聯(lián)不大的綜合指標(biāo)的統(tǒng)計方法。這些綜合指標(biāo)就是原來多個變量的主成分,每個主成分都由初始變量的線性組合而成,而且各個主成分之間的相關(guān)性很小[4-6]。
利用主成分分析問題的主要計算步驟是:首先對原有變量進行標(biāo)準(zhǔn)化,然后計算各個變量之間的相關(guān)矩陣以及該矩陣的特征根和特征向量,最后將特征根由大到小排列,分別計算出對應(yīng)的主成分。
主成份分析的主要目的是從原始多個變量中選取若干個線性組合,最大程度地保留原始變量中的信息,從原始變量到新變量是一個正交變換。設(shè)有X=(X1,X2,...,X3,XP) ,是一個p維隨機變量,有二階矩陣,考慮它的線性變換
(1)
從中容易得出如果要用Y1盡可能多地保留原始的X的信息,通常的方法是使Y1的方差盡可能大。其他Yi(i=1,...,P)也希望最大程度地保留X的信息,但前面的Y已保留的信息就不能再保留。一般的以累計貢獻率達到85%為標(biāo)準(zhǔn),對于一些特殊的問題也可適當(dāng)?shù)姆艑捴?0%。它表示選定的主成分基本保留了原來變量的大部分信息[7-8]。在SPSS中主成分分析經(jīng)常被嵌入到因子分析過程之中。
表1數(shù)據(jù)來源于2016年中國統(tǒng)計年鑒,31個主要城市在2015年氣體污染物物排放量,其中共有六個檢測指標(biāo),包括: 工業(yè)二氧化硫 (X 1) ; 工業(yè)氮氧化物( X 2) ; 工業(yè)煙塵( X 3) ;生活二氧化硫( X 4) ; 生活氮氧化物( X 5) ;生活煙塵( X 6) 。
表1 各地區(qū)主要污染物排放情況
續(xù)表
利用SPSS軟件對原始數(shù)據(jù)作做主成分分析計算,在計算結(jié)果中提取了樣本中協(xié)方差矩陣?yán)飪蓚€大于1的特征值,其對方差的貢獻率分別是51.255%和34.158% ,總貢獻率高達85.413% ,超過85% ,主成分分析法適用于此類問的分析。
表2 污染物相關(guān)矩陣
由下表3球形檢驗可以看出KMO值為0.602,數(shù)據(jù)可以做主成份分析。顯著性sig值為0.0001,該值比0.05小,線性相關(guān)強,并且小于0.01,說明差異性極其顯著。綜合考慮KMO與 Bartlett 檢驗,說明該數(shù)據(jù)相關(guān)性很強,適合做主成分分析。
表3 球型檢驗
根據(jù)表4和表5,我們可以看到6個主成分的特征值,方差貢獻率以及累計方差貢獻率,因為在標(biāo)準(zhǔn)值大于1時,累計貢獻率達到85.413%,已經(jīng)大于85%,同時根據(jù)碎石圖(見圖1)在第二個點位置出現(xiàn)拐點,第三個點位置之后折線趨于平緩,所以綜合考慮選用2個主成分代替本來的6個指標(biāo),大大簡化原數(shù)據(jù)信息。通過表6污染物排放的成分矩陣,得出成分矩陣最重要的兩個主成分的關(guān)系式:
F1=0.856X1+0.828X2+0.767X3+0.796X4+0.530X5+0.392X6
(2)
F2=-0.473X1-0.470X2-0.397X3+0.473X4+0.784X5+0.781X6
(3)
成分起始特征值提取平方和載入特征值貢獻率%累計貢獻率特征值貢獻率%累計貢獻率13 07551 25551 2553 07551 25551 25522 04934 15885 4132 04934 15885 41330 4457 40992 82240 2804 66997 49050 1141 90299 39260 0360 608100 000
表6 污染物排放成分矩陣
在表6污染物排放成分矩陣中不難看出,與第一主成分密切相關(guān)的是工業(yè)二氧化硫、工業(yè)氮氧化物、工業(yè)煙塵以及生活二氧化硫,他們與第一主成分的相關(guān)性絕對值都超過75%,其貢獻率達到51.3%,說明工業(yè)廢氣和生活二氧化硫?qū)諝猸h(huán)境的影響較大。再看與第二主成分相關(guān)的是生活氮氧化物和生活煙塵,說明人類的生活多空氣環(huán)境的影響也是較大的。通過對主成分因子一得分排序可知工業(yè)污染對空氣影響較為嚴(yán)重的城市有重慶、上海、天津等城市,對主成分因子二得分排序可知生活污染對空氣影響較為嚴(yán)重的城市有哈爾濱、北京、西安、石家莊等,通過加權(quán)得分公式:
F=(0.513F1+0.342F2)/0.855
(4)
式中,F(xiàn)為加權(quán)得分;F1為主成分因子一得分;F2為主成分因子二得分。
表7 各城市主因子一、二和加權(quán)得分降序表
續(xù)表
得出各個主要城市的因子得分情況。根據(jù)表7可知重慶、上海、天津等城市工業(yè)污染對空氣環(huán)境的影響較大,而哈爾濱、北京、西安、石家莊等城市生活污染對空氣環(huán)境影響比較大。綜合考慮兩種主成分可知空氣污染排在前幾位的是: 哈爾濱、重慶、北京、石家莊、西安、太原等,空氣質(zhì)量較為理想的地區(qū)是海口、拉薩、南昌、長沙、廣州、杭州等地。
城市空氣污染源于很多因素,各因素之間也有或多或少的聯(lián)系。而運用主成分分析法來綜合評價空氣污染可以在較小損失的情況下得出影響空氣質(zhì)量的主要因素。根據(jù)上述方法對31個主要城市的空氣質(zhì)量統(tǒng)計綜合分析得出重慶、上海、天津等城市工業(yè)污染對空氣環(huán)境的影響較大,而哈爾濱、北京、西安、石家莊等城市生活污染對空氣環(huán)境影響比較大。綜合考慮兩個主因素得知:哈爾濱、重慶、北京、石家莊、西安、太原等城市的空氣污染嚴(yán)重,以工業(yè)污染廢氣污染為主。近幾年,對于空氣污染問題,我國提出了諸多相關(guān)的政策,對工業(yè)污染整治情況較為良好,同時也建議上述地區(qū)有關(guān)部門能夠積極響應(yīng)國家政策,對有關(guān)工廠加大治理力度,創(chuàng)造更加美好的生活環(huán)境。
[1] 王靜龍. 實用多元分析[M].北京: 科學(xué)出版杜,2011:205-214.
[2] 李連香,許迪,程先軍,等. 基于分層構(gòu)權(quán)主成分分析的皖北地下水水質(zhì)評價研究[J].資源科學(xué),2015,37(1):61-67.
[3] 李莉,孫永霞. 基于均值化主成分分析的霧霾環(huán)境分析與研究[J].計算機應(yīng)用研究,2015,32(5): 1373-1375.
[4] 張潤. 基于主成分分析的南京地區(qū)空氣質(zhì)量影響因素分析[J]. 科技傳播,2014(5):135-136.
[5] 屈家安,曹杰. 主成分分析與聚類分析在青島夏季氣溫變化研究中的應(yīng)用[J].大氣科學(xué)學(xué)報,2014,37(4):517-520.
[6] 廖國禮,吳超. 主成分分析法在礦山空氣污染監(jiān)測點優(yōu)化中的應(yīng)用[J]. 金屬礦山,2005(5):44-47.
[7] 武松,潘發(fā)明,等. SPSS統(tǒng)計分析大全[M]. 北京: 清華大學(xué)出版社,2014:334-344.
[8] 劉臣輝,呂信紅,范海燕. 主成分分析法用于環(huán)境質(zhì)量評價的探討[J].環(huán)境科學(xué)與管理,2011,36(3):183-186.