馬艷芳, 張曉琴
(山西大學(xué) 數(shù)學(xué)科學(xué)學(xué)院, 山西 太原 030006)
?
基于結(jié)構(gòu)性雙標(biāo)圖的城市廢水污染物排放分析
馬艷芳, 張曉琴
(山西大學(xué) 數(shù)學(xué)科學(xué)學(xué)院, 山西 太原030006)
摘要:雙標(biāo)圖是一種基于主成分分析原理,將多維數(shù)據(jù)可視化在一張圖中的有效方法.傳統(tǒng)的雙標(biāo)圖根據(jù)奇異值的分配分為協(xié)變性雙標(biāo)圖、結(jié)構(gòu)性雙標(biāo)圖、對(duì)稱雙標(biāo)圖三種.文章主要針對(duì)結(jié)構(gòu)性雙標(biāo)圖適合分析樣本點(diǎn)之間相似性的特點(diǎn),對(duì)全國主要城市的廢水污染物排放情況做了雙標(biāo)圖分析,并且和最長距離聚類法相比較,結(jié)果表明結(jié)構(gòu)性雙標(biāo)圖不僅可以得到相應(yīng)的類別,而且可以得到相應(yīng)類別中的顯著性變量,為廢水處理工程提供了有力幫助.
關(guān)鍵詞:結(jié)構(gòu)性雙標(biāo)圖; 聚類分析; 廢水污染物
0引言
隨著近年來我國人口的增長,以及工業(yè)化、城鎮(zhèn)化發(fā)展和經(jīng)濟(jì)的迅速增長,我國的用水量也日趨增多,城市中產(chǎn)生的廢水也隨之增加.我國是一個(gè)水資源比較缺乏的國家,淡水資源只占全球的6%,同時(shí)水污染也嚴(yán)重威脅著城市居民的飲水安全,所以污水處理是水治理中不可缺的一部分,從而分析廢水中的污染物排放情況具有重大意義.已有許多學(xué)者對(duì)廢水中污染物處理做了分析與研究,例如,周為華等[1]對(duì)揚(yáng)州市廢水中的氨氮做了分析;蔣琴[2]對(duì)陜西省工業(yè)廢水及其主要污染物排放量進(jìn)行了預(yù)測(cè);梁淑軒、孫漢文等[3]對(duì)中國工業(yè)廢水污染狀況以及影響因素做出分析; 陳明等[4]對(duì)北京市的工業(yè)廢水狀況做了調(diào)查;王洪波等[5]對(duì)東北三省工業(yè)廢水排放中典型污染物進(jìn)行了行業(yè)分析.
本文將用一種多元統(tǒng)計(jì)分析方法中的可視化方法——雙標(biāo)圖來分析全國各個(gè)城市中主要污染物的排放情況,此方法不同于傳統(tǒng)的多元統(tǒng)計(jì)分析方法[6],如主成分分析、對(duì)應(yīng)分析[7]、相關(guān)分析,期待能更加直觀地反映出樣本集的信息.
雙標(biāo)圖于1971年由Gabriel[8]首次提出,最初來分析農(nóng)作物品種和環(huán)境的雙向數(shù)據(jù)[9];而后,Gower和Hand[10]于1996年將其與數(shù)據(jù)分析結(jié)合起來,在傳統(tǒng)雙標(biāo)圖的基礎(chǔ)上進(jìn)行了改進(jìn),提出基于多種距離的雙標(biāo)圖,同時(shí)給出不同雙標(biāo)圖的統(tǒng)一理論,將雙標(biāo)圖看作是類似傳統(tǒng)散點(diǎn)圖的多元散點(diǎn)圖;Yan W[11]在2000年首次提出了GGE雙標(biāo)圖,主要用于分析農(nóng)作品種和環(huán)境的關(guān)系;Aitchison和Greenacre[12]在2002年將雙標(biāo)圖應(yīng)用于成分?jǐn)?shù)據(jù)的分析中;Niel J.le Roux和Sugnet Gardner[13]將雙標(biāo)圖作為分析多元數(shù)據(jù)的一種工具.由于雙標(biāo)圖分析能夠直觀反映指標(biāo)變量和樣本以及它們之間的關(guān)系,受到許多學(xué)者的推崇,已在不同的科學(xué)領(lǐng)域得到廣泛應(yīng)用,如農(nóng)業(yè)、醫(yī)學(xué)[14]、旅游[15]等.
本文第1節(jié)主要介紹雙標(biāo)圖理論知識(shí);第2節(jié)利用結(jié)構(gòu)性雙標(biāo)圖對(duì)2013年全國各個(gè)城市廢水中主要污染物排放情況做了分析,并且和傳統(tǒng)的聚類分析做了比較分析;最后給出相應(yīng)的結(jié)論.
1雙標(biāo)圖理論
設(shè)所研究的原始數(shù)據(jù)有n個(gè)觀測(cè)樣本,p個(gè)指標(biāo)變量,記為Xn×p=(xij)n×p=(X1,X2,…,Xp) ,其中xij(i=1,2,…,n;j=1,2,…,p)表示矩陣Xn×p中第i行第j列的元素;Xj=(x1j,x2j,…,xnj)T表示第j個(gè)指標(biāo)變量的觀測(cè)值;xi=(xi1,xi2,…,xip)表示第i個(gè)樣本的觀測(cè)值.雙標(biāo)圖分析希望在最小化信息損失的前提下,把矩陣Xn×p中的n個(gè)觀測(cè)樣本xi和p個(gè)指標(biāo)變量Xj表示在同一張低維圖上,可以直觀分析矩陣中行、列以及他們之間的交互關(guān)系.
下面給出雙標(biāo)圖的構(gòu)造步驟:
步驟1:對(duì)矩陣Xn×p進(jìn)行標(biāo)準(zhǔn)化得到矩陣Zn×p,且
Zn×p=(zij)n×p=(Z1,Z2,…,Zp)
(1)
其中
i=1,2,…,n; j=1,2,…,p.
Z=UΓVT
(2)
其中U=(uij)n×r=(U1,U2,…,Ur)為n×r階矩陣,Uj=(u1j,u2j,…,unj)T(j=1,2,…,r)是ZZT的非零特征值所對(duì)應(yīng)的單位正交特征向量;V=(vij)p×r=(V1,V2,…,Vr)為p×r階矩陣,Vj=(v1j,v2j,…,vpj)T(j=1,2,…,r)是ZTZ的非零特征值所對(duì)應(yīng)的單位正交特征向量;Γ=diag(λ1,λ2,…,λr)為r×r階對(duì)角矩陣,且λ1≥λ2≥…≥λr>0.
步驟3:令
Z=FGT
(3)
當(dāng)α取不同的值時(shí),所對(duì)應(yīng)雙標(biāo)圖中點(diǎn)和向量的坐標(biāo)是不一樣的,得到的雙標(biāo)圖也不同.通常選取α=0,0.5,1這三個(gè)值,并且可以相應(yīng)得到三種不同的雙標(biāo)圖.下面具體介紹這三種不同的雙標(biāo)圖.
(4)
i,j=1,2,…,p
(5)
rij表示第i個(gè)向量與第j個(gè)向量之間的簡單相關(guān)系數(shù),即兩向量之間的夾角余弦值近似兩列指標(biāo)的相關(guān)性.因此,這種雙標(biāo)圖適合分析列指標(biāo)之間的關(guān)系.
(2)α=1時(shí),稱為結(jié)構(gòu)性雙標(biāo)圖(Form biplot),此時(shí)F=UΓG=V,F(xiàn)FT=ZZT,雙標(biāo)圖中兩點(diǎn)之間的距離近似于兩個(gè)觀測(cè)樣本之間的相似性,適合分析觀測(cè)樣本及其之間的關(guān)系.
(3)α=0.5時(shí),稱為對(duì)稱雙標(biāo)圖(Symmetric scaling biplot),此時(shí)F=UΓ1/2,G=VΓ1/2,這種α的分配介于上述兩者之間,此種雙標(biāo)圖適合均衡的分析行列之間的關(guān)系.
上述所提到的雙標(biāo)圖點(diǎn)、向量、夾角等元素可在一張二維圖中表示,即r=2,如圖1展現(xiàn)了雙標(biāo)圖中的元素,其中:點(diǎn)近似表示矩陣Xn×p的行信息即樣本;向量近似表示矩陣Xn×p的列信息即列指標(biāo);兩點(diǎn)之間的距離近似表示兩樣本的相似性;向量的長度近似表示列指標(biāo)的標(biāo)準(zhǔn)差;兩向量之間的夾角的余弦值近似表示兩列指標(biāo)之間的相關(guān)性;點(diǎn)到向量的距離近似表示標(biāo)準(zhǔn)化矩陣中該樣本點(diǎn)在其列指標(biāo)下的值.
圖1 二維雙標(biāo)圖中的元素
2實(shí)例分析
廢水是指居民活動(dòng)過程中排出的水及徑流雨水的總稱,一般指沒有利用或沒利用價(jià)值的水.目前,我國水資源情況不容樂觀,是一個(gè)缺水比較嚴(yán)重的國家,全國許多城市的地下水均受到不同程度的污染,并且威脅到了城市居民的飲水安全,廢水處理也成為我國城市發(fā)展不可或缺的一部分.本文對(duì)全國主要城市廢水中的主要污染物排放情況進(jìn)行研究分析,數(shù)據(jù)來源于2014年中國統(tǒng)計(jì)年鑒[16],如表1所示.
表1 全國主要城市廢水中主要污染物排放情況
續(xù)表1
編號(hào)城 市工業(yè)廢水排放量(V1)/萬噸工業(yè)化學(xué)需氧量排放量(V2)/噸工業(yè)氨氮排放量(V3)/噸城鎮(zhèn)生活污水排放量(V4)/萬噸生活化學(xué)需氧量排放量(V5)/噸生活氨氮排放量(V6)/噸22重 慶334515153432661089372186013621123成 都1052412321801998601025951314424貴 陽226269932932177426324449025昆 明48088115266488824840454326拉 薩378312272114792799427西 安777121615163232672629061067528蘭 州4909444627231404332806497729西 寧279815759591766016332349630銀 川6194167262741139223026261831烏魯木齊4889595066618816137094613
2.1城市廢水主要污染物的雙標(biāo)圖分析
結(jié)構(gòu)性雙標(biāo)圖中兩點(diǎn)之間的距離近似兩樣本點(diǎn)之間的相似性,根據(jù)這一特點(diǎn),本文對(duì)表1中的數(shù)據(jù)做出結(jié)構(gòu)性雙標(biāo)圖,見圖2所示.根據(jù)樣本到中心的距離由遠(yuǎn)到近,以及樣本點(diǎn)在向量上的投影可以將所有樣本大致分為6類,可得到以下分析結(jié)果.
圖2 全國主要城市廢水污染物排放的結(jié)構(gòu)性雙標(biāo)圖
第1類:石家莊(3)離中心最遠(yuǎn),可以自成一類,并且它在工業(yè)氨氮、工業(yè)廢水、工業(yè)化學(xué)這三個(gè)指標(biāo)變量上的值都很高.事實(shí)上,石家莊是全國重點(diǎn)污染城市,部分企業(yè)污水的排放是導(dǎo)致石家莊廢水污染物中上述指標(biāo)高的一個(gè)重要原因,居民飲用水也令人堪憂.
第2類:上海(9)、重慶(22)是一類,因?yàn)檫@兩點(diǎn)離樣本中心的距離較遠(yuǎn),并且這兩個(gè)城市在城鎮(zhèn)生活污水、生活氨氮、生活化學(xué)、工業(yè)廢水這4個(gè)指標(biāo)上的值很高,說明這兩個(gè)城市的廢水污染物主要是這4種污染物.近年來,重慶市的餐飲業(yè)的迅速壯大,帶動(dòng)了重慶的經(jīng)濟(jì)發(fā)展,但與此同時(shí),餐飲廢水成為重慶市污水的主要來源,廢水中的污染物大多是人們?nèi)粘I钪信欧懦龅?上海作為一個(gè)國際化的大都市,人口密集,生活污水排放量較大,工業(yè)主要集中在鄉(xiāng)鎮(zhèn),鄉(xiāng)鎮(zhèn)工業(yè)水污染日趨嚴(yán)重,導(dǎo)致上海、重慶這兩個(gè)城市在上述4個(gè)指標(biāo)上的值很高.
第3類:北京(1)、廣州(23)、成都(19)是一類,這些城市的污染物主要來自于生活污水、生活氨氮、生活化學(xué),在這3個(gè)指標(biāo)上的值較高.北京、廣州、成都是我國人口較密集的城市,均排在城市人口排名前六,人們?nèi)粘I町a(chǎn)生的廢水成為這些城市水污染的主要來源.
第4類:天津(2)、杭州(11)是一類,在工業(yè)化學(xué)、工業(yè)氨氮這兩個(gè)指標(biāo)上的值都較高.化工、冶金、醫(yī)藥產(chǎn)業(yè)是天津市的支柱產(chǎn)業(yè),在杭州,醫(yī)藥化學(xué)、紡織服裝處于全國領(lǐng)先地位,產(chǎn)業(yè)發(fā)展帶動(dòng)經(jīng)濟(jì)的增長,同時(shí)也帶來了工業(yè)污染,廢水中工業(yè)化學(xué)、氨氮的排放量較高.
第5類:武漢(17)、南京(10)、西安(27)、南寧(20)這些城市是一類,由于其距離中心位置比較近,其污染物的指標(biāo)值較低.這些城市的工業(yè)相對(duì)不發(fā)達(dá),并且旅游業(yè)也比較突出,水污染相對(duì)較輕,廢水中的污染物排放量相比上述所提到的城市較少.
第6類:其余城市是一類,這些城市離樣本中心最近,并且在各個(gè)污染物指標(biāo)上的值都很低,甚至為負(fù),說明這些城市相比以上城市而言,廢水污染物排放量比較低,水污染較輕.相比前5類中所提到的城市,這些城市的經(jīng)濟(jì)相對(duì)不發(fā)達(dá),人口密集度較低,生態(tài)環(huán)境污染相對(duì)較輕.
2.2城市廢水主要污染物的聚類分析
利用最長距離法聚類,得到的5類結(jié)果如圖3所示.具體為:
第1類:石家莊.
第2類:上海、重慶.
第3類:北京、成都、廣州.
第4類:杭州、天津、南寧、西安、武漢、南京.
第5類:蘭州、銀川、???、拉薩、哈爾濱、福州、長沙、長春、南昌、沈陽、鄭州、呼和浩特、西寧、合肥、濟(jì)南、昆明、貴陽、太原、烏魯木齊.
圖3 全國主要城市廢水污染物排放的最長距離聚類
2.3結(jié)構(gòu)性雙標(biāo)圖和最長距離聚類法的比較
從以上分析可以看出,結(jié)構(gòu)性雙標(biāo)圖把數(shù)據(jù)分為6類,而最長距離法把數(shù)據(jù)分為5類,但兩種方法得到的類大部分是相同的,只有個(gè)別有些差異,結(jié)構(gòu)性雙標(biāo)圖中的第4類和第5類在最長距離聚類法中合并為一類,其他類都是一樣的,說明結(jié)構(gòu)性雙標(biāo)圖的聚類效果是不錯(cuò)的,并且在圖中可以得到每一類的成因;而對(duì)于最長距離聚類法得到的5類,我們只知聚類的結(jié)果,但是每一類的顯著指標(biāo)變量是不知道的,這也是聚類法的一個(gè)弊端.
3結(jié)論
基于結(jié)構(gòu)性雙標(biāo)圖的特點(diǎn),本文將該方法應(yīng)用于全國主要城市廢水污染物排放情況的數(shù)據(jù),通過雙標(biāo)圖分析將全國主要城市分為6類,并且指出每一類中顯著的廢水污染物,為各個(gè)城市廢水分類處理提供了幫助.城市的發(fā)展需要經(jīng)濟(jì)的帶動(dòng),在發(fā)展經(jīng)濟(jì)的同時(shí)需要保護(hù)生態(tài)環(huán)境,水,作為生命的搖籃,更需要我們共同保護(hù).
參考文獻(xiàn)
[1] 周為華,盛海君,朱新開.揚(yáng)州市城市廢水中主要污染物調(diào)查和分析[J].化學(xué)工程與裝備,2010(8):200-205.
[2] 蔣琴.陜西省工業(yè)廢水及其主要污染物排放量預(yù)測(cè)[D].西安:西安建筑科技大學(xué),2012.
[3] 梁淑軒,孫漢文.中國工業(yè)廢水污染物狀況及影響因素分析[J].環(huán)境科學(xué)與技術(shù),2007,30(5):43-48.
[4] 陳明,任仁,王子健,等.北京工業(yè)廢水和城市污水環(huán)境激素污染狀況調(diào)查[J].環(huán)境科學(xué)研究,2007,20(6):1-7.
[5] 王洪波,王鑫,薛南冬,等.東北三省工業(yè)廢水排放中典型污染物的行業(yè)分布特征[J].農(nóng)業(yè)環(huán)境科學(xué)學(xué)報(bào),2006,25(6):1 685-1 690.
[6] 陸璇,葉俊.實(shí)用多元統(tǒng)計(jì)分析[M].北京:清華大學(xué)出版社,2013.
[7] 王育鴻,梁滿發(fā),張逸進(jìn).對(duì)應(yīng)分析模型在電視劇市場(chǎng)評(píng)估中的應(yīng)用[J].陜西科技大學(xué)學(xué)報(bào)(自然科學(xué)版),2011,29(12):126-130.
[8] Gabriel K.R.The biplot graphical display of matrices with application to principal component analysis[J].Biome-trika,1971,58(3):453-467.
[9] Bradu D,Gabriel K R.The biplot as a diagnostic tool for models of two-way tables[J].Technometrics,1978,20:47-68.
[10] Gower J.C,Hand D.J.Biplot[M].London:Chapman & Hall,1996.
[11] Yan W,Hunt L A,Sheng Q L,et al.Cultivar evalution and mega-environment investigation based on GGE biplot[J].Crop Sci,2000,40:596-605.
[12] Aitchison J,Greenacre M.Biplots of compositional data[J].Journal of the Royal Statistical Society:Series C(Applied Statistics),2002,51(4):375-392.
[13] Niel J.le Roux,Sugnet Gardner.Analysing your multivariate data as a pictorial:A case for applying biplot methodology[J].International Statistical Institute,2005,73(3):365-387.
[14] Wouters L.,Gohlmann H.W.,Bijnens L.,et al.Graphical exploration of gene expression data:A comparative study of three multivariate methods[J].Biometrics,2003,59(4):1 131-1 139.
[15] Pan S.,Chon K.,Song H.Y.Visualizing tourism trends:Acombination of ATLAS.ti and Biplot[J].Journal of Travel Research,2008,46(3):339-348.
[16] 中華人民共和國國家統(tǒng)計(jì)局.中國統(tǒng)計(jì)年鑒[M].北京:中國統(tǒng)計(jì)出版社,2014.
【責(zé)任編輯:蔣亞儒】
The form biplot analysis of main pollutant emission in waste water in part urban cities
MA Yan-fang, ZHANG Xiao-qin
(School of Mathematical Science, Shanxi University, Taiyuan 030006, China)
Abstract:Biplot analysis is an useful graphical representation of multivariate date,which is based on the principal component.Traditional biplot can be divided into three kinds according to the distri-bution of the singular values,respectively,covariance biplot,form biplot,symmetric scaling biplot.This paper aim to analyze main pollutant emission in waste water in part urban cities of China by form biplot and get the clustering results.Compared to complete linkage method,we can conclude that the form biplot not only get the coresponding clusters,but also can get significant variable in these categories.It provide the strong help for wastewater treatment projects.
Key words:form biplot; clustering analysis; main pollutant in waste water
中圖分類號(hào):O212.4
文獻(xiàn)標(biāo)志碼:A
文章編號(hào):1000-5811(2016)02-0174-05
作者簡介:馬艷芳(1989-),女,山西嵐縣人,在讀碩士研究生,研究方向:統(tǒng)計(jì)機(jī)器學(xué)習(xí)
基金項(xiàng)目:山西科技廳自然科學(xué)基金項(xiàng)目(2015011044 ); 山西省國際合作計(jì)劃項(xiàng)目(2015081020)
收稿日期:2015-11-21