解蕾 狄光智
摘? 要:以R語(yǔ)言為數(shù)據(jù)分析的工具,基于相關(guān)分析和回歸分析方法,對(duì)太原市PM2.5的影響因素進(jìn)行分析。研究PM2.5與其他氣態(tài)污染物之間的關(guān)系,探討各氣態(tài)污染物在PM2.5二次合成中的貢獻(xiàn);建立PM2.5和PM10的回歸模型,方便通過(guò)PM10對(duì)PM2.5進(jìn)行預(yù)測(cè)。結(jié)果顯示:(1)太原市區(qū)空氣污染物中,PM2.5和PM10相關(guān)性最強(qiáng);(2)PM2.5和PM10回歸分析得到回歸模型為PM2.5=0.63PM10-11.76(R2=0.8427),回歸方程擬合度較好;(3)PM2.5和其他氣態(tài)污染物多元線性回歸模型為PM2.5=0.24SO2+20.08CO+11.54(R2=0.4844),擬合度檢驗(yàn)效果一般,考慮三者之間還有其他因素的影響。
關(guān)鍵詞:R語(yǔ)言;數(shù)據(jù)分析;相關(guān)分析;回歸分析
中圖分類號(hào):TP315.69? ? ?文獻(xiàn)標(biāo)識(shí)碼:A
Abstract:Using R language as a tool for data analysis,based on correlation analysis and multiple linear regression analysis methods,the paper analyzes the influencing factors of PM2.5 in Taiyuan City,studies the relationship between PM2.5 and other gaseous pollutants,and explores the contribution of gaseous pollutants in secondary synthesis.The regression model of PM2.5 and PM10 is established to facilitate the prediction of PM2.5 through PM10.The results show:the correlation between PM2.5 and PM10 is the strongest among the air pollutants in Taiyuan;the regression model achieved through the regression analysis on PM2.5 and PM10 is PM2.5=0.63PM10—11.76(R2=0.8427),with high fitting degree;the PM2.5 and other gaseous pollutants multivariate linear regression model is PM2.5=0.24SO2+20.08CO+11.54(R2=0.4844).The test results are general,considering the influence of other factors.
Keywords:R language;data analysis;correlation analysis;regression analysis
1? ?引言(Introduction)
PM2.5是指大氣中直徑小于或等于2.5微米的顆粒物,也稱為可入肺顆粒物。它的直徑還不到人的頭發(fā)絲粗細(xì)的1/20。雖然PM2.5只是地球大氣成分中含量很少的組成,但它對(duì)空氣質(zhì)量和能見(jiàn)度等有著重要的影響。與較粗的大氣顆粒物相比,PM2.5由于粒徑小,富含大量有毒、有害物質(zhì),且在大氣中停留時(shí)間長(zhǎng)、輸送距離遠(yuǎn),因而對(duì)人體健康和大氣環(huán)境質(zhì)量影響更大,是導(dǎo)致心腦系統(tǒng)和呼吸系統(tǒng)的損傷,增加患癌癥的風(fēng)險(xiǎn),以及霧霾產(chǎn)生的主要因素[1-3]。
本研究通過(guò)python編寫(xiě)接口程序,獲取太原市九處國(guó)控監(jiān)測(cè)點(diǎn),2014年3月至2018年2月的PM2.5及其他污染指標(biāo)數(shù)據(jù)。通過(guò)對(duì)近四年的數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析,探討太原市PM2.5形成的影響因素。此研究將為太原市相關(guān)管理部門(mén)和人員,對(duì)城市規(guī)劃建設(shè)、城市環(huán)境治理和生態(tài)文明建設(shè)工作提供合理有效的科學(xué)參考。
2? ?R語(yǔ)言簡(jiǎn)介(Introduction to R language)
R是一種用于統(tǒng)計(jì)分析計(jì)算及圖形化展示的開(kāi)源軟件,同時(shí)也是一種編程語(yǔ)言,它廣泛應(yīng)用于農(nóng)業(yè)、林業(yè)、商業(yè)、工業(yè)、政府部門(mén)、醫(yī)藥和科研等眾多涉及數(shù)據(jù)分析的領(lǐng)域,隨著近幾年數(shù)據(jù)挖掘、大數(shù)據(jù)等概念不斷發(fā)展,R作為數(shù)據(jù)分析的利器也越來(lái)越多地被人關(guān)注[4-6]。
3? ?方法及原理(Methods and principles)
為了研究PM2.5和其他大氣污染物和氣象條件之間的關(guān)系,根據(jù)變量類型,在本研究中主要用到了二元定距變量的相關(guān)分析。二元定距變量的相關(guān)分析通過(guò)計(jì)算定距變量間兩兩相關(guān)的相關(guān)系數(shù),對(duì)定距變量?jī)蓛上嚓P(guān)程度進(jìn)行分析[7]。
4? ?分析過(guò)程(Analysis process)
4.1? ?PM2.5與其他污染物的關(guān)系
為了了解PM2.5和其他各污染物之間的關(guān)系,采用Pearson相關(guān)系數(shù)檢驗(yàn),從表1可以看出,PM2.5和PM10,PM2.5和SO2,PM2.5和CO之間有較強(qiáng)的線性相關(guān)性,相關(guān)系數(shù)分別為0.92、0.66、0.66,相伴概率P值均小于0.05,說(shuō)明兩兩之間相關(guān)性很顯著。PM2.5和PM10線性相關(guān)性最強(qiáng),說(shuō)明二者具有相似的污染源。除臭氧之外PM2.5和其他污染物的相關(guān)系數(shù)介于0.56至0.92,說(shuō)明臭氧污染對(duì)PM2.5影響不大,太原市的PM2.5污染除一次排放之外,氣態(tài)污染物的二次化學(xué)合成也占一定比重。
4.2? ?PM2.5與PM10的回歸分析
我國(guó)對(duì)PM10的監(jiān)測(cè)研究起步較早,由于空氣質(zhì)量的惡化和霧霾事件的頻發(fā),對(duì)PM2.5的關(guān)注是從近幾年才開(kāi)始,對(duì)PM2.5的監(jiān)測(cè)區(qū)域和監(jiān)測(cè)點(diǎn)數(shù)都有所限制,所以研究PM2.5和PM10之間的關(guān)系,探索分析二者之間的回歸模型,對(duì)于PM2.5的預(yù)測(cè)和研究有重要的意義。
4.3? ?PM2.5與其他氣態(tài)污染物的關(guān)系
PM2.5的來(lái)源比較復(fù)雜,除了土壤揚(yáng)塵、植物花粉等自然源外,太原市的PM2.5污染只要是人為源,從之前的區(qū)域監(jiān)測(cè)點(diǎn)數(shù)據(jù)對(duì)比,以及太原市空氣污染物主成分分析可以看出,太原市的PM2.5污染源主要是以工業(yè)源和交通源。按照形成方式來(lái)看,PM2.5又分為一次排放和二次合成,由于工業(yè)過(guò)程和燃燒排放的氣態(tài)前體污染物通過(guò)大氣化學(xué)反應(yīng)生成二次顆粒物。
通過(guò)相關(guān)性檢驗(yàn)發(fā)現(xiàn)PM2.5和SO2、CO兩種氣態(tài)污染物之間關(guān)系最大,說(shuō)明SO2和CO在PM2.5的二次合成中貢獻(xiàn)較大,根據(jù)兩年的樣本數(shù)據(jù),對(duì)PM2.5和CO、SO2進(jìn)行多元回歸,得出回歸方程。
5? ?實(shí)例分析代碼(Analysis code)
6? ?結(jié)論(Conclusion)
太原市區(qū)空氣污染物中,PM2.5和PM10相關(guān)性最強(qiáng),另外PM2.5和SO2、CO兩氣態(tài)污染物之間也有較強(qiáng)的相關(guān)性,
說(shuō)明太原市PM2.5污染除一次排放之外,氣態(tài)污染物的二次合成也占一定的比重。PM2.5和PM10回歸分析得到回歸模型為PM2.5=0.63PM10-11.76(R2=0.8427),回歸方程擬合度較好;PM2.5和其他氣態(tài)污染物多元線性回歸模型為PM2.5=0.24SO2+20.08CO+11.54(R2=0.4844),擬合度檢驗(yàn)效果一般,考慮三者之間還有其他因素的影響,PM2.5的形成除了氣態(tài)污染物的二次合成,主要還有區(qū)域污染物的一次排放。
參考文獻(xiàn)(References)
[1] Jihua Tan,Leiming Zhang,Xueming Zhou,et al.Chemical characteristics and source apportionment of PM2.5 in Lanzhou,China[J].Science of the Total Environment,2017,601-602:1743-1752.
[2] Ryou H G,B J H,Kim S.Source apportionment of PM10 and PM2.5 air pollution,and possible impacts of study characteristics in South Korea[J].Environmental Pollution,2018,240:963-972.
[3] Li R,Hardy R,Zhang W,et al.Chemical Characterization and Source Apportionment of PM2.5 in a Nonattainment Rocky Mountain Valley[J].Journal of Environmental Quality,2018,47:238-245.
[4] 李子伊.基于Excel和R語(yǔ)言的成績(jī)統(tǒng)計(jì)分析——以福建省某中學(xué)期中、期末英語(yǔ)考試成績(jī)?yōu)槔齕J].英語(yǔ)教師,2017,17(24):44-51.
[5] 周蕓韜.基于R語(yǔ)言的大數(shù)據(jù)處理平臺(tái)的設(shè)計(jì)與實(shí)現(xiàn)[J].現(xiàn)代電子技術(shù),2017,40(02):53-56.
[6] 武茗馨.基于R語(yǔ)言的金融大數(shù)據(jù)審計(jì)應(yīng)用研究[D].南京審計(jì)大學(xué),2017.
[7] 李雄英.基于R語(yǔ)言的統(tǒng)計(jì)教學(xué)應(yīng)用初探[J].高教學(xué)刊,2017(01):50-51.
[8] 董健衛(wèi),陳艷美,孟盼,等.回歸分析與基于MIV的RBF神經(jīng)網(wǎng)絡(luò)在PM2.5的相關(guān)因素分析中的應(yīng)用[J].數(shù)學(xué)的實(shí)踐與認(rèn)識(shí),2017,47(10):127-136.
[9] 張紅,董小剛,李群.PM2.5濃度影響因素的主成分回歸分析[J].長(zhǎng)春工業(yè)大學(xué)學(xué)報(bào),2017,38(02):105-110.
[10] 杜續(xù),馮景瑜,呂少卿,等.基于隨機(jī)森林回歸分析的PM2.5濃度預(yù)測(cè)模型[J].電信科學(xué),2017,33(07):66-75.