張惠儀
摘 要:隨著我國(guó)經(jīng)濟(jì)的發(fā)展,污染越來(lái)越嚴(yán)重,開展空氣質(zhì)量檢測(cè)很有必要。為了尋找一種預(yù)報(bào)方法對(duì)空氣污染進(jìn)行實(shí)時(shí)的監(jiān)督和預(yù)報(bào),以廣州市4年的空氣污染指數(shù)(API)和相對(duì)應(yīng)的逐日氣象數(shù)據(jù)資料為基礎(chǔ),進(jìn)行空氣質(zhì)量的研究。鑒于不同季節(jié)API值的變化有所差別這一原因,分別建立逐步回歸分析模型和BP神經(jīng)網(wǎng)絡(luò)模型對(duì)廣州四季的API值進(jìn)行預(yù)測(cè)。通過(guò)比較兩種模型的均方百分比誤差和預(yù)報(bào)準(zhǔn)確率,發(fā)現(xiàn)BP神經(jīng)網(wǎng)絡(luò)的預(yù)報(bào)效果優(yōu)于逐步回歸分析。
關(guān)鍵詞:空氣污染指數(shù);逐步回歸分析;BP神經(jīng)網(wǎng)絡(luò);預(yù)報(bào)準(zhǔn)確率
中圖分類號(hào):X831 文獻(xiàn)標(biāo)識(shí)碼:A DOI:10.15913/j.cnki.kjycx.2016.21.029
空氣對(duì)人們的身體健康起著直接的作用,而空氣環(huán)境質(zhì)量間接影響著人們的生活質(zhì)量。空氣環(huán)境質(zhì)量通常采用空氣污染指數(shù)(Air Pollution Index,簡(jiǎn)稱“API”)這一指標(biāo)對(duì)空氣質(zhì)量進(jìn)行評(píng)估??諝馕廴绢A(yù)報(bào)是在未來(lái)的空氣質(zhì)量狀況不明確的情況下對(duì)其作出的預(yù)測(cè),正如天氣預(yù)報(bào)一樣。很早之前,其他國(guó)家已經(jīng)開展了空氣污染預(yù)報(bào)工作,比如加拿大、美國(guó)、英國(guó)等。
近幾年,國(guó)內(nèi)外的許多學(xué)者對(duì)此作了很多學(xué)術(shù)研究并取得一定的預(yù)報(bào)效果。比如Boznar M等在1993年提出利用人工神經(jīng)網(wǎng)絡(luò)方法對(duì)紹什塔尼最大熱電廠周圍的污染物SO2濃度進(jìn)行預(yù)測(cè);荷蘭的Var Der Wal利用主成分分析法與時(shí)間序列分析法對(duì)PM10的濃度變化進(jìn)行預(yù)測(cè);王寧等通過(guò)分析API與各種氣象因子之間的關(guān)系,找出影響總懸浮顆粒物擴(kuò)散的因子并給予相應(yīng)的權(quán)值,于是得出相應(yīng)的判定準(zhǔn)則對(duì)空氣質(zhì)量等級(jí)進(jìn)行預(yù)報(bào);董亞龍等通過(guò)對(duì)銅川市區(qū)、新區(qū)的3種污染物進(jìn)行CAPPS模式預(yù)報(bào),得出不同污染物的預(yù)測(cè)準(zhǔn)確率存在較大的區(qū)別,不同季節(jié)的預(yù)測(cè)準(zhǔn)確率也各不相同。其中,PM10>SO2>NO2。
然而在此之前,這種方法還沒(méi)有被提出并應(yīng)用于大氣污染預(yù)報(bào)。在過(guò)去大氣污染預(yù)測(cè)領(lǐng)域的應(yīng)用中,往往選取大氣污染物的濃度作為預(yù)測(cè)因子進(jìn)行預(yù)測(cè)。鑒于大氣污染物存在一定的不可預(yù)測(cè)性,本文不同于之前的大氣污染預(yù)測(cè)主要表現(xiàn)為:針對(duì)目前天氣預(yù)報(bào)的精確度越來(lái)越高這一特點(diǎn),嘗試選取氣象因子作為API的預(yù)測(cè),并且建立逐步回歸分析和BP神經(jīng)網(wǎng)絡(luò)兩種預(yù)測(cè)模型。通過(guò)對(duì)這兩種模型的預(yù)報(bào)效果進(jìn)行分析比較,尋找一種有效的預(yù)報(bào)方法。
1 相關(guān)理論
1.1 逐步回歸分析
逐步回歸的主要工作是根據(jù)全部自變量中按其對(duì)y的顯著程度來(lái)提取變量,剔除對(duì)因變量顯著程度小的變量,剩余的逐
步引入回歸方程,其目的是建立“最優(yōu)”回歸方程。逐步回歸分析的實(shí)施過(guò)程由以下步驟完成:①計(jì)算每一步引入的變量的偏回歸平方和。②取使得偏回歸平方和最小的變量并對(duì)其進(jìn)行顯著性檢驗(yàn)。如果在預(yù)先設(shè)定的水平下顯著相關(guān),則不剔除該變量,當(dāng)然回歸方程的其他變量也會(huì)被保留下來(lái);反之,則需要把該變量剔除。③需要按照偏回歸平方和從小到大依次檢驗(yàn)回歸方程的其他變量??傊槐A舻亩际秋@著的。④要分別對(duì)第2步和第3步中未被引入到回歸方程的變量計(jì)算偏回歸平方和,選取使得其最大的變量并對(duì)其再次進(jìn)行顯著性檢驗(yàn)。在第2步設(shè)定的水平下,如果不顯著,則不剔除該變量,而是將它引入回歸方程。⑤循環(huán)第2,3,4步,直至既不產(chǎn)生新變量,又無(wú)變量被剔除則結(jié)束。
1.2 BP神經(jīng)網(wǎng)絡(luò)
神經(jīng)網(wǎng)絡(luò)(Neural Network)一般也被稱為人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network,ANN),是科學(xué)家們從生物學(xué)和信息處理的角度出發(fā),通過(guò)借助數(shù)學(xué)和物理的方法對(duì)人腦神經(jīng)網(wǎng)絡(luò)進(jìn)行抽象后建立的簡(jiǎn)化模型。在此之前,他們不僅在對(duì)人腦的結(jié)構(gòu)、組成和基本工作單元方面取得了深刻的認(rèn)識(shí),還對(duì)生物的神經(jīng)元、神經(jīng)系統(tǒng)等研究方面也有了突破性的進(jìn)展。BP神經(jīng)網(wǎng)絡(luò)的算法流程為:①初始化網(wǎng)絡(luò)權(quán)重,設(shè)定誤差函數(shù)、計(jì)算精度值及最大學(xué)習(xí)次數(shù);②向前傳播輸入(前饋型網(wǎng)絡(luò));③反向誤差傳播;④網(wǎng)絡(luò)權(quán)重與神經(jīng)元偏置調(diào)整;⑤判斷結(jié)束。算法結(jié)束的條件是學(xué)習(xí)次數(shù)大于設(shè)定值或者誤差滿足預(yù)設(shè)精度。如果條件不成立,則進(jìn)入下一輪學(xué)習(xí)。
2 廣州市空氣質(zhì)量特征分析
本文綜合運(yùn)用了生態(tài)環(huán)境學(xué)、大氣污染學(xué)、數(shù)學(xué)、統(tǒng)計(jì)學(xué)等學(xué)科原理,重點(diǎn)分析了廣州2008—2012年這4年逐日的API值的資料以及同期的氣象因子監(jiān)測(cè)資料。以空氣污染指數(shù)為數(shù)據(jù)基礎(chǔ),初步分析了廣州的環(huán)境空氣質(zhì)量及空氣污染特征;同時(shí)利用API數(shù)據(jù)以及同期的氣象因子數(shù)據(jù)資料進(jìn)行相關(guān)性分析,確定影響API的氣象因子。
2.1 廣州市空氣質(zhì)量統(tǒng)計(jì)分析
選取廣州市2009—2011年API值及相應(yīng)的空氣質(zhì)量等級(jí)數(shù)據(jù)進(jìn)行基本的統(tǒng)計(jì)分析。圖1為廣州市各月份良好天數(shù)分布。
由圖1知,1月到5月份處于增長(zhǎng)狀態(tài),5月到10月處于基本的穩(wěn)定狀態(tài),到11,12月份出現(xiàn)明顯降低的情況。
圖2為廣州市分季節(jié)污染天數(shù)分布。由圖2可知,2009—2011年廣州市夏季的污染天數(shù)最少,證明該地區(qū)夏季的空氣質(zhì)量較優(yōu),冬季的空氣質(zhì)量明顯較差。不同的季節(jié)氣候?qū)е虏煌目諝赓|(zhì)量,為了更好地對(duì)廣州市空氣污染指數(shù)進(jìn)行預(yù)報(bào),在第4部分將對(duì)廣州市分季節(jié)建立預(yù)報(bào)模型。
2.2 氣象因子的相關(guān)性分析
上述已經(jīng)對(duì)廣州市2008-04-01—2012-03-31的空氣質(zhì)量分季節(jié)進(jìn)行了統(tǒng)計(jì)分析,發(fā)現(xiàn)不同季節(jié)的空氣質(zhì)量有很大的差別。本文收集了廣州市4年的氣象數(shù)據(jù),共有17個(gè)氣象因子。表1為廣州市各氣象因子符號(hào)及意義。
雖然17個(gè)氣象因子代表不同的信息,但是并不是所有的氣象因子都對(duì)API值的預(yù)測(cè)有意義。反而如果將不起作用的因子拿來(lái)預(yù)測(cè)API,會(huì)影響預(yù)報(bào)準(zhǔn)確率。于是為了更好地預(yù)測(cè)API值,本節(jié)針對(duì)氣象特點(diǎn),采用軟件SPSS對(duì)API值與各氣象因子進(jìn)行相關(guān)性分析,尋找API與各氣象因子的聯(lián)系。在這里,通過(guò)計(jì)算Pearson相關(guān)系數(shù)和Spearman秩相關(guān)系數(shù)來(lái)描述API與各個(gè)氣象因子的線性相關(guān)程度。表2為廣州市四季與API顯著相關(guān)的氣象因子。
3 逐步回歸和BP神經(jīng)網(wǎng)絡(luò)模型預(yù)報(bào)API
本部分采用逐步回歸分析方法和BP神經(jīng)網(wǎng)絡(luò)對(duì)API值進(jìn)行分季節(jié)預(yù)報(bào)。考慮到篇幅,下面只對(duì)夏季分別建立兩種模型及檢驗(yàn)。其他三個(gè)季節(jié)的模型建立與夏季一樣。
3.1 數(shù)據(jù)的準(zhǔn)備及預(yù)處理
建立模型的數(shù)據(jù)庫(kù)包括2008-04-01—2012-03-31廣州市17個(gè)氣象因子值和API值,分春、夏、秋、冬季節(jié)建立4個(gè)數(shù)據(jù)集。將空值和缺失值刪除后,廣州市春、夏、秋、冬四季樣本個(gè)數(shù)分別為360,354,356,361,其中,測(cè)試樣本春季60個(gè),夏季54個(gè),秋季56個(gè),冬季61個(gè),其余作為訓(xùn)練樣本。另外,為了將氣象因子數(shù)據(jù)去掉量綱的影響,把17個(gè)氣象因子數(shù)據(jù)歸一化。
3.2 逐步回歸模型的建立及檢驗(yàn)
3.2.1 逐步回歸模型的建立
本部分利用SPSS軟件對(duì)廣州市的17個(gè)氣象因子和API值進(jìn)行逐步回歸分析,得出廣州市春、夏、秋、冬四季相關(guān)性較大的氣象因子。其中,與夏季相關(guān)的因子有7個(gè),分別是x1,x6,x8,x9,x10,x11,x14.
對(duì)夏季的數(shù)據(jù)建立多元回歸模型如下:
最后,為了比較實(shí)際值與預(yù)測(cè)值之間的精確誤差,采用兩種評(píng)價(jià)指標(biāo),即平均絕對(duì)百分比誤差( )和均方百分比誤差( )以及預(yù)報(bào)準(zhǔn)確率。
其中,平均絕對(duì)百分比誤差為:
均方百分比誤差為:
API值預(yù)報(bào)的準(zhǔn)確率為:
式(4)中:yi和 分別為實(shí)際值和預(yù)測(cè)值;n為測(cè)試樣本的個(gè)數(shù)。
3.2.2 夏季逐步回歸模型預(yù)報(bào)結(jié)果分析
圖3和圖4分別為夏季API擬合曲線和夏季API預(yù)測(cè)誤差曲線。
由表3可以看出,逐步回歸預(yù)報(bào)夏季API值的準(zhǔn)確率高達(dá)85%以上,由于夏季的測(cè)試樣本API值波動(dòng)小,逐步回歸預(yù)報(bào)對(duì)平穩(wěn)數(shù)據(jù)的預(yù)測(cè)較好。
3.3 BP神經(jīng)網(wǎng)絡(luò)模型的建立及檢驗(yàn)
3.3.1 神經(jīng)網(wǎng)絡(luò)的設(shè)計(jì)
BP神經(jīng)網(wǎng)絡(luò)是否能有效、便捷地逼近非線性函數(shù),關(guān)鍵由網(wǎng)絡(luò)的結(jié)構(gòu)、初始值的選取以及網(wǎng)絡(luò)參數(shù)3部分決定。由于初始值包括初始權(quán)值和初始閾值,它們的選取都是隨機(jī)的,不能控制。所以在使用BP神經(jīng)網(wǎng)絡(luò)時(shí),只有調(diào)整網(wǎng)絡(luò)結(jié)構(gòu),確定網(wǎng)絡(luò)參數(shù),才能提高訓(xùn)練精度。表4為預(yù)測(cè)API神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。
本文采用傳統(tǒng)的BP神經(jīng)網(wǎng)絡(luò)方法預(yù)測(cè)廣州市四季的API值,將廣州市1 200 d的氣象數(shù)據(jù)作為網(wǎng)絡(luò)的輸入數(shù)據(jù)導(dǎo)入。同時(shí)進(jìn)行了誤差檢驗(yàn),用Matlab軟件繪制了預(yù)測(cè)值與實(shí)際值的擬合曲線和誤差曲線。預(yù)測(cè)結(jié)果如圖5和圖6所示。
由圖5和圖6可以看出,對(duì)夏季54個(gè)樣本數(shù)據(jù)的BP網(wǎng)絡(luò)預(yù)測(cè)值與API實(shí)際值的擬合度很高,大體趨勢(shì)擬合較準(zhǔn)確,只有個(gè)別樣本的預(yù)測(cè)值與實(shí)際值的誤差較大。該季節(jié)預(yù)測(cè)樣本數(shù)據(jù)的實(shí)際API值極差較小,這是BP模型效果較好的一個(gè)原因。預(yù)測(cè)值與實(shí)際值的誤差在[-10,10]之間不斷波動(dòng),波動(dòng)較小。
從定量的角度去分析與預(yù)測(cè)模型的準(zhǔn)確率如表5所示。
由表5可以直觀地看出,夏季模型預(yù)報(bào)準(zhǔn)確率達(dá)到88%左右,平均絕對(duì)百分比誤差低于13%,均方百分比誤差也在3%以下,預(yù)報(bào)效果較好。由第3部分相關(guān)性分析中可以發(fā)現(xiàn)夏季的特征因子有7個(gè),而且與API的相關(guān)性都較強(qiáng),BP網(wǎng)絡(luò)模型效果佳。
4 結(jié)論
本文采用逐步回歸分析和BP神經(jīng)網(wǎng)絡(luò)對(duì)廣州市夏季的API值進(jìn)行預(yù)測(cè)的結(jié)果都比較理想,MAPEA的值控制在12%左右,MSPE的值控制在3%以下,預(yù)報(bào)的正確率較高。但總體來(lái)說(shuō),與逐步回歸分析預(yù)測(cè)API值對(duì)比,神經(jīng)網(wǎng)絡(luò)的效果明顯比較好。
參考文獻(xiàn)
[1]白鶴鳴,沈潤(rùn)平,師華定,等.基于BP神經(jīng)網(wǎng)絡(luò)的空氣污染指數(shù)預(yù)測(cè)模型研究[J].環(huán)境科學(xué)與技術(shù),2013(03):186-189.
[2]Boznar M,lesjak M,Mlakar P.A neural network-based method for the short-term Predictions of ambient S02 concentrations in highly Polluted industrial areas of complex terrain.Atmospheric Env -ironment Part B Urban Atmosphere,1993,27(2):221-230.
[3]Van Der Wal,J.T.How contribute emission of PM10 and meteorology to concentrations of fine particles in the Netherlands.Aerosol Seienee,1996,27(27):681-682.
[4]王寧,王新國(guó),胡中明,等.利用氣象參數(shù)制作空氣污染潛勢(shì)預(yù)報(bào)的方法研究[J].吉林氣象,2001(01):15-18.
[5]董亞龍,吳寧.CAPPS模式在銅川空氣質(zhì)量預(yù)報(bào)中的效果檢驗(yàn)[J].陜西氣象,2004(05):13-16.
[6]康劍,艾靜.回歸分析法在衛(wèi)寧平原地下水脆弱性研究中的應(yīng)用[J].中國(guó)水運(yùn)(下半月),2014,14(3):230-231,266.
[7]劉天舒.BP神經(jīng)網(wǎng)絡(luò)的改進(jìn)研究及應(yīng)用[D].哈爾濱:東北農(nóng)業(yè)大學(xué),2011.
[8]王頂.大慶市PM_(10)污染預(yù)測(cè)的研究[D].成都:西南交通大學(xué),2011.
[9]覃登攀.基于遺傳算法和人工神經(jīng)網(wǎng)絡(luò)相結(jié)合的南寧市空氣質(zhì)量預(yù)報(bào)研究[D].南寧:廣西大學(xué),2008.
〔編輯:劉曉芳〕