劉 君
研究表明,氣象條件對(duì)空氣主要污染物濃度的擴(kuò)散有著較大影響[1]。不同氣象因子對(duì)污染物濃度的影響不同,有的易于擴(kuò)散,有的卻影響較小。比如當(dāng)?shù)蜌鈮合嘛L(fēng)力較大,對(duì)空氣質(zhì)量具有正面影響;無(wú)風(fēng)且晴好的天氣,容易形成地面逆溫,此時(shí)污染物滯留于近地面上空,對(duì)空氣質(zhì)量有負(fù)面影響。所以空氣質(zhì)量的影響因素對(duì)提高預(yù)測(cè)精度非常重要。
目前普遍使用的機(jī)理分析方法,回歸統(tǒng)計(jì)、灰色預(yù)測(cè)等方法進(jìn)行空氣質(zhì)量評(píng)價(jià)分析,但通過(guò)對(duì)污染物濃度數(shù)據(jù)具有非線性特征,要實(shí)現(xiàn)更準(zhǔn)確的預(yù)測(cè),須采用能夠處理非線性數(shù)據(jù)規(guī)律的方法。目前已有學(xué)者將神經(jīng)網(wǎng)絡(luò)模型應(yīng)用于污染物預(yù)測(cè)研究中,相比傳統(tǒng)機(jī)理分析模型性能更好。而多數(shù)神經(jīng)網(wǎng)絡(luò)模型的預(yù)測(cè)模型都是將所有預(yù)報(bào)因子數(shù)據(jù)直接作為網(wǎng)絡(luò)輸入,這使網(wǎng)絡(luò)維數(shù)過(guò)高,網(wǎng)絡(luò)訓(xùn)練時(shí)間增加,且不同因子之間存在干擾問(wèn)題。LU[2]等利用主成分分析法改進(jìn)神網(wǎng)模型預(yù)測(cè)NOX濃度。本文利用因子分析將多個(gè)預(yù)報(bào)因子轉(zhuǎn)化為少數(shù)幾個(gè)綜合指標(biāo),消除因子間的交叉干擾,提高模型精度。
人工神經(jīng)網(wǎng)絡(luò)從算法結(jié)構(gòu)而言分為前饋型和反饋型神經(jīng)網(wǎng)絡(luò),由于其自適應(yīng)能力強(qiáng)等特點(diǎn),已被廣泛應(yīng)用于非線性復(fù)雜數(shù)據(jù)現(xiàn)象問(wèn)題[3]。徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)為具有單隱含層的3層前饋型神經(jīng)網(wǎng)絡(luò),數(shù)據(jù)輸入后存儲(chǔ)在輸入層節(jié)點(diǎn),經(jīng)隱含層轉(zhuǎn)換運(yùn)算后與輸出層相連。其基本思想是以徑向基函數(shù)為隱層基,可直接將輸入數(shù)據(jù)映射到隱含層,確定徑向基函數(shù)中心點(diǎn),即可確定隱層映射關(guān)系。RBF 具備典型的局部逼近特點(diǎn),在分類和逼近能力、學(xué)習(xí)速率方面有明顯優(yōu)勢(shì)。從輸入層到隱含層的非線性變換函數(shù)常用高斯函數(shù)
φ(r)=exp(-r2/2b2),b>0,r∈R
基函數(shù)的中心與寬度為可調(diào)參數(shù)。
因子分析主要用于提取多個(gè)指標(biāo)變量的公共因子的一種統(tǒng)計(jì)方法,廣泛應(yīng)用于存在著交叉影響的數(shù)據(jù)降維處理中??梢酝ㄟ^(guò)因子分析法構(gòu)造k(k 研究數(shù)據(jù)選取2015 年1 月- 2019 年6 月廣州市AQI 與主要污染物數(shù)據(jù),對(duì)有數(shù)據(jù)缺失的樣本進(jìn)行剔除或補(bǔ)充,選取2015 年1 月- 2019 年6 月的數(shù)據(jù)因子分析后共1500d 數(shù)據(jù)作為訓(xùn)練樣本,選取2019 年7 月- 12 月份共180d 數(shù)據(jù)作為測(cè)試樣本。 首先根據(jù)實(shí)測(cè)數(shù)據(jù)由公式X市均=∑X監(jiān)測(cè)點(diǎn)/N,計(jì)算主要污染物的小時(shí)平均濃度,對(duì)缺失數(shù)據(jù)采用刪除方式進(jìn)行預(yù)處理。由于不同污染物間的量綱不一致會(huì)影響模型結(jié)果,為了提高網(wǎng)絡(luò)訓(xùn)練的速度,避免一些離散值影響模型的收斂效果,需要將數(shù)據(jù)進(jìn)行歸一化。利用matlab 將數(shù)據(jù)歸一化至區(qū)間[0,1],公式如下: 歸一化:ti=[(xi-ximin)/(ximax- ximin)](0.999- 0.001)+0.001 反歸一化:ri=[(yi- 0.001)/(0.999- 0.001)](yimax-yimin)+yimin 上式中,xi為原始數(shù)據(jù) x 的第 i 個(gè)分量,ximax和 ximin為原始數(shù)據(jù)峰值,ti與ri為歸一化和反歸一化后的分量數(shù)值。 基于因子分析特征值貢獻(xiàn)率篩選主要因子,采用日均主要污染物濃度、AQI 值以及溫度、氣壓、風(fēng)向、風(fēng)速等共14 種主要要素作為原始預(yù)報(bào)因子數(shù)據(jù),利用Spss 軟件進(jìn)行對(duì)數(shù)據(jù)進(jìn)行因子分析,提取綜合因子作為神經(jīng)網(wǎng)絡(luò)輸入變量,以對(duì)原始數(shù)據(jù)降維并消除數(shù)據(jù)冗余和數(shù)據(jù)間的交互影響。 根據(jù)2012 年以來(lái)新標(biāo)準(zhǔn)規(guī)定的AQI 六級(jí)劃分,首先由主要污染物濃度限值,計(jì)算污染分指數(shù): Qi=[(QHi-Qu0)/(BQHi- BQu0)](Ci-BQu0)+Qu0 其中 Qi為污染分指數(shù),Ci為濃度實(shí)測(cè)值,BQHi與 BQu0分別為大于(小于)或等于Ci的濃度限值,QHi與Qu0為濃度限值所對(duì)應(yīng)的指數(shù)限值,最后由 AQI=max{Q1,Q2,…,Qn}得到 AQI 指數(shù)。 為減少因子間的交互干擾,降低神經(jīng)網(wǎng)絡(luò)的輸入數(shù)據(jù)維度,將1500d 訓(xùn)練樣本數(shù)據(jù)和180d 測(cè)試樣本數(shù)據(jù)導(dǎo)入Spss 中,經(jīng)過(guò)歸一化處理、相關(guān)性分析和因子分析后,選取14 個(gè)與空氣污染物濃度相關(guān)系數(shù)較高的因子作為預(yù)報(bào)因子,顯著性水平均達(dá)到了0.05,說(shuō)明所選取因子與預(yù)測(cè)量相關(guān)性較好。根據(jù)因子分析法,對(duì)上述因子進(jìn)行因子分析,計(jì)算出特征值與相關(guān)系數(shù),選取特征值貢獻(xiàn)率大于0.7 的因子,通過(guò)因子荷載矩陣計(jì)算標(biāo)準(zhǔn)因子得分確定神經(jīng)網(wǎng)絡(luò)的輸入數(shù)據(jù)。分析結(jié)果顯示PM2.5與PM10相關(guān)性達(dá)到0.605,二者有顯著相關(guān)性。 輸入向量 X=[x1,x2,…,xn]T中的分量 xi(i=1,2,…,n)是經(jīng)過(guò)因子分析后的數(shù)據(jù),分別建立 PM2.5,PM10,SO2,CO,NO2,O3濃度預(yù)測(cè)模型。將因子分析后的訓(xùn)練樣本數(shù)據(jù)作為網(wǎng)絡(luò)輸入,利用RBF 神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,相應(yīng)的污染物濃度和AQI 序列作為網(wǎng)絡(luò)輸出,采用經(jīng)典的4 階Runge-Kutta 法進(jìn)行數(shù)值解,步長(zhǎng)h=0.1。用180d 有效測(cè)試樣本對(duì)訓(xùn)練好的模型進(jìn)行檢驗(yàn),結(jié)果顯示模型對(duì)污染物濃度的預(yù)測(cè)值絕對(duì)誤差低于10-2,該方法能夠提高神經(jīng)網(wǎng)絡(luò)收斂速度和預(yù)測(cè)精度,數(shù)據(jù)符合度較高,可推廣應(yīng)用于空氣質(zhì)量和污染物濃度預(yù)報(bào)。 模型預(yù)測(cè)值的平均絕對(duì)誤差最小9.3,準(zhǔn)確率的最大值為86.3%,預(yù)測(cè)值與真實(shí)值的絕對(duì)誤差量在10-2~10-2mg/m3量級(jí)。說(shuō)明FA- RBF 神經(jīng)網(wǎng)絡(luò)模型結(jié)果較為準(zhǔn)確,模型對(duì)短期內(nèi)的預(yù)報(bào)能力明顯優(yōu)于其他統(tǒng)計(jì)方法,這表明神經(jīng)網(wǎng)絡(luò)具備良好的非線性時(shí)間序列數(shù)據(jù)規(guī)律的學(xué)習(xí)能力。模型在處理類似具有時(shí)間序列特征的數(shù)據(jù)分析預(yù)報(bào)時(shí)具有明顯優(yōu)勢(shì)。 在訓(xùn)練數(shù)據(jù)與測(cè)試數(shù)據(jù)相同的情況下,將因子分析法與RBF 神經(jīng)網(wǎng)絡(luò)相結(jié)合,選取包括氣象因子在內(nèi)的14 個(gè)預(yù)報(bào)因子,構(gòu)建污染物濃度預(yù)報(bào)模型。與BP 神經(jīng)網(wǎng)絡(luò)相比,二者預(yù)報(bào)的準(zhǔn)確率分別為79.76%、77.35%,傳統(tǒng)BP 模型與本文模型預(yù)測(cè)結(jié)果的平均相對(duì)誤差分別為0.32、0.21。相比之下具有精度高,收斂速度更快的優(yōu)點(diǎn),性能優(yōu)于一般傳統(tǒng)BP 神經(jīng)網(wǎng)絡(luò)方法。 相比傳統(tǒng)BP 神網(wǎng)模型,利用因子分析消除數(shù)據(jù)冗余,模型收斂速度更快、誤差更小。采用BP 神經(jīng)網(wǎng)絡(luò)模型時(shí),需要大量樣本數(shù)據(jù)支持,而基于FA-RBF 神經(jīng)網(wǎng)絡(luò)的空氣質(zhì)量預(yù)報(bào)模型,具有模型易構(gòu)建、收斂速度快,準(zhǔn)確度高等優(yōu)點(diǎn),適用于污染物濃度等時(shí)間序列特點(diǎn)的非線性數(shù)據(jù)預(yù)測(cè)問(wèn)題。 其次,與其他數(shù)值模型相比,因子分析能夠降低預(yù)報(bào)因子間的交互影響,結(jié)合RBF 模型優(yōu)異的非線性泛化能力,在具有非線性特征的數(shù)據(jù)預(yù)報(bào)中具有獨(dú)特優(yōu)勢(shì),大氣環(huán)境與污染物濃度的短期預(yù)報(bào)中是一種比較實(shí)用的方法。3 數(shù)據(jù)來(lái)源及預(yù)處理
3.1 數(shù)據(jù)來(lái)源
3.2 數(shù)據(jù)的預(yù)處理
3.3 主要預(yù)報(bào)因子篩選
4 基于因子分析與RBF 神經(jīng)網(wǎng)絡(luò)的預(yù)測(cè)模型
4.1 質(zhì)量指數(shù)劃分
4.2 因子分析
4.3 因子分析優(yōu)化的神經(jīng)網(wǎng)絡(luò)模型預(yù)測(cè)
5 結(jié)果分析
5.1 預(yù)測(cè)值與實(shí)際值對(duì)比
5.2 與BP 神經(jīng)網(wǎng)絡(luò)模型對(duì)比
6 結(jié)論