韋惠紅, 李 劍, 張文言*, 雷建軍, 陳 璇
(1.武漢中心氣象臺(tái), 武漢 430074; 2.湖北第二師范學(xué)院計(jì)算機(jī)學(xué)院, 武漢 430205)
PM2.5指的是空氣中直徑小于等于2.5 μm的固體顆粒,通常攜帶大量有毒有害物質(zhì),可以隨呼吸進(jìn)入人體內(nèi)部,對(duì)人體健康造成嚴(yán)重危害[1].PM2.5也是形成霧霾的重要組成部分,降低城市大氣能見(jiàn)度.國(guó)家對(duì)于PM2.5污染非常關(guān)注,2012年2月,國(guó)家環(huán)境保護(hù)部與國(guó)家質(zhì)量監(jiān)督檢驗(yàn)檢疫總局頒布的《環(huán)境空氣質(zhì)量標(biāo)準(zhǔn)》(GB 3095—2012)增設(shè)了 PM2.5質(zhì)量標(biāo)準(zhǔn).近年來(lái),范圍大、持續(xù)時(shí)間長(zhǎng)的 PM2.5重污染事件,往往導(dǎo)致社會(huì)公眾負(fù)面輿論.因此,高效準(zhǔn)確的PM2.5濃度預(yù)測(cè)對(duì)空氣污染防控具有重要的經(jīng)濟(jì)、健康和社會(huì)意義.
PM2.5的形成機(jī)理非常復(fù)雜,通常認(rèn)為工業(yè)生產(chǎn)、機(jī)動(dòng)車尾氣、建筑施工、冬季取暖燒煤等排放是其主因[2-3].PM2.5顆粒還受到大氣系統(tǒng)運(yùn)動(dòng)的影響,既存在對(duì)外輸出,又存在周邊其他污染源的輸入,因此氣溫、風(fēng)速、降水、相對(duì)濕度及冷空氣強(qiáng)度等氣象要素也會(huì)對(duì)PM2.5濃度產(chǎn)生重要影響[4].PM2.5濃度預(yù)測(cè)方法大致可以分為機(jī)理模型、統(tǒng)計(jì)學(xué)/機(jī)器學(xué)習(xí)和深度學(xué)習(xí)3類.1) 基于機(jī)理模型,通過(guò)綜合當(dāng)?shù)貧庀蟆⒌乩砗凸I(yè)等信息,對(duì)大氣污染物的形成和運(yùn)動(dòng)進(jìn)行動(dòng)力學(xué)建模實(shí)現(xiàn)對(duì)未來(lái)大氣污染狀況的預(yù)測(cè)[5].此類方法具備預(yù)測(cè)結(jié)果可解釋且精度較高的優(yōu)勢(shì),但是模型復(fù)雜且數(shù)據(jù)獲得難度大,不具備普適性.2) 基于統(tǒng)計(jì)學(xué)/機(jī)器學(xué)習(xí)的模型,主要有隨機(jī)森林(RF)[6]、支持向量機(jī)(SVM)[7]和差分整合移動(dòng)平均自回歸模型[8]等.此類方法具備具有底層的數(shù)學(xué)理論支撐,應(yīng)用最為廣泛,但是由于特征提取能力有限,使用單一統(tǒng)計(jì)方法很難建立精度較高的預(yù)測(cè)模型.3) 深度學(xué)習(xí)模型,主流采用循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)[9],具有很強(qiáng)的時(shí)序特征提取的能力,是當(dāng)前研究的熱點(diǎn),但是現(xiàn)有研究大多實(shí)現(xiàn)1 h至6 h的提前預(yù)報(bào)[10],有待繼續(xù)提升以滿足實(shí)際業(yè)務(wù)中24 h提前預(yù)報(bào)的需求.
在前人研究的基礎(chǔ)上,以堆疊(Stacking)集成策略,設(shè)計(jì)了由支持向量回歸(SVR)、卷積神經(jīng)網(wǎng)絡(luò)(CNN)和門(mén)控循環(huán)網(wǎng)絡(luò)(GRU)組成的集成深度學(xué)習(xí)網(wǎng)絡(luò)(SVR-CNN-GRU).通過(guò)充分發(fā)揮SVR的非線性特征提取能力進(jìn)行降維,再采用CNN的強(qiáng)化特征表達(dá),最終利用GRU的時(shí)序記憶優(yōu)勢(shì)的處理流程,本模型有效改善了當(dāng)前深度學(xué)習(xí)僅能預(yù)測(cè)最近若干小時(shí)PM2.5濃度的不足,實(shí)現(xiàn)了高精度、高魯棒性和高泛化性的 PM2.524小時(shí)提前預(yù)測(cè),能為空氣污染防治工作提供決策支持.
使用的數(shù)據(jù)分為空氣質(zhì)量數(shù)據(jù)和地面氣象數(shù)據(jù)兩大類,共計(jì)12個(gè)因子.其中逐小時(shí)空氣質(zhì)量數(shù)據(jù)來(lái)自湖北省生態(tài)環(huán)境監(jiān)測(cè)中心站,因子為PM2.5、PM10、NO2、CO、O3、SO2和AQI.地面氣象數(shù)據(jù)來(lái)源中國(guó)氣象數(shù)據(jù)網(wǎng)CIMISS系統(tǒng)地面氣象站逐小時(shí)觀測(cè)資料,因子包括:溫度、氣壓、相對(duì)濕度、降水和平均風(fēng)速.由于風(fēng)向數(shù)據(jù)缺失比例較大,因此未采用.
為了提高預(yù)測(cè)精度,除武漢市外,還采集了武漢四周宜昌市、襄陽(yáng)市、孝感市、荊州市、荊門(mén)市、黃岡市、黃石市、咸寧市、隨州市、鄂州市、仙桃市、潛江市和天門(mén)市等13市州自動(dòng)觀測(cè)站數(shù)據(jù).2015年1月1日1時(shí)至2020年4月10日23時(shí),共計(jì)46 247條的每個(gè)市州逐小時(shí)數(shù)據(jù).恩施自治州、十堰市和神龍架遠(yuǎn)處湖北西南、西北角山區(qū),結(jié)合氣象條件分析,其空氣污染輸送到武漢的比例極低,因此未納入.
由于GRU等循環(huán)神經(jīng)網(wǎng)絡(luò)要求完整的時(shí)序數(shù)據(jù),因此需要對(duì)缺失數(shù)據(jù)進(jìn)行處理.缺失數(shù)據(jù)處理可以分為先填補(bǔ)后訓(xùn)練的兩階段模式[11-13];也有直接在訓(xùn)練中填充的模式[14-15].由于已將缺失值較多的氣象因子剔除,樣本中僅存在少量缺失數(shù)據(jù),采用三次樣條插值法對(duì)其填補(bǔ),在不會(huì)產(chǎn)生顯著噪音的同時(shí)簡(jiǎn)化了模型的結(jié)構(gòu),加快訓(xùn)練的速度.
所有以上數(shù)據(jù)保存為長(zhǎng)度為46 247,寬度為14×12=168的格式的數(shù)組,即每一條原始樣本由14個(gè)市州的12個(gè)因子共同組成.后續(xù)訓(xùn)練中以此為基礎(chǔ)進(jìn)行裁剪和拼接構(gòu)成訓(xùn)練用樣本.由于氣象相關(guān)因子有顯著的季節(jié)性周期性,因此已有類似研究中也有采用相鄰時(shí)間節(jié)點(diǎn)樣本進(jìn)行差分的方式構(gòu)建新因子[16].由于后續(xù)在卷積層會(huì)執(zhí)行類似的操作,因此未采用此編碼方式.
根據(jù)建立預(yù)測(cè)模型中樣本的時(shí)間序列結(jié)構(gòu)不同,PM2.5小時(shí)濃度預(yù)測(cè)中有兩種主要方式,一種是向量到向量的模式,即每個(gè)樣本僅保存單個(gè)時(shí)間節(jié)點(diǎn)的信息,用其預(yù)報(bào)另一個(gè)時(shí)間節(jié)點(diǎn)的PM2.5濃度;另一種是序列到向量的模式,即基于若干時(shí)間節(jié)點(diǎn)信息預(yù)測(cè)未來(lái)某個(gè)時(shí)間節(jié)點(diǎn)的PM2.5濃度.由于后一種方式樣本擁有更豐富的信息,在結(jié)合能夠提取樣本內(nèi)多個(gè)時(shí)間節(jié)點(diǎn)之間時(shí)序特征的技術(shù)后,訓(xùn)練得到的模型往往具有更好的性能,并可被擴(kuò)展為序列到對(duì)序列模式.因此基于RNN這種針對(duì)序列數(shù)據(jù)建模具備突出優(yōu)勢(shì)的技術(shù)[17],建立PM2.524 h預(yù)測(cè)模型.
傳統(tǒng)RNN存在短時(shí)記憶問(wèn)題,即處理較長(zhǎng)的序列時(shí),往往只能理解有限長(zhǎng)度內(nèi)的信息,而對(duì)于較遠(yuǎn)距離的有用信息往往不能很好的利用.HOCHREITER 等對(duì)其進(jìn)行了改進(jìn),提出了長(zhǎng)短期記憶(LSTM)神經(jīng)網(wǎng)絡(luò),通過(guò)引入門(mén)控機(jī)制解決短時(shí)記憶問(wèn)題[18].CHO等通過(guò)將門(mén)控制單元由原來(lái)的3 個(gè)減至 2 個(gè)對(duì)LSTM 的結(jié)構(gòu)做了簡(jiǎn)化,提出了門(mén)控循環(huán)網(wǎng)絡(luò)(GRU)[19],研究證明GRU具有和LSTM相當(dāng)?shù)男阅?,并且由于少一個(gè)門(mén),參數(shù)更少,相對(duì)容易訓(xùn)練且可以防止過(guò)擬合.因此采用GRU作為時(shí)序特征提取的工具.
基于GRU的PM2.5濃度預(yù)測(cè)中,設(shè)樣本時(shí)間序列長(zhǎng)度為S小時(shí)(通常S取值為8~24),則每個(gè)樣本的因子將達(dá)到168×S個(gè),而高維因子會(huì)提高網(wǎng)絡(luò)訓(xùn)練難度.在機(jī)器學(xué)習(xí)領(lǐng)域特征降維具有廣泛應(yīng)用,最常見(jiàn)的方法有主成分分析法[20],通過(guò)對(duì)協(xié)方差矩陣進(jìn)行特征分解提取主要成分,其本質(zhì)是一種線性變化,而大氣系統(tǒng)是典型的非線性混沌系統(tǒng).自動(dòng)編碼器(AutoEncode)能實(shí)現(xiàn)數(shù)據(jù)維度壓縮和特征表示,被廣泛應(yīng)用于數(shù)據(jù)降維和去噪[21].然而AutoEncode是基于多層復(fù)雜結(jié)構(gòu)的無(wú)監(jiān)督學(xué)習(xí)模型,因此其本身的訓(xùn)練也存在難度.支持向量機(jī)是統(tǒng)計(jì)學(xué)中一種有效的監(jiān)督分類和回歸方法,在解決非線性及高維模式識(shí)別問(wèn)題中表現(xiàn)出特有的優(yōu)勢(shì),并且具有良好的泛化能力[22].在各種分類和回歸問(wèn)題中,SVM與深度神經(jīng)網(wǎng)絡(luò)的融合已經(jīng)被證實(shí)是一種有效的手段[23-24].SVM長(zhǎng)于常規(guī)特征提取,弱在時(shí)間序列特征表達(dá),PM2.5預(yù)測(cè)模型中將其作為第一層,僅用于特征降維,流程如圖1所示.
圖1 SVR降維流程Fig.1 Flow chart of SVR dimension reduction
圖1中,t表示待預(yù)測(cè)目標(biāo)Y(t)的時(shí)間索引;H表示提前多少小時(shí)預(yù)測(cè),固定設(shè)為24;S為樣本的時(shí)間序列長(zhǎng)度;X為單小時(shí)原始樣本,N為其因子數(shù),因此無(wú)特征降維的樣本總因子數(shù)為S×N.SVR(h)為預(yù)先訓(xùn)練好的向量到向量形式的SVR模型,實(shí)現(xiàn)對(duì)hh后的PM2.5數(shù)值的回歸預(yù)測(cè),因此對(duì)于序列長(zhǎng)度為S的時(shí)序樣本,需要建立S個(gè)不同預(yù)測(cè)步長(zhǎng)的SVR模型,將每個(gè)模型預(yù)測(cè)結(jié)果按照時(shí)序拼接組成由S個(gè)因子的新樣本f(t).
SVR降維的思想是訓(xùn)練一系列不同步長(zhǎng)的SVR模型,基于不同時(shí)間節(jié)點(diǎn)的信息對(duì)同一個(gè)目標(biāo)節(jié)點(diǎn)進(jìn)行預(yù)測(cè),然后將獲得的全部預(yù)測(cè)結(jié)果按原時(shí)間索引順序排列.其目的是利用SVR提取非線性特征,并將維度壓縮到原來(lái)的1/N;新樣本內(nèi)全部因子均被視作對(duì)目標(biāo)預(yù)測(cè)值的投票,由于具有同屬性、同量綱的特性,在此基礎(chǔ)上堆疊神經(jīng)網(wǎng)絡(luò)對(duì)投票聚合模式進(jìn)行訓(xùn)練將非常迅速和有效.
f(t)中單個(gè)因子缺乏時(shí)間序列信息,且N維因子被極限壓縮至1維,會(huì)造成有價(jià)值的特征丟失.CNN由于具有強(qiáng)大的特征表達(dá)能力,被廣泛應(yīng)用于機(jī)器視覺(jué)、語(yǔ)音識(shí)別和自然語(yǔ)言處理等領(lǐng)域,一維CNN還可以有效的處理時(shí)間序列預(yù)測(cè)問(wèn)題[25].采用多核一維卷積層,通過(guò)合適的卷積核大小以及步長(zhǎng)提取相鄰因子之間的時(shí)間特征,并通過(guò)多核將樣本映射到更高維空間,以充分提取被SVR過(guò)濾的部分有價(jià)值信息.
采用兩級(jí)結(jié)構(gòu)的堆疊法(Stacking)組織深度學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu)及其訓(xùn)練方式[26].將原始樣本集按照比率,隨機(jī)劃分為兩個(gè)相互獨(dú)立的子集;第一個(gè)子集僅用于堆疊結(jié)構(gòu)中的多步長(zhǎng)SVR模型訓(xùn)練;第二個(gè)子集則通過(guò)拼接構(gòu)成時(shí)序長(zhǎng)度為S的時(shí)序樣本,用于第二級(jí)CNN-GRU網(wǎng)絡(luò)訓(xùn)練;第二級(jí)網(wǎng)絡(luò)為由SVR模型層、一維卷積層、GRU層和全連接層等組成的深度神經(jīng)網(wǎng)絡(luò),具體結(jié)構(gòu)如圖2所示.
圖2 SVR-CNN-GRU網(wǎng)絡(luò)結(jié)構(gòu)Fig.2 The Structure of SVR-CNN-GRU network
為提取特征信息,受到差分編碼的啟發(fā),對(duì)經(jīng)SVR模型層降維為S×1結(jié)構(gòu)二級(jí)樣本采用長(zhǎng)度為2的一維核執(zhí)行兩兩相鄰時(shí)間節(jié)點(diǎn)之間的一維卷積;為避免高頻噪音,采用不填充的方式,因此時(shí)間索引減少為S-1;利用40個(gè)一維核,線性激活,最終獲得40×(S-1)結(jié)構(gòu)的2維時(shí)序數(shù)據(jù).
同圖像處理的方法不同,卷積層后未設(shè)置池化層.這是因?yàn)槌鼗瘜拥闹饕饔檬窍虏蓸?、降維、實(shí)現(xiàn)非線性、擴(kuò)大感知野和實(shí)現(xiàn)不變性,而采用卷積層的目的是對(duì)已被高度降的維數(shù)據(jù)擴(kuò)充,并且只關(guān)注兩兩相鄰時(shí)間節(jié)點(diǎn)之間的關(guān)系,而非線性化工作則由后續(xù)的其他層的激活函數(shù)實(shí)現(xiàn).
后續(xù)連續(xù)采用兩個(gè)隱藏單元數(shù)為20的GRU層進(jìn)一步提取整個(gè)S-1長(zhǎng)度時(shí)間序列的整體特征,其中GRU1用于初步提取時(shí)序特征,輸出20×(S-1)結(jié)構(gòu)的二維時(shí)序結(jié)果;GRU2則深入處理時(shí)序特征,輸出20×1結(jié)構(gòu)不含時(shí)序索引的結(jié)果.為了將GRU提取的特征進(jìn)一步整合,之后連續(xù)采用了3個(gè)全連接層,其中第一層神經(jīng)元為64個(gè),采用Relu激活函數(shù),且Dropout=0.1;第二層神經(jīng)元為16個(gè),采用Relu激活函數(shù),無(wú)Dropout;最后一層作為輸出層,由于采用序列到向量的回歸預(yù)測(cè)模式,因此僅保留1神經(jīng)元且無(wú)激活函數(shù).
由于采用的氣象和空氣質(zhì)量因子均為連續(xù)型數(shù)值變量,且不同因子之間數(shù)值大小差異巨大,因此對(duì)其執(zhí)行z-score 標(biāo)準(zhǔn)化方法標(biāo)準(zhǔn)化,待回歸預(yù)測(cè)后再逆操作恢復(fù)原量綱.
為了避免兩級(jí)網(wǎng)絡(luò)之間數(shù)據(jù)集相互的污染,在截取2020/4/2日16∶00∶00至2020/4/10 23∶00∶00共200條樣本作為繪制預(yù)測(cè)對(duì)比圖以外,其他全部46 047條原始樣本隨機(jī)劃分為兩個(gè)無(wú)交集子集.由于SVR模型的精度直接決定了后續(xù)神經(jīng)網(wǎng)絡(luò)的訓(xùn)練效果,因此經(jīng)多次實(shí)驗(yàn)調(diào)整,選擇70%原始樣本訓(xùn)練SVR,其中60%作為訓(xùn)練集,10%作為校驗(yàn)集.剩余30%用于訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)的樣本中,其中10%用于訓(xùn)練深度神經(jīng)網(wǎng)絡(luò),其余20%作為測(cè)試集.同一般深度神經(jīng)網(wǎng)絡(luò)中訓(xùn)練集的規(guī)模是測(cè)試集3至4倍不同,訓(xùn)練集僅為測(cè)試集一半,這是由于為了橫向同其他算法比較,測(cè)試集占總體樣本的比率至少要達(dá)到20%,并且由于已經(jīng)過(guò)大樣本的SVR訓(xùn)練和優(yōu)化,深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練難度大幅度降低,訓(xùn)練少量的樣本也可以獲得很好的效果,此條件下還能更好的驗(yàn)證模型的泛化能力.
第一級(jí)SVR,基于Scikit-learn工具箱,采用高斯核eplison-SVR,其中不敏感損失系數(shù)eplison控制著回歸函數(shù)對(duì)樣本數(shù)據(jù)的不敏感區(qū)域的寬度,影響支持向量的數(shù)目,其值和樣本噪聲有密切關(guān)系;懲罰系數(shù)C反映了算法對(duì)超出eplison管道的樣本數(shù)據(jù)的懲罰程度,其值影響模型的復(fù)雜性和穩(wěn)定性;gamma對(duì)低維的樣本進(jìn)行高緯度映射,也會(huì)影響泛化能力.經(jīng)過(guò)網(wǎng)格化和三折交叉驗(yàn)證,最終選擇的參數(shù)為:C=50,eplison=0.05,gamma為默認(rèn)值’scale’.其中,gamma為默認(rèn)值時(shí)會(huì)自動(dòng)根據(jù)變量的方差自動(dòng)調(diào)整大小,能夠提供更好的泛化性.
第二級(jí)深度神經(jīng)網(wǎng)絡(luò)的運(yùn)行軟件環(huán)境為Window 10操作系統(tǒng),Tensorflow 2.4版本,Python 3.8以及Cuda 11.1;硬件環(huán)境為Nvidia 1650 GPU,Intel i5 3470 CPU和32 G內(nèi)存.神經(jīng)網(wǎng)絡(luò)的內(nèi)部參數(shù)如表1所示.
表1 第二級(jí)深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練參數(shù)
為了驗(yàn)證和分析時(shí)間序列長(zhǎng)度對(duì)預(yù)測(cè)的影響,分別訓(xùn)練了長(zhǎng)度為8,16和24的三種時(shí)序樣本模型;由于全連接層1規(guī)模較大,為了避免過(guò)耦合,經(jīng)實(shí)驗(yàn)校正,選擇Dropout比率為0.1;Adam優(yōu)化器是對(duì)隨機(jī)梯度下降的擴(kuò)展,可以更有效地更新網(wǎng)絡(luò)權(quán)重.
將上述樣本按照80%訓(xùn)練集,20%測(cè)試集的設(shè)置,分別對(duì)RF、epsilon-SVR和不含SVR層的CNN-GRU網(wǎng)絡(luò)進(jìn)行訓(xùn)練;然后,用上述70%訓(xùn)練集,30%測(cè)試集的設(shè)置,在圖2中刪除卷積層和全部GRU層,僅保留SVR層和全連接層進(jìn)行訓(xùn)練,記作SVR-MFC;最后在圖2中僅保留SVR層,添加RF訓(xùn)練SVR層輸出,利用RF的集成學(xué)習(xí)的能力進(jìn)行訓(xùn)練,記作SVR-RF.對(duì)以上所有模型,均獨(dú)立運(yùn)行30次,并取其均值.
(1)
(2)
(3)
六個(gè)模型對(duì)于武漢市PM2.5進(jìn)行24 h預(yù)測(cè)的結(jié)果如表2所示,其中RF和SVR采用的是向量到向量的預(yù)測(cè)模式,其余4種均采用時(shí)間序列為24(S=24)的樣本進(jìn)行序列到向量的預(yù)測(cè)模式.
表2 六個(gè)模型預(yù)測(cè)精度
由表可見(jiàn),未采用SVR降維的三種模型的RMSE和MAPE均相對(duì)較差,且R2值也偏低,其中RF方法基于決策樹(shù)的集成模式,其精度受到?jīng)Q策樹(shù)對(duì)于高維、非線性和混沌的氣象問(wèn)題求解能力不足的影響,因此結(jié)果最差;CNN-GRU由于融入了時(shí)間序列特征提取,效優(yōu)于RF,但是受到樣本因子規(guī)模大和非線性的限制,提高有限;由于SVR具備處理高維和非線性問(wèn)題的能力,取得三者中最好的結(jié)果.三種基于SVR降維的集成學(xué)習(xí)模型均取得顯著更好的結(jié)果,SVR-RF模型基于SVR這種強(qiáng)學(xué)習(xí)能力的模型的集成,因此提高明顯;SVR-MFC模型則僅依靠多個(gè)全連接層即取得了與SVR-RF相當(dāng)?shù)男阅?,展示了深度神?jīng)網(wǎng)絡(luò)的潛力;SVR-CNN-GRU模型則由于融入了時(shí)間序列特征的提取,因此取得了最好的結(jié)果.綜上可知,通過(guò)SVR降維和CNN-GRU時(shí)序特征提取可以顯著的提高預(yù)測(cè)的精度和泛化能力.
三個(gè)集成SVR模型在三個(gè)不同時(shí)間序列長(zhǎng)度樣本下的預(yù)測(cè)結(jié)果,如表3所示.
表3 不同時(shí)間序列長(zhǎng)度下的模型預(yù)測(cè)精度
在所有的模型在三個(gè)序列長(zhǎng)度下均有相對(duì)于表2中其他方法更好的表現(xiàn),不僅RMSE更低,且R2均高于0.95這個(gè)普遍采用的標(biāo)準(zhǔn).隨著時(shí)間序列的增加,三種模型的預(yù)測(cè)精度均有提高,其中S由8增加到16時(shí),所有模型的提高最為顯著;而隨著S由16提高到24,性能的提高較為微弱.因此增加樣本的時(shí)序長(zhǎng)度可以有效的提高預(yù)測(cè)精度,但是存在邊際效應(yīng),簡(jiǎn)單的依靠增加時(shí)序長(zhǎng)度提升預(yù)測(cè)精度是低效的.
SVR-CNN-GRU模型在S=24條件下對(duì)武漢市2020/4/2 16∶00∶00至2020/4/10 23∶00∶00的預(yù)測(cè)結(jié)果,如圖3所示.
由圖可見(jiàn),整體上預(yù)測(cè)值能較為準(zhǔn)確預(yù)測(cè)實(shí)際值的變化趨勢(shì),特別是在PM2.5值變化劇烈的波段上也能較好的擬合;但是在波峰和波谷等變化的極值點(diǎn),模型的預(yù)測(cè)還存在一定的誤差,需要后期繼續(xù)改進(jìn)模型.
參考PM2.5檢測(cè)網(wǎng)的空氣質(zhì)量標(biāo)準(zhǔn),將PM2.5濃度劃分為7個(gè)級(jí)別:優(yōu)(0~35 μg·m-3)、良(35~75 μg·m-3)、輕度污染(75~115 μg·m-3)、中度污染(115~150 μg·m-3)、重度污染(150~250 μg·m-3)和嚴(yán)重污染(大于250 μg·m-3及以
圖3 SVR-CNN-GRU模型預(yù)測(cè)值與實(shí)測(cè)值折線圖Fig.3 Line charts between forecast value and actual value of SVR-CNN-GRU
上),統(tǒng)計(jì)S為24時(shí),各PM2.5濃度級(jí)別樣本占測(cè)試集比例、MAPE和平均絕對(duì)誤差(MAE)如表4所示.
(4)
表4 分級(jí)模型預(yù)測(cè)精度
由上表可見(jiàn),由于污染越嚴(yán)重,濃度基數(shù)越高,MAE隨著污染級(jí)別逐步上升;而MAPE則出現(xiàn)相反的趨勢(shì),說(shuō)明了預(yù)測(cè)有較高的準(zhǔn)確度.“嚴(yán)重污染”級(jí)別的絕對(duì)和相對(duì)誤差均高于“重度污染”,這是由于其樣本占整體樣本比例過(guò)小,模型學(xué)習(xí)不充分造成的.按照PM2.5濃度75以上為超標(biāo)的中國(guó)國(guó)家標(biāo)準(zhǔn),SVR-CNN-GRU能夠以較高的準(zhǔn)確度對(duì)超標(biāo)天氣進(jìn)行預(yù)測(cè),達(dá)到提前24小時(shí)預(yù)警的目的.
大氣是典型的混沌系統(tǒng),隨著時(shí)間線的延長(zhǎng),氣象系統(tǒng)預(yù)測(cè)的難度急劇提升,PM2.5與氣象條件密切相關(guān),PM2.5預(yù)測(cè)實(shí)現(xiàn)24小時(shí)預(yù)報(bào)需要解決從高維和非線性時(shí)序數(shù)據(jù)中提取特征的難題.采用具有良好高維和非線性處理能力的支持向量機(jī)對(duì)原始?xì)庀髷?shù)據(jù)進(jìn)行降維和特征提取,然后堆疊由卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)和全連接層構(gòu)成的深度神經(jīng)網(wǎng)絡(luò),進(jìn)行時(shí)序特征提取,以2015年1月1日1時(shí)至2020年4月10日23時(shí)湖北省武漢等14市州的氣象和空氣污染共計(jì)46 247條數(shù)據(jù),訓(xùn)練了六個(gè)不同策略的模型.實(shí)驗(yàn)效果展現(xiàn)了所有基于SVR降維的集成學(xué)習(xí)模型均取得較高精度,且擬合優(yōu)度R2均超過(guò)0.96;其中與CNN和GRU結(jié)合的模型取得了最佳的精度,泛化能力更強(qiáng),R2達(dá)到0.97.綜合來(lái)看,SVR降維是解決復(fù)雜問(wèn)題的集成學(xué)習(xí)的有效前置工具,深度神經(jīng)網(wǎng)絡(luò)則表現(xiàn)出強(qiáng)大的時(shí)序分析能力.
由于缺失數(shù)據(jù)處理手段單一,放棄了部分有助于PM2.5預(yù)測(cè)的氣象因子,下一步需要完善缺失數(shù)據(jù)的填充技術(shù),添加更多因子提高預(yù)測(cè)精度.雖然使用了武漢13市州4 w的數(shù)據(jù),但是僅僅將其同武漢市數(shù)據(jù)平鋪拼接,因此丟失了距離、方位、地形和大氣運(yùn)動(dòng)等重要信息,湖北省外北方污染源也未納入考慮,下一步需要建立時(shí)空結(jié)構(gòu)的模型進(jìn)行優(yōu)化.由于算力條件有限,不同步長(zhǎng)的SVR模型均采用同樣的參數(shù)訓(xùn)練,且作為靜態(tài)模型應(yīng)用于深度神經(jīng)網(wǎng)絡(luò),造成了部分步長(zhǎng)SVR模型未能優(yōu)化,需要在下一步深度融合SVR和神經(jīng)網(wǎng)絡(luò),集成和動(dòng)態(tài)的訓(xùn)練SVR模型.采用的深度神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)是將多層進(jìn)行串行連接,結(jié)構(gòu)相對(duì)簡(jiǎn)單,影響了特征提取能力,下一步需要針對(duì)預(yù)測(cè)問(wèn)題的特征,引入殘差網(wǎng)絡(luò)等技術(shù)構(gòu)建更為復(fù)雜和有效的網(wǎng)絡(luò)結(jié)構(gòu)[27].