陳建坤,牟鳳云,張用川,田 甜,王俊秀
(重慶交通大學智慧城市學院,重慶 400074)
隨著工業(yè)化進程的發(fā)展,空氣污染已成為全球性公共衛(wèi)生問題。在主要的大氣污染物中,粗顆粒(PM10)和細顆粒(PM2.5)對空氣質(zhì)量、大氣能見度以及全球氣候變化的負面影響最嚴重[1-2]。已有研究表明,空氣污染是造成人體多種疾病的主要環(huán)境因素[3],在全球范圍內(nèi),約3%的心肺疾病和5%的肺癌與PM暴露有關(guān)[4],高PM2.5濃度與多種急性和慢性疾病密切相關(guān)[5-7]。因此,對PM2.5濃度進行預測極為重要。
當前PM2.5濃度預測方法主要有確定性模型和數(shù)據(jù)驅(qū)動模型兩類[8]。確定性模型依賴于排放源數(shù)據(jù)和各類歷史氣象數(shù)據(jù),通過大氣污染物擴散和物質(zhì)的物理化學過程模擬污染物的形成[9-10]。確定性模型運用廣泛,高斯模型(AERMOD、PLUME等)、歐拉模型和化學遷移模型[11](GEOS-Chem,CMAQ,WRF-Chem等)是最常用的物理過程模型,但地形和土地利用某些方面的復雜性一定程度上限制了這些模型的應用[12]。有研究發(fā)現(xiàn),傳統(tǒng)的確定性模型難以描述污染物濃度、氣象、土地利用以及排放和擴散源之間的非線性關(guān)系[13]。近年來,依托算法模型研究的不斷深入和計算機硬件性能的不斷提升,使得以機器學習算法為代表的數(shù)據(jù)驅(qū)動模型已成為許多學科研究的首選方法。在PM2.5預測研究領(lǐng)域內(nèi),鄭毅等[14]和曲悅等[15]采用神經(jīng)網(wǎng)絡(luò)方法對PM2.5濃度進行模擬預測,結(jié)果表明神經(jīng)網(wǎng)絡(luò)能夠較好地預測PM2.5濃度,LSTM模型預測準確率較高,但存在容易因為網(wǎng)絡(luò)調(diào)試問題陷入局部最小化、訓練時間長的問題;李建新等[16]和宋國君等[17]基于改進的支持向量機模型在一定程度上能提高PM2.5濃度的預測精度;康俊鋒等[18]在預測PM2.5濃度時構(gòu)建了6個機器學習模型,從不同方面對比分析了模型的預測性能。
綜上所述,基于機器學習模型預測PM2.5濃度已有不少研究成果,但大都聚焦于單一算法模型或?qū)δP偷暮唵胃倪M,較少涉及多個算法模型的對比分析。此外,在預測模型的輸入特征變量選擇方面,較多研究選擇與PM2.5直接相關(guān)的空氣污染數(shù)據(jù)或者只選用氣象數(shù)據(jù),結(jié)合兩者來預測PM2.5濃度的研究鮮見報道。但氣象因子對PM2.5濃度變化影響較大[19],因此,本研究嘗試使用空氣污染監(jiān)測數(shù)據(jù)和氣象監(jiān)測數(shù)據(jù)構(gòu)建基于機器學習的PM2.5預測模型。由于多個特征之間存在信息冗余,需要對10個監(jiān)測指標進行降維處理。已有學者使用相關(guān)系數(shù)法[20]和主成分分析[21]進行特征子集選擇,但相關(guān)系數(shù)法要求各個特征相互獨立,主成分分析方法主要適用于線性問題,而監(jiān)測指標之間通常存在非線性關(guān)系[22],筆者采用最大相關(guān)最小冗余算法(MRMR)選擇最優(yōu)特征[23],并構(gòu)建XGBoost模型、隨機森林模型(RF)、LightGBM模型、K最近鄰模型(KNN)、決策樹模型(DT)、長短期記憶神經(jīng)網(wǎng)絡(luò)(LSTM)6種機器學習模型,進行PM2.5濃度預測。
采用重慶市合川區(qū)(105°58′37″~106°40′37″E,29°51′02″~30°22′24″N)7個空氣質(zhì)量監(jiān)測站點的空氣質(zhì)量監(jiān)測小時數(shù)據(jù)(PM10、SO2、NO2、CO、O3)和氣象因子監(jiān)測數(shù)據(jù)(氣溫、濕度、風速、風向、氣壓)對大氣PM2.5濃度進行預測。所有數(shù)據(jù)均為站點監(jiān)測小時數(shù)據(jù),每個站點每天產(chǎn)生24條數(shù)據(jù)(表1所示為2020年1月23日逐小時監(jiān)測數(shù)據(jù));研究數(shù)據(jù)覆蓋的時間范圍為2020年1月18日至2021年1月30日。
表1 站點逐小時監(jiān)測數(shù)據(jù)樣本
數(shù)據(jù)采集過程中由于監(jiān)測設(shè)備和其他外界因素的影響,監(jiān)測數(shù)據(jù)中存在部分缺失數(shù)據(jù)和異常數(shù)據(jù),需要對原始數(shù)據(jù)進行數(shù)據(jù)預處理操作,控制數(shù)據(jù)質(zhì)量。具體包括:①剔除氣象站點監(jiān)測歷史數(shù)據(jù)中的異常值和缺失值,且如果監(jiān)測數(shù)據(jù)中的某一項值為缺失或者異常,則該小時所有數(shù)據(jù)全部剔除。②在剔除原始數(shù)據(jù)異常值的同時,對PM2.5質(zhì)量濃度(濃度)小于0 μg/m3和大于1 000 μg/m3的異常數(shù)據(jù)也進行剔除處理。③通過數(shù)據(jù)質(zhì)量控制后,最終選用數(shù)據(jù)共62 780條。采用train_test_split隨機劃分數(shù)據(jù)集。測試數(shù)據(jù)集占比設(shè)置為20%。另外,特征縮放可以消除各維數(shù)據(jù)之間的量級差別,提升分類算法和優(yōu)化算法的性能。特征縮放的主要方法有歸一化和標準化,其中,標準差標準化方法使得特征值呈正態(tài)分布,利于訓練階段的權(quán)重更新;同時標準化方法還可以保持異常值的信息,進一步減少異常值對算法的影響。在機器學習模型訓練之前對樣本數(shù)據(jù)(x)進行標準差標準化,公式如下:
(1)
式中:x*為標準化數(shù)據(jù),μ為所有樣本數(shù)據(jù)的均值,σ為樣本數(shù)據(jù)的標準差。
1.2.1 6種模型的特征
選取的6個機器學習模型及最終確定的模型參數(shù)如表2所示。
表2 6個預測模型及其參數(shù)確定
表2(續(xù))
1.2.2 基于互信息的最大相關(guān)最小冗余算法(MRMR)的最優(yōu)特征選擇
考慮到PM2.5濃度與各個影響因素之間為非線性關(guān)系[22],且變量之間存在較強的相關(guān)性,對多個監(jiān)測指標必須考慮其數(shù)據(jù)之間的冗余性。因此本研究引入了基于互信息的最大相關(guān)最小冗余算法(MRMR)[30]選擇最優(yōu)特征,該算法可以最大化特征與目標變量之間的相關(guān)性,同時最小化特征之間的相關(guān)性。給定的兩個隨機變量X與Y之間的互信息定義為:
(2)
式中:p(X)和p(Y)分別是X和Y的概率密度函數(shù);p(X,Y)為X與Y的聯(lián)合概率密度函數(shù)。
令Ω=Ωs∪Ωt表示整個特征集,其中Ωs表示m個已選擇的特征,而Ωt包含n個待選擇的特征??梢酝ㄟ^以下公式計算特征f(以Ωt為單位)與目標c的相關(guān)性D:
D=I(f,c)。
(3)
此外,以Ωt為單位的特征f和所有以Ωs為單位的特征冗余度R可以通過以下公式計算:
(4)
結(jié)合上式可以給出具有最大相關(guān)性和最小冗余度的以Ωt為單位的特征fj:
(5)
對于具有N個特征的特征集,特征排名將連續(xù)N個回合。在對特征進行排名之后,將通過MRMR方法獲得新的特征集S:
(6)
本研究基于10個特征維度的數(shù)據(jù),計算出了PM2.5濃度與10個特征之間的互信息值(表3)。互信息的大小表明了特征之間的相關(guān)性強弱,最優(yōu)特征子集選擇時既要考慮特征之間相關(guān)性強弱,也要考慮冗余度的大小。經(jīng)MRMR算法選取出的最優(yōu)特征子集包括:PM10、NO2、O3濃度和氣溫、風向、氣壓,即以選取的6個特征作為模型的輸入。CO和濕度與PM2.5相關(guān)性較高,但并沒有入選最優(yōu)特征子集,這印證了MRMR算法確實考慮了特征之間的冗余信息,從而選取最優(yōu)的特征子集。
表3 PM2.5濃度與特征之間互信息
采用決定系數(shù)R2、均方差RMSE(式中記為σRMSE,下同)、平均絕對誤差MAE(σMAE)、平均絕對百分比誤差MAPE(σMAPE) 4個指標[31]對模型進行評估,評價指標的計算方法如下:
(7)
(8)
(9)
(10)
6種模型使用同樣的訓練集與測試集,用訓練數(shù)據(jù)集測試模型,再將測試數(shù)據(jù)集輸入模型進行PM2.5濃度的預測,預測值與實測值的對比情況如圖1所示。
圖1 PM2.5濃度的預測結(jié)果與實測結(jié)果Fig.1 Predicted and measured results of PM2.5 concentration
圖2 預測模型殘差Fig.2 Prediction model residual
結(jié)合預測結(jié)果與實測結(jié)果對比圖(圖1)以及各模型預測殘差圖(圖2)可知:當PM2.5濃度處于20~70 μg/m3時,各模型的預測精度較高,預測值與實測值重合度高;當PM2.5濃度大于100 μg/m3時,模型預測值與實測值差異變大;當PM2.5濃度持續(xù)增大超過150 μg/m3后,預測值與實測值之間的差異較大,預測效果不理想??傮w而言,當PM2.5濃度實測值較小或過大時,模型預測值與真實值之間相差較大。XGBoost、RF、LightGBM、LSTM模型的預測效果優(yōu)于DT和KNN模型,其預測值與真實值更接近,LSTM模型對于實測值較大的數(shù)據(jù)預測效果更好。
基于PM2.5濃度實測值與模型預測值,做出6個預測模型的回歸散點圖(圖3),并計算實測值與預測值的R2、RMSE、MAE、MAPE等指標??傮w而言,6個機器學習模型均有R2>0.92,這表明選擇的最優(yōu)特征子集能較好地預測PM2.5濃度。其中XGBoost、RF、LightGBM 等3個模型的R2>0.94,DT、KNN、LSTM模型的R2在0.922~0.937之間;各模型的RMSE處于8.168~9.543之間,XGBoost模型的RMSE最小、DT模型的RMSE值最大為9.543。對比MAE,則DT模型的MAE值最大,值為6.168,其余5個模型的MAE值均小于6;最小值為XGBoost 模型的5.218,其次為RF模型的5.376和LightGBM模型的5.62。比較MAPE指標,則XGBoost模型的仍是所有模型中最小,為16.669%,其次為RF模型的16.684%,整體而言所有模型的MAPE值均小于20%,其中KNN模型的最大,為19.056%。綜合對比6個機器學習模型,XGBoost模型的預測性能最好,其次是RF和LightGBM模型,DT模型的預測性能相對較差。
圖3 6種模型預測回歸對比Fig.3 Comparison of six models for prediction and regression
根據(jù)國家環(huán)境保護標準空氣質(zhì)量指數(shù)規(guī)范[32],對研究區(qū)(合川區(qū))PM2.5濃度實測數(shù)據(jù)和模型預測數(shù)據(jù)進行等級劃分(表4)。從實測數(shù)據(jù)看,合川區(qū)污染等級主要集中在1~4級,重度污染(5級)和嚴重污染等級(6級)數(shù)量相對較少。從各模型預測結(jié)果看,KNN模型1級污染數(shù)據(jù)數(shù)量最多,其次為RF模型,最少的是LSTM模型,是6個模型中1級預測數(shù)據(jù)量唯一少于實測值的模型;2級污染數(shù)據(jù)中,LSTM模型數(shù)量最多,KNN模型數(shù)量最少??傮w上各模型預測等級數(shù)量與實測值數(shù)量相差較小。
表4 6種模型對合川區(qū)PM2.5污染等級預測對比
考慮到不同季節(jié)空氣污染物來源差異[33],且重慶市四季氣候變化大,不同的氣候條件下氣象因子也會對PM2.5濃度產(chǎn)生影響,因此以季節(jié)為監(jiān)測時間單位,探究不同季節(jié)下(季節(jié)劃分為:3—5月為春季,6—8月為夏季,9—11月為秋季,12月至次年2月為冬季[34])各模型的預測性能差異,結(jié)果見表5。
表5 不同季節(jié)各模型預測結(jié)果
由表5可知,6個模型對PM2.5濃度預測整體上呈現(xiàn)秋季和冬季預測結(jié)果更好,春季和夏季預測結(jié)果較差。結(jié)合重慶合川區(qū)PM2.5濃度季節(jié)性變化看,秋冬季節(jié)PM2.5濃度高于春夏季節(jié),這說明模型在污染等級較高時預測值更穩(wěn)定,性能更好。對比模型預測精度,DT模型預測結(jié)果較差,R2在春季、夏季、秋季均小于0.9,其春季預測結(jié)果是所有預測結(jié)果中最差的(R2=0.861,RMSE為11.019,MAE為6.453,MAPE為17.430%)。XGBoost模型預測結(jié)果最好,R2在4個季節(jié)均大于0.9,其冬季MAPE值僅為9.7%,是所有模型中唯一小于10%的。整體而言,XGBoost、LightGBM、RF模型預測結(jié)果優(yōu)于其他3個模型,在不同季節(jié)預測結(jié)果中R2均大于0.9,XGBoost模型預測性能略優(yōu)于其余兩個模型。LSTM模型預測效果稍遜于3個集成學習模型,但明顯優(yōu)于KNN和DT模型。預測結(jié)果的差異可能與機器學習模型算法的內(nèi)部特性有關(guān),還可能與不同季節(jié)下污染物和氣象因子的變化有關(guān)。為了進一步探討模型在不同季節(jié)下預測結(jié)果差異性的原因,分析了PM2.5濃度與特征變量之間的相關(guān)性,結(jié)果如圖4所示。
PM10濃度是4個季節(jié)中與PM2.5濃度相關(guān)性最大的變量,相關(guān)性在4個季節(jié)中基本保持不變。NO2在夏季相關(guān)性小于其他3個季節(jié);O3與PM2.5濃度呈負相關(guān),且夏季相關(guān)性最小;氣溫與PM2.5濃度呈負相關(guān),且呈現(xiàn)出春夏季節(jié)相關(guān)性大于秋冬季節(jié);風向與PM2.5濃度相關(guān)性最小,在春季表現(xiàn)為負相關(guān),其他3個季節(jié)為正相關(guān);氣壓在春季與PM2.5濃度相關(guān)性最強,且呈負相關(guān),而在其他3個季節(jié)呈正相關(guān)。對比分析可知秋冬季節(jié)氣象因子與PM2.5濃度相關(guān)性明顯小于春夏季節(jié),這種相關(guān)性的變化會影響預測模型季節(jié)性預測的誤差。
圖4 各季節(jié)下PM2.5濃度與特征變量的相關(guān)性Fig.4 Correlation between PM2.5 and characteristic variables
模型構(gòu)建完成后,計算各模型運行時間和內(nèi)存占用大小,結(jié)果見表6。如表6所示,RF模型是所有模型中內(nèi)存占用最大且運行時間最長的模型,DT模型是所有模型中內(nèi)存占用最小的,其運行時間也最少,其余模型在內(nèi)存占用大小上相差不大;LSTM模型運行時間為46.5 s僅次于RF模型,但遠小于RF運行時間。結(jié)合模型預測性能對比分析可知:LightGBM模型和XGBoost模型預測性能相差不大,但LightGBM模型在內(nèi)存占用大小和運行時間上都能減少,LightGBM模型在運行時間上相較XGBoost模型減少了一半,這也證實LightGBM可在保證預測精度的條件下,減少內(nèi)存占用和運行時間。
表6 模型內(nèi)存占用大小和運行時間
綜上可知,XGBoost、RF、LightGBM模型在PM2.5濃度預測中表現(xiàn)出了較好的性能,對保存好的模型進行變量重要性分析,各個特征變量相對重要性如圖5所示,XGBoost模型和RF模型中特征變量相對重要性順序一致,重要性順序為PM10濃度、氣溫、氣壓、O3、風向、NO2。LightGBM模型中NO2重要性略大于風向,其他變量相對重要性與其余兩個模型一致,可以看出PM10濃度、氣溫、氣壓對于PM2.5濃度預測較為重要,O3、風向、NO2對于PM2.5濃度預測重要性相對較弱。
圖5 特征變量重要性Fig.5 Importance of feature variables
本研究以重慶市合川區(qū)為研究區(qū),結(jié)合空氣污染數(shù)據(jù)和氣象監(jiān)測數(shù)據(jù)基于最大相關(guān)最小冗余算法(MRMR)選取最優(yōu)特征子集,選擇6個機器學習模型進行PM2.5含量預測,對比分析了各模型的預測性能,包括模型預測的總體精度、不同季節(jié)條件下的預測能力、模型運行效率等。結(jié)果認為:基于MRMR算法選取的最優(yōu)特征子集作為模型輸入可以很好地預測PM2.5濃度,預測結(jié)果較理想。6種模型預測性能整體較好,3種樹模型預測性最好,LSTM模型次之,DT模型最差。對比不同季節(jié)下各模型預測結(jié)果發(fā)現(xiàn),6個機器學習模型在秋冬季節(jié)污染物含量較高的情況下,預測性能優(yōu)于春夏季節(jié)。分析各季節(jié)下PM2.5濃度與各特征變量之間的相關(guān)性可知,秋冬季節(jié)氣象因子與PM2.5濃度相關(guān)性明顯小于春夏季節(jié),這是導致模型不同季節(jié)預測性能差異的原因。對比各模型的運行時間和內(nèi)存占比發(fā)現(xiàn),RF模型內(nèi)存占用和運行時間最大,DT模型運行時間和內(nèi)存占用均最小。另外,XGBoost、RF、LightGBM模型中各個特征變量的相對重要性順序基本一致,即PM10濃度、氣溫、氣壓重要性高,O3、風向、NO2重要性相對較弱。相較于XGBoost模型,LightGBM模型可以在保證性能的條件下大幅縮短模型運行時間。
采用MRMR算法對研究區(qū)(合川區(qū))全年數(shù)據(jù)進行數(shù)據(jù)降維,進而構(gòu)建多機器學習模型對PM2.5濃度預測。實驗證明,該方法能取得較好的預測精度,可以為環(huán)境部門進行PM2.5濃度短時精確預測和PM2.5濃度預警提供參考,但研究還有進一步提升的空間:氣象數(shù)據(jù)(氣溫、濕度、風速、風向、氣壓)為站點逐小時監(jiān)測數(shù)據(jù),沒有選用能見度數(shù)據(jù),一方面是由于監(jiān)測站點并未采集到對應時刻的能見度數(shù)據(jù);另一方面考慮到其他渠道獲取的能見度數(shù)據(jù)在時間和空間上并不能完美契合該時刻的其他數(shù)據(jù)。當然如果能獲取對應的能見度數(shù)據(jù),可以考慮作為輸入特征進行進一步實驗。另外,本研究未深入探討PM2.5濃度變化與氣象要素和污染數(shù)據(jù)變化之間的內(nèi)在聯(lián)系,未對其他特征子集預測效果進行試驗,今后的研究可以嘗試補充其他合適的特征變量進行預測。在模型構(gòu)建方面,本研究主要進行多模型預測對比分析,今后可以致力于模型改進與多模型融合,進一步提高模型的預測性能。