李 娟, 尉 鵬, 戴學(xué)之, 趙 森, 張博雅, 呂玲玲, 胡京南
1.西安科技大學(xué)測(cè)繪科學(xué)與技術(shù)學(xué)院, 陜西 西安 710054 2.中國(guó)環(huán)境科學(xué)研究院大氣環(huán)境研究所, 北京 100021 3.合肥市氣象局, 安徽 合肥 230041
近年來(lái),我國(guó)大氣污染問題突出,引起社會(huì)高度關(guān)注,大氣污染物對(duì)人體健康、大氣能見度以及氣候變化等都有重要影響[1-2],因此對(duì)大氣污染物進(jìn)行預(yù)報(bào)、調(diào)控及污染機(jī)理分析成為當(dāng)下亟待解決的科學(xué)問題. 大氣化學(xué)模式是研究大氣污染的重要工具,它以大氣動(dòng)力學(xué)為基礎(chǔ),考慮多種物理和化學(xué)過程,定量描述污染物的擴(kuò)散和輸送規(guī)律,但由于物理化學(xué)機(jī)理復(fù)雜、排放源不確定性等原因,使得數(shù)值預(yù)報(bào)結(jié)果存在不確定性[3-4].
為提高模式預(yù)報(bào)能力,結(jié)合數(shù)值模式與統(tǒng)計(jì)方法對(duì)模式預(yù)報(bào)結(jié)果進(jìn)行統(tǒng)計(jì)修正的應(yīng)用也較為普遍. 研究表明,利用機(jī)器學(xué)習(xí)方法可以有效提高模式預(yù)報(bào)準(zhǔn)確率[5-6],如利用多元線性回歸(MR)、隨機(jī)森林、BP神經(jīng)網(wǎng)絡(luò)、深度學(xué)習(xí)以及集合預(yù)報(bào)等方法對(duì)模式輸出結(jié)果進(jìn)行優(yōu)化[7-9]. 王茜等[10]采用學(xué)習(xí)型線性回歸方法對(duì)上海市ρ(PM2.5)數(shù)值預(yù)報(bào)結(jié)果進(jìn)行修正,統(tǒng)計(jì)檢驗(yàn)結(jié)果明顯提高了ρ(PM2.5)預(yù)報(bào)效果;張?jiān)儡姷萚11]在BREMPS預(yù)報(bào)結(jié)果的基礎(chǔ)上,結(jié)合MR、BP及多層遞階建立10 d滾動(dòng)修正模型,PM2.5預(yù)報(bào)準(zhǔn)確率升高;潘錦秀等[12]利用多元線性回歸方法對(duì)北京市多模式系統(tǒng)(CMAQ、CAMx、NAQPMS)預(yù)報(bào)值和觀測(cè)值進(jìn)行集合預(yù)報(bào),改進(jìn)了模式的高估或低估現(xiàn)象. 但線性回歸模型無(wú)法解決非線性問題,隨著機(jī)器學(xué)習(xí)的發(fā)展,許多學(xué)者利用機(jī)器學(xué)習(xí)方法對(duì)污染物預(yù)報(bào)值進(jìn)行訂正優(yōu)化,如張恒德等[13]基于CUACE、BREMPS、WRF-Chem模式預(yù)報(bào)產(chǎn)品,利用BP神經(jīng)網(wǎng)絡(luò)方法建立多模式集成預(yù)報(bào)模型,集成預(yù)報(bào)結(jié)果的歸一化平均偏差及均方根誤差均下降;戴李杰等[14]應(yīng)用支持向量機(jī)(SVM)和粒子群優(yōu)化算法建立PM2.5滾動(dòng)預(yù)報(bào)模型,使得預(yù)報(bào)準(zhǔn)確度提高;馬井會(huì)等[15]結(jié)合WRF氣象預(yù)報(bào)數(shù)據(jù)、地面及高空氣象觀測(cè)數(shù)據(jù)、ρ(PM2.5)觀測(cè)數(shù)據(jù),基于人工智能深度學(xué)習(xí)序列到序列的算法建立了上海市PM2.5統(tǒng)計(jì)修正預(yù)報(bào)模型,能有效提升ρ(PM2.5)預(yù)報(bào)精度. 機(jī)器學(xué)習(xí)可以很好地解決非線性問題,但目前大多數(shù)研究集中在單個(gè)機(jī)器學(xué)習(xí)模型對(duì)預(yù)報(bào)值進(jìn)行優(yōu)化,而對(duì)多種機(jī)器學(xué)習(xí)模型優(yōu)化結(jié)果的對(duì)比以及模型對(duì)不同污染物優(yōu)化效果評(píng)估的研究相對(duì)較少.
為提高CAMx污染物模擬值精確度,該研究以西安市為研究對(duì)象,基于CAMx模式污染物濃度預(yù)報(bào)數(shù)據(jù)、WRF模式氣象要素預(yù)報(bào)數(shù)據(jù)以及環(huán)境空氣質(zhì)量監(jiān)測(cè)國(guó)控點(diǎn)污染物濃度觀測(cè)數(shù)據(jù),利用6種機(jī)器學(xué)習(xí)優(yōu)化模型(多元線性回歸、嶺回歸、lasso回歸、決策樹、隨機(jī)森林以及支持向量機(jī)),對(duì)CAMx污染物濃度預(yù)報(bào)數(shù)據(jù)進(jìn)行優(yōu)化,旨在修正PM2.5、O3模擬值預(yù)報(bào)誤差,以期為西安市大氣空氣質(zhì)量預(yù)報(bào)預(yù)警方法做出改進(jìn).
該研究所用氣象數(shù)據(jù)來(lái)自中尺度氣象模式WRF(V4.1),其中WRF模式每日對(duì)初始場(chǎng)進(jìn)行初始化,每次模擬時(shí)長(zhǎng)為31 h,Spin-up時(shí)間設(shè)置為6 h. WRF模式中心點(diǎn)坐標(biāo)為35 °N、110 °E,采用三層區(qū)域嵌套網(wǎng)格,水平分辨率分別為27、9、3 km,依次覆蓋整個(gè)中國(guó)地區(qū)、陜西省和關(guān)中地區(qū),與CAMx模式對(duì)應(yīng). WRF三層嵌套網(wǎng)格數(shù)分別為238×168、94×121、169×121,覆蓋垂直層為35層. 氣象背景場(chǎng)和邊界條件資料來(lái)自NCEP(National Centers for Environmental Prediction)的再分析逐日資料FNL,分辨率為1°×1°,時(shí)間分辨率為6 h. 地形和下墊面輸入資料分別來(lái)自USGS30全球地形和MODIS下墊面分類資料. 積云參數(shù)化方案采用Kain-Fritsch(new Eta)方案,邊界層參數(shù)化方案采用Mellor-Yamada-Janjic(Eta)湍流動(dòng)能方案,大氣輻射方案為RRTM長(zhǎng)波和云(Dudhia)短波輻射方案.
ρ(PM2.5)及ρ(O3)小時(shí)模擬值由綜合空氣質(zhì)量模式CAMx提供,模擬時(shí)間為2019年1月1日—12月31日. CAMx模式采用Lambert投影,氣相及液相化學(xué)機(jī)理分別為CB05、RADM-AQ;氣溶膠熱力學(xué)平衡模式為ISORROPIA,干沉降參數(shù)化方案采用WESELY89;水平平流及垂直擴(kuò)散方案分別采用PPM、隱式歐拉方案. 模式第1次運(yùn)行時(shí)模擬預(yù)測(cè)5 d的初始場(chǎng),以消除初始條件的影響,后續(xù)初始場(chǎng)采用前一次的模擬結(jié)果,以消除排放源及初始條件累積誤差.
人為源采用2016年MEIC (中國(guó)多尺度排放清單模型,Multi Resolution Emission Inventory for China)排放清單,分辨率為0.25°×0.25°;天然源運(yùn)用陸地生態(tài)系統(tǒng)估算模型MEGAN[16]計(jì)算,整合、處理后的天然源、人為源排放清單共同輸入到排放源處理模型SMOKE,轉(zhuǎn)化為網(wǎng)格化的模式源排放文件.
西安市ρ(PM2.5)及ρ(O3)小時(shí)觀測(cè)數(shù)據(jù)來(lái)自環(huán)境專業(yè)知識(shí)服務(wù)系統(tǒng)(http://envi.ckcest.cn/environment),空氣質(zhì)量監(jiān)測(cè)站點(diǎn)選擇西安市長(zhǎng)安氣象監(jiān)測(cè)站(站點(diǎn)號(hào):57039).
1.2.1特征提取及特征縮放
研究表明,氣象因素可以影響大氣污染物的稀釋擴(kuò)散、積聚清除,是影響污染物濃度的重要因素之一[1],其中,較低的風(fēng)速不利于污染物擴(kuò)散,主導(dǎo)風(fēng)向影響著污染物的區(qū)域輸送,較高的相對(duì)濕度有利于顆粒物的吸濕增長(zhǎng),而高溫則加劇了臭氧的光化學(xué)反應(yīng),同時(shí)天氣形勢(shì)的演變也是污染現(xiàn)象的一個(gè)重要原因[17-20]. 可見,風(fēng)速、風(fēng)向、相對(duì)濕度、溫度、氣壓等氣象因子對(duì)大氣污染物濃度分布有較大影響. 結(jié)合西安市氣象特點(diǎn)及相關(guān)研究[21-25],該研究從CAMx模式模擬結(jié)果中分別選取PM2.5、O3小時(shí)質(zhì)量濃度模擬值,從WRF中提取對(duì)應(yīng)時(shí)間的溫度、相對(duì)濕度、海平面氣壓、風(fēng)速及風(fēng)向小時(shí)值5個(gè)氣象因子,共計(jì)6個(gè)因子作為建模訓(xùn)練的輸入特征,其中回歸目標(biāo)值分別為相應(yīng)時(shí)刻的ρ(PM2.5)、ρ(O3)小時(shí)觀測(cè)值,并在數(shù)據(jù)集中隨機(jī)選擇80%作為訓(xùn)練集進(jìn)行優(yōu)化模型訓(xùn)練,20%作為測(cè)試集進(jìn)行優(yōu)化結(jié)果驗(yàn)證.
特征縮放可以消除各維數(shù)據(jù)之間的量級(jí)差別,提升分類算法和優(yōu)化算法的性能,訓(xùn)練之前需要對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化預(yù)處理[26-27]. 特征縮放的主要方法有歸一化和標(biāo)準(zhǔn)化,其中,標(biāo)準(zhǔn)化方法使得特征值呈正態(tài)分布,利于訓(xùn)練階段的權(quán)重更新;同時(shí),標(biāo)準(zhǔn)化方法還可以保持異常值的信息,進(jìn)一步減少異常值對(duì)算法的影響[27]. 標(biāo)準(zhǔn)化函數(shù)為
z=(x-u)/s
(1)
式中,x為訓(xùn)練樣本,u為訓(xùn)練樣本平均值,s為訓(xùn)練樣本標(biāo)準(zhǔn)偏差.
1.2.2模型選取
在大氣化學(xué)模式預(yù)報(bào)結(jié)果的基礎(chǔ)上,利用機(jī)器學(xué)習(xí)模型對(duì)模擬結(jié)果進(jìn)行優(yōu)化,可以有效提高預(yù)報(bào)結(jié)果精確度[11]. 目前,機(jī)器學(xué)習(xí)模型中常用模型有多元線性回歸[12]、嶺回歸[28]、lasso回歸、決策樹、隨機(jī)森林[29]以及支持向量機(jī)[14].
多元線性回歸(普通最小二乘法,ordinary least squares,OLS)通過尋找回歸參數(shù)、回歸常數(shù)及回歸殘差,使訓(xùn)練集預(yù)測(cè)值與真實(shí)回歸目標(biāo)值y之間的均方誤差最小,利用訓(xùn)練集計(jì)算出特征值與觀測(cè)值之間的函數(shù)關(guān)系,并將得出的方程應(yīng)用于測(cè)試集,其回歸方程表示為
Y=β0+β1X1+β2X2+…+βkXk+ε
(2)
式中:Y為模型預(yù)測(cè)結(jié)果;β0為回歸常數(shù);β1~βk均為回歸系數(shù);X1~Xk均為特征值,該研究中有6個(gè)特征值;ε為回歸殘差.
嶺回歸的預(yù)測(cè)公式與多元線性回歸相同,通對(duì)預(yù)測(cè)模型進(jìn)行顯式約束,避免系數(shù)過擬合. Lasso回歸通過正則化產(chǎn)生稀疏權(quán)值矩陣,使某些回歸常數(shù)βk剛好為0,對(duì)特征進(jìn)行自動(dòng)化選擇. 決策樹通過反復(fù)切分?jǐn)?shù)據(jù)進(jìn)行回歸或分類,與支持向量機(jī)、神經(jīng)網(wǎng)絡(luò)相比計(jì)算量大大降低,而且算法不受數(shù)據(jù)縮放影響. 隨機(jī)森林通過隨機(jī)的方式建立許多決策樹并組成森林,是決策樹的集成模型,隨機(jī)森林相較于其他機(jī)器學(xué)習(xí)模型,可以量化的方式體現(xiàn)出模型參數(shù)對(duì)模型預(yù)報(bào)效果的影響,且預(yù)報(bào)效果較好、預(yù)報(bào)結(jié)果穩(wěn)定. 支持向量機(jī)(Support Vector Machine,SVM)基于VC維理論和結(jié)構(gòu)分析風(fēng)險(xiǎn)最小原則的理論,在解決小樣本、非線性及高維模式識(shí)別中表現(xiàn)出許多特有的優(yōu)勢(shì)[30-32].
對(duì)CAMx模式模擬結(jié)果與模型優(yōu)化結(jié)果進(jìn)行時(shí)間序列分析及統(tǒng)計(jì)檢驗(yàn). 統(tǒng)計(jì)檢驗(yàn)指標(biāo)選取均值偏差(MB)、標(biāo)準(zhǔn)化均值偏差(NMB)、平均相對(duì)偏差(MFB)、標(biāo)準(zhǔn)平均誤差(NME)、平均相對(duì)誤差(MFE)、均方根誤差(RMSE)、平均絕對(duì)誤差(MAE)及相關(guān)性系數(shù)(R),計(jì)算公式見式(3)~(8). MB與RMSE反映了模擬值和觀測(cè)值之間的偏差和誤差大小,其絕對(duì)值越小,表明數(shù)值模擬結(jié)果與觀測(cè)結(jié)果越接近. NMB、NME反映模擬值與觀測(cè)值之間相對(duì)偏差大小,一般情況下,如果二者均小于50%,則認(rèn)為模型模擬效果較好[33]. 當(dāng)MFB≤±60%、MFE≤75%時(shí),符合文獻(xiàn)[34]中空氣污染物模擬標(biāo)準(zhǔn),則認(rèn)為模式結(jié)果可靠;當(dāng)MFB值在-30%~30%之間且MEF小于50%時(shí),則可認(rèn)為模式表現(xiàn)優(yōu)秀,模擬結(jié)果在理想水平范圍內(nèi).
(3)
(4)
(5)
(6)
(7)
(8)
(9)
(10)
2.1.1WRF模擬結(jié)果
氣象小時(shí)觀測(cè)數(shù)據(jù)來(lái)自西安市長(zhǎng)安氣象監(jiān)測(cè)站(站點(diǎn)號(hào):57039),利用觀測(cè)數(shù)據(jù)對(duì)WRF模擬數(shù)據(jù)進(jìn)行驗(yàn)證,檢驗(yàn)參數(shù)包括均方根誤差(RMSE)及相關(guān)性系數(shù)(R). 其中,溫度及氣壓模擬值均與觀測(cè)值的相關(guān)性較好,R分別為0.93、0.97,誤差較小,RMSE值分別為2.96 ℃、2.88 hPa;而風(fēng)速、相對(duì)濕度模擬結(jié)果均與其觀測(cè)值相關(guān)性稍低,分別為0.70、0.67,RMSE值分別為1.38 m/s、23.1%. WRF模擬值誤差分析可知,WRF整體模擬誤差較小、精度較高,模擬結(jié)果可靠.
2.1.2CAMx模擬結(jié)果
為了解CAMx模式的預(yù)報(bào)特點(diǎn),首先評(píng)估測(cè)試集中ρ(PM2.5)、ρ(O3)模擬值與觀測(cè)值的相關(guān)性及時(shí)間序列分布. 由圖1可見:ρ(PM2.5)模擬值與觀測(cè)值的散點(diǎn)分布較為散亂,R為0.63;ρ(O3)模擬值與觀測(cè)值分布較ρ(PM2.5)集中,R為0.78,模擬效果較好. 由圖2可見:ρ(O3)模擬值與觀測(cè)值時(shí)間變化序列一致,ρ(O3)模擬值與觀測(cè)值較為接近,模擬效果較為理想;ρ(PM2.5)模擬值存在高估現(xiàn)象,模擬偏差主要出現(xiàn)在峰值階段,而排放源的不確定性以及模式本身在多氧化過程和濕清除過程的不確定性對(duì)模式模擬結(jié)果有較大影響[34-35]. 分析其原因,一方面CAMx模式所用氣象場(chǎng)來(lái)自WRF,WRF模擬氣象場(chǎng)具有不確定性,而氣象與污染物的相互反饋?zhàn)饔脤?duì)污染物的分布有重要影響,從而造成CAMx模擬值偏差;另一方面,人為源排放量及排放類型變化速度快,而排放清單編制時(shí)效滯后也會(huì)帶來(lái)預(yù)報(bào)的不確定性,同時(shí)MEIC清單本身存在誤差,且排放清單分辨率低于模式網(wǎng)格分辨率,從而導(dǎo)致造成模式值的污染物空間分布具有差異性[36-39].
圖1 ρ(PM2.5)、ρ(O3)模擬值與觀測(cè)值的散點(diǎn)分布Fig.1 Scatter distribution of simulated and observed values of ρ(PM2.5) and ρ(O3)
表1為測(cè)試集中ρ(PM2.5)及ρ(O3)模擬值與觀測(cè)值統(tǒng)計(jì)評(píng)估參數(shù). 由表1可見:ρ(PM2.5)的MB值為74.07 μg/m3,表明模式值對(duì)觀測(cè)值高估;NMB、NME值均大于1,表明模式值高估程度較高;MFB值較小而MFE值偏大,說(shuō)明存在部分ρ(PM2.5)模擬值被低估現(xiàn)象;RMSE、MAE值分別為174.00、99.85 μg/m3,說(shuō)明模式模擬結(jié)果誤差及偏離程度較大.ρ(O3)整體模擬效果較好,其MB值為-3.99 μg/m3,說(shuō)明模式值對(duì)ρ(O3)觀測(cè)值整體略微低估;NMB值為-8.02%,表明模式值低估現(xiàn)象不明顯,模式值與觀測(cè)值較為接近;MFB、MFE值分別為-19.12%、52.86%,說(shuō)明模擬結(jié)果可靠;RMSE、MAE值分別為37.11、26.81 μg/m3,表明模擬結(jié)果誤差較小,模擬結(jié)果精度較高;R值為0.78,說(shuō)明模擬值與觀測(cè)值之間相關(guān)性較好. 總體來(lái)看,CAMx模式模擬結(jié)果能夠較好地反映西安市ρ(O3)狀況及變化趨勢(shì).
2.2.1ρ(PM2.5)優(yōu)化效果檢驗(yàn)
該研究采用機(jī)器學(xué)習(xí)模型對(duì)PM2.5小時(shí)模擬結(jié)果進(jìn)行優(yōu)化,結(jié)果如圖3所示. 由圖3可見,對(duì)比ρ(PM2.5)觀測(cè)值及相對(duì)應(yīng)時(shí)間的CAMx模擬值、CAMx模型優(yōu)化值發(fā)現(xiàn),6種機(jī)器學(xué)習(xí)模型對(duì)CAMx的ρ(PM2.5)修正效果明顯,相關(guān)性系數(shù)可提至0.70~0.78,散點(diǎn)由分散分布變?yōu)榫€性集中分布,其中,多元線性回歸、嶺回歸及l(fā)asso回歸優(yōu)化后相關(guān)性系數(shù)提至0.70,決策樹及支持向量機(jī)優(yōu)化后R值分別提至0.72、0.74,隨機(jī)森林優(yōu)化后R值提至0.78.
圖2 ρ(PM2.5)、ρ(O3)模擬值與觀測(cè)值的時(shí)間序列分布Fig.2 Time series distribution of simulated and observed values of ρ(PM2.5) and ρ(O3)
表1 ρ(PM2.5)、ρ(O3)模式值檢驗(yàn)評(píng)估參數(shù)統(tǒng)計(jì)
圖3 ρ(PM2.5)優(yōu)化結(jié)果散點(diǎn)分布Fig.3 Scatter distribution of ρ(PM2.5) optimization results
由表2可見,經(jīng)機(jī)器學(xué)習(xí)模型優(yōu)化后,各統(tǒng)計(jì)參數(shù)明顯降低,ρ(PM2.5)訂正結(jié)果顯著. 多元線性回歸優(yōu)化后,MB、NMB、NME值分別從74.07 μg/m3、132.6%、178.75%降至1.37 μg/m3、2.5%、43.94%,模式值高估的現(xiàn)象得到明顯改善,RMSE、MAE分別下降了137.12、75.31 μg/m3,離散程度大大降低;嶺回歸、lasso回歸與多元線性回歸的優(yōu)化結(jié)果差別較小,模式優(yōu)化結(jié)果達(dá)理想水平. 經(jīng)決策樹優(yōu)化后,MAE、MFB、MFE值分別降至20.91、5.54、26.21 μg/m3,優(yōu)化結(jié)果合理性提高;但RMSE為39.37 μg/m3,在6種模型中最大,說(shuō)明優(yōu)化值與觀測(cè)值之間的偏差較大. 隨機(jī)森林優(yōu)化后MB、NMB值分別為-5.70 μg/m3、-10.21%,支持向量機(jī)的優(yōu)化后MB、NMB值分別為-7.87 μg/m3、-14.09%,表明隨機(jī)森林與支持向量機(jī)的優(yōu)化結(jié)果均出現(xiàn)低估現(xiàn)象,其中支持向量機(jī)低估現(xiàn)象較為明顯. 隨機(jī)森林優(yōu)化后RMSE、MAE值分別降至34.36、16.24 μg/m3,優(yōu)化結(jié)果誤差最小,檢驗(yàn)指標(biāo)達(dá)到要求標(biāo)準(zhǔn),且該模型得到優(yōu)化結(jié)果的相關(guān)性系數(shù)為0.78,R值在6個(gè)模型中最大. 綜上,各優(yōu)化模型有不同優(yōu)勢(shì),綜合分析可得,隨機(jī)森林對(duì)ρ(PM2.5)的優(yōu)化結(jié)果最優(yōu).
表2 ρ(PM2.5)優(yōu)化模型評(píng)估參數(shù)統(tǒng)計(jì)Table 2 Evaluation parameters of ρ(PM2.5) optimization results
圖4 ρ(O3)優(yōu)化結(jié)果散點(diǎn)分布Fig.4 Scatter distribution of ρ(O3) optimization results
2.2.2ρ(O3)優(yōu)化效果檢驗(yàn)
由圖4可見,6種機(jī)器學(xué)習(xí)模型對(duì)ρ(O3)優(yōu)化效果表現(xiàn)優(yōu)秀,相關(guān)性系數(shù)提高了6.4%~12.8%,優(yōu)化結(jié)果分布更為合理,擬合度較高,其中,決策樹、隨機(jī)森林優(yōu)化后R值分別提至0.83、0.85,多元線性回歸、嶺回歸及l(fā)asso回歸優(yōu)化后R值提至0.86,支持向量機(jī)R值提至0.88.
結(jié)合表3的ρ(O3)優(yōu)化結(jié)果發(fā)現(xiàn):6種機(jī)器學(xué)習(xí)模型對(duì)ρ(O3)的優(yōu)化效果理想,ρ(O3)模擬結(jié)果誤差減小. 多元線性回歸及嶺回歸對(duì)ρ(O3)優(yōu)化效果一致,NB、NMB值均較小而NME值均較大;同時(shí),MFB、MFE值分別為-17.27%、68.25%,對(duì)ρ(O3)部分?jǐn)?shù)據(jù)有低估現(xiàn)象. Lasso回歸MFE值降至47.54%,優(yōu)化結(jié)果合理性提高. 隨機(jī)森林的MB及NMB值均最大,低估現(xiàn)象較明顯. 決策樹RMSE值為28.82 μg/m3,誤差最大,R值為0.83,小于其他5種優(yōu)化模型,優(yōu)化性能相對(duì)較差. 與其他5種機(jī)器學(xué)習(xí)模型相比,支持向量機(jī)優(yōu)化后的RMSE、MAE值分別為23.76、17.40 μg/m3,預(yù)測(cè)值與觀測(cè)值之間偏離程度低、誤差小,MB、NMB、NME值較為合理,MFB、MFE值差異小,且擬合程度最好. 綜上,支持向量機(jī)對(duì)ρ(O3)優(yōu)化結(jié)果更為合理.
表3 ρ(O3)優(yōu)化模型評(píng)估參數(shù)統(tǒng)計(jì)Table 3 Evaluation parameters of ρ(O3) optimization results
2.3.1優(yōu)化原理分析
CAMx模型的計(jì)算過程實(shí)質(zhì)上是求解每個(gè)網(wǎng)格中每種污染物的物理化學(xué)變化連續(xù)方程,連續(xù)方程通過分子分裂法積分,進(jìn)而計(jì)算每個(gè)主要過程(包括排放、平流、輸送、擴(kuò)散、去除和化學(xué)反應(yīng))對(duì)每個(gè)網(wǎng)格單元格內(nèi)污染物濃度改變的獨(dú)立貢獻(xiàn),模型核心表達(dá)式[40]:
(11)
2.3.2優(yōu)化效果評(píng)估
圖5為ρ(PM2.5)及ρ(O3)觀測(cè)值、CAMx模擬值及優(yōu)化模型優(yōu)化結(jié)果分布對(duì)比. 由圖5(a)可見:ρ(PM2.5)的CAMx模擬數(shù)據(jù)分布離散,與觀測(cè)值差異較大,經(jīng)機(jī)器學(xué)習(xí)模型優(yōu)化后,CAMx模擬數(shù)據(jù)高估現(xiàn)象明顯改善,數(shù)據(jù)分布形態(tài)與觀測(cè)值更為接近. 對(duì)比ρ(PM2.5)觀測(cè)值,多元線性回歸、嶺回歸、lasso回歸及支持向量機(jī)的優(yōu)化結(jié)果對(duì)高濃度觀測(cè)值出現(xiàn)低估現(xiàn)象,決策樹優(yōu)化后對(duì)高濃度觀測(cè)值略有高估,而隨機(jī)森林優(yōu)化結(jié)果與觀測(cè)值形態(tài)分布最為接近. 由圖5(b)可見:與ρ(O3)觀測(cè)值相比,CAMx模擬值出現(xiàn)峰值高估、整體低估現(xiàn)象,經(jīng)機(jī)器學(xué)習(xí)模型優(yōu)化后CAMx模擬數(shù)據(jù)整體更加符合觀測(cè)值分布. 多元線性回歸、嶺回歸、lasso回歸優(yōu)化后,ρ(O3)觀測(cè)峰值被低估、ρ(O3)平均值提高,與觀測(cè)值數(shù)據(jù)分布存有差異;隨機(jī)森林優(yōu)化后改善了觀測(cè)峰值濃度被高估或低估現(xiàn)象,但整體ρ(O3)值偏低;決策樹優(yōu)化結(jié)果與ρ(O3)觀測(cè)值整體較為接近,但其誤差較大;支持向量機(jī)對(duì)ρ(O3)峰值略有低估,但優(yōu)化結(jié)果與觀測(cè)值最為接近.
圖5 ρ(PM2.5)、ρ(O3)模擬值與優(yōu)化值統(tǒng)計(jì)分布對(duì)比Fig.5 Statistical distribution comparison of simulated and optimized values of ρ(PM2.5) and ρ(O3)
各優(yōu)化模型對(duì)ρ(PM2.5)、ρ(O3)優(yōu)化結(jié)果精確度提高率如表4所示. 優(yōu)化前,ρ(PM2.5)的CAMx模擬值與觀測(cè)值之間的RMSE為174.00 μg/m3(見表1),CAMx模擬結(jié)果優(yōu)化后,RMSE大幅降低,預(yù)報(bào)精度整體提高了77%~80%,其中經(jīng)隨機(jī)森林優(yōu)化后的ρ(PM2.5)精度提高了80%,對(duì)ρ(PM2.5)的CAMx模擬值優(yōu)化效果最好. 優(yōu)化前,ρ(O3)的CAMx模擬值與觀測(cè)值之間的RMSE為37.11 μg/m3(見表1),CAMx模擬效果較ρ(PM2.5)模擬效果要好,機(jī)器學(xué)習(xí)模型優(yōu)化后的預(yù)報(bào)精度提高了22%~36%,其中支持向量機(jī)優(yōu)化效果最好. 對(duì)比各機(jī)器學(xué)習(xí)模型對(duì)ρ(PM2.5)與ρ(O3)的優(yōu)化結(jié)果發(fā)現(xiàn),決策樹對(duì)ρ(PM2.5)和ρ(O3)的優(yōu)化效果均較差;隨機(jī)森林對(duì)ρ(PM2.5)的優(yōu)化效果最好,但對(duì)ρ(O3)優(yōu)化效果較差;多元線性回歸、嶺回歸及l(fā)asso回歸對(duì)ρ(PM2.5)的優(yōu)化效果較差,但對(duì)ρ(O3)的優(yōu)化效果較好.
表4 ρ(PM2.5)、ρ(O3)優(yōu)化模型結(jié)果精度提高率Table 4 The accuracy improvement rate of ρ(PM2.5) and ρ(O3) optimization results
a) 2019年西安市污染物模擬濃度評(píng)估結(jié)果表明,CAMx模式在一定程度上能夠反映ρ(PM2.5)、ρ(O3)的變化趨勢(shì),由于排放源滯后、模式分辨率較低等原因,使預(yù)報(bào)結(jié)果存在系統(tǒng)性偏差,ρ(PM2.5)、ρ(O3)模擬均方根誤差分別為174.00、37.11 μg/m3;其中ρ(PM2.5)的CAMx模擬值對(duì)觀測(cè)值出現(xiàn)高估現(xiàn)象,高估現(xiàn)象主要出現(xiàn)在ρ(PM2.5)峰值階段,ρ(O3)的CAMx模擬值對(duì)觀測(cè)值則略有低估.
b) 利用機(jī)器學(xué)習(xí)模型對(duì)CAMx模擬結(jié)果進(jìn)行優(yōu)化后,ρ(PM2.5)模擬值與觀測(cè)值的相關(guān)性系數(shù)提至0.70~0.78,ρ(O3)模擬值與觀測(cè)值的相關(guān)性系數(shù)提至0.83~0.88;不同優(yōu)化模型修正程度不同,其中隨機(jī)森林對(duì)ρ(PM2.5)優(yōu)化后,其結(jié)果的穩(wěn)定性和修正趨勢(shì)整體優(yōu)于其他方法,優(yōu)化后精度提了80%,但對(duì)ρ(O3)模擬值優(yōu)化效果相對(duì)較差;而支持向量機(jī)對(duì)ρ(O3)模擬值優(yōu)化結(jié)果最接近觀測(cè)值,優(yōu)化后精度提高了36%.