国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于機(jī)器學(xué)習(xí)的長(zhǎng)沙市空氣污染物濃度預(yù)報(bào)研究

2022-09-02 09:20陳金車迪里努爾牙生王田宇王金艷孫彩霞謝祥珊
環(huán)境保護(hù)科學(xué) 2022年4期
關(guān)鍵詞:向量空氣質(zhì)量污染物

陳金車,迪里努爾·牙生,王田宇,王金艷,孫彩霞,謝祥珊,馮 薇

(1. 蘭州市氣象局,甘肅 蘭州 730101;2. 蘭州大學(xué)大氣科學(xué)學(xué)院,甘肅 蘭州 730000)

近年來(lái),隨著科技的不斷進(jìn)步和經(jīng)濟(jì)的快速發(fā)展,居民的生活水平越來(lái)越高,城市人口也在不斷擴(kuò)增,環(huán)境污染問題已經(jīng)成為人們所關(guān)注的一個(gè)焦點(diǎn)。嚴(yán)重的大氣污染不僅會(huì)對(duì)氣候、植物和生態(tài)系統(tǒng)產(chǎn)生影響,還會(huì)對(duì)人們的日常出行和身體健康帶來(lái)威脅[1?4]。細(xì)顆粒物是加重霧霾天氣的罪魁禍?zhǔn)?,其與霧氣結(jié)合到一起使得大氣能見度降低,交通事故發(fā)生的頻次也隨之增加[5];高濃度的大氣污染物也會(huì)通過呼吸作用進(jìn)入人體組織,從而引發(fā)一系列的呼吸系統(tǒng)疾病和心腦血管疾病[6?9]。因此,準(zhǔn)確預(yù)測(cè)空氣污染物濃度就顯得十分重要,不僅有助于提高人們的生活質(zhì)量并降低損失,還可以為政府部門制定相關(guān)對(duì)策提供理論依據(jù)。

目前,國(guó)內(nèi)外對(duì)于空氣污染的預(yù)報(bào)方法主要分為2 種:數(shù)值預(yù)報(bào)和統(tǒng)計(jì)預(yù)報(bào)。數(shù)值預(yù)報(bào)模式往往要考慮污染物在大氣中所經(jīng)歷的復(fù)雜的化學(xué)與物理過程,需要建立相對(duì)完備的氣象以及排放源等相關(guān)模型,運(yùn)算也比較復(fù)雜;統(tǒng)計(jì)預(yù)報(bào)是通過已經(jīng)發(fā)生的大量歷史數(shù)據(jù)進(jìn)行歸納分析,尋找歷史數(shù)據(jù)的特征并總結(jié)規(guī)律,從而預(yù)報(bào)出未來(lái)的大氣污染物濃度,模型的構(gòu)建比較簡(jiǎn)單。長(zhǎng)沙市作為湖南省內(nèi)唯一一個(gè)新一線城市 ,是湖南省經(jīng)濟(jì)發(fā)展的主心骨,長(zhǎng)沙市的空氣污染帶來(lái)的經(jīng)濟(jì)損失,對(duì)整個(gè)湖南省的經(jīng)濟(jì)發(fā)展都會(huì)造成極大影響。因此,長(zhǎng)沙市大氣污染的預(yù)報(bào)與防治更是重中之重。

隨著機(jī)器學(xué)習(xí)算法走進(jìn)大氣科學(xué)領(lǐng)域,統(tǒng)計(jì)預(yù)報(bào)方法更是被推上了一個(gè)新高度,最具代表性的機(jī)器學(xué)習(xí)算法包括神經(jīng)網(wǎng)絡(luò)算法、隨機(jī)森林算法和支持向量機(jī)算法等。作為一個(gè)新興領(lǐng)域,近些年機(jī)器學(xué)習(xí)在氣象與環(huán)境污染預(yù)測(cè)等方面被廣泛應(yīng)用[10?12]。謝申汝等[13]通過建立支持向量機(jī)模型對(duì)大氣細(xì)顆粒物進(jìn)行了預(yù)測(cè),發(fā)現(xiàn)輸入?yún)?shù)的不同會(huì)對(duì)預(yù)測(cè)結(jié)果會(huì)產(chǎn)生較大影響;單大可[14]研究發(fā)現(xiàn)長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)憑借其對(duì)時(shí)序數(shù)據(jù)較強(qiáng)的處理能力,可以應(yīng)用于溫度的精細(xì)化預(yù)報(bào);李萍等[15]通過建立基于高斯核的支持向量機(jī)模型對(duì)北京、上海和廣州3 個(gè)一線城市的空氣污染指數(shù)(AQI)進(jìn)行了預(yù)測(cè),結(jié)果發(fā)現(xiàn)比傳統(tǒng)預(yù)測(cè)模型的預(yù)測(cè)效果更好;陶曄[16]使用隨機(jī)森林與長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)相結(jié)合的方法對(duì)氣溫和降水進(jìn)行了預(yù)測(cè),得到了比其他方法誤差更小的預(yù)測(cè)結(jié)果;孫全德等[17]通過建立機(jī)器學(xué)習(xí)模型對(duì)數(shù)值天氣預(yù)報(bào)模式ECMWF 對(duì)華北地區(qū)近地面10 m 風(fēng)速的預(yù)報(bào)結(jié)果進(jìn)行了訂正,結(jié)果發(fā)現(xiàn)機(jī)器學(xué)習(xí)算法在改善局地精準(zhǔn)氣象預(yù)報(bào)方面有著巨大的潛力。

本文利用空氣質(zhì)量監(jiān)測(cè)數(shù)據(jù)和氣象數(shù)據(jù),基于支持向量機(jī)算法和隨機(jī)森林算法建立SO2、NO2、O3、CO、PM10和PM2.5這6 種污染物日均濃度的預(yù)報(bào)模型,尋找出最適合于長(zhǎng)沙地區(qū)的空氣質(zhì)量預(yù)報(bào)模型。

1 資料與方法

1.1 數(shù)據(jù)來(lái)源

大氣污染物濃度監(jiān)測(cè)數(shù)據(jù)和氣象數(shù)據(jù)分別來(lái)源于環(huán)境監(jiān)測(cè)站和天氣后報(bào)網(wǎng)站(http://www.tianqihoubao.com/),選取長(zhǎng)沙市的逐日數(shù)據(jù),時(shí)間段 為 北 京 時(shí) 間2014 年1 月1 日 至2019 年12 月31 日,大氣污染物濃度監(jiān)測(cè)數(shù)據(jù)包括的要素為SO2、NO2、O3、CO、PM10和PM2.5這6 種污染物的日均濃度值;氣象數(shù)據(jù)包括的要素為天氣狀況、最高氣溫、最低氣溫、風(fēng)向和風(fēng)速。首先對(duì)環(huán)境監(jiān)測(cè)數(shù)據(jù)和氣象數(shù)據(jù)進(jìn)行質(zhì)量控制,將序列中的亂碼數(shù)據(jù)和缺失數(shù)據(jù)進(jìn)行識(shí)別與剔除,采用相鄰非缺失值線性插值的方法進(jìn)行訂正。

1.2 研究方法

1.2.1 歸一化 由于空氣污染物濃度數(shù)據(jù)以及氣象數(shù)據(jù)的量綱和量綱單位存在差異,這種差異不僅會(huì)影響模型的訓(xùn)練速度,也會(huì)對(duì)最終的分析結(jié)果產(chǎn)生不利影響,因此在建立預(yù)報(bào)模型之前需要對(duì)數(shù)據(jù)進(jìn)行歸一化處理,使得數(shù)據(jù)被限定在一定的區(qū)間內(nèi),從而消除由奇異樣本數(shù)據(jù)所帶來(lái)的不利影響,提高預(yù)測(cè)精度。本研究使用公式(1)將所選數(shù)據(jù)歸一化到指定區(qū)間(0,1)內(nèi),其中y代表經(jīng)歸一化處理之后的數(shù)據(jù),x代表經(jīng)歸一化處理之前的數(shù)據(jù),Xmax代表樣本數(shù)據(jù)中的最大值,Xmin代表樣本數(shù)據(jù)中的最小值,見式(1):

1.2.2 隨機(jī)森林篩選變量 通常情況下,一個(gè)數(shù)據(jù)集具有數(shù)百甚至數(shù)千種不同的特征, 在構(gòu)建模型時(shí)選擇對(duì)結(jié)果影響最大的屬性以減少特征數(shù)量的方法已成為我們?cè)絹?lái)越關(guān)注的問題。目前在基于機(jī)器學(xué)習(xí)的大氣污染物濃度預(yù)報(bào)研究中,人們常用一些方法對(duì)影響污染物濃度的因素進(jìn)行重要性評(píng)估,挑選出對(duì)污染物濃度影響較大的因素作為預(yù)報(bào)因子,以此來(lái)提高預(yù)報(bào)準(zhǔn)確率[18?23]。隨機(jī)森林算法[24]可以對(duì)特征變量的重要性進(jìn)行度量,尤其對(duì)于非線性問題更加適用,付旭東[25]于2020 年使用該方法對(duì)影響風(fēng)場(chǎng)的預(yù)報(bào)因子進(jìn)行了篩選,有效地提高了風(fēng)場(chǎng)預(yù)報(bào)的準(zhǔn)確率,該方法在污染物濃度的預(yù)測(cè)中使用較少。使用隨機(jī)森林算法篩選出重要屬性的思想是看每個(gè)特征對(duì)隨機(jī)森林中每棵決策樹的貢獻(xiàn)程度,然后取該特征貢獻(xiàn)的平均值,最后依據(jù)貢獻(xiàn)值大小對(duì)每個(gè)特征進(jìn)行排序。通常情況下,這種貢獻(xiàn)大小可以通過基尼系數(shù)(Gini 系數(shù))或者袋外數(shù)據(jù)錯(cuò)誤率(OOB)來(lái)進(jìn)行度量。

1.2.3 隨機(jī)森林回歸 隨機(jī)森林算法是由美國(guó)加州大學(xué)的Leo Breiman 教授于2001 年提出的,單一的決策樹算法在應(yīng)用過程中經(jīng)常會(huì)出現(xiàn)過擬合現(xiàn)象,而隨機(jī)森林算法的提出可以解決此類問題。隨機(jī)森林可以理解為不同的決策樹應(yīng)用隨機(jī)處理方法所建立的算法,對(duì)于森林中的各棵決策樹而言,它們彼此之間互不相關(guān),是相互獨(dú)立的個(gè)體。對(duì)于回歸問題,它采用的是最小方均差原則。對(duì)于任意劃分特征A 的任意劃分點(diǎn)S,將數(shù)據(jù)集劃分為S1和S2,要計(jì)算出使得S1和S2各自的均方差最小并且兩者均方差和最小的特征和特征值劃分點(diǎn),其中,c1和c2分別為S1和S2的樣本輸出均值,yi為輸入樣本,見式(2):

1.2.4 支持向量機(jī)回歸 LIBSVM 是由臺(tái)灣大學(xué)的中國(guó)學(xué)者林智仁設(shè)計(jì)發(fā)明的,并被廣泛應(yīng)用于分類問題和回歸預(yù)測(cè)問題。傳統(tǒng)支持向量機(jī)回歸預(yù)測(cè)模型的缺陷就是只能依據(jù)經(jīng)驗(yàn)以及對(duì)比試驗(yàn)來(lái)進(jìn)行選取核函數(shù)與其他參數(shù),而LIBSVM 的出現(xiàn)則克服了這一缺陷。與SVM 相比,LIBSVM 涉及到的參數(shù)調(diào)節(jié)更少,很多參數(shù)都是默認(rèn)的,合理利用這些設(shè)置好的默認(rèn)參數(shù)可用來(lái)解決許多問題,LIBSVM 還在SVM 的基礎(chǔ)上提供了一種用于交互檢驗(yàn)的新功能。

2 因子庫(kù)的建立

2.1 基于隨機(jī)森林的24 h 預(yù)報(bào)因子篩選

本文在構(gòu)建污染物濃度的預(yù)報(bào)模型時(shí),除了考慮過去5 d 的6 種污染物濃度值對(duì)次日待預(yù)測(cè)污染物濃度的影響外,還將星期效應(yīng)、預(yù)測(cè)日的最高與最低氣溫、天氣狀況、風(fēng)向和風(fēng)速一并納入因子庫(kù)。為了降低濃度的突然波動(dòng)對(duì)預(yù)測(cè)結(jié)果的影響,使得網(wǎng)絡(luò)模型在測(cè)試數(shù)據(jù)上更加穩(wěn)定,這里采用滑動(dòng)平均法對(duì)污染物濃度進(jìn)行3 d 滑動(dòng)平均處理。在考慮星期效應(yīng)時(shí),將星期一至星期日分別用數(shù)字1~7 表示。將預(yù)測(cè)日的天氣狀況進(jìn)行分類,分別為晴天、陰天、多云天、霧天、雨天、雪天和雨夾雪天氣7 種天氣類型,為了避免與星期效應(yīng)產(chǎn)生重復(fù)對(duì)預(yù)測(cè)結(jié)果帶來(lái)干擾,這里將以上天氣狀況分別用數(shù)字11~17 表示。將風(fēng)向轉(zhuǎn)化為角度值,東北風(fēng)、東風(fēng)、東南風(fēng)、南風(fēng)、西南風(fēng)、西風(fēng)、西北風(fēng)和北風(fēng)分別 用 數(shù) 字45、90、135、180、225、270、315 和360 表示,無(wú)持續(xù)風(fēng)向的情況則用數(shù)字0 表示。各空氣污染物濃度24 h 預(yù)報(bào)中預(yù)報(bào)因子的變量序號(hào)及其物理意義見表1。其中,X為輸入變量,Y為輸出變量,X1~X30 為大氣污染因子,X31 為星期效應(yīng),X32~X36 為氣象因子,Y1~Y6 為預(yù)測(cè)日6 種污染物的濃度值,見表1。

表1 大氣污染物濃度24 h 預(yù)報(bào)中預(yù)報(bào)因子的變量序號(hào)及其物理意義

計(jì)算出長(zhǎng)沙市24 h 預(yù)報(bào)中影響SO2、NO2、O3、CO、PM10和PM2.5濃度的因子重要性系數(shù),以SO2和NO2為例,見圖1。

圖1 長(zhǎng)沙市24 h 預(yù)報(bào)中影響SO2、NO2 濃度的因子重要性系數(shù)

用隨機(jī)森林重要性評(píng)估的方法挑選出對(duì)SO2質(zhì)量濃度影響較大的因子共計(jì)23 個(gè)(相對(duì)重要性系數(shù)累計(jì)值≥80%),排名在前3 位的預(yù)報(bào)因子依次為前1 d 的SO2濃度、預(yù)測(cè)日的天氣狀況和前2 d的SO2濃度;挑選出對(duì)NO2質(zhì)量濃度影響較大的因子共計(jì)23 個(gè),排名在前3 位的預(yù)報(bào)因子依次為前1 d 的NO2濃度、預(yù)測(cè)日的天氣狀況和預(yù)測(cè)日的最低氣溫。同理,可以挑選出對(duì)O3質(zhì)量濃度影響較大的因子共計(jì)24 個(gè),排名在前3 位的預(yù)報(bào)因子依次為前1 d的O3濃度、預(yù)測(cè)日的天氣狀況和前2 d的O3濃度;挑選出對(duì)CO 質(zhì)量濃度影響較大的因子共計(jì)24 個(gè),排名在前3 位的預(yù)報(bào)因子依次為前1 d的CO 濃度、前1 d 的PM2.5濃度和前2 d 的CO 濃度;挑選出對(duì)PM10質(zhì)量濃度影響較大的因子共計(jì)22 個(gè),排名在前3 位的預(yù)報(bào)因子依次為前1 d 的PM10濃度、預(yù)測(cè)日的天氣狀況和前1 d的PM2.5濃度;挑選出對(duì)PM2.5質(zhì)量濃度影響較大的因子共計(jì)20 個(gè),排名在前3 位的預(yù)報(bào)因子為前1 d 的PM2.5濃度、前1 d 的PM10濃度和前1 d 的NO2濃度。

2.2 基于隨機(jī)森林的48 h 預(yù)報(bào)因子篩選

與24 h 預(yù)報(bào)類似,將預(yù)報(bào)日向后推遲1 d,48 h預(yù)報(bào)中預(yù)報(bào)因子的變量序號(hào)保持不變,輸入變量中大氣污染因子(X1~X30)的物理意義由原來(lái)的前1~5 d 各污染物濃度值變?yōu)榍?~6 d 各污染物濃度值,X31~X36 的物理意義不變,仍代表星期效應(yīng)、預(yù)測(cè)日的最高與最低氣溫、天氣狀況、風(fēng)向以及風(fēng)速。預(yù)報(bào)因子的篩選過程同2.1 節(jié),利用隨機(jī)森林重要性評(píng)估的方法挑選出對(duì)SO2質(zhì)量濃度影響較大的因子共計(jì)23 個(gè)(相對(duì)重要性系數(shù)累計(jì)值≥80%),排名在前3 位的預(yù)報(bào)因子依次為前2 d 的SO2濃度、預(yù)測(cè)日的天氣狀況和預(yù)測(cè)日的風(fēng)速;挑選出對(duì)NO2質(zhì)量濃度影響較大的因子共計(jì)21個(gè),排名在前3 位的預(yù)報(bào)因子依次為前2 日的NO2濃度、預(yù)測(cè)日的天氣狀況和預(yù)測(cè)日的最低氣溫;挑選出對(duì)O3質(zhì)量濃度影響較大的因子共計(jì)23 個(gè),排名在前3 位的預(yù)報(bào)因子依次為前2 d 的O3濃度、預(yù)測(cè)日的天氣狀況和預(yù)測(cè)日的最高氣溫;挑選出對(duì)CO 質(zhì)量濃度影響較大的因子共計(jì)25 個(gè),排名在前3 位的預(yù)報(bào)因子依次為前2 d 的CO 濃度、前2 d的PM2.5濃度和前2 d 的NO2濃度;挑選出對(duì)PM10質(zhì)量濃度影響較大的因子共計(jì)24 個(gè),排名在前3 位的預(yù)報(bào)因子依次為預(yù)測(cè)日的天氣狀況、前2 d的PM10濃度和前2 d 的SO2濃度;挑選出對(duì)PM2.5質(zhì)量濃度影響較大的因子共計(jì)24 個(gè),排名在前3 位的預(yù)報(bào)因子依次為前2 d 的PM2.5濃度、前2 d的NO2濃度和預(yù)測(cè)日的天氣狀況。

總的來(lái)說(shuō),當(dāng)以某種污染物濃度作為輸出變量時(shí),前1 d 的該污染物濃度(24 h 預(yù)報(bào))和前2 d 的該污染物濃度(48 h 預(yù)報(bào))對(duì)預(yù)報(bào)結(jié)果的貢獻(xiàn)最大;不論是24 h 還是48 h 預(yù)報(bào),預(yù)測(cè)日的天氣狀況都是一個(gè)不容忽視的預(yù)報(bào)因子,其重要程度在大部分預(yù)報(bào)模型中排名第2,但其對(duì)CO 預(yù)報(bào)的貢獻(xiàn)較小,這可能與諸多的人為排放源有關(guān);星期效應(yīng)在長(zhǎng)沙市空氣污染預(yù)報(bào)中的重要程度較低,因此在選取預(yù)報(bào)因子時(shí)可不予考慮。

3 結(jié)果與分析

利用隨機(jī)森林算法和支持向量機(jī)算法的回歸原理建立空氣污染物濃度預(yù)報(bào)模型。將數(shù)據(jù)集劃分為2 個(gè)部分:訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù),其中訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)又各自包含輸入數(shù)據(jù)和輸出數(shù)據(jù)。選取2014 年1 月1 日至2018 年12 月31 日合適時(shí)間段的數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),2019 年1 月1 日至2019 年12 月31 日的數(shù)據(jù)作為測(cè)試數(shù)據(jù),以此來(lái)構(gòu)建基于機(jī)器學(xué)習(xí)的空氣污染物濃度預(yù)報(bào)模型。

(1)調(diào)入數(shù)據(jù),對(duì)數(shù)據(jù)進(jìn)行歸一化處理。

(2)從訓(xùn)練數(shù)據(jù)中選取合適時(shí)間段的特征變量采用隨機(jī)森林算法和支持向量機(jī)算法分別訓(xùn)練模型,形成不同預(yù)報(bào)時(shí)效空氣污染物濃度預(yù)報(bào)模型。

(3)將測(cè)試數(shù)據(jù)中的輸入數(shù)據(jù)輸入到已經(jīng)訓(xùn)練好的預(yù)報(bào)模型中,輸出經(jīng)模型預(yù)報(bào)的空氣污染物濃度數(shù)據(jù)。

(4)反歸一化,得到空氣污染物濃度預(yù)報(bào)值的最終結(jié)果。

(5)對(duì)模型輸出的空氣污染物濃度預(yù)報(bào)結(jié)果進(jìn)行誤差檢驗(yàn),評(píng)價(jià)不同污染過程、不同模型和不同方案下的預(yù)報(bào)效果。

3.1 典型個(gè)例分析

根據(jù)污染類型的不同,可將2019 年24 h 預(yù)報(bào)中的測(cè)試數(shù)據(jù)劃分為優(yōu)、良、輕度污染、中度及以上污染4 個(gè)部分進(jìn)行討論,研究在不同的污染類型下基于2 種機(jī)器學(xué)習(xí)算法的回歸模型對(duì)各種污染物濃度的預(yù)報(bào)效果。

3.1.1 空氣質(zhì)量為優(yōu) 2019 年長(zhǎng)沙市空氣質(zhì)量為優(yōu)的天數(shù)為117 d,當(dāng)空氣質(zhì)量為優(yōu)時(shí),各污染物濃度真實(shí)值與預(yù)報(bào)值隨時(shí)間的變化,見圖2。

圖2 空氣質(zhì)量為優(yōu)時(shí)真實(shí)值與預(yù)報(bào)值的對(duì)比

SVM 表示經(jīng)支持向量機(jī)輸出的預(yù)報(bào)值;SVM+S 表示篩選變量?jī)?yōu)化之后經(jīng)支持向量機(jī)輸出的預(yù)報(bào)值;RF 表示經(jīng)隨機(jī)森林輸出的預(yù)報(bào)值;RF+S 表示篩選變量?jī)?yōu)化之后經(jīng)隨機(jī)森林輸出的預(yù)報(bào)值。圖2可知,對(duì)于SO2和PM10而言,支持向量機(jī)模型的預(yù)報(bào)值偏低,隨機(jī)森林模型的預(yù)報(bào)值偏高,而CO 則恰恰相反;對(duì)于NO2而言,優(yōu)化后支持向量機(jī)模型的預(yù)報(bào)值偏低,隨機(jī)森林模型和優(yōu)化前支持向量機(jī)模型的預(yù)報(bào)值偏高;對(duì)于O3和PM2.5而言,支持向量機(jī)模型和隨機(jī)森林模型的預(yù)報(bào)值都偏高。

空氣質(zhì)量為優(yōu)時(shí)各預(yù)報(bào)模型的均方根誤差分布,見表2。

表2 空氣質(zhì)量為優(yōu)時(shí)各預(yù)報(bào)模型的均方根誤差分布

表2 可知,變量篩選優(yōu)化之后的支持向量機(jī)模型對(duì)SO2、NO2、O3、PM10和PM2.5濃度預(yù)報(bào)效果最好,預(yù)報(bào)結(jié)果的均方根誤差最小;變量篩選優(yōu)化之后的隨機(jī)森林模型對(duì)CO 濃度預(yù)報(bào)效果最好,預(yù)報(bào)結(jié)果的均方根誤差僅為0.063 mg/m3,變量篩選優(yōu)化之后的支持向量機(jī)模型對(duì)CO 濃度預(yù)報(bào)效果次之,預(yù)報(bào)結(jié)果的均方根誤差為0.065 mg/m3。

3.1.2 空氣質(zhì)量為良 2019 年長(zhǎng)沙市空氣質(zhì)量為良的天數(shù)為200 d,當(dāng)空氣質(zhì)量為良時(shí),各污染物濃度真實(shí)值與預(yù)報(bào)值隨時(shí)間的變化,見圖3。

圖3 可知,對(duì)于SO2而言,支持向量機(jī)模型的預(yù)報(bào)值偏低,隨機(jī)森林模型的預(yù)報(bào)值偏高,而CO則恰恰相反;對(duì)于NO2而言,優(yōu)化后支持向量機(jī)和優(yōu)化前隨機(jī)森林模型的預(yù)報(bào)值偏低,優(yōu)化前支持向量機(jī)和優(yōu)化后隨機(jī)森林模型的預(yù)報(bào)值偏高;對(duì)于O3和PM10而言,支持向量機(jī)和隨機(jī)森林模型的預(yù)報(bào)值都偏低;對(duì)于PM2.5而言,優(yōu)化前的預(yù)報(bào)值都偏高,而優(yōu)化后的預(yù)報(bào)值都偏低。

空氣質(zhì)量為良時(shí)各預(yù)報(bào)模型的均方根誤差分布,見表3。

表3 空氣質(zhì)量為良時(shí)各預(yù)報(bào)模型的均方根誤差分布

表3 可知,變量篩選優(yōu)化之后的支持向量機(jī)模型對(duì)SO2、NO2、O3、PM10和PM2.5濃度預(yù)報(bào)結(jié)果的均方根誤差最小;變量篩選優(yōu)化之后的隨機(jī)森林模型對(duì)CO 濃度預(yù)報(bào)結(jié)果的均方根誤差最小,其次為變量篩選優(yōu)化之后的支持向量機(jī)模型。

3.1.3 空氣質(zhì)量為輕度污染 2019 年長(zhǎng)沙市空氣質(zhì)量為輕度污染的天數(shù)為29 d,當(dāng)空氣質(zhì)量為輕度污染時(shí),各污染物濃度真實(shí)值與預(yù)報(bào)值隨時(shí)間的變化,見圖4。對(duì)于SO2和而言,支持向量機(jī)模型的預(yù)報(bào)值偏低,隨機(jī)森林模型的預(yù)報(bào)值偏高,而CO 和PM2.5則恰恰相反;對(duì)于NO2而言,優(yōu)化后支持向量機(jī)模型和優(yōu)化前隨機(jī)森林模型的預(yù)報(bào)值偏低,優(yōu)化前支持向量機(jī)模型和優(yōu)化后隨機(jī)森林模型的預(yù)報(bào)值偏高;對(duì)于O3而言,優(yōu)化前的預(yù)報(bào)值都偏低,而優(yōu)化后的預(yù)報(bào)值都偏高;對(duì)于PM10而言,除優(yōu)化前隨機(jī)森林模型的預(yù)報(bào)值偏高外,其余模型的預(yù)報(bào)值都偏低??諝赓|(zhì)量為輕度污染時(shí)各預(yù)報(bào)模型的均方根誤差分布,見表4。

表4 空氣質(zhì)量為輕度污染時(shí)各預(yù)報(bào)模型的均方根誤差分布

圖4 空氣質(zhì)量為輕度污染時(shí)真實(shí)值與預(yù)報(bào)值的對(duì)比

表4 可知,變量篩選優(yōu)化之后的支持向量機(jī)模型對(duì)NO2、O3、PM10和PM2.5濃度的預(yù)報(bào)效果最好;變量篩選優(yōu)化之后的隨機(jī)森林模型對(duì)CO 濃度的預(yù)報(bào)效果最好;變量篩選優(yōu)化之前的支持向量機(jī)模型對(duì)SO2濃度的預(yù)報(bào)效果最好。

3.1.4 空氣質(zhì)量為中度及以上污染 2019 年長(zhǎng)沙市空氣質(zhì)量為中度及以上污染的天數(shù)為19 d,當(dāng)空氣質(zhì)量為中度及以上污染時(shí),各污染物濃度真實(shí)值與預(yù)報(bào)值隨時(shí)間的變化,見圖5。對(duì)于SO2和PM10而言,支持向量機(jī)模型的預(yù)報(bào)值偏低,隨機(jī)森林模型的預(yù)報(bào)值偏高,CO 反之;對(duì)于NO2而言,各模型的預(yù)報(bào)值都偏高;對(duì)于O3而言,除了優(yōu)化前支持向量機(jī)模型的預(yù)報(bào)值偏高外,其余模型的預(yù)報(bào)值都偏低;對(duì)于PM2.5而言,各模型的預(yù)報(bào)值都偏低??諝赓|(zhì)量為中度及以上污染時(shí)各預(yù)報(bào)模型的均方根誤差分布,見表5。

表5 空氣質(zhì)量為中度污染及以上時(shí)各預(yù)報(bào)模型的均方根誤差分布

圖5 空氣質(zhì)量為中度污染及以上時(shí)真實(shí)值與預(yù)報(bào)值的對(duì)比

變量篩選優(yōu)化之后的支持向量機(jī)模型對(duì)SO2、NO2、PM10和PM2.5濃度的預(yù)報(bào)效果最好;變量篩選優(yōu)化之后的隨機(jī)森林模型對(duì)O3和CO 濃度的預(yù)報(bào)效果最好。

不同污染等級(jí)下4 種方法預(yù)報(bào)結(jié)果均方根誤差的均值分布,見表6。

表6 不同污染等級(jí)下4 種方法預(yù)報(bào)結(jié)果均方根誤差的均值分布

空氣質(zhì)量在優(yōu)、良、輕度污染時(shí),SO2、NO2、CO、PM10和PM2.5濃度預(yù)報(bào)結(jié)果的均方根誤差隨著AQI 指數(shù)的增大而增大,然而到了中度污染及以上時(shí),SO2、NO2和PM10濃度預(yù)報(bào)結(jié)果的均方根誤差反而減小,這可能與數(shù)據(jù)樣本量過小有關(guān),由于測(cè)試數(shù)據(jù)中長(zhǎng)沙市空氣質(zhì)量為中度及以上污染的天數(shù)僅僅只有19 d,遠(yuǎn)小于其他污染類型的天數(shù),因此帶來(lái)了偶然性。

3.2 長(zhǎng)時(shí)間預(yù)報(bào)效果檢驗(yàn)

基于隨機(jī)森林和支持向量機(jī)2 種機(jī)器學(xué)習(xí)算法,分別將隨機(jī)森林重要性評(píng)估法挑選出的預(yù)報(bào)因子和未經(jīng)挑選的預(yù)報(bào)因子作為預(yù)報(bào)模型的輸入變量,對(duì)2019 年一整年這6 種空氣污染物的濃度分別進(jìn)行預(yù)報(bào),得到預(yù)報(bào)結(jié)果。2 種方案24 h和48 h 預(yù)報(bào)結(jié)果的誤差評(píng)價(jià)指標(biāo)對(duì)比,見表7 和表8,為了便于敘述,將未經(jīng)預(yù)報(bào)因子篩選的方案定義為方案A,經(jīng)過預(yù)報(bào)因子篩選的方案定義為方案B。

表7 2 種方案24 h 預(yù)報(bào)結(jié)果的評(píng)價(jià)指標(biāo)對(duì)比

表8 2 種方案48h 預(yù)報(bào)結(jié)果的評(píng)價(jià)指標(biāo)對(duì)比

表7 和表8 可知,在24 h 預(yù)報(bào)中,對(duì)于隨機(jī)森林預(yù)報(bào)模型而言,除了PM10預(yù)報(bào)結(jié)果的平均絕對(duì)誤差和均方根誤差方案B 大于方案A,判定系數(shù)和準(zhǔn)確率方案B 小于方案A 以外,其余指標(biāo)的預(yù)報(bào)結(jié)果均表明方案B 優(yōu)于方案A;對(duì)于支持向量機(jī)預(yù)報(bào)模型而言,所有指標(biāo)的預(yù)報(bào)結(jié)果均表明方案B 優(yōu)于方案A。在48 h 預(yù)報(bào)中,對(duì)于隨機(jī)森林預(yù)報(bào)模型而言,除了NO2預(yù)報(bào)結(jié)果的均方根誤差方案B 稍大于方案A,判定系數(shù)方案B 稍小于方案A 以外,其余指標(biāo)的預(yù)報(bào)結(jié)果均表明方案B 優(yōu)于方案A;對(duì)于支持向量機(jī)預(yù)報(bào)模型而言,所有指標(biāo)的預(yù)報(bào)結(jié)果均表明方案B 優(yōu)于方案A,這與24 h 預(yù)報(bào)中所得到的結(jié)論一致。整體而言,經(jīng)隨機(jī)森林篩選變量對(duì)模型進(jìn)行優(yōu)化之后,可有效提高模型的預(yù)報(bào)性能,提高準(zhǔn)確率。

4 結(jié)論

文章基于長(zhǎng)沙市2014~2019 年的空氣污染資料與氣象資料,利用隨機(jī)森林重要性評(píng)估的方法對(duì)預(yù)報(bào)因子進(jìn)行了篩選,結(jié)合支持向量機(jī)回歸模型和隨機(jī)森林回歸模型對(duì)6 種污染物濃度分別進(jìn)行了預(yù)報(bào)。

(1)在諸多預(yù)報(bào)因子中,前日的污染物濃度對(duì)該污染物預(yù)報(bào)的貢獻(xiàn)最大,其次是預(yù)測(cè)日的天氣狀況,長(zhǎng)沙市空氣質(zhì)量預(yù)報(bào)受星期效應(yīng)的影響較小,在建立預(yù)報(bào)因子庫(kù)時(shí)可將其忽略。

(2)AQI 指數(shù)越高,預(yù)報(bào)結(jié)果的均方根誤差越大,且各模型的預(yù)報(bào)準(zhǔn)確率隨著預(yù)報(bào)時(shí)效的增加而減小。

(3)LIBSVM 模型在長(zhǎng)沙市空氣質(zhì)量預(yù)報(bào)中較RF 模型有更強(qiáng)的泛化能力,預(yù)報(bào)結(jié)果的誤差更小,準(zhǔn)確率更高,且經(jīng)隨機(jī)森林篩選變量對(duì)預(yù)報(bào)模型進(jìn)行優(yōu)化可有效提高預(yù)報(bào)準(zhǔn)確率,因此可將隨機(jī)森林篩選預(yù)報(bào)因子的支持向量機(jī)回歸模型推廣至長(zhǎng)沙市空氣質(zhì)量預(yù)報(bào)的業(yè)務(wù)中,可為長(zhǎng)沙市空氣質(zhì)量業(yè)務(wù)化預(yù)報(bào)提供技術(shù)支撐和防控依據(jù)。

猜你喜歡
向量空氣質(zhì)量污染物
烏海市霧對(duì)空氣質(zhì)量的影響
向量的分解
室內(nèi)污染物苯系物危害現(xiàn)狀及防治措施
你能找出污染物嗎?
Task 1
向量垂直在解析幾何中的應(yīng)用
空氣污染物可通過皮膚進(jìn)入人體
向量五種“變身” 玩轉(zhuǎn)圓錐曲線
金湖县| 宁晋县| 洛扎县| 仁怀市| 盈江县| 丰县| 宾川县| 甘南县| 渝北区| 武陟县| 察隅县| 无极县| 扬州市| 广丰县| 宁远县| 加查县| 通州区| 缙云县| 睢宁县| 含山县| 太仓市| 蚌埠市| 宁城县| 新绛县| 马公市| 呼图壁县| 巧家县| 遵义县| 海安县| 阳江市| 综艺| 汝阳县| 涞源县| 大余县| 塔城市| 偏关县| 新干县| 登封市| 衡山县| 嘉祥县| 海南省|