張士杰,竇 燕
(新疆財(cái)經(jīng)大學(xué) 統(tǒng)計(jì)與數(shù)據(jù)科學(xué)學(xué)院,新疆 烏魯木齊 830012)
現(xiàn)今,我國社會(huì)主義經(jīng)濟(jì)經(jīng)歷了飛速的發(fā)展。工業(yè)化和城市化也處于一個(gè)快速發(fā)展的階段,與此同時(shí)能源的消耗也在大幅提升,致使空氣中顆粒物的含量有了明顯的增加,霧霾天氣的出現(xiàn)也變得更加頻繁[1],嚴(yán)重阻礙著城市生態(tài)文明的建設(shè)。2019年《世界空氣質(zhì)量報(bào)告》中提出了空氣污染仍是全球人口面臨的最重要的環(huán)境健康風(fēng)險(xiǎn)之一,而大氣顆粒物作為空氣污染的首要物質(zhì),將直接對(duì)公民的健康和良好的生態(tài)環(huán)境造成巨大的威脅[2,3]。根據(jù)2012年我國生態(tài)環(huán)境部發(fā)布的《環(huán)境空氣質(zhì)量標(biāo)準(zhǔn)》(GB3095-2012),PM2.5可長時(shí)間懸浮于大氣中,且具有吸收和散射可見光的能力,能夠明顯降低大氣可見度[4],致使區(qū)域性霧霾天氣時(shí)常發(fā)生,進(jìn)而影響區(qū)域空氣質(zhì)量甚至造成氣候的變化[5]。PM2.5濃度作為評(píng)價(jià)空氣質(zhì)量的重要指標(biāo),不僅與大氣污染息息相關(guān),還對(duì)人體健康造成了重大危害[6]。因此,進(jìn)一步提升PM2.5濃度的預(yù)測(cè)精度以及預(yù)測(cè)模型的可解釋性,不僅可為區(qū)域空氣質(zhì)量預(yù)測(cè)和預(yù)警奠定基礎(chǔ),還可以減少PM2.5污染給社會(huì)造成的危害。
近年來,隨著區(qū)域大氣污染防治攻堅(jiān),協(xié)調(diào)推動(dòng)經(jīng)濟(jì)高質(zhì)量發(fā)展的提出,對(duì)PM2.5濃度的預(yù)測(cè)方法,主要可歸納為三類:確定性模型、經(jīng)典的統(tǒng)計(jì)學(xué)模型和機(jī)器學(xué)習(xí)模型[7]。統(tǒng)計(jì)學(xué)預(yù)測(cè)方法主要有多元線性回歸[8]、自回歸移動(dòng)平均[9]等模型。傳統(tǒng)的統(tǒng)計(jì)學(xué)方法雖具有簡易的結(jié)構(gòu)和模型解釋能力強(qiáng)等優(yōu)點(diǎn),但PM2.5濃度受到各種污染物的影響及其復(fù)雜的物理成因,這使得PM2.5濃度具有很強(qiáng)的非線性和時(shí)空分異性[10]。因此,單一的傳統(tǒng)統(tǒng)計(jì)預(yù)測(cè)方法在處理非線性時(shí)序數(shù)據(jù)時(shí),已無法得到較為理想的結(jié)果。
機(jī)器學(xué)習(xí)模型憑借自身優(yōu)越的預(yù)測(cè)性能得到了廣泛應(yīng)用[11],如支持向量機(jī)[12]和神經(jīng)網(wǎng)絡(luò)算法[13,14]等。其中,杜續(xù)等在解決神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)模型中存在的易過擬合和低效率問題時(shí),發(fā)現(xiàn)調(diào)整參數(shù)后的最優(yōu)隨機(jī)森林模型可對(duì)PM2.5進(jìn)行有效地預(yù)測(cè)并具有較好的運(yùn)行效率[15]。為進(jìn)一步提高模型的預(yù)測(cè)性能,Park S等通過建立ANN模型,對(duì)地鐵站的PM10濃度進(jìn)行預(yù)測(cè),精度達(dá)到了67%-80%[16]。康俊鋒等提出XGBoost-LSTM的組合模型,研究發(fā)現(xiàn)該模型可以很好地結(jié)合PM2.5濃度數(shù)據(jù)的時(shí)序特征和非線性特征,進(jìn)而提升模型的預(yù)測(cè)精度[17]。
以上研究只關(guān)注了模型的預(yù)測(cè)性能,而在模型可解釋性方面的關(guān)注較少。已有利用集成算法和組合模型的預(yù)測(cè)研究相比傳統(tǒng)的統(tǒng)計(jì)預(yù)測(cè)模型,性能更為出色,但同樣存在兩點(diǎn)不足之處:(1)隨著預(yù)測(cè)模型復(fù)雜度的增加,當(dāng)數(shù)據(jù)樣本量不足時(shí),容易出現(xiàn)模型泛化能力較差的問題。(2)隨機(jī)森林、神經(jīng)網(wǎng)絡(luò)及XGBoost-LSTM均為黑箱機(jī)器學(xué)習(xí)模型,這使得建立的預(yù)測(cè)模型缺乏可解釋性。為了解決以上研究存在的兩點(diǎn)不足,在對(duì)原始數(shù)據(jù)進(jìn)行預(yù)處理、模型迭代訓(xùn)練、超參數(shù)調(diào)優(yōu)、模型泛化和性能分析以及模型解釋等工作的基礎(chǔ)上,本文基于XGBoost建立了PM2.5濃度預(yù)測(cè)模型,通過對(duì)比實(shí)驗(yàn),驗(yàn)證了本文模型性能的優(yōu)越性,并利用Grid Search CV技術(shù)進(jìn)行超參數(shù)調(diào)優(yōu),進(jìn)一步提高了PM2.5濃度預(yù)測(cè)的精度。同時(shí)由各模型的學(xué)習(xí)曲線對(duì)比結(jié)果,證明了在樣本量較少時(shí),本文模型同樣擁有良好的泛化能力。為增強(qiáng)模型的可解釋性,在利用XGBoost算法確保模型性能的基礎(chǔ)上,引入SHAP模型,綜合各特征的SHAP值識(shí)別出了PM2.5濃度的關(guān)鍵影響因素。其結(jié)論可為區(qū)域空氣污染治理提供有價(jià)值的決策參考。
設(shè)X為預(yù)測(cè)因子樣本集合(包括:PM10、SO2、NO2、O3、CO等特征),Y為PM2.5濃度,給定數(shù)據(jù)的訓(xùn)練集為:D={(xi,yi),(x2,y2),…,(xn,yn)},其中,xi=(xi(1),xi(2),…,xi(p))和p分別表示為輸入的樣本實(shí)例和特征個(gè)數(shù),i=1,2,…,n,n為樣本個(gè)數(shù)。使用均方誤差∑(yi,y^i)2表示預(yù)測(cè)誤差,由Min_MSE準(zhǔn)則求解最優(yōu)輸出值。將原數(shù)據(jù)集進(jìn)行數(shù)據(jù)預(yù)處理后,將訓(xùn)練樣本輸入XGBoost模型進(jìn)行迭代運(yùn)算。XGBoost算法是由陳天奇等人近年研發(fā)的Boosting庫[18],擁有線性規(guī)模解析器和CART算法,已應(yīng)用于許多的實(shí)際場(chǎng)景且具有良好的性能[19,20]。該算法在運(yùn)行過程中的關(guān)鍵在于不斷地添加樹,每添加一棵樹的實(shí)質(zhì)相當(dāng)于學(xué)習(xí)一個(gè)新的函數(shù),來擬合前一次預(yù)測(cè)的殘差。它是在傳統(tǒng)的GBDT算法(只利用一階倒數(shù))上的改進(jìn),可選用CPU進(jìn)行多維并行計(jì)算,完成更高的精度需求。為了改善目標(biāo)函數(shù)的下降和模型的復(fù)雜度,XGBoost對(duì)損失函數(shù)進(jìn)行了合理的二階泰勒展開,同時(shí)引入正則項(xiàng),對(duì)算法整體求其最優(yōu)解,進(jìn)而避免過擬合。為了訓(xùn)練得到PM2.5濃度預(yù)測(cè)模型,融合XGBoost算法建立模型,其中關(guān)鍵的模型構(gòu)建步驟如下:
(1)給定n個(gè)樣本,p個(gè)特征的PM2.5預(yù)測(cè)因子數(shù)據(jù)集:D={(xi,yi)}(|D|=n.xi∈R),利用迭代K次的輸出結(jié)果作為提升樹模型。對(duì)于第i個(gè)PM2.5濃度樣本xi的預(yù)測(cè)濃度表示為,表達(dá)式為:
(2)PM2.5濃度預(yù)測(cè)模型訓(xùn)練過程中的損失函數(shù)的計(jì)算公式如下式(2)(3)所示:
上述(2)式中,∑l(yi,)、∑Ω(fk)分別表示損失函數(shù)、正則化項(xiàng),其中,yi表示PM2.5濃度的真實(shí)值,為預(yù)測(cè)輸出值,T、θj、γ分別為樹葉子節(jié)點(diǎn)數(shù)、葉子權(quán)重和葉子樹懲罰正則項(xiàng),λ為子權(quán)重懲罰正則項(xiàng)。
(3)在模型訓(xùn)練中采取梯度提升策略,保存已形成的模型,每次在模型中添加一個(gè)新的回歸樹,假設(shè)第i個(gè)PM2.5濃度樣本在第t輪迭代的預(yù)測(cè)結(jié)果為,fi(xi)為引入的新回歸樹,其推導(dǎo)過程如下:
(4)將(4)式代入(2)式可得:
(5)將目標(biāo)函數(shù)進(jìn)行二階泰勒展開,并且加入正則項(xiàng):
上述(7)式中,θj表示為一個(gè)不確定的葉子節(jié)點(diǎn)的值。因此Obj(t)(目標(biāo)函數(shù))對(duì)θj求一階導(dǎo)數(shù)便可求出葉子節(jié)點(diǎn)j的最優(yōu)值θ*j,其值如下所示:
將上述(8)式所得θ*j代入目標(biāo)函數(shù)可得Obj(t)的最小值為:
在上述問題模型分析與算法推導(dǎo)的基礎(chǔ)上,利用XGBoost算法可以獲得預(yù)測(cè)精度較高的PM2.5濃度預(yù)測(cè)模型,但該模型與傳統(tǒng)的線性模型相比,幾乎是一個(gè)黑箱模型,針對(duì)該問題,本文采用SHAP值對(duì)模型中PM2.5濃度的影響因素進(jìn)行解釋分析。SHAP模型在2017年由Lundberg S等提出[21],可用于提升分類以及回歸模型的可解釋性。在實(shí)際問題中,對(duì)于特定的預(yù)測(cè)樣本,預(yù)測(cè)模型都能得到一個(gè)相應(yīng)的預(yù)測(cè)值,SHAP value則是該樣本中每個(gè)特征所獲得的數(shù)值。
SHAP模型的核心思想,在所有樣本中,若第i個(gè)樣本為xi,第i個(gè)樣本的第j個(gè)特征為xij,特征的邊際貢獻(xiàn)為mcij,邊的權(quán)重為wj,f(xij)是樣本xij的SHAP值,例如第i個(gè)樣本的第一個(gè)特征的SHAP值計(jì)算如下:
上述(11)式中,f(xij)是樣本xij的SHAP值。f(xi,1)是第i個(gè)樣本中第一個(gè)特征對(duì)最終預(yù)測(cè)結(jié)果的貢獻(xiàn)程度。每個(gè)特征的SHAP值則表示的是以該特征為條件時(shí)相應(yīng)模型預(yù)測(cè)結(jié)果的變化。其中,f(xi,1)>0,說明該特征提升了模型的預(yù)測(cè)值,相反,則說明該特征使得貢獻(xiàn)程度降低。XGBoost模型自身的“feature importance”只能體現(xiàn)特征的重要性,但并不能準(zhǔn)確地反映該特征是如何影響目標(biāo)變量的預(yù)測(cè)結(jié)果。而SHAP value的一個(gè)最明顯的特點(diǎn)是SHAP值能體現(xiàn)每一個(gè)樣本中的影響因素對(duì)預(yù)測(cè)結(jié)果的影響程度,而且還可以說明影響的正負(fù)。
本文對(duì)選取的數(shù)據(jù)指標(biāo)進(jìn)行預(yù)處理、缺失值填充,具體流程包括各指標(biāo)數(shù)據(jù)及目標(biāo)變量的統(tǒng)計(jì)描述、特征變量重要性分析、變量之間的相關(guān)性分析。建模流程圖如圖1所示。
圖1 XGBoost與SHAP建模流程圖
本文中評(píng)價(jià)預(yù)測(cè)模型的指標(biāo)分別為均方根誤差(RMSE)、平均絕對(duì)誤差(MAE)、擬合程度(R2),其中,模型預(yù)測(cè)精度高,說明RMSE、MAE的數(shù)值越小,R2的數(shù)值越大,計(jì)算公式如下:
上式中yi表示第i個(gè)訓(xùn)練實(shí)例PM2.5濃度的真實(shí)值,表示第i個(gè)訓(xùn)練實(shí)例PM2.5濃度的預(yù)測(cè)值,表示訓(xùn)練實(shí)例PM2.5濃度真實(shí)值的平均值,n為樣本個(gè)數(shù)。
本文中以XGBoost算法為例,在該算法設(shè)定的參 數(shù) 中,‘n_estimators、learning_rate、subsample、colsample_bytree、max_depth、tree_method’分 別 表示:迭代次數(shù)、學(xué)習(xí)率、訓(xùn)練模型的子樣本占整個(gè)樣本集合的比例、建立樹時(shí)對(duì)影響因素的隨機(jī)取樣比例、樹的最大深度、樹的約束算法。算法的核心超參數(shù)項(xiàng)的設(shè)置情況為:n_estimators=100,learning_rate=0.09,gamma=0,subsample=0.75,colsample_bytree=1,max_depth=7,tree_method=’approx’。
烏魯木齊作為古絲綢之路的重要通道,位于東經(jīng)86°37′33”—88°58′24”,北緯42°45′32”—44°08′00”,是典型的干旱區(qū)綠洲城市。其東、南、西三面環(huán)山,深居我國內(nèi)陸,海洋氣流不易到達(dá)。根據(jù)2020年中國社會(huì)統(tǒng)計(jì)年鑒數(shù)據(jù)顯示,2019年烏魯木齊市PM2.5的年平均濃度為50.0μg·m-3,在31個(gè)主要城市PM2.5的年平均濃度排名中位居第24位,同時(shí)空氣質(zhì)量等級(jí)處于二級(jí)的天數(shù)排名也相對(duì)靠后[22]。目前,烏魯木齊市在堅(jiān)決打贏“藍(lán)天保衛(wèi)戰(zhàn)”的號(hào)召下,積極踐行綠色可持續(xù)發(fā)展理念,而PM2.5的排放對(duì)該地區(qū)的環(huán)境和人民生活有著重要的影響,因此,進(jìn)行更為準(zhǔn)確的PM2.5濃度預(yù)測(cè)研究,對(duì)城市的綠色發(fā)展及干旱內(nèi)陸城市的可持續(xù)發(fā)展具有一定的現(xiàn)實(shí)意義。PM2.5濃度觀測(cè)數(shù)據(jù)及空氣污染物數(shù)據(jù)來源與國家環(huán)境在線監(jiān)測(cè)平臺(tái)(https://www.aqistudy.cn/historydata)公布的全年(2020)逐時(shí)監(jiān)測(cè)數(shù)據(jù)。同時(shí),氣象條件隨時(shí)監(jiān)測(cè)指標(biāo):最高氣溫(℃)、最低氣溫(℃)等。來源于中國氣象數(shù)據(jù)網(wǎng)(data.cma.cn)。
實(shí)驗(yàn)過程需要對(duì)數(shù)據(jù)集進(jìn)行標(biāo)準(zhǔn)化處理。同時(shí),對(duì)獲得的原始數(shù)據(jù)集經(jīng)過整理后發(fā)現(xiàn)存在一定的缺失。其中Wind_pow和Tem_low缺失程度最大,其缺失比例達(dá)到了0.69%和0.24%。對(duì)于缺失特征數(shù)據(jù)的填充,本實(shí)驗(yàn)將數(shù)據(jù)集分為污染特征因子和氣象特征兩類,根據(jù)氣象特征類別的中位數(shù)進(jìn)行填充。最終得到的樣本總量為8746,15個(gè)特征變量。原始數(shù)據(jù)集的統(tǒng)計(jì)描述結(jié)果如表1所示。
表1 特征變量描述
由表1數(shù)據(jù)可得:目標(biāo)變量PM2.5的平均濃度為48.12(μg·m-3),其中,PM2.5濃度的中位數(shù)為26.00(μg·m-3),標(biāo)準(zhǔn)差為53.73(μg·m-3)。在目標(biāo)變量(PM2.5)的統(tǒng)計(jì)描述中得到,原始數(shù)據(jù)集的PM2.5濃度在4.00—360.00(μg·m-3)之間,同時(shí),如圖2(a)所示,PM2.5的濃度分布存在嚴(yán)重的右偏,這會(huì)顯著影響最后的預(yù)測(cè)結(jié)果。因此,本文針對(duì)該問題,利用Boxcox變換法來轉(zhuǎn)換PM2.5濃度變量值,以便在平衡的數(shù)據(jù)集下訓(xùn)練模型。不難發(fā)現(xiàn),變換之后其具有較好的正態(tài)分布,如圖2(b)所示。
圖2 PM2.5濃度分布圖
在實(shí)際操作中,Lasso的參數(shù)值越大,參數(shù)的最終目標(biāo)解個(gè)數(shù)越少,選出的特征變量數(shù)目也越少。本文模型的RMSE值是由交叉驗(yàn)證方法計(jì)算所得,然后利用其極小值點(diǎn)來確定最終的參數(shù)值。最終的特征變量重要性分布如圖3所示。
圖3 Lasso特征變量重要性分析
3.1.1 污染因子對(duì)PM2.5濃度的影響
PM2.5濃度與空氣污染物之間存在復(fù)雜的轉(zhuǎn)化和傳輸過程,并且各污染物之間也存在顯著的影響。為此,本文進(jìn)行了研究區(qū)域內(nèi)PM2.5濃度與各變量之間的相關(guān)性分析。如圖4所示,PM2.5與空氣污染因子之間都有一定的相互影響關(guān)系。其中PM2.5濃度與CO濃度之間的相互關(guān)系最強(qiáng),與NO2和PM10之間存在一定的正相關(guān),而SO2與PM2.5的相關(guān)性較低,所以可以忽略其對(duì)PM2.5的影響。
圖4 空氣污染因子與目標(biāo)變量(PM2.5)熱力圖
3.1.2 氣象因子對(duì)PM2.5濃度的影響
氣象因子也是引起空氣中PM2.5濃度變化的一個(gè)重要因素,如圖5 PM2.5濃度與氣象因子熱力圖所示,PM2.5濃度與氣象因子之間存在一定的相互影響關(guān)系,其中,PM2.5濃度與氣溫(最高氣溫、最低氣溫)存在較強(qiáng)的負(fù)相關(guān),與相對(duì)濕度、氣壓和降水量之間從在一定的負(fù)相關(guān)。
圖5 氣象因子與目標(biāo)變量(PM2.5)熱力圖
本文在預(yù)測(cè)模型性能方面與同類研究進(jìn)行了對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表2所示。由表中的數(shù)據(jù)可以得出,基于XGBoost算法的RMSE、MAE及R2的值分別為0.205、0.129、0.960,本文算法在各評(píng)價(jià)指標(biāo)上都得到了最好的結(jié)果,同時(shí)該算法在性能方面比LR和BPNN優(yōu)勢(shì)顯著,主要體現(xiàn)在R2指標(biāo)上。XGBoost算法能夠在評(píng)價(jià)指標(biāo)上達(dá)到最優(yōu)的原因在于:一是目標(biāo)函數(shù)中引入了正則項(xiàng),起到控制和優(yōu)化預(yù)測(cè)模型的復(fù)雜程度;二是從權(quán)衡方差偏差的角度來看,由于其算法降低了模型的方差,使訓(xùn)練的模型更加簡單,進(jìn)而防止模型過擬合的問題;三是該算法采用了梯度提升來獲取局部最優(yōu)解。
表2 與已有方法的預(yù)測(cè)性能對(duì)比
以XGBoost算法為例,將處理后的數(shù)據(jù)以70%的數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)集,30%的數(shù)據(jù)作為測(cè)試數(shù)據(jù)集。最終獲取的詳細(xì)結(jié)果如表3所示。由表3中的數(shù)據(jù)可得出結(jié)論:XGBoost模型的性能最佳,擬合優(yōu)度達(dá)到0.960,而Adaboost和GBR算法的預(yù)測(cè)效果相對(duì)最差。在R2指標(biāo)上,XGBoost的值達(dá)到0.960,而Adaboost算法的值只有0.913。除了KNeighbor的值能夠達(dá)到0.956之外,其他兩種算法的擬合程度值均在區(qū)間[0.910,0.930]之內(nèi)。
表3 算法預(yù)測(cè)結(jié)果評(píng)價(jià)指標(biāo)
綜上所述,XGBoost的預(yù)測(cè)效果最為理想,可以較好地體現(xiàn)PM2.5濃度與影響因素之間的復(fù)雜關(guān)系。
對(duì)比以上算法的預(yù)測(cè)效果可以看出:(1)在PM2.5濃度預(yù)測(cè)上,XGBoost算法在各評(píng)價(jià)指標(biāo)上均達(dá)到最優(yōu),這說明本文的指標(biāo)體系構(gòu)建是有效的,進(jìn)一步挖掘PM2.5濃度的波動(dòng)影響因素,可以更加精確 地預(yù)測(cè)PM2.5的濃 度。(2)基于 非 線性的XGBoost和RFR預(yù)測(cè)算法比線性回歸、DTR(決策樹)以及Adaboost回歸預(yù)測(cè)的效果更加顯著,這說明空氣中PM2.5數(shù)據(jù)集往往存在著復(fù)雜的非線性關(guān)系,并且含有一定程度的非平穩(wěn)數(shù)據(jù),因此基于非線性關(guān)系的預(yù)測(cè)模型可以獲得更好的預(yù)測(cè)效果。(3)XGBoost和RFR算法之所以能夠有一個(gè)較好的預(yù)測(cè)效果,是因?yàn)樗鼈兌际腔诩傻姆?,通過梯度提升的方法去獲取局部最優(yōu)值。研究結(jié)果表明,基于XGBoost的預(yù)測(cè)模型可以較準(zhǔn)確的估算區(qū)域PM2.5的濃度,并且XGBoost方法在預(yù)測(cè)模型的泛化與推廣能力上具有相對(duì)較好的優(yōu)勢(shì)。
XGBoost中包含有很多超參數(shù),本文實(shí)驗(yàn)過程中,利用Grid Search CV方法完成了參數(shù)調(diào)優(yōu),并以R2為最終結(jié)果的評(píng)價(jià)指標(biāo)。以實(shí)驗(yàn)中性能最優(yōu)的XGBoost預(yù)測(cè)模型作為訓(xùn)練集,選擇了對(duì)模型性能影響最大的五個(gè)主要參數(shù),參數(shù)的搜索區(qū)間范圍及第一輪參數(shù)優(yōu)化結(jié)果如表4所示。
表4 XGBoost模型的參數(shù)優(yōu)化結(jié)果
圖6(a)-(d)分別表示XGBoost、RFR、BP NN、以及LR的學(xué)習(xí)曲線。由圖6可得各算法的擬合效果相差較大。其中,隨著樣本個(gè)數(shù)的增加,預(yù)測(cè)模型都接近逐步收斂,而XGBoost與RFR的測(cè)試數(shù)據(jù)集和交叉驗(yàn)證數(shù)據(jù)集在性能方面存在一定的差距,并且對(duì)比兩個(gè)模型發(fā)現(xiàn),當(dāng)樣本數(shù)量達(dá)到2400時(shí),模型的擬合效果較好。同時(shí),隨著樣本量的持續(xù)增加,交叉驗(yàn)證數(shù)據(jù)集的性能也逐漸趨向穩(wěn)定。從模型的擬合趨勢(shì)來看,當(dāng)樣本數(shù)量不斷增加時(shí),XGBoost與RFR預(yù)測(cè)模型的擬合效果也逐漸達(dá)到最優(yōu)。然而,XGBoost在測(cè)試集方面的穩(wěn)健性比RFR更加顯著。
圖6 XGBoost與各分類模型的學(xué)習(xí)曲線對(duì)比
SHAP的基本思想是在觀察某特定數(shù)量樣本的預(yù)測(cè)中,不同的特征變量會(huì)對(duì)預(yù)測(cè)結(jié)果產(chǎn)生不同程度的影響。圖7顯示了SHAP的摘要,該圖根據(jù)選取的各類影響因子對(duì)PM2.5濃度的影響重要性進(jìn)行排序。由圖可得,空氣污染物中CO、PM10和O3的濃度差異對(duì)預(yù)測(cè)模型的影響較為顯著,且均對(duì)PM2.5濃度造成正向的影響。即這些特征指標(biāo)的值越高,SHAP的值越大,對(duì)應(yīng)區(qū)域空氣中PM2.5的濃度越高。此時(shí)就應(yīng)引起人們的注意,進(jìn)而采取防護(hù)措施。相 反,A_P、Tem、Wind_pow、Wind_dir對(duì)其PM2.5的濃度造成了較明顯的負(fù)面影響,且隨著這些指標(biāo)數(shù)值的增大,SHAP的值越小,導(dǎo)致其負(fù)面影響程度增加。以風(fēng)向?yàn)槔?,一定風(fēng)速的風(fēng)向?qū)?huì)促進(jìn)區(qū)域空氣污染物(PM2.5)的轉(zhuǎn)移,進(jìn)而使得區(qū)域空氣污染物中的PM2.5濃度大幅下降。
圖7 SHAP特征分析
在圖8中,通過修改模型中的特定特征變量,在y軸畫出特征變量的SHAP值,在x軸畫出特征變量的值。在圖8(a)中,選取CO濃度作為特征變量來確定Wind_pow從-1.0逐漸增加到1.0時(shí)的影響。紅色點(diǎn)和藍(lán)色點(diǎn)分別代表Wind_pow較高值點(diǎn)和較低值點(diǎn)。當(dāng)CO濃度的值較低時(shí),Wind_pow的SHAP值大于0,這表明CO的濃度降低會(huì)使區(qū)域空氣中PM2.5的濃度也隨之降低。即在CO濃度和Wind_pow交互影響的情況下,該區(qū)域CO濃度的降低會(huì)導(dǎo)致其空氣中更低的PM2.5濃度。圖8(b)顯示了Tem和PM10在PM2.5濃度預(yù)測(cè)模型中的影響。PM10濃度值較低的點(diǎn)(藍(lán)色點(diǎn))大多位于圖的右側(cè),其值也相對(duì)較高。位于左側(cè)(即Tem高和PM10高)的紅點(diǎn)可能對(duì)應(yīng)于烏魯木齊市冬季PM2.5濃度較高時(shí)收集的數(shù)據(jù)。
圖8 (a)CO和Wind_pow對(duì)模型產(chǎn)出的影響
圖8 (b)Tem和PM10對(duì)模型產(chǎn)出的影響
圖9顯 示 的 是XGBoost、RFR和SHAP訓(xùn) 練后,3種算法的特征變量重要性對(duì)比結(jié)果。經(jīng)過3種算法的模擬訓(xùn)練后,特征變量重要性的排序并不完全相同。由圖9可看出影響區(qū)域空氣中PM2.5濃度的關(guān)鍵因素是CO濃度、PM10濃度、O3濃度以及氣溫(Tem)。3種算法在進(jìn)行變量特征重要性排序時(shí)都將CO濃度、PM10及O3濃度排在靠前的位置,但在SHAP模型中的CO濃度值最大。
圖9 XGBoost,RFR和SHAP特征變量重要性對(duì)比
具體而言,區(qū)域空氣污染物中CO濃度越低,其PM2.5濃度越低是肯定的,這表明CO濃度與PM2.5濃度之間存在著特定的轉(zhuǎn)化關(guān)系。圖9還可以發(fā)現(xiàn),氣象因子(Tem)與PM2.5濃度之間也存在著相互影響的關(guān)系,可理解為較高的氣溫會(huì)促進(jìn)空氣污染物之間的相互轉(zhuǎn)化。以上所述的具體轉(zhuǎn)化途徑本文不予以討論,可由后期實(shí)驗(yàn)來完善。
在工業(yè)化和城市化處于快速發(fā)展期間,常常會(huì)伴隨著能源及其他一些資源物質(zhì)的大幅消耗,致使空氣中顆粒物的含量有了明顯的增加,這將會(huì)對(duì)公眾的健康和生態(tài)文明建設(shè)造成巨大的影響。
本文基于XGBoost與SHAP模型以烏魯木齊市為研究區(qū)域,對(duì)其空氣污染物中的PM2.5濃度進(jìn)行了預(yù)測(cè)。(1)將預(yù)處理完的特征變量數(shù)據(jù)作為XGBoost訓(xùn)練模型的輸入,然后訓(xùn)練得到了最優(yōu)的預(yù)測(cè)模型;并且進(jìn)行了對(duì)比實(shí)驗(yàn),驗(yàn)證了XGBoost模型預(yù)測(cè)性能的優(yōu)異性。(2)利用SHAP值對(duì)已獲得的預(yù)測(cè)模型特征進(jìn)行了合理地解釋。同時(shí),結(jié)合XGBoost、RFR以及SHAP模型的特征變量重要性排序,進(jìn)一步得到了影響烏魯木齊市區(qū)域空氣污染物PM2.5濃度的主要影響因素是CO濃度、PM10濃度、O3濃度以及Tem(氣溫)。(3)在XGBoost和其他預(yù)測(cè)模型的學(xué)習(xí)曲線對(duì)比結(jié)果中得出,隨著樣本個(gè)數(shù)的增加,預(yù)測(cè)模型都逐漸趨于收斂。當(dāng)樣本數(shù)量持續(xù)增加時(shí),XGBoost與RFR預(yù)測(cè)模型的擬合效果也逐漸達(dá)到最優(yōu)的效果,而XGBoost在測(cè)試集方面的穩(wěn)健性相比RFR更加顯著。
赤峰學(xué)院學(xué)報(bào)·自然科學(xué)版2022年12期