王來斌
一、引言
我國華北的部分城市每年冬天都會(huì)遭遇霧霾的多次襲擊。許多人的日常上班,學(xué)習(xí)都受到影響,當(dāng)霧霾天氣中細(xì)微顆粒物濃度很高時(shí),環(huán)境污染會(huì)對(duì)人體造成嚴(yán)重的不良影響,比如呼吸道感染,心腦血管疾病,心肺疾病等發(fā)生比率上升。PM2.5也被稱為細(xì)微顆粒物,是指大氣中直徑小于等于2.5微米的懸浮顆粒物。PM2.5粒子直徑小,易于富集空氣中的有毒有害物質(zhì)。
由上文所述背景,本文就是對(duì)PM2.5濃度的氣象影響因素進(jìn)行分析建模,并預(yù)測(cè)未來一段時(shí)間的PM2.5濃度,盡可能準(zhǔn)確地做出預(yù)報(bào),為人們的日常工作學(xué)習(xí)提供參考和依據(jù),降低PM2.5帶來的空氣污染所造成的損失。本文基于UCI上記載的北京市2010-2015年每日12時(shí)的PM2.5監(jiān)測(cè)值,運(yùn)用機(jī)器學(xué)習(xí)相關(guān)算法預(yù)測(cè)未來一段時(shí)間的PM2.5預(yù)測(cè)值。
二、ARIMA模型的建立
(一)建立ARIMA模型
1.時(shí)間序列圖
時(shí)間序列圖分析模型能進(jìn)行精度比較高的短期預(yù)測(cè),因此針對(duì)北京市東四2015.1.1-2015.12.21共355天的數(shù)據(jù)用R軟件進(jìn)行建模預(yù)測(cè)。由結(jié)果圖可知,北京東四在2015.1.1-2015.12.21的PM2.5值并不平穩(wěn),故要進(jìn)行變換或者差分處理。
對(duì)原始數(shù)據(jù)進(jìn)行一階差分,差分后的值顯示平穩(wěn)但是還需要進(jìn)行單位根檢驗(yàn)。一階差分圖如圖1
2.單位根檢驗(yàn)
單位根檢驗(yàn)的P值小于0.05,故拒絕原假設(shè),為平穩(wěn)序列。接下來進(jìn)行一階差分后的白噪聲檢驗(yàn)
滯后12階指標(biāo)相關(guān)統(tǒng)計(jì)量如下表所示。
我們可以看出,兩個(gè)指標(biāo)取對(duì)之后進(jìn)行差分過后均顯著,是非白噪聲序列,我們可以進(jìn)行接下來的模型識(shí)別和模型選擇。
3.模型識(shí)別及定階
通過R軟件中的自動(dòng)定階,得出最合適的模型是ARMA(1,4),因?yàn)檫M(jìn)行了一階差分,故最終模型為ARIMA(1,1,4),如下:
ARIMA(1,0,4) with zero mean : 4052.331
Best model: ARIMA(1,0,4) with zero mean
Series: X3
ARIMA(1,0,4) with zero mean
Coefficients:
ar1 ma1 ma2 ma3 ma4
-0.1322 -0.3429 -0.3689 -0.1963 -0.0667
s.e. 0.5663 0.5635 0.2787 0.1864 0.1110
sigma^2 estimated as 5687: log likelihood=-2020.04
AIC=4052.09 AICc=4052.33 BIC=4075.27
5.模型的診斷
Q-Q圖來檢驗(yàn)殘差的正態(tài)性:
Q—Q圖是一種有效平谷正態(tài)性的工具,由圖可知整體趨勢(shì)接近一條直線,但是也存在異常值。但總體上是正態(tài)的。
6.模型的預(yù)測(cè)
建立好模型之后,我們需要對(duì)于模型進(jìn)行預(yù)測(cè),R軟件的時(shí)間序列功能能幫助我們針對(duì)有效的模型進(jìn)行良好預(yù)測(cè)。根據(jù)PM2.5初始值,我們對(duì)于2015.12.22.-2015.12.31共10天數(shù)據(jù)預(yù)測(cè),預(yù)測(cè)值分別是:168.3501 126.8469 110.9921 109.3322 110.1681 109.7472 109.9591 109.8524 109.9061 109.8791 而實(shí)際值分別為:138.00 127.00 106.00 102.63 106.00 116.00 111.00 102.00 115.00 110.00
可以看出與實(shí)際值差別不大,說明預(yù)測(cè)的較為準(zhǔn)確。
五、總結(jié)
本文綜合運(yùn)用了多元回歸分析、主成分分析對(duì)PM2.5的相關(guān)因素進(jìn)行了統(tǒng)計(jì)上的分析,又利用ARIMA時(shí)間序列分析對(duì)PM2.5質(zhì)量濃度進(jìn)行預(yù)測(cè)。ARIMA模型較好的解決了大氣中PM2.5的時(shí)間分布問題,具有良好的預(yù)測(cè)效果。endprint