楊國穎
(蘭州石化職業(yè)技術學院,甘肅 蘭州 730060)
空氣污染對生態(tài)環(huán)境和人類健康危害巨大,雖然國家監(jiān)測控制站點(國控點)對“兩塵四氣”有監(jiān)測數據,且較為準確,但布控較少,數據發(fā)布時間滯后較長且花費較大,無法給出實時空氣質量的監(jiān)測和預報。某公司自主研發(fā)的微型空氣質量檢測儀花費小,可對某一地區(qū)空氣質量進行實時網格化監(jiān)控氣象參數。在國控點近鄰所布控的自建點,微型空氣質量檢測儀所采集的數據與該國控點同一時間的數據存在一定的差異,因此,需要利用國控點每小時的數據對國控點近鄰的自建點數據進行校準[1-2]。
多元線性回歸模型的表達式為:
其中,β0,β1,…,βp的p+1個未知參數,稱為回歸系數。Y是因變量,而X0,X1,…,Xp是p個一般變量,即自變量。ε是隨機誤差,期望值為零時滿足正態(tài)分布N(0,σ2)。
對空氣質量數據校準這一實際問題,(Xi1,Xi2,…,Xip;yi),i=1,2,…,n,
如何利用國控點數據,對自建點數據進行校準,選用多元線性回歸模型[3-5]。
國控點數據為PM2.5、PM10、CO、NO2、SO2、O3共6個監(jiān)控數據,時間從2018/11/14 10:00至2019/6/11 15:00,每小時統計一次,共計4200條數據。自建點數據從2018/11/14 10:02 至2019/6/11 16:32,時間間隔5 分鐘內統計一次,共234717條數據。對自建點數據進行處理,按照如10:00至10:59 分為一小時間隔,統計平均值。時間從2018/11/14 10:00至2019/6/11 16:00,共計4920條數據。
分整點統計數據,自建點4920條,國控點4200條,經初步比對,發(fā)現自建點和國控點均存在同一整點數據缺失情況,共有數據4983條,國控點缺失整點數據783條,自建點缺失數據63條。
進一步整理數據,剔除國控點缺失的783條和自建點缺失的63條數據,得到分整點統計有效數據4137條。
以國控點PM2.5為因變量,自建點11項數據為自變量建立多元線性回歸模型[6-8]。
運用EXCEL數據分析工具箱,初步對國控點PM2.5進行回歸分析。
相關系數R=0.9530,回歸方程是顯著的,且具有95.3%的可信度。
回歸方程中的x5(SO2)、x6(O3)都是不顯著的,剔除x5(SO2)、x6(O3),再次進行回歸分析,發(fā)現x7(風速)p值為0.076456>0.05。
繼續(xù)剔除x7(風速)做多元線性回歸。從數據結果可以看出回歸方程是顯著的,且常數項和各線性項p值均<0.05,說明此時線性回歸方程比較滿意。
可認為去除的3個自變量的系數為0,由此得到,國控點PM2.5回歸方程(除SO2、O3、風速):
y1=451.1230318+0.79243789x1+0.026076364x2+9.294 645509x3+0.078989972x4+0*x5+0*x6+0*x7-0.428006512x8-0.030787605x9-0.193950075x10-0.341499422x11
判定系數R-squared為0.9082,擬合程度非常好。
結論:國控點PM2.5 分整點預測值只需要自建點PM2.5、PM10、CO、NO2、壓強、降水量、溫度、濕度等8個數據,所獲得的回歸方程擬合度較好。
采用此方法可對國控點PM10、CO、NO2、SO2、O3其余5個指標逐一進行回歸分析。
國控點PM10回歸方程(除O3、風速):
y2=1287.600945+0.73533212x1+0.128642561x2+29.33321913x3+0.333424129x4+0.091232141x5+0*x6+0*x7-1.188444349x8-0.073684566x9-1.164787458x10-1.132177353x11
判定系數R-squared為0.6714,擬合程度較好。
國控點CO回歸方程(除SO2):
y3=25.22694251+0.008571466x1-0.001009743x2+0.441 219094x3+0.002203022x4+0*x5+0.00075464x6-0.1319257x7-0.02410081x8+0.000381987x9-0.020357718x10-0.00319-9927x11
判定系數R-squared為0.5064,擬合程度較好。
國控點NO2回歸方程(除CO、SO2):
y4=1331.278773+0.538119567x1-0.258976809x2+0*x3+0.411834389x4+0*x5-0.0951238x6-17.28883773x7-1.219421357x8-0.030514553x9-1.692427105x10-0.64718301x11
判定系數R-squared為0.5320,擬合程度較好。
國控點SO2回歸方程(除溫度、濕度):
y5=-373.850039-0.160919861x1+0.122208283x2+31.8 6182596x3+0.056660302x4-0.054798036x5+0.100801897x6-5.769067647x7+0.359102275x8+0.017623515x9+0*x10+0*x11
判定系數R-squared為0.4126,擬合程度較好。
國控點O3回歸方程(除降水量):
y6=-755.359663+0.958786185x1-0.5708725x2-14.3186506x3-0.576558562x4+0.06212603x5+0.569078 55x6+15.74438408x7+0.77063655x8+0*x9+2.65918267 7x10-0.209917002x11
判定系數R-squared為0.8002,擬合程度較好。
由此可得到國控點PM2.5、PM10、CO、NO2、SO2、O3等6項數據與自建點PM2.5、PM10、CO、NO2、SO2、O3、風速、壓強、降水量、溫度、濕度等11項分整點數據的回歸方程。
利用上述給出的6個回歸方程,針對自建點測出的數據進行校準,即通過多元線性回歸方程把自建點監(jiān)測數據處理后對外發(fā)布[9-10]。
本文自建點11項數據是按照實時統計(間隔在5分鐘內)分整點求得平均值,因此我們在研究分整點數據的基礎上分析認為,空氣質量數據的變化有一定的連續(xù)性,相鄰數據的變化遵循一定的規(guī)律。我們將回歸方程運用到自建點234717條數據中,得到自建點隨時對外發(fā)布的校準數據。
表1 自建點11項分整點數據校準發(fā)布數據
表2 自建點11項分整點數據校準發(fā)布數據殘差
表3 自建點11項隨時監(jiān)測數據234717條校準發(fā)布
進一步對分整點數據校準發(fā)布和隨時數據校準發(fā)布研究,發(fā)現一些數據小于0,呈負數出現。在實際監(jiān)測中,這是不可能出現的,即構建的多元線性回歸模型存在一定的誤差,主要原因是雖然本文對國控點和自控點的數據進行了整理校對,但對存在的異常數據沒有剔除,部分自建點的數據經分析針對國控點的數據高出2倍甚至更多,在初步構建模型時未刪除,樣本數據的有效性受到一定的影響,模擬精度降低。
針對以上數據分析,作11 元線性回歸,建立y關于x1,x2,…,x11的回歸模型如下:
判定系數R-squared為0.908,擬合程度較好。
x5、x6的p值為0.68356、0.42959均大于0.05,即回歸方程中的線性項x5、x6均是不顯著的,x5最不顯著,其次是x6。
xi多元線性回歸共線性判斷,回歸模型的判定系數為,得到方差膨脹因子:
VIFi越大說明線性相關越顯著,即存在共線性。通過計算,自建點VIF值分別為21.4928、26.6358、2.4873、1.6134、1.1576、2.2826、1.3750、7.1922、1.4545、10.0520、2.5397。由此可知,自變量x2中等程度共線性,x1、x2、x10共線性嚴重。
運用MATLAB工具箱繪制預測校準數據的殘差直方圖和殘差正態(tài)概率圖,如圖1所示。
圖1 多元線性回歸殘差直方圖和殘差正態(tài)概率圖
根據學生化殘差尋找異常值,針對國控點PM2.5,自建點共出現195條異常數據,見表4。
表4 自建點異常數據(國控PM2.5)
需要提高模型的精度和準度,剔除195項異常值,并將不顯著項x5、x6去掉,重新建立多元線性回歸模型[11-13]。
判定系數R-squared由0.908提高到0.942,擬合程度明顯提高。
剔除異常數據后,x7風速的p=0.00044527<0.05,顯著性檢驗為顯著。
在前面建立的模型解析中,因沒有剔除異常數據,導致x7在進一步的顯著性檢驗中判定為不顯著項,模型擬合的精度和準度發(fā)生偏差。
國控點其余5個自變量(PM10、CO、NO2、SO2、O3)的分析求解類同于國控點PM2.5的解法。
表5 國控點PM2.5與自建點PM2.5分整點對應值倍數表
本文建立了多元線性回歸分析模型,利用國控點的分整點數據,對自建點數據進行校準。模型雖然去除變量和剔除異常數據提高了精度,但由于自建點數據過于繁雜,在判斷異常數據上對樣本數據的分析還存在一定不足,比如國控點PM2.5與自建點PM2.5的值相比,高達10倍的數據也有出現。
對超出3倍以上的34條數據分析,僅有自建點第592條,自建點PM2.5是國控點PM2.5數值5倍左右的數據在回歸模型中被判定為異常數據予以剔除。所以在超出高倍數情況下,建立的回歸模型默認為是有效數據,這里有進一步討論的空間和價值[14-16]。