紀(jì)張偉
(唐山職業(yè)技術(shù)學(xué)院 基礎(chǔ)部,河北 唐山 063000)
問題詳見2019年全國大學(xué)生數(shù)學(xué)建模競(jìng)賽D題,這里對(duì)導(dǎo)致自建點(diǎn)數(shù)據(jù)與國控點(diǎn)數(shù)據(jù)造成差異的因素進(jìn)行分析,并對(duì)照國控點(diǎn)數(shù)據(jù)建立數(shù)學(xué)模型對(duì)自建點(diǎn)數(shù)據(jù)進(jìn)行校準(zhǔn).
借助SQL server數(shù)據(jù)庫,在附件2[1]中采用臨近點(diǎn)法插入整點(diǎn),分別作出自建與國控點(diǎn)一天內(nèi)0:00~23:00的不同日期的“兩塵四氣”箱線圖及自建與國控點(diǎn)從2018年11月—2019年6月265 d“兩塵四氣”濃度變化差異的折線圖,得出自建點(diǎn)數(shù)據(jù)誤差相對(duì)較大的濃度指標(biāo)有CO,NO2,SO2,O3,而PM2.5與PM10相對(duì)較小.
只考慮天氣因素對(duì)自建點(diǎn)監(jiān)測(cè)數(shù)據(jù)誤差造成的影響,利用R軟件建立多元線行回歸模型,采用逐步回歸法進(jìn)行變量選擇分別給出自建點(diǎn)數(shù)據(jù)誤差受到的天氣因素影響的指標(biāo),即PM2.5的數(shù)據(jù)差異主要受溫度,風(fēng)速的影響;PM10的數(shù)據(jù)差異主要受溫度的影響;CO的數(shù)據(jù)差異主要受壓強(qiáng),溫度的影響,受風(fēng)速,濕度的影響較??;NO2數(shù)據(jù)差異主要受壓強(qiáng),溫度,濕度的影響,受風(fēng)速的影響不明顯;SO2的數(shù)據(jù)差異主要受壓強(qiáng),溫度的影響;O3的數(shù)據(jù)差異主要受溫度,風(fēng)速,壓強(qiáng)的影響.
要根據(jù)國控點(diǎn)數(shù)據(jù)對(duì)自建點(diǎn)數(shù)據(jù)校準(zhǔn),因此只考慮自建點(diǎn)“兩塵四氣”數(shù)據(jù)的校準(zhǔn),利用R語言建立自建點(diǎn)“兩塵四氣”分別與國控點(diǎn)“兩塵四氣”的多元線性回歸模型,利用逐步回歸進(jìn)行變量選擇,并給予顯著性檢驗(yàn).通過已建立的回歸模型,計(jì)算出自建點(diǎn)的測(cè)量數(shù)據(jù),再根據(jù)公式測(cè)量平均誤差=(自建實(shí)際值-自建測(cè)量值)/樣本n,得到校對(duì)誤差=自建測(cè)量值+平均誤差-國控值,從而對(duì)國控點(diǎn)近鄰的自建點(diǎn)數(shù)據(jù)進(jìn)行了良好校準(zhǔn).
1.假設(shè)自建點(diǎn)檢測(cè)的數(shù)據(jù)不受空氣質(zhì)量檢測(cè)儀本身、個(gè)人等因素的影響.
2.允許根據(jù)整時(shí)的國控點(diǎn)數(shù)據(jù)預(yù)測(cè)整時(shí)周圍5 min內(nèi)的自建點(diǎn)相關(guān)數(shù)據(jù).
3.國控點(diǎn)與近鄰自建點(diǎn)上采集的數(shù)據(jù)真實(shí)有效.
由于附件1[2]提供的數(shù)據(jù)是按小時(shí)監(jiān)控?cái)?shù)據(jù),共4 200條.而附件2[1]的數(shù)據(jù)是按分鐘監(jiān)控?cái)?shù)據(jù),共23 470條,而且整點(diǎn)外的數(shù)據(jù)較小,要比較自建點(diǎn)與國控點(diǎn)間各指標(biāo)的差異,必須將附件2中的數(shù)據(jù)整點(diǎn)簡化,為了減少人為誤差得到附件2中整點(diǎn)數(shù)據(jù),通過SQL server查詢方法查詢臨近點(diǎn)的值作為整點(diǎn)數(shù)據(jù).
畫出2018年11月—2019年6月265 d“兩塵四氣”自建與國控點(diǎn)濃度變化差異的折線圖(圖略)以及一天內(nèi)自建與國控點(diǎn)0:00~23:00的不同日期的“兩塵四氣”箱線圖,以PM2.5和CO為例,見圖1與圖2.通過圖形觀察得知,國控表與自建表五種氣體濃度變化趨勢(shì)相同,但也有一定的誤差.具體可以得到如下結(jié)論:自建點(diǎn)數(shù)據(jù)誤差相對(duì)較大的濃度指標(biāo)有CO,NO2,SO2,O3,而PM2.5與PM10相對(duì)較小.
圖1 國控點(diǎn)與自建點(diǎn)PM2.5的日濃度變化箱線圖
圖2 國控點(diǎn)與自建點(diǎn)CO的日濃度變化箱線圖
本題主要研究自控點(diǎn)與國控點(diǎn)數(shù)據(jù)造成差異的因素分析.一般空氣質(zhì)量檢測(cè)儀的監(jiān)控?cái)?shù)據(jù)誤差,可能受眾多因素影響,如:人為因素,儀器自身因素,地點(diǎn)因素,天氣因素等.這里我們根據(jù)所給的附件數(shù)據(jù),只研究天氣因素(風(fēng)速、降水量、壓強(qiáng)、溫度、濕度)對(duì)數(shù)據(jù)造成的誤差,其余因素均不予考慮.
首先,利用Excel軟件將國控點(diǎn)中的數(shù)據(jù)與“自建點(diǎn)各個(gè)指標(biāo)數(shù)據(jù)整點(diǎn)表”進(jìn)行無量綱化處理得到國控?zé)o量綱化表和自建無量綱化表.
其次,將兩表整合,用自建的“兩塵四氣”數(shù)據(jù)減去對(duì)應(yīng)國控的“兩塵四氣”數(shù)據(jù),得到自建點(diǎn)與國控點(diǎn)的“兩塵四氣”濃度誤差,進(jìn)而分析風(fēng)速、降水量、壓強(qiáng)、溫度、濕度對(duì)“兩塵四氣”的濃度誤差的影響.嘗試多元線性回歸模型[3],具體如下:
以建立PM2.5濃度監(jiān)測(cè)誤差與風(fēng)速、壓強(qiáng)、降水量、溫度、濕度模型為例:
y1=β0+β1x1+β2x2+β3x3+β4x4+β5x5,ε~N(0,σ)
其中β0,β1,β2,β3,β4,β5為多元回歸系數(shù).
采用逐步回歸法[4]用R語言編程,程序代碼為
mydata<-read.csv(file.choose())
>head(mydata)
>tlm<-lm(mydata[,2]~mydata[,8]+mydata[,9]+mydata[,10]+mydata[,11]+mydata[,12],data=mydata)
> summary(tlm)
> tstep<-step(tlm)
> summary(tlm)
> tstep<-step(tlm)
結(jié)果如下:
Call:
lm(formula = mydata[,2]~ mydata[,8]+ mydata[,11],data = mydata)
Residuals:
Min 1Q Median 3Q Max
-523.84 -47.34 8.99 59.59 718.08
Coefficients:Estimate Std.Error t value Pr(>|t|)
(Intercept) 29.518512 3.767030 7.836 6.87e-15 ***
mydata[,8] 0.018741 0.006249 2.999 0.00274 **
mydata[,11]-0.091385 0.005485 -16.661 < 2e-16 ***
Signif.codes:
0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error:93.67 on 2458 degrees of freedom
Multiple R-squared: 0.1026,Adjusted R-squared: 0.1019
F-statistic:140.5 on 2 and 2458 DF, p-value:< 2.2e-16
通過Pr(>|t|)的值可知所有的檢驗(yàn)均為顯著,因此所得回歸方程為:
y1=29.518 512+0.018 741x1-0.091 385x4
因此風(fēng)速和溫度是影響自建點(diǎn)PM2.5的監(jiān)測(cè)濃度誤差的關(guān)鍵因素,隨著風(fēng)速變大,PM2.5濃度升高;而溫度的升高,會(huì)導(dǎo)致PM2.5濃度降低.
同理類似得出結(jié)論:影響自建點(diǎn)PM10的監(jiān)測(cè)濃度誤差的關(guān)鍵因素是溫度,隨著溫度的升高PM10的濃度會(huì)隨之下降;影響自建點(diǎn)CO的監(jiān)測(cè)濃度誤差的關(guān)鍵因素是溫度和壓強(qiáng),CO的濃度隨著壓強(qiáng)和溫度的提高而增加;影響自建點(diǎn)NO2的監(jiān)測(cè)濃度誤差的關(guān)鍵因素是溫度、濕度和壓強(qiáng),NO2的濃度會(huì)隨著溫度、濕度和壓強(qiáng)的升高而升高;影響自建點(diǎn)SO2的監(jiān)測(cè)濃度誤差的關(guān)鍵因素是溫度和壓強(qiáng),SO2的濃度會(huì)隨著壓強(qiáng)和溫度的升高而降低;影響自建點(diǎn)O3的監(jiān)測(cè)濃度誤差的關(guān)鍵因素是溫度、風(fēng)速和壓強(qiáng),O3的濃度會(huì)隨著壓強(qiáng)的變大而升高,隨著溫度和風(fēng)速的升高而降低.
要根據(jù)國控點(diǎn)數(shù)據(jù)對(duì)自建點(diǎn)數(shù)據(jù)校對(duì),因此不對(duì)附件2中天氣因素?cái)?shù)據(jù)進(jìn)行校對(duì),只考慮自建點(diǎn)處PM2.5,PM10,CO,NO2,SO2,O3監(jiān)測(cè)數(shù)據(jù)的校對(duì),具體建模步驟如下:
數(shù)據(jù)處理:由于CO的濃度與其他氣體濃度單位不統(tǒng)一應(yīng)先統(tǒng)一單位.
研究自建點(diǎn)PM2.5濃度與國控點(diǎn)PM2.5,PM10,CO,NO2,SO2,O3濃度的相關(guān)關(guān)系建立如下多元線性回歸模型:
z1=β0+β1w1+β2w2+β3w3+β4w4+β5w5+β6w6,ε~N(0,σ)
其中β0,β1,β2,β3,β4,β5,β6為多元回歸系數(shù).
1)采用逐步回歸法確定回歸變量,得到回歸方程為:
z1=35.420 268+1.153 459w1-0.102 907w2-0.160 784w4-0.161 531w5-0.174 849w6
2)殘差分析[5]及異常點(diǎn)檢測(cè),如圖3.
圖3 殘差分析與異常值檢驗(yàn)
圖3-a顯示殘差和擬合值之間數(shù)據(jù)點(diǎn)均勻分布在y=0兩側(cè),呈現(xiàn)出隨機(jī)的分布.
圖3-b顯示數(shù)據(jù)點(diǎn)按對(duì)角直線排列,趨于一條直線,并被對(duì)角直接穿過,直觀上符合正態(tài)分布.
圖3-c顯示數(shù)據(jù)點(diǎn)均勻分布在[-2.5,2.5]范圍內(nèi),呈現(xiàn)出隨機(jī)的分布.圖3-d顯示沒有出現(xiàn)等高線,則說明沒有影響回歸結(jié)果的異常點(diǎn).
結(jié)論,沒有明顯的異常點(diǎn),殘差符合假設(shè)條件.
3)自建點(diǎn)PM2.5濃度的校準(zhǔn)誤差
根據(jù)PM2.5濃度與國控點(diǎn)PM2.5,PM10,CO,NO2,SO2,O3濃度的多元線性回歸模型
z1=35.420 268+1.153 459w1-0.102 907w2-0.160 784w4-0.161 531w5-0.174 849w6
計(jì)算出自建點(diǎn)的測(cè)量數(shù)據(jù),再根據(jù)公式得到:
進(jìn)而計(jì)算出自建點(diǎn)PM2.5濃度的校準(zhǔn)誤差=自建測(cè)量值+平均誤差-國控值
PM2.5校準(zhǔn)表部分如表1(單位μg/m3).
表1 自建點(diǎn)PM2.5濃度的校準(zhǔn)誤差
其他氣體濃度誤差的校準(zhǔn)同自建點(diǎn)PM2.5濃度校對(duì)的多元線性回歸模型解題思路,此處不做贅述.
建立了線性多元回歸模型,詳細(xì)分析了導(dǎo)致自建點(diǎn)數(shù)據(jù)與國控點(diǎn)數(shù)據(jù)造成差異的因素.給出了對(duì)自建點(diǎn)數(shù)據(jù)進(jìn)行校準(zhǔn)的模型,值得微型空氣質(zhì)量儀的廠家進(jìn)行參考.
自建點(diǎn)數(shù)據(jù)校準(zhǔn)的模型的精度有待進(jìn)一步提高.
本模型可以推廣到化工廠的檢測(cè)排污儀器上.