基于網(wǎng)格劃分的空間關(guān)聯(lián)區(qū)域VOCs濃度預(yù)測(cè)研究

2021-05-07 07:56陸秋琴黃光球

西安理工大學(xué)學(xué)報(bào) 2021年1期

關(guān)鍵詞：決策樹(shù)監(jiān)測(cè)點(diǎn)預(yù)估

陸秋琴，蘭瓊，黃光球

(西安建筑科技大學(xué) 管理學(xué)院，陜西西安 710055)

隨著工業(yè)化的快速發(fā)展,區(qū)域性大氣污染日益突出，VOCs的大幅度排放引發(fā)了諸多環(huán)境問(wèn)題。作為PM2.5和臭氧等大氣污染物的重要前體物，VOCs能發(fā)生光化學(xué)反應(yīng)并生成有害的二次有機(jī)氣溶膠等物質(zhì)[1-2]。部分VOCs易燃易爆，部分VOCs有毒，可以致癌、引起病變，嚴(yán)重危害人體健康[3]，所以“十三五”生態(tài)環(huán)境保護(hù)規(guī)劃將VOCs納入大氣污染防治的重要模塊[4]。因此，對(duì)VOCs濃度進(jìn)行預(yù)測(cè)研究，有助于掌握其發(fā)展和變化規(guī)律，對(duì)制定有效的污染防治對(duì)策具有重要意義。不同的研究方法拓展和推動(dòng)了預(yù)測(cè)理論的發(fā)展，為其他行業(yè)的預(yù)測(cè)研究提供了參考。同時(shí)，該預(yù)測(cè)研究可為環(huán)境保護(hù)規(guī)劃提供重要的數(shù)據(jù)積累，對(duì)開(kāi)展污染控制有著積極的參考意義，也促進(jìn)了公眾參與和居民環(huán)保意識(shí)的提高。

當(dāng)前，對(duì)VOCs等大氣污染物濃度的預(yù)測(cè)研究主要是在其排放清單的基礎(chǔ)上展開(kāi)的，通過(guò)建立基準(zhǔn)年的污染物排放清單，來(lái)實(shí)現(xiàn)其他時(shí)段的預(yù)測(cè)[5]。國(guó)內(nèi)外學(xué)者還利用大氣排放因子S型曲線預(yù)測(cè)大氣污染物的未來(lái)排放趨勢(shì)[6-7]；除此之外，還有基于情景分析法的污染物濃度預(yù)測(cè)，通過(guò)識(shí)別關(guān)鍵不確定因素，構(gòu)建幾種可能出現(xiàn)的情景并分析內(nèi)容[8]；優(yōu)化模型也是污染物濃度預(yù)測(cè)的常見(jiàn)方法[9-10]。已經(jīng)提出的大氣污染濃度預(yù)測(cè)模型主要有回歸分析、灰色模型[11]、神經(jīng)網(wǎng)絡(luò)模型[12]、混沌模型[13]、基于時(shí)間序列的模型等[14]，以及他們的組合和改進(jìn)模型。最優(yōu)定權(quán)組合法大氣污染物濃度預(yù)測(cè)是基于多個(gè)空氣質(zhì)量模式，以各單項(xiàng)空氣質(zhì)量模式的組合預(yù)測(cè)誤差平方和最小為原則，構(gòu)建出針對(duì)大氣污染的預(yù)測(cè)模型[15]。模糊綜合評(píng)價(jià)方法一般都是結(jié)合預(yù)測(cè)模型來(lái)使用。通過(guò)模糊聚類分析，將影響環(huán)境質(zhì)量的各因素按主次區(qū)分，預(yù)測(cè)時(shí)考慮主要因素[16]。

以上研究還存在一些不足：①由于資金、地理?xiàng)l件等限制，對(duì)VOCs并不能做到全方位監(jiān)測(cè)，所獲取的數(shù)據(jù)和信息不太完整；②研究主要集中在數(shù)量預(yù)測(cè)方面，較少通過(guò)劃分區(qū)域精細(xì)到每一個(gè)網(wǎng)格進(jìn)行研究；③預(yù)測(cè)過(guò)程中較少考慮氣象指標(biāo)等因素對(duì)預(yù)測(cè)結(jié)果的影響。為了解決上述問(wèn)題，本文提出基于網(wǎng)格劃分的空間關(guān)聯(lián)區(qū)域VOCs濃度預(yù)測(cè)方法，以實(shí)現(xiàn)區(qū)域內(nèi)VOCs精細(xì)化預(yù)測(cè)研究。

1 網(wǎng)格劃分與編號(hào)

1.1 區(qū)域坐標(biāo)集合

根據(jù)選定區(qū)域建立相應(yīng)的坐標(biāo)系，建立原則為其中的每一點(diǎn)都能用坐標(biāo)表示，可以取所選范圍比例尺為坐標(biāo)刻度，獲取不同地方的坐標(biāo)，形成區(qū)域坐標(biāo)集合Rc：

Rc={(x1，y1)，(x2，y2)，…，(xn，yn)}

(1)

式中：(xi，yi)表示選定區(qū)域中的第i個(gè)坐標(biāo)，用二維平面坐標(biāo)表示，其中i=1，2，…，n；n表示區(qū)域坐標(biāo)點(diǎn)總個(gè)數(shù)。

1.2 點(diǎn)云網(wǎng)格劃分算法與編號(hào)

點(diǎn)云網(wǎng)格劃分算法是利用點(diǎn)與點(diǎn)之間的距離關(guān)系來(lái)實(shí)現(xiàn)網(wǎng)格劃分，基于一點(diǎn)搜索臨近點(diǎn)形成線段，根據(jù)線段中點(diǎn)臨近檢索第三點(diǎn)，連接三點(diǎn)形成一個(gè)三角網(wǎng)格。對(duì)其新邊進(jìn)行中點(diǎn)臨近檢索，依次形成網(wǎng)格體系，具體步驟如下。

1) 獲取區(qū)域坐標(biāo)點(diǎn)集合Rc，初始化一個(gè)種子網(wǎng)格?；邳c(diǎn)p1=(xm1,ym1)進(jìn)行臨近檢索到第二個(gè)坐標(biāo)點(diǎn)p2=(xm2,ym2)，連接兩點(diǎn)形成線段L(p1,p2),再基于線段L的中點(diǎn)臨近檢索第三點(diǎn)p3=(xm3,ym3)，連接點(diǎn)p3形成第一個(gè)三角網(wǎng)格，如圖1所示。將網(wǎng)格形成過(guò)程中產(chǎn)生的每條邊存入集合El，開(kāi)始時(shí)El=?。

圖1 種子網(wǎng)格

El=El∪(p1,p2)∪(p4,p3)∪…∪(pi,pj)

i,j=1,2,…,n

(2)

2) 在種子網(wǎng)格的基礎(chǔ)上進(jìn)行網(wǎng)格擴(kuò)充，利用中點(diǎn)檢索，形成原始網(wǎng)格。從邊集合El中獲取未進(jìn)行中點(diǎn)檢索的邊Lh(h=1,2,…,l；l為邊的數(shù)量)，其端點(diǎn)坐標(biāo)為pi=(xmi,ymi)、pj=(xmj,ymj),計(jì)算其中點(diǎn)坐標(biāo)Ci,j；從集合Rc檢索距離點(diǎn)Ci,j最近且未形成邊的點(diǎn)，中點(diǎn)邊與新點(diǎn)構(gòu)造出兩條新邊，形成一個(gè)新的三角網(wǎng)格,并將新產(chǎn)生的邊存入集合El中。重復(fù)該步驟，直到邊集合El中不再提供外邊中點(diǎn)檢索為止。

(3)

(4)

3) 原始網(wǎng)格擴(kuò)展，形成新網(wǎng)格。第二步結(jié)束形成一個(gè)原始網(wǎng)格，檢索集合Rc是否存在未形成邊的點(diǎn)，如果存在，則尋找新的種子網(wǎng)格重復(fù)第一、第二步，直到集合Rc不再有未形成邊的點(diǎn)為止，如圖2所示，此種情況下所選區(qū)域中存在大量的坐標(biāo)點(diǎn)。在形成網(wǎng)格過(guò)程中，如果出現(xiàn)中斷現(xiàn)象，只需重復(fù)上述第一、第二步形成新的網(wǎng)格即可。

4) 編制網(wǎng)格順序碼，標(biāo)識(shí)網(wǎng)格信息。在初始化種子網(wǎng)格時(shí)，將初始化的第一個(gè)三角網(wǎng)格編號(hào)為001，表示該區(qū)域的第一個(gè)網(wǎng)格。在網(wǎng)格擴(kuò)充時(shí)，根據(jù)網(wǎng)格劃分步驟以及檢索點(diǎn)算法，對(duì)形成的新網(wǎng)格依次編號(hào)，最后輸出編號(hào)后的區(qū)域網(wǎng)格以及網(wǎng)格編號(hào)信息 [(pi，pj，pk)，Num](k=1,2,…,n)，如圖2所示。其中(pi，pj，pk)表示形成該網(wǎng)格的三個(gè)坐標(biāo)點(diǎn)，即pi=(xmi,ymi)、pj=(xmj,ymj)、pk=(xmk,ymk)，Num表示網(wǎng)格編號(hào)，其編號(hào)值范圍為0～999的整數(shù)。

圖2 原始網(wǎng)格及網(wǎng)格編號(hào)圖

1.3 點(diǎn)云網(wǎng)格劃分的優(yōu)點(diǎn)

1) 不規(guī)則劃分。根據(jù)所取點(diǎn)不規(guī)則形成大小不一的三角網(wǎng)格。

2) 劃分區(qū)域選點(diǎn)靈活。根據(jù)劃分需求可以隨意選取點(diǎn)，選點(diǎn)過(guò)程能有效避免山川、河流等地理?xiàng)l件的限制。

3) 自動(dòng)編碼。在劃分過(guò)程中自動(dòng)編碼表示網(wǎng)格，達(dá)到網(wǎng)格唯一性和明確性的要求。

4) 點(diǎn)利用率高。在網(wǎng)格劃分中采取三點(diǎn)為一的原因是可以將研究區(qū)域中所有的點(diǎn)全部劃分完，不會(huì)遺留未劃分的點(diǎn)。

2 空間關(guān)聯(lián)區(qū)域數(shù)據(jù)預(yù)估與收集

2.1 空間關(guān)聯(lián)區(qū)域數(shù)據(jù)預(yù)估

1) 網(wǎng)格數(shù)據(jù)預(yù)估原理

在實(shí)現(xiàn)VOCs精細(xì)化監(jiān)管的過(guò)程中，將區(qū)域劃分成網(wǎng)格，在網(wǎng)格內(nèi)設(shè)置監(jiān)測(cè)點(diǎn)，監(jiān)測(cè)設(shè)備在固定時(shí)段對(duì)網(wǎng)格內(nèi)VOCs污染物進(jìn)行監(jiān)測(cè)，能夠準(zhǔn)確地標(biāo)識(shí)該網(wǎng)格內(nèi)VOCs污染物的監(jiān)測(cè)濃度值。但由于網(wǎng)格數(shù)眾多，并不是每一個(gè)網(wǎng)格都會(huì)設(shè)置監(jiān)測(cè)點(diǎn)，為了收集和計(jì)算未設(shè)置監(jiān)測(cè)點(diǎn)的網(wǎng)格數(shù)據(jù)，以及預(yù)估其污染物發(fā)展態(tài)勢(shì)，采取克里金插值法，通過(guò)已知網(wǎng)格數(shù)據(jù)及其與未知網(wǎng)格之間的空間關(guān)聯(lián)性來(lái)預(yù)估未知網(wǎng)格數(shù)據(jù)。

2) 克里金插值法預(yù)估過(guò)程

克里金插值被稱為空間最優(yōu)無(wú)偏估計(jì)器，它是以變異函數(shù)理論和結(jié)構(gòu)分析為基礎(chǔ)[17]，所選變異函數(shù)由數(shù)學(xué)期望、隨機(jī)場(chǎng)內(nèi)特定點(diǎn)的數(shù)學(xué)期望、方差運(yùn)算組成。克里金插值法會(huì)根據(jù)所選的變異函數(shù)模型進(jìn)行模擬，最終對(duì)待估點(diǎn)進(jìn)行預(yù)估。

設(shè)區(qū)域網(wǎng)格坐標(biāo)點(diǎn)pi處設(shè)有監(jiān)測(cè)點(diǎn)，監(jiān)測(cè)值為V(pi)，i=1，2，…，n，則未設(shè)置監(jiān)測(cè)點(diǎn)p0的估計(jì)值可以通過(guò)周圍n個(gè)監(jiān)測(cè)點(diǎn)的監(jiān)測(cè)值V(pi)求得，即

(5)

式中：λi為監(jiān)測(cè)點(diǎn)pi的權(quán)重，λi的取值不僅要考慮監(jiān)測(cè)點(diǎn)與預(yù)測(cè)點(diǎn)之間的距離，而且需結(jié)合二者的空間分布關(guān)系來(lái)確定,樣點(diǎn)分布如圖3所示。

圖3 樣點(diǎn)分布圖

設(shè)p0為待估計(jì)點(diǎn)，已知其鄰域內(nèi)有p1，p2，…，p8共8個(gè)采樣點(diǎn)，其位置如圖3所示，各點(diǎn)的權(quán)重分別是λ1，λ2，…，λ8，由于圖中p1、p2、p3、p6到p0的距離相同，并且有p2與p3、p1與p6關(guān)于p0對(duì)稱，則有λ2=λ3，但由于樣點(diǎn)p5、p7、p8與p6叢聚在一起，這種叢聚作用降低了樣點(diǎn)p6對(duì)待估計(jì)點(diǎn)p0的影響，p1是一個(gè)單獨(dú)的樣點(diǎn)不存在叢聚影響，而且點(diǎn)p6與p0之間存在點(diǎn)p4，由于點(diǎn)p4距離點(diǎn)p0更近，對(duì)p6存在屏蔽效應(yīng)，所以λ1>λ6。

要得到無(wú)偏最優(yōu)估計(jì)值，必須滿足下面兩個(gè)條件：

a) 無(wú)偏估計(jì)，即E=[V(p0)-V*(p0)]=0

b) 估計(jì)方差最小，即

Var[V(p0)-V*(p0)]=min

則要求權(quán)重λi滿足下列方程：

(6)

2.2 數(shù)據(jù)收集及預(yù)處理

1) 數(shù)據(jù)收集

現(xiàn)有的監(jiān)測(cè)設(shè)備不僅可以監(jiān)測(cè)到VOCs的濃度(即單位體積排放量)，而且可以分析出該區(qū)域內(nèi)VOCs不同組成成分的含量，并將監(jiān)測(cè)數(shù)據(jù)上傳至服務(wù)器進(jìn)行存儲(chǔ)，對(duì)于設(shè)有監(jiān)測(cè)點(diǎn)的網(wǎng)格，通過(guò)監(jiān)測(cè)設(shè)備獲取到VOCs監(jiān)測(cè)值，并按照統(tǒng)一格式處理。已知監(jiān)測(cè)點(diǎn)的監(jiān)測(cè)數(shù)據(jù)，通過(guò)克里金插值法計(jì)算未設(shè)有監(jiān)測(cè)點(diǎn)網(wǎng)格的VOCs組成成分預(yù)估值。將網(wǎng)格監(jiān)測(cè)數(shù)據(jù)與網(wǎng)格預(yù)估數(shù)據(jù)合并，得到區(qū)域網(wǎng)格的VOCs污染物濃度值，如表1所示。

表1 區(qū)域網(wǎng)格VOCs污染物濃度值

表1對(duì)VOCs主要成分依次劃分了編號(hào)：苯為1號(hào)、甲苯為2號(hào)、……、苯乙烯為12號(hào)，并結(jié)合單元網(wǎng)格順序碼，描述不同網(wǎng)格中不同成分的監(jiān)測(cè)濃度值，如V001(1)表示001號(hào)網(wǎng)格中苯的濃度值、V028(12)表示028號(hào)網(wǎng)格中苯乙烯的濃度值，依次收集得到區(qū)域網(wǎng)格VOCs污染物的濃度值。

2) 數(shù)據(jù)預(yù)處理

數(shù)據(jù)預(yù)處理是對(duì)收集到的網(wǎng)格數(shù)據(jù)進(jìn)行整理的過(guò)程，通過(guò)研究區(qū)域每個(gè)網(wǎng)格的VOCs污染物濃度數(shù)據(jù)，形成區(qū)域VOCs污染物數(shù)據(jù)集合：

(7)

式中：D表示整個(gè)研究區(qū)域網(wǎng)格VOCs組成成分濃度集合；vij表示第i網(wǎng)格內(nèi)第j類污染物的濃度值。

3 基于隨機(jī)森林算法的VOCs預(yù)測(cè)模型

3.1 數(shù)據(jù)集及模型結(jié)構(gòu)

1) VOCs預(yù)測(cè)模型特征

VOCs預(yù)測(cè)模型特征可分為兩大類型，VOCs污染物和氣象指標(biāo)，具體特征如表2所示。

表2中VOCs污染物特征是指VOCs污染物的烷類、烴類、酯類、醇類、苯系物等具體監(jiān)測(cè)成分；氣象指標(biāo)是指監(jiān)測(cè)當(dāng)天的氣象特征。表2中所有特征形成特征向量集合F。

表2 VOCs特征表

2) VOCs預(yù)測(cè)模型原始訓(xùn)練樣本數(shù)據(jù)集合

基于研究區(qū)域VOCs污染物數(shù)據(jù)特征以及時(shí)間維度，形成區(qū)域VOCs數(shù)據(jù)集VD：

(8)

式中：αt1，αt2，…，αti和βt1，βt2，…，βti是時(shí)序特征向量，分別表示某一時(shí)間段內(nèi)區(qū)域VOCs污染物濃度集合和區(qū)域VOCs總濃度序列數(shù)據(jù)；γ1，γ2，…，γm是非時(shí)序特征向量，包含氣象指標(biāo)參數(shù)值、VOCs污染物特征。

3) VOCs預(yù)測(cè)模型構(gòu)建

在上述數(shù)據(jù)處理的基礎(chǔ)上，運(yùn)用隨機(jī)森林算法對(duì)研究區(qū)域VOCs濃度進(jìn)行預(yù)測(cè)建模，建模過(guò)程如圖4所示。

圖4 基于隨機(jī)森林的區(qū)域VOCs預(yù)測(cè)建模過(guò)程

首先，利用Bootstrap方法從原始訓(xùn)練樣本集VD中隨機(jī)抽取多個(gè)訓(xùn)練樣本子集，對(duì)每個(gè)子集分別進(jìn)行決策樹(shù)建模，然后利用測(cè)試集對(duì)各決策樹(shù)進(jìn)行測(cè)試，綜合多棵決策樹(shù)測(cè)試結(jié)果，通過(guò)投票得出最終的預(yù)測(cè)模型。

3.2 訓(xùn)練樣本子集的隨機(jī)選取

原始訓(xùn)練樣本子集由兩部分構(gòu)成：一類為VD中區(qū)域VOCs總量數(shù)據(jù)集合βti，將其作為預(yù)測(cè)模型的輸出；另一類為對(duì)應(yīng)的區(qū)域網(wǎng)格VOCs污染物平均濃度集合αti和非時(shí)序特征數(shù)據(jù)集合γm，將其作為預(yù)測(cè)模型輸入。

利用Bootstrap方法從VD隨機(jī)選取w個(gè)訓(xùn)練樣本子集V1，V2，…，Vw，用于構(gòu)建w棵分類回歸樹(shù)(CART)。由于訓(xùn)練樣本集的選取采用有放回的采樣方法，在采樣過(guò)程中會(huì)有36.8%的原始樣本不會(huì)出現(xiàn)在采集的樣本集合中，這些數(shù)據(jù)稱為袋數(shù)(out-of-bag，OOB)，對(duì)CART決策樹(shù)的誤差進(jìn)行估計(jì)。對(duì)誤差估計(jì)取平均，便可得到隨機(jī)森林的泛化誤差估計(jì)值，由此可以對(duì)VOCs濃度預(yù)測(cè)模型的精度進(jìn)行量化度量[18]。

3.3 CART決策樹(shù)的構(gòu)建

對(duì)每個(gè)訓(xùn)練樣本子集，采用CART算法生成一棵決策樹(shù)，共生成w棵決策樹(shù)。為保證決策樹(shù)構(gòu)建的隨機(jī)性，采用隨機(jī)子空間思想，從VOCs特征集合F中隨機(jī)選取m個(gè)特征作為隨機(jī)特征變量，參與決策樹(shù)節(jié)點(diǎn)分裂過(guò)程，其中m≤log2(M+1)，而M表示特征集合F的集合長(zhǎng)度。此外，整個(gè)隨機(jī)森林中決策樹(shù)的棵數(shù)w需根據(jù)預(yù)測(cè)結(jié)果來(lái)調(diào)整。

3.4 VOCs濃度預(yù)測(cè)結(jié)果投票及性能評(píng)價(jià)

1) VOCs濃度預(yù)測(cè)結(jié)果

當(dāng)w棵樹(shù)構(gòu)建完成后，利用測(cè)試集對(duì)數(shù)據(jù)進(jìn)行仿真。將測(cè)試集數(shù)據(jù)Vk作為輸入，得到各決策樹(shù)模型預(yù)測(cè)的結(jié)果序列{fk1(V1)，fk2(V2)，…，fkw(Vw)}，基于隨機(jī)森林算法的預(yù)測(cè)模型最終預(yù)測(cè)輸出的VOCs濃度采用投票方式產(chǎn)生：

k=1,2,…,n

(9)

式中：Fk為組合預(yù)測(cè)模型；fki為單棵決策樹(shù)預(yù)測(cè)模型；I為示性函數(shù)；Yk為各決策樹(shù)預(yù)測(cè)的結(jié)果序列。將預(yù)測(cè)模型進(jìn)行線性組合，即可得到區(qū)域VOCs濃度預(yù)測(cè)模型。

2) 性能評(píng)價(jià)指標(biāo)

采用通用的模型誤差、擬合程度、效率作為度量指標(biāo)，進(jìn)行多模型量化評(píng)估，如平均相對(duì)誤差(MRE)和決定系數(shù)(R2)。其中R2表示模型輸入變量對(duì)輸出變量的解釋程度，也稱為擬合優(yōu)度，取值在0到1之間。MRE越小，R2越接近于1，說(shuō)明模型準(zhǔn)確度越高。

(10)

(11)

4 案例分析

4.1 數(shù)據(jù)源

以西安市某區(qū)域涉及VOCs排放的企業(yè)為研究對(duì)象，企業(yè)清單來(lái)源于北極星網(wǎng)站，時(shí)間跨度為2018年6月至2018年12月。VOCs具體濃度數(shù)據(jù)通過(guò)企業(yè)年報(bào)、地方統(tǒng)計(jì)年鑒以及天氣后報(bào)網(wǎng)站獲得。將研究區(qū)域劃分成不同大小的網(wǎng)格，收集設(shè)有監(jiān)測(cè)設(shè)備網(wǎng)格的污染物數(shù)據(jù)，通過(guò)克里金插值估計(jì)法計(jì)算出未設(shè)監(jiān)測(cè)設(shè)備網(wǎng)格的污染物數(shù)據(jù)，形成VOCs數(shù)據(jù)集VD。

4.2 研究區(qū)域網(wǎng)格劃分及數(shù)據(jù)收集

1) 網(wǎng)格劃分

通過(guò)點(diǎn)云網(wǎng)格算法對(duì)西安市某區(qū)進(jìn)行網(wǎng)格劃分并且對(duì)網(wǎng)格進(jìn)行編號(hào)。首先獲取該區(qū)的坐標(biāo)點(diǎn)集合，初始化種子網(wǎng)格，然后在種子網(wǎng)格的基礎(chǔ)上繼續(xù)擴(kuò)充，形成新的網(wǎng)格，以此類推，將整個(gè)區(qū)域的網(wǎng)格劃分完畢，并編制網(wǎng)格順序碼，標(biāo)識(shí)網(wǎng)格信息，結(jié)果如圖5所示。

圖5 西安市某區(qū)網(wǎng)格劃分及編號(hào)圖

2) 數(shù)據(jù)集

研究區(qū)域中有部分網(wǎng)格設(shè)有監(jiān)測(cè)點(diǎn)，由監(jiān)測(cè)點(diǎn)獲取到網(wǎng)格VOCs監(jiān)測(cè)數(shù)據(jù)，包括VOCs污染物組分中的甲苯、乙烯、苯乙烯等12種物質(zhì)，具體監(jiān)測(cè)數(shù)值如表3所示。

表3 監(jiān)測(cè)點(diǎn)VOCs污染物濃度值

4.3 空間關(guān)聯(lián)區(qū)域數(shù)據(jù)預(yù)估

根據(jù)網(wǎng)格坐標(biāo)點(diǎn)及VOCs污染物濃度值，構(gòu)建一個(gè)40×40的網(wǎng)格，標(biāo)注范圍為1～40，即使網(wǎng)格間距為1。創(chuàng)建矩陣S和Y分別存儲(chǔ)坐標(biāo)值和觀測(cè)值(即VOCs污染物濃度值)用于預(yù)測(cè)，根據(jù)其預(yù)估點(diǎn)和已知數(shù)值網(wǎng)格坐標(biāo)點(diǎn)的空間位置，形成預(yù)測(cè)值表面，如圖6所示。

注：黑色點(diǎn)表示原始散點(diǎn)數(shù)據(jù)

根據(jù)圖6中預(yù)測(cè)值表面，結(jié)合每個(gè)點(diǎn)的擬合誤差值，求解出待估點(diǎn)的預(yù)估值，擬合誤差值如圖7所示。

圖7 擬合誤差值

在λi滿足式(6)的條件下，將其相關(guān)數(shù)值代入式(5)計(jì)算出未設(shè)有監(jiān)測(cè)點(diǎn)網(wǎng)格的VOCs污染物預(yù)估值，具體數(shù)值如表4所示。

表4 預(yù)估點(diǎn)VOCs污染物濃度值

4.4 隨機(jī)森林模型預(yù)測(cè)

1) 模型構(gòu)建及變量相關(guān)性分析

通過(guò)上述數(shù)據(jù)收集，獲得1 237組VOCs濃度數(shù)據(jù)，按式(8)處理得到數(shù)據(jù)集VD形成原始訓(xùn)練樣本集，將其劃分為訓(xùn)練集和驗(yàn)證集，構(gòu)建隨機(jī)森林回歸模型預(yù)測(cè)VOCs污染物濃度。VOCs特征集合F作為變量參與決策樹(shù)的分裂，模型預(yù)測(cè)中每個(gè)特征所起的作用不同，其相關(guān)系數(shù)如表5所示。

表5 VOCs部分特征相關(guān)系數(shù)表

根據(jù)相關(guān)系數(shù)表，VOCs與異丁烷以及環(huán)戊烷的線性相關(guān)性最大，相關(guān)系數(shù)達(dá)到了0.8以上，但是異戊烷與丙烯、甲苯之間的相關(guān)系數(shù)也達(dá)到了0.8以上，即各因素之間存在多重共線性，不滿足相互獨(dú)立條件，不能直接進(jìn)行線性回歸，所以采用隨機(jī)森林預(yù)測(cè)。

2) 模型訓(xùn)練、驗(yàn)證和評(píng)估

將原始數(shù)據(jù)集合分為訓(xùn)練集和驗(yàn)證集，由式(10)、(11)分別進(jìn)行模型的訓(xùn)練和驗(yàn)證，并對(duì)模型訓(xùn)練和驗(yàn)證結(jié)果進(jìn)行評(píng)估，如表6所示。

表6 模型評(píng)估參數(shù)表

表6中訓(xùn)練集和驗(yàn)證集的相關(guān)評(píng)估參數(shù)值相差很小，其決定系數(shù)R2以及解釋度均達(dá)到了98%以上，表明模型在自變量不發(fā)生變化的情況下，因變量的變異概率極小。模型訓(xùn)練過(guò)程中，各特征參數(shù)的重要性如圖8所示。

圖8 VOCs特征影響系數(shù)表

圖8表明， VOCs污染物的預(yù)測(cè)中，烷烴類污染物重要性比較強(qiáng)，相對(duì)而言溫度及壓強(qiáng)作用比較小。

3) VOCs污染物濃度預(yù)測(cè)

從設(shè)有監(jiān)測(cè)點(diǎn)網(wǎng)格中選取19組數(shù)據(jù)作為預(yù)測(cè)集輸入模型，得到各決策樹(shù)的預(yù)測(cè)結(jié)果序列，再根據(jù)式(9)投票篩選出最優(yōu)預(yù)測(cè)結(jié)果，預(yù)測(cè)結(jié)果如表7所示。

表7 VOCs污染物濃度預(yù)測(cè)結(jié)果

4) 模型比較

本文是基于網(wǎng)格空間特性以及隨機(jī)森林回歸模型實(shí)現(xiàn)VOCs污染物濃度預(yù)測(cè)，現(xiàn)將預(yù)測(cè)結(jié)果與常用的BP神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)結(jié)果進(jìn)行比較，如表8所示。

表8給出了不同網(wǎng)格在兩種預(yù)測(cè)模型下的VOCs污染物預(yù)測(cè)值，未設(shè)置監(jiān)測(cè)點(diǎn)的網(wǎng)格VOCs污染物實(shí)際值用克里金插值預(yù)測(cè)結(jié)果代替；分別采用相對(duì)誤差和平均相對(duì)誤差對(duì)兩種模型進(jìn)行分析。由表8可知，隨機(jī)森林模型和BP神經(jīng)網(wǎng)絡(luò)模型的VOCs總量預(yù)測(cè)值的平均誤差分別是3.15%和13.36%，由此可見(jiàn)，隨機(jī)森林回歸模型誤差更小。

表8 不同預(yù)測(cè)方法的結(jié)果對(duì)比

5 結(jié) 論

本次預(yù)測(cè)是根據(jù)區(qū)域空間關(guān)聯(lián)性以及VOCs污染物特征，對(duì)其濃度進(jìn)行的精細(xì)化預(yù)測(cè)，意在解決監(jiān)測(cè)設(shè)備不能普及部署以及區(qū)域之間污染物的流動(dòng)影響問(wèn)題。

1) 各區(qū)域之間的污染物存在相互影響?？死锝鸩逯捣ㄍㄟ^(guò)網(wǎng)格的空間地理位置來(lái)預(yù)估未設(shè)置監(jiān)測(cè)點(diǎn)的網(wǎng)格數(shù)據(jù)；隨機(jī)森林模型基于污染物特征之間的相關(guān)關(guān)系預(yù)測(cè)污染物的濃度，隨機(jī)森林模型預(yù)測(cè)的結(jié)果更加精準(zhǔn)。

2) 和BP神經(jīng)網(wǎng)絡(luò)模型相比，隨機(jī)森林模型誤差更小，其VOCs總濃度預(yù)測(cè)值的平均誤差為3.15%。模型構(gòu)建過(guò)程考慮了氣象指標(biāo)對(duì)預(yù)測(cè)結(jié)果的影響，更能體現(xiàn)出VOCs特征之間的關(guān)聯(lián)性及相互影響作用。

3) 運(yùn)用基于隨機(jī)森林算法的預(yù)測(cè)模型預(yù)測(cè)區(qū)域VOCs總濃度,同時(shí)也可以預(yù)測(cè)其組成成分的濃度(如苯、甲苯、苯乙烯等)，將其與國(guó)家VOCs排放控制標(biāo)準(zhǔn)限值進(jìn)行對(duì)比，當(dāng)超出限值時(shí)，結(jié)合區(qū)域網(wǎng)格編號(hào)信息[(pi，pj，pk)，Num]獲得其坐標(biāo)信息(pi，pj，pk)，而坐標(biāo)定位位置可為管理者超前管控提供依據(jù)。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡