胡清華,陸 晨,胡 倩,魏淑珍,蔣東升,黃艷艷
(1.福建省環(huán)境監(jiān)測(cè)中心站,福建福州 350003;2.北京思路創(chuàng)新科技有限公司,北京 100085)
數(shù)值預(yù)報(bào)模式的研究應(yīng)用始于本世紀(jì)初,至今已有10余年,出現(xiàn)了一大批出色的城市、區(qū)域和全球尺度的數(shù)值模式[1]。數(shù)值模式預(yù)報(bào)要求有比較詳盡的污染源資料和氣象資料,并且要求對(duì)影響污染物擴(kuò)散的所有因子要有精確的化學(xué)、物理和數(shù)學(xué)描述,多為中大尺度,最小網(wǎng)格一般為3km×3km。對(duì)于城市局部地域尺度的環(huán)境空氣質(zhì)量無(wú)法做到精細(xì)化預(yù)測(cè)預(yù)報(bào),同時(shí)受限于處理時(shí)效及計(jì)算機(jī)硬件設(shè)備,難以做到實(shí)時(shí)預(yù)測(cè)預(yù)報(bào)。
統(tǒng)計(jì)預(yù)報(bào)是在不掌握事物變化機(jī)理的情況下,通過(guò)分析事物規(guī)律來(lái)進(jìn)行預(yù)測(cè)的方法,將歷史上的污染物濃度監(jiān)測(cè)值與前期和同期的氣象條件聯(lián)系起來(lái),建立具有一定信度的統(tǒng)計(jì)關(guān)系,并利用該關(guān)系對(duì)未來(lái)的污染物濃度進(jìn)行預(yù)報(bào)。然而,污染物濃度監(jiān)測(cè)值主要依靠地面空氣自動(dòng)監(jiān)測(cè)站點(diǎn)的實(shí)時(shí)監(jiān)測(cè)數(shù)據(jù)來(lái)獲取。由于站點(diǎn)建設(shè)和維護(hù)成本高昂,一個(gè)城市通常僅有有限數(shù)量的空氣質(zhì)量監(jiān)測(cè)站點(diǎn),并不能完全覆蓋整個(gè)城市范圍。同時(shí),受地表植被、交通流量、人群分布、建筑物密度和氣象條件等各種復(fù)雜因素影響,隨地域不均勻地變化,城市中不同地域的空氣質(zhì)量差異顯著。因此,有限站點(diǎn)的監(jiān)測(cè)數(shù)據(jù)并不能完整、細(xì)致反映整個(gè)城市的空氣污染情況,整個(gè)城市的精細(xì)空氣狀況也不宜用一個(gè)或有限的幾個(gè)籠統(tǒng)數(shù)據(jù)來(lái)概括。近年來(lái),隨著感知技術(shù)和計(jì)算環(huán)境的日漸成熟,各種大數(shù)據(jù)在城市里悄然而生,如交通流、氣象數(shù)據(jù)、道路網(wǎng)、興趣點(diǎn)(POI)、移動(dòng)軌跡和社交媒體等,這些數(shù)據(jù)既反映了城市中存在的問(wèn)題,也可以用來(lái)解決城市所面臨的挑戰(zhàn)[2]。
本研究以海峽西岸城市群中的福州市為示范,在已有空氣質(zhì)量站點(diǎn)的基礎(chǔ)上,采用多功能、高效、小巧的傳感設(shè)備進(jìn)行監(jiān)測(cè)加密,利用大數(shù)據(jù)的分析機(jī)理與空氣質(zhì)量模型的城市計(jì)算技術(shù),建設(shè)城市空氣質(zhì)量實(shí)時(shí)精細(xì)化模擬與預(yù)報(bào)平臺(tái)。使用已有及新增的實(shí)時(shí)和歷史空氣質(zhì)量監(jiān)測(cè)數(shù)據(jù),結(jié)合交通流、道路結(jié)構(gòu)(路網(wǎng))、POI分布、氣象條件和人們流動(dòng)規(guī)律等多種數(shù)據(jù)源的大數(shù)據(jù),利用機(jī)器學(xué)習(xí)算法建立數(shù)據(jù)和空氣質(zhì)量的映射關(guān)系,實(shí)時(shí)分析整個(gè)城市細(xì)粒度(1km×1km)的空氣質(zhì)量,嘗試為政府與公眾提供精細(xì)化的城市空氣質(zhì)量服務(wù)。此外,還能對(duì)城市空氣污染的發(fā)展趨勢(shì)提出預(yù)測(cè),為分析污染成因提供基礎(chǔ)數(shù)據(jù),從而為環(huán)境管理提供決策輔助支持,為市民出行提供幫助與指導(dǎo)。
為保證數(shù)據(jù)的可比性及可靠性,同時(shí)便于系統(tǒng)模型評(píng)估比較,在研究區(qū)域內(nèi)增加布設(shè)了18個(gè)小型空氣質(zhì)量監(jiān)測(cè)儀器,多數(shù)布設(shè)于紫陽(yáng)和師大兩個(gè)城市標(biāo)準(zhǔn)站點(diǎn)周邊,其中紫陽(yáng)站點(diǎn)周邊8個(gè)、師大站點(diǎn)周邊6個(gè),與標(biāo)準(zhǔn)站點(diǎn)的距離在200~1 500m。
以福州為示范的城市空氣質(zhì)量實(shí)時(shí)精細(xì)化模擬與預(yù)報(bào)平臺(tái)分為數(shù)據(jù)感知層、數(shù)據(jù)管理層、計(jì)算支撐層、推測(cè)預(yù)測(cè)層和展示應(yīng)用層等五個(gè)層次,具體的結(jié)構(gòu)圖見(jiàn)圖1。
系統(tǒng)分為數(shù)據(jù)感知層、數(shù)據(jù)管理層、計(jì)算支撐層、推測(cè)預(yù)測(cè)層和展示應(yīng)用層等五個(gè)層次。
(1)數(shù)據(jù)感知層
數(shù)據(jù)感知層通過(guò)監(jiān)測(cè)設(shè)備和傳感器感知和獲取平臺(tái)所需數(shù)據(jù),包括天氣特征、交通流量相關(guān)特征、人類(lèi)移動(dòng)特征、路網(wǎng)結(jié)構(gòu)特征和POI相關(guān)特征。
(2)數(shù)據(jù)管理層
利用時(shí)空索引、流數(shù)據(jù)、軌跡數(shù)據(jù)管理、圖數(shù)據(jù)管理、異構(gòu)數(shù)據(jù)索引等方法管理收集的城市數(shù)據(jù)。
(3)計(jì)算支撐層
提供數(shù)據(jù)分析計(jì)算的各類(lèi)支撐工具,運(yùn)用數(shù)學(xué)方法對(duì)獲取和管理后的數(shù)據(jù)進(jìn)行分析,包括數(shù)據(jù)挖掘、模式識(shí)別、機(jī)器學(xué)習(xí)和可視化等方法。
(4)推測(cè)預(yù)測(cè)層
通過(guò)加載POI、路網(wǎng)數(shù)據(jù),加載空氣質(zhì)量、氣象數(shù)據(jù),采集需要計(jì)算的時(shí)間點(diǎn),設(shè)置模型參數(shù)、加載指定模型,代入模型計(jì)算等流程實(shí)現(xiàn)空氣質(zhì)量的推測(cè);在空氣質(zhì)量推測(cè)的基礎(chǔ)上,通過(guò)加載組裝數(shù)據(jù),考慮周邊因素,計(jì)算預(yù)測(cè)特征數(shù)據(jù)等步驟完成對(duì)空氣質(zhì)量的推測(cè)和預(yù)測(cè)。
(5)展示應(yīng)用層
包括網(wǎng)格分析和數(shù)據(jù)對(duì)比兩部分內(nèi)容,網(wǎng)格分析是在GIS地圖上,對(duì)站點(diǎn)實(shí)時(shí)監(jiān)測(cè)、網(wǎng)格推測(cè)、統(tǒng)計(jì)分析以及預(yù)測(cè)的結(jié)果進(jìn)行直觀的查詢(xún)展示;數(shù)據(jù)對(duì)比是對(duì)加入小型監(jiān)測(cè)設(shè)備后的網(wǎng)格、站點(diǎn)預(yù)測(cè)的數(shù)據(jù)進(jìn)行對(duì)比與評(píng)估。
在系統(tǒng)建設(shè)過(guò)程中,采用了多種技術(shù)來(lái)完成系統(tǒng)構(gòu)建和空氣質(zhì)量推測(cè)預(yù)測(cè),主要包括傳感器技術(shù)、物聯(lián)網(wǎng)采集與管理技術(shù)、數(shù)據(jù)挖掘技術(shù)、城市計(jì)算優(yōu)化技術(shù)、混合數(shù)據(jù)可視化技術(shù)等等。
本研究采用的傳感器技術(shù)實(shí)現(xiàn)現(xiàn)有專(zhuān)業(yè)傳感器 (如溫度傳感器、位置傳感器、空氣質(zhì)量自動(dòng)監(jiān)測(cè)站、空氣質(zhì)量小型站等)之間的互聯(lián)互通,完成數(shù)據(jù)的快速收集[3]。本研究采用的空氣質(zhì)量監(jiān)測(cè)儀器為適合于長(zhǎng)期運(yùn)行的微小型在線(xiàn)式儀器,直接安裝在電桿等通用墻物上,采用傳感器方式對(duì)環(huán)境空氣中PM2.5、PM10、SO2、NO2、CO、O3、溫度、濕度進(jìn)行實(shí)時(shí)在線(xiàn)分析,數(shù)據(jù)產(chǎn)生的時(shí)間頻率是分鐘級(jí),功率≤5W,可采用太陽(yáng)能供電或外接市電供電,數(shù)據(jù)無(wú)線(xiàn)傳輸并內(nèi)置存儲(chǔ)功能。其中:①PM2.5、PM10采用光散射法測(cè)量,測(cè)量范圍0~1 000μg/m3,檢出限分別為≤10μg/m3、≤20μg/m3,分辨率≤1μg/m3。② SO2、NO2、O3采用電化學(xué)分析法測(cè)量,測(cè)量范圍0~500ppb,檢出限≤5ppb,分辨率≤0.01ppb,響應(yīng)時(shí)間≤45s。③ CO采用電化學(xué)分析法測(cè)量,測(cè)量范圍0~50ppm,檢出限≤0.1ppm,分辨率≤0.1ppm,響應(yīng)時(shí)間≤45s。④溫度測(cè)量范圍-20℃~55℃,分辨率≤±1℃。⑤濕度測(cè)量范圍5%~95%RH,分辨率≤±1%RH。
圖1 平臺(tái)總體框架圖
城市計(jì)算是一個(gè)交叉學(xué)科,是計(jì)算機(jī)科學(xué)中以城市為背景,與城市規(guī)劃、交通、能源、環(huán)境、社會(huì)學(xué)和經(jīng)濟(jì)等學(xué)科融合的新興領(lǐng)域。城市計(jì)算將無(wú)處不在的感知技術(shù)、高效的數(shù)據(jù)管理和分析算法,以及新穎的可視化技術(shù)結(jié)合,致力于提高人們的生活品質(zhì)、保護(hù)環(huán)境和促進(jìn)城市運(yùn)轉(zhuǎn)效率。城市計(jì)算幫助理解各種城市現(xiàn)象的本質(zhì),甚至預(yù)測(cè)城市的未來(lái)[4]。
精細(xì)化網(wǎng)格預(yù)測(cè)是利用空氣質(zhì)量監(jiān)測(cè)站點(diǎn)的實(shí)時(shí)和歷史數(shù)據(jù),結(jié)合交通流、道路結(jié)構(gòu)、POI分布、氣象條件和人群流動(dòng)規(guī)律等大數(shù)據(jù),利用機(jī)器學(xué)習(xí)算法建立大數(shù)據(jù)和空氣質(zhì)量的映射關(guān)系,從而推斷出整個(gè)城市細(xì)粒度的實(shí)時(shí)空氣質(zhì)量[5,6]。
模型將具有空間屬性的信息和具有時(shí)序特性的信息作為輸入,訓(xùn)練半監(jiān)督的模型框架,從而得出城市細(xì)粒度的實(shí)時(shí)空氣質(zhì)量。整個(gè)模型計(jì)算流程如圖2所示。
首先是數(shù)據(jù)采集與預(yù)處理。由交通工具如出租車(chē)、公交車(chē)、安裝了GPS的私家車(chē)移動(dòng)產(chǎn)生的空間軌跡,通過(guò)地圖映射算法將這些軌跡映射到路網(wǎng)中,映射數(shù)據(jù)存放在軌跡數(shù)據(jù)庫(kù)作為離線(xiàn)學(xué)習(xí)用,同時(shí)會(huì)生成地理索引以提升在線(xiàn)推斷的效率。
然后從各個(gè)區(qū)域提取的不同數(shù)值中進(jìn)一步提取特征,可以分為兩類(lèi),一類(lèi)是時(shí)間屬性數(shù)據(jù),特征值隨時(shí)間而變化,例如溫度、濕度、平均車(chē)速,這些數(shù)據(jù)可以從天氣數(shù)據(jù)和空間軌跡數(shù)據(jù)中提取出來(lái)。另一類(lèi)是空間屬性數(shù)據(jù),如POI的密度,道路的長(zhǎng)度,這些數(shù)據(jù)可以從POI和路網(wǎng)數(shù)據(jù)中獲取。如果監(jiān)測(cè)站點(diǎn)正好是在網(wǎng)格內(nèi)的某個(gè)位置,這個(gè)網(wǎng)格會(huì)被標(biāo)記由該監(jiān)測(cè)站點(diǎn)獲得的AQI或其他數(shù)據(jù),這個(gè)特征值就會(huì)被提取出來(lái)形成相應(yīng)的標(biāo)簽作為訓(xùn)練集。但由于監(jiān)測(cè)站點(diǎn)有限,而需要參照這一數(shù)據(jù)的地方卻非常多,采用半監(jiān)督的學(xué)習(xí)方法使用未加標(biāo)簽的數(shù)據(jù)提升推斷的準(zhǔn)確率。首先使用兩個(gè)不同的分類(lèi)器,通過(guò)特征集分別訓(xùn)練加標(biāo)簽的數(shù)據(jù),一類(lèi)是基于線(xiàn)性條件場(chǎng)的時(shí)序分類(lèi)器,用于測(cè)算某一個(gè)位置空氣質(zhì)量的時(shí)序變化,另一類(lèi)是基于神經(jīng)元網(wǎng)絡(luò)的空間分類(lèi)器,用于測(cè)算不同位置空氣質(zhì)量的空間關(guān)聯(lián)性?,F(xiàn)有監(jiān)測(cè)站點(diǎn)的AQI會(huì)作為空間分類(lèi)器的輸入。由于不同類(lèi)型污染物(如NO2和PM10)的影響因素不同,因此需要為每一種污染物構(gòu)建模型。
最后,根據(jù)網(wǎng)格的影響區(qū)域計(jì)算每一個(gè)網(wǎng)格的特征。同時(shí)空間特征(如POI的分布)做離線(xiàn)計(jì)算,時(shí)間特征做在線(xiàn)計(jì)算,例如交通相關(guān)的特征基于在預(yù)處理流構(gòu)建的時(shí)空索引中提取出來(lái)。對(duì)于每一個(gè)網(wǎng)格,將時(shí)序?qū)傩缘奶卣鞣湃霑r(shí)序分類(lèi)器,空間屬性的特征放入空間分類(lèi)器。由于監(jiān)測(cè)站點(diǎn)每小時(shí)發(fā)布數(shù)據(jù),模型也每小時(shí)生成一次結(jié)果,結(jié)果包括空氣質(zhì)量網(wǎng)格推測(cè)數(shù)據(jù)和預(yù)測(cè)數(shù)據(jù)。
可視化技術(shù)充分利用人們對(duì)可視模式快速識(shí)別的自然能力,將數(shù)據(jù)信息和知識(shí)轉(zhuǎn)化為如圖像、圖形、表格等之類(lèi)的視覺(jué)形式,將信息以視覺(jué)形式表現(xiàn)出來(lái),利用人們視覺(jué)通道的快速感知能力去觀察、識(shí)別和加工信息,以直觀的方式幫助理解獲取的知識(shí)和模式[7-9]。與單一數(shù)據(jù)可視化不同,城市計(jì)算中的可視化技術(shù)需要同時(shí)考慮多個(gè)維度,其中空間和時(shí)間是兩個(gè)至關(guān)重要的維度。
圖2 城市計(jì)算模型框架圖
依托于框架設(shè)計(jì)和關(guān)鍵技術(shù),本研究成功實(shí)現(xiàn)了城市空氣質(zhì)量實(shí)時(shí)精細(xì)化模擬與預(yù)報(bào)(福州示范)系統(tǒng)平臺(tái)功能的開(kāi)發(fā)。目前平臺(tái)已經(jīng)在福建省級(jí)環(huán)境監(jiān)測(cè)部門(mén)實(shí)現(xiàn)了穩(wěn)定運(yùn)行。
運(yùn)行結(jié)果達(dá)到了研發(fā)的預(yù)期目標(biāo):
(1)實(shí)現(xiàn)了城市細(xì)粒度級(jí)別(1km×1km)環(huán)境空氣質(zhì)量的實(shí)時(shí)預(yù)報(bào)與模擬,彌補(bǔ)城市尺度預(yù)報(bào)粒度與實(shí)時(shí)性的不足。
(2)實(shí)現(xiàn)了基于小巧、高效、快速響應(yīng)和節(jié)能傳感設(shè)備的結(jié)合應(yīng)用,結(jié)合城市環(huán)境質(zhì)量監(jiān)測(cè)站點(diǎn)更有效反映城市環(huán)境質(zhì)量。
(3)實(shí)現(xiàn)了城市環(huán)境大數(shù)據(jù)的典型應(yīng)用,包括海量異構(gòu)數(shù)據(jù)的管理及協(xié)同計(jì)算;不同數(shù)據(jù)源中相互增強(qiáng)知識(shí)的獲取及提取深度的保證;大數(shù)據(jù)的數(shù)據(jù)稀疏性問(wèn)題的合理應(yīng)對(duì)。
(1)站點(diǎn)數(shù)據(jù)對(duì)比分析
分別選擇2017年11月1日至12月27日紫陽(yáng)站點(diǎn)及其周邊的1#、3#、6#、7#四個(gè)小型站、師大站點(diǎn)及其周邊的1#、2#、3#三個(gè)小型站,對(duì)小時(shí)監(jiān)測(cè)數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析,結(jié)果如圖3所示。
紫陽(yáng)和師大兩個(gè)站點(diǎn)各項(xiàng)污染物均值基本一致。
紫陽(yáng)站點(diǎn)及其周邊小型站的PM2.5、PM10、NO2和CO均值基本一致,而SO2均值存在較明顯的偏高、O3均值相對(duì)偏低,且小型站7#偏差較大。比較兩類(lèi)站點(diǎn)的最大值與最小值可以發(fā)現(xiàn),小型站的PM2.5、PM10和SO2最小值較高、最大值較低,NO2和O3最大值和最小值均偏低,CO則基本一致。
師大站點(diǎn)及其周邊小型站的SO2、NO2、O3和CO均值基本一致,而PM2.5、PM10均值存在較明顯的偏低,且小型站1#偏差較大。比較兩類(lèi)站點(diǎn)的最大值與最小值可以發(fā)現(xiàn),小型站的PM2.5、PM10最小值較高、最大值較低,SO2最小值較低、最大值較高,NO2和O3最大值和最小值均偏低,CO則基本一致。
(2)精細(xì)化實(shí)時(shí)模擬效果對(duì)比
由于紫陽(yáng)站點(diǎn)和小型站1#、3#、5#、6#同在一個(gè)網(wǎng)格,而小型站2#、4#、8#在另外一個(gè)網(wǎng)格,為了驗(yàn)證本研究采用的城市計(jì)算方法推測(cè)結(jié)果的準(zhǔn)確性,挑選小型站8#的實(shí)測(cè)數(shù)據(jù)與所在網(wǎng)格推測(cè)數(shù)據(jù)進(jìn)行對(duì)比。師大站點(diǎn)和小型站2#、3#、4#、5#同在一個(gè)網(wǎng)格,故挑選小型站1#的實(shí)測(cè)數(shù)據(jù)與所在網(wǎng)格推測(cè)數(shù)據(jù)進(jìn)行對(duì)比,對(duì)比結(jié)果如圖4所示。從分析結(jié)果(2017年11月25日至12月25日)可以看出,推測(cè)結(jié)果與實(shí)測(cè)結(jié)果趨勢(shì)較為一致,但是由于受到參與計(jì)算的其他參數(shù)的影響,推測(cè)結(jié)果存在一定的不穩(wěn)定性和跳躍性,在后續(xù)的研究中有待對(duì)模型進(jìn)一步訓(xùn)練優(yōu)化。
本研究在已有空氣質(zhì)量監(jiān)測(cè)站點(diǎn)基礎(chǔ)上,采用多功能、高效、小巧的傳感設(shè)備進(jìn)行監(jiān)測(cè)加密,使用已有和新增的實(shí)時(shí)和歷史空氣質(zhì)量監(jiān)測(cè)數(shù)據(jù),結(jié)合交通流、道路結(jié)構(gòu)(路網(wǎng))、POI分布、氣象條件和人們流動(dòng)規(guī)律等多種數(shù)據(jù)源的大數(shù)據(jù),利用城市計(jì)算技術(shù)建立數(shù)據(jù)和空氣質(zhì)量的映射關(guān)系,實(shí)現(xiàn)了城市細(xì)粒度(1km×1km)的空氣質(zhì)量推測(cè)預(yù)測(cè),并以福州市為示范建設(shè)了海西重點(diǎn)城市空氣質(zhì)量實(shí)時(shí)精細(xì)化模擬與預(yù)報(bào)系統(tǒng)并應(yīng)用。
通過(guò)將現(xiàn)有站點(diǎn)及其周邊小型站的監(jiān)測(cè)數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析發(fā)現(xiàn),不同地理位置的污染物濃度存在一定的差異性。為提高大氣污染物濃度監(jiān)測(cè)的分辨率和準(zhǔn)確性,開(kāi)展加密監(jiān)測(cè)很有必要。
通過(guò)比較小型站實(shí)時(shí)監(jiān)測(cè)數(shù)據(jù)及城市計(jì)算方法推測(cè)結(jié)果,發(fā)現(xiàn)兩者趨勢(shì)十分吻合,但是推測(cè)結(jié)果受到參與計(jì)算的其他參數(shù)的影響,存在一定的不穩(wěn)定性和跳躍性,在后續(xù)研究中有待對(duì)模型進(jìn)一步訓(xùn)練優(yōu)化。
[1] 任萬(wàn)輝, 蘇樅樅, 趙宏德. 城市環(huán)境空氣污染預(yù)報(bào)研究進(jìn)展, 環(huán)境保護(hù)科學(xué)[J]. 2010, 36(3): 9-11.
[2] 鄭宇. 城市計(jì)算概述[J], 武漢大學(xué)學(xué)報(bào)·信息科學(xué)版, 2015, 40(1):1-13.
[3] GOLDMAN J, SHILTON K, BURKE J, et al. Participatory Sensing:A Citizen-Powered Approach to Illuminating the Patterns that Shape our World[EB/OL]. 2014. http://www.mobilizingcs.org/wp-content/up-loads/Particip atory_Sensing.pdf.
[4] ZHENG Y, CAPRA L, WOLFSON O, et al. Urban Computing:Concepts, Methodologies, and Applications[J]. ACM Transactions on Intelligent Systems and Technology, 2014, 3(5):38.
[5] ZHENG Y, LIU F R, HSIEH H P. U-Air: When Urban Air Quality Inference Meets Big Data[C]. KDD Chicago IL USA, 2013.
[6] ZHENG Y, CHEN X, JIN Q, et al. A Cloud-Based Knowledge Discovery System for Monitoring Fine-Grained Air Quality[R].MSR-TR-2014-40, 2014.
[7] 程時(shí)偉, 孫守遷. 信息可視化研究綜述[J] , 中國(guó)科技論文在線(xiàn),2008: 1-8.
[8] NAHUM D, STEPHEN G. Information visualization[J]. IEEE Computer Graphics and Applications, 1997, 17(4):29-31
[9] BEDERSON B, SHNEIDERMAN B. The craft of information visualization: readings and reflections [M]. San Francisco:Morgan Kaufmann, 2003.