陳文婧 葉雪媛 劉萬華 邱晨 羅田
摘要:為了進(jìn)一步研究空間數(shù)據(jù),本文決定以pm2.5數(shù)據(jù)為例來進(jìn)行處理。首先基于南京、揚(yáng)州、無錫三個(gè)城市pm2.5數(shù)據(jù)的橫向比較,可知2017年11月30號(hào)的異常點(diǎn)是由于空氣濕度或節(jié)假日的影響。然后對(duì)影響空氣質(zhì)量的多個(gè)因素進(jìn)行聚類,發(fā)現(xiàn)PM2.5與PM10,風(fēng)速具有顯著相關(guān)關(guān)系。使用時(shí)間序列模型ARIMA(2,1,0)對(duì)pm2.5數(shù)據(jù)作出了短期預(yù)測(cè),預(yù)測(cè)結(jié)果與實(shí)際結(jié)果趨勢(shì)相同,但不夠精確,分析模型的不足,最終提出了改善方法。
關(guān)鍵詞: 空間數(shù)據(jù),異常點(diǎn),聚類分析,ARIMA模型
一、引言
空間大氣數(shù)據(jù)具有來源廣,類型格式復(fù)雜且相互之間不兼容的特點(diǎn)。本文著重研究大氣空間數(shù)據(jù)的挖掘和異常點(diǎn)分析以及后期的研究路徑。
二、數(shù)據(jù)清洗及異常點(diǎn)分析
11.27-3.12期間(除春節(jié)假期外)我們統(tǒng)計(jì)了南京,揚(yáng)州,無錫三個(gè)城市24小時(shí)的,3000多條空氣指標(biāo)數(shù)據(jù)??紤]到此次空氣指標(biāo)數(shù)據(jù)是由團(tuán)隊(duì)協(xié)作統(tǒng)計(jì)得來,數(shù)據(jù)記錄習(xí)慣的差異使得整體數(shù)據(jù)的質(zhì)量很難達(dá)到數(shù)據(jù)倉庫的要求,因此首先要進(jìn)行數(shù)據(jù)清洗。
2.1空缺值的填充
首先極大可能的填寫空缺值,為了保證空缺值與其他數(shù)據(jù)之間的聯(lián)系,必須選擇依靠現(xiàn)有的數(shù)據(jù)進(jìn)行處理得到缺失值,是一種有用的背景知識(shí),它使得原始數(shù)據(jù)可以在較高的、一般化的抽象層上進(jìn)行處理,可以用最常出現(xiàn)的概念填充空缺值。如以南京環(huán)境監(jiān)測(cè)站對(duì)南京空氣污染物檢測(cè)的數(shù)量為例,數(shù)據(jù)中PM2.5屬性列中有一個(gè)空缺值,假設(shè)已知有三個(gè)模糊概念Low, medium, nigh。對(duì)于這三個(gè)概念分別計(jì)算己有數(shù)據(jù)的平均隸屬函數(shù)值,然后我們選擇medium進(jìn)行空缺值填充。
2.2 錯(cuò)誤數(shù)據(jù)的篩選
范圍檢驗(yàn)是數(shù)據(jù)清洗的最簡(jiǎn)單形式,它是指檢驗(yàn)一個(gè)字段中的數(shù)據(jù)以保證它落在預(yù)期范圍之內(nèi),通常是數(shù)字范圍或日期范圍。在氣象數(shù)據(jù)中,有時(shí)會(huì)存在超標(biāo)的數(shù)值,這些對(duì)于分析氣象信息會(huì)起到誤導(dǎo)的作用,因此針對(duì)這些數(shù)據(jù)通過有效值檢驗(yàn)來清洗。例如,可以通過濃度分布分析來確定錯(cuò)誤值,來確定需要?jiǎng)h除記錄的錯(cuò)誤值。
2.3 數(shù)據(jù)屬性值的統(tǒng)一
數(shù)據(jù)源來自于多個(gè)數(shù)據(jù)庫,數(shù)據(jù)的格式,屬性或維的命名都不一樣,可能是由于表示、編碼、比例的不同引起的。為了避免無法匹配與識(shí)別的問題,將不同存儲(chǔ)格式的數(shù)據(jù)進(jìn)行格式統(tǒng)一,最后將多組數(shù)據(jù)進(jìn)行數(shù)據(jù)合并。
2.4 PM2.5的濃度異常值分析
根據(jù)該數(shù)據(jù)的趨勢(shì)變化以及濃度值的分析,判斷PM2.5在無錫地區(qū)的2017年12月4號(hào)和7號(hào)出現(xiàn)異常數(shù)據(jù),出現(xiàn)異常峰值。而在2017年11月30號(hào)的南京出現(xiàn)異常負(fù)值,可能原因?yàn)镻M2.5分析儀是采用微量振蕩天平法測(cè)量,隨著空氣中濕度的增加,從某日凌晨開始,隨著降雨量的逐漸增加,空氣中顆粒物先逐漸降低,隨著雨量進(jìn)一步增加,環(huán)境空氣中的顆粒物已經(jīng)趨于較低水平,此時(shí)濾膜上水汽的揮發(fā)量遠(yuǎn)大于顆粒物濃度的增加量,導(dǎo)致測(cè)量值出現(xiàn)負(fù)數(shù)。
在日常數(shù)據(jù)審核中,除了一些記錄儀器的故障外還會(huì)存在某一天由于節(jié)假日影響和政府政策發(fā)生較大的變化而出現(xiàn)異常偏高的現(xiàn)象,因而該類數(shù)據(jù)在有效性審核中還不能予以剔除,應(yīng)予以保留。
三、聚類算法
4.1聚類思想
聚類分析主要是根據(jù)實(shí)體的特征對(duì)其進(jìn)行聚類,將描述個(gè)體的數(shù)據(jù)集劃分成一系列相互區(qū)分的組,使得屬于同一類別的個(gè)體之間的差異盡可能小,不同類別的個(gè)體之間的差異性盡可能大,從而發(fā)現(xiàn)數(shù)據(jù)集的整個(gè)空間分布規(guī)律和典型模式。
根據(jù)空間聚類采用的不同思想,空間聚類算法主要可以歸納為以下幾種:基于劃分的聚類算法、基于層次的聚類算法、基于密度的聚類算法、基于網(wǎng)格的聚類算法、基于模型的聚類算法以及其他形式的聚類算法。本篇主要以基于劃分的聚類算法為主要研究方法。
空間聚類的內(nèi)部度量原則主要有兩個(gè):聚類內(nèi)部距離和聚類間的距離。聚類內(nèi)部距離是指聚類內(nèi)部間的平均距離,它反映了聚類的緊湊性和聚類算法的有效性;而聚類間的距離是指兩個(gè)聚類間所有會(huì)話的平均距離。對(duì)于良好的聚類算法來說,聚類內(nèi)部距離應(yīng)較小,聚類間的距離應(yīng)較遠(yuǎn)。
聚類間距離:假設(shè)n個(gè)空間對(duì)象被聚類為K個(gè)簇,定義聚類間距離為所有分中心到全域中心的距離之和:,式中,L表示聚類間距離,m為全部空間對(duì)象的均值,為簇所含空間對(duì)象的均值K為聚類個(gè)數(shù)及聚類區(qū)間。
聚類內(nèi)部距離:假設(shè)n個(gè)空間對(duì)象被聚類為K個(gè)簇,定義聚類內(nèi)部距離為所有聚類內(nèi)部距離的總和:其中D為內(nèi)距離,p為任一空間研究對(duì)象,為簇C所含空間對(duì)象的均值。
4.2 結(jié)果分析
以最短距離法為例,對(duì)采集到的南京的空間數(shù)據(jù)做聚類分析,得到以下類譜圖:
當(dāng)分為五類時(shí),濕度與SO2顯著相關(guān),PM10和PM2.5顯著相關(guān),O3和NO2顯著相關(guān),CO,風(fēng)速各為一類??梢娋垲惤Y(jié)果合理,因?yàn)镻M2.5與PM10為同一類污染物,通常為伴生關(guān)系,而SO2可溶于水,因此控制SO2濃度可從增加空氣濕度入手,可有效降低空氣中SO2濃度,防止酸雨的形成,而居民也可以通過放置加濕器來凈化空氣質(zhì)量。
四、短期預(yù)測(cè)
以南京地區(qū)PM2.5為例進(jìn)行短期預(yù)測(cè),我們考慮使用時(shí)間序列建模:首先對(duì)不平穩(wěn)數(shù)據(jù)進(jìn)行一階差分,再對(duì)差分后數(shù)據(jù)擬合ARIMA模型,其中ARIMA(2,1,0)擬合程度最高。模型如下:
采用該模型預(yù)測(cè)未來10期數(shù)據(jù)并與真實(shí)值比較,結(jié)果如下:
可見預(yù)測(cè)值與真實(shí)值有出入,預(yù)測(cè)值波動(dòng)范圍?。ǚ讲?.08),真實(shí)值波動(dòng)范圍大(方差29.43)但是趨勢(shì)和真實(shí)值一樣,都是先下降再上升。
下面我們對(duì)模型不準(zhǔn)確的原因作出推測(cè):
1) 數(shù)據(jù)有24期的周期性,ARIMA模型沒有和好的擬合周期性。
2) 沒有考慮到PM2.5數(shù)據(jù)的特殊性(受其他天氣因素影響大)
五、結(jié)論與展望
三座城市中,無錫和南京的PM2.5分布情況高度相似,揚(yáng)州的PM2.5濃度偏高,變化趨勢(shì)與無錫南京相同,但是有約3天的滯后。三座城市的PM2.5濃度都有輕微的下降趨勢(shì)。
通過聚類分析,我們發(fā)現(xiàn)PM2.5與PM10有顯著的相關(guān)關(guān)系,,濃度與風(fēng)速相關(guān),濃度與濕度相關(guān)。
最終,本文提出了一種基于時(shí)間序列模型ARIMA(2,1,0)的PM2.5預(yù)測(cè)模型,該模型簡(jiǎn)單實(shí)用便于操作。但是精度尚需提高,預(yù)測(cè)期數(shù)也較短??珊Y選一半數(shù)據(jù)用x-11模型或引入風(fēng)速因子加以完善。
參考文獻(xiàn):
[1] 董彥磊,申德榮,寇月,等. 數(shù)據(jù)空間中數(shù)據(jù)組織模型以及關(guān)聯(lián)關(guān)系發(fā)現(xiàn)模型的研究[J]. 計(jì)算機(jī)研究與發(fā)展. 2009, 46(z2): 566-574.
[2] 孔令彥,關(guān)麗,丁燕杰,等. 空間大數(shù)據(jù)支持下的城市區(qū)域評(píng)估及其關(guān)鍵技術(shù)[J]. 測(cè)繪通報(bào). 2017(8): 100-105.
[3] 譚鶴毅. 大數(shù)據(jù)背景下的空間數(shù)據(jù)挖掘研究[J]. 消費(fèi)電子. 2014(24): 181