李濰瀚,劉日陽,邵彥川,馬宗偉
(南京大學(xué)環(huán)境學(xué)院,污染控制與資源化研究國家重點實驗室,江蘇 南京 210023)
利用北京地區(qū)PM2.5的濃度監(jiān)測數(shù)據(jù)分析PM2.5的日變化特征和粒徑組成,Dai[5]等人基于長三角地區(qū)空氣質(zhì)量監(jiān)測站點PM2.5小時數(shù)據(jù),運用普通克里金插值的方法分析PM2.5的時空分布格局。但直接將PM2.5數(shù)據(jù)插值不能精確地刻畫其空間分布,限制了后續(xù)暴露評估研究的研究精度。
基于遙感氣溶膠光學(xué)厚度AOD和PM2.5濃度間存在的強(qiáng)相關(guān)性,可以通過衛(wèi)星遙感AOD數(shù)據(jù)對地面PM2.5濃度進(jìn)行反演[6]。大量研究利用衛(wèi)星AOD數(shù)據(jù)開展PM2.5反演研究,如Ma[7]利用MODIS AOD、氣象數(shù)據(jù)和土地利用數(shù)據(jù)通過線性混合模型和廣義加和模型對中國長期PM2.5濃度分布進(jìn)行反演;Jing[8]等人利用MODIS AOD及氣象、地形、排放等數(shù)據(jù),應(yīng)用隨機(jī)森林模型構(gòu)建了中國地區(qū)PM2.5的反演模型;Guo[9]等人基于優(yōu)化神經(jīng)網(wǎng)絡(luò)對河南省PM2.5進(jìn)行反演。然而,目前常用的AOD數(shù)據(jù)產(chǎn)品的分辨率普遍較為粗糙,絕大部分AOD產(chǎn)品的空間分辨率在3 km以上,反演得到的PM2.5濃度空間分布對于區(qū)域尺度研究來說不夠精細(xì)。同時AOD生成過程中引入許多假設(shè),導(dǎo)致AOD產(chǎn)品存在較大的不確定性,進(jìn)而影響反演PM2.5濃度的精確性。近年來,一些學(xué)者通過直接建立遙感圖像與PM2.5濃度關(guān)系來進(jìn)行地面PM2.5濃度的反演,如Kris等人[10]利用谷歌地圖遙感圖像對全球地表PM2.5濃度進(jìn)行反演,選取多種卷積神經(jīng)網(wǎng)絡(luò)方法進(jìn)行建模比較,最終得到模型測試集決定系數(shù)R2為0.75,均方根誤差為13.01 μg/m3的結(jié)果,初步證實通過遙感圖像反演PM2.5濃度的可行性,但研究使用的谷歌地圖時間分辨率較低;Zheng等人[11]利用PlanetScope遙感圖像數(shù)據(jù),采用VGG16-RF的方法,結(jié)合氣象參數(shù)作為預(yù)測變量進(jìn)行北京地區(qū)的PM2.5濃度的建模反演,最終模型R2=0.9,均方根誤差為19.1 μg/m3,研究中還發(fā)現(xiàn)盡管衛(wèi)星圖像過境時間是固定的,理論上與過境時PM2.5小時數(shù)據(jù)的相關(guān)關(guān)系更強(qiáng),但由于PM2.5小時數(shù)據(jù)波動大,受干擾明顯,不適合作為預(yù)測變量,將遙感圖像與日均數(shù)據(jù)進(jìn)行匹配時,模型的預(yù)測性能更為穩(wěn)定;Maryam[12]利用MODIS原始遙感圖像,采用LSTM方法對伊朗城市德黑蘭的PM2.5濃度進(jìn)行反演,最終模型均方根誤差為7.73 μg/m3。
目前,應(yīng)用遙感圖像和深度學(xué)習(xí)方法反演PM2.5的研究較少,方法可靠性需要進(jìn)一步證明。并且從圖像數(shù)據(jù)源角度來看,相關(guān)研究應(yīng)用的遙感圖像數(shù)據(jù)源多為MODIS數(shù)據(jù)、PlanetScope衛(wèi)星群數(shù)據(jù)等,缺少對國產(chǎn)衛(wèi)星源圖像適用性的探究。針對目前遙感圖像反演PM2.5研究中存在的不足之處,以及PM2.5研究和管控的現(xiàn)實需求,探索國產(chǎn)衛(wèi)星在污染物反演領(lǐng)域的應(yīng)用,研究基于GF-1 WFV圖像、Merra-2氣象數(shù)據(jù)以及地面監(jiān)測PM2.5濃度數(shù)據(jù),實現(xiàn)了長三角地區(qū)基于GF-1遙感圖像和ResNet50網(wǎng)絡(luò)的PM2.5反演模型構(gòu)建。
研究區(qū)域為長三角地區(qū),包括江蘇省、浙江省、安徽省的全部地級市和上海市,面積約35.8 萬km2,緯度范圍為27.143°N~35.126°N,經(jīng)度范圍為114.875°E~122.942°E。
研究使用的數(shù)據(jù)獲取來源和參數(shù)信息如表1所示。
表1 研究數(shù)據(jù)參數(shù)信息和獲取來源
1.2.1 PM2.5地面監(jiān)測站點數(shù)據(jù)
PM2.5濃度數(shù)據(jù)來源為中國環(huán)境監(jiān)測總站發(fā)布的逐日數(shù)據(jù),涵蓋2020—2021 年長三角地區(qū)共196 個地面監(jiān)測站點。
1.2.2 GF-1圖像數(shù)據(jù)
選取GF-1 WFV圖像作為圖像數(shù)據(jù)源,篩選2020—2021年長三角地區(qū)圖像,隨后利用ArcGIS中Arcpy模塊將原始圖像以地面監(jiān)測站點經(jīng)緯度為中心進(jìn)行圖片剪切,剪切后圖像大小為224×224×3(ResNet50模型的標(biāo)準(zhǔn)輸入大?。?/p>
1.2.3 Merra-2氣象再分析數(shù)據(jù)
研究使用的氣象再分析數(shù)據(jù)Merra-2來自NASA官方網(wǎng)站,是一套長時間序列的遙感再分析數(shù)據(jù)集。Merra-2氣象再分析數(shù)據(jù)空間分辨率為0.5°×0.625°,包括邊界層高度PBLH、2 m溫度T2M、2 m東向風(fēng)速U2M在內(nèi)的24個氣象指標(biāo)[13]。對逐日數(shù)據(jù)進(jìn)行反距離加權(quán)插值,得到各地面監(jiān)測站點的氣象參數(shù)。
研究圖像處理分析過程中使用的深度學(xué)習(xí)模型為Resnet50模型,同時還使用了隨機(jī)森林模型。
1.3.1 ResNet50模型
ResNet于2015年由微軟研究院研發(fā)[14],是圖像特征學(xué)習(xí)領(lǐng)域中一種經(jīng)典的結(jié)構(gòu)框架,具有容易優(yōu)化、性能穩(wěn)定的特點,內(nèi)部的殘差結(jié)構(gòu)如圖1所示,緩解了深度網(wǎng)絡(luò)中梯度消失和預(yù)測性能變差的問題。ResNet50是ResNet模型中最常用于遷移學(xué)習(xí)的模型,在環(huán)境學(xué)科中有廣泛的應(yīng)用,如水體識別[15]、霧霾監(jiān)測[16]等。
圖1 ResNet網(wǎng)絡(luò)中的殘差結(jié)構(gòu)
1.3.2 隨機(jī)森林模型
隨機(jī)森林模型(RF)是一種基于分類樹算法的機(jī)器學(xué)習(xí)方法[17-18]。隨機(jī)森林對于數(shù)據(jù)和變量的雙隨機(jī)性,使模型運算量大大降低,具有準(zhǔn)確性、穩(wěn)健性、不易造成數(shù)據(jù)過擬合現(xiàn)象等優(yōu)點。
研究構(gòu)建基于GF-1遙感圖像和氣象數(shù)據(jù)的PM2.5濃度預(yù)測模型流程圖如圖2所示。為了探究遙感圖像和氣象數(shù)據(jù)在模型中的作用,分別構(gòu)建(A)基于GF-1遙感圖像、(B)基于氣象數(shù)據(jù)、(C)基于GF-1遙感圖像和氣象數(shù)據(jù)的三個模型。
圖2 模型流程圖
建模過程中,將遙感圖像(圖像中心點)、氣象數(shù)據(jù)、站點PM2.5數(shù)據(jù)按照日期和經(jīng)緯度進(jìn)行匹配,得到匹配數(shù)據(jù)集。GF-1 圖像切片通過ResNet50 模型得到圖像特征參數(shù)后與氣象參數(shù)共同進(jìn)行隨機(jī)森林模型的訓(xùn)練。
采用十折交叉驗證(10-Fold Cross Validation)[19]和測試集檢驗的方法對模型表現(xiàn)進(jìn)行驗證。其中80%匹配數(shù)據(jù)作為訓(xùn)練集,20%匹配數(shù)據(jù)進(jìn)行模型檢驗,通過皮爾森相關(guān)系數(shù)R、均方根誤差RMSE以及絕對誤差MAE對模型性能進(jìn)行評價分析。
將GF-1 WFV圖像切片(圖像中心點)、氣象數(shù)據(jù)、站點PM2.5日均濃度數(shù)據(jù)按照日期和經(jīng)緯度進(jìn)行匹配,得到匹配數(shù)據(jù)集的統(tǒng)計結(jié)果如表2所示。
表2 匹配數(shù)據(jù)集統(tǒng)計分析結(jié)果
GF-1 WFV部分圖像切片示例如圖3所示。GF-1圖像成像時間在上午11點左右,同一地點的明暗程度、色調(diào)基本相同;但可以觀察到,同一地點PM2.5污染較輕時,圖片也相對清晰,而當(dāng)PM2.5污染嚴(yán)重時,圖像表征出明顯的霧霾特征,圖像看起來相對模糊。
圖3 同一位置不同污染狀態(tài)GF-1 WFV圖像切片示例
利用匹配數(shù)據(jù)對ResNet50-RF模型進(jìn)行訓(xùn)練。通過十折交叉驗證和測試集驗證的方法對模型性能進(jìn)行檢驗,統(tǒng)計分析結(jié)果如表3~表5所示。其中,F(xiàn)代表十折交叉驗證結(jié)果,如1-F代表十折交叉驗證第一輪的檢驗結(jié)果,VAL-AVE代表十折交叉驗證的平均結(jié)果,TEST代表測試集結(jié)果。僅使用GF-1遙感圖像(模型A)時測試集皮爾森相關(guān)系數(shù)R為0.69,說明遙感圖像與PM2.5濃度存在相關(guān)關(guān)系,但模型整體精確度偏低;僅使用氣象數(shù)據(jù)(模型B)時,模型已經(jīng)可以得到較為準(zhǔn)確的PM2.5濃度基準(zhǔn);而基于GF-1遙感圖像和氣象數(shù)據(jù)的PM2.5濃度預(yù)測模型(模型C)預(yù)測準(zhǔn)確性優(yōu)于前兩個模型,模型測試集R為0.948,MAE為4.2 μg/m3,RMSE為6.6 μg/m3。
表3 基于GF-1圖像數(shù)據(jù)的模型預(yù)測準(zhǔn)確性統(tǒng)計
表4 基于氣象數(shù)據(jù)的模型預(yù)測準(zhǔn)確性統(tǒng)計
表5 基于GF-1圖像數(shù)據(jù)和氣象數(shù)據(jù)的模型預(yù)測準(zhǔn)確性統(tǒng)計
為檢驗?zāi)P皖A(yù)測應(yīng)用過程中PM2.5空間分布的合理性,對無錫和常州交界處2021 年12 月5 日PM2.5濃度分布進(jìn)行預(yù)測,此處地面站點分布相對密集,便于對濃度分布的合理性進(jìn)行檢驗。如圖4所示,首先建立0.005°×0.005°(~500 m)柵格網(wǎng)絡(luò),然后以網(wǎng)絡(luò)中每個點為中心對遙感圖像進(jìn)行剪切得到圖像切片,通過反距離加權(quán)插值得到各柵格氣象參數(shù)的連續(xù)數(shù)據(jù)。最后將圖像切片和氣象數(shù)據(jù)輸入模型,預(yù)測結(jié)果如圖5 所示。
圖4 柵格創(chuàng)建和圖像剪切過程
圖5 無錫和常州交界處2021年12月5日500 m分辨率PM2.5濃度預(yù)測圖
如圖5-A,僅使用GF-1 遙感圖像時(模型A),可以識別出PM2.5分布的高值區(qū)和低值區(qū),但缺少氣象參數(shù)的輔助,預(yù)測PM2.5濃度較為極化,濃度分布不連續(xù)且波動較大。僅使用氣象數(shù)據(jù)時(模型B),通過表4 顯示模型已經(jīng)可以得到較為準(zhǔn)確的PM2.5濃度基準(zhǔn),但通過圖5-B 可以看到氣象數(shù)據(jù)預(yù)測得到的PM2.5濃度空間差異小,在進(jìn)行地面站點監(jiān)測數(shù)據(jù)驗證時,在部分地面站點處出現(xiàn)較大的預(yù)測誤差,說明氣象數(shù)據(jù)可以提供大致的PM2.5濃度基準(zhǔn),但捕捉空間變異的能力還有欠缺。而如圖5-C,基于GF-1 遙感圖像和氣象數(shù)據(jù)的PM2.5濃度預(yù)測模型得到預(yù)測結(jié)果與地面站點監(jiān)測數(shù)據(jù)更為契合,誤差基本控制在5 μg/m3左右,空間分布更為合理。預(yù)測結(jié)果顯示當(dāng)日高值區(qū)集中在無錫江陰市和常州新北區(qū),分析原因是由于該地工業(yè)產(chǎn)值占比高,污染物排放波動大,當(dāng)日空氣濕度較高,促進(jìn)了前體物通過生成二次顆粒物的過程,加重了PM2.5污染。
(1)GF-1遙感圖像可以體現(xiàn)PM2.5濃度大小。PM2.5濃度高時,遙感圖像相對模糊;PM2.5濃度低時,遙感圖像更清晰。
(2)結(jié)合Merra-2氣象參數(shù),基于GF-1遙感圖像和ResNet50網(wǎng)絡(luò)的PM2.5濃度預(yù)測模型準(zhǔn)確率高。如圖6示意,其中氣象參數(shù)可以為模型提供較為準(zhǔn)確的PM2.5濃度基準(zhǔn),而GF-1圖像能幫助模型更合理預(yù)測PM2.5濃度的空間變化。
圖6 遙感圖像數(shù)據(jù)和氣象等數(shù)據(jù)在模型中發(fā)揮的作用示意圖
(3)基于GF-1遙感圖像和ResNet50網(wǎng)絡(luò)的PM2.5濃度預(yù)測模型Pearson系數(shù)R為0.948,MAE為4.2 μg/m3,RMSE為6.6 μg/m3,模型預(yù)測得到PM2.5空間分布連續(xù),可以準(zhǔn)確識別出PM2.5高值區(qū)與低值區(qū)分布,與地面站點監(jiān)測數(shù)據(jù)一致性高,應(yīng)用GF-1圖像和ResNet50網(wǎng)絡(luò)等深度學(xué)習(xí)方法可以作為地面監(jiān)測手段的補(bǔ)充,應(yīng)用于長三角地區(qū)PM2.5濃度監(jiān)測。