鄭仰成, 黎麗莉, 王云鵬
(1. 中國科學(xué)院廣州地球化學(xué)研究所有機地球化學(xué)國家重點實驗室, 廣州 510640;2. 中國科學(xué)院深地科學(xué)卓越創(chuàng)新中心, 廣州 510640; 3. 中國科學(xué)院大學(xué), 北京 100049;4. 仲愷農(nóng)業(yè)工程學(xué)院資源與環(huán)境學(xué)院, 廣州 510225)
大氣中的氣溶膠粒子通過散射、吸收太陽輻射和形成云凝結(jié)核等方式來影響全球氣候變化[1]. 不同類型氣溶膠之間的光學(xué)屬性、成分以及粒徑分布有所差異,因此,不同類型的氣溶膠也會給氣候帶來不同程度的影響[2]. 沙塵型氣溶膠的粒徑分布較大,有較強的散射能力,會降低地表的能見度[3]. 生物質(zhì)燃燒型含碳氣溶膠的粒徑分布較小,但由于吸收性成分含量較高,此類氣溶膠表現(xiàn)出較強的輻射吸收能力;大量的生物質(zhì)燃燒型含碳氣溶膠會影響云的微物理性質(zhì),甚至影響生物地球化學(xué)循環(huán)[4]. 因此,對不同的氣溶膠類型進行有效的區(qū)分,有助于進行氣溶膠源解析、改善氣溶膠光學(xué)模型、減少衛(wèi)星觀測氣溶膠的不確定性[5].
傳統(tǒng)的監(jiān)測和分析氣溶膠類型的方法主要基于地面的監(jiān)測站點,這種監(jiān)測分析方法受限于監(jiān)測站點的數(shù)量以及空間分布,因此,地面站點的監(jiān)測數(shù)據(jù)無法反映真實的氣溶膠空間分布情況[6]. 遙感技術(shù)具有監(jiān)測范圍大、覆蓋時間長的特點,在氣溶膠的監(jiān)測分析中起到了不可或缺的作用,利用衛(wèi)星遙感數(shù)據(jù)可以進行廣覆蓋、長時間序列的氣溶膠監(jiān)測[7-9]. 利用遙感數(shù)據(jù)進行氣溶膠分類,其原理是提取描述氣溶膠的消光、吸收、散射、折射和粒徑分布等各種氣溶膠特征參數(shù). 不同種類的氣溶膠的各項特征參數(shù)互有差別,因此,可以通過特征參數(shù)區(qū)分不同的氣溶膠類型[4,10-11].
目前已有許多大氣遙感衛(wèi)星發(fā)布了氣溶膠相關(guān)的產(chǎn)品,為氣溶膠的監(jiān)測和分析發(fā)揮了重要的作用. OMIAuraAER是美國國家航空航天局(National Aeronautics and Space Administration,NASA)公布的一組近紫外型氣溶膠產(chǎn)品,該產(chǎn)品由搭載在Aura衛(wèi)星上的OMI(Ozone Monitoring Instrument)傳感器觀測數(shù)據(jù)反演得到,包含多項氣溶膠特征參數(shù)以及氣溶膠類型產(chǎn)品[12]. 對EOS-Aqua衛(wèi)星上的一氧化碳指數(shù)(Carbon Monoxide Index,COI)和OMI上的近紫外型氣溶膠指數(shù)(Ultraviolet Aerosol Index,UVAI)進行閾值分析,可得到OMI的3種氣溶膠類型產(chǎn)品:沙塵型氣溶膠(Desert Dust,DST)、生物質(zhì)燃燒型含碳氣溶膠(Carbonaceous Aerosols Associated with Biomass Burning,CRB)和硫酸鹽型城鎮(zhèn)-工業(yè)氣溶膠(Sulfate-based Urban-industrial Aerosols,SLF). 這3類氣溶膠類型產(chǎn)品已得到廣泛運用,對氣溶膠空間特征研究、源解析及氣溶膠光學(xué)模型的改善起到了重要的作用[13-15]. 但是,COI數(shù)據(jù)和UVAI數(shù)據(jù)來自2顆不同的衛(wèi)星,時間分辨率與空間分辨率均存在差異,無法滿足數(shù)據(jù)融合的需求,部分像元點無法反演得到氣溶膠類型的數(shù)據(jù). 因此,本研究以廣東省為研究區(qū),在不使用COI輔助數(shù)據(jù)條件下進行氣溶膠類型的反演,從而提高氣溶膠類型產(chǎn)品的空間覆蓋度,擬為廣東省的氣溶膠源解析和排放源控制提供科學(xué)參考.
以廣東省(20°13′ N~25°31′ N,109°39′ E~117°19′ E)為研究區(qū)域,采用OMI的氣溶膠產(chǎn)品進行研究. NASA的近紫外型氣溶膠產(chǎn)品由不同年份獲取的地表反射率及其反演得到的氣溶膠產(chǎn)品構(gòu)成,其中OMIAuraAER為2004年8月至今的氣溶膠產(chǎn)品. 該產(chǎn)品的時間分辨率為98.8 min、空間分辨率為13 km×24 km,2個用于獲取地表反射率的波段分別為354、388 nm,并由這2個波段反演得到一個500 nm波段的產(chǎn)品. 該衛(wèi)星為極地軌道衛(wèi)星,觀測范圍可以覆蓋全球所有區(qū)域,本研究僅選用覆蓋研究區(qū)域內(nèi)的像元點進行研究.
在OMIAuraAER產(chǎn)品中,有多個用于反映氣溶膠不同物理屬性的氣溶膠特征參數(shù),其中可被用于氣溶膠分類的氣溶膠特征參數(shù)包括:
(1)氣溶膠吸收光學(xué)厚度(Aerosol Absorption Optical Depth,AAOD):描述氣溶膠對太陽輻射的消光作用中吸收的部分,取值范圍為0~1.
(2)氣溶膠光學(xué)厚度(Aerosol Optical Depth,AOD):描述氣溶膠對太陽輻射的總消光能力,取值范圍為0~6.
(3)單向散射反照率(Single Scattering Albedo, SSA):描述氣溶膠的吸收和散射的相對大小,SSA值越大,則說明該氣溶膠的散射能力強于吸收能力,取值范圍為0~1.
(4)復(fù)折射指數(shù)(Refraction Index,RI):由實部和虛部組成,其中實部描述氣溶膠的散射能力,虛部描述氣溶膠的吸收能力. OMIAuraAER產(chǎn)品僅提供了RI的虛部,取值范圍為0~1.
(5)近紫外型氣溶膠指數(shù)(Ultraviolet Aerosol Index,UVAI):反映吸氣溶膠吸收能力的強弱. 吸收性氣溶膠的UVAI呈現(xiàn)正值,且吸收性越強UVAI值越高,而非吸收性氣溶膠的UVAI呈現(xiàn)負值. 取值范圍為-2~3.
(6)α指數(shù)(Angstrom Exponent):通過2個波段(388 nm和500 nm)的AOD產(chǎn)品計算得到,反映氣溶膠粒徑分布的大小. 氣溶膠粒徑分布越大,則α值越小,反之則越大. 取值范圍為0.5~2.0.
(7)經(jīng)緯度:每個像元點的經(jīng)度和緯度坐標,數(shù)值范圍為廣東省的經(jīng)緯度范圍.
本文使用上述所有氣溶膠特征參數(shù)作為訓(xùn)練數(shù)據(jù),包括AAOD(λ為354、388、500 nm)、AOD(λ為354、388、500 nm)、SSA(λ為354、388、500 nm)、RI(λ為354、388 nm)、UVAI、經(jīng)緯度以及α指數(shù)共計15個特征參數(shù);以O(shè)MIAuraAER自帶的氣溶膠類型產(chǎn)品作為標簽數(shù)據(jù),利用隨機森林算法對廣東省氣溶膠類型進行監(jiān)督分類. ZHENG等[16]曾使用K-means聚類算法,結(jié)合AOD、UVAI和α指數(shù)3種氣溶膠特征參數(shù)對2010年廣東省氣溶膠類型進行非監(jiān)督分類. 為形成長時間序列研究,本研究的時間段選取2014年,探討不同的分類方法及特征參數(shù)選取對氣溶膠分類的影響. 選取數(shù)據(jù)集中所有產(chǎn)品質(zhì)量合格,各特征參數(shù)沒有異常值的像元點共計53 882個,其中:SLF型氣溶膠占比最高(84.3%),共有45 404個像元點;其次是DST型氣溶膠占比(12.3%),有6 629個像元點;CRB型氣溶膠占比最低(3.4%),有1 849個像元點.
在使用OMI氣溶膠產(chǎn)品的特征參數(shù)進行氣溶膠分類的過程中存在2個問題:(1)如何在多種特征參數(shù)中挑選出最適合分類的特征參數(shù)及其組合,使得分類結(jié)果的精確度和計算性能滿足研究需求. (2)已有研究使用的分類模型大多是基于閾值分類法,即在特征參數(shù)上確定一個閾值,以區(qū)別不同的氣溶膠類型. 然而,這個閾值大多由歷史經(jīng)驗數(shù)據(jù)給出,而且不同地區(qū)的氣溶膠的物理特征有所差異,在一個地區(qū)所確定的閾值并不能廣泛地運用到其他區(qū)域進行分類.
本文利用隨機森林算法進行氣溶膠分類,探討適用于氣溶膠分類的特征參數(shù)及其組合. 隨機森林算法[17]是一種分類速度快、分類準確率高的監(jiān)督分類算法,已用于解決土地覆蓋類型分類、植被覆蓋度估算、農(nóng)作物識別和用水總量影響因素解析等問題,并取得了良好的效果[18-24]. 在分類過程中,利用隨機森林算法可以得到不同特征參數(shù)的重要性,可根據(jù)重要性的高低對氣溶膠的各項特征參數(shù)進行排序,從而挑選其中重要性最高的特征參數(shù). 此外,隨機森林并不會顯式地給出一個具體的分類閾值,而是根據(jù)不同的訓(xùn)練數(shù)據(jù)得到不同的模型,泛化性能要高于傳統(tǒng)的閾值分類法.
隨機森林由多棵決策樹構(gòu)成,每棵決策樹會隨機選取樣本數(shù)據(jù)及氣溶膠特征參數(shù),得到一個預(yù)測的氣溶膠類別,然后由多棵決策樹進行眾數(shù)投票,選取得票最多的預(yù)測類別作為隨機森林的預(yù)測結(jié)果(圖1A). 在決策樹中,用Gini指數(shù)來衡量數(shù)據(jù)集的不確定性,Gini指數(shù)值越大,則表示數(shù)據(jù)集的不確定性越大. 決策樹的分類過程即是通過不斷分割訓(xùn)練樣本,從而降低樣本數(shù)據(jù)集Gini指數(shù)的過程. 對于整個樣本數(shù)據(jù)集D,其Gini指數(shù)為:
(1)
其中,k=1,2,3,代表有3種氣溶膠類型(DST、CRB和SLF);Ck是指每個類的樣本數(shù).
根據(jù)特征參數(shù)A,將數(shù)據(jù)集D分割成2個子數(shù)據(jù)集(D1和D2),則在特征參數(shù)A的條件下,數(shù)據(jù)集D的Gini指數(shù)為:
(2)
即數(shù)據(jù)集D在特征參數(shù)A條件下的Gini指數(shù)可以用2個子數(shù)據(jù)集的Gini指數(shù)來表示. 通過尋找最優(yōu)的閾值,使數(shù)據(jù)集的Gini指數(shù)在分割成子數(shù)據(jù)集后降至最低,在子數(shù)據(jù)集中盡量只包含屬于同一個類的樣本點. 利用數(shù)據(jù)集D和子數(shù)據(jù)集D1、D2在特征參數(shù)A條件下的Gini指數(shù)之差來衡量特征參數(shù)A的重要性.
在每棵決策樹中,每個節(jié)點代表一個樣本數(shù)據(jù)集. 計算每個節(jié)點的Gini指數(shù),如果Gini指數(shù)高于閾值,則代表該節(jié)點的不確定性過高,需要繼續(xù)分裂以降低不確定性;如果Gini指數(shù)低于閾值,則代表該節(jié)點是一個穩(wěn)定的分類結(jié)果,可以停止分裂,形成一個葉子結(jié)點. 如果所有葉子結(jié)點不再分裂,即決策樹不再成長,則輸出該決策樹,再繼續(xù)隨機選取不同的樣本點和氣溶膠特征參數(shù)構(gòu)建新的決策樹,直到?jīng)Q策樹的數(shù)量達到要求(圖1B).
圖1 氣溶膠分類流程圖
在隨機森林算法中,使用特征參數(shù)重要性來衡量每個特征參數(shù)在分類過程中作出的貢獻大小. 在決策樹中,當1個節(jié)點分裂為2個子節(jié)點后,數(shù)據(jù)集被分為2個確定度更高的子集,衡量不確定性的Gini指數(shù)也相應(yīng)減小. 如果一個特征參數(shù)能夠降低的不確定性越多,則其分類效果越好,重要性也越高. 將每個特征參數(shù)的重要性進行歸一化,使其重要性之和為1.
在隨機森林的參數(shù)設(shè)置中,決策樹的數(shù)量為100棵. 由于標簽數(shù)據(jù)僅有3種類別(DST、 CRB、SLF),而用于分類的特征數(shù)量有15個,為了防止每棵樹的分裂深度過大,將最大葉子結(jié)點數(shù)量設(shè)置為6個,即每棵決策樹出現(xiàn)6個葉子結(jié)點后將停止分裂,以節(jié)省分類時間. 在研究過程中,依次選取不同數(shù)量的樣本點進行訓(xùn)練,觀察隨機森林算法的分類精度與樣本點數(shù)量的關(guān)系,并使用所有的樣本點進行精度的驗證.
基于2014年廣東省氣溶膠類型的分類結(jié)果,本文討論了隨機森林算法的分類精度,提取分類過程中重要的氣溶膠特征參數(shù),并對氣溶膠類型的空間分布特征進行了分析.
分類精度是衡量算法優(yōu)劣的重要指標. 計算分類正確的訓(xùn)練樣本數(shù)量在總體訓(xùn)練樣本數(shù)量中的百分比,作為總體的分類精度. 同時,分別計算DST、CRB、SLF型氣溶膠分類正確的訓(xùn)練樣本數(shù)量在各自類別的訓(xùn)練樣本數(shù)量中的百分比,作為各個類別的分類精度.
由分類精度結(jié)果(圖2)可知:(1)總體的分類精度可達97%以上,且隨著投入訓(xùn)練的像元數(shù)量增加而不斷提高. (2)初始訓(xùn)練樣本數(shù)量較少時,CRB型氣溶膠的分類精度較低(僅為35%左右),但由于CRB樣本在總體樣本中所占比例較低,因此,總體的分類精度和其他2類氣溶膠類型(DST,SLF)的分類精度均可達到60%~70%. (3)隨著訓(xùn)練樣本數(shù)量的增加,總體的分類精度與各個分類別的分類精度迅速增大. 訓(xùn)練樣本數(shù)量達到50個時,DST、SLF型氣溶膠和總體的分類精度均可達到97%以上,而CRB型氣溶膠的分類精度有點波動,但也逐漸趨于穩(wěn)定. 由此可知,使用隨機森林算法進行氣溶膠分類,可以滿足在不使用COI輔助數(shù)據(jù)的條件下,單獨用OMI自身的氣溶膠特征參數(shù)完成氣溶膠的高精度分類;同時,在實際應(yīng)用中,受到衛(wèi)星過境時間以及云層覆蓋度的影響,單景遙感影像中可用于訓(xùn)練的高質(zhì)量像元數(shù)量并不多,而隨機森林算法的高效性使其可以在訓(xùn)練像元數(shù)量稀疏的特殊情況下建立分類模型.
圖2 氣溶膠分類精度與訓(xùn)練樣本數(shù)量關(guān)系
由特征參數(shù)重要性結(jié)果(表1)可知:(1)在所有特征參數(shù)中,α指數(shù)對氣溶膠分類影響最大,其重要性達到0.245,說明氣溶膠的粒徑分布是用于判斷氣溶膠類型的重要指標. (2)UVAI指數(shù)的重要性達到0.218,在各項氣溶膠特征參數(shù)中排名第二,符合預(yù)期結(jié)果. 究其原因為:在反演OMI氣溶膠產(chǎn)品的閾值分類法中,使用了UVAI、AOD、SSA以及COI指數(shù),其中UVAI占主導(dǎo)因素. (3)在其余特征參數(shù)中,重要性由高到低依次為RI、SSA、AAOD、AOD,不同波段的AAOD、AOD、SSA和RI的重要性差別不大. 因此,在使用氣溶膠分類算法中,使用哪個波段的產(chǎn)品對于分類精度沒有太大影響. (4)經(jīng)緯度對氣溶膠分類的重要性接近0,意味著經(jīng)緯度在分類過程中無法降低數(shù)據(jù)集的不確定性,是無效的分類特征參數(shù).
表1 各項氣溶膠特征參數(shù)的重要性Table 1 The importance of each aerosol feature parameter
由分類價值最高的6個特征參數(shù)(α指數(shù)、UVAI、RI354、RI388、SSA500和AAOD500)在3種氣溶膠類型中的均值、標準差以及最大、最小值(表2)可知:(1)在反映氣溶膠粒徑分布的α指數(shù)上,SLF型氣溶膠的均值最大,說明其粒徑分布最小;而DST型氣溶膠的均值較小,說明其粒徑分布最大. (2)在反映氣溶膠吸收能力的UVAI指數(shù)上,DST、CRB型氣溶膠的均值較大,說明這2種氣溶膠的吸收能力強;SLF型氣溶膠的均值最小,說明SLF型氣溶膠的吸收能力較弱. (3)CRB型氣溶膠的α指數(shù)均值與SLF型氣溶膠的相近、UVAI均值與DST型氣溶膠的相近,單獨考慮一種特征參數(shù)無法較好地識別CRB型氣溶膠. 此時可結(jié)合α指數(shù)和UVAI指數(shù)進行判別:CRB型氣溶膠在這2種指數(shù)上均具有較高的均值,可以憑此區(qū)分CRB型氣溶膠與另外2種氣溶膠類型.
表2 3類氣溶膠特征參數(shù)的均值、標準差、最大值及最小值
在使用隨機森林法進行氣溶膠分類后,可以統(tǒng)計廣東省總體及各個城市中各類型氣溶膠的占比. 由圖3和表3可知:(1)在廣東省中,SLF型氣溶膠占比最高,達到84.5%;其次是DST型氣溶膠占比,達到12.5%;CRB型氣溶膠占比最低(3.0%). (2)SLF型氣溶膠在廣東省內(nèi)占比最高. SLF型氣溶膠主要來自工業(yè)生產(chǎn)和機動車排放,因此,可反映廣東省的工業(yè)化程度較高,機動車數(shù)量較多. (3)DST型氣溶膠在珠三角地區(qū)的占比最高,其次是在粵西地區(qū),在粵東地區(qū)的占比最低. DST型氣溶膠主要來自道路揚塵與土木工程建設(shè),反映出珠三角和粵西地區(qū)的交通設(shè)施較為發(fā)達,在建城市基礎(chǔ)設(shè)施較多. (4)CRB型氣溶膠在珠三角及粵東汕頭、潮州等城市占比較高. 珠三角地區(qū)的CRB型氣溶膠主要來自大量的汽車尾氣排放,而粵東汕頭和潮州地區(qū)的CRB型氣溶膠則可能來自秸稈的燃燒.
圖3 廣東省的氣溶膠類型占比的空間分布 (隨機森林分類結(jié)果)
表3 廣東省各城市3種氣溶膠類型占比
由隨機森林分類結(jié)果與OMI氣溶膠類型產(chǎn)品標簽數(shù)據(jù)的空間分布(圖3、圖4)可知:(1)兩者的空間分布呈現(xiàn)高度的相似性. (2)各類型氣溶膠占比排名相同,從高至低依次均為SLF、DST、CRB型氣溶膠. (3)結(jié)合表3可知各種氣溶膠類型的占比有所差異,CRB型氣溶膠占比升高,DST、SLF型氣溶膠占比降低.
圖4 廣東省的氣溶膠類型占比的空間分布 (OMI產(chǎn)品標簽數(shù)據(jù))
本文所得2014年的分類結(jié)果與2010年的分類結(jié)果[16]相符,各氣溶膠類型占比沒有太大變化,說明廣東省內(nèi)氣溶膠類型在2010—2014年間沒有較大的變化. 與2010年使用的非監(jiān)督分類K-means聚類法相比,使用OMI氣溶膠類型產(chǎn)品作為標簽數(shù)據(jù)進行隨機森林監(jiān)督分類提高了分類結(jié)果的可靠性. 本文提取了6項最重要的氣溶膠特征參數(shù),與2010年使用的3項特征參數(shù)相比,α指數(shù)和UVAI仍是重要的分類指標,但是AOD的重要性下降.
本研究基于OMI衛(wèi)星遙感產(chǎn)品提取的特征參數(shù),使用隨機森林法對廣東省2014年氣溶膠進行分類并做驗證. 根據(jù)隨機森林法的分類結(jié)果,討論了分類的精度、各項氣溶膠特征參數(shù)的選取以及分類結(jié)果的空間分布,主要結(jié)論如下:
(1)使用隨機森林法進行氣溶膠分類,分類精度可穩(wěn)定在97%以上,僅需少量樣本點即可達到高精度的分類. 樣本數(shù)量達到50個時,總體的分類精度可達97.6%,其中DST、CRB、SLF型氣溶膠的分類精度分別為95.6%、 88.1%、98.6%. 說明在不使用COI指數(shù)的條件下,通過隨機森林算法可以用OMI自身的氣溶膠特征參數(shù)產(chǎn)品完成較高精度的氣溶膠分類.
(2)本研究使用了15個特征參數(shù)進行分類,根據(jù)特征參數(shù)重要性高低,最重要的6個分類特征參數(shù)依次為α指數(shù)、UVAI、RI388、RI354、SSA500、AAOD500,說明氣溶膠的粒徑分布特征和光學(xué)吸收特征在分類中起到了最關(guān)鍵的作用.
(3)2014年廣東省內(nèi)各城市各類型氣溶膠的占比結(jié)果顯示:SLF型氣溶液為廣東省最主要的氣溶膠類型;DST型氣溶膠在珠三角地區(qū)的占比最高,其次是在粵西地區(qū),在粵東地區(qū)的占比最低;CRB型氣溶膠在珠三角地區(qū)和潮州、汕頭、湛江等城市的占比較高,在其他地區(qū)的較低.
本文提出了一種基于OMI氣溶膠特征參數(shù)和隨機森林算法的氣溶膠分類法,為傳統(tǒng)氣溶膠分類方法存在的精度低和特征參數(shù)冗余的問題提供了一種解決方法. 在今后的研究中,將以本文的研究結(jié)果為基礎(chǔ),進一步反演2018年廣東省的氣溶膠類型,討論更長時間序列氣溶膠類型的變化特征.