国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

顧及樣本優(yōu)化選擇的機(jī)器學(xué)習(xí)云檢測(cè)研究

2024-03-24 09:20張輝周仿榮徐真文剛馬御棠韓旭吳磊
航天返回與遙感 2024年1期
關(guān)鍵詞:反照率相態(tài)晴空

張輝 周仿榮 徐真 文剛 馬御棠 韓旭 吳磊

(1 云南電網(wǎng)有限責(zé)任公司,昆明 650011)

(2 南方電網(wǎng)公司云南電網(wǎng)電力科學(xué)研究院電力遙感技術(shù)聯(lián)合實(shí)驗(yàn)室,昆明 650217)

(3 蘇州深藍(lán)空間遙感技術(shù)有限公司,蘇州 215505)

0 引言

全球表面云覆蓋面積約占地球表面積69%[1],對(duì)全球輻射平衡和氣候變化具有深刻影響。同時(shí),云覆蓋對(duì)太陽(yáng)輻射進(jìn)行遮擋,使得衛(wèi)星傳感器難以獲取地表信息,對(duì)衛(wèi)星遙感定量反演工作帶來不確定性。因此,云/云影的有效獲取是研究全球輻射平衡、氣候變化以及遙感定量反演的重要前提。

衛(wèi)星遙感觀測(cè)是研究云檢測(cè)、云微物理特性等一系列工作的重要手段之一。云在衛(wèi)星接收的光譜中表現(xiàn)為較高的反照率和較低的輻射亮溫,因此,對(duì)于云的探測(cè),傳統(tǒng)方法多利用有云和晴空下地物在光譜上的差異設(shè)置閾值進(jìn)行云的檢測(cè)。早期多為單一靜態(tài)閾值[2-3],后來逐步發(fā)展為動(dòng)態(tài)自適應(yīng)閾值[4]、波段組合閾值[5-6]、時(shí)序閾值[7-8]等。光譜閾值法雖然計(jì)算速度快,效率高,并在部分地區(qū)取得了不錯(cuò)的結(jié)果,但其對(duì)于衛(wèi)星傳感器光譜通道敏感,且在特定時(shí)間和地域獲取的閾值應(yīng)用到其他時(shí)間和地域又會(huì)產(chǎn)生偏差[9],并且閾值的確認(rèn)也需要做大量的實(shí)驗(yàn),有效的閾值選擇難以把握。

云檢測(cè)本質(zhì)上屬于分類問題,機(jī)器學(xué)習(xí)技術(shù)因?yàn)槠漭^強(qiáng)的信息挖掘能力也被廣泛應(yīng)用于云檢測(cè)研究中[10]。機(jī)器學(xué)習(xí)一般分為監(jiān)督學(xué)習(xí)和非監(jiān)督學(xué)習(xí),而云檢測(cè)研究中監(jiān)督學(xué)習(xí)算法更為流行,例如貝葉斯算法[11]、支持向量機(jī)(Support Vector Machine,SVM)[12-13]、隨機(jī)森林(Random Forest,RF)[14-15]和人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network,ANN)[16]等。利用機(jī)器學(xué)習(xí)進(jìn)行云檢測(cè)研究通常以反照率、亮溫以及通道組合作為輸入特征,以目視解譯標(biāo)記或激光雷達(dá)觀測(cè)結(jié)果作為云樣本[17]。利用機(jī)器學(xué)習(xí)進(jìn)行云檢測(cè)的輸入一般以能表征云時(shí)空變化和微物理特征為原則,因此輸入特征應(yīng)盡可能全面表征云的特性。對(duì)于云樣本標(biāo)記,利用目視解譯雖然能夠精確獲取云和晴空像元,但通常目視解譯獲取的樣本數(shù)據(jù)有限;利用激光雷達(dá),例如正交偏振云-氣溶膠偏振雷達(dá)(CALIOP)[15]觀測(cè)結(jié)果同樣可以較為精確獲取云和晴空像元,但激光雷達(dá)衛(wèi)星空間覆蓋有限,且與目標(biāo)衛(wèi)星存在過境時(shí)間差異導(dǎo)致時(shí)空匹配不一致問題。然而機(jī)器學(xué)習(xí)本質(zhì)上屬于數(shù)據(jù)驅(qū)動(dòng)的統(tǒng)計(jì)模型,其精度和魯棒性在很大程度上取決于樣本的數(shù)量、品質(zhì)和是否具有代表性等因素[18]。因此云樣本的準(zhǔn)確性和代表性是利用機(jī)器學(xué)習(xí)進(jìn)行云檢測(cè)的重要影響因素之一[19]。

日本氣象廳發(fā)射的新一代地球靜止氣象衛(wèi)星Himawari-8 搭載的高級(jí)葵花成像儀(Advanced Himawari Imager,AHI)具有16 個(gè)光譜波段,能夠?qū)崿F(xiàn)對(duì)全圓盤區(qū)域每十分鐘的觀測(cè)[20],被廣泛應(yīng)用于氣象監(jiān)測(cè)、山火監(jiān)測(cè)等方向。Himawari-8 衛(wèi)星具有更高的光譜分辨率和時(shí)間分辨率,為研究云的光譜特征和時(shí)空變化特征提供了良好的基礎(chǔ)。其官方團(tuán)隊(duì)開發(fā)了云檢測(cè)閾值算法[21],并得到云掩膜產(chǎn)品;同時(shí)該團(tuán)隊(duì)還開發(fā)了云類型(Cloud Type,CTYPE)、云光學(xué)厚度(Cloud Optical Depth,COD)和云相態(tài)(Cloud Phase,CLOP)等產(chǎn)品,為表征云微物理特性提供了有效參考。

本文針對(duì)云日變化、云類型、云相態(tài)、云光學(xué)厚度等特征差異帶來的光譜差異,導(dǎo)致傳統(tǒng)閾值算法無(wú)法對(duì)云進(jìn)行有效識(shí)別以及一般機(jī)器學(xué)習(xí)云檢測(cè)對(duì)樣本和輸入特征考慮較少的問題,以具有高時(shí)間分辨率的Himawari-8 數(shù)據(jù)為基礎(chǔ),構(gòu)建顧及不同天氣類型和時(shí)刻、云類型、云光學(xué)厚度、云相態(tài)等要素條件下的云樣本,同時(shí)輸入特征除了包括反照率、亮溫、亮溫差以及天頂角等,還針對(duì)機(jī)器學(xué)習(xí)未考慮云物理機(jī)理的問題,引入基于反照率和亮溫差的物理閾值方法識(shí)別結(jié)果作為輸入特征。然后在變量重要性度量、變量反向選擇和參數(shù)調(diào)優(yōu)的基礎(chǔ)上選擇極限隨機(jī)樹算法進(jìn)行云檢測(cè),并且與常用的隨機(jī)森林云檢測(cè)算法進(jìn)行對(duì)比分析;為定量評(píng)估本文構(gòu)建的云檢測(cè)模型的準(zhǔn)確度,通過利用十折交叉驗(yàn)證方法以及云-氣溶膠激光雷達(dá)與紅外探路者衛(wèi)星(CALIPSO)官方云檢測(cè)產(chǎn)品兩方面進(jìn)行精度評(píng)定。

1 研究區(qū)域與數(shù)據(jù)

1.1 研究區(qū)域概況

本文研究區(qū)域主要分布在云南地區(qū),云南地處我國(guó)西南邊陲,位于東經(jīng)97°31′~106°11′,北緯21°8′~29°15′,屬于低緯度和高海拔地區(qū),地勢(shì)呈西北高、東南低,為山地高原地形,氣溫總體呈北低南高的分布[22]。受到地域和氣候的影響,云南地區(qū)的云層具有明顯復(fù)雜多變的特點(diǎn)。

1.2 數(shù)據(jù)

本文使用的數(shù)據(jù)來自Himawari-8 衛(wèi)星和CALIPSO 衛(wèi)星。Himawari-8 衛(wèi)星可實(shí)現(xiàn)對(duì)全圓盤區(qū)域10 min 每次的高頻次觀測(cè),其上搭載的AHI 傳感器光譜通道覆蓋從可見光到紅外范圍的16 個(gè)波段,其波長(zhǎng)范圍從0.47~13.3 μm,具體波段屬性見表1。除了衛(wèi)星原始反照率和亮溫?cái)?shù)據(jù)外,本文使用Himawari-8 官方產(chǎn)品數(shù)據(jù)用于樣本優(yōu)化選擇,主要使用參數(shù)包括CTYPE、COD 和CLOP。

表1 AHI 波段屬性Tab.1 AHI Band properties

CALIPSO 衛(wèi)星為主動(dòng)式激光雷達(dá)衛(wèi)星,具有正交偏振能力,可以提供全球云和氣溶膠觀測(cè)數(shù)據(jù),并用于云和氣溶膠在調(diào)節(jié)地球氣候中的作用以及兩者的相互作用。攜帶的正交偏振云-氣溶膠偏振雷達(dá)采用了偏振技術(shù),是世界上首個(gè)應(yīng)用型的星載云和氣溶膠激光雷達(dá),具有三個(gè)通道(1 064 nm、532 nm垂直及平行通道),能夠較為準(zhǔn)確地識(shí)別出云以及反演云的微物理特性。本文主要使用的云檢測(cè)結(jié)果來自CALIPSO 衛(wèi)星官方云產(chǎn)品(2 級(jí)VFM 產(chǎn)品),數(shù)據(jù)時(shí)間為2019 年3 月—2022 年2 月。

2 研究方法

本文提出的云檢測(cè)模型主要包括樣本優(yōu)化選擇、多源特征構(gòu)建、機(jī)器學(xué)習(xí)算法、模型參數(shù)調(diào)優(yōu)、精度評(píng)定五方面內(nèi)容,主要流程如圖1 所示。機(jī)器學(xué)習(xí)模型本質(zhì)上屬于數(shù)據(jù)驅(qū)動(dòng)模型,其精度和泛化能力在很大程度上取決于特征的選擇以及樣本的數(shù)等。因此本文重點(diǎn)對(duì)多源特征數(shù)據(jù)集的構(gòu)建以及云樣本品質(zhì)和是否具有代表性進(jìn)行探究。

圖1 云檢測(cè)流程Fig.1 Flowchart of cloud detection

2.1 樣本優(yōu)化選擇

隨著機(jī)器學(xué)習(xí)和深度學(xué)習(xí)技術(shù)在衛(wèi)星遙感領(lǐng)域的不斷深入發(fā)展和應(yīng)用,以樣本為基礎(chǔ)的數(shù)據(jù)驅(qū)動(dòng)模型逐漸成為遙感信息提取的一種新的研究方向,對(duì)樣本的規(guī)模、品質(zhì)、多樣性等提出了更高要求。本文對(duì)云樣本品質(zhì)以及是否具有代表性進(jìn)行探究,通過優(yōu)化選擇過程,使樣本盡可能覆蓋不同情形下的云和晴空。

在樣本優(yōu)化選擇過程中充分考慮時(shí)間維度、天氣類型、云相態(tài)(CLOP)、云光學(xué)厚度(COD)和云類型(CTYPE)。云是大氣中的水蒸氣遇冷液化成的小水滴或凝華成的小冰晶所混合組成的漂浮在空中的可見聚合物。根據(jù)云的定義,云一般按相態(tài)可以分為水云、冰云與混合云等,而云相態(tài)會(huì)直接影響云對(duì)輻射的吸收、散射和透射。從圖2(a)和圖2(b)可以看出,云南地區(qū)水云相比于冰云和混合云分布更廣且離散,如果樣本選擇過程中不考慮云相態(tài)會(huì)導(dǎo)致水云樣本明顯高于冰云和混合云。

圖2 云南地區(qū)云相態(tài)空間分布Fig.2 Spatial distribution of cloud phase in Yunnan

COD 是云微物理特性中的重要參數(shù),其表征云的消光能力,一般云量少且云層薄時(shí)對(duì)應(yīng)的COD 值為2~3 左右。根據(jù)云南地區(qū)COD 值小于2(如圖3(a))和COD 值小于3 的結(jié)果圖(如圖3(b))對(duì)比發(fā)現(xiàn),COD 值小于2 的像元覆蓋與目視解譯過程中認(rèn)為的薄云像元更為接近。因此認(rèn)為COD 值小于2 的值為薄云,為樣本選擇中薄云判斷提供依據(jù)。

圖3 云南地區(qū)COD 空間分布Fig.3 Spatial distribution of COD in Yunnan

國(guó)際衛(wèi)星云氣候?qū)W計(jì)劃(International Satellite Cloud Climatology Project,ISCCP)根據(jù)云頂高度和COD,將云分成9 類,即卷云、卷層云、深對(duì)流、高積云、高層云、雨層云、積云、層積云和層云。根據(jù)高度劃分,前三類為高云,中間三類為中云,后三類為低云。不同云類型的微物理特性差異導(dǎo)致衛(wèi)星傳感器觀測(cè)到的反照率和亮溫存在差異。從圖4(a)可以看出,在可見光和近紅外波段,各類型云在不同波段變化趨勢(shì)一致,但反照率具有明顯差異;不同類型云在同一波段上差異顯著,例如積云與雨層云在3 波段(albedo03)反照率相差0.26,主要受到不同云類型所處高度、光學(xué)厚度、相態(tài)、云粒子有效半徑等因素影響;根據(jù)圖4(b),在熱紅外波段,中低云在7 波段(tbb07)和10 波段(tbb10)亮溫差異較小,但在11 波段(tbb11)、14 波段(tbb14)、15 波段(tbb15)具有明顯差異,主要由于波長(zhǎng)較長(zhǎng)時(shí),不同類型云對(duì)電磁波的吸收和反射特性差異更明顯。高云平均亮溫為254.5 K,顯著低于中低云平均亮溫276.5 K,主要由于高云相態(tài)主要以冰云和混合云為主且高度較高;根據(jù)圖4(c),各個(gè)云類型在BTD07(14 和7 波段亮溫差)和BTD10(14 和10 波段亮溫差)變化趨勢(shì)基本一致,但不同類型云亮溫差差異明顯;根據(jù)圖4(d),各個(gè)云類型在BTD11(14 和11 波段亮溫差)和BTD15(14 和15 波段亮溫差)同樣具有明顯差異,主要由于不同類型云的構(gòu)成和微物理特性差異導(dǎo)致。

圖4 不同云類型反照率、亮溫和亮溫差差異對(duì)比Fig.4 Comparison of reflectivity, brightness temperature and brightness temperature difference of different cloud types

基于以上分析發(fā)現(xiàn),不同云類型的反照率、亮溫和亮溫差同樣存在明顯差異,所以樣本對(duì)云類型的考慮是必要的,樣本中標(biāo)記各個(gè)時(shí)間段云類型數(shù)據(jù),在一定程度上能為以數(shù)據(jù)為驅(qū)動(dòng)的機(jī)器學(xué)習(xí)模型帶來更高的精度和魯棒性。

綜上所述,為了提高云識(shí)別有效性,云樣本需要考慮加入COD 小于2 的像元用以標(biāo)識(shí)薄云情況,加入云相態(tài)和云類型用以標(biāo)識(shí)不同云相態(tài)和類型對(duì)輻射的吸收、散射和透射程度。

樣本優(yōu)化選擇具體步驟如下:

步驟1:首先考慮時(shí)間維度和天氣類型,從2020 年4 月—2022 年5 月范圍內(nèi)選取Himawari-8 數(shù)據(jù),在時(shí)間上覆蓋4 個(gè)季節(jié)、12 個(gè)月以及白天中不同時(shí)刻,天氣類型包括晴天、陰天、多云、雨、霧、下雪后(避免地表積雪對(duì)識(shí)別帶來干擾)等。然后選取Himawari-8 云產(chǎn)品參數(shù)QA(Quality Assurance)為高置信度且確定為云的像元作為云,并標(biāo)記為1;QA 為高置信度且確定為晴空的像元作為晴空,并標(biāo)記為0,最終生成樣本L1。

步驟2:基于樣本L1,依據(jù)COD、CLOP 和CTYPE 進(jìn)行判斷,獲取樣本L2。樣本L2生成過程如下:

式中Scod、Sclop和Stype分別代表云光學(xué)厚度、云相態(tài)和云類型樣本篩選條件下的樣本集合;d為COD 值;p和k分別為云相態(tài)和云類型掩碼;D1和D2分別代表COD 小于2 和大于等于2 的數(shù)據(jù)集;P1、P2、P3分別代表水云、混合云和冰云數(shù)據(jù)集;Tk為9 種云類型樣本數(shù)據(jù)集。由于薄云數(shù)據(jù)相對(duì)較小,所以D1中數(shù)據(jù)量為D2的1/3,避免數(shù)據(jù)量過小。云類型和云相態(tài)數(shù)據(jù)量均以中位數(shù)M為標(biāo)準(zhǔn),小于中位數(shù)的數(shù)據(jù)取全部數(shù)據(jù)集,大于中位數(shù)數(shù)據(jù)量隨機(jī)取M個(gè)數(shù)據(jù)。通過對(duì)篩選后的三類樣本數(shù)據(jù)取并集,形成云樣本L2

步驟3:通過對(duì)L2隨機(jī)選取樣本點(diǎn)進(jìn)行目視確認(rèn),刪除云和晴空指示不明的像元,形成最終優(yōu)化選擇后的樣本。

通過以上步驟獲取的云樣本包括不同時(shí)間、天氣類型、云相態(tài)、云類型以及薄云情況下的數(shù)據(jù),增加了云樣本代表性。

2.2 多源特征構(gòu)建

輸入特征作為機(jī)器學(xué)習(xí)和深度學(xué)習(xí)等統(tǒng)計(jì)模型中重要因素之一,輸入特征的優(yōu)選組合是提升模型準(zhǔn)確性和魯棒性的重要措施。輸入特征選取原則為是否能夠在不同情形區(qū)分云和晴空,與其他研究不同的是本文除了考慮反照率、亮溫、亮溫差以及天頂角等因素外,還加入了基于反照率和亮溫差異構(gòu)建的物理閾值方法云檢測(cè)結(jié)果(Mask),該模型是對(duì)云南地區(qū)可見光波段反照率、熱紅外波段亮溫以及中紅外與熱紅外亮溫差的多組云測(cè)試結(jié)果組合,具體見式(5)~(8):

滿足式(5)~(8)任一條件均為云像元,式中各變量釋義見表2,各個(gè)閾值條件通過對(duì)云南地區(qū)測(cè)試獲取。本文輸入特征具體見表2。

表2 輸入特征表Tab.2 Table of input features

2.3 機(jī)器學(xué)習(xí)算法

隨機(jī)森林由Leo Breiman[23]受到Amit 和Geman[24]早期工作的啟發(fā)在2001 年提出。隨機(jī)森林由Bootstrap 樣本訓(xùn)練的決策樹集合組成,并根據(jù)隨機(jī)選擇的預(yù)測(cè)器子集中的最佳子集劃分樹中的每個(gè)節(jié)點(diǎn)。其可以用于分類響應(yīng)變量(稱為分類),也可以用于連續(xù)響應(yīng)(稱為回歸)。與人工神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)等方法相比,RF 具有更好的學(xué)習(xí)性能,對(duì)噪聲的魯棒性也更強(qiáng),同時(shí)減少過擬合現(xiàn)象的發(fā)生。

極限隨機(jī)樹(Extremely Randomized Trees,ET)方法由Pierre Geurts 等人于2006 年提出[25]。ET 是RF 在計(jì)算效率方面和高度隨機(jī)化的擴(kuò)展。ET 根據(jù)經(jīng)典的自上向下過程構(gòu)建一組未修剪的決策樹,類似于RF 方法。但是,該方法與RF 有兩點(diǎn)主要的區(qū)別:

1)RF 應(yīng)用的是引導(dǎo)聚集算法(Bootstrap Aggregating,Bagging),但ET 不采用自助抽樣法(Bootstrap)來選擇采樣集作為每個(gè)決策樹的訓(xùn)練集,而是每棵決策樹應(yīng)用的是全部原始訓(xùn)練集;

2)RF 在一個(gè)隨機(jī)子集內(nèi)獲取最佳的分裂屬性,主要是基于基尼重要度或者均方差的原則,這與傳統(tǒng)的決策樹保持一致,而ET 隨機(jī)選擇一個(gè)特征值劃分決策樹,增強(qiáng)了基分類器節(jié)點(diǎn)分裂的隨機(jī)性。

從數(shù)據(jù)學(xué)習(xí)的維度理解,ET 進(jìn)一步增強(qiáng)了樣本空間的隨機(jī)性。

2.4 模型參數(shù)調(diào)優(yōu)

通過對(duì)所選變量的重要性度量,定量化排名所有輸入變量在模型的重要性,并在此基礎(chǔ)上進(jìn)行變量反向選擇和網(wǎng)格化尋優(yōu)確定最終參數(shù)。

2.4.1 變量重要性度量

變量重要性度量主要采用基于平均不純度減少的方法(MDI),通過計(jì)算每棵樹內(nèi)雜質(zhì)減少累積的平均值和標(biāo)準(zhǔn)差來實(shí)現(xiàn)對(duì)特征的重要性度量。如圖5 所示,物理閾值方法云檢測(cè)結(jié)果在模型中的重要性最高,說明物理閾值方法提取的云和晴空結(jié)果在一定程度上具有較高可信度,在模型中也表現(xiàn)出較為重要作用。其次為第三波段反照率,而第三波段也經(jīng)常被用做云檢測(cè)特征。衛(wèi)星天頂角、經(jīng)度和緯度的重要性分列后三位,可能原因?yàn)镠imawari-8是地球靜止軌道衛(wèi)星,衛(wèi)星天頂角在云南區(qū)域變化不大,因此對(duì)云層和晴空的表現(xiàn)特征不明顯;經(jīng)度和緯度分別在一定程度上表征地理位置,但是在云南范圍內(nèi)云和晴空的覆蓋情況一般與地理位置相關(guān)性不大,因此導(dǎo)致經(jīng)度和緯度在模型中的重要性不高。

圖5 變量重要性度量Fig.5 Feature importance

2.4.2 變量反向選擇

為了減少模型運(yùn)行成本和計(jì)算量,并且避免數(shù)據(jù)冗余和相關(guān)性,考慮對(duì)變量進(jìn)行反向選擇,獲取模型最優(yōu)變量。其基本思想為,通過對(duì)變量重要性度量中重要性最差的變量進(jìn)行剔除,根據(jù)模型識(shí)別精度進(jìn)行定量判定,若模型精度不發(fā)生明顯變化則移除該變量。變量重要性度量結(jié)果顯示衛(wèi)星天頂角在變量重要性中居末位,因此在變量反向選擇的過程中優(yōu)先刪除衛(wèi)星天頂角。在變量反向選擇過程中(表3)發(fā)現(xiàn),保留全部變量時(shí),云檢測(cè)精度(云被正確分類的概率)為96.41%,總分類精度(云和晴空都被正確分類的概率)為97.01%,而總漏檢率和總虛檢率分別為2.08%和0.91%;在分別刪除變量重要性后三位的衛(wèi)星天頂角、經(jīng)度和緯度后,模型精度均有小幅度下降,因此考慮不刪除變量,選擇全部變量作為輸入數(shù)據(jù)。

表3 變量反向選擇過程中精度變化Tab.3 Accuracy changes during variable reverse selection

2.4.3 網(wǎng)格化尋優(yōu)

網(wǎng)格化尋優(yōu)基本過程為遍歷搜索,即在所有候選的參數(shù)選擇中,通過循環(huán)遍歷,嘗試每一種可能性,表現(xiàn)最好的參數(shù)就是最終的結(jié)果。網(wǎng)格化尋優(yōu)過程包括網(wǎng)格搜索和交叉驗(yàn)證。網(wǎng)格搜索,搜索的是參數(shù),即在指定的范圍內(nèi),按步長(zhǎng)依次調(diào)整參數(shù),利用調(diào)整的參數(shù)進(jìn)行模型訓(xùn)練,從范圍內(nèi)所有參數(shù)中找到在驗(yàn)證集上精度最高的參數(shù),本質(zhì)為模型訓(xùn)練驗(yàn)證并進(jìn)行比較的過程。

本文對(duì)模型最大迭代次數(shù)(n_estimators)進(jìn)行網(wǎng)格化尋優(yōu),設(shè)置最小值為50,最大值為1 200,步長(zhǎng)為50,對(duì)參數(shù)數(shù)組進(jìn)行遍歷搜索,并獲取對(duì)應(yīng)每個(gè)數(shù)值對(duì)應(yīng)的得分。以ET 模型為例,結(jié)果(圖6)顯示,在最大迭代次數(shù)在400~1 200 區(qū)間內(nèi),對(duì)應(yīng)得分相對(duì)接近,在最大迭代次數(shù)為700 時(shí)得分最高,并且在大于700 后基本處于穩(wěn)定狀態(tài),因此ET 模型選擇最大迭代次數(shù)為700 進(jìn)行模型建立。

圖6 最大迭代次數(shù)網(wǎng)格尋優(yōu)結(jié)果Fig.6 Grid search results of n_estimators

2.5 精度評(píng)定

云檢測(cè)屬于二分類問題,因此一般基于混淆矩陣進(jìn)行精度評(píng)定。TP(True Positive)表示預(yù)測(cè)為云且實(shí)際也為云的數(shù)量;TN(True Negative)表示預(yù)測(cè)為晴空且實(shí)際也為晴空的數(shù)量;FP(False Positive)表示預(yù)測(cè)為云但實(shí)際為晴空的數(shù)量;FN(False Negative)表示預(yù)測(cè)為晴空但實(shí)際為云的數(shù)量。

在分類指標(biāo)定義后,利用以下四個(gè)指標(biāo)對(duì)模型精度進(jìn)行評(píng)定:

式中P為樣本中為云的樣本數(shù)量;N為樣本中為晴空的樣本數(shù)量; CP為云檢測(cè)精度,表征云被正確分類的概率; TP 為總分類精度,表征云和晴空都被正確分類的概率; MP為總漏檢率,表征實(shí)際為云,而預(yù)測(cè)為晴空的概率; FP為總虛檢率,表征實(shí)際為晴空,預(yù)測(cè)為云的概率。

3 結(jié)果與分析

本文采用十折交叉驗(yàn)證方法對(duì)模型進(jìn)行精度驗(yàn)證,其方法主要將樣本數(shù)據(jù)集分成10 份,將其中9 份作為訓(xùn)練數(shù)據(jù),1 份作為測(cè)試數(shù)據(jù),交叉驗(yàn)證重復(fù)10 次,平均10 次的結(jié)果最終得到總體精度。這個(gè)方法的優(yōu)勢(shì)在于保證所有樣本數(shù)據(jù)都可以參與驗(yàn)證。

RF 和ET 云檢測(cè)精度對(duì)比結(jié)果(表4)顯示,ET 云檢測(cè)精度和總分類精度均高于RF。因此選擇在驗(yàn)證精度上表現(xiàn)較好的ET 進(jìn)行云檢測(cè)。

表4 精度指標(biāo)結(jié)果Tab.4 Accuracy index results

選取2021 年8 月2 日14 時(shí)數(shù)據(jù)對(duì)云檢測(cè)結(jié)果進(jìn)行驗(yàn)證和分析,根據(jù)圖7(a)真彩色圖像顯示,該時(shí)刻具有云層集中、晴空集中以及云與晴空交叉分布特征,而根據(jù)圖7(b)云檢測(cè)結(jié)果(灰色為云,淺藍(lán)色為晴空),整體看,云與晴空分布與真彩色圖像匹配度較好;在圖像左下角云層集中區(qū),真彩色圖像顯示存在小范圍偏暗區(qū)域,目視識(shí)別為薄云,而云檢測(cè)能夠?qū)⑦@部分識(shí)別為云,且在一定程度上符合云層分布的空間連續(xù)性。對(duì)于圖像右上角晴空集中區(qū),云檢測(cè)結(jié)果能將晴空像元檢測(cè)出來,對(duì)于區(qū)域內(nèi)離散分布的碎云也能夠與晴空進(jìn)行分離;對(duì)于圖像中部云和晴空交叉分布區(qū)域,云檢測(cè)結(jié)果中的云像元與真彩色圖像中的偏亮像元能夠較好地進(jìn)行匹配;通過視覺分析,云檢測(cè)結(jié)果對(duì)于云邊緣和薄云的識(shí)別也與真彩色影像具有較好一致性。

圖7 2021 年8 月2 日14 時(shí)真彩色影像與云檢測(cè)結(jié)果對(duì)比Fig.7 Comparison of true color image with cloud detection result at 14:00 on August 2, 2021

為了驗(yàn)證模型在一天早中晚的云檢測(cè)效果,選取2022 年6 月2 日早8 時(shí)、中午12 時(shí)和晚18 時(shí)進(jìn)行對(duì)比分析。如表5 所示,云南地區(qū)云像元占比顯著高于晴空像元,左下和右上區(qū)域云層相對(duì)集中,而左上和右下區(qū)域云層相對(duì)分散。在早8 時(shí),晴空像元主要分布在影像左上區(qū)域,中部區(qū)域云和晴空交叉分布,而云檢測(cè)結(jié)果與目視識(shí)別判斷結(jié)果趨勢(shì)基本一致,且對(duì)區(qū)域內(nèi)相對(duì)云和晴空邊界分離較好;根據(jù)真彩色影像,中午12 時(shí)比8 時(shí)晴空像元相對(duì)減少,左上區(qū)域晴空被零散的云覆蓋,呈現(xiàn)出波紋狀,而云檢測(cè)結(jié)果與這一趨勢(shì)相對(duì)應(yīng),因此模型可以捕捉一天中不同時(shí)刻云層的變化特征。根據(jù)真彩色影像,晚18時(shí)相比于8 時(shí)和12 時(shí),右下區(qū)域晴空像元增多,同時(shí)對(duì)于區(qū)域內(nèi)較薄的云層也可以做出有效檢測(cè)。因此,針對(duì)一天中不同時(shí)刻的云變化顯著的情況下,模型也可以實(shí)現(xiàn)對(duì)云和晴空的有效分離。

表5 不同時(shí)刻真彩色影像與云檢測(cè)對(duì)比Tab.5 Comparison of true color images with cloud detection at different moments in time

為了進(jìn)一步驗(yàn)證模型的精度和魯棒性,本文選取在樣本集覆蓋時(shí)間外的CALIPSO 衛(wèi)星官方云產(chǎn)品對(duì)模型云檢測(cè)結(jié)果進(jìn)行驗(yàn)證。CALIPSO 數(shù)據(jù)覆蓋四個(gè)季節(jié),每個(gè)季節(jié)不同月份隨機(jī)抽選7~10 天數(shù)據(jù),確保每個(gè)季度的云檢測(cè)結(jié)果都可以得到驗(yàn)證?;贑ALIPSO 過境時(shí)刻數(shù)據(jù)(部分時(shí)刻接近,時(shí)間誤差不超過5 min)進(jìn)行云檢測(cè),并對(duì)所有驗(yàn)證數(shù)據(jù)以及各個(gè)季度數(shù)據(jù)進(jìn)行精度評(píng)定,其中所有驗(yàn)證數(shù)據(jù)量為24 286 個(gè)。如圖8 所示,全部數(shù)據(jù)驗(yàn)證云檢測(cè)精度為97.1%,其中夏季云檢測(cè)精度最高,為98.77%,秋季云檢測(cè)精度最低,為95.38%,說明本文在顧及樣本優(yōu)化選擇后構(gòu)建的云南地區(qū)云檢測(cè)機(jī)器學(xué)習(xí)模型具有較好的精度和魯棒性,能夠?qū)υ坪颓缈諏?shí)現(xiàn)較好的分離。

圖8 基于CALIPSO 的云檢測(cè)季節(jié)驗(yàn)證精度Fig.8 Season verification accuracy of cloud detection based on CALIPSO

4 結(jié)束語(yǔ)

本文在樣本優(yōu)化選擇和引入物理閾值方法為輸入特征的基礎(chǔ)上,構(gòu)建基于機(jī)器學(xué)習(xí)的云檢測(cè)模型,對(duì)云南地區(qū)進(jìn)行云檢測(cè),其中重點(diǎn)考慮樣本數(shù)據(jù)品質(zhì)和代表性對(duì)機(jī)器學(xué)習(xí)模型的重要性,以及改進(jìn)機(jī)器學(xué)習(xí)模型未考慮云檢測(cè)的物理機(jī)理的情況。與以往研究主要有兩點(diǎn)不同:一是在樣本優(yōu)化選擇過程中,考慮時(shí)間維度、天氣類型、CLOP、COD 和CTYPE 因素,以此讓樣本集中包含不同情形下的云特征,增加樣本代表性;二是在多源特征構(gòu)建過程中,引入基于反照率和亮溫差異構(gòu)建的物理閾值方法,使機(jī)器學(xué)習(xí)模型在一定程度上考慮到云檢測(cè)物理機(jī)理過程。

由于衛(wèi)星空間分辨率和混合像元的影響,導(dǎo)致一個(gè)像元可能存在有云和無(wú)云同時(shí)覆蓋情況,對(duì)于這種情況,本方法存在漏檢和誤檢情況,難以準(zhǔn)確判斷,這種情形下需要結(jié)合高空間分辨率衛(wèi)星影像進(jìn)行研究。此外,本文主要是基于Himawari-8 衛(wèi)星數(shù)據(jù)進(jìn)行相關(guān)研究,在未來工作中,將基于其他衛(wèi)星數(shù)據(jù)利用本方法開展實(shí)驗(yàn),以驗(yàn)證方法的有效性。

猜你喜歡
反照率相態(tài)晴空
秋詞
基于藍(lán)天空反照率的氣溶膠輻射強(qiáng)迫模擬
八萬(wàn)元買個(gè)代步車? 五菱Air ev晴空
薩吾爾山木斯島冰川反照率時(shí)空變化特征研究
長(zhǎng)江三角洲地區(qū)大氣氣溶膠柱單次散射反照率特性研究
冬日的晴空(外一首)
SBS改性瀝青相態(tài)結(jié)構(gòu)的參數(shù)化表征方法
四川省降水相態(tài)識(shí)別判據(jù)研究
PS/PLA共混物的相態(tài)結(jié)構(gòu)及其發(fā)泡行為研究
泡沫油WINPROP相態(tài)研究
射阳县| 若尔盖县| 江油市| 临西县| 昌黎县| 綦江县| 绩溪县| 衡水市| 崇阳县| 昭通市| 阜城县| 安阳市| 仪陇县| 彰化市| 肥城市| 大足县| 织金县| 德昌县| 甘肃省| 隆德县| 鄂托克旗| 溧水县| 多伦县| 门源| 磐安县| 迁西县| 茂名市| 镶黄旗| 吉木萨尔县| 杭州市| 乌鲁木齐县| 宣威市| 寿阳县| 广昌县| 丁青县| 南通市| 凌云县| 杂多县| 衡水市| 大同市| 临夏县|