王敏, 李晟, 莊志豪, 王康, 孫碩, 吳佳
(南京信息工程大學(xué)電子與信息工程學(xué)院, 南京 210044)
云是大氣中的水汽經(jīng)過凝結(jié)作用而形成的多形態(tài)可見聚合物[1],其組成的云層覆蓋了大部分地球表面[2]。云作為重要的氣象要素,在即時天氣預(yù)報、即時降水預(yù)測、人工增雨、云層覆蓋預(yù)測、輻照度預(yù)測、航空管制、衛(wèi)星地空通信優(yōu)化[3-4]等諸多方面得到廣泛的研究和應(yīng)用。云圖是分析云相關(guān)信息的主要工具,主要包括衛(wèi)星遙感云圖和地基云圖[5]。衛(wèi)星遙感云圖缺乏詳細的地面信息[6]。利用地基云圖的高時空間分辨率,可準(zhǔn)確地獲取局部的云條件[7-9]。
云圖分割是獲取云的諸多參數(shù)的基礎(chǔ),但由于云的邊界模糊、紋理復(fù)雜,傳統(tǒng)圖像分割算法已不能適用于地基云圖的分割領(lǐng)域[10]。傳統(tǒng)的云圖分割方法主要是基于閾值分割技術(shù)[11-15]、神經(jīng)網(wǎng)絡(luò)模型[16-17]以及更復(fù)雜的方法,包括馬爾科夫隨機場模型[18]、高斯混合模型[19]和歸一化切割法[20]。Long等[21]提出一種固定閾值算法,根據(jù)RGB顏色空間中R和B通道閾值的強弱來提取云區(qū)域。Heinle等[22]在前者基礎(chǔ)上添加使用紅藍通道的差值提取云圖的紋理特征,并使用K最近鄰法(Knearest neighbors,KNN)算法實現(xiàn)云圖的分割。類似地有自適應(yīng)閾值方法和超像素分割方法被Liu等[23]應(yīng)用于云圖分割。Taravat等[24]拓展了支持向量機(support vector machines,SVM)和神經(jīng)網(wǎng)絡(luò)等機器學(xué)習(xí)算法在云圖分割領(lǐng)域的應(yīng)用。孫勁光等[25]提出一種改進近鄰傳播的聚類的圖像分割算法。但是基于閾值的分割算法很少利用到空間信息,且嚴(yán)重依賴于天氣條件、光譜特征等因素,性能會在源域和目標(biāo)域之間存在大量的誤分割。機器學(xué)習(xí)算法則對參數(shù)的選取較為敏感,自適應(yīng)能力差,針對上述問題和限制有必要開發(fā)一種穩(wěn)定準(zhǔn)確、魯棒性強、泛化能力強的自適應(yīng)地基云圖分割算法。
語義分割作為計算機視覺的基本任務(wù)之一[26-27],其可以預(yù)測圖像以生成相應(yīng)的掩碼,但由于缺乏大規(guī)模的地基云圖云注釋數(shù)據(jù),僅少數(shù)方法是基于地基云圖數(shù)據(jù)集,所以值得進行深入研究以探索模型的云分割性能。卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)應(yīng)用于云圖分析任務(wù)中取得了突破性進展,這得益于在云特征表示和高級云特征提取方面的強大能力[28-30]。
現(xiàn)先總結(jié)介紹國內(nèi)外現(xiàn)有的標(biāo)簽置信度高標(biāo)準(zhǔn)地基云圖數(shù)據(jù)集,接著闡述最近的基于語義分割模型的地基云圖分割研究進展和效果,介紹基礎(chǔ)理論并選取八種典型的語義分割模型分析的分割效果,再在云圖數(shù)據(jù)集上驗證模型的泛化能力和魯棒性,最后對地基云圖像素級自適應(yīng)分割技術(shù)的研究做出總結(jié)和展望。
標(biāo)準(zhǔn)的地基云圖分割數(shù)據(jù)集是后續(xù)云天分割等云信息獲取的重要基礎(chǔ)。數(shù)據(jù)集的質(zhì)量將直接影響云圖分割模型的性能,研究人員需要挑選出噪聲干擾項因素較小、云特征信息明顯的云圖,對云天進行精準(zhǔn)的標(biāo)注,此外為提高云圖數(shù)據(jù)樣本的置信度,需要專業(yè)氣象專家對相似度極高、云體邊緣不明顯、云天交融問題等云圖進行標(biāo)注??紤]到標(biāo)準(zhǔn)大規(guī)模分割數(shù)據(jù)集的制作成本較高,耗時長,研究學(xué)者們一直使用小樣本數(shù)據(jù)集進行地基云圖分割和識別研究,除了數(shù)據(jù)擴充等技術(shù)外,學(xué)者依托深度學(xué)習(xí)技術(shù)來制作數(shù)據(jù)集,先將捕獲到的云圖數(shù)據(jù)使用預(yù)訓(xùn)練模型進行分割,再將云圖顏色通道分量進行閾值分割,再將二者圖像矩陣進行將與操作,最后對將與后的結(jié)果圖進行人工校準(zhǔn)和標(biāo)注。如圖1所示,展示SWIMSEG數(shù)據(jù)集部分樣圖。
(1)BENCHMARK數(shù)據(jù)集。BENCHMARK數(shù)據(jù)集是UTILITY數(shù)據(jù)集的子集[31],從其中選取32幅包含有積云、卷云和層云不同形式的云圖,再使用Voronoi多邊形區(qū)域生成器生成二值掩膜圖像做真值(ground truth,GT)圖像。但由于該數(shù)據(jù)集的云圖樣本數(shù)據(jù)量有限,因此在使用深度學(xué)習(xí)技術(shù)時可能會導(dǎo)致過擬合問題。
(2)SWIMSEG數(shù)據(jù)集。SWIMSEG數(shù)據(jù)集全稱是新加坡全天圖像分割數(shù)據(jù)集,由Dev等[32]部署在新加坡南洋理工大學(xué)的天空成像系統(tǒng)WAHRSIS獲得云圖像。該數(shù)據(jù)集中的云掩碼相當(dāng)高的準(zhǔn)確性。其具有統(tǒng)一性和組織性,但對于薄云等區(qū)域存在標(biāo)簽精準(zhǔn)度不足的問題。
(3)WSISEG數(shù)據(jù)集。WSISEG數(shù)據(jù)集全稱是全天空圖像分割數(shù)據(jù)集,由Fa等[33]提出的半球天空圖像數(shù)據(jù)集。該數(shù)據(jù)集包括有各種云層覆蓋、全天時間以及太陽的方位角和仰角,因此其反映了完整的全天條件。
(4)CCSN數(shù)據(jù)集。CCSN數(shù)據(jù)集全稱為卷云積云層云雨云數(shù)據(jù)集,由中國學(xué)者Zhang等[34-35]所構(gòu)建,其數(shù)據(jù)量為SWIMCAT數(shù)據(jù)集[36]的3倍,其最大特點就是將尾跡云[37]納入該數(shù)據(jù)集中,但是該數(shù)據(jù)集沒有相應(yīng)的云掩碼標(biāo)簽。
其余的公共數(shù)據(jù)集還有HYTA數(shù)據(jù)集,全稱為混合閾值算法數(shù)據(jù)集[31],新加坡南洋理工大學(xué)陸續(xù)發(fā)布了SWINSEG[38]、SWINySEG[39]、SHWIMSEG[40]等高質(zhì)量數(shù)據(jù)集,中國學(xué)者Zhou等[41]針對云圖數(shù)據(jù)量小標(biāo)簽不足等問題所制作的CBCS數(shù)據(jù)集,Zhang等[42-43]制作了TJNU云探測數(shù)據(jù)集TCDD和TJNU大規(guī)模云探測數(shù)據(jù)集TLCDD,如表1所示,羅列了各類地基云圖數(shù)據(jù)集基本信息,都為研究語義分割網(wǎng)絡(luò)在地基云圖分割技術(shù)方面奠定了有力的基礎(chǔ)。
深度學(xué)習(xí)技術(shù)因AlexNet[44]在大規(guī)模圖像識別大賽上的杰出表現(xiàn)而備受關(guān)注,在云探測領(lǐng)域中使用基于深度學(xué)習(xí)云圖分割方法可以使計算機自動提取云特征和分割云圖中云的部分[45],學(xué)者們不斷拓新提出更多新模型范式。毋立方等[46]提出了一種基于超像素分析聚類的全卷積網(wǎng)絡(luò)(fully convolutional networks,FCN)和卷積神經(jīng)網(wǎng)絡(luò)聯(lián)合的FCN-CNN云圖分割方法,該方法的局限性在于無法對云圖分割實現(xiàn)端到端的訓(xùn)練,需要預(yù)先對云圖進行聚類。沈慧想等[47]提出了一種基于對稱式密集連接CNN模型的地基云圖分割方法,特點是通過密集連接塊和上采樣模塊并聯(lián)融合淺層和深層特征,最終實現(xiàn)對地面云圖像的精準(zhǔn)分割。該方法存在模型參數(shù)量較大,嚴(yán)重影響了訓(xùn)練速度的問題。Dev等[48]基于Encoder-Decoder模型設(shè)計一種名為CloudSegNet的輕量級深度學(xué)習(xí)模型,云圖分割準(zhǔn)確率達到94%,可以有效解決薄云出現(xiàn)從而導(dǎo)致標(biāo)簽錯誤的問題,并史無前例地實現(xiàn)了白天和夜間的云圖分割。Xie等[49]提出了SegCloud模型,該模型在400幅帶有手動標(biāo)記標(biāo)簽的全天圖像上訓(xùn)練,實現(xiàn)了云圖像的有效且精準(zhǔn)的分割,該模型通過計算云圖像中云像素占所有像素的百分比,提供了可靠的云量信息。在證明其準(zhǔn)確性和實用性的同時,仍需進一步模型優(yōu)化以提高在薄云的識別與分割精度。Shi等[50-51]對U-Net進行優(yōu)化提出了CloudU-Net、CloudU-Netv2對晝夜圖像進行了有效地分割。其中CloudU-Netv2采用雙線性上采樣、位置和通道注意力模塊,優(yōu)化了原先CloudU-Net的分割性能。Zhang等[52-53]提出了多尺度注意力卷積神經(jīng)網(wǎng)絡(luò)(multiscale attention convolutional neural network,MACNN)模型,添加了多尺度模塊,以及用于學(xué)習(xí)注意力系數(shù)的注意力模塊。隨后提出了具有雙金字塔池化模塊的DPNet,在大數(shù)據(jù)集上取得了較好的分割效果。Shi等[54]繼續(xù)深入研究云分割,提出了CloudRaednet模型,編碼器中添加了殘差模塊,采用注意門連接解碼器,可實現(xiàn)在不不增加時間復(fù)雜度的條件下,更好地分割地基云圖中的局部細節(jié)。Makwana等[55]提出基于注意力和聚類的輕量級云分割網(wǎng)絡(luò)ACLNet,實現(xiàn)了較好的云圖預(yù)測性能。如表2所示,詳細介紹了近年來地基云圖檢測領(lǐng)域研究學(xué)者所提出的分割模型,使用的數(shù)據(jù)集不盡相同。 其中CloudU-Net、CloudU-Netv2、MACNN、CloudRaednet、DPNet、ACLNet等網(wǎng)絡(luò)都取得不錯的效果。
表2 地基云圖分割主要模型和訓(xùn)練數(shù)據(jù)集介紹Table 2 Main segmentation models and training data sets of ground-based cloud images
綜上所述,可知深度學(xué)習(xí)技術(shù)在云檢測任務(wù)中通過對海量數(shù)據(jù)的訓(xùn)練,挖掘精細的云體特征,達到良好分割效果,研究學(xué)者們嘗試更多類型的分割模型范式和算法來實現(xiàn)地基云圖分割任務(wù)。
為對語義分割網(wǎng)絡(luò)模型在地基云圖分割任務(wù)上的性能表現(xiàn)做出詳細的評估,現(xiàn)先對基礎(chǔ)理論簡單介紹,然后選取現(xiàn)階段性能較好的幾種語義分割網(wǎng)絡(luò)在地基云圖數(shù)據(jù)集上進行實驗,對分割結(jié)果數(shù)據(jù)做指標(biāo)性評估,并對分割效果進行可視化操作,最后驗證泛化能力。
卷積神經(jīng)網(wǎng)絡(luò)(CNN)[56]因其具有強大的自適應(yīng)特征提取和學(xué)習(xí)能力可挖掘地基云圖中云體精細邊緣和紋理等不明顯特征信息,CNN可以利用共享權(quán)值、局部連接等特性來大幅度減少網(wǎng)絡(luò)復(fù)雜度[57]。CNN是一種端到端的高效網(wǎng)絡(luò),可避免前期復(fù)雜煩瑣的源數(shù)據(jù)預(yù)處理工作。
CNN結(jié)構(gòu)主要包括卷積層、池化層、全連接層等,卷積層使用卷積核對輸入圖像進行卷積運算提取特征,如圖2所示,展示了經(jīng)典CNN模型結(jié)構(gòu)圖。CNN模型訓(xùn)練時,前層權(quán)重參數(shù)影響后層輸入數(shù)據(jù)分布,因此通常在卷積層加入批標(biāo)準(zhǔn)化方法(batch normalization,BN)[58],以加快模型的收斂速度,使各層之間有合適的廣度。BN作為參數(shù)優(yōu)化方法,可使分散的參數(shù)變化為符合高斯分布,使得訓(xùn)練的模型穩(wěn)定性更高。池化作用是對特征圖(feature map)做消除冗余特征的下采樣操作[59],在降低空間不變性的同時僅保留重要的特征信息,可以調(diào)節(jié)網(wǎng)絡(luò)模型的復(fù)雜性。全連接層作用是整合CNN學(xué)習(xí)提取到的特征信息,將多維特征輸入映射為二維特征輸出。
圖像語義分割的本質(zhì)是對圖像像素的分類,語義分割技術(shù)對實現(xiàn)云圖的自動化、高效率、高精度的精準(zhǔn)檢測與分割有重要作用。早期的語義分割方法主要是基于機器學(xué)習(xí)方法[60-63],為語義分割技術(shù)發(fā)展奠定了基礎(chǔ)?;谏疃葘W(xué)習(xí)技術(shù)的發(fā)展和CNN模型不斷地改良與創(chuàng)新,涌現(xiàn)一批優(yōu)秀的CNN語義分割方法, 比有FCN、SegNet、U-Net、DeepLabV3+等在地基云圖分割領(lǐng)域取得了出色的效果。
本文中云檢測所述的地基云圖分割任務(wù)本質(zhì)上就是深度學(xué)習(xí)中的語義分割任務(wù),用于語義分割的CNN模型通常為編碼器-解碼器結(jié)構(gòu)(encoder-decoder),淺層網(wǎng)絡(luò)由于其感受野(receptive field)較小,主要學(xué)習(xí)局部的細節(jié)特征表示,捕獲云圖像的紋理信息,而深層網(wǎng)絡(luò)則學(xué)習(xí)整體的抽象特征,反映云圖像高級語義信息。
(1)FCN。全卷積網(wǎng)絡(luò)(FCN)是Long等[64]將CNN中的全連接層改成卷積層,利用反卷積(DeConv)操作將特征圖上采樣,不影響輸入圖像空間位置信息,最終在上采樣的特征圖上進行像素分類。此外使用跳躍連接可以融合不同層次的語義信息,起到了提高分割精度的效果。在上采樣過程中融合不同的大小的特征即可得到不同的FCN,改進的FCN網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。
(2)SegNet。SegNet由Badrinarayanan等[65]基于Caffe框架實現(xiàn)的語義分割深度網(wǎng)絡(luò),其結(jié)構(gòu)于FCN相似,在Decoder部分做出改進。SegNet模型結(jié)構(gòu)如圖4所示,其在解碼器部分的backbone主干特征提取網(wǎng)絡(luò)為VGG16的前13層卷積網(wǎng)絡(luò),且解編碼器網(wǎng)絡(luò)層一一對應(yīng),最終經(jīng)由Softmax分類器為每個像素預(yù)測概率。SegNet相比于前者全卷積網(wǎng)絡(luò)有更高的分割精度,模型擬合速度較快,網(wǎng)絡(luò)的訓(xùn)練速度有所提升。
圖2 經(jīng)典CNN模型結(jié)構(gòu)圖Fig.2 Structural diagram of the classic CNN model
(3)U-Net。U-Net是由Ronneberger等[66]提出的一種網(wǎng)絡(luò)結(jié)構(gòu)呈現(xiàn)“U”字形的編碼器-解碼器模型,因此稱之為U-Net,適合小樣本數(shù)據(jù)集。如圖5所示,其網(wǎng)絡(luò)模型包括左半邊的編碼器路徑、中間層和右半邊的解碼器路徑。編碼器壓縮特征路徑使得特征圖的分辨率依平方倍降低,逐步展現(xiàn)各像素點的空間位置信息。相似地,解碼器擴展特征路徑與之相反,將池化得到的各網(wǎng)絡(luò)層和上采樣輸入層相結(jié)合來恢復(fù)圖像。同時在不同層級特征圖之間加入跳躍連接,可在一定程度上有更好的分割效果。與FCN相比,U-Net的編碼器-解碼器之間存在信息連接,有助于恢復(fù)編碼器路徑中丟失的空間信息。
(4)DeepLab V3+。DeepLab V3+模型由Chen等[67]提出的基于編碼器-解碼器結(jié)構(gòu)的CNN模型,是DeepLab系列的最新模型,如圖6所示。其編碼器部分采用Xception網(wǎng)絡(luò)[68]或者輕量級Mobilenetv2[69]作為主干網(wǎng)絡(luò),有效地減少了計算復(fù)雜度,提高了網(wǎng)絡(luò)的收斂速度。同時引入空洞空間金字塔池化(atrous spatial pyramid pooling,ASPP)模塊,空洞卷積具有增加感受野面積同時保持特征圖大小恒定的優(yōu)點,有效解決特征圖尺寸減小的問題[70-71],提升了融合多尺度特征信息能力。
眾多學(xué)者提出了諸多改進型CNN模型用于地基云圖的分割任務(wù),均取得了優(yōu)異的分割效果?,F(xiàn)選取上述CNN模型及其變體、部分在圖像分割領(lǐng)域表現(xiàn)出色的模型共計八種,在標(biāo)準(zhǔn)地基云圖數(shù)據(jù)集SWIMSEG上進行性能評估,實驗的CNN模型分別是:FCN-8s、UNet、SegNet、PSPNet[72]、RefineNet[73]、PAN[74]、DeepLab V3、DeepLab V3+。
3.3.1 評估指標(biāo)
為定量評估上述不同模型的提取和解碼云特征的性能,評估指標(biāo)有像素準(zhǔn)確率(pixel accuracy,PA)、平均像素準(zhǔn)確率(mean pixel accuracy,MPA)、F1評分,以及在分割任務(wù)中最為關(guān)鍵的聯(lián)合平均交并比(mean intersection over union,MIOU),實驗采用多種評估度量指標(biāo)來全面評估上述CNN模型準(zhǔn)確性[75],MIOU的計算公式為
圖3 改進的FCN網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.3 Structural diagram of the improved FCN network
圖5 U-Net模型結(jié)構(gòu)圖Fig.5 Structural diagram of the U-Net model
圖6 DeepLabV3+模型結(jié)構(gòu)圖Fig.6 Structure diagram of DeepLabV3+ model
(1)
式(1)中:q+1為包含背景天空在內(nèi)的類比個數(shù);pij為真實值為i類像素卻被預(yù)測判定為j類像素的數(shù)量。
3.3.2 實驗設(shè)置和數(shù)據(jù)集準(zhǔn)備
實驗引入了遷移學(xué)習(xí)(transfer learning, TL),遷移學(xué)習(xí)的優(yōu)點在于可將MobileNetV2、Xception、ResNet50等預(yù)訓(xùn)練模型用作特征提取主干用于地基云圖分割任務(wù)中,大大加快了訓(xùn)練速度和準(zhǔn)確率,同時使用微調(diào)(fine-tuning)的方法使參數(shù)適應(yīng)本次實驗的SWIMSEG數(shù)據(jù)集,實現(xiàn)正遷移。
本實驗利用數(shù)據(jù)增強技術(shù)來擴充SWIMSEG數(shù)據(jù)集,達到6 078張云圖圖像。隨后按照9∶0.5∶0.5的比例分別分為訓(xùn)練集、驗證集和測試集。在處理器為Intel Core i7 11代,GPU為Nvidia GeForce GTX-2080TI的硬件環(huán)境Tensorflow框架下實現(xiàn)網(wǎng)絡(luò)的訓(xùn)練、驗證和測試?;谶w移學(xué)習(xí)思想,將訓(xùn)練模型進行凍結(jié)訓(xùn)練,在凍結(jié)階段將模型backbone凍結(jié),使得特征提取網(wǎng)絡(luò)保持不變,對網(wǎng)絡(luò)進行微調(diào),可以有效防止權(quán)值被破壞,同時占用GPU的顯存較小。本實驗?zāi)P陀?xùn)練過程中,將凍結(jié)階段批量大小(batch size)設(shè)置為8,解凍階段減小為4??傆?xùn)練世代epoch為100,將前50個epoch稱為凍結(jié)階段,后50個epoch稱為解凍階段。
3.3.3 參數(shù)設(shè)置
隨后模型參數(shù)采取Adam優(yōu)化器以0.001的初始學(xué)習(xí)率更新。同時使用了Momentum優(yōu)化器和Poly學(xué)習(xí)策略,表達式為
(2)
式(2)中:lr表示訓(xùn)練過程中的學(xué)習(xí)率;epoch表示當(dāng)前迭代周期;epochmax表示最大迭代次數(shù);power表示動量,實驗中設(shè)置為0.9。
訓(xùn)練階段選擇交叉熵損失(cross entropy loss)作為loss函數(shù),來衡量訓(xùn)練后模型地預(yù)測結(jié)果與真實標(biāo)簽之間的相似性,定義為
(3)
式(3)中:yi表示真實標(biāo)簽值;y′i表示模型預(yù)測值。
同時引入Dice loss函數(shù),其為一種基于區(qū)域的損失,計算公式為
(4)
式(4)中:X為預(yù)測結(jié)果的分割區(qū)域;Y為真實值區(qū)域;X∩Y為二者的重合部分。
如表3所示,使用評估度量指標(biāo)在八種CNN實驗?zāi)P偷牡梅智闆r。經(jīng)各評估矩陣度量指標(biāo)數(shù)值對比,其中U-Net、PSPNet、DeepLabV3和DeepLabV3+基本高于其他分割模型,其中,U-Net和PSPNet的分割性能相近,還有DeepLabV3和DeepLabV3+的像素準(zhǔn)確率都超過了90%,U-Net、PSPNet、DeepLabV3+的PA、MPA、F1都領(lǐng)先于其他模型,所以斷定上述三種模型是效果最優(yōu)的,而且DeepLabV3+ MIOU達到87.88%,其無疑是為八種實驗?zāi)P椭行Ч顑?yōu)的。選用DeepLabV3+為基礎(chǔ)做結(jié)構(gòu)性改進是后續(xù)做地基云圖分割的最優(yōu)選擇。
表3 主要語義分割模型在SWIMSEG上的 評估指標(biāo)數(shù)據(jù)Table 3 Evaluation index data of main semantic segmentation models on SWIMSEG
選擇U-Net、PSPNet、DeepLabV3+三種模型訓(xùn)練中的MIOU精度曲線圖和loss損失曲線圖, 如圖7所示,三種模型訓(xùn)練過程的MIOU曲線都在5個epoch內(nèi)很快地達到了70%,隨后曲線趨于平整,呈現(xiàn)微弱的上升趨勢。由于實驗中設(shè)置了凍結(jié)訓(xùn)練和解凍訓(xùn)練,U-Net在解凍階段開始時MIOU出現(xiàn)輕微的下降,隨即回升,另外三種模型訓(xùn)練損失函數(shù)曲線也在在解凍階段開始時出現(xiàn)loss損失函數(shù)的陡增,隨即下降,在訓(xùn)練到80個epoch后趨于平穩(wěn),無明顯下降趨勢,說明模型趨于擬合。
本實驗可視化了三種經(jīng)典的語義分割模型U-Net、PSPNet和DeepLabV3+的部分云圖分割輸出結(jié)果圖,如圖8所示,以直觀地比較三種模型的提取和解碼云特征的性能。
觀察圖8可以很明顯地看出,以上三種模型均可以實現(xiàn)對數(shù)據(jù)增強后的SWIMSEG測試集中云圖的邊緣和陰影較為精準(zhǔn)分割。針對薄云區(qū)域的顏色信息不夠明顯,與天空背景存在交融情況,各類模型檢測與分割效果不盡相同,如圖8②,PSPNet和DeepLabV3+在云體上部的檢測結(jié)果與數(shù)據(jù)集GroundTruth圖存在偏差,但是在通過與原圖進行視覺校對后發(fā)現(xiàn),語義分割模型將薄云部分檢測出來,說明可以較準(zhǔn)確的反映深度和薄云形狀,可見上述兩種云圖分割模型性能更加可靠,并且接近與實際圖像。
此外泛化能力和魯棒性是判定優(yōu)秀語義分割模型的重要因素。將經(jīng)SWIMSEG訓(xùn)練后的DeepLabV3+應(yīng)用到CCSN數(shù)據(jù)集,并生成相應(yīng)的云掩碼,選取部分典型的云圖圖像和對應(yīng)云掩碼分割圖來觀察比較,如圖9所示。
觀察圖9生成的預(yù)測圖并結(jié)合目視比對可知,DeepLabV3+可以準(zhǔn)確地檢測出CCSN數(shù)據(jù)集中大多數(shù)云,云的邊緣與天空分割得較為細致。如圖9中第一列的積云、第二列的卷云和層云輪廓都實現(xiàn)了幾乎完美的分割效果,零散云體、碎狀云體也可以有效分割,另外圖9⑤⑦兩幅圖呈現(xiàn)紅色的云體也被有效的檢測出,圖9⑧背景為暗色調(diào),云體呈白色的夜間云圖也可以完美且精準(zhǔn)地識別。由此斷定,云圖圖像中的顏色差異性信息對最終的云天分割結(jié)果具有極大的影響力。
所以這類高精度高置信度的預(yù)測結(jié)果圖可以處理為這類為未注釋原始云圖的真實標(biāo)簽,可有效增加帶標(biāo)簽的地基云圖檢測分割數(shù)據(jù)集的數(shù)量。
對于該數(shù)據(jù)中新納入的尾跡云,該模型能夠?qū)崿F(xiàn)很精準(zhǔn)的分割出云掩碼和清晰的邊界,此外飛機也會被識別為云體,如圖10所示。因此對DeepLabV3+模型的泛化能力和魯棒性的可視化系統(tǒng)性評估驗證了其優(yōu)異的分割性能。
圖8 三種模型可視化分割效果對比圖Fig.8 Comparison of segmentation effects of three models
仍存在以下關(guān)鍵問題值得關(guān)注:
(1)云圖存在的光照條件、云體深暗顏色信息會對分割造成不利影響。如圖10所示,圖②中紅色夕陽背景下顏色相對較深的晚霞云部分被誤判為天空,背景天空呈現(xiàn)紅色,卻被識別為云體。圖④卷層云分割效果收到光照的影響較大,圖像中光暈部分也被誤分割為云體。第二列圖⑤圖⑥積雨云中底部顏色較深的云體部分會被誤分割為天空。所以對于顏色較暗或者較亮、云體較為稀薄、云塊較不明顯的部分,模型不能有效的捕捉到其相應(yīng)的云特征,亦或者是該區(qū)域云特征相較于其他特征顯得較不明顯,模型在訓(xùn)練過程中未能充分學(xué)習(xí)到此類細致的云特征。
(2)分割模型會誤判地基云圖中水體、山脈、草地植被等元素,例如圖10中圖⑦圖⑧最后積雨云圖像,模型將圖中下方的湖面和草地均識別為云體,存在嚴(yán)重的誤判。原因可能是DeepLabV3+模型采用了僅包含云體與天空的SWIMSEG數(shù)據(jù)集進行訓(xùn)練,只對云和天空有較高的分割準(zhǔn)確率。
因此,在未來的數(shù)據(jù)集中添加不同光照條件、顏色差異性大、存在干擾因素、存在噪聲、分辨率較低的地基云圖像是不可或缺的,有助于分割模型能夠充分學(xué)習(xí)云圖細節(jié)信息及干擾因素特征,提高自適應(yīng)云圖分割模型的泛化性和魯棒性。
針對最新基于語義分割深度學(xué)習(xí)的地基云圖自適應(yīng)分割研究進行介紹,對近年來的地基云圖分割任務(wù)研究進展做出了詳細的概括。隨后介紹了國內(nèi)外認(rèn)可度很高的幾類適用于語義分割的地基云圖公共數(shù)據(jù)集,此類數(shù)據(jù)集與性能更復(fù)雜的語義分割模型在地基云圖檢測分割領(lǐng)域得到評估和應(yīng)用,也解決了之前因數(shù)據(jù)集匱乏、數(shù)據(jù)量小等問題造成的困擾。然后介紹了卷積神經(jīng)網(wǎng)絡(luò)的基本理論,以及經(jīng)典的語義分割模型,隨后基于遷移學(xué)習(xí)思想對語義分割模型在地基云圖分割任務(wù)上的性能進行定性分析和綜合性評估,實驗中使用SWIMSEG數(shù)據(jù)集對八種經(jīng)典的語義分割模型進行訓(xùn)練和預(yù)測,具體分析了三種性能較為優(yōu)異的模型MIOU和損失函數(shù)曲線圖,并可視化了三種高效模型的云圖預(yù)測分割圖后進行細節(jié)對比,分析其提取云特征并解碼預(yù)測的能力,最終選擇出云圖自適應(yīng)分割性能較為優(yōu)異的DeepLabV3+模型,最后無標(biāo)簽注釋在CCSN數(shù)據(jù)上生成相應(yīng)的預(yù)測分割圖,經(jīng)細節(jié)部分比對來評估其泛化能力和魯棒性。
現(xiàn)階段的地基云圖數(shù)據(jù)集日益擴展,語義分割模型日漸改進發(fā)展,本文對地基云圖自適應(yīng)分割技術(shù)發(fā)展提出以下展望。
(1)目前的研究學(xué)者已經(jīng)開發(fā)出很多標(biāo)簽置信度較高的數(shù)據(jù)集,受到了眾多研究學(xué)者的認(rèn)可,期待有更多數(shù)據(jù)量充足,云圖種類齊全,包含不同光照條件,顏色差異性大,可有效區(qū)分干擾因素的優(yōu)秀帶注釋的地基云圖數(shù)據(jù)集的發(fā)布。
(2)學(xué)者們把很多新的語義分割模型應(yīng)用于地基云圖分割領(lǐng)域,期待有更適合地基云圖檢測分割模型的出現(xiàn)?,F(xiàn)階段的語義分割模型范式多采用編碼器-解碼器構(gòu)型,另外生成對抗網(wǎng)絡(luò)、注意力機制等都在圖像識別領(lǐng)域取得良好表現(xiàn),可以與編碼器-解碼器結(jié)構(gòu)相結(jié)合,提出更多優(yōu)異的分割模型,實現(xiàn)對地基云圖有效檢測。
(3)近期熱門模型Transformer[76-77]興起于自然語言處理NLP領(lǐng)域,由于其依賴于自注意力機制(self attention,SA)[78]來學(xué)習(xí)判別特征,已經(jīng)有學(xué)者將其引入至計算機視覺領(lǐng)域,可以有效避免基于卷積神經(jīng)網(wǎng)絡(luò)CNN學(xué)習(xí)特征表示時由于感受野較小而導(dǎo)致的全局信息丟失問題,取得了矚目的效果??梢試L試將Vison Transformer[79]應(yīng)用于地基云圖分割任務(wù)中,實現(xiàn)對云天的高效分割。
4.此外當(dāng)前基于深度學(xué)習(xí)的地基云圖檢測分割技術(shù)的研究較少的在預(yù)測算法上的創(chuàng)新,普遍在模型改進上驗證評估,希冀涌現(xiàn)更多更新穎更適用的地基云圖檢測和預(yù)測算法,推到地基云圖分割任務(wù)領(lǐng)域發(fā)展和進步。