陳思亞,計璐艷,張鵬,唐海蓉 ?
(1 中國科學院空天信息創(chuàng)新研究院 中國科學院空間信息處理與應用系統(tǒng)技術(shù)重點實驗室, 北京 100094;2 中國科學院大學電子電氣與通信工程學院, 北京 100049)
隨著航空航天技術(shù)的發(fā)展,遙感數(shù)據(jù)量呈現(xiàn)爆炸式增長。由于超過66%的地球表面被云層覆蓋[1],大部分的光學遙感圖像不可避免地受到污染,影響了遙感數(shù)據(jù)的進一步利用,例如對土地覆蓋變化的分類和監(jiān)測[2-3]。因此,在將遙感圖像用于進一步分析之前,正確有效地對云進行分類是至關(guān)重要的預處理步驟[4]。
傳統(tǒng)的遙感圖像云檢測算法主要基于單像素上的云的分類,因此往往采用圖像的光譜特征,并利用閾值的方法檢測判別云。針對Landsat圖像,Zhu和Woodcock[5]提出FMask算法,該算法通過一系列光譜特征、歸一化溫度及亮度來識別云。Zhai等[6]根據(jù)多個光學遙感傳感器的物理反射特性,提出一種具有光譜指數(shù)的統(tǒng)一云檢測算法(cloud/shadow detection based on spectral indices,CSD-SI)。然而,這些方法對于具有相似光譜特征的像素會產(chǎn)生錯誤的分類[7],而且并沒有充分利用圖像的空間特征,在識別碎云和薄云方面存在較大的誤差[8]。
近年來,隨著深度學習的興起,圖像分類任務取得了重要進展,同樣也有諸多研究將其應用于云檢測[9]。Jeppesen等[10]在2種云檢測數(shù)據(jù)集上交叉訓練U-Net網(wǎng)絡以提升云檢測精度。Chai等[11]將云檢測視為語義分割任務,利用具有13個卷積層和13個反卷積層的SegNet來識別云。Li等[12]設計了一種新的多尺度特征融合模塊,通過對不同尺度的卷積特征進行采樣和拼接,最后融合輸出來檢測云。然而這些網(wǎng)絡過分強調(diào)圖像的空間特征,對于圖像的光譜特征重視不夠,使得光譜細節(jié)容易丟失。另一方面,這些網(wǎng)絡都是基于卷積神經(jīng)網(wǎng)絡(convolutional neural network, CNN)實現(xiàn),雖然CNN能夠利用卷積核不斷地提取抽象的高級特征,但是CNN固定的卷積核限制了感受野的大小,不能充分利用上下文信息進行特征的捕獲[13]。與CNN不同,Transformer利用注意力的方式捕獲全局的上下文信息,從而對目標建立起遠距離的依賴[14],能夠提取出更強有力的特征,在自然語言處理領域取得了巨大成功[15]。最近,Transformer也被嘗試引入視覺領域,并在圖像的分類[16]、檢測[17]、分割[18]等方面顯示出比CNN更優(yōu)異的性能。而在云檢測的應用方面,具有更大感受野的Transformer尚未得到充分探索。
因此,針對上述問題,我們提出一種融合遙感圖像光譜和空間信息的新型云檢測深度學習網(wǎng)絡(spectral-spatial feature fusion network, SSFF-Net)。不同于傳統(tǒng)的圖像分割網(wǎng)絡,它將深度網(wǎng)絡分為光譜特征提取階段和空間特征提取階段。在光譜特征提取階段,通過1×1的卷積核以及多層的線性映射提取圖像的光譜特征,并不破壞圖像的空間信息。在空間特征提取階段,首次將具有更大感受野的Transformer引入到遙感圖像空間上的編解碼以獲取更強有力的空間特征,并利用跳躍連接(skip connection, SC)將編碼階段的多層次信息送入解碼階段以彌補下采樣的損失。在Landsat8 Biome和AIR-CD 2種數(shù)據(jù)集上進行了評估,分別達到97%和96%的總體精度。
本文主要用到2種數(shù)據(jù)集,Landsat8 Biome和AIR-CD數(shù)據(jù)集。Landsat8 biome數(shù)據(jù)集包含96張Landsat圖像,這些圖像由Foga等[19]收集和標注,每張圖像大小約為7 000×7 000,具有11個波段(表1),其中TIRS波段已重采樣到30 m。該數(shù)據(jù)集分為8個不同種類的下墊面,分別是裸土、森林、草地/農(nóng)田、灌木、冰雪、城市、水和濕地,具有全球代表性。并進一步分為4類,即“厚云”“薄云”“云陰影”和“非云”。將標簽分為有云和無云2類,并將每張圖像劃分為224×224大小的子圖,總共得到大約5萬張圖片。考慮到不同波段的空間分辨率不同,采用了除全色波段的其余10個波段。
表1 Landsat8和AIR-CD波段信息Table 1 Landsat8 and AIR-CD band settings
AIR-CD數(shù)據(jù)集包括34景高分二號圖像,由He等[20]收集并標注,涵蓋2017年2月到11月間中國的不同地區(qū)。AIR-CD數(shù)據(jù)集由可見光波段和近紅外波段組成,每張圖像大小為7 300×6 908,空間分辨率為4 m。比之前的高分數(shù)據(jù)云檢測數(shù)據(jù)集而言,AIR-CD數(shù)據(jù)集的場景更為復雜和多樣,包括多種土地覆蓋類型,有城市、荒地、雪地和森林,在高精度云檢測方面更具有挑戰(zhàn)性。數(shù)據(jù)集標簽分為有云和無云2類,同樣將其劃分為224×224大小的子圖,總共得到3萬張圖片,采用了全部的4個波段。
傳統(tǒng)的基于閾值的云檢測方法主要利用遙感圖像的光譜特征,通過先驗知識,將遙感圖像的多波段信息進行各種線性組合來提取圖像的光譜特征,但是這種方法費時費力,且閾值的選取也十分依賴經(jīng)驗性,容易將相似光譜特征的目標混淆。除傳統(tǒng)方法外,也有很多研究利用深度網(wǎng)絡提取空間特征檢測云,這些網(wǎng)絡大多采用CNN。圖像分割是像素級的分類,空間位置要求較高,而CNN具有平移不變性,特征提取的過程中對遙感圖像空間信息損失較多,不能充分利用。因此,針對上述問題,引入1×1的卷積核和Transformer,1×1的卷積核能夠利用線性映射和激活函數(shù)提取最優(yōu)的光譜特征,而Transformer具有位置編碼的性質(zhì),能避免一定的位置信息損失?;诖?重新設計圖像分割網(wǎng)絡,將其分為兩部分——光譜特征提取階段和空間特征提取階段。在光譜特征提取階段,利用1×1的卷積核提取圖像的光譜特征,并不破壞圖像的空間結(jié)構(gòu),保留光譜細節(jié)。在空間特征提取階段,利用Transformer感受野大和能保留位置信息的特點,提取圖像空間信息,并利用跳躍連接將編碼器的多層次信息送入解碼器,增強解碼能力。最終網(wǎng)絡結(jié)構(gòu)模型如圖1所示,下面詳細說明這兩部分網(wǎng)絡結(jié)構(gòu)。
圖1 SSFF-Net網(wǎng)絡結(jié)構(gòu)Fig.1 SSFF-Net framework
1.2.1 光譜特征提取
利用1×1的卷積核提取圖像的光譜特征,并不破壞圖像的空間特征,相當于在每個像素上分別提取光譜特征,如圖2所示,是單個像素上光譜特征提取示意圖。對于每個像素的輸入波段,通過線性映射到隱藏層,對隱藏層采用批歸一化層(batch normalization, BN)處理,防止因為數(shù)據(jù)間差異過大影響學習,加快模型的收斂速度。經(jīng)過隱藏層后,利用Relu激活函數(shù)導入到下一個隱藏層,Relu的導數(shù)為常數(shù),可以緩解梯度消失問題,使得模型的收斂速度維持在一個穩(wěn)定狀態(tài)。經(jīng)過多層的隱藏層和激活函數(shù),最終提取到3個最優(yōu)的光譜特征。在這一階段,其作用過程類似于NDVI、EVI、MNDWI等光譜指數(shù)計算,但這些光譜指數(shù)是依賴于經(jīng)驗性的簡單線性組合,卷積核是通過數(shù)據(jù)驅(qū)動自動地提取最優(yōu)光譜特征,更復雜但也更有效。
圖2 單像素上光譜特征提取示意圖Fig.2 Schematic diagram of spectral feature extraction in single pixel
(1)
(2)
1.2.2 空間特征提取
1)多頭自注意力機制
自注意力機制(self attention, SA)首先基于輸入向量X構(gòu)造權(quán)值矩陣WQ、WK、WV,之后將輸入向量X乘以3個權(quán)值矩陣WQ、WK、WV,得到Q、K、V
X·WQ=Q,
(3)
X·WK=K,
(4)
X·WV=V,
(5)
其中:X∈n×m,WQ,WK,WV∈m×dk,Q,K,V∈n×dk。
(6)
MultiHead(Q,K,V)=Concat(head1,…,headn),
(7)
如式(6)和圖3(a)所示,其中dk為尺度因子。自注意力機制將Q與K的轉(zhuǎn)置矩陣相乘,其結(jié)果除以尺度因子的平方根,將其歸一化,之后通過softmax函數(shù)再乘以V。如式(7)和圖3(b)所示,多頭自注意力機制(multi-head self attention, MSA)則是生成多個Attention,再將多個Attention的結(jié)果級聯(lián)得到。權(quán)值矩陣WQ、WK、WV由數(shù)據(jù)驅(qū)動學習得到,MSA的輸出最終用到了整個輸入向量的信息,所以注意力機制能夠捕獲全局的信息。
圖3 自注意力機制與多頭自注意力機制示意圖Fig.3 Schematic diagram of self attention and multi-head self attention
2)Swin Transformer塊
在空間特征提取階段,主要利用視覺Transformer中的Swin Transformer塊[18]進行空間特征上的編解碼。不同于傳統(tǒng)的MSA模塊, Swin Transformer塊基于移位窗口構(gòu)建。如圖4所示,每一個Swin Transformer塊由歸一化層(layer-norm, LN)、窗口MSA(window-MSA, W-MSA)、偏移窗口MSA(shifted window-MSA, SW-MSA)以及多層感知器(multilayer perceptron, MLP)組成。因此,基于圖4的機制,可以將其公式化為
(8)
(9)
(10)
(11)
圖4 Swin-Transformer 塊Fig.4 Swin-Transformer block
LN將數(shù)據(jù)進行歸一化,加速網(wǎng)絡的收斂,MLP則是數(shù)據(jù)映射到相應的維度。如圖5(a)所示,W-MSA首先將圖像均勻地劃分為數(shù)個子塊,對于每個圖像子塊Xsub∈h1×w1×c1將其展開為Xsub∈h1w1×c1,之后在每個圖像子塊中計算MSA。通過MSA的計算,對于每一個圖像子塊的輸出都用到了圖像子塊中的全局信息。W-SMA缺乏跨窗口的連接,窗口之間缺少聯(lián)系,這限制了建模能力,為此,Swin Transformer塊引入SW-MSA(如圖5(b)所示),不均勻地劃分圖像,為提高計算效率,SW-MSA采用旋轉(zhuǎn)平移操作(如圖6所示)。具體做法是將圖像上邊沿一部分移到下邊沿,再將左邊沿一部分移到右邊沿,之后再均勻地劃分圖像,在每個圖像子塊中計算MSA。
圖5 W-MSA與SW-MSA示意圖Fig.5 Schematic diagrams of W-SMA and SW-MSA
3)編碼-解碼
在編碼階段,主要利用4層編碼塊對圖像進行編碼,第1層的編碼塊由1個Swin Transformer塊組成,其他3個編碼塊由1個Swin Transformer塊和1個Patch Merging層組成。Swin Transformer塊被用來執(zhí)行表示學習,這一過程中圖像的通道維度和分辨率保持不變,同時利用Patch Merging層將圖像分辨率進行2倍下采樣,并將通道數(shù)變?yōu)橹暗?倍。對于最底層的特征圖而言,最終用到了全局的上下文信息。與編碼階段相對應,在解碼階段,同樣采用4層解碼塊對圖像進行解碼,最底層的解碼塊由1個Swin Transformer塊組成,其他3個解碼塊由1個Swin Transformer塊和1個Patch Expanding層組成。Swin Transformer塊在解碼階段的作用與編碼階段的作用基本一致,不同于Patch Merging層,Patch Expanding層將圖像分辨率進行2倍上采樣,并將通道數(shù)變?yōu)橹暗?倍。與U-Net類似,利用跳躍連接將淺層特征和深層特征結(jié)合在一起,以減少由下采樣引起的空間信息的損失。由于是二分類,Linear Projection層將通道數(shù)最終變?yōu)?以獲得像素級的分類。
圖6 SW-MSA的旋轉(zhuǎn)平移操作Fig.6 The cyclic shift of SW-MSA
為驗證本文算法的有效性,在2種數(shù)據(jù)集上都采用了U-Net及Seg-Net網(wǎng)絡作為對比。U-Net和Seg-Net都是經(jīng)典的圖像分割網(wǎng)絡,并且在遙感圖像云檢測上均取得了不錯的效果。針對Landsat8 Biome數(shù)據(jù)集,還采用傳統(tǒng)的CFMask方法作為對比,CFMask是官方評估生成云檢測質(zhì)量波段的方法,對比多種傳統(tǒng)方法效果最佳。實驗將2種數(shù)據(jù)集均按照7∶3的比例劃分為訓練集和測試集,學習率為1e-2,采用Adam優(yōu)化器,批訓練大小為32,總共訓練了100個輪次,前50個輪次學習率不變,之后每25個輪次學習率衰減為之前的1/10。所有實驗均采用Pytorch框架生成,操作系統(tǒng)為Ubuntu16.04,實驗所用GPU為2塊1080Ti。
為評估實驗效果,采用準確率(A)、召回率(R)、精確度(P)、F1值進行定量評估。準確率是所有像素中云分類正確的概率;召回率是真值中屬于云的像素被分類正確的概率;精確度是檢測為云的像素中真正是云的概率;F1值是召回率與精確度的調(diào)和平均數(shù),可以有效評估樣本不均衡時云檢測算法的效果。4個指標的表達式如下
(12)
(13)
(14)
(15)
式中:TP表示預測為云實際也為云的像元數(shù)量,FP表示預測為云但實際為非云的像元數(shù)量,TN表示預測為非云實際也為非云的像元數(shù)量,FN表示預測為非云但實際為云的像元數(shù)量。
在Landsat8 Biome數(shù)據(jù)集上的評估結(jié)果如表2所示,SSFF-Net在所有下墊面上的結(jié)果均優(yōu)于U-Net、Seg-Net和CFMask算法。其中,準確率達到97.39%,高于U-Net的94.65%、SegNet的93.26%以及CFMask的86.16%。在另一項關(guān)鍵指標F1值上,SSFF-Net達到97.27%,比其他3種算法均超出3個百分點以上。這說明,SSFF-Net網(wǎng)絡在云檢測上具有較好的精度和更好的魯棒性。圖7展示了SSFF-Net與其他云檢測算法的一些對比結(jié)果。在第1景圖片中,可以看到SSFF-Net對于碎云的細節(jié)保留最好,這得益于SSFF-Net的Transformer編解碼模塊有效地提取了空間上下文信息。第2景圖片有亮目標的干擾,CFMask、SegNet以及U-Net均被影響,造成了誤分,而SSFF-Net具有光譜特征提取模塊,保留了光譜細節(jié),很好地區(qū)分了亮目標和云,這說明SSFF-Net對于相似的目標具有更強的鑒別能力。
表2 Landsat8 Biome數(shù)據(jù)集上,SSFF-Net、U-Net、SegNet、CFMask實驗結(jié)果對比Table 2 Comparison of SSFF-Net, U-Net, SegNet, CFMask experimental results on Landsat8 Biome dataset %
在空間特征提取階段,采用跳躍連接以彌補下采樣的損失。在Landsat8 Biome數(shù)據(jù)集上進行了相關(guān)實驗以驗證跳躍連接的有效性。如表3所示,在4項指標上,帶有跳躍連接的SSFF-Net均優(yōu)于不帶有跳躍連接的SSFF-Net,且提升明顯。圖8展示了2種網(wǎng)絡在Landsat8 Biome數(shù)據(jù)集上的對比結(jié)果,可以看到帶有跳躍連接的SSFF-Net的信息丟失較少,很好地檢測出了云,對于碎云和薄云的處理也更好。
圖8 帶有跳躍連接的SSFF-Net的檢測結(jié)果與不帶有跳躍連接的SSFF-Net比較Fig.8 Comparison of detection results of SSFF-Net with SC and SSFF-Net without SC
為進一步驗證SSFF-Net的有效性,在AIR-CD數(shù)據(jù)集上也進行了相關(guān)實驗。由于AIR-CD并沒有細分出下墊面,這里給出在所有測試集上的評估結(jié)果,如表4所示。在4項評價指標上SSFF-Net均要優(yōu)于U-Net以及SegNet,尤其在F1值上提升明顯,達到83.77%,這說明SSFF-Net網(wǎng)絡在AIR-CD數(shù)據(jù)集上的魯棒性更好。圖9展示了在AIR-CD數(shù)據(jù)集上SSFF-Net的檢測結(jié)果,從圖中可以看到,SSFF-Net對于云的邊緣細節(jié)處的檢測能力相比其他網(wǎng)絡更好。
將SSFF-Net、U-Net以及SegNet在2個數(shù)據(jù)集上分別遍歷1 000次,取其平均結(jié)果,運行時間分別為72、56、64 ms,SSFF-Net運行較為耗時,這是因為SSFF-Net的參數(shù)量較大,達到了42 M,而U-Net和SegNet的參數(shù)量分別為27 M和29 M。SSFF-Net使用Transformer在空間上進行編解碼,Transformer集成了注意力機制,注意力機制引入了多個分支,多個分支的存在造成模型參數(shù)量較大,未來將在保證精度的前提下設計更輕量化的云檢測網(wǎng)絡。
表3 帶有跳躍連接的SSFF-Net與不帶有跳躍連接的SSFF-Net實驗結(jié)果對比Table 3 Comparison of SSFF-Net with SC and SSFF-Net without SC %
表4 AIR-CD數(shù)據(jù)集上SSFF-Net、U-Net、SegNet實驗結(jié)果對比Table 4 Comparison of experimental results of SSFF-Net, U-Net, and SegNet on AIR-CD dataset %
圖9 AIR-CD 數(shù)據(jù)集上SSFF-Net檢測結(jié)果與SegNet、U-Net比較Fig.9 Comparison of detection results of SSFF-Net with SegNet and U-Net on AIR-CD dataset
從圖7及圖9中的對比可以看到,SSFF-Net對于Landsat圖像上的云檢測能力更好,細節(jié)保留也最多。從指標上看,在Landsat8 Biome數(shù)據(jù)集上性能也優(yōu)于AIR-CD,尤其F1值指標上領先較多。這主要是因為我們的模型對于圖像光譜特征進行了提取,Landsat8 Biome數(shù)據(jù)集用到10個波段,AIR-CD則只有4個波段,Landsat8 Biome所能利用的波段更多,在光譜特征提取階段能提取到更豐富的信息,這也是我們的模型在Landsat8 Biome數(shù)據(jù)集上表現(xiàn)更好的原因。
云檢測一直是減少遙感圖像無效數(shù)據(jù)的有效解決方案。針對當前云檢測方法未能充分利用遙感圖像光譜和空間信息,本文提出一種新型的云檢測深度網(wǎng)絡SSFF-Net,將傳統(tǒng)的圖像分割網(wǎng)絡分為2個部分,光譜特征提取階段和空間特征提取階段。在光譜特征提取階段,利用1×1的卷積核提取圖像光譜特征,在空間特征提取階段,引入Transformer做空間上的編解碼,并采用跳躍連接減少編碼階段的損失,有效地結(jié)合了遙感圖像的光譜特征以及空間特征。在Landsat8 Biome和AIR-CD兩種數(shù)據(jù)集上進行驗證,均取得不錯的效果,分別達到97%和96%的總體準確率。相比現(xiàn)有的云檢測深度網(wǎng)絡和傳統(tǒng)的云檢測方法,SSFF-Net對于碎云的細節(jié)保留最好,這得益于Transformer能夠提取更強有力的空間特征。此外,由于SSFF-Net重視光譜特征的提取,保留了光譜細節(jié),SSFF-Net能夠很好地區(qū)分亮目標和云。
雖然SSFF-Net云檢測網(wǎng)絡性能很好,但仍有一些局限性。它結(jié)合了遙感圖像的空間特征以及光譜特征,但是對于時序的遙感圖像而言,并未利用到時間序列上的特性,如何結(jié)合光譜、空間、時間上的信息綜合檢測判別云,值得進一步探索。此外,針對不同分辨率和傳感器的遙感圖像,設計不同的更具有適應性的深度網(wǎng)絡也是未來的研究方向之一。