劉雙澤,薛明亮
(大連民族大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院,遼寧 大連 116650)
變化檢測(cè)[1]作為遙感領(lǐng)域的重要組成部分,是從同一位置不同時(shí)刻獲取的兩幅遙感圖像之間,通過(guò)一系列的方法提取出自然或人工變化區(qū)域的過(guò)程。變化檢測(cè)在眾多領(lǐng)域都有著重要的應(yīng)用,例如在城市規(guī)劃[2]、土地調(diào)查[3]、災(zāi)害評(píng)估[4]和生態(tài)環(huán)境監(jiān)測(cè)[5]等方面。隨著越來(lái)越多的高分衛(wèi)星發(fā)射到太空,使得具有更高分辨率的遙感圖像獲取變得更加容易,因此具有高分辨率遙感圖像數(shù)據(jù)集。在這種情況下,尋求新的方法以解決上述問(wèn)題受到了越來(lái)越多研究者的關(guān)注,并取得了許多令人矚目的成果。由于深度學(xué)習(xí)模型強(qiáng)大的圖像處理能力,許多學(xué)者將深度學(xué)習(xí)方法引入遙感圖像變化檢測(cè)領(lǐng)域。因此,近年來(lái)涌現(xiàn)了許多基于深度學(xué)習(xí)的變化檢測(cè)方法。Song等人[6]設(shè)計(jì)了一種結(jié)合3D全卷積網(wǎng)絡(luò)和卷積短時(shí)長(zhǎng)記憶的優(yōu)點(diǎn)的變化檢測(cè)方法,名為循環(huán)3D全卷積網(wǎng)絡(luò)。Liu等人[7]提出了一個(gè)新的損失函數(shù)來(lái)實(shí)現(xiàn)由語(yǔ)義分割數(shù)據(jù)集到變化檢測(cè)數(shù)據(jù)集之間的遷移學(xué)習(xí)。這種方法可以緩解變化檢測(cè)數(shù)據(jù)集中帶注釋的訓(xùn)練樣本不足的問(wèn)題。Chen等人[8]提出了一種基于transformer的變化檢測(cè)模型,它可以通過(guò)對(duì)時(shí)空域內(nèi)的上下文進(jìn)行建模,來(lái)關(guān)聯(lián)時(shí)空中的遠(yuǎn)程概念。該方法可以有效避免因物體外觀相似而導(dǎo)致的誤檢測(cè),并能很好地處理因季節(jié)差異或土地覆被變化引起的無(wú)關(guān)變化。然而,目前在處理變化檢測(cè)中偽變化現(xiàn)象仍存在一些問(wèn)題。一方面,目前的方法大多沒(méi)有充分利用不同尺度提取的特征,忽略了不同層特征之間的語(yǔ)義差距,這可能會(huì)由于特征的冗余和模糊性而導(dǎo)致偽變化問(wèn)題。其次,由于成像角度、天氣狀況、季節(jié)變化以及外觀非?;靵y的物體等原因造成的偽變化仍然難以區(qū)分。為此本文設(shè)計(jì)了一種級(jí)聯(lián)跨尺度網(wǎng)絡(luò)(Cascaded Cross-Scale Network,CCSNet)來(lái)提高模型對(duì)偽變化的魯棒性。本文設(shè)計(jì)了一種級(jí)聯(lián)連接結(jié)構(gòu)來(lái)融合不同尺度的特征,縮小了語(yǔ)義差距。本文提出了一種注意力模塊,跨尺度注意模塊,來(lái)提高特征的辨別能力。CCSNet通過(guò)將多尺度特征融合起來(lái),然后使用注意力機(jī)制來(lái)增強(qiáng)與變化相關(guān)語(yǔ)義信息一致的區(qū)域,并抑制各種因素引起的虛假變化和噪聲,從而達(dá)到減少由各種因素而導(dǎo)致的偽變化。
CCSNet網(wǎng)絡(luò)使用的是編碼器和解碼器結(jié)構(gòu),整體流程如圖1。在編碼階段,將雙時(shí)態(tài)圖像輸入到卷積池化層中,對(duì)圖像進(jìn)行縮放,減少計(jì)算內(nèi)存。然后輸入到4層的編碼器中進(jìn)行降采樣。通過(guò)權(quán)值共享的孿生編碼器編碼,得到5個(gè)不同階段的輸出特征圖。在解碼階段,首先把同一階段的兩個(gè)特征圖進(jìn)行差分操作來(lái)得到差分特征圖。其次把編碼器4的差值特征圖和編碼器3的差值特征圖使用級(jí)聯(lián)連接一起輸入到解碼器4中進(jìn)行解碼,之后重復(fù)上一步的操作。經(jīng)過(guò)層層解碼,最后把解碼器1的輸出特征圖傳遞給最終塊,得到最終的變化檢測(cè)圖。
圖1 CCSNet網(wǎng)絡(luò)整體架構(gòu)
卷積神經(jīng)網(wǎng)絡(luò)因其強(qiáng)大的特征提取能力而被廣泛應(yīng)用于遙感圖像分析。在編碼階段,使用ResNet-34來(lái)構(gòu)建編碼器網(wǎng)絡(luò)。由于變化檢測(cè)的輸入通常是雙時(shí)相圖像,所以編碼器網(wǎng)絡(luò)采用孿生網(wǎng)絡(luò)結(jié)構(gòu)。具體來(lái)說(shuō),編碼器網(wǎng)絡(luò)由兩個(gè)共享可學(xué)習(xí)權(quán)值的編碼分支組成。由于ResNet最初是為了解決圖像分類(lèi)問(wèn)題而提出的,其整體結(jié)構(gòu)可以分為一個(gè)卷積池化層、四個(gè)降采樣卷積層和一個(gè)全連接層。但是,最終的變化映射必須恢復(fù)到與原始圖像完全相同的大小。因此,省略了全連接層。
在解碼階段,所提出的結(jié)構(gòu)由四個(gè)解碼器和一個(gè)最終塊組成,它們對(duì)應(yīng)于四個(gè)編碼器和卷積池化層。具體來(lái)說(shuō),四個(gè)解碼器具有相同的結(jié)構(gòu),如圖2。該解碼器包含一個(gè)跨尺度注意模塊(Cross-Scale Attention Module,CSAM)和兩個(gè)1×1卷積層。所提出的解碼體系結(jié)構(gòu)有不同的實(shí)現(xiàn)方式。具體來(lái)說(shuō),將兩個(gè)不同尺度的連接特征圖使用級(jí)聯(lián)連接輸入給一個(gè)解碼器。例如,將編碼器4(深特征)和編碼器3(淺特征)提取的特征輸入到解碼器4中進(jìn)行進(jìn)一步學(xué)習(xí)。這種方式可以更好地融合淺層特征的空間信息和深度特征的語(yǔ)義信息,以補(bǔ)償特征編碼過(guò)程中衰落的幾何信息,這是檢測(cè)變化區(qū)域的關(guān)鍵。此外,還可以縮小語(yǔ)義差異,并關(guān)注與變化信息相關(guān)的特征映射區(qū)域。因此,得到的最終特征圖可以整合不同尺度的特征。解碼階段的最后一部分是最終塊??绯叨茸⒁饬δK的整體結(jié)構(gòu)如圖2。它由一個(gè)4倍的上采樣層和兩個(gè)3×3的卷積層組成。它的功能是最終的變化圖恢復(fù)到與原圖像完全相同的大小。
圖2 跨尺度注意力模塊的整體結(jié)構(gòu)
將不同編碼層獲得的淺層與深層特征圖融合,有助于恢復(fù)在級(jí)聯(lián)特征編碼過(guò)程中逐漸消失的空間信息。然而,由于多尺度特征之間存在語(yǔ)義差距,不適當(dāng)?shù)娜诤峡赡軙?huì)引入冗余信息或噪聲。它可能會(huì)導(dǎo)致過(guò)度的分割和意外的模糊表示,這可能會(huì)分散模型來(lái)區(qū)分由于成像角度、天氣條件、季節(jié)變化和外觀非常混亂的物體而引起的偽變化。為了縮小多尺度特征之間的語(yǔ)義差異,使模型對(duì)偽變化更具魯棒性,設(shè)計(jì)了一個(gè)級(jí)聯(lián)跨尺度注意力模塊(Cross-Scale Attention Module,CSAM)如圖3。CSAM通過(guò)通道注意力和空間注意力來(lái)融合多尺度特征圖。通道注意力可以有效地學(xué)習(xí)與不同尺度的特征圖之間的變化相關(guān)的通道,而空間注意力則可以幫助學(xué)習(xí)已經(jīng)發(fā)生變化的區(qū)域。由通道和空間注意力模塊學(xué)習(xí)到的特征圖然后被自注意力模塊融合,以捕獲不同像素之間的依賴(lài)關(guān)系。CSAM可以更好地融合淺層和深層特征圖與變化信息相關(guān)的信息,抑制由各種因素而導(dǎo)致的偽變化信息。
(a)圖像T1;(b)圖像T2;(c)Ground truth; (d) FC-EF; (e) FC-Siam-Diff; (f) FC-Siam-Conc;(g) DTCDSCN;(h) STANet;(i)BIT;(j) CCSNet。圖3 LEVIR-CD數(shù)據(jù)集上的檢測(cè)結(jié)果可視化
通常來(lái)說(shuō),特征圖中的每個(gè)通道的重要程度是相同。但是,對(duì)于特定任務(wù)來(lái)說(shuō)不同通道的重要性是有所不同的,往往需要對(duì)每個(gè)通道的重要性進(jìn)行建模來(lái)達(dá)到增強(qiáng)或抑制一些通道。在本文中,通道注意力模塊(Channel Attention Module,CAM)所采用的是SENet[9]。它首先使用壓縮模塊對(duì)特征圖進(jìn)行全局信息嵌入,然后使用激勵(lì)模塊進(jìn)行通道關(guān)系加權(quán)。在變化檢測(cè)任務(wù)中,通道注意力增強(qiáng)與地面特征變化相關(guān)的通道,抑制其他不相關(guān)的通道。因此,首先使用通道注意力減少淺層特征圖和深層特征圖之間的語(yǔ)義差距,增強(qiáng)它們之間與變化相關(guān)的語(yǔ)義信息。
在計(jì)算機(jī)視覺(jué)任務(wù)中,圖像像素點(diǎn)的識(shí)別需要考慮它所在的空間位置。換句話(huà)說(shuō),不同的像素位置的重要程度是有所區(qū)別的。考慮到遙感圖像中像素位置的重要程度不同,所以引入空間注意力模塊(Spatial Attention Module,SAM)[10]。因?yàn)樽兓瘷z測(cè)的輸入為雙時(shí)態(tài)圖像,所以為了確認(rèn)雙時(shí)態(tài)圖像的那些像素位置與變化相關(guān),那些像素位置與變化無(wú)關(guān),這是十分有意義的。而空間注意力可以增加變化像素和不變像素之間的距離差,從而選擇對(duì)變化信息更敏感的像素位置。
與通道和空間注意力模塊不同,自注意力模塊(Self-Attention Module,Self-AM)旨在捕獲特征圖任意兩個(gè)位置之間的空間依賴(lài)關(guān)系。它通過(guò)對(duì)特征圖之間的任意兩點(diǎn)之間的關(guān)系進(jìn)行建模,來(lái)選擇性地聚合每個(gè)位置的特征。為了更好地識(shí)別那兩個(gè)像素之間位置關(guān)系對(duì)變化信息更重要,采納Chen等人提出的位置注意模塊[11]。
為了評(píng)估本模型對(duì)偽變化的有效性,本文在LEVIR-CD數(shù)據(jù)集進(jìn)行了對(duì)比實(shí)驗(yàn),并使用精度(Precision)、召回率(Recall)、F1值(F1)、交并比(IoU)和總準(zhǔn)確率(OA)作為評(píng)估模型的指標(biāo)。本文將所提出的網(wǎng)絡(luò)與現(xiàn)有先進(jìn)的變化檢測(cè)進(jìn)行對(duì)比實(shí)驗(yàn),并進(jìn)行了可視化比較,從而進(jìn)一步驗(yàn)證模型對(duì)偽變化的性能。
LEVIR-CD[12]是一個(gè)被廣泛使用的建筑物變化檢測(cè)數(shù)據(jù)集。總有637對(duì)分辨率為0.5 m遙感圖像。其中每張圖像的大小為1 024×1 024像素。該數(shù)據(jù)集中的雙時(shí)間圖像是使用谷歌Earth API在2002年至2018年期間從美國(guó)德克薩斯州18個(gè)州的20個(gè)不同地點(diǎn)收集的。它主要關(guān)注小而密集的建筑增加和建筑拆除。考慮到GPU內(nèi)存有限和模型訓(xùn)練速度等因素,把1 024×1 024的圖像對(duì)裁剪為256×256的沒(méi)有重疊圖像對(duì)。最終,LEVIR-CD數(shù)據(jù)集的訓(xùn)練集、驗(yàn)證集、測(cè)試集大小分別為 7 120、1 024、2 048。
模型搭建和網(wǎng)絡(luò)訓(xùn)練都是用PyTorch實(shí)現(xiàn)的,并使用單個(gè) 48GB 內(nèi)存 NVIDIA RTX A6000 GPU 進(jìn)行訓(xùn)練。由于原圖像的分辨率太大和顯卡內(nèi)存有限,將所有輸入圖像對(duì)都被裁剪成256×256不重疊的補(bǔ)丁。使用隨機(jī)翻轉(zhuǎn)、隨機(jī)旋轉(zhuǎn)、隨機(jī)裁剪和高斯模糊等數(shù)據(jù)增強(qiáng)方式來(lái)豐富數(shù)據(jù)集和防止模型過(guò)擬合。所使用的優(yōu)化器為動(dòng)量隨機(jī)梯度下降(SGD),并將動(dòng)量設(shè)置為 0.9,權(quán)重衰減設(shè)置為 0.000 5。初始學(xué)習(xí)率設(shè)置為 0.01,batch size 設(shè)置為 8,訓(xùn)練總輪數(shù)設(shè)置為 200。
2.2.1 對(duì)比實(shí)驗(yàn)
為了評(píng)估整體性能,將本文的CCSNet與其他先進(jìn)的方法,例如FC-EF[13]、FC-Siam-Diff[13]、FC-Siam-Conc[13]、DTCDSCN[14]、STANet[12]和BIT[8],在LEVIR-CD數(shù)據(jù)集上進(jìn)行了對(duì)比實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果的定性和定量結(jié)果見(jiàn)表1和圖3。
表1 LEVIR-CD數(shù)據(jù)集上的變化檢測(cè)性能比較 %
從表1的定量分析表明,根據(jù)F1、IoU和OA等指標(biāo),CCSNet的表現(xiàn)優(yōu)于其他CD方法。在LEVIR-CD數(shù)據(jù)集上,CCSNet在精度、F1、IoU和OA四個(gè)指標(biāo)中都達(dá)到了最優(yōu)的結(jié)果。與最新的方法BIT相比,CCSNet的F1值、IoU和OA分別提高了 0.77%、1.26%、0.09%。
圖3展示了CCSNet與其他模型在LECIR-CD數(shù)據(jù)集上的可視化結(jié)果。從圖中可以更加直觀地比較本文的模型與其他模型的性能。為了更好地分析模型的性能,在生成的變化圖中使用白色表示正確預(yù)測(cè)的變化像素(TP),黑色表示正確預(yù)測(cè)的不變像素(TN),紅色表示錯(cuò)誤預(yù)測(cè)的不變像素(FP),綠色表示真實(shí)變化像素的漏檢(FN)。從圖中可以觀察到,CCSNet在LEVIR-CD數(shù)據(jù)集上都取得了令人滿(mǎn)意的結(jié)果。
如圖3的第一行圖像所示,它是不同模型在小而稀疏的建筑情況下所得到的結(jié)果。從中可以觀測(cè)到,FC系列的模型都將游泳池區(qū)域錯(cuò)誤分類(lèi)為建筑更改。而CCSNet以及DTCDSCN、STANet和BIT都能正確識(shí)別。這是因?yàn)樗岢龅目绯叨茸⒁饬δK可以很好地整合淺層特征圖中與深層特征圖一致的區(qū)域,并抑制不必要的特征表達(dá)和噪聲。如圖3的第二行圖像所示,它是比較了在大型建筑的情況。從中可以看出其他模型未能很好地檢測(cè)出右上角細(xì)長(zhǎng)的條形建筑物,且主要建筑物的檢測(cè)結(jié)果存在孔洞或邊界不完整。盡管STANet可以檢測(cè)到它們,但它們要么在其他地方進(jìn)行錯(cuò)誤檢測(cè)(FP),要么漏檢(FN),導(dǎo)致建筑物邊界不完整。本文的模型是唯一一個(gè)不僅檢測(cè)出了右上角的長(zhǎng)條形建筑物,而且獲得了主體建筑物完整邊界的模型。從圖3的第三行圖像看出,是模型在小目標(biāo)變化的情況。其他模型要么未能檢測(cè)到左下角的建筑物,要么錯(cuò)誤地檢測(cè)到樹(shù)木的樹(shù)冠引起的變化。相反,本文的模型成功地避免了這兩個(gè)問(wèn)題,這說(shuō)明本文的模型能夠區(qū)分由樹(shù)木覆蓋引起的偽變化。從圖3的最后一行圖像看出,模型在小而密集的建筑群下的檢測(cè)結(jié)果。許多模型在處理密集分布的小型建筑物時(shí)都出現(xiàn)了不同程度漏檢情況,而本文的模型和BIT的檢測(cè)相對(duì)完整。
2.2.2 消融實(shí)驗(yàn)
為了驗(yàn)證CSAM的有效性,在設(shè)計(jì)的CSAM中對(duì)不同組合結(jié)構(gòu)進(jìn)行了消融實(shí)驗(yàn),并在LEVIR-CD數(shù)據(jù)集上進(jìn)行了對(duì)比分析。BASE 模型是 CCSNet的變體,是由一個(gè)基于 ResNet的孿生編碼器和一個(gè)去掉了 CSAM解碼器組成。消融實(shí)驗(yàn)在LEVIR-CD 數(shù)據(jù)集上的具體量化結(jié)果見(jiàn)表2。從表中可以清楚地觀察到 BASE模型的測(cè)試結(jié)果是最低的。這是因?yàn)?BASE模型是最簡(jiǎn)單的,并且沒(méi)有包含 CSAM。將CAM、 SAM或Self-AM分別插入到 BASE中,可以顯著提高檢測(cè)性能,取得的F1值、 IoU和OA均表明了這一點(diǎn)。其中,“BASE + CAM”模型在F1值、IOU和OA指標(biāo)上取得了最好的成績(jī),在 LEVIR-CD數(shù)據(jù)集上分別提升了7.47%、 1.46% 和 0.82%。此外,為了進(jìn)一步驗(yàn)證CSAM 中所使用結(jié)構(gòu)的有效性,還對(duì)任意兩個(gè)注意力模塊的組合情況進(jìn)行了實(shí)驗(yàn)。從表2可以看出,“BASE +CAM + Self-AM”組合的性能最好,其中F1值、 IOU 和OA分別達(dá)到89.83%、 81.54% 和98.98%?!癇ASE + CAM + SAM”的性能次之。通過(guò)將 CAM、SAM和Self-AM與 BASE模型集成,得到的CSAM模型獲得了最好的變化檢測(cè)結(jié)果,在LEVIR-CD數(shù)據(jù)集上的F1值提高了8.13%,IOU提高了12.53%,OA提高了0.88%。從表2的量化結(jié)果可以看出,CSAM 中CAM、 SAM和Self-AM 的每個(gè)注意力模塊都對(duì)變化特征學(xué)習(xí)有貢獻(xiàn)。本文提出的CSAM通過(guò)融合他們來(lái)處理不同類(lèi)型的噪聲可能導(dǎo)致的偽變化,進(jìn)一步提高了檢測(cè)性能。
表2 不同注意力模塊組合在LEVIR-CD數(shù)據(jù)集上的消融結(jié)果
提出了一個(gè)用于高分辨率遙感圖像的變化檢的級(jí)聯(lián)跨尺度網(wǎng)絡(luò)。設(shè)計(jì)了一種級(jí)聯(lián)連接結(jié)構(gòu),將不同層的淺層和深度特征映射一起輸入解碼器。此外,將編碼器提取的淺層特征圖連續(xù)輸入解碼器,以縮小淺層特征和深層特征之間的語(yǔ)義差距。CSAM使網(wǎng)絡(luò)能夠在通道維度、空間位置和不同像素之間的依賴(lài)性三個(gè)角度優(yōu)化淺層特征,從而增強(qiáng)與深層特征映射的一致性語(yǔ)義信息,抑制其他不必要的特征表達(dá)和噪聲。當(dāng)在LEVIR-CD數(shù)據(jù)集上進(jìn)行評(píng)估時(shí),所提出的CCSNet優(yōu)于其他最先進(jìn)的方法。實(shí)驗(yàn)結(jié)果表明:所提出的CSAM可以很好地保持不同尺度下特征映射之間的語(yǔ)義一致性,提高了模型對(duì)偽變化的魯棒性。
大連民族大學(xué)學(xué)報(bào)2023年3期