倪家輝,周激流
(1.四川大學(xué)電子信息學(xué)院,成都 610065;2.四川大學(xué)計(jì)算機(jī)學(xué)院,成都 610065)
遙感圖像的語(yǔ)義分割是遙感圖像處理中最基本和最具挑戰(zhàn)的任務(wù)之一,特別是在一些具有超高分辨率的遙感圖像中,通過(guò)對(duì)遙感圖像進(jìn)行精確的分割,能夠有效地實(shí)現(xiàn)道路建筑的提取、土地覆蓋的分類以及地貌變換的監(jiān)測(cè)等。相對(duì)于自然圖像的分割任務(wù),遙感圖像可以具有多光譜的信息用于提取不同類別的語(yǔ)義特征,但同時(shí),由于遙感圖像的地貌類別較為復(fù)雜、像素級(jí)的精確標(biāo)注難度較大以及不同數(shù)據(jù)集的差異,遙感圖像的語(yǔ)義分割任務(wù)難度較大。而近年來(lái),由于卷積神經(jīng)網(wǎng)絡(luò)在圖像特征提取與物體表征的強(qiáng)大能力,越來(lái)越多基于深度學(xué)習(xí)的模型被應(yīng)用于遙感圖像的語(yǔ)義分割,其中,全卷積網(wǎng)絡(luò)(fully convolutional network)在圖像分割任務(wù)中取得了巨大的進(jìn)步。與此同時(shí),常見(jiàn)的卷積神經(jīng)網(wǎng)絡(luò)受限于卷積核的局部感受野以及短程的上下文語(yǔ)義信息,圖像分割仍是一個(gè)十分具有挑戰(zhàn)性的任務(wù),特別是對(duì)于具有更加復(fù)雜地貌類別的遙感圖像來(lái)說(shuō),難度進(jìn)一步加大。為解決圖像長(zhǎng)短距離的依賴關(guān)系并進(jìn)一步提取更顯著的語(yǔ)義特征,目前提出了穹狀空間金字塔池化模塊(ASPP),金字塔池化模塊(PPM)動(dòng)態(tài)地獲取不同大小池化區(qū)域的特征表示;另一方面,為了獲取密集的像素級(jí)的上下文語(yǔ)義特征,研究者提出了自注意機(jī)制去增強(qiáng)不同像素之間的關(guān)系。但是,大多數(shù)方法是對(duì)較深特征圖的單一層次的預(yù)測(cè)輸出,并且常常忽略了相同類別和不同類別之間關(guān)系。鑒于此,本文提出了基于多層次特征預(yù)測(cè)的模型來(lái)進(jìn)一步提高遙感圖像語(yǔ)義分割的效果。
本文的模型先利用特征提取網(wǎng)絡(luò)獲得不同深度的特征圖,對(duì)于同一層次的特征來(lái)說(shuō),先利用卷積注意力機(jī)制模塊(CBAM)獲取全局的依賴關(guān)系,將通道數(shù)轉(zhuǎn)化為輸出類別的通道數(shù),生成預(yù)監(jiān)督的類別親和特征圖,用于加強(qiáng)類別內(nèi)和類別間的語(yǔ)義特征關(guān)系,最后輸出語(yǔ)義分割的結(jié)果。本文所提出的模型考慮了不同深度特征的差異性,實(shí)現(xiàn)了多層次預(yù)測(cè)結(jié)果的輸出,能夠有效地實(shí)現(xiàn)語(yǔ)義分割任務(wù)。本研究在兩個(gè)不同遙感圖像語(yǔ)義分割數(shù)據(jù)集上驗(yàn)證了該方法的有效性,并對(duì)比了常見(jiàn)的遙感語(yǔ)義分割模型,證明了該方法的先進(jìn)性,在相關(guān)的評(píng)價(jià)指標(biāo)上有一定的提升。
如圖1所示,本文所提出的多層次預(yù)測(cè)網(wǎng)絡(luò)以ResNet101為基本骨干網(wǎng)絡(luò)提取不同深度的語(yǔ)義特征,然后將相鄰的特征圖利用注意力整合模塊進(jìn)行特征重構(gòu),得到相應(yīng)層次的特征圖。這些特征圖隨后被輸入到對(duì)應(yīng)的親和圖增強(qiáng)模塊中,輸出語(yǔ)義信息增強(qiáng)的特征圖和對(duì)應(yīng)的具有類別數(shù)的親和特征圖。語(yǔ)義增強(qiáng)的特征隨后會(huì)經(jīng)過(guò)一個(gè)1×1 的卷積層轉(zhuǎn)化為具有類別數(shù)的特征圖。最后,將多個(gè)層次的輸出特征圖相加并上采樣到輸入圖像的分辨率大小,最終得到相應(yīng)的分割圖。
圖1 網(wǎng)絡(luò)結(jié)構(gòu)
為了聚合不同深度的語(yǔ)義特征,本文利用注意力機(jī)制去整合ResNet 網(wǎng)絡(luò)提取的相鄰特征圖。使用了卷積核注意力機(jī)制模塊(CBAM),本文將相鄰特征圖分別輸入到空間注意力模塊和通道注意力模塊,將提取到的有用的特征相加,再經(jīng)過(guò)一個(gè)卷積層得到自適應(yīng)的注意力重構(gòu)特征。如圖2(a)所示。
對(duì)于親和特征增強(qiáng)模塊,我們先利用兩個(gè)卷積層將重構(gòu)后的特征轉(zhuǎn)為具有類別數(shù)的特征,再經(jīng)過(guò)Softmax激活函數(shù)得到類別親和圖特征A,并用此類別親和圖特征點(diǎn)乘輸入的原始特征,用于加強(qiáng)該層的類內(nèi)的語(yǔ)義關(guān)系,并用一個(gè)大小相同的全1矩陣減去類別親和特征,得到類間親和特征圖1-A,用于加強(qiáng)類間的語(yǔ)義信息特征,最后,將類內(nèi)特征圖、類間特征圖以及類別親和特征圖拼接在一起, 得到輸出的親和增強(qiáng)特征圖,如圖2(b)所示。本文將多個(gè)層次輸出的結(jié)果相加得到最終的分割結(jié)果,并與標(biāo)簽計(jì)算損失,進(jìn)行網(wǎng)絡(luò)的優(yōu)化。除此之外,我們將多層的親和圖相加得到全局親和圖,將此全局親和圖與語(yǔ)義分割的標(biāo)簽計(jì)算交叉熵?fù)p失,進(jìn)行初步的約束,以此實(shí)現(xiàn)不同層次的輸出關(guān)注不同類別區(qū)域的特征。
圖2 模塊結(jié)構(gòu)示意圖
最終該模型的損失函數(shù)可以大致分為兩類:一個(gè)是多分類的交叉熵?fù)p失,另一個(gè)是基于親和圖的輔助損失,這個(gè)輔助損失不僅能使網(wǎng)絡(luò)關(guān)注不同類別區(qū)域,還能提升網(wǎng)絡(luò)的性能,使網(wǎng)絡(luò)更加易于收斂。最后,該模型的總損失函數(shù)可以表示如下:
其中,表示總的多分類的交叉熵?fù)p失,表示親和圖輔助損失,為超參數(shù),用于權(quán)衡不同的損失,實(shí)驗(yàn)中按經(jīng)驗(yàn)設(shè)置為0.5。
為了驗(yàn)證該模型的有效性,本文選擇經(jīng)典的語(yǔ)義分割網(wǎng)絡(luò)FCN為基準(zhǔn)網(wǎng)絡(luò),并對(duì)比了幾個(gè)常見(jiàn)的語(yǔ)義分割方法,在ISPRS 2D 語(yǔ)義分割數(shù)據(jù)集Vaihingen和Potsdam進(jìn)行實(shí)驗(yàn)。對(duì)于結(jié)果的定量指標(biāo),本文計(jì)算了每一類前景的分?jǐn)?shù)、平均的分?jǐn)?shù)、平均的交并比(mean IoU)以及總的分類準(zhǔn)確率(overall accuracy)。
實(shí)驗(yàn)中,本文選用了ISPRS 比賽的兩個(gè)遙感圖像語(yǔ)義分割數(shù)據(jù)集。其中,Vaihingen 數(shù)據(jù)集包含33 張超高分辨率的遙感圖像,每張圖像有三個(gè)光譜帶(紅、綠, 近紅外)以及一個(gè)歸一化的數(shù)字曲面模型(DSM)。該數(shù)據(jù)集的空間分辨率為9 cm,圖像的平均大小為2494×2064 像素,并且每張圖像都有較為精確的像素級(jí)手工標(biāo)注,包含6個(gè)土地覆蓋類(5個(gè)前景類以及1個(gè)背景類別)。在具體實(shí)驗(yàn)中選擇了其中的16張圖像用于訓(xùn)練,另外的17 張用于測(cè)試。而Potsdam 2D 語(yǔ)義標(biāo)注數(shù)據(jù)集包含了38 張高分辨率的遙感圖像,其空間分辨率為5 cm,包含了四個(gè)光譜帶(紅、綠、藍(lán),近紅外)以及歸一化的DSM 圖像。同樣地,依據(jù)之前的工作,本文將其中24 張圖像用于訓(xùn)練,剩下的14 張用于測(cè)試。在實(shí)驗(yàn)中,未使用DSM圖像。
實(shí)驗(yàn)中選用在ImageNet 上預(yù)訓(xùn)練好的ResNet101 網(wǎng)絡(luò)為模型的特征提取骨干網(wǎng)絡(luò),并且骨干網(wǎng)絡(luò)是可訓(xùn)練的,其學(xué)習(xí)率與其他網(wǎng)絡(luò)層相同。對(duì)于不同數(shù)據(jù)集,初始的學(xué)習(xí)率都設(shè)置為0.01,使用了Poly 學(xué)習(xí)率調(diào)整策略。對(duì)于優(yōu)化器,使用SGD進(jìn)行網(wǎng)絡(luò)梯度的反向傳播,優(yōu)化器的權(quán)重設(shè)為5e-04,動(dòng)量設(shè)為0.9。同時(shí),網(wǎng)絡(luò)訓(xùn)練時(shí)使用了幾種數(shù)據(jù)增強(qiáng)的方法,包括隨機(jī)裁剪、隨機(jī)旋轉(zhuǎn)、隨機(jī)翻轉(zhuǎn)和隨機(jī)放縮。該模型是基于Pytorch框架實(shí)現(xiàn)的,并且在GTX 1080 Ti顯卡上進(jìn)行了200 k迭代訓(xùn)練。
為了得出綜合性的評(píng)價(jià),實(shí)驗(yàn)將該模型與現(xiàn)有的五種分割方法進(jìn)行了比較,包括FCN、UNet、 Deep Labv3+、 PSPNet以 及DANet。Vaihingen 數(shù)據(jù)集上的定量評(píng)估指標(biāo)如表1 所示。整體可以看到,該方法在平均指標(biāo)、平均交并比和總的分割準(zhǔn)確率上都優(yōu)于其他方法。相較于基線方法,該方法在各個(gè)指標(biāo)上都有較大的性能提升,在平均分?jǐn)?shù)、平均交并比和總的分割準(zhǔn)確率上都有約2%的提升,這也證明了本文所提出的相應(yīng)模塊能有效地獲取類內(nèi)和類間的語(yǔ)義信息。同時(shí),為了進(jìn)一步展示該方法的優(yōu)越性,本文展示了該方法與基線網(wǎng)絡(luò)在Vaihingen 測(cè)試集上的幾個(gè)分割結(jié)果例子,如圖3 和表1 所示。從圖中可以看到,該模型能夠更加平滑地分割建筑物,表明我們的模型能夠?qū)W習(xí)長(zhǎng)短距離的上下文語(yǔ)義信息;而且,該模型對(duì)小物體的車輛分割效果也十分的明顯,不會(huì)像基線網(wǎng)絡(luò)那樣無(wú)法區(qū)別不同的車輛,表明該模型對(duì)不同尺度的物體都有較好的魯棒性。除此之外,本文在Potsdam數(shù)據(jù)集上也進(jìn)行了實(shí)驗(yàn),其定量和定性的結(jié)果分別如表2 和圖4 所示,這進(jìn)一步證明了該模型的有效性。
表1 不同方法在Vaihingen數(shù)據(jù)測(cè)試集上的分割指標(biāo)比較
表2 不同方法在Potsdam數(shù)據(jù)測(cè)試集上的分割指標(biāo)比較
圖3 該方法與基線網(wǎng)絡(luò)在Vaihingen測(cè)試集上的分割結(jié)果實(shí)例(白色:不透水表面;藍(lán)色:建筑物;青色:低矮的植被;綠色:樹(shù)木;黃色:汽車)
圖4 該方法與基線網(wǎng)絡(luò)在Potsdam測(cè)試集上的分割結(jié)果實(shí)例(白色:不透水表面;藍(lán)色:建筑物;青色:低矮的植被;綠色:樹(shù)木;黃色:汽車;紅色:雜物/背景)
本文提出了一個(gè)用于遙感圖像語(yǔ)義分割的多重預(yù)測(cè)分割網(wǎng)絡(luò),每個(gè)分支能夠自適應(yīng)地關(guān)注不同尺度的類別特征,在每一分支都包含一個(gè)特征聚合模塊和親和特征增強(qiáng)模塊,最后,將多個(gè)層次的綜合預(yù)測(cè)結(jié)果用于分割,與標(biāo)簽圖像計(jì)算交叉熵?fù)p失。在兩個(gè)遙感圖像分割數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),該模型在定量和定性結(jié)果上性能都有明顯的提升,該模型能夠?qū)W習(xí)長(zhǎng)短距離的上下文信息,對(duì)不同大小的物體都能進(jìn)行有效的分割。