葉 寬,楊 博,謝 歡,朱 戎,趙 蕾,張青月,趙 杰
(1.國網(wǎng)北京市電力公司電力科學(xué)研究院,北京 100075;2.國網(wǎng)新源控股有限公司檢修分公司,北京 100067;3.北京大學(xué) 大數(shù)據(jù)分析與應(yīng)用技術(shù)國家工程實(shí)驗(yàn)室,北京 100871)
高分辨率遙感圖像具有目標(biāo)大小不一、紋理復(fù)雜多樣和樹木遮擋等不穩(wěn)定因素,使得基于深度學(xué)習(xí)的目標(biāo)分割任務(wù)具有較大挑戰(zhàn),精確的遙感目標(biāo)分割對于軍事、航天和城市規(guī)劃都有重要的意義。近年來,隨著深度卷積神經(jīng)網(wǎng)絡(luò)的不斷發(fā)展,基于深度學(xué)習(xí)的目標(biāo)檢測和物體分割應(yīng)用越來越廣泛,如VGG[1]、基于殘差連接的ResNet[2]、改進(jìn)了編碼解碼結(jié)構(gòu)的SegNet[3]、帶有跳躍連接的編碼-解碼結(jié)構(gòu)Unet[4]、帶有空間搜索的NAS-Unet[5]、具有嵌套和密集鏈接的UNet++[6]、具有深度監(jiān)督的UNet 3+[7]以及帶有3D混合殘余注意力的RA-UNet[8]等,這些研究使得深度學(xué)習(xí)技術(shù)對圖像目標(biāo)分割任務(wù)的結(jié)果不斷提升。
許多專家利用深度學(xué)習(xí)方法對遙感圖像的各種目標(biāo)進(jìn)行分割研究,不斷提升分割效果。韓彬彬等[9]將基于殘差密集空間金字塔的卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用于城市地區(qū)遙感圖像分割任務(wù),利用了遙感圖像不同尺度下的特征。范自柱等[10]通過在Unet網(wǎng)絡(luò)中添加特征金字塔結(jié)構(gòu),使用基于卷積神經(jīng)網(wǎng)絡(luò)的圖像分割方法提取遙感圖像中典型土地光譜信息和空間信息來識別遙感衛(wèi)星圖像。袁偉等[11]將不同尺度的Unet融合在一起提出一種多尺度自適應(yīng)的遙感語義分割模型。劉航等[12]引入自適應(yīng)感受野機(jī)制和通道注意力模塊可以減少背景特征的干擾,提升遙感圖像的分割精度。余帥等[13]提出一種基于多級通道注意力的遙感圖像分割模型,有效解決目標(biāo)遮擋和小目標(biāo)難分割問題。何青等[14]利用多層次編碼解碼結(jié)構(gòu)提取不同尺度特征,提出一種基于殘差分組卷積的高分辨率遙感影像建筑物分割模型。
為進(jìn)一步提高建筑物邊緣提取效果,有效解決不同大小目標(biāo)和被遮擋目標(biāo)分割錯(cuò)誤等問題,本文提出了一種基于漸進(jìn)生長機(jī)制的Transformer Unet(PGT-Unet)遙感圖像分割網(wǎng)絡(luò),整個(gè)流程包括4個(gè)訓(xùn)練階段。首先對輸入圖像進(jìn)行下采樣處理,之后從(64 pixel×64 pixel)到(512 pixel×512 pixel)逐漸增大輸入圖像的分辨率,網(wǎng)絡(luò)模型也從1層Transformer Unet逐漸增大至4層Transformer Unet,每個(gè)階段模型收斂之后的參數(shù)直接遷移到下一階段的同樣卷積層中,使得模型在訓(xùn)練初期能夠?qū)W習(xí)到大尺度的結(jié)構(gòu)信息,后期的學(xué)習(xí)越來越集中到精確的細(xì)節(jié)特征,可以改善建筑物邊緣提取效果,提升被遮擋目標(biāo)和不同大小目標(biāo)的分割效果。
本文工作的貢獻(xiàn)總結(jié)如下:
① 提出了一個(gè)基于PGT-Unet的遙感圖像分割網(wǎng)絡(luò)來促進(jìn)遙感圖像的語義分割精度,并獲得了顯著的性能;
② 使用一種漸進(jìn)生長的機(jī)制進(jìn)行網(wǎng)絡(luò)訓(xùn)練,使得神經(jīng)網(wǎng)絡(luò)可以由粗到細(xì)逐步學(xué)習(xí)不同尺度的目標(biāo)結(jié)構(gòu)信息;
③ 在模型的編碼器、解碼器和瓶頸模塊中引入了Transformer Block進(jìn)行多尺度的特征提取和特征融合,進(jìn)一步增強(qiáng)模型提取不同大小目標(biāo)特征的能力,使網(wǎng)絡(luò)能夠更好地區(qū)分特征之間的重要程度,從而聚焦有用特征。
傳統(tǒng)的卷積核和可變形的卷積核都是同時(shí)提取所有尺度的目標(biāo)信息,容易造成信息冗余,并且對于網(wǎng)絡(luò)結(jié)構(gòu)較深的模型,勢必會造成很大的計(jì)算量和存儲的浪費(fèi)。在傳統(tǒng)神經(jīng)網(wǎng)絡(luò)模型的基礎(chǔ)上引入漸進(jìn)式生長機(jī)制[15]的訓(xùn)練方式可以達(dá)到不同尺度多級特征提取的目的。Transformer Block結(jié)構(gòu)如圖1所示。
圖1 Transformer Block結(jié)構(gòu)Fig.1 Illustration of Transformer Block
通過設(shè)置4個(gè)訓(xùn)練階段,在第1個(gè)階段低分辨率(64 pixel×64 pixel)輸入圖像經(jīng)過一層編碼模塊、瓶頸模塊和解碼模塊得到建筑物粗分割結(jié)果;在第2個(gè)階段增大輸入圖像的分辨率至(128 pixel×128 pixel),給模型增加一層編碼模塊和一層解碼模塊,將上一階段訓(xùn)練所得參數(shù)直接遷移到新模型中的對應(yīng)層中,并給已經(jīng)訓(xùn)練好的模型參數(shù)設(shè)置較小的學(xué)習(xí)速率,給新加的卷積層參數(shù)設(shè)置較大的學(xué)習(xí)速率,可以得到較大分辨率的建筑物精細(xì)分割結(jié)果;第3階段和第4階段以此類推,漸進(jìn)式增大圖像的分辨率(256 pixel×256 pixel)與(512 pixel×512 pixel)和模型的深度,最終得到越來越精細(xì)的建筑物分割輪廓。
這種訓(xùn)練方式允許網(wǎng)絡(luò)先學(xué)習(xí)大尺度的圖像粗結(jié)構(gòu)信息,之后的階段將注意力集中到相鄰尺度的越來越細(xì)節(jié)的特征中,而不是讓網(wǎng)絡(luò)同時(shí)學(xué)習(xí)所有尺度的信息。在每個(gè)階段模型接收不同大小的輸入圖像,從而可以分步地學(xué)習(xí)到不同大小目標(biāo)區(qū)域的多尺度信息,在不增加額外參數(shù)量和計(jì)算量的情況下,使得模型更快收斂,具有更強(qiáng)的泛化能力和穩(wěn)定性。
漸進(jìn)生長機(jī)制下的每個(gè)階段采用基于Transformer的U型架構(gòu)——Transformer Unet模型進(jìn)行遙感圖像特征提取和建筑物分割,模型由編碼器模塊、瓶頸模塊、解碼器模塊和跳過鏈接構(gòu)成,基本單元是Transformer Block結(jié)構(gòu)。編碼器模塊由一系列成組的下采樣模塊(步長為2的卷積層)和卷積模塊Transformer Block構(gòu)成,進(jìn)行特征提取學(xué)習(xí)全局上下文信息和局部細(xì)節(jié)信息。瓶頸模塊由2組卷積模塊Transformer Block構(gòu)成,降低模型參數(shù)量,增加模型的非線性表達(dá)能力。解碼器模塊由一系列成組的卷積模塊Transformer Block和上采樣模塊(雙線性插值)構(gòu)成,進(jìn)行圖像重建和建筑物目標(biāo)分割。跳過鏈接聯(lián)通編碼器和解碼器,提取的上下文特征通過跳躍鏈接與編碼器的多尺度特征融合,以彌補(bǔ)降采樣造成的空間信息丟失。
Transformer Block主要由帶殘差連接和歸一化層的多頭注意力模塊以及多層感知機(jī)組成,多頭注意力模塊是Transformer Block重要的組成部分,由多個(gè)自注意力連接組成,自注意力表示為:
(1)
式中,Q,K和V分別表示Query,Key和Value;dhead為通道維數(shù),具有相同的維度(HW×C)。采用2個(gè)多層感知器和1個(gè)3×3的深度可分離卷積層來獲得Transformer的Positional Encoding位置信息,表示如下:
Fout=MLP(GELU(Conv2D3×3(MLP(Fin))))+Fin,
(2)
式中,F(xiàn)in是自注意力的特征圖;GELU代表Gaussian Error Linear Unit激活函數(shù)。
針對遙感圖像建筑物分割任務(wù),提出了一種基于PGT-Unet的卷積神經(jīng)網(wǎng)絡(luò)模型,如圖2所示,漸進(jìn)式的逐步增大模型的深度和輸入圖像的尺度,模型的輸入為遙感圖像,輸出為建筑物分割結(jié)果圖像。
圖2 網(wǎng)絡(luò)架構(gòu)Fig.2 Illustration of network architecture
網(wǎng)絡(luò)模型的第1階段網(wǎng)絡(luò)由一個(gè)下采樣的編碼模塊和一個(gè)上采樣的解碼模塊構(gòu)成,編碼模塊和解碼模塊之間通過瓶頸模塊連接,之后的第2階段、第3階段和第4階段分別漸進(jìn)式增加編碼模塊和解碼模塊的深度,使上采樣和下采樣的個(gè)數(shù)增加為2,3,4,輸入圖像的分辨率也從低分辨率(64 pixel×64 pixel)開始,逐漸增大至第2階段(128 pixel×128 pixel)、第3階段(256 pixel×256 pixel)和第4階段(512 pixel×512 pixel),最終第4階段的Transformer Unet卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。每個(gè)階段模型收斂之后的參數(shù)直接遷移到下一階段的同樣卷積層中。在訓(xùn)練過程的初始階段,模型首先獲得大尺度的結(jié)構(gòu)信息和圖像分布,然后在訓(xùn)練后期轉(zhuǎn)移注意力到越來越精確的細(xì)節(jié)特征,相比之下,傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)是同時(shí)提取所有尺度的信息。訓(xùn)練過程中,為了避免每一次模型的變更對上個(gè)模型泛化能力的影響,對已訓(xùn)練好的、待遷移參數(shù)的低分辨率卷積層設(shè)置一個(gè)較小的學(xué)習(xí)速率(1×e-6),對新加入的卷積層則設(shè)置了一個(gè)較大的學(xué)習(xí)速率(1×e-4),之后開始新一輪的訓(xùn)練。
圖3 最后階段的Transformer Unet模型Fig.3 The last stage of Transformer Unet model
本文方法在Inria Aerial Image Labeling數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),該數(shù)據(jù)集是高分辨率遙感建筑物分割圖像數(shù)據(jù)集,覆蓋面積達(dá)810 km2,圖像覆蓋Austin,Chicago,Kitsap,Tyrol-w和Vienna等5個(gè)不同城市的建筑物,圖像分辨率大小為5 000 pixel×5 000 pixel,每個(gè)城市有36張圖像,該數(shù)據(jù)集共有180張圖像??紤]到原始圖像尺寸太大,將所有圖像裁剪為512 pixel×512 pixel,最終得到14 400張訓(xùn)練樣本和3 600張測試樣本。由于原始圖像存在細(xì)節(jié)模糊和顏色失真問題,對所有數(shù)據(jù)進(jìn)行基于雙邊濾波和對數(shù)域MSR增強(qiáng)的去霧處理。圖4(a)為原始分辨率為5 000 pixel×5 000 pixel的遙感圖像和建筑物標(biāo)注圖像,圖4(b)為裁剪之后一些小塊的遙感圖像用于訓(xùn)練和測試。
(a)原始圖像
(b)切塊圖像圖4 原始數(shù)據(jù)和切塊圖像Fig. 4 Raw data and patch images
采用了Dice_loss和交叉熵?fù)p失相結(jié)合的綜合損失函數(shù)對PGT-Unet模型進(jìn)行訓(xùn)練學(xué)習(xí),Dice_loss為一種集合相似度的度量函數(shù),代表預(yù)測的分割結(jié)果與標(biāo)注的建筑物的偏差,公式如下:
(3)
式中,TP表示神經(jīng)網(wǎng)絡(luò)模型的建筑物分割結(jié)果與手動(dòng)標(biāo)注結(jié)果的重疊區(qū)域;FP表示與手動(dòng)標(biāo)注結(jié)果相比神經(jīng)網(wǎng)絡(luò)模型的建筑物分割的錯(cuò)誤區(qū)域;FN表示與手動(dòng)標(biāo)注結(jié)果相比神經(jīng)網(wǎng)絡(luò)模型未能自動(dòng)分割出的建筑物區(qū)域。因此,Dice_loss的值越小,說明神經(jīng)網(wǎng)絡(luò)模型分割結(jié)果越準(zhǔn)確。
交叉熵?fù)p失可以評估神經(jīng)網(wǎng)絡(luò)模型建筑物分割結(jié)果和手動(dòng)標(biāo)注結(jié)果2個(gè)分布之間的距離,使用交叉熵來評估當(dāng)前訓(xùn)練得到的建筑物分割概率分布與真實(shí)手動(dòng)標(biāo)注結(jié)果分布的差異情況,公式如下:
(1-qi)×lg(1-pi),
(4)
式中,q為真值概率;p為預(yù)測概率。
在1個(gè)NVIDIA TESLA V100 GPU上進(jìn)行模型的訓(xùn)練和測試,分辨率為(512 pixel×512 pixel)的去霧增強(qiáng)遙感圖像作為模型的輸入,輸出為建筑物分割結(jié)果圖像,batch size為12,訓(xùn)練的epoch為500。通過對比模型自動(dòng)分割結(jié)果和建筑物標(biāo)注圖像,采用平均交并比(Intersection over Union, IoU)進(jìn)行分割準(zhǔn)確性評價(jià),遙感圖像建筑物分割的IoU為0.775。對比Inria Aerial Image Labeling數(shù)據(jù)集目前分割性能較好的模型,同樣使用IoU作為評價(jià)指標(biāo),結(jié)果如表1所示。對比實(shí)驗(yàn)結(jié)果可以看出,本文提出的方法IoU值是最優(yōu)的,表明此模型對不同大小目標(biāo)、有遮擋目標(biāo)的分割效果具有優(yōu)勢。
表1 現(xiàn)有方法在Inria Aerial Image Labeling數(shù)據(jù)集的建筑物分割結(jié)果對比Tab.1 Comparison of building segmentation results of existing methods in Inria Aerial Image Labeling dataset
為了驗(yàn)證該模型的優(yōu)越性,對提出的模型進(jìn)行消融實(shí)驗(yàn),所有模型采用相同的數(shù)據(jù)集和服務(wù)器環(huán)境,消融實(shí)驗(yàn)結(jié)果如表2所示。在Unet結(jié)構(gòu)基礎(chǔ)上增加Transformer模塊的分割結(jié)果為0.760,在Unet結(jié)構(gòu)基礎(chǔ)上增加漸進(jìn)生長機(jī)制的分割結(jié)果為0.754,同時(shí)引入漸進(jìn)生長機(jī)制和Transformer的PGT-Unet分割結(jié)果為0.775。
表2 消融實(shí)驗(yàn)結(jié)果對比Tab.2 Comparison of ablation experimental results
消融實(shí)驗(yàn)的部分測試結(jié)果如圖5和圖6所示。圖5和圖6中,(a)為裁剪的分辨率為512 pixel×512 pixel的遙感圖像,(b)為對應(yīng)遙感圖像手動(dòng)標(biāo)注結(jié)果,(c)為集成Unet和Transformer Block模型的建筑物分割結(jié)果,(d)為集成漸進(jìn)生長機(jī)制的Unet模型建筑物分割結(jié)果,(e)為集成漸進(jìn)生長機(jī)制和Transformer Block模塊的PGT-Unet模型建筑物分割結(jié)果。
圖5 PGT-Unet模型在樹木遮擋樣本的分割消融實(shí)驗(yàn)結(jié)果Fig.5 Segmentation and ablation experimental results of the PGT-Unet model in tree shelter samples
圖6 PGT-Unet模型在不同大小目標(biāo)樣本的分割消融實(shí)驗(yàn)結(jié)果Fig.6 Segmentation and ablation experimental results of the PGT-Unet model in different size of object samples
由圖5可以看出,第1行和第3行遙感圖像主要為被樹木遮擋的建筑物目標(biāo),第2行和第4行分別為上一行遮擋目標(biāo)的局部放大,遮擋目標(biāo)的分割是比較困難的,本文方法可以較好地學(xué)習(xí)遮擋目標(biāo)的上下文特征信息,對樹木遮擋的建筑物分割效果明顯。
由圖6可以看出,第1行和第2行遙感圖像主要為成塊建筑物,這樣不規(guī)則的成塊建筑物邊緣輪廓較難分割,本文方法對不規(guī)則成塊目標(biāo)的分割效果更有優(yōu)勢。第3行和第4行遙感圖像為小目標(biāo)建筑物,小目標(biāo)建筑物很容易被忽視,且目標(biāo)邊界很難準(zhǔn)確分割,本文方法可以學(xué)習(xí)到小目標(biāo)建筑物的細(xì)節(jié)特征。通過消融實(shí)驗(yàn)可以驗(yàn)證提出的基于PGT-Unet的卷積神經(jīng)網(wǎng)絡(luò)模型方法能提取到豐富的目標(biāo)上下文特征,對有部分遮擋目標(biāo)和不同大小目標(biāo)建筑物的分割效果有很大提升。
本文提出了一種基于漸進(jìn)生長機(jī)制的Transformer Unet卷積神經(jīng)網(wǎng)絡(luò)的遙感圖像建筑物分割方法,在編碼階段和解碼階段之間引入Transformer Block模塊進(jìn)行多尺度特征提取和融合,獲得更多目標(biāo)互補(bǔ)特征信息,使網(wǎng)絡(luò)能夠更好地區(qū)分特征之間的重要程度,從而聚焦有用特征。通過漸進(jìn)式生長機(jī)制漸進(jìn)式地增大輸入圖像的分辨率和模型的深度,并不斷遷移每個(gè)階段的模型參數(shù),使模型在訓(xùn)練初期先學(xué)習(xí)大尺度粗結(jié)構(gòu)的特征信息,在后面的訓(xùn)練階段逐漸學(xué)習(xí)越來越精細(xì)的細(xì)節(jié)結(jié)構(gòu)信息,逐漸改善建筑物邊緣分割效果,可以增強(qiáng)不同大小目標(biāo)建筑物和遮擋目標(biāo)建筑物邊緣分割的完整性,對Inria Aerial Image Labeling數(shù)據(jù)集的建筑物分割具有很好的泛化能力。