收稿日期:2023-08-07
DOI:10.19850/j.cnki.2096-4706.2024.04.028
摘? 要:基于深度學(xué)習(xí)的遙感影像圖像分割技術(shù)使用越來(lái)越廣泛,針對(duì)現(xiàn)有算法存在參數(shù)量較大、細(xì)節(jié)部分提取結(jié)果差等問(wèn)題,提出一種基于改進(jìn)DeepLabv3+的道路圖像分割方法。將輕量型網(wǎng)絡(luò)MobileNetV2引入改進(jìn)后的池化金字塔模型用以提取中階特征圖,增強(qiáng)了不同感受野之間的相關(guān)性;并采用多尺度拼接融合方法生成高階特征圖,同時(shí)引入注意力機(jī)制來(lái)進(jìn)一步加強(qiáng)對(duì)圖像特征的提取效果。實(shí)驗(yàn)結(jié)果表明,所提方法相比于DeepLabv3+模型mIoU提高了5%,有效提升了遙感圖像的分割精度。
關(guān)鍵詞:語(yǔ)義分割;遙感影像;道路提??;注意力機(jī)制;DeepLabv3+
中圖分類(lèi)號(hào):TP18;TP751 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):2096-4706(2024)04-0132-05
Road Segmentation Algorithm Based on Improved DeepLabv3+
GE Zhenqiang
(Taiyuan Normal University, Jinzhong? 030619, China)
Abstract: The use of Deep Learning-based remote sensing image segmentation technology is becoming increasingly widespread. In response to the problems of large parameter quantities and poor results in extracting details in existing algorithms, a road image segmentation method based on improved DeepLabv3+ is proposed. Introducing the lightweight network MobileNetV2 into an improved pooling pyramid model to extract mid-order feature maps, which enhance the correlation between different receptive fields. A multi-scale concatenation fusion method is adopted to generate high-order feature maps, while introducing attention mechanisms to further enhance the extraction effect of image features. The experimental results show that the proposed method improves mIoU by 5% compared to the DeepLabv3+ model, effectively enhancing the segmentation accuracy of remote sensing images.
Keywords: semantic segmentation; remote sensing image; road extraction; Attention Mechanism; DeepLabv3+
0? 引? 言
圖像語(yǔ)義分割是在像素級(jí)別上的分類(lèi),即對(duì)圖像進(jìn)行識(shí)別和理解,針對(duì)圖像所含有的語(yǔ)義信息對(duì)圖像中每個(gè)像素進(jìn)行分類(lèi)標(biāo)注[1]。語(yǔ)義分割技術(shù)在醫(yī)療[2,3]、交通、遙感影像[4-6]分割等領(lǐng)域有廣泛的應(yīng)用。在交通領(lǐng)域中,道路是交通的主要組成部分,對(duì)城市規(guī)劃和交通管理有著非常重要的意義。高分辨率遙感圖像中的道路提取任務(wù)就是針對(duì)這個(gè)問(wèn)題進(jìn)行的。傳統(tǒng)的人工提取方法耗時(shí)費(fèi)力,難以處理大規(guī)模數(shù)據(jù)。而語(yǔ)義分割技術(shù)可以通過(guò)深度學(xué)習(xí)模型自動(dòng)提取道路的輪廓和邊界,大大提高了提取效率和準(zhǔn)確性,有著非常廣泛的應(yīng)用前景。語(yǔ)義分割技術(shù)被廣泛用于圖像處理領(lǐng)域,能夠自動(dòng)提取目標(biāo)區(qū)域的輪廓和邊界,SegNet[7]、UNet[8]等算法在各個(gè)領(lǐng)域有著準(zhǔn)確性高、效率高的特點(diǎn)。但是語(yǔ)義分割在道路方面的使用還不是很多,因其存在一些處理特征時(shí)忽略了像素間關(guān)系或者空間分辨率減小的情況。近幾年,由谷歌設(shè)計(jì)的Deeplab系列圖像分割算法獲得了廣大科技研究者的廣泛關(guān)注,該網(wǎng)絡(luò)提出了空洞空間金字塔池化模塊(Atrous Spatial Pyramid Pooling, ASPP),擴(kuò)大了分割網(wǎng)絡(luò)的感受野,提高了分割網(wǎng)絡(luò)的準(zhǔn)確性。DeepLabV3+算法[9]使用了Encoder-Decoder結(jié)構(gòu),通過(guò)融合低階特征和高階特征,使分割網(wǎng)絡(luò)獲取更多的特征信息,提高了分割的準(zhǔn)確性。有學(xué)者不斷對(duì)該模型進(jìn)行改進(jìn)[10-13]以期達(dá)到分割更加精確的目的。盡管DeepLabV3+圖像分割網(wǎng)絡(luò)在一些公開(kāi)數(shù)據(jù)集上有著不錯(cuò)的效果,但是對(duì)于道路提取這一對(duì)細(xì)節(jié)要求更多的任務(wù),DeepLabV3+的表現(xiàn)就有些不盡人意了。同時(shí)DeepLabV3+使用Xception網(wǎng)絡(luò)作為特征提取網(wǎng)絡(luò)造成該模型參數(shù)量比較大,所以需要更多的時(shí)間來(lái)進(jìn)行計(jì)算。還因?yàn)榈缆翻h(huán)境中背景復(fù)雜,存在很多干擾因素,也容易出現(xiàn)細(xì)節(jié)部分提取效果較差的問(wèn)題。
針對(duì)上述道路分割所存在的問(wèn)題,本文提出一種基于改進(jìn)DeepLabV3+分割方法來(lái)進(jìn)行遙感圖像的道路分割,選擇更加輕量化的特征提取網(wǎng)絡(luò),對(duì)原始的ASPP結(jié)構(gòu)進(jìn)行改進(jìn),添加注意力機(jī)制和進(jìn)行多尺度融合。通過(guò)對(duì)比實(shí)驗(yàn)驗(yàn)證此方法可以使道路邊緣分割更加清晰,提高了道路提取精度。
1? 理論基礎(chǔ)
1.1? DeepLabV3+基礎(chǔ)模型
DeepLabV3+是在DeepLabV3基礎(chǔ)上的改進(jìn),它們使用了相同的編碼器模塊,DeepLabV3+在DeepLabV3基礎(chǔ)上添加了解碼器模塊,從而實(shí)現(xiàn)端到端的語(yǔ)義分割。deepLabV3+網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。
1.2? SE通道注意力機(jī)制
為了更好地對(duì)通道信息有選擇地進(jìn)行關(guān)注,從而提高信息輸出的效率和邊緣細(xì)節(jié)分割準(zhǔn)確性,在解碼器4倍上采樣后使用SENet(Squeeze and Excitation Networks)[14]通道注意力機(jī)制來(lái)加強(qiáng)通道信息獲取。圖2為該機(jī)制的結(jié)構(gòu)圖,圖中C、H、W代表特征圖的通道數(shù)、長(zhǎng)和寬。該結(jié)構(gòu)主要分為以下3個(gè)方面:1)將特征圖進(jìn)行Squeeze(壓縮),該步驟是通過(guò)全局平均池化把特征圖從大小為(N,C,H,W)轉(zhuǎn)換為(N,C,1,1),這樣就達(dá)到了全局上下文信息的融合。2)Excitation操作,該步驟使用兩個(gè)全連接層,通過(guò)全連接層之間的非線性特征增加模型的復(fù)雜度,以確定不同通道之間的權(quán)重。3)將Reshape過(guò)后的權(quán)重值與原有的特征圖做乘法運(yùn)算(該步驟采用Python的廣播機(jī)制),得到不同權(quán)重下的特征圖。
2? 改進(jìn)的DeepLabV3+網(wǎng)絡(luò)
在遙感圖像中,道路信息所占據(jù)的像素比例通常相對(duì)較小,而且容易受到背景環(huán)境因素的干擾,如建筑物、樹(shù)木等。因此,對(duì)于道路信息的準(zhǔn)確提取,算法的細(xì)節(jié)提取能力非常重要。為解決DeepLabv3+模型參數(shù)量大,且對(duì)道路易產(chǎn)生漏分割和不連續(xù)問(wèn)題,本文對(duì)DeepLabV3+模型的主干特征提取網(wǎng)絡(luò)進(jìn)行輕量化改進(jìn),再對(duì)ASPP模塊進(jìn)行改進(jìn),最后在改進(jìn)的ASPP模塊中進(jìn)行特征融合時(shí)加入SENet注意力機(jī)制,使分割速度和分割精度得到有效提升。改進(jìn)后的DeepLabV3+算法網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。
圖3? 本文網(wǎng)絡(luò)結(jié)構(gòu)
2.1? 輕量化特征提取網(wǎng)絡(luò)
在原先的DeepLabV3+算法中,使用復(fù)雜的Xception網(wǎng)絡(luò)結(jié)構(gòu)可能會(huì)導(dǎo)致在道路提取這種小目標(biāo)的任務(wù)中存在精確度不夠的問(wèn)題,因?yàn)閄ception網(wǎng)絡(luò)可能在提取細(xì)節(jié)特征時(shí)不夠準(zhǔn)確。此外,Xception網(wǎng)絡(luò)的參數(shù)量龐大,需要消耗大量的計(jì)算資源和時(shí)間。為了解決這些問(wèn)題,本文采用了輕量級(jí)的MobileNetV2結(jié)構(gòu)作為主干特征提取網(wǎng)絡(luò)。相比于Xception,MobileNetV2具有更少的參數(shù)量,訓(xùn)練速度更快,能夠更快地提取道路圖像中的特征,從而使模型更容易捕捉到道路的細(xì)節(jié)和紋理,更適用于道路提取任務(wù)。
MobileNetV2是一種輕量級(jí)的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),用于圖像分類(lèi)和特征提取任務(wù)。它是MobileNetV1的改進(jìn)版本,通過(guò)引入一系列的設(shè)計(jì)技巧來(lái)提高模型的性能,MobileNetV2采用了深度可分離卷積(Depthwise Separable Convolution)作為基礎(chǔ)的卷積操作,將標(biāo)準(zhǔn)卷積分解為深度卷積和逐點(diǎn)卷積兩個(gè)步驟,從而減少了計(jì)算量和參數(shù)量。此外MobileNetV2還引入了線性瓶頸(Linear Bottlenecks)、倒殘差結(jié)構(gòu)(Inverted Residuals)和線性激活函數(shù)等技術(shù),進(jìn)一步提高了模型的效率和表達(dá)能力??傮w而言,MobileNetV2在保持較高準(zhǔn)確性的同時(shí),大大減少了模型的參數(shù)量和計(jì)算復(fù)雜度。
2.2? 改進(jìn)的ASPP模塊
ASPP為了更好地獲取特征信息,直接使用不同倍率的空洞卷積來(lái)提高分割精度。ASPP結(jié)構(gòu)如圖4所示。
圖4? ASPP結(jié)構(gòu)
原始ASPP結(jié)構(gòu)擴(kuò)張率分別采用的是6、12、18,直接將不同擴(kuò)張率下的特征圖進(jìn)行融合,會(huì)造成特征信息的缺失和感受野的不足。為了解決信息的不連續(xù)和感受野的不足,本文提出在原始ASPP中融合不同倍率下的特征圖來(lái)解決上述問(wèn)題,如圖5所示。
改進(jìn)DeepLabV3+網(wǎng)絡(luò)的ASPP模塊,將原本并行的分支進(jìn)行交叉融合,實(shí)現(xiàn)更大的視野和更強(qiáng)的特征提取能力。改進(jìn)之后的ASPP模塊在原有3個(gè)空洞卷積并行的基礎(chǔ)上增加了串聯(lián)結(jié)構(gòu),將擴(kuò)張率小的輸出與其他分支融合,再送入較大的空洞卷積,獲得更好的特征提取效果。
圖5? 改進(jìn)的ASPP結(jié)構(gòu)
2.3? 多尺度融合
當(dāng)輸入一張圖像時(shí),首先通過(guò)編碼端的MobileNetV2網(wǎng)絡(luò)進(jìn)行特征提取。當(dāng)下采樣4倍時(shí),獲得低階特征圖。通過(guò)主干網(wǎng)絡(luò)下采樣完成時(shí)獲得中階特征圖。接下來(lái),將下采樣16倍的中階特征圖輸入ASPP-S模塊進(jìn)行處理。ASPP-S模塊采用了空洞空間金字塔池化的方式,通過(guò)不同采樣率的空洞卷積來(lái)捕捉多尺度上下文信息。通道拼接是將兩個(gè)特征圖的通道維度連接在一起,以增加特征的多樣性和豐富性。在解碼端,我們獲得了3個(gè)分辨率不同的特征圖。我們先將中階和高階特征圖進(jìn)行通道調(diào)節(jié)然后進(jìn)行融合,再通過(guò)注意力模塊進(jìn)行進(jìn)一步的特征提取之后進(jìn)行4倍上采樣與低階特征圖融合,進(jìn)一步提取圖像中的語(yǔ)義信息和邊緣細(xì)節(jié)。最后,對(duì)融合后的特征圖進(jìn)行4倍上采樣將特征圖恢復(fù)到原始圖像的分辨率,以得到最終的分割結(jié)果。這個(gè)網(wǎng)絡(luò)架構(gòu)的目標(biāo)是通過(guò)多尺度特征融合和后續(xù)處理步驟來(lái)提高圖像分割的精度,并保留細(xì)節(jié)信息,從而得到更準(zhǔn)確的分割結(jié)果。
3? 實(shí)驗(yàn)驗(yàn)證與分析
3.1? 實(shí)驗(yàn)設(shè)置
3.1.1? 數(shù)據(jù)集及評(píng)價(jià)標(biāo)準(zhǔn)
本文實(shí)驗(yàn)所采用數(shù)據(jù)集為CHN6-CUG[15]道路數(shù)據(jù)集,其由中國(guó)地質(zhì)大學(xué)(武漢)HPSCIL的朱琪琪團(tuán)隊(duì)制作并共享,是道路提取任務(wù)中廣泛應(yīng)用的數(shù)據(jù)集之一。該數(shù)據(jù)集是人工標(biāo)記的像素級(jí)高分辨率衛(wèi)星影像,遙感影像底圖來(lái)自谷歌地球。根據(jù)路面覆蓋度,標(biāo)示的道路包括有軌道覆蓋的路面和無(wú)軌道覆蓋的路面。根據(jù)地理因素的物理角度,標(biāo)示道路包括鐵路、公路、城市道路和農(nóng)村道路等。CHN6-CUG包含4 511張標(biāo)記圖像,圖像分辨率大小為512×512,將3 608張用于模型訓(xùn)練,903張用于測(cè)試和結(jié)果評(píng)估。
3.1.2? 語(yǔ)義分割實(shí)驗(yàn)評(píng)估指標(biāo)
評(píng)價(jià)指標(biāo)用來(lái)評(píng)價(jià)語(yǔ)義分割模型的分割效果。在遙感影像目標(biāo)提取領(lǐng)域,常用的評(píng)價(jià)指標(biāo)有像素精度(PA)、平均交并比(mIoU)等。mIoU是指模型對(duì)每一類(lèi)預(yù)測(cè)的結(jié)果和真實(shí)值的交集與并集的比值求和后再計(jì)算平均值的結(jié)果,其反映了模型能夠正確預(yù)測(cè)的能力。PA是指正確預(yù)測(cè)的像素?cái)?shù)與總的像素?cái)?shù)的比值。其公式分別為:
(1)
(2)
其中:k+1為類(lèi)別總數(shù),pii為正確分類(lèi)的像素?cái)?shù),pij為i類(lèi)被預(yù)測(cè)為j類(lèi)的數(shù)量,pji為j類(lèi)被判斷為i類(lèi)的數(shù)量。
3.1.3? 訓(xùn)練策略
本文實(shí)驗(yàn)是在Windows系統(tǒng)下搭建的PyTorch深度學(xué)習(xí)框架中進(jìn)行具體實(shí)現(xiàn)。訓(xùn)練過(guò)程采用了如下參數(shù)設(shè)置:網(wǎng)絡(luò)的初始學(xué)習(xí)率設(shè)置為5×10-4,選擇了Adam優(yōu)化器,相比與其他優(yōu)化器,Adam優(yōu)化器能夠同時(shí)考慮一階動(dòng)量和二階動(dòng)量,并動(dòng)態(tài)調(diào)整每個(gè)參數(shù)的學(xué)習(xí)率,從而使模型更快收斂至性能最優(yōu),batchsize為4,每一輪的迭代次數(shù)為516次,epochs設(shè)置為100,損失函數(shù)使用交叉熵?fù)p失函數(shù)。
3.2? 實(shí)驗(yàn)結(jié)果及分析
為了驗(yàn)證本文方法在分割任務(wù)中的有效性,將所有網(wǎng)絡(luò)模型在實(shí)驗(yàn)環(huán)境和相關(guān)參數(shù)一致的情況下進(jìn)行對(duì)比試驗(yàn),分別為原圖、標(biāo)簽圖、本文方法測(cè)試結(jié)果(Our)、DeepLabV3+測(cè)試結(jié)果、UNet測(cè)試結(jié)果、SegNet測(cè)試結(jié)果,各項(xiàng)性能指標(biāo)對(duì)比如表1所示。
表1? 不同模型評(píng)價(jià)指標(biāo)對(duì)比
模型 mIoU mPA
SegNet 0.59 0.71
UNet 0.61 0.74
Deeplabv3+ 0.65 0.84
Our 0.70 0.86
DeepLabV3+是在DeepLabV3網(wǎng)絡(luò)基礎(chǔ)上添加了解碼器模塊,但該網(wǎng)絡(luò)中的ASPP由于特征采樣不夠密集,大量信息被忽略,使道路的分割完整性較差。UNet也是基于編解碼器的網(wǎng)絡(luò)模型,它主要是在每個(gè)解碼層之間添加了跳躍連接,對(duì)于復(fù)雜的遙感圖片而言效果不是很好。而本文改進(jìn)模型在CHN6-CUG數(shù)據(jù)集上的指標(biāo)mIoU達(dá)到70%,效果最佳。相較于基礎(chǔ)網(wǎng)絡(luò),本文方法的mIoU提高了5%。
圖6給出了本文方法與其他模型可視化分割結(jié)果。其中,SegNet表現(xiàn)最差,錯(cuò)分、漏分嚴(yán)重,分割不完整;UNet和DeeplabV3+從分割結(jié)果來(lái)看,針對(duì)邊界模糊的道路分割還是不完整,部分邊界存在粘合。本文利用多尺度特征提取結(jié)構(gòu)和通道注意力機(jī)制,提升了網(wǎng)絡(luò)特征提取的能力,使得網(wǎng)絡(luò)能夠更加準(zhǔn)確地識(shí)別不同尺度的道路目標(biāo),并且能夠更加敏銳地捕捉邊緣細(xì)節(jié)信息,可視化結(jié)果優(yōu)于其他模型,并且每項(xiàng)指標(biāo)均高于其他模型的精度,證明本文方法的有效性。
圖6? 在CHN6-CUG數(shù)據(jù)集上的分割結(jié)果對(duì)比
4? 結(jié)? 論
本文提出一種適用于遙感道路分割的改進(jìn)DeepLabV3+網(wǎng)絡(luò)。網(wǎng)絡(luò)中通過(guò)改進(jìn)的空間金字塔池化獲得密集的采樣和更大的感受野,豐富上下文信息;通道注意力加強(qiáng)道路的分割精度與邊緣完整度。從分割結(jié)果來(lái),對(duì)較小尺寸和復(fù)雜重疊道路的邊界模糊和陰影干擾等,還是會(huì)出現(xiàn)分割不精確和目標(biāo)粘連問(wèn)題。因此,未來(lái)工作中在提升密集小目標(biāo)建筑分割精度方面還要做進(jìn)一步的研究。
參考文獻(xiàn):
[1] 徐輝,祝玉華,甄彤,等.深度神經(jīng)網(wǎng)絡(luò)圖像語(yǔ)義分割方法綜述 [J].計(jì)算機(jī)科學(xué)與探索,2021,15(1):47-59.
[2] 楊國(guó)亮,洪志陽(yáng),王志元,等.基于改進(jìn)全卷積網(wǎng)絡(luò)的皮膚病變圖像分割 [J].計(jì)算機(jī)工程與設(shè)計(jì),2018,39(11):3500-3505.
[3] 侯騰璇,趙涓涓,強(qiáng)彥,等.CRF 3D-UNet肺結(jié)節(jié)分割網(wǎng)絡(luò) [J].計(jì)算機(jī)工程與設(shè)計(jì),2020,41(6):1663-1669.
[4] YANG G,ZHANG Q,ZHANG G X. EANet: Edge-Aware Network for the Extraction of Buildings from Aerial Images [J/OL].Remote Sensing,2020,12(13):2161[2023-09-16].https://doi.org/10.3390/rs12132161.
[5] 陳小龍,趙驥,陳思溢.基于注意力編碼的輕量化語(yǔ)義分割網(wǎng)絡(luò) [J].激光與光電子學(xué)進(jìn)展,2021,58(14):225-233.
[6] ABDOLLAHI A,PRADHAN B,ABDULLAH A M. An ensemble architecture of deep convolutional Segnet and Unet networks for building semantic segmentation from high-resolution aerial images [J].Geocarto International,2022,37(12):3355-3370.
[7] RONNEBERGER O,F(xiàn)ISCHER P,BROX T. U-Net: Convolutional Networks for Biomedical Image Segmentation [C]/MICCAI 2015: Medical Image Computing and Computer-Assisted Intervention. Munich:Springer,2015:234-241.
[8] BADRINARAYANAN V,HANDA A,CIPOLLA R. SegNet: A Deep Convolutional Encoder-Decoder Architecture for Robust Semantic Pixel-Wise Labelling [J/OL].arXiv:1505.07293 [cs.CV].[2023-09-16].https://arxiv.org/abs/1505.07293.
[9] CHEN L C,ZHU Y K,PAPANDREOU G,et al. Encoder-Decoder with Atrous Separable Convolution for Semantic Image Segmentation [C]//Proceedings of the European Conference on Computer Vision (ECCV 2018). Munich:Springer,2018:833-851.
[10] 齊建偉,王偉峰,張樂(lè),等.基于改進(jìn)DeepLabV3+算法的遙感影像建筑物變化檢測(cè) [J].測(cè)繪通報(bào),2023(4):145-149.
[11] 馬冬梅,黃欣悅,李煜.基于特征融合和注意力機(jī)制的圖像語(yǔ)義分割 [J].計(jì)算機(jī)工程與科學(xué),2023,45(3):495-503.
[12] ZHU R H,XIN B J,DENG N,et al. Semantic Segmentation Using DeepLabv3+ Model for Fabric Defect Detection [J].Wuhan University Journal of Natural Sciences,2022,27(6):539-549.
[13] 王云艷,王重陽(yáng),武華軒,等.基于改進(jìn)型Deeplabv3的城市道路圖像語(yǔ)義分割 [J].計(jì)算機(jī)仿真,2022,39(10):148-152+158.
[14] HU J,SHEN L,ALBANIE S,et al. Squeeze-and-Excitation Networks [J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2017,42(8):2011-2023.
[15] ZHU Q Q,ZHANG Y Y,WANG L Z,et.al. A Global Context-aware and Batch-independent Network for road extraction from VHR satellite imagery [J].ISPRS Journal of Photogrammetry and Remote Sensing,2021,175:353-365.
作者簡(jiǎn)介:葛振強(qiáng)(1997—),男,漢族,安徽亳州人,碩士研究生在讀,研究方向:圖像處理。