基于多層感知機(jī)的輕量級(jí)遙感影像語(yǔ)義分割方法研究

2024-02-21 06:00呂文琪簡(jiǎn)夜明

軟件導(dǎo)刊 2024年1期

呂文琪，馬驍，簡(jiǎn)夜明，向毅

（重慶科技學(xué)院智能技術(shù)與工程學(xué)院，重慶 401331）

0 引言

圖像分割是遙感影像建筑物檢測(cè)中的一項(xiàng)主要任務(wù)，對(duì)于在分辨率較高的大型圖像中提取固定建筑物至關(guān)重要。受高分辨率遙感圖像的成像因素以及建筑物自身尺寸和形狀特征多樣性的影響，遙感圖像建筑物分割一直是該領(lǐng)域的研究重點(diǎn)和難點(diǎn)。傳統(tǒng)的建筑物分割方法多基于人工構(gòu)造特征結(jié)合傳統(tǒng)圖像分割方式，針對(duì)特定場(chǎng)景實(shí)現(xiàn)建筑物分割，但其無(wú)法達(dá)到自動(dòng)分割建筑物的目標(biāo)，且分割精確度較低、魯棒性較差。近年來(lái)，使用深度語(yǔ)義分割算法在固定建筑物提取中效果良好，UNet［3］是一項(xiàng)具有里程碑意義的研究成果，其展示了如何有效使用具有Skip Connection 的編碼器—解碼器卷積網(wǎng)絡(luò)進(jìn)行圖像分割。近年來(lái)，UNet 已成為幾乎所有領(lǐng)先的圖像分割方法的標(biāo)桿。繼UNet 網(wǎng)絡(luò)之后，研究者們又相繼提出一些關(guān)鍵性的擴(kuò)展方法，例如UNet++［4］、UNet3+［5］、3D UNet［6］、V-Net［7］、Y-Net［8］以及KiUNet［9］等。

隨著注意力機(jī)制在圖像領(lǐng)域的廣泛應(yīng)用，研究者們提出許多基于Transformer 的網(wǎng)絡(luò)結(jié)構(gòu)用于醫(yī)學(xué)圖像分割，如Transfromer［10］可以使模型更加傾向于關(guān)注圖像的全局特征，對(duì)分割任務(wù)有著較大幫助。TranUNet［11］將ViT 架構(gòu)修改為用于2D 醫(yī)學(xué)圖像分割的UNet。其他的一些基于Transformer 的模型，如MedT［12］、TransBTS［13］和UNETR［14］也相繼被提出。但是之前的工作大多關(guān)注于如何提高網(wǎng)絡(luò)性能，而忽略了關(guān)鍵的運(yùn)行時(shí)間與效率問(wèn)題。較復(fù)雜的模型雖然性能較好，但是復(fù)雜的結(jié)構(gòu)在帶來(lái)較高準(zhǔn)確率的同時(shí)也會(huì)產(chǎn)生大量計(jì)算參數(shù)，所需推理時(shí)間較長(zhǎng)，導(dǎo)致模型訓(xùn)練速度與效率降低。而往往在實(shí)際應(yīng)用中，效率是必須考量的因素。在實(shí)驗(yàn)室進(jìn)行實(shí)驗(yàn)時(shí)，通常會(huì)使用具有較強(qiáng)計(jì)算能力的機(jī)器（GPU）來(lái)輔助計(jì)算，以提高訓(xùn)練速度，但這些輔助計(jì)算工具在實(shí)際應(yīng)用中很難進(jìn)行部署，導(dǎo)致一些模型往往只是停留在實(shí)驗(yàn)階段，而沒(méi)有真正應(yīng)用于實(shí)際。

當(dāng)發(fā)生地震等自然災(zāi)害時(shí)，如果破壞程度較高，建筑物會(huì)發(fā)生很大變化，通過(guò)遙感圖像對(duì)災(zāi)區(qū)建筑物進(jìn)行圖像分割有助于救援工作的開(kāi)展。但現(xiàn)有圖像分割模型龐大，難以在實(shí)際工程中得到應(yīng)用，所以對(duì)遙感圖像分割提取模型的輕量化具有重要的應(yīng)用價(jià)值。然而，現(xiàn)有基于深度學(xué)習(xí)的模型均未考慮深度卷積網(wǎng)絡(luò)的輕量化與可移植性。模型從實(shí)驗(yàn)室到落地實(shí)際工程應(yīng)用，如何將模型進(jìn)行輕量化處理是近幾年的研究熱點(diǎn)，2017 年，Howard 等［15］提出深度可分離卷積并構(gòu)建了MobileNet 網(wǎng)絡(luò)，該網(wǎng)絡(luò)具有較高的分類(lèi)精度，并在一定程度上減少了網(wǎng)絡(luò)的參數(shù)量。Tan等［16］提出在MobileNet 等相關(guān)網(wǎng)絡(luò)基礎(chǔ)上，對(duì)網(wǎng)絡(luò)深度、寬度及特征圖分辨率3 個(gè)維度以及圖像分類(lèi)精度、效率之間的關(guān)系進(jìn)行研究，并設(shè)置合適的約束條件，通過(guò)NAS 搜索得到一系列精度和效率兼優(yōu)的網(wǎng)絡(luò)模型。

有研究發(fā)現(xiàn)，一種基于MLP（Multi-Layer Perception）的網(wǎng)絡(luò)被發(fā)現(xiàn)可以勝任計(jì)算機(jī)視覺(jué)任務(wù)。特別是MLPMixer［17］，一個(gè)完全基于MLP 的網(wǎng)絡(luò)，其在性能上與Transformer 相同，但是相比Transformer，MLP 采用更少的參數(shù)與資源。MLP-Mixer 使用兩種類(lèi)型的MLP 層，channel-mixing MLP 和token-mixing MLPs。channel-mixing MLP 用來(lái)提取不同的token 特征，token-mixing MLPs 用來(lái)獲取局部空間信息。Graham 等［18］提出了類(lèi)似的體系結(jié)構(gòu)，并用更簡(jiǎn)單的仿射變換取代了層歸一化。為了保存輸入圖像的位置信息，Hou 等［19］保持了輸入2D 圖像，并分別沿寬度和高度排列來(lái)提取特征。基于MLP-Mixer，Yu 等［20］使用空間移位操作代替token-mixing MLPs 層來(lái)捕獲局部空間信息，同樣實(shí)現(xiàn)了很高的效率。近年來(lái)，Lian 等［21］提出沿兩個(gè)正交方向移動(dòng)標(biāo)記，以獲得軸向感受野；Chen 等［22］提出一個(gè)循環(huán)全連接層，其可以同時(shí)沿著空間維度和通道維度混合信息，并能夠處理不同尺度的輸入圖像；Diakogiannis等［23］在ResUnet 的基礎(chǔ)上，定義了新的損失函數(shù)Dice，可以加速模型分割速率，但是存在極大的不平衡性；Valanarasu 等［24］基于MLP 和Unet 網(wǎng)絡(luò)設(shè)計(jì)出一種新的Unext網(wǎng)絡(luò)結(jié)構(gòu)，但Unext只是使用了MLP 和卷積操作，并沒(méi)有在連接過(guò)程中考慮圖像的細(xì)粒度特征，忽略了一些通道上的感受野。

1 本文方法簡(jiǎn)介

本文提出一種結(jié)合卷積模塊與MLP 模塊的網(wǎng)絡(luò)結(jié)構(gòu)，遵循U-Net 網(wǎng)絡(luò)結(jié)構(gòu)的5 層深度編碼器—解碼器體系，但在每個(gè)模塊的設(shè)計(jì)上作出了改變。將整個(gè)網(wǎng)絡(luò)分為兩個(gè)階段，減少卷積模塊的過(guò)濾器數(shù)量，在MLP 模塊中加入了移位操作，以提取不同移位對(duì)應(yīng)的局部信息。同時(shí)，在跳躍連接過(guò)程中加入高效的通道注意力模塊，使用通道注意力強(qiáng)化網(wǎng)絡(luò)的多尺度特征信息，提高模型對(duì)于建筑物特征的靈敏度。并且，本文方法能夠在減少參數(shù)和計(jì)算復(fù)雜度的基礎(chǔ)上保持良好性能。

1.1 U-Net網(wǎng)絡(luò)結(jié)構(gòu)

U-Net［3］是一種被廣泛應(yīng)用于圖像分割的全卷積神經(jīng)網(wǎng)絡(luò)。對(duì)于遙感圖像分割任務(wù)來(lái)說(shuō)，研究者們對(duì)于各類(lèi)遙感圖像中建筑物的位置分布更感興趣。U-Net網(wǎng)絡(luò)的工作原理如下：遍歷圖像的每一個(gè)像素，然后進(jìn)行像素級(jí)分類(lèi)，并根據(jù)分類(lèi)后的像素種類(lèi)進(jìn)行圖像分割。其結(jié)構(gòu)如圖1所示。U-Net 網(wǎng)絡(luò)包含編碼器和解碼器兩部分，編碼器的主要功能是提取圖像特征，解碼器的功能則是進(jìn)行上采樣工作。由圖可知，左半部分為編碼器，是由兩個(gè)3×3 的卷積層再加上一個(gè)2×2 的池化層組成一個(gè)下采樣模塊；右半部分為解碼器，是由一個(gè)上采樣的卷積層和特征拼接concat 以及兩個(gè)3×3 的卷積層疊加構(gòu)成。U-Net 有較深的網(wǎng)絡(luò)層，有更大的視野域，淺層卷積關(guān)注的是表層紋理特征，而深層網(wǎng)絡(luò)能關(guān)注更本質(zhì)的特征。通過(guò)解碼器的反卷積得到更大尺寸的邊緣特征，會(huì)導(dǎo)致在下采樣過(guò)程中損失相應(yīng)的邊緣特征，而通過(guò)特征的拼接可以找回邊緣特征。

Fig.1 U-Net network structure圖1 U-Net網(wǎng)絡(luò)結(jié)構(gòu)

1.2 基于Attention-MLP的U-Net網(wǎng)絡(luò)

考慮到實(shí)際應(yīng)用效率，本文專(zhuān)注于設(shè)計(jì)一個(gè)高效的網(wǎng)絡(luò)，使其具有更少的參數(shù)，且運(yùn)算時(shí)間更短，同時(shí)能保證計(jì)算的準(zhǔn)確性。為此，本文在原有的U-Net 網(wǎng)絡(luò)中引入多層感知機(jī)MLP，對(duì)原有U-Net 網(wǎng)絡(luò)結(jié)構(gòu)中的兩層卷積層進(jìn)行替換。同時(shí)，為了保證其具有良好性能，將注意力機(jī)制引入其中。在編碼器與解碼器進(jìn)行跳躍連接過(guò)程中加入一個(gè)注意力控制機(jī)制。如圖2 所示，本文的網(wǎng)絡(luò)主要分為兩個(gè)階段：卷積階段和標(biāo)記多層感知機(jī)階段。輸入的圖像首先通過(guò)編碼器，包括前面3 個(gè)卷積模塊以及2 個(gè)MLP 模塊。解碼器由2 個(gè)MLP 模塊以及3 個(gè)卷積模塊組成。每個(gè)編碼器塊將特征分辨率降低兩倍，每個(gè)解碼器塊將特征分辨率提高兩倍，在編碼器與解碼器之間會(huì)有跳躍連接。為了減少參數(shù)量，設(shè)置超參數(shù)為C1=32，C2=64，C3=128，C4=160和C5=256。與U-Net 網(wǎng)絡(luò)相比，本文方法有效減少了參數(shù)量，有助于進(jìn)行計(jì)算。

Fig.2 Network structure combining convolutional module and MLP module圖2 結(jié)合卷積模塊與MLP模塊的網(wǎng)絡(luò)結(jié)構(gòu)

1.3 卷積模塊

每一個(gè)卷積模塊都含有卷積層、歸一化函數(shù)以及GELU 激活函數(shù)。其使用3×3 大小的卷積核，步幅為1，填充為1。編碼器中的卷積層使用具有池化作用的2×2 最大池化層。在每一次池化后，圖像尺寸會(huì)變?yōu)樵瓉?lái)的一半。在解碼器中，使用雙線性插值對(duì)特征圖執(zhí)行上采樣。在UNet 網(wǎng)絡(luò)結(jié)構(gòu)中可以使用雙線性插值來(lái)模擬轉(zhuǎn)置卷積的操作，提供更多可學(xué)習(xí)的參數(shù)。

1.4 Shift MLP

雖然MLP-Mixer 在學(xué)習(xí)自由性方面進(jìn)行了增強(qiáng)調(diào)整，但在局部約束方面沒(méi)有提升，因此更容易導(dǎo)致過(guò)擬合現(xiàn)象，所以只有當(dāng)使用具有超大規(guī)模數(shù)據(jù)量的數(shù)據(jù)集進(jìn)行訓(xùn)練時(shí)才會(huì)展現(xiàn)出效果［17］。為此，本文在MLP-Mixer 結(jié)構(gòu)上加入一些約束條件，以幫助模型在中小規(guī)模數(shù)據(jù)集上取得更好的訓(xùn)練結(jié)果。

在MLP 模塊的移動(dòng)過(guò)程中，本文在數(shù)據(jù)集標(biāo)記之前，首先按照軸向移動(dòng)卷積層產(chǎn)生的特征，使得MLP 僅關(guān)注由卷積層提取出的某些特征。與axial-attention 類(lèi)似，一個(gè)MLP 模塊有兩個(gè)shiftMLP 層，一層沿著圖像寬度移動(dòng)，一層沿著圖像高度移動(dòng)。本文將特征拆分為h 個(gè)不同的分區(qū)，并根據(jù)指定的軸將其移動(dòng)j 個(gè)位置，從而有助于創(chuàng)建隨機(jī)窗口。

1.5 MLP模塊

在MLP 模塊（見(jiàn)圖3）中，首先對(duì)輸入特征進(jìn)行移位操作，并將其送入標(biāo)記模塊。將特征切分為大小3×3、通道為E 的不同patch，并將這些patch 傳遞給第一層MLP。第一層MLP 對(duì)其按寬度進(jìn)行映射，之后通過(guò)一個(gè)深度卷積層。使用深度卷積層有助于對(duì)MLP 提取出特征的位置進(jìn)行信息編碼，而且深度卷積層使用的參數(shù)較少，提高了效率。然后通過(guò)一個(gè)GELU 激活層。與常用的RELU 激活函數(shù)相比，GELU 有助于加速模型收斂。最近的大多數(shù)架構(gòu)，例如VIT 和BERT 都成功使用GELU 函數(shù)并取得了很好的效果。通過(guò)GELU 后，再通過(guò)另一個(gè)MLP 層對(duì)特征進(jìn)行高度上的映射。最后應(yīng)用層歸一化將輸出特征傳遞到下一個(gè)塊。

Fig.3 MLP module圖3 MLP模塊

1.6 Attention模塊

在跳躍連接過(guò)程中通過(guò)在通道維度添加注意力機(jī)制，從而過(guò)濾無(wú)關(guān)信息，并提取具有辨別力的特征。Attention模塊如圖4 所示，通過(guò)卷積操作對(duì)輸入特征xg和xl進(jìn)行相加得到特征f，對(duì)f的每個(gè)通道使用全局平均池化（Global Average Pooling，GAP）得到1×1×C 的向量，之后通過(guò)一維卷積實(shí)現(xiàn)不需要降維的局部通道交互方法，該方法只涉及少量參數(shù)。

Fig.4 Attention module圖4 Attention模塊

根據(jù)式（1）選擇一維卷積的卷積核，通過(guò)Sigmoid 函數(shù)生成每個(gè)通道的權(quán)重，最后將產(chǎn)生的通道權(quán)重加權(quán)到原特征f上得到新特征。

其中，Conv1 為一維卷積，k為一維卷積核大小，y為通道特征，C為通道數(shù)，λ和b 為超參數(shù)，ω為通道權(quán)重，σ為Sigmoid函數(shù)。

2 實(shí)驗(yàn)與分析

2.1 數(shù)據(jù)集

實(shí)驗(yàn)數(shù)據(jù)來(lái)自武漢大學(xué)季順平團(tuán)隊(duì)基于衛(wèi)星遙感影像制作并發(fā)布的WHU satellitedatasetⅠ數(shù)據(jù)集和WHU satellitedatasetⅡ數(shù)據(jù)集（數(shù)據(jù)集Ⅱ）［25］。數(shù)據(jù)集Ⅰ共有204 張512×512 遙感影像和對(duì)應(yīng)的標(biāo)簽圖像，包括來(lái)自ZY 3 號(hào)、IKONOS、Worldview 系列衛(wèi)星的不同傳感器與空間分辨率（0.3～2.3m）的影像，涵蓋了歐洲、中國(guó)、南北美洲以及非洲的不同城市區(qū)域，能對(duì)建筑物提取算法的魯棒性進(jìn)行有效檢驗(yàn)。數(shù)據(jù)集Ⅰ的部分示例如圖5 所示。為增加樣本數(shù)量，本文首先將原始數(shù)據(jù)集影像裁剪為256×256 大小的子圖集，然后對(duì)子圖集進(jìn)行旋轉(zhuǎn)、沿軸鏡像處理、均值濾波、椒鹽噪聲增強(qiáng)以及高斯噪聲增強(qiáng)處理，共得到20 094 張影像。最后將處理后的數(shù)據(jù)集按照8：1：1的比例劃分成訓(xùn)練集、驗(yàn)證集與測(cè)試集，影像數(shù)量分別為1 606、2 009、2 009張。其中，訓(xùn)練集用于擬合模型，驗(yàn)證集用于調(diào)試超參數(shù)以及監(jiān)控模型是否發(fā)生擬合，測(cè)試集用于最終的模型泛化能力評(píng)估。數(shù)據(jù)集Ⅱ由17 388張512×512的遙感影像與對(duì)應(yīng)標(biāo)簽組成，包括6 個(gè)響鈴的衛(wèi)星圖像，覆蓋東亞860 km2，地面分辨率為0.45 m。數(shù)據(jù)集Ⅱ的部分示例如圖6 所示。該測(cè)試區(qū)主要用于評(píng)估和開(kāi)發(fā)深度學(xué)習(xí)方法，其中13 662張圖像用于訓(xùn)練，其余3 726張用于測(cè)試。

Fig.5 Example of partial satellite image data of data setⅠ圖5 數(shù)據(jù)集Ⅰ部分衛(wèi)星影像數(shù)據(jù)示例

Fig.6 Example of partial satellite image data of data set Ⅱ圖6 數(shù)據(jù)集Ⅱ部分衛(wèi)星影像數(shù)據(jù)示例

2.2 實(shí)驗(yàn)環(huán)境與參數(shù)設(shè)置

本文的實(shí)驗(yàn)環(huán)境如表1 所示。根據(jù)實(shí)驗(yàn)環(huán)境、采用方法、數(shù)據(jù)集規(guī)模及反復(fù)多次的實(shí)驗(yàn)結(jié)果，設(shè)置數(shù)據(jù)集Ⅰ和數(shù)據(jù)集Ⅱ的batchsize 為16，共訓(xùn)練170 個(gè)epoch；使用Adam優(yōu)化器，設(shè)置動(dòng)量為0.9；使用余弦退火方法調(diào)整學(xué)習(xí)率，設(shè)置最小值為0.000 01，最大值為0.000 1。

Table 1 Experimental environment configuration表1 實(shí)驗(yàn)環(huán)境配置

本文所用到的網(wǎng)絡(luò)模型均使用二元交叉熵（BCE）和Dice 系數(shù)結(jié)合的綜合損失進(jìn)行訓(xùn)練，預(yù)測(cè)值與目標(biāo)y之間的損失L可表示為：

其中，二值交叉熵?fù)p失LBCE的計(jì)算公式為：

其中，N為批處理大小，i為對(duì)應(yīng)的索引，y為樣本真值為網(wǎng)絡(luò)的預(yù)測(cè)值。

Dice 系數(shù)損失在類(lèi)別不平衡問(wèn)題上表現(xiàn)優(yōu)異，而在一般的遙感圖像中，建筑物的像素占比較少，所以可將遙感建筑物提取歸為不平衡問(wèn)題。Dice 系數(shù)損失的表達(dá)式為：

其中，G 為標(biāo)簽真值，Y 為網(wǎng)絡(luò)最終輸出的標(biāo)簽，N 和i分別為批處理大小及對(duì)應(yīng)的索引。

2.3 實(shí)驗(yàn)性能比較

將本文方法與最近廣泛使用的分割框架進(jìn)行對(duì)比，選擇了較為經(jīng)典的UNet［3］、UNet++［4］和SegNet［23］等使用卷積神經(jīng)網(wǎng)絡(luò)的模型進(jìn)行了比較。使用GFLOPs 來(lái)衡量計(jì)算復(fù)雜度，GFLOPs 表示每秒10 億次的浮點(diǎn)運(yùn)算數(shù)，理論上該數(shù)值越高越好。本文首先將參數(shù)量、計(jì)算復(fù)雜性以及運(yùn)行時(shí)間等方面屬性與其他模型進(jìn)行比較，結(jié)果如表2所示。

Table 2 Parameters，average training time and GFLOPs of different network models表2 不同網(wǎng)絡(luò)模型參數(shù)、平均訓(xùn)練時(shí)間以及GFLOPs

由表2 可知，與UNet、UNet++、SegNet 相比，本文方法的每秒浮點(diǎn)數(shù)最少，訓(xùn)練時(shí)間和計(jì)算復(fù)雜度最小，其參數(shù)量?jī)H為1.471 93 M。

不同模型參數(shù)、平均運(yùn)行時(shí)間以及計(jì)算復(fù)雜度減少百分比如表3所示。不同模型的Loss曲線如圖7所示。

Table 3 Parameters，average running time and calculation complexity reduction percentage of different models表3 不同模型參數(shù)、平均運(yùn)行時(shí)間以及計(jì)算復(fù)雜度減少百分比%

Fig.7 Loss curves for different models圖7 不同模型的Loss曲線

從圖7 可以看出，3 種網(wǎng)絡(luò)隨著迭代次數(shù)的增加，損失值不斷減小，其中本文方法最快進(jìn)入收斂狀態(tài)。

本文使用交并比（Intersection over Union，IoU）對(duì)實(shí)驗(yàn)精度進(jìn)行評(píng)價(jià)，計(jì)算公式為：

其中，TP 表示實(shí)際為正樣本且預(yù)測(cè)出結(jié)果也為正樣本的樣本數(shù)目；FP 表示實(shí)際為負(fù)樣本但預(yù)測(cè)出結(jié)果為正樣本的樣本數(shù)；FN 表示實(shí)際為正樣本但預(yù)測(cè)出結(jié)果為負(fù)樣本的樣本數(shù)。分別提取數(shù)據(jù)集Ⅰ測(cè)試集遙感影像中的建筑物，選取武漢、臺(tái)灣、洛杉磯、渥太華以及開(kāi)羅5 個(gè)地區(qū)進(jìn)行精度評(píng)價(jià)。不同地區(qū)的IoU 值如表4所示。

Table 4 IoU values for different regions表4 不同地區(qū)IoU值%

數(shù)據(jù)集Ⅰ提取分割結(jié)果如圖8 所示，本文方法在盡可能減少損失IoU 的情況下，具有較好的分割效果。數(shù)據(jù)集Ⅱ有17 388 張遙感圖像，由于可用作訓(xùn)練的圖像較多，本文方法在數(shù)據(jù)量較多時(shí)可以有效提取不同的局部信息，并且能達(dá)到較高精度。數(shù)據(jù)集Ⅱ提取分割結(jié)果如圖9所示。

Fig.8 Extraction and segmentation results of dataset Ⅰ圖8 數(shù)據(jù)集Ⅰ提取分割結(jié)果

Fig.9 Extraction and segmentation results of dataset Ⅱ圖9 數(shù)據(jù)集Ⅱ提取分割結(jié)果

2.4 消融實(shí)驗(yàn)

為了驗(yàn)證本文方法的有效性，將改變注意力模塊和特征圖輸入大小，進(jìn)行消融實(shí)驗(yàn)。

在注意力模塊的消融實(shí)驗(yàn)中，使用數(shù)據(jù)集Ⅰ作為訓(xùn)練數(shù)據(jù)集，將Iou 與平均訓(xùn)練時(shí)間作為評(píng)價(jià)指標(biāo)。訓(xùn)練過(guò)程使用同一實(shí)驗(yàn)環(huán)境，參數(shù)設(shè)置相同，研究注意力模塊對(duì)實(shí)驗(yàn)結(jié)果的影響。以加入Attention 模塊的網(wǎng)絡(luò)作為Baseline，消融實(shí)驗(yàn)在數(shù)據(jù)集Ⅰ上的評(píng)價(jià)結(jié)果如表5所示。

Table 5 Evaluation results of ablation experiment on data set Ⅰ表5 消融實(shí)驗(yàn)在數(shù)據(jù)集Ⅰ上的評(píng)價(jià)結(jié)果

從表5 中可以看出，在沒(méi)有Attention 模塊的網(wǎng)絡(luò)上，其Iou 僅為74.630 1%。在引入了Attention 模塊后，Iou 指標(biāo)提高了1.731%。從評(píng)價(jià)指標(biāo)中可以看出，Attention 模塊的引入可較好地提升遙感圖像分割精度。同時(shí)，對(duì)比兩種網(wǎng)絡(luò)的參數(shù)量，Attention 模塊的參數(shù)量?jī)H增加了0.000 01 M。

在特征圖輸入大小的消融實(shí)驗(yàn)中，以Iou 和平均訓(xùn)練時(shí)間作為評(píng)價(jià)指標(biāo)，以數(shù)據(jù)集Ⅰ作為訓(xùn)練集，數(shù)據(jù)集中的原始圖像大小為512 × 512，采用不同的切分比率K 對(duì)原始圖像進(jìn)行均等切分（K 取值為1、4、16、64），實(shí)驗(yàn)結(jié)果如表6 所示。從表中可以看出，當(dāng)切分比率為16、輸入圖像大小為128 × 128 時(shí)，Iou 的精度最高。這是因?yàn)楫?dāng)輸入圖像過(guò)大時(shí)，圖像中存在很多噪聲點(diǎn)，噪聲點(diǎn)對(duì)模型產(chǎn)生干擾，導(dǎo)致模型沒(méi)有學(xué)到有用的特征。而當(dāng)輸入圖像過(guò)小時(shí)，像素之間的關(guān)聯(lián)性會(huì)降低，最終影響分割精度。

Table 6 Experimental results of different cutting ratios on data set Ⅰ表6 不同切分比率在數(shù)據(jù)集Ⅰ上的實(shí)驗(yàn)結(jié)果

3 結(jié)語(yǔ)

本文針對(duì)現(xiàn)有遙感影像語(yǔ)義分割方法的不足，提出一種新的深度網(wǎng)絡(luò)架構(gòu)用于遙感圖像分割。該方法采用一種局域卷積模塊與MLP 模塊相結(jié)合的架構(gòu)。本文提出了一種帶有移位的MLP 模塊，降低了計(jì)算的復(fù)雜性，并減少了模型參數(shù)。在多個(gè)數(shù)據(jù)集上驗(yàn)證了本文方法，并且與UNet、UNet++、SegNet 模型進(jìn)行了對(duì)比實(shí)驗(yàn)。結(jié)果表明，本文方法在盡可能保留IoU 均值的同時(shí)，訓(xùn)練速度更快，復(fù)雜性更低，參數(shù)量更少，并且能夠?qū)崿F(xiàn)較好的分割效果。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡