摘要:全卷積神經(jīng)網(wǎng)絡(luò)在遙感圖像語(yǔ)義分割中得到了廣泛應(yīng)用,該方法地物分類(lèi)精度和效率較高,但對(duì)地物分布不均勻遙感圖像占比較少地物的分類(lèi)準(zhǔn)確率較低。為了提高遙感圖像的分類(lèi)精度,本文通過(guò)添加先驗(yàn)知識(shí)方法豐富輸入數(shù)據(jù)特征,采用密集鏈接方式提高上下采樣過(guò)程中特征的重復(fù)利用率,采用可以?xún)?yōu)化交并比的損失函數(shù)Dice Loss和可以提高難分類(lèi)類(lèi)別精度的損失函數(shù)Focal Loss相加組合作為網(wǎng)絡(luò)模型的損失函數(shù),采用LayerScale模塊加快模型收斂、抑制無(wú)用特征、突出有效特征的方式,對(duì)UNet的輸入、網(wǎng)絡(luò)結(jié)構(gòu)、損失函數(shù)進(jìn)行改進(jìn),優(yōu)化語(yǔ)義分割效果。結(jié)果表明,基于高分影像數(shù)據(jù)集(GID)改進(jìn)的UNet相較于原始UNet像素精度、均類(lèi)像素精度、平均交并比分別提高了0.023 3、0.040 9、0.066 5,提升了地物分類(lèi)精度,取得了較好的分類(lèi)效果。
關(guān)鍵詞:深度學(xué)習(xí);多特征;密集鏈接;Focal Loss;Dice Loss;LayerScale模塊;改進(jìn)UNet;語(yǔ)義分割
doi:10.13278/j.cnki.jjuese.20230145
中圖分類(lèi)號(hào):TP753
文獻(xiàn)標(biāo)志碼:A
高康哲,王鳳艷,劉子維,等. 基于改進(jìn)UNet的遙感圖像語(yǔ)義分割. 吉林大學(xué)學(xué)報(bào)(地球科學(xué)版),2024,54(5):17521763. doi:10.13278/j.cnki.jjuese.20230145.
Gao Kangzhe, Wang Fengyan, Liu Ziwei, et al. Semantic Segmentation of Remote Sensing Images Based on Improved UNet. Journal of Jilin University (Earth Science Edition), 2024, 54 (5): 17521763. doi:10.13278/j.cnki.jjuese.20230145.
收稿日期:20230602
作者簡(jiǎn)介:高康哲(1998—),男,碩士研究生,主要從事遙感圖像分類(lèi)方面的研究,E-mail: gaokz21@mails.jlu.edu.cn
通信作者:王鳳艷(1970—),女,教授,博士,主要從事工程測(cè)量、工程地質(zhì)方面的研究,E-mail: wangfy@jlu.edu.cn
基金項(xiàng)目:國(guó)家自然科學(xué)基金項(xiàng)目(42077242,42171407);自然資源部城市國(guó)土資源監(jiān)測(cè)與仿真重點(diǎn)實(shí)驗(yàn)室開(kāi)放基金項(xiàng)目(KF202005024);吉林省自然科學(xué)基金項(xiàng)目(20210101098JC)
Supported by the National Natural Science Foundation of China (42077242, 42171407), the Open Fund of Key Laboratory of Urban Land Resources Monitoring and Simulation, Ministry of Natural Resources of China (KF202005024) and the Natural Science Foundation of Jilin Province" (20210101098JC)
Semantic Segmentation of Remote Sensing Images Based on Improved UNet
Gao Kangzhe, Wang Fengyan, Liu Ziwei, Wang Mingchang
College of GeoExploration Science and Technology, Jilin University, Changchun 130026, China
Abstract:
Fully convolutional neural network has been widely used in semantic segmentation of remote sensing images, and the accuracy and efficiency of feature classification are high, but for remote sensing images with uneven distribution of features, the accuracy of feature classification is low. In order to improve the classification accuracy of remote sensing images, this paper enriches the input data features by adding priori knowledge methods, uses the dense link method to improve the reuse rate of features in the process of up and down sampling, combines the loss function Dice Loss that can optimize the intersection of union and the Focal Loss that can improve the accuracy of difficult classification categories as the loss function of the network, and uses the LayerScale module to accelerate the model convergence and suppress irrelevant features while emphasizing useful features, improves input, network structure and loss function of UNet to optimize the effect of semantic segmentation. The results show that, compared with the original UNet, the improved UNet based on Gaofen image" dataset is improved by 0.023 3, 0.040 9 and 0.066 5 in terms of pixel accuracy, average pixel accuracy and mean intersection of union, respectively, which improves the classification accuracy of ground objects and achieves better classification effects.
Key words:
deep learning; multi-feature; dense linking; Focal Loss; Dice Loss; LayerScale module; improved UNet; semantic segmentation
0" 引言
近年來(lái),遙感圖像光譜特征不斷豐富,時(shí)間、空間分辨率不斷提高,在城市規(guī)劃[1]、土地利用、軍事、測(cè)繪方面得到了廣泛應(yīng)用[2],其中高分圖像分類(lèi)研究是土地資源管理和用途管制的基礎(chǔ)[3]。最初人工目視解譯的遙感圖像分類(lèi)方法已無(wú)法滿(mǎn)足遙感圖像地物信息的高效提取需求,基于遙感圖像特征提取的分類(lèi)方法應(yīng)運(yùn)而生,如最大似然法、支持向量機(jī)[4]、隨機(jī)森林[5]等,這些方法在分類(lèi)中有良好的表現(xiàn),但也需要人工干預(yù)[6],因不適用于多分類(lèi),容易過(guò)擬合[7]。相較于以上方法,卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks, CNN)方法泛化性好、分類(lèi)精度高[8],對(duì)圖像識(shí)別取得了優(yōu)異的成績(jī),如LeNet[9]、AlexNet[10]、VGG(visual geometry group)[11]、GoogLeNet[12]、ResNet[13]等。與上述圖像整體分類(lèi)網(wǎng)絡(luò)不同,全卷積神經(jīng)網(wǎng)絡(luò)(fully convolutional neural networks, FCN)實(shí)現(xiàn)了圖像像素級(jí)分類(lèi),基于FCN的語(yǔ)義分割方法不斷發(fā)展和完善,為遙感圖像地物分類(lèi)提供了新思路。該方法可以有效提取影像中的地表覆蓋信息,自動(dòng)獲取分類(lèi)后的語(yǔ)義分割結(jié)果,因此被廣泛引入到遙感影像語(yǔ)義分割領(lǐng)域,如FCN[14]、UNet[15]、SegNet[16]、DeepLabV3[17]、ResUnet[18]等。
基于高分辨率遙感圖像的地物分類(lèi)可以獲得更加精細(xì)的分類(lèi)結(jié)果,本文選擇高分影像數(shù)據(jù)集(GID)開(kāi)展研究。GID有十景高分二號(hào)影像,分辨率為1 m。由于數(shù)據(jù)量較少,本文采取在小樣本數(shù)據(jù)集上表現(xiàn)較好的UNet。GID地物占比不均勻,類(lèi)間相似性較大、類(lèi)內(nèi)相似性較小,因此本文分別從加入先驗(yàn)知識(shí)(如紋理、顏色、邊緣[19]特征)、改進(jìn)網(wǎng)絡(luò)結(jié)構(gòu)(如加入密集鏈接重復(fù)利用特征)、使用不同損失函數(shù)(如Focal Loss與Dice Loss相加組合)三方面對(duì)UNet進(jìn)行改進(jìn),改善UNet語(yǔ)義分割效果,以提高網(wǎng)絡(luò)性能評(píng)價(jià)指標(biāo),達(dá)到良好的語(yǔ)義分割水準(zhǔn)。
1" 改進(jìn)UNet
1.1" 多特征信息
隨著遙感圖像空間分辨率的提升,表達(dá)的地物信息更加豐富。然而,僅使用遙感圖像的光譜信息難以有效分辨地物類(lèi)別。本文添加了圖像的邊緣特征、紋理特征和顏色特征改進(jìn)網(wǎng)絡(luò)輸入端,以分辨在原始圖像上相似的地物類(lèi)別[20],提升語(yǔ)義分割的準(zhǔn)確率。
1.1.1" 邊緣特征
對(duì)于遙感圖像的語(yǔ)義分割,邊界部分一直是分類(lèi)的重點(diǎn),使用邊緣檢測(cè)算子可以有效保留物體的形狀特征、局部細(xì)節(jié)信息以及空間上的全局信息。常用的邊緣檢測(cè)算法有Canny算子、Sobel算子、Prewitt算子,相較于其他邊緣檢測(cè)算子,Canny算子能夠盡可能多地標(biāo)記和接近實(shí)際地物邊緣,圖像中的邊緣僅標(biāo)記一次,且具有良好的抗噪性。本文采用Canny算子提取的邊緣特征作為加入網(wǎng)絡(luò)訓(xùn)練的先驗(yàn)知識(shí)。
1.1.2" 紋理特征
紋理特征能反映圖像同質(zhì)現(xiàn)象的視覺(jué)特征,體現(xiàn)了物體表面具有緩慢變化或者周期性變化的表面結(jié)構(gòu)組織排列屬性。
紋理通過(guò)像素及其周?chē)臻g鄰域的灰度分布來(lái)表現(xiàn)。紋理在體現(xiàn)全局特征的同時(shí),也描述了圖像或圖像區(qū)域所對(duì)應(yīng)景物的表面性質(zhì)。本文所使用的灰度共生矩陣[21]是用于圖像紋理特征描述的方法,該方法通過(guò)分析圖像中像素灰度值間的相對(duì)位置關(guān)系來(lái)描述紋理特征。
灰度共生矩陣可以描述圖像的多種紋理特征,如灰度分布、對(duì)比度、方向性等,常用的特征包括能量、對(duì)比度、相關(guān)性、熵等。本文選擇能量、對(duì)比度、同質(zhì)性作為輸入模型的特征:
E=∑i∑jg(i,j)2;(1)
C=∑i∑j(i-j)2g(i,j);(2)
Hh=∑i∑jg(i,j)1+(i-j)2。(3)
式中:E為能量;g(i,j)為灰度共生矩陣計(jì)算操作;i、j分別為像素所在行、列;C為對(duì)比度;Hh為同質(zhì)性。
能量用來(lái)描述圖像紋理的變化趨勢(shì),是度量圖像灰度分布均勻和紋理粗細(xì)程度的標(biāo)準(zhǔn);對(duì)比度反映圖像的清晰度和紋理溝紋深淺的程度;同質(zhì)性用來(lái)度量紋理的局部變化程度,其值越大表示圖像局部紋理變化越小。
1.1.3" 顏色特征
顏色特征是一種全局特征,描述了圖像或圖像區(qū)域內(nèi)對(duì)應(yīng)景物的表面性質(zhì)。 常用的顏色空間有RGB(red green blue)、HSV(hue saturation value)、CMY(cyan magenta yellow)、Lab(CIELab)等,相較于其他顏色空間,HSV顏色空間有直觀(guān)、顏色調(diào)節(jié)方便、識(shí)別簡(jiǎn)單、易于實(shí)現(xiàn)等優(yōu)點(diǎn),在保留圖像空間信息的同時(shí),還能反映人眼的感知及鑒別能力。本文選取HSV顏色空間作為圖像的顏色特征。RGB顏色空間轉(zhuǎn)換為HSV顏色空間的計(jì)算公式如下:
V=max(R,G,B)。(4)
S=60(G-B)V-min(R,G,B),V≠0;""" 0,""" V=0。(5)
H=60(G-B)V-min(R,G,B),V=R;120+60(B-R)V-min(R,G,B),V=G;240+60(R-G)V-min(R,G,B),V=B。(6)
式中:V為亮度;R為紅色通道像元值;G為綠色通道像元值;B為藍(lán)色通道像元值;S為飽和度;H為色相。 V、S、H 3個(gè)分量相互獨(dú)立。
1.2" 改進(jìn)網(wǎng)絡(luò)結(jié)構(gòu)
1.2.1" 主體結(jié)構(gòu)
UNet是一種用于圖像分割任務(wù)的深度學(xué)習(xí)網(wǎng)絡(luò),主要采取了對(duì)稱(chēng)性的結(jié)構(gòu)以及跳躍式鏈接的設(shè)計(jì),最初由Ronneberger等[15]于2015年提出并用于生物醫(yī)學(xué)影像分割中。UNet的網(wǎng)絡(luò)結(jié)構(gòu)分為兩部分:編碼器和解碼器。編碼器為下采樣部分,采用傳統(tǒng)CNN結(jié)構(gòu)[22],每一層輸出后通過(guò)最大池化進(jìn)行下采樣,用于提取影像高維抽象特征并縮減圖像尺寸,提取的高維圖像特征用于輸入上采樣部分;解碼器部分采用反卷積方式進(jìn)行上采樣,通過(guò)反向傳播算法調(diào)整反卷積參數(shù)更好地?cái)M合數(shù)據(jù)。 UNet具有對(duì)稱(chēng)式結(jié)構(gòu)并采取了跳躍式鏈接,可以在不需要大量標(biāo)注數(shù)據(jù)集的情況下進(jìn)行訓(xùn)練;跳躍式的鏈接設(shè)計(jì)可以使網(wǎng)絡(luò)同時(shí)利用高、低層次信息,從而更好地進(jìn)行圖像的語(yǔ)義分割。
Densenet由Huang等[23]于2016年提出,該網(wǎng)絡(luò)的每層都與前面的所有層鏈接,從而形成一種密集鏈接結(jié)構(gòu)。該網(wǎng)絡(luò)采用拼接方式結(jié)合其他層的提取特征,方便后續(xù)層直接訪(fǎng)問(wèn)前面層的所有信息,從而提高特征的重用率與表達(dá)能力。通過(guò)這種密集鏈接方法使模型每一層的參數(shù)都得到共享,減少網(wǎng)絡(luò)參數(shù)量。同時(shí),密集鏈接的參數(shù)共享有利于梯度從后向前的流動(dòng),加速模型訓(xùn)練過(guò)程,防止梯度消失問(wèn)題,從而提高模型的魯棒性和泛化能力。
本文的網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示,利用以上兩種網(wǎng)絡(luò)的特點(diǎn),以UNet為主干結(jié)構(gòu),結(jié)合Densenet的密集鏈接思路改進(jìn)UNet。通過(guò)將UNet每一個(gè)卷積模塊內(nèi)部的輸入傳遞給該卷積模塊的每一個(gè)卷積層,形成模塊內(nèi)的稀疏鏈接;同時(shí)保留了原始UNet編碼器與解碼器之間的跳躍鏈接,使上采樣過(guò)程可以利用下采樣過(guò)程的高、低維信息恢復(fù)圖像尺寸,增強(qiáng)語(yǔ)義分割效果。
1.2.2" LayerScale模塊
LayerScale模塊具有加快收斂的作用[24],可以顯著提高收斂速度并提高模型深處的精度。相較于BN以及LN(layer normalization)兩種歸一化方式,LayerScale具有計(jì)算量小、效果穩(wěn)定且易于訓(xùn)練的優(yōu)勢(shì),同時(shí)不需要計(jì)算均值、方差,而直接對(duì)每一層輸出進(jìn)行縮放。將此模塊加入到編碼器和解碼器之間(圖1),由于編碼器最后一層具有較多的特征圖且為模型深層,加入LayerScale模塊可以加快模型的收斂,同時(shí)在深度方向上獲得自適應(yīng)的縮放參數(shù),
Conv. 卷積;K3S1. 3×3大小的卷積核,步長(zhǎng)為1;BN. 批標(biāo)準(zhǔn)化;ReLU. 線(xiàn)性整流函數(shù);Conc. 拼接最大池化;k2s2. 2×2大小的池化窗,步長(zhǎng)為2;ConvT. 轉(zhuǎn)置卷積;λ. LayerScale模塊中的縮放參數(shù)。
加強(qiáng)編碼器與解碼器之間的特征傳遞效率,使解碼器部分獲得更有效的特征,優(yōu)化模型語(yǔ)義分割效果。
1.3" 損失函數(shù)
損失函數(shù)是CNN的重要組成部分,評(píng)估模型真實(shí)值與預(yù)測(cè)值不一致的程度,決定了模型優(yōu)化的方向。模型通過(guò)反向傳播調(diào)整參數(shù),減小損失值,優(yōu)化分類(lèi)效果。本文基于加權(quán)交叉熵?fù)p失函數(shù)、Focal Loss函數(shù)、Dice Loss函數(shù)進(jìn)行試驗(yàn),提高交并比和難分類(lèi)類(lèi)別的分類(lèi)精度。
1.3.1" 加權(quán)交叉熵?fù)p失函數(shù)
CNN分類(lèi)應(yīng)用中一般使用交叉熵(cross entropy, CE)作為損失函數(shù),計(jì)算公式如下:
LCE=-∑ki=1yilgpi。(7)
式中:LCE為交叉熵?fù)p失函數(shù);k為類(lèi)別數(shù);yi∈{0,1},表示真實(shí)標(biāo)簽中第i類(lèi)的取值;pi為模型預(yù)測(cè)第i類(lèi)的概率。隨著訓(xùn)練次數(shù)的增多,損失值減小,準(zhǔn)確率上升。在模型訓(xùn)練中,分類(lèi)損失是所有樣本分類(lèi)損失的平均值,如果每個(gè)樣本反向傳播權(quán)值調(diào)整的貢獻(xiàn)相同,會(huì)導(dǎo)致樣本中占比較大的類(lèi)別在權(quán)值更新中占據(jù)主導(dǎo)地位,模型的權(quán)重更新傾向于該類(lèi),使占比較少樣本的識(shí)別率降低[25]。
針對(duì)不同類(lèi)別樣本占比不平衡的問(wèn)題,本文使用加權(quán)交叉熵?fù)p失函數(shù)作為損失函數(shù)改進(jìn)的對(duì)比,權(quán)重為
ωi=Nallk·Ni。(8)
式中:ωi為第i類(lèi)樣本的權(quán)重;Nall為樣本總數(shù);Ni為第i類(lèi)樣本的數(shù)量。
1.3.2" Focal Loss函數(shù)
Focal Loss函數(shù)由Lin等[26]提出,公式為
LFpi=-∑ki=1αi·yi1-piγlnpi。(9)
式中:LFpi為Focal Loss函數(shù);αi為平衡分類(lèi)中各類(lèi)別的參數(shù);γ為可調(diào)節(jié)因子,γgt;0。
對(duì)于分類(lèi)準(zhǔn)確的樣本,pi接近于1。相較于交叉熵?fù)p失函數(shù),F(xiàn)ocal Loss函數(shù)對(duì)分類(lèi)不準(zhǔn)確的樣本,損失并沒(méi)有改變,而對(duì)分類(lèi)準(zhǔn)確的樣本,損失變小,提升了分類(lèi)不準(zhǔn)確樣本在整體損失中所占的比例。
同時(shí),pi反映了樣本分類(lèi)的難易程度,易分類(lèi)樣本pi大,難分類(lèi)樣本pi小。難分類(lèi)樣本損失大,因此在優(yōu)化過(guò)程中,損失函數(shù)傾向于難分樣本,有助于提高難分類(lèi)樣本的準(zhǔn)確度。
1.3.3" Dice Loss函數(shù)
Dice Loss函數(shù)是一種用于圖像分割的損失函數(shù)[27],該函數(shù)由Dice系數(shù)得名。Dice系數(shù)是一種用于評(píng)估樣本相似性的度量函數(shù),其值越大,兩個(gè)樣本越相似。Dice系數(shù)的數(shù)學(xué)表達(dá)式為
D=2X∩YX+Y。(10)
式中:X為真實(shí)分割圖像的像素標(biāo)簽;Y為模型預(yù)測(cè)分割圖像的像素類(lèi)別;X∩Y近似為預(yù)測(cè)圖像的像素與真實(shí)標(biāo)簽圖像像素之間的點(diǎn)乘,并對(duì)點(diǎn)乘結(jié)果進(jìn)行求和;X和Y分別近似為它們各自對(duì)應(yīng)圖像中像素相加。Dice Loss函數(shù)表達(dá)式為
LD=1-D=1-2X∩YX+Y。(11)
式中,LD為Dice Loss函數(shù)。Dice Loss函數(shù)可以緩解樣本中類(lèi)別不平衡帶來(lái)的消極影響。類(lèi)別不平衡說(shuō)明未分類(lèi)地物占據(jù)了圖像中的大部分面積,該部分不包含分類(lèi)目標(biāo)。Dice Loss函數(shù)專(zhuān)注于減少假反例的數(shù)量,重點(diǎn)關(guān)注正樣本;而交叉熵?fù)p失函數(shù)平等處理正負(fù)樣本,正樣本比例較小時(shí),會(huì)被負(fù)樣本淹沒(méi)。Dice Loss函數(shù)在訓(xùn)練時(shí)會(huì)出現(xiàn)梯度不穩(wěn)定的現(xiàn)象,甚至?xí)霈F(xiàn)梯度飽和現(xiàn)象,一般與交叉熵?fù)p失函數(shù)組合使用。
為同時(shí)提高難分類(lèi)類(lèi)別的分類(lèi)精度、各類(lèi)別的交并比和平均交并比,優(yōu)化由于占比較少而較難分類(lèi)的地物以及RGB信息相似導(dǎo)致較難分類(lèi)的地物,防止Dice Loss函數(shù)帶來(lái)的梯度不穩(wěn)定現(xiàn)象,本文將Focal Loss函數(shù)與Dice Loss函數(shù)相加組合使用。
1.4" 精度指標(biāo)
遙感圖像語(yǔ)義分割是一種像素級(jí)的分類(lèi),本文采用像素精度、均類(lèi)像素精度、交并比、平均交并比、召回率5個(gè)指標(biāo)評(píng)價(jià)網(wǎng)絡(luò)模型。
像素精度為所有像素中分類(lèi)正確的像素占所有像素的比例:
ap=∑ki=1pii∑ki=1∑kj=1pij。(12)
式中:ap為像素精度;pii為類(lèi)別為i被分類(lèi)正確的像素?cái)?shù)目;pij為實(shí)際類(lèi)別為i、分類(lèi)類(lèi)別為j的像素?cái)?shù)目。均類(lèi)像素精度為每個(gè)類(lèi)別分類(lèi)正確像素占所有被預(yù)測(cè)為該類(lèi)像素總數(shù)比例的平均值:
amp=1k∑ki=1pii∑kj=1pij。(13)
式中,amp為均類(lèi)像素精度。交并比為像素真實(shí)值與預(yù)測(cè)值的交集和像素真實(shí)值與預(yù)測(cè)值并集的比值:
rIoU=pii∑kj=1pij+∑kj=1pji-pii。(14)
式中,rIoU為交并比。平均交并比為所有類(lèi)別計(jì)算出的交并比取平均值:
rmIoU=1k∑ki=1pii∑kj=1pij+∑kj=1pji-pii。(15)
式中,rmIoU為平均交并比。召回率為分類(lèi)正確的像素占實(shí)際為該類(lèi)像素的比例:
rre=pii∑kj=1pij。(16)
式中,rre為召回率。
2" 實(shí)驗(yàn)過(guò)程
本文選取GID作為實(shí)驗(yàn)數(shù)據(jù)集,首先裁剪并擴(kuò)增數(shù)據(jù)集,提取多種底層特征,構(gòu)建網(wǎng)絡(luò)模型,對(duì)不同的損失函數(shù)進(jìn)行試驗(yàn),訓(xùn)練模型得到最優(yōu)參數(shù),然后用消融實(shí)驗(yàn)確定各個(gè)改進(jìn)的貢獻(xiàn),與經(jīng)典網(wǎng)絡(luò)進(jìn)行對(duì)比,驗(yàn)證網(wǎng)絡(luò)有效性;最后對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行分析,得出結(jié)論。實(shí)驗(yàn)流程如圖2所示。
2.1" 數(shù)據(jù)集介紹
GID[28]由武漢大學(xué)收集的高分二號(hào)影像制作完成,該數(shù)據(jù)集含有15類(lèi)地物及1類(lèi)未分類(lèi)地物,共10張7 200×6 800大小的高分二號(hào)衛(wèi)星影像,分辨率為1 m。
如表1所示:地類(lèi)分別為工業(yè)用地、城市住宅、農(nóng)村住宅、交通用地、稻田、灌溉土地、旱田、花園地塊、喬木林地、灌木地、天然草原、人造草地、
河流、湖泊、池塘;未分類(lèi)地物,即背景占比較大,而地類(lèi)中的花園地塊、灌木地等占比較小。背景與花園地塊等占比差別較大,這會(huì)影響花園地塊等占比較小類(lèi)地物的分類(lèi)結(jié)果。
2.2" 樣本數(shù)據(jù)集制作
將影像平均裁剪為256×256大小,按7∶2∶1分為訓(xùn)練集、驗(yàn)證集、測(cè)試集。影像大小為7 200×6 800,由于寬高無(wú)法被256整除,裁剪影像時(shí)將寬高不足256的部分舍棄。
由于訓(xùn)練集樣本數(shù)量較少,而訓(xùn)練樣本過(guò)少易導(dǎo)致過(guò)擬合,使模型泛化能力不足;因此,本文在實(shí)驗(yàn)中對(duì)數(shù)據(jù)集進(jìn)行數(shù)據(jù)增強(qiáng),增強(qiáng)數(shù)據(jù)集原始圖像的亮度,擴(kuò)增數(shù)據(jù)集,增強(qiáng)模型的泛化能力。
提取數(shù)據(jù)集的邊緣、紋理、顏色特征,將這些特征在通道方向拼接到原始數(shù)據(jù)集。本文將原始RGB三通道數(shù)據(jù)轉(zhuǎn)化為灰度數(shù)據(jù),通過(guò)灰度共生矩陣提取圖像的能量、對(duì)比度、同質(zhì)性作為紋理特征。各種特征如圖3所示。
數(shù)據(jù)集原始形狀為(256," 256, 3)的RGB三通道,將邊緣、紋理、顏色按照波段疊加的方式疊加為形狀為(256, 256, 10)的數(shù)據(jù)(圖4)。
2.3" 模型訓(xùn)練
本文基于tensorflow+keras框架進(jìn)行訓(xùn)練,使用Adam優(yōu)化器,初始學(xué)習(xí)率為0.001,每次輸入網(wǎng)絡(luò)的圖像數(shù)量為32。為確保模型可以最優(yōu)化,每3個(gè)批次失函數(shù)如果不下降,學(xué)習(xí)率變?yōu)樵瓉?lái)的一半,通過(guò)監(jiān)測(cè)驗(yàn)證數(shù)據(jù)集的準(zhǔn)確率確定模型是否達(dá)到最佳。
3" 結(jié)果分析
3.1" 損失函數(shù)對(duì)比
在UNet模型下,為提高網(wǎng)絡(luò)的平均交并比及均類(lèi)像素精度,分別使用表2列出的損失函數(shù),并對(duì)得到的結(jié)果進(jìn)行分析。
由表2可知:由于未分類(lèi)地物在數(shù)據(jù)集中占比較多,加權(quán)交叉熵?fù)p失函數(shù)在均類(lèi)像素精度上雖然相比交叉熵?fù)p失函數(shù)
有所提升,但抑制優(yōu)化未分類(lèi)地物的優(yōu)化方向使得像素精度降低,同時(shí)較多的未分類(lèi)地物被分到其他種類(lèi)地物中,對(duì)占比較小地物
a. 原始圖像;b. 邊緣特征;c. 紋理特征(能量);d. 紋理特征(對(duì)比度)e. 紋理特征(同質(zhì)性);f. 顏色特征。
的交并比造成較大影響,平均交并比低于交叉熵?fù)p失函數(shù);Focal Loss函數(shù)與Dice Loss函數(shù)相加組合像素精度、均類(lèi)像素精度、平均交并比均高于其他損失函數(shù),本文采用Focal Loss與Dice Loss相加組合作為損失函數(shù)。
3.2" 消融實(shí)驗(yàn)
為驗(yàn)證每種改進(jìn)的有效性及其對(duì)像素精度、均類(lèi)像素精度、平均交并比的貢獻(xiàn),分別按消去一種改進(jìn)(實(shí)驗(yàn)1—3)、消去兩種改進(jìn)(實(shí)驗(yàn)4—6)、不消去改進(jìn)(實(shí)驗(yàn)7)進(jìn)行實(shí)驗(yàn)(表3)。
消融實(shí)驗(yàn)結(jié)果見(jiàn)表4。從表4可以看出,消去密集鏈接結(jié)構(gòu)(實(shí)驗(yàn)1)、損失函數(shù)組合(實(shí)驗(yàn)2)和多特征(實(shí)驗(yàn)3)的添加,像素精度、均類(lèi)像素精度、平均交并比均降低;實(shí)驗(yàn)4、5、6中又在實(shí)驗(yàn)1、2、3的基礎(chǔ)上分別消去了多特征、密集鏈接結(jié)構(gòu)、損失函數(shù)組合的添加,3種指標(biāo)均降低。3種改進(jìn)在缺少一種或兩種的情況下,精度指標(biāo)均降低,證明了本文對(duì)UNet所做改進(jìn)的有效性。
在實(shí)驗(yàn)7中3種改進(jìn)的基礎(chǔ)上添加LayerScale模塊,記作實(shí)驗(yàn)8。實(shí)驗(yàn)7、8結(jié)果對(duì)比見(jiàn)表5。
實(shí)驗(yàn)8相較于實(shí)驗(yàn)7,像素精度、均類(lèi)像素精度、平均交并比均有不同程度的提升,分別提升了0.000 5、0.005 8、0.007 3,證實(shí)了在本文改進(jìn)UNet中添加LayerScale模塊的有效性。
綜上,本文提出的改進(jìn)UNet相比其余6組消融實(shí)驗(yàn)具有更好的語(yǔ)義分割效果。
3.3" 占比較少類(lèi)別召回率前后對(duì)比
農(nóng)村住宅、花園地塊、灌木地、人造草地在數(shù)據(jù)集中占比分別為0.35%、0.52%、0.19%、0.53%(表1),均小于1%,將原始UNet在這四類(lèi)上的分類(lèi)召回率和交并比與實(shí)驗(yàn)1—8進(jìn)行對(duì)比,結(jié)果見(jiàn)表6、表7。可見(jiàn),本文所采用的方法在四種占比較少的類(lèi)別中,實(shí)驗(yàn)8相比其余7組消融實(shí)驗(yàn)有更好的表現(xiàn),且召回率、交并比均大于或等于原始UNet。證明了本文方法對(duì)增強(qiáng)占比較少地類(lèi)分類(lèi)效果的有效性。
3.4" 與其他網(wǎng)絡(luò)結(jié)構(gòu)對(duì)比
基于GID,采用FCN、UNet、DeepLabV3+、ResUnet四種經(jīng)典網(wǎng)絡(luò)與本文改進(jìn)UNet進(jìn)行對(duì)比,證明本文改進(jìn)UNet的有效性。
3.4.1" 分割結(jié)果圖
為體現(xiàn)本文改進(jìn)UNet的優(yōu)越性,本文將分割結(jié)果可視化,將網(wǎng)絡(luò)最后一層輸出結(jié)果轉(zhuǎn)換為代表類(lèi)別的顏色,直觀(guān)體現(xiàn)分割效果的差異。
如圖5所示:原始圖像中的橙色框部分為工業(yè)用地與住宅,為相近地類(lèi),二者RGB信息相似,易造成錯(cuò)分現(xiàn)象;本文改進(jìn)UNet的可視化分割結(jié)果相較于其他網(wǎng)絡(luò)分類(lèi)效果更好,分類(lèi)邊界更清晰,與標(biāo)簽貼合更好,證明了本文改進(jìn)方法的有效性。
如圖6所示:對(duì)于相近地類(lèi),即原始圖像中紅色框部分的稻田與灌溉土地,兩者RGB信息相似,本文改進(jìn)UNet分割邊界較為清晰,分類(lèi)較為明確;對(duì)于類(lèi)內(nèi)相似度低、類(lèi)間相似度高的地類(lèi),如背景以及灌溉土地,本文改進(jìn)UNet也有較好的表現(xiàn),地類(lèi)之間的分割邊界較為銳利,地類(lèi)的分割效果好于本文所對(duì)比的其他網(wǎng)絡(luò)。
3.4.2" 全局評(píng)價(jià)指標(biāo)
像素精度、均類(lèi)像素精度、平均交并比3種全局評(píng)價(jià)指標(biāo)是比較網(wǎng)絡(luò)優(yōu)劣的基礎(chǔ),本文改進(jìn)UNet與經(jīng)典網(wǎng)絡(luò)全局評(píng)價(jià)指標(biāo)對(duì)比見(jiàn)表8。
從表8可以看出,本文使用的改進(jìn)UNet在像素精度、均類(lèi)像素精度、平均交并比方面均高于對(duì)比網(wǎng)絡(luò),像素精度為0.915 7,分別比FCN、UNet、DeepLabV3+、ResUnet提高了0.089 1、0.023 3、0.066 9、0.051 2;均類(lèi)像素精度為0.883 0,分別比FCN、UNet、DeepLabV3+、ResUnet提高了0.134 0、0.040 9、0.127 3、0.070 9;平均交并比為0.823 2,分別比FCN、UNet、DeepLabV3+、ResUnet提高了0.180 5、0.066 5、0.172 0、0.114 9。五種網(wǎng)絡(luò)語(yǔ)義分割結(jié)果的優(yōu)劣排序?yàn)椋焊倪M(jìn)U
Net、UNet、ResUnet、DeepLabV3+、FCN。
3.4.3" 交并比
對(duì)于樣本數(shù)據(jù)集中占比較少的類(lèi)別以及難分類(lèi)的類(lèi)別,交并比可以更好地顯示本文改進(jìn)的作用。表9為本文改進(jìn)UNet與經(jīng)典網(wǎng)絡(luò)的對(duì)比,可以看出:本文改進(jìn)UNet各類(lèi)別的交并比均高于其他網(wǎng)絡(luò)以及原始UNet,突出顯示了本文改進(jìn)UNet的有效性。對(duì)占比少于1%的農(nóng)村住宅、花園地塊、灌木地和人造草地,交并比有所提升。相比于UNet,交并比提升了0.054 6、0.188 6、0.219 6、0.059 8,本文改進(jìn)UNet中加入且充分利用不同的底層特征,使這四種地類(lèi)交并比有所提升。
4" 結(jié)論
本文改進(jìn)UNet,通過(guò)消融實(shí)驗(yàn)、LayerScale模塊添加實(shí)驗(yàn)、與FCN、UNet、DeepLabV3+(ResNet50)、ResUnet四種經(jīng)典網(wǎng)絡(luò)的對(duì)比實(shí)驗(yàn),驗(yàn)證改進(jìn)UNet的可靠性,結(jié)論如下:
1)改進(jìn)UNet模型優(yōu)于其他四種經(jīng)典網(wǎng)絡(luò)模型。與FCN、UNet、DeepLabV3+(ResNet50)、ResUnet四種經(jīng)典語(yǔ)義分割模型相比,本文改進(jìn)UNet在GID上像素精度分別提高0.089 1、0.023 3、0.066 9、0.051 2,均類(lèi)像素精度分別提高0.134 0、0.040 9、0.127 3、0.070 9,平均交并比分別提高0.180 5、0.066 5、0.172 0、0.114 9。
2)加入多特征、密集鏈接結(jié)構(gòu)、Focal Loss函數(shù)與Dice Loss函數(shù)相加組合可有效優(yōu)化語(yǔ)義分割效果。本文以UNet為基礎(chǔ)搭建網(wǎng)絡(luò),添加多特征,提高了網(wǎng)絡(luò)對(duì)相似地物的分辨能力;采用密集鏈接,提高了特征的利用率;使用Focal Loss函數(shù)和Dice Loss函數(shù)相加的方法,提升了網(wǎng)絡(luò)模型的交并比,優(yōu)化了網(wǎng)絡(luò)模型在難分類(lèi)地類(lèi)上的語(yǔ)義分割效果。相比原始UNet,改進(jìn)UNet像素精度、均類(lèi)像素精度、平均交并比分別提高了0.023 3、0.040 9、0.066 5。
3)LayerScale模塊可優(yōu)化編碼器、解碼器之間的特征傳遞,提高像素精度、均類(lèi)像素精度、平均交并比。本文將LayerScale模塊加入到編碼器與解碼器之間,縮放網(wǎng)絡(luò)深層特征圖參數(shù),加快網(wǎng)絡(luò)收斂,抑制無(wú)效特征、突出有效特征,在添加多特征、構(gòu)建密集鏈接結(jié)構(gòu)、使用Focal Loss函數(shù)與Dice Loss函數(shù)相加組合的基礎(chǔ)上,像素精度、均類(lèi)像素精度、平均交并比分別提高了0.000 5、0.005 8、0.007 3。
4)本文方案對(duì)占比較少地類(lèi)有較好的語(yǔ)義分割效果,對(duì)占比少于1%的農(nóng)村住宅、花園地塊、灌木地和人造草地,交并比有所提升。相比于UNet,交并比分別提升了0.054 6、0.188 6、0.219 8、0.059 8。
參考文獻(xiàn)(References):
[1]" 李美霖, 芮杰, 金飛, 等. 基于改進(jìn) YOLOX 的遙感影像目標(biāo)檢測(cè)算法[J]. 吉林大學(xué)學(xué)報(bào) (地球科學(xué)版), 2023, 53(4): 13131322.
Li Meilin, Rui Jie, Jin Fei. et al. Remote Sensing Image Target Detection Algorithm Based on Improved YOLOX[J]. Journal of Jilin University (Earth Science Edition), 2023, 53(4): 13131322.
[2]" 寶音圖,劉偉,李潤(rùn)生,等. 遙感圖像語(yǔ)義分割的空間增強(qiáng)注意力U型網(wǎng)絡(luò)[J].北京航空航天大學(xué)學(xué)報(bào),2023, 49(7):18281837.
Bao Yintu, Liu Wei, Li Runsheng, et al. Scene Classification and Semantic Segmentation of Optical Remote Sensing Image Based on Deep Learning [J]. Journal of Beijing University of Aeronautics and Astronautics, 2023, 49(7): 18281837.
[3]" 門(mén)計(jì)林. 基于卷積神經(jīng)網(wǎng)絡(luò)的高分辨率遙感影像土地利用分類(lèi)[D].武漢:中國(guó)地質(zhì)大學(xué),2019.
Men Jilin. Land Use Classification of High Resolution Remote Sensing Images Based on Convolutional Neural Networks[D]. Wuhan: China University of Geosciences, 2019.
[4]" Wallraven C, Caputo B, Graf A. Recognition with Local Features: The Kernel Recipe [C]//Ninth IEEE International Conference on Computer Vision. Nice: IEEE,2003: 257264.
[5]" Breiman L. Random Forest[J]. Machine Learning, 2001, 45: 532.
[6]" 賀婷, 周寧, 吳嘯宇. 基于深度全連接神經(jīng)網(wǎng)絡(luò)的儲(chǔ)層有效砂體厚度預(yù)測(cè)[J]. 吉林大學(xué)學(xué)報(bào) (地球科學(xué)版), 2023, 53(4): 12621274.
He Ting, Zhou Ning, Wu Xiaoyu. Thickness Prediction of Reservoir Effective Sand Body by Deep Fully Connected Neural Network[J]. Journal of Jilin University (Earth Science Edition), 2023, 53(4): 12621274.
[7]" 朱麗,王新鵬,付海濤,等.基于注意力機(jī)制的細(xì)粒度圖像分類(lèi)[J].吉林大學(xué)學(xué)報(bào)(理學(xué)版),2023,61(2):371376.
Zhu Li, Wang Xinpeng, Fu Haitao, et al. Few-Shot Learning Based on Contrastive Learning Method [J]. Journal of Jilin University (Science Edition), 2023, 61(2): 371376.
[8]" 黃梅,楊文忠,汪傳建,等.基于SEDRUnet的遙感影像耕地變化檢測(cè)[J].東北師大學(xué)報(bào)(自然科學(xué)版),2022,54(2):6167.
Huang Mei, Yang Wenzhong, Wang Chuanjian, et al. Change Detection for Cultivates Land in Remote Sensing Images Based on SEDRUnet[J]. Journal of Northeast Normal University (Natural Science Edition), 2022, 54(2): 6167.
[9]" Lecun Y, Bottou L. Gradient-Based Learning Applied to Do Cument Recognition[J]. Proceedings of the IEEE, 1998, 86(11): 22782324.
[10]" Krizhevsky A, Sutskever I, Hinton G E. ImageNet Classification with Deep Convolutional Neural Networks[J]. Communications of the ACM, 2017, 60(6): 8490.
[11]" Simonyan K, Zisserman A. Very Deep Convolutional Networks for Large-Scale Image Recognition[J/OL]. Computer Science[2023510]. DOI:10.48550/arXiv. 1409.1556.
[12]" Szegedy C, Liu W, Jia Y, et al. Going Deeper with Convolutions[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Boston: IEEE, 2015: 19.
[13]" He K, Zhang X, Ren S, et al. Deep Residual Learning for Image Recognition[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas: IEEE, 2016: 770778.
[14]" Long J, Shelhamer E, Darrell T. Fully Convolutional Networks for Semantic Segmentation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 39(4): 640651.
[15]" Ronneberger O, Fischer P, Brox T. UNet: Convolutional Networks for Biomedical Image Segmentation[C]//Medical Image Computing and Computer: Assisted Intervention. [S. l. ]: Springer, 2015: 234241.
[16]" Badrinarayanan V, Kendall A, Cipolla R. Segnet: A Deep Convolutional Encoder-Decoder Architecture for Image Segmentation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(12): 24812495.
[17]" Chen L C, Zhu Y, Papandreou G, et al. Encoder-Decoder with Atrous Separable Convolution for Semantic Image Segmentation[C]//Proceedings of the European Conference on Computer Vision (ECCV). Berlin: Springer Cham, 2018: 801818.
[18]" Xiao X, Lian S, Luo Z, et al. Weighted Res-UNet for High-Quality Retina Vessel Segmentation[C]//9th International Conference on Information Technology in Medicine and Education (ITME). [S. l. ]: IEEE, 2018: 327331.
[19]" 許慧敏.基于深度學(xué)習(xí)UNet模型的高分辨率遙感影像分類(lèi)方法研究[D].成都:西南交通大學(xué),2018.
Xu Huimin. Method Research of High Resolution Remote Sensing Imagery Classification Based on UNet Model of Deep Learning[D]. Chengdu: Southwest Jiaotong University, 2018.
[20]" Zhang H, Wang M, Wang F, et al. A Novel Squeeze-and-Excitation W-Net for 2D and 3D Building Change Detection with Multi-Source and Multi-Feature Remote Sensing Data[J]. Remote Sensing, 2021, 13(3): 440.
[21]" Smith J R, Chang S F. Automated Binary Texture Feature Sets for Image Retrieval[C]//IEEE International Conference on Acoustics, Speech, and Signal Processing Conference Proceedings. [S. l. ]: IEEE, 1996: 22392242.
[22]" 曹智慧. 基于全卷積U形網(wǎng)絡(luò)的腦核磁共振圖像分割[D].南京:南京信息工程大學(xué),2019.
Cao Zhihui. Modified UNet for Brain MR Image Segmentation[D]. Nanjing: Nanjing University of Information Science amp; Technology, 2019.
[23]" Huang G, Liu Z, Laurens V D M, et al. Densely Connected Convolutional Networks[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu: IEEE, 2017. doi:10.1109/CVPR.2017.243.
[24]" Touvron H, Cord M, Sablayrolles A, et al. Going Deeper with Image Transformers[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. Montreal: IEEE, 2021: 3242.
[25]" 彭曉婷.基于深度學(xué)習(xí)的不平衡數(shù)據(jù)集分類(lèi)的方法研究[D].北京:北京化工大學(xué),2021.
Peng Xiaoting. Research on Classification of Imbalanced Data Set Based on Deep Learning [D].Beijing: Beijing University of Chemical Technology, 2021.
[26]" Lin T Y, Goyal P, Girshick R, et al. Focal Loss for Dense Object Detection[C]//Proceedings of the IEEE International Conference on Computer Vision. Venice: IEEE, 2017: 29802988.
[27]" Li X, Sun X, Meng Y, et al. Dice Loss for Data-Imbalanced NLP Tasks[J/OL]. arXiv Preprint[2023510]. https://doi.org/10.48550/arXiv:1911.02855.
[28]" Tong X Y, Xia G S, Lu Q, et al. Land-Cover Classification with High-Resolution Remote Sensing Images Using Transferable Deep Models[J]. Remote Sensing of Environment, 2020, 237: 111322.