国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于改進(jìn)殘差網(wǎng)絡(luò)的橡膠林衛(wèi)星影像語義分割方法

2022-11-13 07:15:36劉秋斌陳方園劉大召
關(guān)鍵詞:橡膠林集上骨干

余 果,劉秋斌,陳方園,劉大召,2

基于改進(jìn)殘差網(wǎng)絡(luò)的橡膠林衛(wèi)星影像語義分割方法

余 果1,劉秋斌1,陳方園1,劉大召1,2※

(1. 廣東海洋大學(xué)電子與信息工程學(xué)院,湛江 524003;2. 廣東省海洋遙感與信息技術(shù)工程技術(shù)研究中心,湛江 524003)

為進(jìn)一步提升現(xiàn)有基于殘差的分割模型在測(cè)試集上的信息提取能力和驗(yàn)證改進(jìn)殘差優(yōu)化策略普適性及實(shí)現(xiàn)橡膠衛(wèi)星影像的更優(yōu)分割,該研究提出了一種通用改進(jìn)殘差策略,以哨兵-2多光譜衛(wèi)星影像為數(shù)據(jù)源構(gòu)建數(shù)據(jù)集,并使用改進(jìn)后殘差網(wǎng)絡(luò)ResNet50_ve作為OCRNet模型的骨干網(wǎng)絡(luò),實(shí)現(xiàn)基于變種殘差網(wǎng)絡(luò)的OCRNet模型(ResNet-ve-OCRNet),使用在ImageNet1k分類數(shù)據(jù)集上蒸餾好的學(xué)生模型作為預(yù)訓(xùn)練模型參與ResNet-ve-OCRNet模型的訓(xùn)練。研究結(jié)果表明使用層數(shù)中等的基于50層殘差網(wǎng)絡(luò)在小尺度衛(wèi)星影像訓(xùn)練集上各指標(biāo)收斂效果優(yōu)于較深層數(shù)的101層殘差網(wǎng)絡(luò),與DeeplabV3、DeeplabV3+、PSPNet模型相比,以ResNet50_ve為骨干網(wǎng)絡(luò)的OCRNet在驗(yàn)證集上的平均交并比達(dá)到0.85,像素準(zhǔn)確率達(dá)到97.87%,卡帕系數(shù)達(dá)到0.90。該研究提出的改進(jìn)殘差策略具有一定的普適性可應(yīng)用到眾多主流分割模型上且有評(píng)價(jià)指標(biāo)性能增益,從預(yù)測(cè)圖來看,基于改進(jìn)殘差網(wǎng)絡(luò)(ResNet-ve)的模型抑制了在測(cè)試集預(yù)測(cè)圖上的上下文信息缺失問題,能夠?qū)崿F(xiàn)橡膠林衛(wèi)星影像的更優(yōu)精確分割。

遙感;深度學(xué)習(xí);橡膠林;語義分割;殘差網(wǎng)絡(luò)

0 引 言

語義分割作為經(jīng)典的計(jì)算機(jī)圖形學(xué)問題主要處理圖像在像素級(jí)別的分類問題,即對(duì)每個(gè)像素實(shí)現(xiàn)逐像素的精確分類[1-2]。傳統(tǒng)機(jī)器學(xué)習(xí)方法已被廣泛應(yīng)用于語義分割領(lǐng)域,包含支持向量機(jī)(SVM)、隨機(jī)森林分類器、最近鄰法[3-5]。但在高分辨率遙感影像的精細(xì)分割上,傳統(tǒng)機(jī)器學(xué)習(xí)的分類方法無法處理多尺度信息提取問題[6]。

傳統(tǒng)基于全卷積網(wǎng)絡(luò)(Fully Convolutional Networks,F(xiàn)CN)的語義分割方法(如Unet等)面臨著上下文信息缺失的問題[7]。DeeplabV3模型是Chen等[8]提出使用串行或者并行不同膨脹率的空洞卷積(Atrous Convolution)來增大模型感受野以抑制上下文丟失問題。在DeeplabV3+模型中,Chen等[9]引入編碼器-解碼器結(jié)構(gòu),使用DeeplabV3模型作為編碼器部分,其中Xception作為編碼器的骨干網(wǎng)絡(luò),另外引入一個(gè)解碼器模塊,通過引入編碼器-解碼器結(jié)構(gòu)進(jìn)一步實(shí)現(xiàn)模型性能提升。PSPNet模型是Zhao等[10]使用金字塔池化(Pyramid Pooling)模塊來抽取4路并行的多尺度上下文信息實(shí)現(xiàn)上下文信息增強(qiáng)。OCRNet模型是基于物體區(qū)域的上下文信息語義分割方法通過構(gòu)建上下文信息時(shí)顯式增強(qiáng)來自同一類物體的像素貢獻(xiàn)權(quán)重[11]。

為了進(jìn)一步提升上述經(jīng)典模型提取上下文信息能力,徐長(zhǎng)友等[12]提出了在Deeplabv3+中加入通道注意力機(jī)制模塊增強(qiáng)高分遙感影像水域的分割效果;王俊強(qiáng)等[13]將Deeplabv3+與CRF(全連接條件隨機(jī)場(chǎng))相連接實(shí)現(xiàn)了對(duì)分割邊界信息的優(yōu)化;賴麗琦[14]將Deeplabv3+的骨干網(wǎng)絡(luò)替換成MobileNetV2并對(duì)Deeplabv3+模型結(jié)構(gòu)進(jìn)行改進(jìn),提升對(duì)無人機(jī)影像的分割精度;王華俊等[15]將DeepLabv3+的骨干網(wǎng)絡(luò)替換為MobileNetV2并對(duì)不同膨脹率的空洞卷積進(jìn)行優(yōu)化組合以提高模型提取精度。當(dāng)前對(duì)經(jīng)典模型優(yōu)化可總結(jié)為以下三種思路,一是在各模型內(nèi)部添加模塊如添加注意力機(jī)制模塊;二是在模型末端輸出特征圖前添加條件隨機(jī)場(chǎng)提升分割效果;三則是將各模型編碼器部分的骨干網(wǎng)絡(luò)進(jìn)行改進(jìn)或者替換。

從相關(guān)文獻(xiàn)發(fā)現(xiàn),在解決遙感影像分割中,添加條件隨機(jī)場(chǎng)所帶來的精度提升是有限的[16],而添加注意力機(jī)制面臨著空間信息丟失問題[17]。前兩種優(yōu)化策略思路在優(yōu)化策略普適能力上不及第三種改進(jìn)思路。骨干網(wǎng)絡(luò)作為語義分割任務(wù)基本特征提取器,用于提取輸入圖像特征圖,被應(yīng)用到所有的語義分割模型中[17]。通過對(duì)骨干網(wǎng)絡(luò)改進(jìn)并復(fù)用到諸多模型,可驗(yàn)證這一優(yōu)化策略的普適能力。

為了進(jìn)一步提升各模型的上下文信息提取能力和驗(yàn)證改進(jìn)殘差策略的普適性,本文基于哨兵-2和大疆無人機(jī)影像數(shù)據(jù)作為基礎(chǔ)數(shù)據(jù)源,使用殘差網(wǎng)絡(luò)并改進(jìn)殘差作為各模型特征提取的骨干網(wǎng)絡(luò),通過對(duì)比DeeplabV3、DeeplabV3+、PSPNet、OCRNet四種模型的指標(biāo)增益,驗(yàn)證基于改進(jìn)殘差的優(yōu)化策略普適能力,以期為現(xiàn)階段語義分割模型優(yōu)化提供新改進(jìn)思路。

1 材料和方法

1.1 研究區(qū)和衛(wèi)星影像選擇

本試驗(yàn)研究區(qū)域是粵西的湛江徐聞地區(qū),隸屬廣東省湛江市,位于中國(guó)大陸最南端,南臨瓊州海峽,與海南島隔海相望,東濱南海,西瀕北部灣,北與雷州市接壤。介于東經(jīng)109°52′至110°35′,北緯20°13′至20°43′之間,土地總面積1 979.6 km2。徐聞縣屬熱帶季風(fēng)氣候,日照充足,太陽輻射能豐富。

該研究試驗(yàn)使用的是歐空局(ESA)Sentinel-2衛(wèi)星數(shù)據(jù),哨兵2由2顆相同的衛(wèi)星哨兵2號(hào)A(Sentinel-2A)與B(Sentinel-2B)組成的衛(wèi)星星座。哨兵2包含13個(gè)波段,范圍覆蓋了可見光、近紅外和短波紅外。哨兵2的影像幅寬為290 km,空間分辨率最高可達(dá)10 m。選用哨兵影像的原因是相較于其他付費(fèi)的高分辨率衛(wèi)星影像如worldview-2,哨兵2免費(fèi)易得且僅需兩幅哨兵2影像即可覆蓋徐聞縣全境,該研究訓(xùn)練階段采用的數(shù)據(jù)是兩幅2019年5月18號(hào)的無云影像數(shù)據(jù)(兩幅影像成像時(shí)間信息編號(hào)為20190518T030551,兩幅影像的相對(duì)軌道編號(hào)R075),測(cè)試階段采用的是兩幅2020年5月7號(hào)的無云影像數(shù)據(jù)(兩幅影像成像時(shí)間信息編號(hào)為20200507T030539,兩幅影像的相對(duì)軌道編號(hào)R075),使用歐空局Sen2cor插件進(jìn)行大氣校正,導(dǎo)出B11、B8、B5三個(gè)波段進(jìn)行假彩色合成并在ENVI中進(jìn)行裁剪和融合鑲嵌操作。B11、B8、B5相比較于傳統(tǒng)可見光波段組合具有更好的目視解譯效果,哨兵的B11(短波紅外)和B8(近紅外)廣泛用于農(nóng)業(yè)領(lǐng)域的深綠色植被提取,加入B5植被紅邊波段可強(qiáng)化對(duì)深綠色植被的敏感度。

1.2 標(biāo)簽定義和數(shù)據(jù)集構(gòu)建

原始影像面積較大,無法整幅輸入網(wǎng)絡(luò)訓(xùn)練。在徐聞?dòng)跋裆喜们谐鲆粋€(gè)像素尺寸大小為2 256像素×628像素大小的矩形區(qū)域作為感興趣區(qū)(Region of Interest,ROI),該影像為3通道24bit色深的影像,設(shè)置5種類別(林地、居民點(diǎn)及工礦用地、水域、橡膠林、其他),湛江作為熱帶季風(fēng)氣候沒有草地?zé)o需將草地納入分類范圍,而設(shè)置林地與橡膠林是因?yàn)槎咴趥尾噬跋裆嫌忻黠@的光譜色澤差異明顯需要將二者進(jìn)行分離。在ArcGIS軟件上繪制了各類別對(duì)應(yīng)矢量標(biāo)簽并對(duì)標(biāo)簽進(jìn)行柵格化處理,使用python腳本修改柵格化標(biāo)簽類別灰度值并建立各類別(林地、居民點(diǎn)及工礦用地(后簡(jiǎn)稱為居民地)、水域、橡膠林、其他)與對(duì)應(yīng)灰度值之間(1、2、3、4、0)映射關(guān)系,將柵格化標(biāo)簽和矩形研究區(qū)影像裁剪成256像素×256像素大小的PNG瓦片數(shù)據(jù),按照6:2:2的比例劃分成訓(xùn)練集、驗(yàn)證集和測(cè)試集,并在2020年5月7號(hào)的哨兵2影像上裁剪出一副2 256像素×514像素大小的影像輸入網(wǎng)絡(luò)作為測(cè)試,使用Paddleseg建立起類別標(biāo)簽瓦片數(shù)據(jù)和影像瓦片數(shù)據(jù)之間的映射關(guān)系。數(shù)據(jù)集構(gòu)建流程見圖1。

圖1 數(shù)據(jù)集構(gòu)建流程圖

1.3 用于輔助驗(yàn)證的無人機(jī)影像

該研究試驗(yàn)使用大疆Phantom 4 RTK拍攝大量橡膠林無人機(jī)影像,Phantom 4 RTK攝取的無人機(jī)影像為RGB可見光三波段數(shù)據(jù),使用Pix4D mapper軟件對(duì)獲得的無人機(jī)影像進(jìn)行空三和點(diǎn)云、紋理處理。處理后的橡膠林無人機(jī)正射影像和DSM影像(數(shù)字表面模型)主要用于輔助驗(yàn)證和作為衛(wèi)星影像目視判讀依據(jù),無人機(jī)影像和DSM影像見圖2。

圖2 用于輔助驗(yàn)證的無人機(jī)影像和DSM影像

1.4 試驗(yàn)平臺(tái)及模型超參數(shù)設(shè)置

本試驗(yàn)硬件平臺(tái)使用16 G內(nèi)存,Intel Core i7-10750H CPU,Nvidia 2070 8 G顯卡,軟件平臺(tái)基于Windows10 19043版本 64位操作系統(tǒng),使用conda安裝百度深度學(xué)習(xí)框架的PaddlePaddle 2.1版本,python環(huán)境為3.7.9結(jié)合PaddleSeg 2.3套件。4個(gè)模型的超參數(shù)設(shè)置如下,4個(gè)模型的訓(xùn)練參數(shù)batch_size設(shè)置為2,使用帶動(dòng)量的SGD優(yōu)化器、動(dòng)量大小為0.9、L2正則化大小為0.000 1,學(xué)習(xí)率衰減策略為多項(xiàng)式衰減(Polynomial Decay),初始學(xué)習(xí)率為0.002 5,衰減率為0.9,最終學(xué)習(xí)率為0,損失函數(shù)為交叉熵?fù)p失函數(shù)(CrossEntropyLoss)。本試驗(yàn)對(duì)于每種網(wǎng)絡(luò)進(jìn)行20 000次迭代(iters),迭代訓(xùn)練周期 iters 最大值為1 000,每200次iters之后在驗(yàn)證集上進(jìn)行評(píng)估,若連續(xù)2 000次iters的評(píng)價(jià)指標(biāo)都不再升高,則采用提前終止模型訓(xùn)練的策略(Early Stopping)結(jié)束模型訓(xùn)練。

1.5 研究方法

ResNet為2015年提出的網(wǎng)絡(luò)模型[18],有5型(ResNet18、ResNet34、ResNet50、ResNet101、ResNet152,它們基本結(jié)構(gòu)相同,區(qū)別在于網(wǎng)絡(luò)層數(shù)不同)被廣泛應(yīng)用于計(jì)算機(jī)視覺領(lǐng)域,常用做各種網(wǎng)絡(luò)模型的骨干網(wǎng)絡(luò)(backbone)。本文預(yù)試驗(yàn)部分比較使用ResNet50_vd和ResNet101_vd作為DeepLabV3、DeepLabV3+、PSPNet、OCRNet四種模型的骨干網(wǎng)絡(luò),發(fā)現(xiàn)分割小尺度影像數(shù)據(jù)集宜使用50層的ResNet50_vd。之后比較基于本文提出的ResNet50_ve作為以上4種模型骨干網(wǎng)絡(luò),在上述模型訓(xùn)練階段,需使用遷移學(xué)習(xí)方法啟動(dòng)模型訓(xùn)練和加速模型訓(xùn)練,經(jīng)過消融試驗(yàn)比較得出適合分割橡膠林衛(wèi)星影像的模型且驗(yàn)證了改進(jìn)殘差策略的普適性和上下文信息提取能力。

1.5.1 標(biāo)準(zhǔn)殘差網(wǎng)絡(luò)與ResNet_vd

標(biāo)準(zhǔn)ResNet網(wǎng)絡(luò)如圖3所示,由輸入、輸出和中間卷積部分組成,中間卷積部分由4個(gè)stage組成。輸入部分是由一個(gè)步長(zhǎng)為2的7×7卷積(Conv)模塊和一個(gè)步長(zhǎng)為2的3×3最大池化(MaxPool)模塊組成;卷積層中每一個(gè)stage都由一個(gè)下采樣模塊(DownSampling)和若干個(gè)殘差塊(Residuals)組成,殘差塊結(jié)構(gòu)與下采樣模塊結(jié)構(gòu)相同(但殘差塊中所有模塊步長(zhǎng)為1)。殘差塊數(shù)量決定了殘差網(wǎng)絡(luò)最終層數(shù)。下采樣模塊由路徑A(Path A)和路徑B(Path B)加權(quán)連接而成。在下采樣模塊路徑A中,由2個(gè)步長(zhǎng)為1的1×1卷積包含一個(gè)步長(zhǎng)為2的3×3卷積模塊,這種結(jié)構(gòu)形式被稱為甚深瓶頸結(jié)構(gòu)(Deeper Bottleneck Architecture,DBA),一個(gè)××(高度為,寬度為,通道數(shù)為)的特征圖經(jīng)過甚深瓶頸結(jié)構(gòu)之后,特征圖高度和寬度縮小至原來的1/2,通道數(shù)增至原來的四倍為4C。

He等[19]提出ResNet的一系列衍生網(wǎng)絡(luò),其中ResNet_vd的改進(jìn)策略是在標(biāo)準(zhǔn)殘差(見圖3)下采樣模塊路徑B的前端添加一個(gè)步長(zhǎng)為2的2×2均值池化(AvgPool)模塊(見圖4a),本文殘差網(wǎng)絡(luò)模型選取ResNet_vd。

對(duì)于本文試驗(yàn)需先從5型ResNet_vd中確定適合分割橡膠林的ResNet_vd層數(shù),選取中小尺度影像數(shù)據(jù)集應(yīng)用最廣泛的101層和50層ResNet_vd進(jìn)行預(yù)試驗(yàn),比較二者間指標(biāo)差距。

1.5.2 改進(jìn)型ResNet_vd(ResNet_ve)殘差網(wǎng)絡(luò)

本文骨干網(wǎng)絡(luò)分別挑選101層的殘差網(wǎng)絡(luò)(ResNet101_vd)和50層的殘差網(wǎng)絡(luò)(ResNet50_vd)比較二者在橡膠林影像分割上的評(píng)價(jià)指標(biāo)差距,發(fā)現(xiàn)基于ResNet50_vd的模型性能優(yōu)于基于ResNet101_vd的模型,確定ResNet50_vd作為后續(xù)試驗(yàn)的基線網(wǎng)絡(luò)(baseline)。

其次,為了進(jìn)一步提升基線網(wǎng)絡(luò)性能,受到甚深瓶頸結(jié)構(gòu)和Tong He的改進(jìn)思路啟發(fā),本文使用2個(gè)步長(zhǎng)為1的1×1卷積包含一個(gè)步長(zhǎng)為2的2×2最大池化(MaxPool)模塊重構(gòu)下采樣模塊路徑B(見圖4b),因同一stage中的殘差塊和下采樣結(jié)構(gòu)相同,使用相同的改進(jìn)策略應(yīng)用到同一stage的殘差塊路徑B中,將4個(gè)改進(jìn)后的stage重新連接,修改激活函數(shù)為PReLU,構(gòu)成改進(jìn)后的ResNet-ve網(wǎng)絡(luò)。最后在基于ResNet_ve骨干網(wǎng)絡(luò)的4種模型的訓(xùn)練階段,通過遷移學(xué)習(xí)將ResNet50_vd在ImageNet1k分類數(shù)據(jù)集上蒸餾得到的學(xué)生模型作為預(yù)訓(xùn)練模型,注入權(quán)重參數(shù)給ResNet_ve骨干網(wǎng)絡(luò)以啟動(dòng)4種模型。

圖3 ResNet的結(jié)構(gòu)圖

圖4 ResNet_vd和ResNet_ve的對(duì)比圖

1.5.3 SSLD蒸餾策略和遷移學(xué)習(xí)方法啟動(dòng)模型訓(xùn)練

在超大數(shù)據(jù)集上訓(xùn)練產(chǎn)生的模型具有很強(qiáng)的泛化能力,但這些超大模型的網(wǎng)絡(luò)權(quán)重參數(shù)無法直接用于啟動(dòng)本文模型的訓(xùn)練,需要將這些這些超大數(shù)據(jù)集上訓(xùn)練出的大模型進(jìn)行壓縮以啟動(dòng)本文模型的訓(xùn)練和加速本文模型的訓(xùn)練速度,壓縮后的模型通過遷移學(xué)習(xí)(Transfer learning)可加快本文模型的訓(xùn)練速度,其中知識(shí)蒸餾[20]是指使用教師模型(teacher model)去指導(dǎo)學(xué)生模型(student model)學(xué)習(xí)特定任務(wù),保證小模型在參數(shù)量不變的情況下得到較大的性能提升獲得與大模型相似的精度指標(biāo)。本文使用一種簡(jiǎn)單的半監(jiān)督標(biāo)簽知識(shí)蒸餾方案(SSLD,Simple Semi-supervised Label Distillation),SSLD基于已有蒸餾方案[21-25]在ImageNet22k分類數(shù)據(jù)集上使用ResNeXt101為教師模型進(jìn)行蒸餾訓(xùn)練得到學(xué)生網(wǎng)絡(luò)ResNet_vd,將蒸餾后的學(xué)生網(wǎng)絡(luò)在ImageNet1k數(shù)據(jù)集上微調(diào),將微調(diào)后的學(xué)生模型作為基于ResNet_ve的四種模型的預(yù)訓(xùn)練模型,在4種模型訓(xùn)練時(shí)注入網(wǎng)絡(luò)權(quán)重參數(shù),加速4種模型訓(xùn)練,遷移學(xué)習(xí)的流程圖如圖5所示。

圖5 SSLD蒸餾以及遷移學(xué)習(xí)流程圖

1.6 評(píng)價(jià)指標(biāo)

像素準(zhǔn)確率(Pixel Accuracy,PA):計(jì)算正確分類的像素?cái)?shù)量與所有像素?cái)?shù)量的比例,取值范圍在0~1之間。

平均交并比(mean Intersection-over-Union, mIoU):計(jì)算像素真實(shí)值和像素預(yù)測(cè)值兩個(gè)集合的交集與二者并集的比例,取值范圍在0~1之間。

卡帕系數(shù)(Kappa coefficient)用于衡量模型像素真實(shí)值和像素預(yù)測(cè)值兩個(gè)集合是否具有一致性的指標(biāo),取值范圍在0~1之間。

以上有兩指標(biāo)涉及到真實(shí)值與預(yù)測(cè)值之間的關(guān)系,可使用二階混淆矩陣(Confusion matrix)表征真實(shí)值與預(yù)測(cè)值二者間關(guān)系,對(duì)于多分類(類)問題可使用×二階混淆矩陣,下列計(jì)算公式中p代表×維二階混淆矩陣第類被識(shí)別成第類的像素個(gè)數(shù),、為對(duì)應(yīng)混淆矩陣中第類和第類,P為求解Kappa的中間量。

2 結(jié)果與分析

本文通過消融試驗(yàn)迭代20 000次分別比較了基于ResNet50_vd和ResNet101_vd作為骨干網(wǎng)絡(luò)的4種網(wǎng)絡(luò)模型,在ImageNet1k數(shù)據(jù)集上使用了簡(jiǎn)易的半監(jiān)督知識(shí)蒸餾策略進(jìn)行預(yù)訓(xùn)練之后,將蒸餾后學(xué)生模型的網(wǎng)絡(luò)權(quán)重參數(shù)遷移學(xué)習(xí)到4種模型,基于兩種ResNet_vd的4種網(wǎng)絡(luò)訓(xùn)練階段的mIoU和Pixel Accuracy變化曲線見圖6,在驗(yàn)證集上各評(píng)價(jià)指標(biāo)結(jié)果及訓(xùn)練集預(yù)測(cè)所消耗時(shí)間和各網(wǎng)絡(luò)訓(xùn)練參數(shù)見表1。

2.1 殘差網(wǎng)絡(luò)層數(shù)的確定

本文試驗(yàn)首先使用廣泛應(yīng)用的50層殘差(ResNet50_vd)和101層殘差(ResNet101_vd),針對(duì)本文試驗(yàn)采用小尺度的徐聞衛(wèi)星影像數(shù)據(jù)集,需比較得出適用于本次分割任務(wù)的殘差網(wǎng)絡(luò)層數(shù)。綜合表1和圖6數(shù)據(jù)經(jīng)過對(duì)比發(fā)現(xiàn),在訓(xùn)練階段相較于101層的模型,使用50層殘差的4種模型的PA和mIoU曲線更加平滑,且使用了ResNet101_vd的4種模型在三大評(píng)價(jià)指標(biāo)上都不及基于ResNet50_vd的4種模型,故使用50層的殘差網(wǎng)絡(luò)作為后續(xù)試驗(yàn)的基線網(wǎng)絡(luò)。

在以ResNet50_vd為骨干網(wǎng)絡(luò)的4種模型的變化曲線中,DeepLabV3與DeepLabV3p的mIoU和kappa性能相當(dāng),像素準(zhǔn)確率上DeepLabV3p相比較DeepLabV3增加0.55個(gè)百分點(diǎn),但二者不及PSPNet和OCRNet。相較于PSPNet,OCRNet在mIOU上領(lǐng)先0.04,在Kappa上領(lǐng)先0.02,像素準(zhǔn)確率上領(lǐng)先0.51個(gè)百分點(diǎn),在驗(yàn)證集上推理速度快了22 s。綜合各項(xiàng)指標(biāo),基于ResNet50_vd的OCRNet在4種模型中的綜合表現(xiàn)最優(yōu)。

2.2 基于ResNet50_vd與ResNet50_ve的4種模型比較

后續(xù)試驗(yàn)選取50層的殘差網(wǎng)絡(luò)作為基線網(wǎng)絡(luò),通過遷移學(xué)習(xí)ResNet50_vd在ImageNet1k分類數(shù)據(jù)集蒸餾后的模型參數(shù),比較本研究提出的基于ResNet50_ve(見表1)的4種模型在驗(yàn)證集上的各項(xiàng)指標(biāo)數(shù)據(jù),表中數(shù)據(jù)表明使用ResNet50_ve為骨干網(wǎng)絡(luò)4種模型中OCRNet模型在三項(xiàng)指標(biāo)上都達(dá)到了最大值,在驗(yàn)證集推理速度和參數(shù)量上僅次于基于ResNet50_vd的OCRNet。

相較于ResNet50_vd,使用了ResNet50_ve的4種模型都有不同程度的性能提升。在mIoU上,DeepLabV3提升0.03,DeepLabV3p提升0.05,PSPNet提升0.03,OCRNet提升0.01。在Kappa上,DeepLabV3提升0.02,DeepLabV3p提升0.03,PSPNet提升0.01,OCRNet提升0.01。在Pixel Accuracy上,DeepLabV3提升0.34個(gè)百分點(diǎn),DeepLabV3p提升0.55個(gè)百分點(diǎn),PSPNet提升0.29個(gè)百分點(diǎn),OCRNet提升0.04個(gè)百分點(diǎn)。

圖6 基于ResNet_vd的四種模型在訓(xùn)練階段的平均交并比(mean Intersection-over-Union, mIoU)和Accuracy曲線圖

表1 ResNet_vd和與ResNet_ve的四種模型的比較

2.3 基于ResNet50_vd與ResNet50_ve的分割圖比較

為驗(yàn)證改進(jìn)殘差模型的泛化能力和對(duì)圖像的分割效果,分別使用基于ResNet50_ve的OCRNet和DeepLabV3p模型以及基于ResNet50_vd的OCRNet和DeepLabV3p模型預(yù)測(cè)一張2256×514大小的影像,由于研究區(qū)較大橡膠林分散,在預(yù)測(cè)圖上裁剪部分以展示模型的分割結(jié)果。從表1數(shù)據(jù)可得,以ResNet50_ve為骨干網(wǎng)絡(luò)的OCRNet在驗(yàn)證集上的平均交并比達(dá)到0.85,像素準(zhǔn)確率達(dá)到97.87%,卡帕系數(shù)達(dá)到0.90。

圖7中基于ResNet50_vd的DeepLabV3p和OCRNet模型分割林地和水域有較明顯的邊緣上下文信息丟失問題,而基于ResNet50_vd的DeepLabV3p更是沒有分割出橡膠林的內(nèi)部邊界且在多地類中都有信息丟失,分割效果較差。在使用ResNet50_ve為骨干網(wǎng)之后,在林地、水域地類上有明顯的上下文信息增強(qiáng)。在預(yù)測(cè)橡膠林、水域、林地這些拓?fù)浞忾]且光譜色澤勻度一致的地類,上述模型具有一定的分割效果,但在分割居民地這類沒有嚴(yán)格封閉的拓?fù)鋵W(xué)邊界地類時(shí),以上分割模型均有待提升。綜合對(duì)比基于ResNet50_vd的DeepLabV3p的兩種模型的預(yù)測(cè)圖,使用基于本文提出的ResNet50_ve的模型在上下文信息提取能力上有一定程度提升。

圖7 基于ResNet50_vd和ResNet50_ve的DeepLabV3p和OCRNet模型的分割圖比較

3 結(jié) 論

為了進(jìn)一步提升經(jīng)典分割模型提取上下文信息能力,本文提出了一種基于改進(jìn)殘差的優(yōu)化思路,在比較確定適用本文研究的殘差網(wǎng)絡(luò)層數(shù)后,對(duì)比使用ResNet50_vd和ResNet50_ve的4種模型在驗(yàn)證集上的指標(biāo)數(shù)據(jù),通過上述試驗(yàn)得到以下結(jié)論:

1)通過比較基于ResNet50_vd和ResNet101_vd的4種模型指標(biāo)差異,在小尺度衛(wèi)星影像數(shù)據(jù)集上宜使用層數(shù)中等的50層骨干網(wǎng)絡(luò)。使用ResNet50_vd為骨干網(wǎng)絡(luò)的OCRNet模型中在驗(yàn)證集上的平均交并比、卡帕系數(shù)、像素準(zhǔn)確率、推理速度和參數(shù)量上優(yōu)于基于ResNet101_vd和ResNet50_vd的其他模型。

2)通過比較基于ResNet50_vd和ResNet50_ve的4種模型指標(biāo)差異,本文提出的改進(jìn)殘差策略具有一定普適性可適用于多種主流網(wǎng)絡(luò),使用ResNet50_ve為骨干網(wǎng)絡(luò)的模型在指標(biāo)性能上都有不同程度提升,其中使用ResNet50_ve為骨干網(wǎng)絡(luò)的OCRNet平均交并比達(dá)到0.85,像素準(zhǔn)確率達(dá)到97.87%,卡帕系數(shù)達(dá)到0.90,為本文試驗(yàn)最優(yōu)。

3)通過比較基于ResNet50_vd和ResNet50_ve的DeepLabV3p模型和OCRNet預(yù)測(cè)圖,使用改進(jìn)殘差的語義分割方法可以抑制模型在預(yù)測(cè)圖邊緣易出現(xiàn)的上下文信息丟失問題。

[1] 李夢(mèng)怡,朱定局. 基于全卷積網(wǎng)絡(luò)的圖像語義分割方法綜述[J]. 計(jì)算機(jī)系統(tǒng)應(yīng)用,2021,30(9):41-52.

Li Mengyi, Zhu Dingju. Overview of image semantic segmentation methods based on fully convolutional networks[J]. Computer System Applications, 2021, 30(9): 41-52. (in Chinese with English abstract)

[2] 程擎,范滿,李彥冬,等. 無人機(jī)航拍圖像語義分割研究綜述[J]. 計(jì)算機(jī)工程與應(yīng)用,2021,57(19):57-69.

Cheng Qing, Fan Man, Li Yandong, et al. A review of semantic segmentation of UAV aerial images[J]. Computer Engineering and Applications, 2021, 57(19): 57-69. (in Chinese with English abstract)

[3] 王春雷,盧彩云,李洪文,等. 基于支持向量機(jī)的玉米根茬行圖像分割[J]. 農(nóng)業(yè)工程學(xué)報(bào),2021,37(16):117-126.

Wang Chunlei, Lu Caiyun, Li Hongwen, et al. Image segmentation of corn stubble row based on support vector machine[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2021, 37(16): 117-126. (in Chinese with English abstract)

[4] 陳利燕,林鴻,吳健華. 融合隨機(jī)森林和超像素分割的建筑物自動(dòng)提取[J]. 測(cè)繪通報(bào),2021(2):49-53.

Chen Liyan, Lin Hong, Wu Jianhua. Automatic extraction of buildings by combining random forest and superpixel segmentation[J]. Bulletin of Surveying and Mapping, 2021(2): 49-53. (in Chinese with English abstract)

[5] 杜偉杰,于晉偉,楊衛(wèi)華. 基于超像素和最近鄰圖合并的彩色圖像分割[J]. 中北大學(xué)學(xué)報(bào)(自然科學(xué)版),2021,42(3):265-274.

Du Weijie, Yu Jinwei, Yang Weihua. Color image segmentation based on superpixel and nearest neighbor graph merging[J]. Journal of North University of China (Natural Science Edition), 2021, 42(3): 265-274. (in Chinese with English abstract)

[6] 徐淑萍. 基于支持向量機(jī)的圖像分割研究綜述[D].鞍山:遼寧科技大學(xué),2008.

Xv Shuping. Survey of Study on Image Segmentation Based on SVM[D]. Anshan:University of Science and Technology Liaoning, 2008. (in Chinese with English abstract)

[7] 段嘉鑫. 基于上下文信息的圖像分割結(jié)果質(zhì)量評(píng)價(jià)方法研究[D]. 成都:電子科技大學(xué),2021.

Duan Jiaxin. Research on The Quality Evaluation Method of Image Segmentation Results Based on Context Information[D]. Chengdu:University of Electronic Science and Technology of China, 2021. (in Chinese with English abstract)

[8] Chen L C, Papandreou G, Schroff F, et al. Rethinking atrous convolution for semantic image segmentation[EB/OL]. arXiv preprint arXiv:1706.05587, 2017. https://arxiv.org/abs/1706.05587 (2017-06-17)[2022-05-23]

[9] Chen L C, Zhu Y, Papandreou G, et al. Encoder-decoder with atrous separable convolution for semantic image segmentation[C]//Proceedings of the European conference on computer vision (ECCV). 2018: 801-818.

[10] Zhao H, Shi J, Qi X, et al. Pyramid scene parsing network[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2017: 2881-2890.

[11] Yuan Y, Chen X, Wang J. Object-contextual representations for semantic segmentation[C]//Computer Vision–ECCV 2020: 16th European Conference, Glasgow. 2020: 173-190.

[12] 徐長(zhǎng)友,樊紹勝,朱航. 采用通道域注意力機(jī)制Deeplabv3+算法的遙感影像語義分割[J]. 控制工程,2022,3(8):1-8.

Xu Changyou, Fan Shaosheng, Zhu Hang. Remote sensing image semantic segmentation using channel domain attention mechanism Deeplabv3+ algorithm[J]. Control Engineering of China,2022,3(8):1-8. (in Chinese with English abstract)

[13] 王俊強(qiáng),李建勝,周華春,等. 基于Deeplabv3+與CRF的遙感影像典型要素提取方法[J]. 計(jì)算機(jī)工程,2019,45(10):260-265,271.

Wang Junqiang, Li Jiansheng, Zhou Huachun, et al. Extraction method of typical elements of remote sensing image based on Deeplabv3+ and CRF[J]. Computer Engineering, 2019, 45(10): 260-265, 271. (in Chinese with English abstract)

[14] 賴麗琦. 基于DeeplabV3+的無人機(jī)遙感影像識(shí)別[J]. 林業(yè)調(diào)查規(guī)劃,2021,46(3):11-16,62.

Lai Liqi. Recognition of UAV remote sensing image based on DeeplabV3+[J]. Forestry Survey and Planning, 2021, 46(3): 11-16, 62. (in Chinese with English abstract)

[15] 王華俊,葛小三. 一種輕量級(jí)的DeepLabv3+遙感影像建筑物提取方法[J/OL]. (2022-03-08) [2022-05-23]自然資源遙感:1-8.

Wang Huajun, Ge Xiaosan. A lightweight DeepLabv3+ remote sensing image building extraction method[J/OL]. Remote Sensing of Natural Resources: 1-8. https://www.cgsjournals.com/article/doi/10.6046/zrzyyg.2021219 (in Chinese with English abstract)

[16] 宋青松,張超,陳禹,等. 組合全卷積神經(jīng)網(wǎng)絡(luò)和條件隨機(jī)場(chǎng)的道路分割[J]. 清華大學(xué)學(xué)報(bào)(自然科學(xué)版),2018,58(8):725-731.

Song Qingsong, Zhang Chao, Chen Yu, et al. Road segmentation by combining fully convolutional neural networks and conditional random fields[J]. Journal of Tsinghua University (Natural Science Edition), 2018, 58(8): 725-731. (in Chinese with English abstract)

[17] 任歡,王旭光. 注意力機(jī)制綜述[J]. 計(jì)算機(jī)應(yīng)用,2021,41(S1):1-6.

Ren Huan, Wang Xuguang. A review of attention mechanism[J]. Computer Applications, 2021, 41(S1): 1-6. (in Chinese with English abstract)

[18] 郭玥秀,楊偉,劉琦,等. 殘差網(wǎng)絡(luò)研究綜述[J]. 計(jì)算機(jī)應(yīng)用研究,2020,37(5):1292-1297.

Guo Yuexiu, Yang Wei, Liu Qi, et al. Review of residual network research[J]. Computer Application Research, 2020, 37(5): 1292-1297. (in Chinese with English abstract)

[19] He K, Zhang X, Ren S, et al. Deep residual learning for image recognition[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2016: 770-778.

[20] He T, Zhang Z, Zhang H, et al. Bag of tricks for image classification with convolutional neural networks[C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2019: 558-567

[21] Hinton G, Vinyals O, Dean J. Distilling the knowledge in a neural network[EB/OL]. (2015-03-09) [2022-05-23] arXiv preprint arXiv:1503.02531, 2015, 2(7). https://arxiv.org/abs/ 1503.02531

[22] Bagherinezhad H, Horton M, Rastegari M, et al. Label refinery: Improving imagenet classification through label progression[EB/OL]. (20118-03-07) [2022-05-23] arXiv preprint arXiv:1805.02641, 2018. https://arxiv.org/abs/1805.02641

[23] Yalniz I Z, Jégou H, Chen K, et al. Billion-scale semi-supervised learning for image classification[EB/OL]. (2019-03-02) [2022-05-23] arXiv preprint arXiv:1905.00546, 2019. https://arxiv.org/abs/1905.00546

[24] 邵仁榮,劉宇昂,張偉,等. 深度學(xué)習(xí)中知識(shí)蒸餾研究綜述[J]. 計(jì)算機(jī)學(xué)報(bào),2022,45(8):1638-1673.

Shao Renrong, Liu Yuang, Zhang Wei, et al. A survey of knowledge distillation in deep learning[J]. Chinese Journal of Computers, 2022, 45(8): 1638-1673. (in Chinese with English abstract)

[25] 孟憲法,劉方,李廣,等. 卷積神經(jīng)網(wǎng)絡(luò)壓縮中的知識(shí)蒸餾技術(shù)綜述[J]. 計(jì)算機(jī)科學(xué)與探索,2021,15(10):1812-1829.

Meng Xianfa, Liu Fang, Li Guang, et al. Review of knowledge distillation in convolutional neural network compression[J]. Journal of Frontiers of Computer Science and Technology, 2021, 15(10): 1812-1829. (in Chinese with English abstract)

Semantic segmentation method for rubber satellite images based on improved residual networks

Yu Guo1, Liu Qiubin1, Chen Fangyuan1, Liu Dazhao1,2※

(1.,524003,;2.,524003,)

Rubber has been one of the most important cash crops in recent years. It is of great practical significance to segment the satellite images of rubber plantations using deep learning for agricultural refinement. In this study, a novel strategy was proposed to improve the residual network and its variant (ResNet-ve) for the segmentation. The study area was taken as the Rubber Plantation in Xuwen County, Zhanjiang City, Guangdong Province of China. The dataset was constructed using the Sentinel-2 multispectral satellite images as the data source. The OCRNet was used to incorporate an improved residual network. Inspired by Deeper Bottleneck Architectures proposed by Kaiming He, the modification strategy was established to modify path B in the Down Sampling module of each stage in the ResNet_vd middle layer. Specifically, the mean pooling module with 2×2 steps of 1 was replaced with a most-valued pooling module with 2×2 steps of 1, and then to add a 1×1 convolution before (called Deeper Bottleneck Pooling Architectures-like). The same modification strategy was applied to the other residual modules of the same stage, after which these modules were sequentially cascaded to form the improved stage. After that, the activation function was modified into the PReLU function to compare the network performance of the backbone network using the improved ResNet_ve. The improved residual network ResNet50_ve and basic ResNet50_vd network were used as the backbone networks of the four models. Among them, the student model was obtained to distillate the ResNet50_vd on ImageNet1k classification dataset using migration learning. A pre-trained model was then injected into the network training weight parameter for the modified ResNet_ve backbone network and ResNet_vd baseline backbone network to start the four networks. The results show that the ResNet50_vd network with the medium number of layers converged better than the ResNe101_vd network with the deeper layers on the training set of small-scale satellite images, and the OCRNet network on ResNet50_vd outperformed the DeeplabV3, DeeplabV3+, and PSPNet networks in all aspects. The OCRNet network with ResNet50_vd was used as a baseline for the subsequent experiments. The OCRNet with ResNet50_ve as the backbone network was achieved in the mIoU of 0.85, pixel accuracy of 97.87%, and a Kappa coefficient of 0.90 on the validation set. Therefore, an OCRNet with ResNet50_ve as the backbone network presented the best fineness of the internal boundary of the prediction graph among the four networks. There were also the least amount of time resources and the least number of parameters among the four networks. The OCRNet with the ResNet_ve as the backbone network was increased by 0.01 in the mIoU, and 0.01 in the Kappa coefficient, compared with the OCRNet with the ResNet_vd as the backbone network. By contrast, the accuracy metrics of the other three networks cannot be improved much using the ResNet_ve as the backbone network. The other three networks only improved the index data, in terms of the Kappa coefficient and mIoU index. Among them, the most obvious improvement was achieved in the DeepLabV3p. The OCRNet model with the improved residual network used the contextual and the deepest pixel features for the weighted splicing without the contextual information loss, while explicitly enhancing the pixel contributions from the same class of objects. As such, the background noise cannot be introduced, when extracting the multi-scale information. Thus, better performance was achieved in the accurate extraction of rubber distribution.

remote sensing; deep learning; rubber forest; semantic segmentation; residual network

10.11975/j.issn.1002-6819.2022.15.022

TP751

A

1002-6819(2022)-15-0204-08

余果,劉秋斌,陳方園,等. 基于改進(jìn)殘差網(wǎng)絡(luò)的橡膠林衛(wèi)星影像語義分割方法[J]. 農(nóng)業(yè)工程學(xué)報(bào),2022,38(15):204-211.doi:10.11975/j.issn.1002-6819.2022.15.022 http://www.tcsae.org

Yu Guo, Liu Qiubin, Chen Fangyuan, et al. Semantic segmentation method for rubber satellite images based on improved residual networks[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2022, 38(15): 204-211. (in Chinese with English abstract) doi:10.11975/j.issn.1002-6819.2022.15.022 http://www.tcsae.org

2022-05-23

2022-07-29

廣東省自然科學(xué)基金(2019A1515110840)

余果,研究方向?yàn)檎Z義分割在農(nóng)業(yè)遙感領(lǐng)域的應(yīng)用。Email:yg9655@icloud.com

劉大召,教授,研究方向?yàn)檗r(nóng)業(yè)遙感及應(yīng)用。Email:llddz@163.com

猜你喜歡
橡膠林集上骨干
海南橡膠林生態(tài)系統(tǒng)凈碳交換物候特征
橡膠林
Cookie-Cutter集上的Gibbs測(cè)度
鏈完備偏序集上廣義向量均衡問題解映射的保序性
核心研發(fā)骨干均16年以上!創(chuàng)美克在產(chǎn)品研發(fā)上再發(fā)力
復(fù)扇形指標(biāo)集上的分布混沌
骨干風(fēng)采展示
西雙版納橡膠林土壤有機(jī)碳分布特征研究
關(guān)于組建“一線話題”骨干隊(duì)伍的通知
幾道導(dǎo)數(shù)題引發(fā)的解題思考
双流县| 洮南市| 潞城市| 铅山县| 福建省| 庆阳市| 贡嘎县| 克什克腾旗| 宁夏| 天峻县| 蕉岭县| 新竹县| 德化县| 天等县| 古浪县| 密山市| 济南市| 天台县| 丹阳市| 玉山县| 洪江市| 吴川市| 南城县| 五河县| 鄂伦春自治旗| 信丰县| 陈巴尔虎旗| 荥阳市| 台前县| 偃师市| 鄂尔多斯市| 疏附县| 罗山县| 大厂| 十堰市| 巴马| 固镇县| 上蔡县| 阳春市| 竹溪县| 内黄县|