国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

融合余弦退火與空洞卷積的遙感影像語義分割

2024-01-01 13:32唐振超韋蔚羅蔚然胡潔張東映
遙感學(xué)報 2023年11期
關(guān)鍵詞:膨脹率余弦空洞

唐振超,韋蔚,羅蔚然,胡潔,張東映

1.華中科技大學(xué) 土木與水利工程學(xué)院,武漢 430074;

2.黃河勘測規(guī)劃設(shè)計研究院有限公司,鄭州 450003;

3.鄭州大學(xué) 水利科學(xué)與工程學(xué)院,鄭州 450001

1 引言

高分辨率遙感影像語義分割作為數(shù)據(jù)到信息對象化提取的過渡環(huán)節(jié)與關(guān)鍵步驟,是高分辨率遙感影像解譯的典型任務(wù)。傳統(tǒng)的高分辨率遙感影像解譯通常采用人工目視解譯方式,費時費力且精度低。近年來,隨著人工智能技術(shù)的發(fā)展,采用深度學(xué)習(xí)方法實現(xiàn)高分辨率遙感影像解譯已成為主流的研究方向(Zhou 等,2021)。最近的工作表明,深度卷積神經(jīng)網(wǎng)絡(luò)結(jié)合條件隨機場的方法已在高分辨率遙感影像語義分割任務(wù)上取得廣泛應(yīng)用(Li等,2020)。

自從全卷積神經(jīng)網(wǎng)絡(luò)FCN(Long 等,2015)首次被用于圖像的語義分割后,各種網(wǎng)絡(luò)不斷被提出和改進,segnet(Badrinarayanan等,2017)通過保留池化索引提高分割效果,unet(Ronneberger等,2015)基于U 型結(jié)構(gòu)使網(wǎng)絡(luò)融合不同尺度的信息。Sun 和Wang(2018)提出全卷積神經(jīng)網(wǎng)絡(luò)結(jié)合數(shù)字高程模型DEM,通過引入高程信息提高遙感影像的語義分割效果。但是標(biāo)準卷積的感受野較小,缺乏上下文信息。因此,從deeplabv1(Chen 等,2015)開始,使用了空洞卷積(Yu 和Koltun,2016),空洞卷積在不增加參數(shù)的情況下保持分辨率并擴大感受野,有利于捕捉更大范圍的上下文信息。Wang 等(2020)設(shè)計了空洞卷積組塊,在結(jié)冰湖面誤提取,陰影漏提取,以及提取結(jié)果完整性等方面,具有較好的效果。但對于上述堆疊空洞卷積組塊的模型,容易出現(xiàn)網(wǎng)格效應(yīng)(Anthimopoulos 等,2019),遙感影像的地物對象會呈現(xiàn)出異常的網(wǎng)格區(qū)域。Wang 等(2018)提出標(biāo)準化結(jié)構(gòu)HDC,按照鋸齒狀的規(guī)律設(shè)置膨脹率并堆疊空洞卷積可以緩解網(wǎng)格效應(yīng);與HDC 的串行結(jié)構(gòu)相反,空洞空間金字塔(Chen 等,2018)提出并行結(jié)構(gòu),該方法使用不同膨脹率的空洞卷積對特征執(zhí)行并行的卷積計算。

標(biāo)準卷積與空洞卷積缺乏空間與邊緣上下文信息的約束(Teichmann 和Cipolla,2019)。全連接條件隨機場CRF(Kr?henbühl 和Koltun,2011)是一種判別式概率無向圖學(xué)習(xí)模型,可充分考慮影像全局結(jié)構(gòu)信息。Zhao 等(2020)使用CRF 結(jié)合Pauli 相干分解重建假彩色圖,對FCN 的輸出進行全局像素類別轉(zhuǎn)移獲得分割結(jié)果,在高分三號C頻段PolSAR影像上取得了較好的精度。

深度學(xué)習(xí)模型訓(xùn)練通常采取學(xué)習(xí)率遞減的優(yōu)化方式,該策略導(dǎo)致模型收斂于局部最優(yōu)。余弦退火方法(Loshchilov 和Hutter,2017),通過學(xué)習(xí)率急劇上升幫助模型跳出局部最優(yōu)解,該策略使學(xué)習(xí)率遞減到一定值再急劇上升,如此往復(fù)。snapshot ensembling(Huang 等,2017)提出在使用余弦退火策略訓(xùn)練時,保留各個局部最優(yōu)解,推理時集成局部最優(yōu)解可以使集成模型的分類精度明顯超越單一模型。但經(jīng)典余弦退火策略使用相同的周期調(diào)整學(xué)習(xí)率,生成過多局部最優(yōu)模型,導(dǎo)致集成模型所花費的推理時間大幅增加。因此本文引入周期遞增余弦退火策略,能有效減少集成模型的推理時間。

為了充分利用遙感影像中豐富的上下文信息,改進集成模型的學(xué)習(xí)策略,提高語義分割精度,本文提出一種融合周期遞增余弦退火與多尺度空洞卷積的高分辨率遙感影像語義分割方法。本文方法采用并行的多尺度空洞卷積充分捕捉遙感影像上的多尺度地物信息,使模型能有效辨識不同尺度的復(fù)雜對象;基于全連接條件隨機場引入空間和邊緣上下文信息,細化語義分割結(jié)果;使用周期遞增余弦退火方法作為學(xué)習(xí)策略,以減少集成模型的推理時間,并提高遙感影像的語義分割精度。

2 方 法

2.1 多尺度空洞卷積網(wǎng)絡(luò)

對于普通的標(biāo)準卷積,假設(shè)有離散的函數(shù)F:Z2→R,有Ωr=[ -r,r]2∩Z2,令k為一個離散的卷積核:Ωr→R,則以p為中心展開的卷積可以描述為

對標(biāo)準卷積進行擴充,令l表示空洞卷積的膨脹率,則空洞卷積可以描述為

可見,標(biāo)準卷積是空洞卷積的特殊形式,當(dāng)空洞卷積膨脹率為1 時,空洞卷積等價于標(biāo)準卷積。

如圖1 所示,圖1(a),(b),(c)分別對應(yīng)空洞卷積膨脹率為1,2,4的情況,可以看出,當(dāng)空洞卷積膨脹率逐漸增加,感受野隨之增大。

圖1 空洞卷積采樣示意圖Fig.1 Sampling diagram of atrous convolution

空洞卷積可以通過設(shè)置膨脹率在特征上稀疏采樣,在密集計算任務(wù)中,有利于控制感受野,增加上下文信息。空洞卷積膨脹率的設(shè)置不影響原始網(wǎng)絡(luò)參數(shù)的結(jié)構(gòu),有利于模型的遷移學(xué)習(xí),因此,可以方便地設(shè)置膨脹率并基于原始網(wǎng)絡(luò)的參數(shù)進行微調(diào)。

在深層網(wǎng)絡(luò)提取特征的過程中,擬合殘差比擬合恒等映射更加容易,在resnet(He 等,2016)中,跳接是實現(xiàn)該結(jié)構(gòu)的方式,將卷積網(wǎng)絡(luò)跳接并封裝成為殘差塊。多個殘差塊堆疊可以加深網(wǎng)絡(luò)并確保模型學(xué)習(xí)到高層信息。本文基于resnet101作為基本框架,使用到resnet101的第1層至第4層,使用較深的層是為了捕捉到較高層的語義信息,更高層的信息有助于提高分類的準確率。在resnet101中,低層網(wǎng)絡(luò)使用標(biāo)準卷積,高層網(wǎng)絡(luò)的卷積設(shè)置膨脹率為2,即利用空洞卷積獲取對象的周邊信息。網(wǎng)絡(luò)低層使用標(biāo)準卷積是為了完整提取對象的特征,如果在低層直接使用空洞卷積,網(wǎng)絡(luò)會過度關(guān)注對象周邊的低層信息,削弱網(wǎng)絡(luò)對真實對象的理解能力;另外,基于特征進行空洞卷積,有助于網(wǎng)絡(luò)理解對象周邊信息的高層語義。

在深層網(wǎng)絡(luò)中,連續(xù)堆疊相同膨脹率的空洞卷積容易引起網(wǎng)格效應(yīng),由于空洞卷積模板在特征上執(zhí)行的是一種膨脹計算方式,所以卷積過程中會丟失部分特征的信息,信息損失對于空間密集的分割任務(wù)來說是不利的(Dumoulin 和Visin,2016)。另外,當(dāng)空洞卷積模板尺寸較小,但膨脹率較大時,對于較大目標(biāo)的對象,空洞卷積依然能夠感知到,但對于小目標(biāo)對象,容易在計算中被忽略。為了改善空洞卷積帶來的問題,可以采用對輸入特征進行多尺度并行卷積的方法,并行結(jié)構(gòu)可以有效處理多尺度對象,多尺度并行卷積的結(jié)構(gòu)類似于pspnet 的空間金字塔池化(Zhao 等,2017)和deeplabv2的空洞空間金字塔池化。

如圖2所示,空洞空間金字塔可以對給定輸入特征以不同膨脹率的空洞卷積進行采樣,在不同尺度上捕捉特征的上下文信息。遙感影像的語義分割對象尺度大小一般很極端,平原上可能草地的尺度遠遠大于建筑物的尺度,如果使用結(jié)構(gòu)化的HDC 串行計算會使過分小的特征在網(wǎng)絡(luò)加深的過程中受到影響,而且堆疊結(jié)構(gòu)化的空洞卷積,在計算上也會存在冗余。因此,為了更好地保留不同尺度的特征,本文使用空洞空間金字塔的并行卷積結(jié)構(gòu)對特征進行計算,基于不同的膨脹率并行地在特征上采樣多尺度信息。

圖2 空洞空間金字塔池化示意圖Fig.2 The pooling procedure of atrous space pyramid

2.2 網(wǎng)絡(luò)結(jié)構(gòu)

空洞卷積實際上是在標(biāo)準卷積的基礎(chǔ)上通過模板膨脹對特征進行采樣,所以從標(biāo)準卷積改進到空洞卷積不會改變原始卷積網(wǎng)絡(luò)的參數(shù)。對于語義分割任務(wù),特征提取會降低分辨率(Zuo 等,2020),為了恢復(fù)分辨率,需要對特征上采樣解碼,在FCN 中,借助跳級結(jié)構(gòu)可以將低層特征用于上采樣,因為低層特征具有一定分辨率,包含位置信息。本文以resnet101 為特征提取主干網(wǎng)絡(luò),從較高層網(wǎng)絡(luò)開始使用空洞卷積,并用空洞空間金字塔捕獲不同尺度的特征,在金字塔分支中保留標(biāo)準卷積操作以關(guān)注對象本身的特征,相比deeplabv3,本文丟棄全局池化以降低過度下采樣的影響,并在網(wǎng)絡(luò)輸出端增加全連接條件隨機場CRF 進行后處理。CRF 符合吉布斯分布,使用能量函數(shù)為

一元勢能函數(shù)描述觀測序列對標(biāo)記變量的影響:

對于像素點i,P(xi)是網(wǎng)絡(luò)對該像素的分類的概率,二元勢能函數(shù)描述變量之間的相關(guān)性,即像素之間的相關(guān)性:

當(dāng)xi≠yj時,u(xi,yj)=1,否則值為零,可以看出,不同像素之間是全連接的,而km(fi,fj)是fi與fj之間的高斯核,fi是像素i對應(yīng)的特征向量即顏色信息,wm是高斯核的權(quán)重。通過最小化能量函數(shù),可以使圖像的像素分類更加準確。綜合以上描述,可以得到一個詳細的網(wǎng)絡(luò)結(jié)構(gòu),本文網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。

圖3 網(wǎng)絡(luò)結(jié)構(gòu)示意圖Fig.3 The proposed neural network architecture

語義分割是像素級的分類,所以可以用交叉熵計算損失。令N為圖像中像素的數(shù)量,k為類別的數(shù)量,對于某個確定的像素i,yi表示其類別,用表示預(yù)測各類別的得分,由于遙感影像數(shù)據(jù)分類對象分布規(guī)律不均衡,為了強迫網(wǎng)絡(luò)學(xué)習(xí)到各類對象的分布,需要在交叉熵的每類對象上附加權(quán)重wi,損失函數(shù)計算如下:

2.3 余弦退火方法調(diào)整學(xué)習(xí)率

在一般情況下,優(yōu)化的目標(biāo)函數(shù)是多峰的,存在多個局部最優(yōu)解,在傳統(tǒng)學(xué)習(xí)策略下,學(xué)習(xí)率逐步減小會使模型陷入局部最優(yōu)解,為了跳出局部最優(yōu)解,可以急劇增大學(xué)習(xí)率,這被稱為熱重啟隨機梯度下降法,重啟指的是恢復(fù)學(xué)習(xí)率。其中較簡單的一種熱重啟方式為余弦退火(Hinton等,2015),余弦退火方法的原理描述為

式中,i表示熱重啟的次數(shù),限制了第i次熱重啟的學(xué)習(xí)率變化范圍,可以使隨著熱重啟次數(shù)的上升逐步減小,也可以為了計算簡便,保持兩者的值不變。Tcur表示當(dāng)前學(xué)習(xí)經(jīng)歷的次數(shù),Ti表示第i次熱重啟到第i+1次熱重啟的學(xué)習(xí)次數(shù),即余弦退火的周期。

如圖4 所示,初始學(xué)習(xí)率從0.1 開始,余弦退火方法使學(xué)習(xí)率逐漸下降又快速上升到初始值。相同周期的余弦退火方法會使網(wǎng)絡(luò)學(xué)習(xí)缺少穩(wěn)定性,因此,本文首次提出周期遞增變化的余弦退火方法,采用該方法調(diào)整學(xué)習(xí)率則能夠使學(xué)習(xí)過程相對平緩,圖4中周期遞增余弦退火的周期是以2為公比的等比數(shù)列。等周期的余弦退火使學(xué)習(xí)率變化頻率過快,模型反復(fù)跳出局部最優(yōu),導(dǎo)致不能找到一個表現(xiàn)較為穩(wěn)定的局部最優(yōu)模型,這一現(xiàn)象會影響結(jié)果集成的準確程度。很明顯周期遞增的余弦退火方法相比等周期的余弦退火方法,可以在學(xué)習(xí)中后期獲得訓(xùn)練更平穩(wěn)的局部最優(yōu)模型,從而提升結(jié)果集成的準確程度。

另外,模型集成必然會增加網(wǎng)絡(luò)推理的時間,在相同的迭代次數(shù)下,周期遞增余弦退火策略獲得的局部最優(yōu)模型數(shù)量遠少于等周期余弦退火策略的模型數(shù)量,更少的局部最優(yōu)模型可以大幅度縮短集成推理的時間(Polino 等,2018)。綜合看來,周期遞增的余弦退火策略可以使模型集成在超越單一模型表現(xiàn)的同時避免過長的推理時間,訓(xùn)練中保存的局部最優(yōu)模型相比等周期余弦退火的局部最優(yōu)模型效果會更好更穩(wěn)定。

訓(xùn)練時,在每次學(xué)習(xí)率熱重啟前需要保留局部最優(yōu)解,語義分割實際上是像素級別的分類任務(wù),所以集成模型可以基于保留下來的局部最優(yōu)模型,按照得分投票的方式選擇最終像素分類結(jié)果。

綜上所述,本文提出的方法具體分為以下步驟:(1)基于resnet101初始化網(wǎng)絡(luò),截取layer1至layer4,layer4 的空洞卷積膨脹率為2,layer1 至layer3 的空洞卷積膨脹率均為1,相當(dāng)于標(biāo)準卷積;(2)對resnet101輸出的特征做空洞空間金字塔卷積,用不同的膨脹率并行卷積,空間金字塔卷積不進行全局池化,將全局池化分支改用標(biāo)準卷積代替,從而更深入獲取語義信息,提高分類準確率;(3)使用跳級結(jié)構(gòu)將resnet101中l(wèi)ayer1生成的低層特征與線性插值后的空間金字塔卷積結(jié)果進行融合,低層特征可以為高層特征帶來部分位置信息,對網(wǎng)絡(luò)輸出的粗糙分割結(jié)果基于條件隨機場進行后處理;(4)使用交叉熵計算損失,由于遙感影像的對象分布不均衡,所以在交叉熵計算時會給每一類對象附加權(quán)重,網(wǎng)絡(luò)的訓(xùn)練采用周期遞增的余弦退火方法調(diào)整學(xué)習(xí)率,并保留每個局部最優(yōu)模型,推理時再集成局部最優(yōu)模型的結(jié)果;(5)高分辨率遙感影像不能一次性完成分割,所以需要先切片再逐一語義分割,拼接各個切片時通過簡單的填充孔洞和去除小連通域,修復(fù)不合理的預(yù)測結(jié)果。

3 實驗設(shè)置

3.1 數(shù)據(jù)集與數(shù)據(jù)預(yù)處理

本文基于GID(Gaofen Image Dataset)(Tong等,2020)評估語義分割方法。GID 建立于Gaofen-2衛(wèi)星遙感影像,GID語義分割對象覆蓋范圍大,分布廣泛且空間分辨率高。大規(guī)模分類集涉及5類對象,精細分類集則將分類對象細化至15 類。本文在15 類精細分類集上選取了包含不同地物信息的10 幅高分辨率遙感影像及其對應(yīng)的標(biāo)注影像作為訓(xùn)練樣本。在GID 中,15 類對象以外的其他對象所占比例不能忽略,所以要將其視為一類對象考慮,因此,實際分類的數(shù)量應(yīng)該是16 類。本文語義分割的類別有:水田,水澆地,旱耕地,園地,喬木林地,灌木林地,天然草地,人工草地,工業(yè)用地,城市住宅,村鎮(zhèn)住宅,交通運輸,河流,湖泊,坑塘以及其他類別。

高分辨率遙感影像的尺寸往往較大,GID精細分類的單幅圖像分辨率為(7200,6800)。為了適應(yīng)計算機視覺模型的實際處理情況,需要對原始高分辨率遙感影像切片處理,在實驗中,切片大小的不同沒有對模型性能產(chǎn)生顯著性影響,考慮到目前主流卷積網(wǎng)絡(luò)處理的圖像分辨率一般是(512,512),因此本文將每幅遙感影像切片至512分辨率,切片步長設(shè)置為256以確保切片數(shù)據(jù)的連續(xù)性。為了與常規(guī)的深度卷積神經(jīng)網(wǎng)絡(luò)相兼容,需要從切片后的遙感影像中提取RGB 三通道。遙感影像的地物信息復(fù)雜,目標(biāo)對象形狀變化各異,卷積神經(jīng)網(wǎng)絡(luò)擅長局部特征的模式匹配,即需要一定的數(shù)據(jù)增強讓網(wǎng)絡(luò)學(xué)習(xí)到地物的形變,提高模型的魯棒性。本文只進行常規(guī)的數(shù)據(jù)增強:隨機水平翻轉(zhuǎn),隨機豎直翻轉(zhuǎn),顏色抖動。在數(shù)據(jù)增強時,標(biāo)注圖像也要跟隨RGB 圖像做同樣的處理。

對于深度神經(jīng)網(wǎng)絡(luò)來說,數(shù)值較小的張量對反向傳播的計算較為友好,且在標(biāo)準的分布上進行學(xué)習(xí)會更加容易(Ioffe 和Szegedy,2015)。因此,可以根據(jù)數(shù)據(jù)集中不同通道的均值與標(biāo)準差對輸入圖像進行標(biāo)準化。假設(shè)數(shù)據(jù)集一共有m張RGB 圖像,而這些RGB 圖像可分成3 個通道的張量[y1,y2,y3]。

再根據(jù)各個通道的均值μ和標(biāo)準差σ進行標(biāo)準化得到張量[z1,z2,z3]。

3.2 語義分割實驗設(shè)置

本文模型的訓(xùn)練采用周期遞增余弦退火方法調(diào)整學(xué)習(xí)率,保留每個局部最優(yōu)模型,在驗證集上通過集成局部最優(yōu)模型投票決定像素類別。模型訓(xùn)練的優(yōu)化方法采用Adadelta(Zeiler,2012),初始學(xué)習(xí)率設(shè)置為1×10-1,余弦退火的周期設(shè)置以2 為公比的等比數(shù)列,其余參數(shù)采用Adadelta 默認值。Adadelta 可以在訓(xùn)練初中期取得較快速的效果,當(dāng)進入訓(xùn)練后期,則會反復(fù)在局部最小值附近抖動,此時學(xué)習(xí)率急劇上升,模型保存局部最優(yōu)解后,再跳出局部最優(yōu)解,開始一段新的優(yōu)化過程。模型的特征提取主干網(wǎng)絡(luò)是resnet101,在ImageNet(Deng等,2009)上預(yù)訓(xùn)練過的resnet101雖然不能直接檢測到遙感影像的具體地物信息,但可以有效感知邊,角,顏色等低層信息,使網(wǎng)絡(luò)獲得一個良好的初始解;對網(wǎng)絡(luò)的其他層參數(shù)采用服從標(biāo)準正態(tài)分布的隨機初始化,空洞卷積的膨脹率分別設(shè)置(1,2,6,12,18)。本文模型在遍歷整個數(shù)據(jù)集256次后能夠收斂,如果設(shè)置批處理大小為8,則訓(xùn)練一共迭代次數(shù)為5×104。

關(guān)于模型的對比實驗,本文在并行空洞卷積層調(diào)整結(jié)構(gòu),分別驗證使用并行標(biāo)準卷積,連續(xù)堆疊相同膨脹率的空洞卷積,按照HDC 結(jié)構(gòu)堆疊空洞卷積和本文網(wǎng)絡(luò)的語義分割表現(xiàn)。4種網(wǎng)絡(luò)均使用周期遞增的余弦退火方法進行訓(xùn)練。為了有效對比不同卷積結(jié)構(gòu)的影響,4 種網(wǎng)絡(luò)都不使用CRF進行后處理。

關(guān)于模型學(xué)習(xí)策略的對比,以本文網(wǎng)絡(luò)為基礎(chǔ),設(shè)置3種不同的訓(xùn)練模式:使用標(biāo)準隨機梯度下降訓(xùn)練,使用等周期余弦退火方法訓(xùn)練,使用周期遞增余弦退火方法訓(xùn)練。比較3 種訓(xùn)練方式下,模型的推理時間增長趨勢,以及模型在驗證數(shù)據(jù)上的語義分割表現(xiàn)。

對于CRF 的影響,本文在所提出的方法上,分別設(shè)置是否使用CRF 兩種情況,在驗證數(shù)據(jù)上對比使用CRF 與否得到的語義分割表現(xiàn)。另外,引入近年來常用的語義分割模型:FCN-8s(Long等,2015),segnet(Badrinarayanan等,2017),unet(Ronneberger 等,2015),deeplabv3(Chen 等,2017)。將主流卷積網(wǎng)絡(luò)模型與本文方法進行比較。主流模型的訓(xùn)練均采用Adam(Kingma 和Ba,2015),訓(xùn)練參數(shù)使用Adam方法的默認值。FCN-8s,segnet,unet 的網(wǎng)絡(luò)參數(shù)按照文獻(Garcia-Garcia等,2017)提出的標(biāo)準進行設(shè)置,deeplabv3 按照文獻(Kamann 和Rother,2020)中使用的參數(shù)進行設(shè)置。

3.3 模型評價指標(biāo)

本文使用像素分類的總體精度,具體某一類的分類精度,以及Kappa系數(shù)評價實驗的語義分割效果。記Pab為將屬于a類的像素預(yù)測為屬于b類的數(shù)量,令ta=∑bPab表示屬于a類的所有像素數(shù)量,tb=∑aPab表示被預(yù)測為b類的所有像素數(shù)量。則總體精度OA 表示為正確分類的像素與圖像中所有像素的百分比:

對于b類對象的分類精度UA 表示所有被分類為b的像素中,被正確分類的像素比例:

Kappa 系數(shù)是一個用于衡量預(yù)測與真實標(biāo)簽的吻合程度的統(tǒng)計量:

式中,有k∈[1,K],K是分類對象的數(shù)量。

為了便于可視化觀察各個類別的分類結(jié)果,可以使用混淆矩陣清晰反映,混淆矩陣的每一行之和是實際為該類別的樣本數(shù)量,每一列之和是預(yù)測為該類別的樣本數(shù)量。

4 結(jié)果與分析

4.1 不同卷積的實驗結(jié)果對比

卷積層結(jié)構(gòu)的調(diào)整對語義分割結(jié)果造成不同意義的影響,在本文方法的并行空洞卷積層調(diào)整卷積的結(jié)構(gòu),不同結(jié)構(gòu)下的語義分割結(jié)果對比如圖5 所示。圖5(a)—(f)分別為原圖,真實標(biāo)注,并行標(biāo)準卷積分割結(jié)果,連續(xù)堆疊等膨脹率空洞卷積分割結(jié)果,按HDC 標(biāo)準堆疊空洞卷積分割結(jié)果,并行多尺度空洞卷積分割結(jié)果。從圖5(c)可以看出,雖然采用并行的結(jié)構(gòu),但標(biāo)準的卷積不能較好地學(xué)習(xí)到圖像的像素語義信息,比如錯誤地將水澆地的像素分類到其他類別,部分住宅被錯分為交通運輸。圖5(d)反映了使用連續(xù)堆疊相同膨脹率空洞卷積的分割結(jié)果,當(dāng)使用連續(xù)堆疊的空洞卷積時,相比標(biāo)準卷積,分割結(jié)果有所改善。由于空洞卷積可以注意到更多上下文信息,因此對比標(biāo)準卷積,堆疊的空洞卷積可以更廣泛地感知到水澆地周圍的信息,從而利于水澆地的識別。圖5(d)也可以看出,分割結(jié)果是粗糙的,由于連續(xù)堆疊的空洞卷積膨脹率相同,在前向計算不斷擴張采樣區(qū)域的同時,導(dǎo)致了網(wǎng)格效應(yīng),造成在遙感影像的分割結(jié)果中,出現(xiàn)廣泛分布的異常區(qū)域。使用標(biāo)準化結(jié)構(gòu)的設(shè)計,按照HDC 的標(biāo)準堆疊空洞卷積,改善了網(wǎng)格效應(yīng),基于HDC標(biāo)準的分割結(jié)果如圖5(e)所示。根據(jù)HDC 標(biāo)準,膨脹率呈鋸齒狀分布的空洞卷積可以在前向計算中彌補信息丟失的風(fēng)險,從而降低網(wǎng)格效應(yīng)的影響,結(jié)合空洞卷積廣泛感知上下文信息的優(yōu)點,使分割結(jié)果得到提升。本文方法采用并行的多尺度空洞卷積,分割結(jié)果如圖5(f)所示,相比基于HDC 標(biāo)準的堆疊空洞卷積,其分割結(jié)果與真實標(biāo)注更吻合。并行且多尺度的設(shè)計結(jié)構(gòu)一方面可以讓模型獲得感知多尺度地物信息的能力;另一方面將各個尺度的信息進行融合,在一定程度上彌補了前向計算中的信息丟失,從而降低網(wǎng)格效應(yīng)的影響。不同膨脹率的空洞卷積讓模型在面對同一對象時,可以不同程度地感受到周圍信息,加強模型對目標(biāo)對象的識別能力。并行的結(jié)構(gòu)相比HDC標(biāo)準下的串行設(shè)計具有更高效的計算優(yōu)勢。

圖5 不同卷積的語義分割結(jié)果Fig.5 Semantic segmentation results of different convolutions

表1為并行標(biāo)準卷積,連續(xù)堆疊相同膨脹率的空洞卷積,按照HDC 結(jié)構(gòu)堆疊空洞卷積和本文網(wǎng)絡(luò)在驗證集上的語義分割結(jié)果。本文采用的并行多尺度空洞卷積在整體精度與Kappa系數(shù)上均優(yōu)于采用其他卷積結(jié)構(gòu)的模型。

表1 不同卷積的分割結(jié)果Table 1 Segmentation results of different convolutions

4.2 學(xué)習(xí)策略的效率對比分析

模型的集成過程導(dǎo)致推理花費的時間上升,處理的數(shù)據(jù)量越大,時間花費越顯著,使用周期遞增余弦退火策略可以避免推理造成過多的時間花費,本文在模型學(xué)習(xí)時,設(shè)置退火周期為一個以2為公比的等比數(shù)列,在經(jīng)過設(shè)置的迭代次數(shù)后一共得到6個局部最優(yōu)模型,相比于等周期余弦退火在訓(xùn)練結(jié)束后一共得到的17 個局部最優(yōu)模型,推理速度可以獲得明顯的改善。

表2反映了采用標(biāo)準隨機梯度下降,等周期余弦退火方法和周期遞增余弦退火方法訓(xùn)練后,模型在驗證數(shù)據(jù)上的整體精度和Kappa 系數(shù)。3 種策略分別記作策略(1,2,3)。從表2看出,集成模型的效果優(yōu)于單一模型,且合適數(shù)量的局部最優(yōu)模型也可以接近大量局部最優(yōu)模型的計算結(jié)果。

表2 學(xué)習(xí)策略對比Table 2 Comparison of learning strategies

圖6反映了伴隨數(shù)據(jù)量逐步上升后推理時間變化的趨勢,每批數(shù)據(jù)包含8張切片圖像,時間花費以毫秒為單位。從圖6可以看出,標(biāo)準隨機梯度下降得到的模型在時間變化程度上最慢,因為在推理時,標(biāo)準隨機梯度下降法訓(xùn)練的模型不需要進行集成。當(dāng)使用余弦退火訓(xùn)練模型時,模型集成使推理時間快速上升,如果使用周期遞增的余弦退火則可以緩解時間花費過高的情況。因此,在使用周期遞增余弦退火策略后,一方面通過集成確保結(jié)果的準確程度優(yōu)于標(biāo)準隨機梯度下降法訓(xùn)練的模型,另一方面該策略生成的子模型數(shù)量較少,從而確保推理的時間花費不會過高。

圖6 數(shù)據(jù)量逐步上升的推理時間變化趨勢Fig.6 The variation trend of inference time by the increasing of data volume

4.3 使用CRF處理與否的對比分析

圖7(a)—(d)分別為原圖,真實標(biāo)注,本文方法在不使用CRF 情況下的分割結(jié)果,以及本文方法使用CRF 后處理的分割結(jié)果。從圖7(c)對比真實標(biāo)注可以看出,模型能夠得到較為精細的分割結(jié)果,且保持了一定的分類精度,不論是交通運輸這類細致目標(biāo)對象,還是坑塘,水澆地這類大范圍目標(biāo)對象,由于多尺度的空洞卷積,模型均能夠得到合理的分割結(jié)果。

圖7 使用CRF與否的語義分割結(jié)果對比Fig.7 Comparison of semantic segmentation results using CRF or not

本文方法在空洞卷積金字塔層上,取消了deeplabv3 中的全局池化,并使用CRF 引入空間上下文信息,這可以獲得更精細的位置信息。實驗過程表明,CRF的迭代次數(shù)為5次就可以得到較好結(jié)果,圖7(d)就是利用模型輸出的粗糙分割結(jié)果與原圖融合并經(jīng)過條件隨機場5次迭代獲得的最終語義分割結(jié)果。觀察原圖與真實標(biāo)注,可以發(fā)現(xiàn),在CRF 精細修復(fù)后,獲得了一個更良好的效果。在驗證數(shù)據(jù)上的分割結(jié)果顯示,結(jié)合CRF 后處理,本文模型的整體精度與Kappa 系數(shù)分別從84.3%和79.6%,提升到86.6%和81.8%。

比較圖7(d)與真實標(biāo)注,使用CRF 后,在坑塘等位置存在差異,因為原圖的坑塘間本身存在細小的道路,且兩者顏色差異較大,這會對CRF計算的分布產(chǎn)生影響,從而造成預(yù)測結(jié)果與真實標(biāo)注在坑塘、交通運輸與水澆地等位置上的差異。

4.4 本文方法與主流卷積網(wǎng)絡(luò)模型的對比分析

本文方法在驗證集上優(yōu)于近年來常用的語義分割方法,分割結(jié)果見表3。表3 中比較了分別采用FCN-8s,segnet,unet,deeplabv3以及本文方法的總體精度與Kappa系數(shù);另外,對于數(shù)據(jù)集,根據(jù)各類對象的標(biāo)注像素數(shù)量,從16 類對象中選擇出前5個難分類對象,并在表3中列出其分類精度。前5 個難分類對象分別為:人工草地,灌木林地,園地,坑塘,旱耕地。圖8以具體場景展示了這5種方法的分割效果,不同類別的對象對應(yīng)著不同的顏色。其中,圖8的(a)—(f)分別代表真實標(biāo)注圖像,F(xiàn)CN-8s 分割結(jié)果,segnet 分割結(jié)果,unet 分割結(jié)果,deeplabv3分割結(jié)果,以及本文方法分割結(jié)果。

表3 Gaofen Image Dataset 數(shù)據(jù)集語義分割結(jié)果Table 3 Semantic segmentation results using Gaofen Image Dataset

從實驗結(jié)果中可以看出,F(xiàn)CN-8s 與segnet 的分割整體精度與Kappa 系數(shù)均較低,圖8(b)與(c)可以直觀反映出分割邊界比較模糊而且不規(guī)整,其次是被錯誤分類的像素較多,難分類對象的較低分類精度影響了整體精度與Kappa系數(shù)。

FCN將VGGnet(Simonyan和Zisserman,2015)修改為全卷積網(wǎng)絡(luò),通過對分割任務(wù)進行微調(diào),將其學(xué)習(xí)的特征轉(zhuǎn)移到全卷積網(wǎng)絡(luò)中,低分辨率語義特征圖的上采樣使用雙線性插值結(jié)合濾波器施加卷積操作完成,雖然存在跳級結(jié)構(gòu),但實際效果表明,F(xiàn)CN 在對象的邊緣上不能精細分割,網(wǎng)絡(luò)輸出的結(jié)果較粗糙。FCN 利用標(biāo)準卷積神經(jīng)網(wǎng)絡(luò)作為視覺模型,用標(biāo)準卷積提取特征,盡管全卷積的架構(gòu)在語義分割上具有靈活性,但依然有所局限,由于標(biāo)準卷積固有的平移不變性使網(wǎng)絡(luò)不能合理考慮上下文信息,這是造成FCN 對細節(jié)不夠敏感的原因之一。

對于segnet,在恢復(fù)分辨率的解碼過程中,使用了在特征提取時的池化位置信息,解碼過程中的反池化操作緩解了上采樣的學(xué)習(xí)負擔(dān),在分割中保留了高頻信息的完整性。經(jīng)過上采樣得到的特征是稀疏的,可以使用卷積再次生成密集的特征,卷積需要學(xué)習(xí)的是如何修復(fù)下采樣過程中的信息損失。利用segnet 雖然能很好地保留高頻信息,但在低分辨率的特征反池化過程中,必然伴隨著鄰近信息的丟失,在一定程度上,會影響到對象的分類精度。比如在圖8(c)中,有大面積的城市住宅被錯分類為工業(yè)用地。

在使用unet 架構(gòu)后,分割的精度與kappa 系數(shù)得到提升。unet簡單地將編碼器特征拼接到每個階段的解碼器輸出特征上,層與層對應(yīng)相連接,形成了一個U 形結(jié)構(gòu)。網(wǎng)絡(luò)通過跳接的方式,在每個階段允許解碼器保留編碼器下采樣過程中丟失的特征。對比segnet,同樣是對稱的編碼與解碼,但特征的跳接相比反池化可以讓網(wǎng)絡(luò)具備更完整的上采樣能力,在圖8(d)中可以看出,unet 的分割結(jié)果比FCN-8s 更加精細,而segnet 中被大面積錯分類的對象在unet中也得到了改善。

通過deeplabv3實現(xiàn)分割后,整體精度與Kappa系數(shù)和unet 的結(jié)果相接近,雖然表現(xiàn)沒有unet 良好,但已經(jīng)超過了FCN-8s 與segnet,其中一個很大因素是deeplabv3 使用了空洞卷積??斩淳矸e幫助網(wǎng)絡(luò)捕捉到對象的上下文信息,deeplabv3 中使用了并行的多尺度空洞卷積,多尺度的空洞卷積讓網(wǎng)絡(luò)的特征變得更加豐富,來自不同尺度的上下文信息幫助網(wǎng)絡(luò)更準確地分類對象。但deeplabv3沒有融合低分辨率的特征,如果僅依靠線性插值實現(xiàn)上采樣,網(wǎng)絡(luò)不容易感知到細節(jié)的位置與邊緣信息。

本文的模型融合了并行的多尺度空洞卷積,幫助網(wǎng)絡(luò)獲取大范圍的上下文信息,在上采樣過程中,利用低層的高分辨率特征進行跳接,彌補了下采樣特征提取時丟失的細節(jié)位置與邊緣信息。網(wǎng)絡(luò)學(xué)習(xí)策略基于周期遞增余弦退火方法得到多個局部最優(yōu)解,在推理時集成所有局部最優(yōu)解的結(jié)果,按照投票方式選取最終的像素分類結(jié)果,更進一步提高網(wǎng)絡(luò)在像素分類上的準確率。本文方法在本次實驗的數(shù)據(jù)集上,表現(xiàn)均超過了常用語義分割模型,整體精度與Kappa 系數(shù)分別為86.6%和81.8%。

混淆矩陣可以更直觀地反映各類別的分類結(jié)果,本文方法與segnet,unet,deeplabv3 在驗證集上的混淆矩陣如圖9所示,由于遙感影像中不同類別的像素數(shù)量分布極不平衡,所以本文對混淆矩陣的結(jié)果進行了歸一化以便于對比。從圖9看出,本文模型在對角線上的分布比segnet,unet,deeplabv3方法的分布更集中,這也反應(yīng)了模型在驗證集上的語義分割結(jié)果更加吻合于真實標(biāo)注。

圖9 本文方法與其他方法的混淆矩陣Fig.9 Confusion matrix of the proposed method and other methods

對于前5個難分類對象,本文的語義分割方法與FCN-8s,segnet,unet,deeplabv3相比較,雖然在某些對象上分類精度不夠高,但每類對象的分類精度在分布上都更加平均,沒有出現(xiàn)過度偏差,即模型的分類結(jié)果不會偏向于某些對象,而忽視剩余對象。從表3 的分類精度看出,模型的5 個難分類對象的分類精度均保持在75.0%以上,這個表現(xiàn)來源于損失函數(shù)的改進,本文模型在訓(xùn)練時,根據(jù)各類對象的像素數(shù)量為交叉熵的每一項賦予權(quán)重,迫使網(wǎng)絡(luò)平衡地捕捉每一類對象的分布。

4.5 完整高分辨率遙感影像的語義分割

在一般計算機的硬件條件下,高分辨率遙感影像計算量過大,不能一次性完成分割,所以必須先切片再逐一語義分割。在拼接各個切片的分割結(jié)果時,本文通過簡單的填充孔洞和去除小連通域修復(fù)不合理的預(yù)測結(jié)果,對圖像先膨脹后腐蝕,連接鄰近的物體和斷開的輪廓線。對于一幅完整的高分辨率遙感影像,利用本文方法與主流卷積網(wǎng)絡(luò)模型完成的分割結(jié)果如圖10 所示,各個方法的整體精度與Kappa 系數(shù)見表4。圖10分別展示了遙感影像的RGB 通道圖像,遙感影像的真實標(biāo)注,使用本文方法的分割結(jié)果,以及使用segnet,unet,deeplabv3分割的結(jié)果。

表4 語義分割結(jié)果對比Table 4 Comparison of semantic segmentation results/%

圖10 高分辨率遙感影像語義分割結(jié)果Fig.10 Semantic segmentation results using high-resolution remote sensing image

5 結(jié)論

本文研究了多尺度空洞卷積網(wǎng)絡(luò)架構(gòu),并融合周期遞增余弦退火方法訓(xùn)練模型,實現(xiàn)了高分辨率遙感影像的語義分割。卷積神經(jīng)網(wǎng)絡(luò)已經(jīng)在圖像分割上獲得了長足發(fā)展,但遙感影像中的復(fù)雜對象導(dǎo)致分割能力受到限制。相比之下,本文通過并行的多尺度空洞卷積有效捕捉了復(fù)雜地物對象的上下文信息,在不增加參數(shù)的情況下擴大感受野,同時保留空間分辨率。全連接條件隨機場的引入彌補了細節(jié)的位置與邊緣信息,將分割結(jié)果進一步細化。本文采用周期遞增的余弦退火方法調(diào)整學(xué)習(xí)率,并將局部最優(yōu)解進行集成,在實驗中驗證了模型的有效性。與主流語義分割模型FCN-8s、segnet、unet 和deeplabv3 相比較,本文方法在Gaofen Image Dataset上取得了更好的語義分割效果。然而,本文方法依然存在改進空間,在不簡化模型的情況下,集成模型在時間上的花費總是大于單一模型,考慮用知識蒸餾的方法得到近似局部最優(yōu)模型的簡單模型,使集成模型的推理速度接近單一模型的推理速度。

猜你喜歡
膨脹率余弦空洞
化學(xué)改良紅黏土作用模型研究
用快速砂漿棒法評價Li2CO3與硝酸鹽對ASR的長齡期抑制效果
飲用水處理用活性炭反沖膨脹率測定與研究
兩個含余弦函數(shù)的三角母不等式及其推論
空洞的眼神
分數(shù)階余弦變換的卷積定理
圖像壓縮感知在分數(shù)階Fourier域、分數(shù)階余弦域的性能比較
用事實說話勝過空洞的說教——以教育類報道為例
離散余弦小波包變換及語音信號壓縮感知
臭氧層空洞也是幫兇
宝坻区| 霞浦县| 石渠县| 改则县| 梅州市| 和顺县| 荥经县| 平陆县| 资溪县| 宕昌县| 阳信县| 大关县| 邻水| 稻城县| 工布江达县| 瑞昌市| 新田县| 信宜市| 新蔡县| 徐闻县| 界首市| 乌审旗| 怀安县| 葵青区| 湾仔区| 丹棱县| 青阳县| 汉沽区| 芦溪县| 鹤山市| 曲水县| 平乡县| 湖州市| 宜君县| 凉城县| 额济纳旗| 蓝山县| 饶平县| 开封市| 南昌县| 四子王旗|