国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于深度學(xué)習的土地覆蓋遙感圖像分割方法

2022-07-01 07:17劉明威
關(guān)鍵詞:殘差編碼器尺度

劉明威, 方 靜, 詹 曙

(1.合肥工業(yè)大學(xué) 計算機與信息學(xué)院,安徽 合肥 230601; 2.安徽省六安市金安區(qū)生態(tài)環(huán)境分局,安徽 六安 237005)

0 引言

土地覆蓋分類是土地利用變化監(jiān)測以及調(diào)整土地利用結(jié)構(gòu)的重要基礎(chǔ),直接影響土地利用的科研與實踐。利用遙感技術(shù)獲取土地覆蓋分類信息,可以快速掌握區(qū)域范圍內(nèi)土地資源的使用情況,有利于土地資源的合理開發(fā)利用。但長期以來,基于遙感圖像的土地覆蓋分類[1]主要采用人工目視標定的方法,自動化程度較低,遙感圖像處理的機器學(xué)習方法效率不高是一個重要原因。隨著遙感數(shù)據(jù)量爆炸式增長,傳統(tǒng)方法更是難以支撐日益增多的任務(wù)需求,因此研究使用人工智能技術(shù),實現(xiàn)土地覆蓋遙感圖像分割是一項很有意義的工作。

隨著深度學(xué)習技術(shù)在多種計算機視覺任務(wù)上獲得巨大的成功,諸如深度卷積神經(jīng)網(wǎng)絡(luò)(deep convolutional neural network, DCNN)用于圖像分類[2]或目標檢測[3],基于DCNN的圖像語義分割方法[4]逐漸成為計算機社區(qū)的研究熱點。文獻[5]提出的全卷積神經(jīng)網(wǎng)絡(luò)實現(xiàn)了端到端的語義分割,將原始CNN網(wǎng)絡(luò)中的全連接層替換為卷積層,再使用反卷積層進行上采樣,并通過跳躍連接結(jié)構(gòu)完成不同尺度的特征融合,改善上采樣的粗糙程度,最后產(chǎn)生像素級別的標簽。此后,許多學(xué)者以此為基礎(chǔ),提出了一些基于全卷積神經(jīng)網(wǎng)絡(luò)的圖像語義分割模型。文獻[6-7]提出DeepLab模型及其改進,通過引入空洞卷積[8],在擴大感受野的同時保留更多的細節(jié)信息,添加全連接條件隨機(conditional random field,CRF)作為模型中一個獨立的后處理步驟,以對粗分割后的結(jié)果進行調(diào)優(yōu),該模型最大的特點是利用像素間的空間關(guān)系,提高語義分割的質(zhì)量;文獻[9]提出一種金字塔場景解析網(wǎng)絡(luò)模型,采用金字塔池化模塊融合4種不同尺度的池化特征,提高了網(wǎng)絡(luò)獲取全局上下文信息的能力;文獻[10]則在傳統(tǒng)的空間池化模型基礎(chǔ)上,引入條紋池化模塊限制池化范圍,有效增大了網(wǎng)絡(luò)的感受野,使用混合池化模塊解決了全局依賴和局部依賴的問題,實驗表明,該方法可以使骨干網(wǎng)絡(luò)高效地建模上下文依賴關(guān)系;文獻[11]在U-Net[12]基礎(chǔ)上,添加了一個上下文編碼模塊,首先使用密集空洞卷積塊獲取更多的全局語義信息,然后使用殘差多核模塊提取多尺度上下文語義特征,進一步提高語義分割效果。

近年來,注意力機制被廣泛應(yīng)用于自然語言處理、目標檢測及圖像分割等各種深度學(xué)習任務(wù)中。文獻[13]提出了一種針對特征圖通道的注意力機制,在不顯著增加參數(shù)量和計算量的前提下強化網(wǎng)絡(luò)對重要特征的學(xué)習能力,提升網(wǎng)絡(luò)性能;文獻[14]提出基于卷積核的注意力機制,使網(wǎng)絡(luò)可以根據(jù)輸入的多尺度信息自適應(yīng)調(diào)整感受野的大小。為了有效完成自然場景圖象分割任務(wù),文獻[15]設(shè)計了一種雙重注意力網(wǎng)絡(luò),通過引入并行的空間注意力模塊和通道注意力模塊,獲取不同特征之間的全局依賴關(guān)系,增強特征的表達能力,提高模型的分割精度。

基于深度學(xué)習在圖像語義分割領(lǐng)域的廣泛應(yīng)用和快速發(fā)展,本文采用圖像語義分割模型實現(xiàn)土地覆蓋分類。為了充分利用高分辨遙感圖像豐富的地物信息和空間語義信息,提高遙感圖像的分割精度,本文提出一種基于改進U-Net架構(gòu)的遙感圖像語義分割模型。實驗結(jié)果證明,該模型具有較高的分割準確率和較好的泛化能力,能夠用于土地覆蓋遙感圖像分割。

1 基本理論

1.1 深度卷積神經(jīng)網(wǎng)絡(luò)

深度卷積神經(jīng)網(wǎng)絡(luò)中,網(wǎng)絡(luò)的深度對模型的性能至關(guān)重要,隨著網(wǎng)絡(luò)層數(shù)的增加,模型可以進行更加復(fù)雜的特征提取。理論上認為,當網(wǎng)絡(luò)更深時,模型可以獲得更好的效果。但實際上,當模型的網(wǎng)絡(luò)層數(shù)堆疊到某種程度時,模型的效果甚至會出現(xiàn)下降的情況,即深度模型出現(xiàn)退化問題。為了解決該問題,文獻[16]提出殘差學(xué)習框架,實驗證明ResNet結(jié)構(gòu)可以訓(xùn)練更深層的網(wǎng)絡(luò),并且能提升預(yù)測模型的精度。ResNet借鑒了Highway Network的跨層鏈接思想,通過在淺層網(wǎng)絡(luò)結(jié)構(gòu)上添加恒等映射連接y=x,將原始輸入信息繞道傳送至輸出層,以確保信息的完整性。整個網(wǎng)絡(luò)的學(xué)習目標簡化為輸入和輸出之間的差異部分,使得卷積神經(jīng)網(wǎng)絡(luò)不隨深度的增加而退化。

假設(shè)輸入為x,直接擬合的期望特征映射表示為H(x)。若將堆疊的非線性層擬合另一個特征映射F(x)=H(x)-x,則原始的特征映射被改寫為F(x)=H(x)+x。因此,ResNet的優(yōu)化目標由H(x)轉(zhuǎn)化為殘差函數(shù)F(x)=H(x)-x,當F(x)=0時,H(x)=x即為恒等映射。簡言之,堆疊層沒有學(xué)習到任何特征,僅將淺層網(wǎng)絡(luò)的特征復(fù)制到深層網(wǎng)絡(luò)中,保證網(wǎng)絡(luò)性能不退化。這樣就使得模型可以擁有更深的網(wǎng)絡(luò),甚至超過1 000層。事實上,殘差函數(shù)F(x)不會為0,堆疊層將根據(jù)輸入特征學(xué)習新的特征,使網(wǎng)絡(luò)具有更好的性能。

具體的殘差塊結(jié)構(gòu)如圖1所示,圖1中ReLU為激活函數(shù)。

圖1 殘差塊結(jié)構(gòu)

1.2 批規(guī)范化

批規(guī)范化(batch normalization,BN)[17]是一種通過穩(wěn)定輸入的分布改善神經(jīng)網(wǎng)絡(luò)訓(xùn)練的算法,它可以更快、更穩(wěn)定地訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)。深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練即學(xué)習數(shù)據(jù)的分布,能在測試集上表現(xiàn)出較好的泛化能力。但是在訓(xùn)練神經(jīng)網(wǎng)絡(luò)時,先前層參數(shù)的更新會導(dǎo)致當前層輸入數(shù)據(jù)的分布發(fā)生變化,持續(xù)的變化會對訓(xùn)練產(chǎn)生負面影響,如模型學(xué)習速度太慢等。批規(guī)范化算法通過對輸入數(shù)據(jù)的分布進行修正,克服內(nèi)部協(xié)變量偏移,從而糾正這種影響。除此之外,批規(guī)范化算法還可以防止反向傳播過程中出現(xiàn)梯度爆炸或梯度消失,提升超參數(shù)(如學(xué)習速率和權(quán)重初始化)不同設(shè)置的魯棒性,以及正則化模型減少對Dropout的依賴。

在卷積神經(jīng)網(wǎng)絡(luò)中,BN層通常位于卷積層和激活函數(shù)層之間。假設(shè)一批輸入數(shù)據(jù)表示為B={x1,x2,…,xm},批規(guī)范化過程分為歸一化和變換重構(gòu)2個步驟。

(1) 歸一化。計算公式為:

(1)

(2)

(3)

(2) 變換重構(gòu)。計算公式為:

(4)

其中,γ、β為待學(xué)習參數(shù)。

2 遙感圖像語義分割模型

U-Net是一種采用編碼器-解碼器結(jié)構(gòu)的語義分割模型。其中,編碼器使用卷積層和池化層逐漸縮減輸入數(shù)據(jù)的空間維度,而解碼器通過反卷積層等網(wǎng)絡(luò)層逐步恢復(fù)目標的細節(jié)和相應(yīng)的空間維度。與傳統(tǒng)的分類任務(wù)不同,分割需要結(jié)合能夠提供物體類別識別依據(jù)的低分辨率信息以及提供精準分割定位依據(jù)的高分辨率信息。為此,U-Net采用了跳躍連接的方式,將每個卷積層提取到的特征圖拼接到對應(yīng)的上采樣層,實現(xiàn)低層特征的空間信息與高層特征的語義信息融合。

針對高分辨率遙感圖像地物特征復(fù)雜和細節(jié)豐富的特點,本文提出一種基于改進U-Net框架的遙感圖像語義分割模型。該模型采用通道注意力機制強化對分割任務(wù)有效的特征,以提高模型的學(xué)習能力??紤]到不同尺度特征之間的差異性,本文在上采樣階段加入了多尺度特征融合算法,使得高層特征通過語義信息來指導(dǎo)選擇低層特征,從而獲得增強的語義特征以提升模型分割精度。本文網(wǎng)絡(luò)模型結(jié)構(gòu)如圖2所示。

圖2 遙感圖像語義分割結(jié)果

2.1 編碼器和解碼器

編碼器負責提取輸入圖像的多尺度特征。通常,分割網(wǎng)絡(luò)中編碼器的結(jié)構(gòu)較為相似,主要采用經(jīng)典的分類網(wǎng)絡(luò)結(jié)構(gòu),例如VGGNet[18],目的是通過遷移學(xué)習[19],利用分類網(wǎng)絡(luò)在其他大型訓(xùn)練數(shù)據(jù)集上進行訓(xùn)練得到的權(quán)重參數(shù),實現(xiàn)更好的分割效果。

本文模型中的編碼器包含4個基本塊,每個基本塊由Conv層、BN層和ReLU層堆疊而成。在編碼階段,為了能更好地提取不同尺度的特征以保留更多細節(jié)信息,本文模型使用步長為2,內(nèi)核大小為3×3的卷積運算代替原始U-Net中最大池化運算。

解碼器負責根據(jù)編碼器部分提取的特征生成準確的邊界定位和類別標簽。因此,基于編解碼結(jié)構(gòu)的分割網(wǎng)絡(luò)的效果在很大程度上由解碼器決定。

在解碼階段,本文模型采用多尺度融合模塊替代原始U-Net中跳躍連接結(jié)構(gòu),該模塊通過多尺度特征融合的方法促進低層細節(jié)信息和高層語義信息互補,以此增強模型的分割效果。

2.2 殘差通道注意力模塊

編碼器提取的不同通道的高層特征圖可以看作某個特定類別的預(yù)測,并且不同類別的語義之間具有特定的聯(lián)系。通過獲取不同通道特征之間的關(guān)聯(lián)性可以有效增強特征圖表達特定語義的能力,因此本文提出殘差通道注意力模塊(residual channel attention block,RCAB)。希望該模型可以通過自主學(xué)習的方式獲取每個特征通道的重要程度,即權(quán)重;然后將此權(quán)重用于原來的每個特征通道,讓網(wǎng)絡(luò)有選擇性地增強有效的特征,使得后續(xù)處理可以充分利用這些特征,同時抑制無效或效果小的特征。

殘差通道注意力模塊結(jié)構(gòu)如圖3所示。首先利用全局平均池化(global average pooling,GAP)將編碼器提取到的特征圖在空間維度上進行壓縮,得到各通道的全局特征信息;接著由2個1×1的Conv層組成的Bottleneck結(jié)構(gòu)對特征通道間的依賴性建模,目的是更好地擬合通道間復(fù)雜的相關(guān)性,同時減少參數(shù)量和計算量;然后使用Sigmod函數(shù)獲得每個特征通道的權(quán)重;再通過Scale運算將該權(quán)重作用于空洞卷積(dilated conv)處理后的特征圖,得到具有通道注意力的特征圖。

圖3 殘差通道注意力模塊結(jié)構(gòu)

殘差通道注意力模塊是在通道維度上對原始特征進行特征重標定,該操作強化了對分割任務(wù)有效的特征,有助于提升分割精度。

2.3 多尺度融合模塊

在上采樣過程中,為了更好地利用不同尺度的特征以獲得更優(yōu)的分割結(jié)果,本文模型使用包括殘差塊和雙線性插值層(bilinear interpolation)的多尺度融合模塊(multi-scale fusion block,MSFB),該模塊的體系結(jié)構(gòu)如圖4所示。為了提取更多具有代表性的語義信息,將卷積層提取到的低層特征圖作為殘差塊的輸入,并在殘差塊的輸出端添加ReLU激活函數(shù)層,用來約束變量的范圍并提升非線性。同時,與其對應(yīng)的高層特征圖利用雙線性插值的方法完成上采樣操作,恢復(fù)特征圖的分辨率,最后將得到的低層特征與高層特征通過拼接的方式融合,以獲得更具區(qū)分力的特征。

圖4 多尺度融合模塊結(jié)構(gòu)

3 實驗及分析

3.1 實驗數(shù)據(jù)集

實驗中用于訓(xùn)練和測試的數(shù)據(jù)是中國南方某地區(qū)的高分辨率遙感圖像,源于“CCF 大數(shù)據(jù)與計算智能大賽”。該數(shù)據(jù)集由5幅大小不同的RGB可見光圖像組成,空間分辨率為亞米級,具有5類像素級的標簽:植被、水體、建筑、道路及其他,其中耕地、林地、草地均歸為植被類。

由于原始數(shù)據(jù)集較小并且單幅圖像尺寸過大,不能直接作為神經(jīng)網(wǎng)絡(luò)的輸入。為了構(gòu)建更大的數(shù)據(jù)集,避免模型過擬合并增強其泛化能力,本文對原始數(shù)據(jù)集進行裁剪、扭曲和隨機旋轉(zhuǎn)等數(shù)據(jù)增強工作。同時該操作還對該數(shù)據(jù)集中各個類的占比進行平衡。處理后的新數(shù)據(jù)集包含約20 000幅256×256的子圖像,其中訓(xùn)練集與測試集比例為7∶3,如圖5所示。

圖5 遙感圖像切割示例

3.2 評價標準

為了評價本文方法在該數(shù)據(jù)集上的分割效果,使用2個常用的評價指標,分別是總體分類準確率(overall accuracy,OA)和F1值(F1-Score)。分類結(jié)果見表1所列。

表1 分類結(jié)果

表1中:Tp為將正類預(yù)測為正類的數(shù)量;Tn為將負類預(yù)測為負類的數(shù)量;Fp為將負類預(yù)測為正類的數(shù)量;Fn為將正類預(yù)測為負類的數(shù)量。計算公式如下:

(5)

(6)

3.3 實驗結(jié)果與分析

實驗基于PyTorch框架實現(xiàn)圖2的網(wǎng)絡(luò)結(jié)構(gòu),整個網(wǎng)絡(luò)是端到端的結(jié)構(gòu),輸入圖片的尺寸均是256×256。本文實驗中的初始學(xué)習率設(shè)置為0.000 1,動量設(shè)置為0.99,權(quán)重衰減設(shè)置為0.000 5,采用反向傳播和隨機梯度下降來計算誤差和更新參數(shù)。最終,本文模型在數(shù)據(jù)集上取得了93.12%的訓(xùn)練準確率以及90.88%的測試準確率。

為了驗證本文方法的可行性,本文選擇了DeepLab[6]、SegNet[20]、U-Net[12]和CE-Net[11]作為對比模型。DeepLab在VGG-16的基礎(chǔ)上去掉了全連接層,引入空洞卷積擴大感受野,同時添加CRF提高分類精度;SegNet則調(diào)用對應(yīng)位置編碼器的最大池化索引完成上采樣;U-Net在上采樣過程中,通過跳躍連接結(jié)構(gòu)實現(xiàn)多尺度特征融合;CE-Net在U-Net基礎(chǔ)上添加了上下文編碼模塊,提升了模型的分割性能,是當前較為先進的語義分割模型。

不同模型對不同類別的分割質(zhì)量評價見表2所列;本文模型與其他模型在部分測試圖像上的分割效果如圖6所示。

圖6 遙感圖像語義分割結(jié)果

從表2可以看出,與U-Net和CE-Net模型相比,本文模型的OA指標分別提升了4.93%和2.52%。通過對比每個類別的F1-Score發(fā)現(xiàn),本文模型對除水體以外的其他類別的分割精度均優(yōu)于其他模型,但本文模型對水體也有較好的分割效果。由此可知,本文模型精度相比于其他模型提升明顯,同時證明了本文方法的有效性。

表2 不同模型對不同類別的分割質(zhì)量評價 單位:%

從圖6a、圖6c可以看出,DeepLab存在局部區(qū)域錯誤劃分的問題,SegNet存在目標邊緣輪廓描繪不清的問題,相較于其他模型分割精度較差。

由圖6d、圖6g可以看出,本文方法對水體的分割效果與U-Net和CE-Net相似,這是由于數(shù)據(jù)集中,水體類別占比較低,模型的分割精度差距偏小。

從圖6b、圖6e可以看出,本文方法對建筑和道路的分割明顯優(yōu)于U-Net和CE-Net。由上述分析可知,本文模型在該數(shù)據(jù)集上取得了較好的分割效果。

一方面是因為本文加入了通道注意力機制,使得對分割任務(wù)有效的特征被強化,進而增強了模型的學(xué)習能力;另一方面是因為本文提出的融合算法生成了增強的語義特征,使得該模型在語義類別邊界實現(xiàn)了更好的分割效果。

4 結(jié)論

本文將深度卷積神經(jīng)網(wǎng)絡(luò)與遙感數(shù)據(jù)處理任務(wù)相結(jié)合,提出了一種基于U-Net架構(gòu)的遙感圖像語義分割模型,實現(xiàn)了土地覆蓋分類任務(wù)的自動化。該模型由編碼器、殘差通道注意力模塊、多尺度融合模塊及解碼器4個部分組成。編碼器負責提取多層次特征,殘差通道注意力模塊負責強化對分割任務(wù)有效的特征。在解碼階段,使用多尺度融合塊拼接具有細節(jié)信息的低層特征和具有語義信息的高層特征,生成更具有表達力的特征圖,從而實現(xiàn)了多尺度特征融合,提升了遙感圖像的分割效果。實驗結(jié)果證明,本文模型能夠準確分割遙感圖像中的植被、水體、建筑、道路等目標。但是在實驗過程中發(fā)現(xiàn),本文模型在描繪分割目標的輪廓方面仍有不足,需要進一步優(yōu)化和提升。

深度學(xué)習在遙感數(shù)據(jù)自動化分析領(lǐng)域具有較大潛力,但是作為一種新興的技術(shù),仍有很多課題需要研究。下一步,將研究除土地覆蓋分類之外的其他遙感數(shù)據(jù)分析任務(wù)與不同的深度學(xué)習模型之間的關(guān)系,進而提出更多的遙感數(shù)據(jù)自動化分析方案。

猜你喜歡
殘差編碼器尺度
基于ResNet18特征編碼器的水稻病蟲害圖像描述生成
多級計分測驗中基于殘差統(tǒng)計量的被試擬合研究*
環(huán)境史衰敗論敘事的正誤及其評判尺度
基于殘差-注意力和LSTM的心律失常心拍分類方法研究
WDGP36J / WDGA36J編碼器Wachendorff自動化有限公司
用于處理不努力作答的標準化殘差系列方法和混合多層模型法的比較*
融合上下文的殘差門卷積實體抽取
基于Beaglebone Black 的絕對式編碼器接口電路設(shè)計*
基于TMS320F28335的絕對式光電編碼器驅(qū)動設(shè)計
以長時間尺度看世界