龍麗紅,朱宇霆,閆敬文,劉敬瑾,王宗躍
1.汕頭大學(xué) 工學(xué)院電子系,汕頭 515063;
2.中山大學(xué) 電子與信息工程學(xué)院,廣州 510006;
3.集美大學(xué) 計(jì)算機(jī)工程學(xué)院,廈門 361021
隨著地球觀測遙感衛(wèi)星技術(shù)發(fā)展取得了卓越的成就,大量的遙感數(shù)據(jù)為各種應(yīng)用提供豐富的可挖掘的信息(孫偉偉 等,2020)。建筑物信息作為地理信息的重要組成部分,廣泛應(yīng)用于道路交通規(guī)劃、土地規(guī)劃、城市管理等領(lǐng)域,在生活中有著越來越重要的應(yīng)用,本文主要研究遙感圖像的樓房分割問題。
在傳統(tǒng)分割方法中,通常根據(jù)灰度、顏色、紋理和形狀等特征將圖像劃分成若干互不相交的區(qū)域。典型的分割方法有基于閾值、邊緣、區(qū)域、圖論等分割方法?;陂撝档姆指罘椒?,其基本思想是基于圖像灰度特征計(jì)算灰度閾值,并將圖像的每個(gè)像素灰度值與閾值相比較,得出其類別。如李麗等(2013)根據(jù)建筑群的分布和紋理特點(diǎn),利用小波變換和自適應(yīng)全局閾值法提取建筑群標(biāo)記信息實(shí)現(xiàn)分割;吳詩婳等(2018)提出了一種基于直線截距直方圖的多閾值分割方法等?;谶吘壍姆指罘椒ǎ℉u等,2013;Wang等,2015),主要根據(jù)圖像邊緣灰度、顏色、紋理等特征的突變來進(jìn)行邊緣檢測,比如使用基于Roberts(康牧等,2008)、Sobel、Prewitt(鄒柏賢 等,2013)、Laplacian(桂預(yù)風(fēng)和吳建平,2011)等微分算子對(duì)圖像進(jìn)行邊緣檢測,識(shí)別出圖像的邊緣信息,從而完成分割?;趫D論的分割方法,其基本思想是將圖像的分割問題與圖的最小分割問題相關(guān)聯(lián),最終實(shí)現(xiàn)分割效果。如Felzenszwalb 和Huttenlocher(2004)介紹一種基于圖表示的圖像分割方法,基于貪心聚類算法提出可變型部件模型算法,奠定了基于圖論的分割算法。但由于遙感圖像包含豐富的光譜信息,使用傳統(tǒng)的特征提取方法對(duì)于要求高的遙感圖像分割應(yīng)用場景,仍然存在很大的局限性。
近年來,深度學(xué)習(xí)理論及應(yīng)用取得重要進(jìn)展,并在圖像語義分割中取得良好的效果,特別是對(duì)高級(jí)語義信息提取,解決了傳統(tǒng)圖像分割方法中語義信息缺失的問題。2014 年,全卷積神經(jīng)網(wǎng)絡(luò)FCN(Fully Convolutional Networks)首次將深度學(xué)習(xí)應(yīng)用于圖像分割,實(shí)現(xiàn)像素級(jí)分割,奠定了深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)用來解決圖像分割問題的基礎(chǔ)(Shelhamer 等,2017)。然而FCN 采用雙線性插值上采樣恢復(fù)特征圖,丟失許多細(xì)節(jié)信息,導(dǎo)致分割結(jié)果比較模糊和平滑。如圖1所示,在航空遙感圖像數(shù)據(jù)集INRIA(Inria Aerial Image Labeling Dataset)上使用全卷積神經(jīng)網(wǎng)絡(luò)對(duì)遙感影像進(jìn)行分割,其中圖1(a)為原圖像,圖1(b)為圖像的真實(shí)標(biāo)簽,圖1(c)是使用全卷積神經(jīng)網(wǎng)絡(luò)的分割效果圖。可以看出,與真實(shí)標(biāo)簽相比(如紅框所示),測試結(jié)果邊界出現(xiàn)明顯模糊,小尺寸的目標(biāo)未能精確識(shí)別,整體分割效果較為粗糙。2015年,U-Net(Ronneberger等,2015)作為FCN的改進(jìn)與發(fā)展,通過捕獲上下文信息的收縮路徑來實(shí)現(xiàn)更精準(zhǔn)的像素邊界定位。采用網(wǎng)絡(luò)結(jié)構(gòu)完全對(duì)稱的典型編碼解碼結(jié)構(gòu),但由于其網(wǎng)絡(luò)結(jié)構(gòu)僅在單一尺度上預(yù)測,不能很好地處理多尺度問題,且速度較慢,冗余較多。然而,遙感影像具有語義豐富,分辨率低,清晰度低等特點(diǎn),且建筑物圖像具有多尺度、大跨度等特點(diǎn),且上下語義聯(lián)系緊密,與自然圖像相比具有極其復(fù)雜的特性,簡單地使用全卷積神經(jīng)網(wǎng)絡(luò)或U-Net不能很好地滿足分割的應(yīng)用需求。為了解決這個(gè)問題,Bischke 等(2019)采用了一種新型的多任務(wù)損失函數(shù),他們的方法可以很好的保存建筑物的分割邊緣并且提高了分割準(zhǔn)確率,但缺點(diǎn)是網(wǎng)絡(luò)復(fù)雜且不易優(yōu)化。類似的,Li 等(2019)在網(wǎng)絡(luò)模型中收集多尺度特征信息來提高遙感影像分割的精度,韓彬彬等(2020)在殘差卷積網(wǎng)絡(luò)中加入了帶孔卷積和稠密連接機(jī)制以構(gòu)建稠密空間金字塔結(jié)構(gòu)來提取多尺度特征。而Pan等(2019)采用對(duì)抗神經(jīng)網(wǎng)絡(luò)并且在其中引入注意力機(jī)制來提升分割的效果,他們的方法在INRIA 數(shù)據(jù)集上取得了很好的結(jié)果。與上述方法不同,本文提出了一種基于U-Net 的新模型Dilated-UNet(D-UNet),即在U-Net中間加入精心設(shè)計(jì)的空洞卷積模塊來解決這個(gè)問題,并設(shè)計(jì)了一種交叉熵和Dice-coefficient的聯(lián)合損失函數(shù),更好的訓(xùn)練模型以達(dá)到預(yù)期分割效果。
圖1 FCN分割效果對(duì)比圖Fig.1 Comparison of FCN segmentation effect
本文提出一種基于U-Net改進(jìn)的全新卷積神經(jīng)網(wǎng)絡(luò)分割模型D-UNet(Dilated-UNet),接下來將詳細(xì)介紹D-UNet 網(wǎng)絡(luò)結(jié)構(gòu),主要包括U-Net、空洞卷積模塊、聯(lián)合損失函數(shù)和實(shí)現(xiàn)細(xì)節(jié)等,具體網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。
圖2 D-UNet網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.2 D-UNet network structure diagram
(1)U-Net。U-Net,首次是應(yīng)用于醫(yī)學(xué)圖像分割,其采用典型的編碼—解碼結(jié)構(gòu)。在編碼結(jié)構(gòu)上,每經(jīng)過兩個(gè)卷積核為3 × 3 的卷積層后進(jìn)入2 × 2 的最大池化層,便得到新尺度的特征圖,共有4個(gè)卷積池化模塊。在解碼結(jié)構(gòu)上,每進(jìn)行一次2 × 2 的上采樣,與上一次卷積操作得到的特征圖在裁剪后進(jìn)行多尺度的融合,豐富細(xì)節(jié)信息,提高分割精度,共有4個(gè)上采樣模塊。在編碼和解碼的結(jié)構(gòu)上具有完全對(duì)稱的特點(diǎn)。但U-Net網(wǎng)絡(luò)卷積層次較少,對(duì)特征的提取與表達(dá)不夠準(zhǔn)確,邊緣模糊現(xiàn)象沒有得到很好解決。
(2)空洞卷積模塊。圖像輸入到CNN 中,F(xiàn)CN 或U-Net 和傳統(tǒng)CNN 一樣對(duì)圖像進(jìn)行卷積、池化等操作,以降低圖像尺寸,增大感受野。圖像分割是像素級(jí)輸出,因此要進(jìn)行上采樣恢復(fù)到原始圖像尺寸大小,但過程降低了空間分辨率并嚴(yán)重丟失圖像的細(xì)節(jié)信息??斩淳矸e極好地解決了這個(gè)問題(Yu 和Koltun,2016)??斩淳矸e可類似看成是在卷積核內(nèi)部插入(擴(kuò)張率)個(gè)0來擴(kuò)大卷積核大小,從而在擴(kuò)大感受野的同時(shí)捕獲多尺度的上下文信息。
空洞卷積可擴(kuò)大感受野,例如3個(gè)卷積核大小為3 × 3 的普通卷積核疊加,3 層的感受野大小分別是3 × 3,5 × 5,7 × 7。而3 個(gè)大小為3 × 3 的卷積核疊加,擴(kuò)張率為1 時(shí),其感受野為3 × 3;擴(kuò)張率為2 時(shí),其感受野為7 × 7;擴(kuò)張率為5 時(shí),其感受野為17 × 17。顯然,上述卷積核參數(shù)始終為9,在保持參數(shù)個(gè)數(shù)不變的情況下,使用空洞卷積可以大幅度增大卷積核的感受野,感受野示意圖如圖3所示。其中紅色點(diǎn)表示感受野的中心,藍(lán)色的深淺表示參與卷積運(yùn)算的次數(shù),越深表示參與卷積運(yùn)算的次數(shù)越多。
圖3 3個(gè)3×3卷積核感受野對(duì)比圖Fig.3 Comparison of three 3×3 convolution kernel receptive fields
本文設(shè)計(jì)的空洞卷積模塊如圖4 所示,共4 條數(shù)據(jù)信息流通道,使用的卷積核大小均為3 × 3。第一通道使用4 個(gè)3 × 3 的卷積核,且空洞卷積的擴(kuò)張率分別為1、2、5、8,其感受野分別3 × 3、7 × 7、17 × 17、33 × 33。隨后每條通道相對(duì)應(yīng)的空洞卷積擴(kuò)張率不變,逐漸減少卷積層層數(shù),直到擴(kuò)張率為1的卷積核,即普通卷積。即提取到的特征進(jìn)入四條通道,分別生成不同的信息流,然后進(jìn)行信息連接。參考空間金字塔模型(Zhao 等,2017)和ResNet 的殘差結(jié)構(gòu)(He 等,2016),本文設(shè)計(jì)的空洞卷積的擴(kuò)張率多樣化,可提取多尺度信息,在擴(kuò)大感受野的同時(shí)成功避免空洞卷積理論問題,即“網(wǎng)格效應(yīng)”(Wang 等,2018),且擴(kuò)張率越大,能提取到更多邊緣信息細(xì)節(jié),提高模型效果。通過多通道進(jìn)行并行計(jì)算,將經(jīng)過不同空洞卷積擴(kuò)張率的特征圖進(jìn)行相加融合,克服單通道的單一性不足,且不同通道對(duì)不同大小的目標(biāo)分辨率不同,從而提高整體的分辨效果。
圖4 空洞卷積模塊圖Fig.4 Dilated convolution network module
其中,16 × 16 × 512 表示特征圖的長和寬是均16,通道數(shù)是512;采用的卷積核均是3 × 3,箭頭上的數(shù)字表示所對(duì)應(yīng)的空洞卷積擴(kuò)張率。
(3)D-UNet。本文提出的D-UNet模型采用典型的編碼—解碼結(jié)構(gòu)。編碼結(jié)構(gòu)由4 個(gè)卷積模塊,共8 個(gè)卷積層,4 個(gè)最大池化層組成,每層卷積前都進(jìn)行歸一化操作,使用ReLU 作為激活函數(shù),每兩層卷積后接一個(gè)最大池化層。下采樣后進(jìn)入空洞卷積模塊,增大感受野,提取多尺度信息,進(jìn)一步提高邊緣分辨率。解碼結(jié)構(gòu)包含4 個(gè)上采樣塊,每個(gè)上采樣塊包含轉(zhuǎn)置卷積和上池化操作,使特征圖恢復(fù)到與輸入圖像相同的尺寸,保留原始圖像的空間信息,最后使用softmax 函數(shù)進(jìn)行逐像素分類,最終實(shí)現(xiàn)分割效果。
本文設(shè)計(jì)的損失函數(shù)采用聯(lián)合策略,將交叉熵和Dice-coefficient 的進(jìn)行聯(lián)合,聯(lián)合損失函數(shù)表達(dá)式為
式中,LBCE為二值交叉熵?fù)p失函數(shù)(Binary Cross Entropy Loss),LDice為Dice 系數(shù)損失函數(shù),L為聯(lián)合損失函數(shù),λ為權(quán)重調(diào)節(jié)參數(shù)。
假設(shè)訓(xùn)練數(shù)據(jù)D={(x1,y1),…,(xn,yn)},其中x∈Rn為訓(xùn)練樣本,y為標(biāo)簽,且y∈{0,1}。二值交叉熵?fù)p失函數(shù)表達(dá)式如下:
式中,i為第i個(gè)樣本;n為總樣本數(shù);yi為第i個(gè)樣本的真實(shí)標(biāo)簽;為第i個(gè)樣本的預(yù)測標(biāo)簽。然而,二值交叉熵?fù)p失函數(shù)衡量標(biāo)準(zhǔn)只是對(duì)正確分類的預(yù)測概率,具有單一性,因此本論文采用聯(lián)合損失函數(shù)。
Dice 系數(shù)損失函數(shù),可度量集合相似度,可用于計(jì)算兩個(gè)樣本的相似度(取值范圍為[0,1])。然而,當(dāng)樣本極度不均的情況下,二值交叉熵?fù)p失函數(shù)對(duì)樣本不平衡的問題很敏感,訓(xùn)練時(shí)會(huì)偏向于樣本多的一方,導(dǎo)致訓(xùn)練效果下降,但Dice系數(shù)損失函數(shù)表現(xiàn)效果較好。假設(shè)X和Y為兩個(gè)樣本,Dice 系數(shù)為(3),Dice 損失函數(shù)可表示為(4),可微形式可表示為(5),其中y為真實(shí)標(biāo)簽,為預(yù)測標(biāo)簽,則梯度為(6)。當(dāng)樣本差異越大時(shí),s越小,則梯度越大,訓(xùn)練越穩(wěn)定。
因此,考慮到樣本之間的相似程度,本文采用Dice 系數(shù)損失函數(shù)和交叉熵?fù)p失函數(shù)進(jìn)行聯(lián)合,Dice系數(shù)損失函數(shù)表達(dá)式為
式中,i為第i個(gè)樣本;n為總樣本數(shù);yi為第i個(gè)樣本的真實(shí)標(biāo)簽;為第i個(gè)樣本的預(yù)測標(biāo)簽;ε為調(diào)節(jié)參數(shù)。
權(quán)重調(diào)節(jié)參數(shù)λ,初始化λ=1,即L=LBCE,只有交叉熵?fù)p失函數(shù)。實(shí)驗(yàn)表明,當(dāng)λ=0.7 時(shí),即L=0.7LBCE+0.3LDice,分割效果最好。
實(shí)驗(yàn)平臺(tái)采用Intel-i7-7700 四核心八線程CPU 處理器、使用Pytorch 1.5.1 版本的深度學(xué)習(xí)框架,并使用NVIDIA 公司的CUDA10.1 GPU 平臺(tái)進(jìn)行計(jì)算加速。實(shí)驗(yàn)統(tǒng)計(jì),本文模型訓(xùn)練一個(gè)epoch的時(shí)間為1.1 個(gè)小時(shí),總共訓(xùn)練了50 個(gè)epoch,共用時(shí)55個(gè)小時(shí)。
(1)預(yù)處理。由于GPU 內(nèi)存的限制,大尺度的遙感圖像不能直接作為網(wǎng)絡(luò)結(jié)構(gòu)的輸入,因此從遙感圖像中隨機(jī)裁剪出圖片大小為512 × 512 的圖像,并將圖像進(jìn)行歸一化處理,使圖像的像素值在0 到1 之間,更加便于計(jì)算,以提高計(jì)算速度。
(2)訓(xùn)練。由于預(yù)訓(xùn)練在深卷積神經(jīng)網(wǎng)絡(luò)中起著重要作用(Hinton 等,2006),因此本實(shí)驗(yàn)使用VGG13 在ImageNet 上的預(yù)訓(xùn)練模型,然后以端到端的方式對(duì)整個(gè)網(wǎng)絡(luò)進(jìn)行微調(diào)。具體訓(xùn)練過程如下,訓(xùn)練中使用三通道遙感影像作為輸入和輸出的分割結(jié)果,以聯(lián)合損失函數(shù)(1)作為整體模型的損失函數(shù),在GPU 上進(jìn)行300 次迭代,學(xué)習(xí)率設(shè)為0.001,每50 次迭代學(xué)習(xí)率縮小10 倍,權(quán)重衰減設(shè)為0.0001,動(dòng)量設(shè)為0.9,使用Adam算法優(yōu)化所有網(wǎng)絡(luò)參數(shù)。
本文使用的數(shù)據(jù)集是IAIL 航空?qǐng)D像數(shù)據(jù)集(Inria Aerial Image Labeling Dataset)(Maggiori 等,2017)。IAIL 航空?qǐng)D像數(shù)據(jù)集是一個(gè)城市建筑物檢測的遙感圖像數(shù)據(jù)集,包括高度密集的大都市金融區(qū)和高山度假村的各種城市景觀,標(biāo)記只有建筑和非建筑兩種。數(shù)據(jù)集由360 張彩色(3 波段RGB)正射影像組成,包括美國和奧地利的城市住區(qū),其空間分辨率為0.3 m2,訓(xùn)練面積為337.5 km2,驗(yàn)證面積為67.5 km2,測試面積為405 km2,總覆蓋面積810 km2(每幅影像大小為50002)。選擇該數(shù)據(jù)集,可使用交叉驗(yàn)證方法,隨機(jī)設(shè)置5個(gè)城市作為訓(xùn)練集,5 個(gè)城市作為測試集,避免訓(xùn)練容易產(chǎn)生過擬合現(xiàn)象,有效驗(yàn)證模型的可行性。其次,該數(shù)據(jù)集是官方公開的數(shù)據(jù)集,測試集沒有標(biāo)簽,因此將模型統(tǒng)一提交到官方網(wǎng)站(https://project.inria.fr/aerialimagelabeling/leaderboard[/2021-01-22])上進(jìn)行驗(yàn)證。
為了定量評(píng)估網(wǎng)絡(luò)模型效果,本文采用像素精度Acc(pixel accuracy)和交并比IoU(Intersection over Union)這兩個(gè)度量指標(biāo)。像素精度是標(biāo)記正確的像素占總像素的比例,交并比是真實(shí)值和預(yù)測值集合的交集與并集之比,表達(dá)式如下所示。
式中,假設(shè)有k+1 個(gè)類,pii表示本屬于i類且被預(yù)測為i類的像素?cái)?shù)量,即被正確預(yù)測的像素?cái)?shù)量,pij表示本屬于i類卻被預(yù)測為j類的像素?cái)?shù)量。TP為真正值(True Positive),即判定為正樣本,實(shí)際上是正樣本,F(xiàn)P 為假正值(False Positive),即判定為負(fù)樣本,實(shí)際上是正樣本,F(xiàn)N 為假負(fù)值(False Negative),即判定為負(fù)樣本,實(shí)際上是負(fù)樣本。
為了驗(yàn)證本文方法的有效性,我們將D-UNet與航空?qǐng)D像標(biāo)記數(shù)據(jù)集上的典型模型和先進(jìn)方法進(jìn)行比較,表1為在測試集上的數(shù)值評(píng)估結(jié)果,有SegNet,VGG11(Simonyan 和Zisserman,2014),PSPNet(Zhao 等,2017),LinkNet(Chaurasia 和Culurciello,2017),還包括2018 年IAIL 競賽的獲勝 者AMML(Huang 等,2018),以 及U-Net 和ED-Net 的融合模型(余威和龍慧云,2019)和AMUNet(Guo 等,2020)。由表1 可知,本文方法在測試集的5個(gè)城市實(shí)驗(yàn)中普遍比經(jīng)典方法好,交并比IoU和準(zhǔn)確性Acc都有很大的提高。比2019年提出的U-Net 和ED-Net 融合模型在IoU 和準(zhǔn)確性上分別提高了4.74%和0.64%。同時(shí),比惠健等(2019)在IoU 和Acc 分別提高了8.08%、1.13%,比AMUNet的IoU提高了7.13%,Acc提高了0.64%。由表1 可知D-UNet 在測試集上有兩個(gè)地區(qū)的結(jié)果不如其他方法,因?yàn)槊總€(gè)地區(qū)的建筑物具有不同的分布特點(diǎn),每個(gè)方法在不同的地區(qū)中效果較難達(dá)到完全的最優(yōu),但D-UNet 在整體IoU 和準(zhǔn)確性上均超過了其他方法。
表1 測試集數(shù)值評(píng)估Table 1 Test set numerical evaluation
在驗(yàn)證集上對(duì)比了近一兩年在IAIL 航空?qǐng)D像數(shù)據(jù)集上提出的新分割方法,如表2所示。本文方法D-UNet 比Li 等(2019)提出多尺度的U-Net(Multi-scale UNet)的IoU 和Acc 分別提高了4.74%和0.65%;比Pan 等(2019)使用空間和通道雙注意力機(jī)制的生成式對(duì)抗網(wǎng)絡(luò)的IoU 和Acc 分別提高了1.46%、0.17%;比Han 等(2020)提出的稠密連接機(jī)制改進(jìn)的殘差卷積網(wǎng)絡(luò)和空間金字塔結(jié)構(gòu)的RDASP-Net 模型IoU 提高了3.05%,Acc 提高了0.51%。Sebastian 等(2020)提出的SEResNeXt101-FPN-CPA 方法,即加入了上下文金字塔模型,通過捕獲上下文特征依賴項(xiàng)來改進(jìn)對(duì)不同大小的建筑物進(jìn)行提取,本文方法D-UNet 的IoU 比其高了1.69%,Acc 高了0.29%。另外,D-UNet 比Guo 等(2020)提出的加入注意力機(jī)制塊的改進(jìn)的U-Net方法AMUNet 的IoU 提高了2.02%,Acc 提高了0.04%。表2 充分說明了本方法在驗(yàn)證集上的有效性,D-UNet 在整體IoU 和準(zhǔn)確性上優(yōu)于其他最新方法。
表2 驗(yàn)證集數(shù)值評(píng)估Table 2 Validation set numerical evaluation
實(shí)驗(yàn)可視化圖如圖5所示。圖5(a)為數(shù)據(jù)集原圖,圖5(b)為原圖標(biāo)簽,D-UNet 的結(jié)果如圖5(g)所示,SegNet、VGG11、PSPNet和LinkNet分割的視覺效果分別如圖5(c)、5(d)、5(e)、5(f)所示??梢钥吹?,與其他方法的分割結(jié)果相比,本文方法D-UNet 可以更好區(qū)分建筑物之間的邊界,預(yù)測結(jié)果較少有邊緣信息的丟失,能捕獲更多“尖銳”的細(xì)節(jié)信息。
圖5 各方法實(shí)驗(yàn)可視化圖Fig.5 Experimental visualization of each method
圖6 展示了D-UNet 模型在圖像尺寸大小為5000 × 5000 的INRIA 遙感影像測試集上的分割效果,D-UNet 在測試時(shí)每次的輸入尺寸為1024 ×1024,最后將其拼接為原圖大小。
圖6 D-UNet分割效果可視化圖Fig.6 Visualization of D-UNet segmentation effect
為進(jìn)一步驗(yàn)證本文方法的有效性,在驗(yàn)證集上對(duì)網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行有無空洞卷積模塊的消融對(duì)比實(shí)驗(yàn)結(jié)果如表3所示。在消融實(shí)驗(yàn)中,以本文提出的聯(lián)合損失函數(shù)作為模型的損失函數(shù),對(duì)比四通道的空洞卷積模塊對(duì)模型的整體的效果,實(shí)驗(yàn)表明,有空洞卷積模塊的D-UNet 在5 個(gè)城市的交并比IoU 和精確度Acc 均有提升,其中,IoU 最大提升幅度為5.41%,Acc 最大提升幅度為2.18%,模型整體提高分別為:IoU:4.61%,Acc:0.74%,即四通道的空洞卷積模塊能夠提取大小不同的多尺度特征信息對(duì)模型的分割效果具有較好的提升作用。
表3 驗(yàn)證集消融實(shí)驗(yàn)評(píng)估Table 3 Validation set ablation experimental evaluation
從遙感圖像中準(zhǔn)確自動(dòng)地分割建筑物對(duì)于城市規(guī)劃和災(zāi)害管理等應(yīng)用領(lǐng)域至關(guān)重要。本文提出了一種新的建筑物提取方法,稱為D-UNet。考慮到現(xiàn)有的基于全卷積神經(jīng)網(wǎng)絡(luò)的方法有很多局限性,如產(chǎn)生模糊邊緣和細(xì)節(jié)信息丟失等問題。D-UNet通過以下3個(gè)優(yōu)勢來解決上述問題:(1)D-UNet是端到端結(jié)構(gòu)的像素級(jí)分割網(wǎng)絡(luò)。(2)D-UNet 通過融合不同尺度的空洞卷積模塊,在不增大模型計(jì)算量的同時(shí)提高了分割的精確度。(3)提出了一種新的聯(lián)合損失函數(shù),使模型能更快更穩(wěn)定的進(jìn)行參數(shù)更新。
在IAIL 航空?qǐng)D像數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果充分驗(yàn)證了D-UNet 在高分辨率遙感圖像語義分割的有效性和優(yōu)勢,其分割精度更高,優(yōu)于其他方法,具有較高的實(shí)際應(yīng)用價(jià)值。但是,D-UNet 仍然具有可以提升的空間。我們將在之后的研究中繼續(xù)探究如何降低D-UNet 的訓(xùn)練時(shí)長以及如何繼續(xù)提升分割精度。