寧 芊,胡詩雨,雷印杰?,陳炳才
(1.四川大學(xué)電子信息學(xué)院,四川成都 610065;2.新疆師范大學(xué)物理與電子工程學(xué)院,新疆烏魯木齊 830054;3.大連理工大學(xué)計算機科學(xué)與技術(shù)學(xué)院,遼寧大連 116024;4.新疆師范大學(xué)計算機科學(xué)技術(shù)學(xué)院,新疆烏魯木齊 830054)
航空圖像分割對高精度地圖的繪制和地區(qū)規(guī)劃有很重要的作用.航空圖像的建筑與非建筑標(biāo)注能實現(xiàn)土地覆蓋和變化檢測的繪圖,在林業(yè)和城市規(guī)劃等領(lǐng)域得到應(yīng)用.例如大規(guī)模分析區(qū)域建筑分布特征和更新建筑覆蓋地圖.通過對航空圖像的建筑與非建筑的自動標(biāo)記,實現(xiàn)航空圖像的分割.航空圖像的數(shù)據(jù)較為復(fù)雜,航空圖像的建筑與非建筑標(biāo)注存在以下挑戰(zhàn):
1) 遮擋.建筑存在被樹木小面積或大面積遮擋的情況;
2) 類別分布不均勻.建筑類別分布不均勻,有些分布密集,有些稀疏,甚至圖像中并無建筑;
3) 建筑形狀大小不定.在航空圖像中,若建筑面積很小,導(dǎo)致分割困難;
4) 陰影.陰影的存在導(dǎo)致建筑外觀發(fā)生變化,降低分割準(zhǔn)確性;
5) 背景復(fù)雜.分割背景可能存在與建筑相似度很高的物體.
這些挑戰(zhàn)共同導(dǎo)致了建筑檢測和定位的分割困難,即使對于表現(xiàn)很好的模型,產(chǎn)生的分割結(jié)果也存在高度的不確定性[1].圖像分割的準(zhǔn)確性將直接影響后續(xù)任務(wù)的有效性,因此,使用更好的分割方法來提升實際分割效果,具有十分重要的意義.
近年來,神經(jīng)網(wǎng)絡(luò)在手寫數(shù)字識別、語音識別、分類整個圖像和檢測圖像中的對象方面取得了巨大的成功[2-3].卷積神經(jīng)網(wǎng)絡(luò)(convolution neural network,CNN)同樣也能應(yīng)用于圖像分割,但由于其末端使用全連接層(full connected layers,F(xiàn)C),所以只能使用提取周圍像素特征的方法來對中心像素進行分類,但基于CNN的語義分割方法存在像素區(qū)域的大小無法確定、計算量和存儲量大、感受野(receptive field)大小受限制的問題,導(dǎo)致只能提取部分局部特征.
使用全卷積網(wǎng)絡(luò)進行航空圖像的分割能夠?qū)崿F(xiàn)像素分類的端到端(end-to-end)訓(xùn)練,從而得到更好的分割效果.由于語義分割中的類別標(biāo)簽需要和原圖像對齊,因此隨之提出了兩種不同的構(gòu)架來解決像素位置的問題.第1種是編碼-解碼(encoder-decoder)結(jié)構(gòu),編碼過程中通過連續(xù)的池化層和下采樣減少位置信息、減少圖像分辨率,提取特征;解碼過程使用上采樣逐漸恢復(fù)其位置信息.第2種是空洞卷積(atrous convolutions)[4],該結(jié)構(gòu)在不使用池化層的情況下,使用空洞卷積來增加感受野獲取更多的信息.
多尺度特征在很多模型中得到了廣泛應(yīng)用,使用了多尺度特征之后,模型的語義分割能力有明顯的提高[5-10].對于不同尺度的圖像,神經(jīng)網(wǎng)絡(luò)模型提取的特征圖也不全相同,將多個尺度的特征進行融合能更全面獲取圖像的特征信息,實現(xiàn)更準(zhǔn)確的分割.最近,注意力模型在自然語言處理(natural language processing,NLP)和計算機視覺(computer vision,CV)任務(wù)中取得了巨大的成功[11-14].與將整個圖像或序列壓縮成靜態(tài)表示不同,注意力模型允許模型根據(jù)需要聚焦最相關(guān)的特性.利用注意力模型的這一特性,能對圖像進行有效的監(jiān)督,提升模型的分割能力.
為了提高模型的語義分割性能,這里使用一種結(jié)合多尺度特征和注意力模型(attention model)的方法來進行分割,提升圖像的分割邊界效果.實驗將語義分割模型,與多尺度特征輸入和注意力模型共同訓(xùn)練.首先,將處理為多尺度的圖片輸入全卷積神經(jīng)網(wǎng)絡(luò),分別得到不同尺度下神經(jīng)網(wǎng)絡(luò)提取的特征圖;其次,將特征圖融合到一起同時送入注意力模型得到特征圖各個像素點的權(quán)重分布;最后將權(quán)重分布與融合的特征圖進行點乘,得到最后的網(wǎng)絡(luò)輸出特征圖.數(shù)據(jù)集采用結(jié)果表明,使用注意力模型和多尺度特征能有效提高模型的分割精度.實驗結(jié)果表明,該方法能有效提升模型的分割能力和分割效果.
在2014年,伯克利提出全卷積神經(jīng)網(wǎng)絡(luò)(full convolutional networks,F(xiàn)CNs)[8],將圖像分類拓展到了像素級的分類.該網(wǎng)絡(luò)在圖像分類網(wǎng)絡(luò)構(gòu)架的基礎(chǔ)上將末端的全連接層改為1×1的卷積層,并使用反卷積來將特征圖恢復(fù)到與輸入圖像相同分辨率的大小.網(wǎng)絡(luò)在層之間添加跳轉(zhuǎn)鏈接來將下采樣和上采樣的特征進行融合,以優(yōu)化輸出的語義信息并提高空間精度.將網(wǎng)絡(luò)全連接層轉(zhuǎn)換1×1的卷積層.由于網(wǎng)絡(luò)中使用了5個步長(stride)為2的最大池化操作,所以原始網(wǎng)絡(luò)的spatial decimation factor為32,此時網(wǎng)絡(luò)為FCN-32s,然后將輸出的特征圖作為反卷積層的輸入,通過兩次插值上采樣得到系數(shù)為8的密集輸出,并在下采樣和上采樣之間使用跳轉(zhuǎn)連接進行對應(yīng)層之間的融合,得到更加密集的特征,此時網(wǎng)絡(luò)為FCN-8s.最后為了與手工標(biāo)記圖像進行比較,將每個像素點分類的概率圖(score map)進行雙線性插值得到原始圖像分辨率.
在此基礎(chǔ)上,提出的編碼解碼結(jié)構(gòu)網(wǎng)絡(luò)SegNet[15]和U-Net[16]能很好的捕獲上下文信息,提升分割效果.U-Net主要由兩部分組成:收縮路徑(contracting path)來獲取上下文信息;一個對稱的擴張路徑(expanding path)來精確定位.在收縮路徑中采用典型的卷積網(wǎng)絡(luò)結(jié)構(gòu),構(gòu)架采用幾個重復(fù)的模塊(block)結(jié)構(gòu),每個模塊中都有兩個卷積層和一個池化(pooling)層,卷積層中卷積核的大小均為3×3,激活函數(shù)均使用ReLU,兩個卷積層后為一個步長為2的2×2的最大池化層,每次下采樣后將特征通道的數(shù)量加倍.在擴張路徑中同樣采用幾個重復(fù)的模塊結(jié)構(gòu),首先使用反卷積將特征圖的大小加倍并將特征通道數(shù)量減半,之后將反卷積結(jié)果與收縮路徑中對應(yīng)步驟的特征圖融合,融合后的特征圖再通過兩次大小為3×3的卷積.網(wǎng)絡(luò)的最后一層是卷積核大小為1×1的卷積層,目的是將特征圖通道數(shù)轉(zhuǎn)化為指定深度.
多尺度特征在計算機視覺任務(wù)應(yīng)用能夠提升效果[17-18].Farabet人使用Laplacian金字塔結(jié)構(gòu)通過共享網(wǎng)絡(luò)(share-net)對每個尺度的圖像進行訓(xùn)練,并融合所有尺度的特征[5];Pinheiro等人將多尺度圖像應(yīng)用于循環(huán)卷積神經(jīng)網(wǎng)絡(luò),作為不同階段的輸入[6];Eigen和Fergus將3個不同尺度的圖像依次輸入基于深度卷積神經(jīng)網(wǎng)絡(luò)(deep convolutional neural networks,DCNNs),輸入的尺度不同對應(yīng)的DCNNs結(jié)構(gòu)也不同,該模型需要分兩步進行訓(xùn)練[19].
在計算機視覺中,注意力模型被廣泛應(yīng)用于圖像分類[20-22]和目標(biāo)檢測[23-25].Mnih等人研究了一種能自適應(yīng)選擇圖像區(qū)域進行處理的注意力模型,但該模型不可微,所以無法實現(xiàn)端到端訓(xùn)練[13].由于將多尺度特征應(yīng)用于全卷積神經(jīng)網(wǎng)絡(luò)(FCNs)中能有效提升語義分割的效果,2016年,Chen等人提出一種注意力機制,可以學(xué)習(xí)對每個像素位置的多尺度特征進行輕微加權(quán),并且允許在不同位置和尺度上診斷可視化特征的重要性[26].
在航空圖像分割方面,Yuan等人利用7種算法對航空圖像進行分割[29];Permuter等人使用混合高斯模型實現(xiàn)了對航空圖像較好的分割[30];Marmanis 等利用FCN實現(xiàn)了航空圖像多類分割,且取得較好的效果[31].
在這里,本文提出使用全卷積神經(jīng)網(wǎng)絡(luò)結(jié)合多尺度特征和注意力機制來實現(xiàn)航空圖像的建筑與非建筑分割.使用兩個不同深度的全卷積神經(jīng)網(wǎng)絡(luò)共同作為分割模型的基本網(wǎng)絡(luò)并進行對比:深度神經(jīng)網(wǎng)絡(luò)U-Net與基于VGG-16網(wǎng)絡(luò)的FCN-8s,并將模型與注意力機制結(jié)合,得到新的分割模型.本文利用不同尺度的航空圖像作為神經(jīng)網(wǎng)絡(luò)的輸入,以提供輸入目標(biāo)的不同表現(xiàn);注意力模型能得到每個尺度上每個像素點的最佳權(quán)重,突出網(wǎng)絡(luò)在各個尺度圖像中提取的不同特征.以這樣的方式完善輸出結(jié)果,提升分割效果.
本文將多尺度和注意力機制應(yīng)用于航空圖像分割,以此來提升分割效果.流程圖如圖1所示.
由于航空數(shù)據(jù)集中分割目標(biāo)(建筑類)的大小和分布密集度差異較大,在同一圖像中同時獲取不同大小目標(biāo)的物體特征較為困難.圖像的不同尺度能提供同一圖像的更多特征;根據(jù)在不同尺度圖片中,注意力機制對不同物體的注意力不同,便于獲取更多圖像特征[26]:對尺度大的圖片能獲取小目標(biāo)特征;對尺度中等的圖片,獲取中等目標(biāo)特征的表現(xiàn)力更好;對尺度小的圖片,獲取大面積目標(biāo)的能力更好.由于采用的航空數(shù)據(jù)集,圖像中建筑目標(biāo)包含了小、中、大3個不同的大小,所以這里使用3個不同尺度的圖片進行訓(xùn)練,能很好地提供圖像中這3個不同大小的建筑特征.
圖1 圖像分割流程圖Fig.1 Split flow chart
常用的一種提取多尺度特征方法是將多個已調(diào)整大小的圖像作為共享權(quán)值的深層網(wǎng)絡(luò)的輸入,然后合并網(wǎng)絡(luò)輸出的特征圖來進行像素分類.如圖2所示,本文將輸入的圖像改變大小(resize)為3個尺度,并分別通過同一全卷積神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練,得到不同尺度下對每個像素點分類的概率圖(在Soft-Max之前最后一層的輸出),再將不同尺度的概率圖進行融合,最后將融合的特征送入軟注意力模型(soft attention model)產(chǎn)生權(quán)重圖(weight map),權(quán)重圖反應(yīng)了在全卷積神經(jīng)網(wǎng)絡(luò)生成的權(quán)重圖在不同尺度和不同位置下的特征的重要性.將權(quán)重圖與融合的特征圖進行點乘,得到最終的特征圖.這里使用的注意力模型允許人們在不同位置和尺度上判斷特征的重要性,從而達到更好的分割效果.
注意力機制(attention mechanism)起源于對人類視覺的研究,當(dāng)注意某個目標(biāo)或場景時,空間不同部分分配的注意力不同.同樣,當(dāng)描述一件事情時,語句和描述的事情的部分片段最相關(guān),隨著描述的變化,相關(guān)性也在不斷地改變.注意力的方法分為軟(soft attention)和硬(hard attention),這兩種方法的輸出向量分別為軟分布(soft)與獨熱分布(one-hot),方法的選擇將直接影響對上下文信息的選擇效果.注意力模型能根據(jù)需要聚焦最相關(guān)特征的特性,從而提高網(wǎng)絡(luò)輸出質(zhì)量.與在二維空間和時間度中使用注意力模型不同[27-28],這里將注意力模型和多尺度特征共同應(yīng)用于語義分割,以提高模型的分割能力.
圖2 模型說明Fig.2 Introduction of model
這里使用的注意力模型是基于多尺度特征的,利用注意力模型來為每個尺度和位置計算一個軟權(quán)重(soft weight),并且該模型允許損失函數(shù)的梯度反向傳播.因此,該模型和FCNs實現(xiàn)端對端訓(xùn)練,使模型能自適應(yīng)找到尺度上的最佳權(quán)重.如圖3所示,在全卷積網(wǎng)絡(luò)中,假設(shè)一個輸入圖片被處理為多個尺度s∈{1,…,S},每個尺度通過全卷積神經(jīng)網(wǎng)絡(luò)(權(quán)重在所有尺度上共享)并產(chǎn)生所有尺度s 的概率圖為所有空間位置的范圍,c∈{1,…,C}表示類的數(shù)量.然后使用雙線性插值將特征圖改變?yōu)橄嗤直媛?,這里令所有尺度在(i,c)上的每個像素點分類的概率圖的權(quán)重和為gi,c,則
圖3 注意力模型實現(xiàn)過程Fig.3 Attention model implementation process
語義分割網(wǎng)絡(luò)最終輸出為一個為512×512二值化圖像,其表示哪些像素為建筑或非建筑,所以分割的目的是將每個像素點分類為建筑(前景)或非建筑(后景).在該實驗中,本文將每個經(jīng)過切割的航空圖像經(jīng)過分割模型得到的輸出,與正確標(biāo)注進行比較.因此,越多像素點被分類正確,則模型的準(zhǔn)確度越高.
實驗通過在像素級(pixel-level)上進行標(biāo)注來訓(xùn)練神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)參數(shù),將所有尺度的概率圖進行融合再通過一個Soft-Max得到最后輸出,并且使用隨機優(yōu)化方法Adam,進行回傳來得到損失函數(shù)的最小值.
這里采用了兩種語義分割網(wǎng)絡(luò)作為分割模型:FCN-8s和U-Net.這兩個網(wǎng)絡(luò)模型已經(jīng)證明在語義分割方面取得了很好的效果.對于FCN-8s,網(wǎng)絡(luò)參數(shù)初始化使用預(yù)訓(xùn)練的VGG-16[2]網(wǎng)絡(luò)參數(shù);對于U-Net網(wǎng)絡(luò)參數(shù)采用高斯初始化的方式來初始化參數(shù).
數(shù)據(jù)集采用了Inria航空圖像標(biāo)記數(shù)據(jù)集(aerial image labeling dataset),該數(shù)據(jù)集圖像涵蓋了多個城市區(qū)域,從人口密集地區(qū)到高山城鎮(zhèn),覆蓋面積廣,空間分辨率高.如圖4所示,圖像的正確標(biāo)注(ground truth,GT)為建筑類和非建筑類兩個語義類別的單通道圖像,其中建筑類像素值為255,非建筑類值為0.訓(xùn)練集包括Austin,Chicago,Kitsap county,Western Tyrol,Vienna5個地區(qū),每個地區(qū)包含36個高分辨率航拍圖像,并從1-36進行編號.根據(jù)Inria航空圖像標(biāo)記數(shù)據(jù)集的說明,這里將數(shù)據(jù)集中每個城市的前5個圖像作為驗證集,其余作為訓(xùn)練集(每個城市的6-36號作為訓(xùn)練數(shù)據(jù)集,1-5號作為對應(yīng)驗證集).
圖4 數(shù)據(jù)集Fig.4 Datasets
由于數(shù)據(jù)集為大尺寸高分辨率(5000×5000)航空圖像,需要將其進行切割處理為多個小分辨率的圖片,這里將航空圖像統(tǒng)一切割處理為512×512大小的圖片.在使用注意力模型進行訓(xùn)練時,將圖像進行處理,增加兩個尺度:256×256,1024×1024,最終同時輸入3個尺度的圖像進行訓(xùn)練.
由于數(shù)據(jù)集中像素的高度不平衡,使用交并比(Intersection over Union,IoU)和Dice系數(shù)來對網(wǎng)絡(luò)表現(xiàn)進行評估更為可靠.所以這里使用Dice系數(shù)和IoU對網(wǎng)絡(luò)效果進行評估.
5.3.1 Dice系數(shù)
Dic系數(shù)是一種集合相似度度量函數(shù),常用于計算兩個樣本的相似度,范圍為0到1.其表達式為
將網(wǎng)絡(luò)輸出和真實標(biāo)記值的建筑類看作X和Y 兩個集合,由式(3)求得兩類的交集和并集即求出相似度.
5.3.2 交并比(IoU)
IoU是物體檢測中的一個概念,用于測量真實和預(yù)測之間的相關(guān)度,相關(guān)度越高則值越高.表示產(chǎn)生的預(yù)測圖像與原標(biāo)記的邊界框(bounding box)的交疊率,即兩框的交集與并集的比值.若兩框完全重疊,此時為理想情況,比值為1.表達式為
在語義分割中,用像素區(qū)域來代替標(biāo)記邊界框,以此來計算圖像分割的交并比,平均交并比為
其中:ncl為類的個數(shù),nij表示將i類預(yù)測為j類的像素個數(shù),表示i類像素點總數(shù).這里使用建筑
類的IoU作為評價指標(biāo),即在預(yù)測和參考中標(biāo)記為建筑的像素點數(shù)量,除以在預(yù)測或參考中被標(biāo)記的像素點數(shù)量.
實驗的語義分割網(wǎng)絡(luò)采用U-Net和FCN-8s兩種基本結(jié)構(gòu),并與結(jié)合多尺度和注意力模型的分割模型進行對比,觀察添加注意力模型后的分割效果以及模型的收斂速度.網(wǎng)絡(luò)訓(xùn)練的優(yōu)化器采用Adam,初始學(xué)習(xí)率為0.001,學(xué)習(xí)率衰減設(shè)置為0.0005,相當(dāng)于學(xué)習(xí)率在2000次迭代后乘0.1.由于硬件限制,在訓(xùn)練未加注意力模型時,mini-batch size設(shè)置為5;在訓(xùn)練加入注意力模型的網(wǎng)絡(luò)結(jié)構(gòu)時,mini-batch size設(shè)置為2.
通過繪制訓(xùn)練的損失(loss)曲線觀察注意力機制對整個網(wǎng)絡(luò)訓(xùn)練的影響.如圖5,在訓(xùn)練迭代1次結(jié)束,結(jié)合多尺度特征的網(wǎng)絡(luò)模型的訓(xùn)練損失迅速減小到1以下,并隨著訓(xùn)練次數(shù)的增加訓(xùn)練損失緩慢減小并趨于平穩(wěn);而對于未使用注意力機制的網(wǎng)絡(luò)模型,第1次訓(xùn)練損失超過4.5,在過后幾個訓(xùn)練epoch后損失迅速下降,隨后緩慢下降趨于平穩(wěn).加入注意力機制的網(wǎng)絡(luò)模型,由于不同尺度的權(quán)重ωsi對該尺度的關(guān)注點不同,所以網(wǎng)絡(luò)能提取到更多特征,網(wǎng)絡(luò)參數(shù)調(diào)整更快,模型訓(xùn)練損失下降更快.
表1顯示了不同網(wǎng)絡(luò)結(jié)構(gòu)對航空圖像進行建筑標(biāo)注分割的表現(xiàn).其中:“FCN-8s&Attention”表示結(jié)合多尺度特征和注意力機制的FCN-8s; “U-net&Attention”表示結(jié)合多尺度特征和注意力機制的U-net.通過對比未結(jié)合注意力機制的網(wǎng)絡(luò)模型,深度神經(jīng)網(wǎng)絡(luò)U-Net的IoU和Dice系數(shù)均比FCN-8s 高(IoU高0.11,Dice系數(shù)高0.9),因為更深層的網(wǎng)絡(luò)能提取更高等級的特征,所以更深層的網(wǎng)絡(luò)在語義分割上有更好的表現(xiàn).通過對比FCN-8s和U-Net及其結(jié)合了多尺度特征和注意力機制的網(wǎng)絡(luò)模型,發(fā)現(xiàn)結(jié)合了多尺度特征的網(wǎng)絡(luò)模型,IoU和Dice系數(shù)均得到提升,同樣更深層的神經(jīng)網(wǎng)絡(luò)U-Net分割效果更好(IoU為0.784,Dice系數(shù)為0.879).結(jié)果證明結(jié)合多尺度特征和注意力機制的語義分割模型分割表現(xiàn)有所提高.
圖5 訓(xùn)練損失曲線圖Fig.5 Curve of train
表1 實驗結(jié)果Table 1 Result of experience
總的來說,結(jié)合了注意力機制的語義分割模型,通過計算圖像的每個尺度中每個位置的軟權(quán)重來注意圖像中的不同目標(biāo),獲取圖像更多的特征信息,達到提升分割結(jié)果的目的.
實驗分割結(jié)果如圖6,圖片均為512×512的二值化圖片.上4行為以FCN-8s為基本網(wǎng)絡(luò)的分割結(jié)果,下4行為以U-Net為網(wǎng)絡(luò)骨架的分割結(jié)果:從左往右依次為航空圖像、基本網(wǎng)絡(luò)分割結(jié)果、結(jié)合注意力機制的模型結(jié)果、標(biāo)注圖片.結(jié)果圖中紅圈標(biāo)注部分表示對結(jié)果改進最為明顯的部分.
仔細分析分割結(jié)果圖.圖6中第1行和第4行分別為以FCN-8s和U-Net為基本網(wǎng)絡(luò)對同一圖片的分割結(jié)果,結(jié)合了注意力機制的網(wǎng)絡(luò)模型建筑分割更加清晰;與原圖和標(biāo)記圖對比發(fā)現(xiàn),對于左下角將道路分割為建筑的錯誤,使用注意力機制的模型明顯減少了分割錯誤.對于第2行和第4行分割結(jié)果的紅圈部分,分割整體效果有明顯改善,建筑分割邊界更加清晰.從第3行和第6行的紅圈標(biāo)注中能明顯看出,結(jié)合注意力機制的分割模型能更好地分割建筑的邊界細節(jié),并且能更加明顯地展示出大建筑邊緣更小的突出部分.對于倒數(shù)第2行的小建筑分割,結(jié)合注意力機制的網(wǎng)絡(luò)模型同樣也展示出了很好的分割能力,分割的小建筑更加清晰,并且對于邊界清晰度改善更為明顯.最后1行展示了對于大建筑中,對非建筑細節(jié)的分割提升,未結(jié)合注意力機制的基本模型幾乎不能分割出建筑中的非建筑部分,而結(jié)合注意力機制的模型能清晰的分割出該部分,有效展示了該模型對于建筑分割效果的提升.
圖6 實驗結(jié)果Fig.6 Experimental result
但是使用注意力機制后的網(wǎng)絡(luò)模型,分割結(jié)果仍然有待提升.與原圖進行對比,使用注意力機制的模型進行分割依舊存在與建筑顏色相似的像素點分類為建筑類的錯誤:在第4行中,兩建筑間的道路部分有少量像素點標(biāo)記為建筑類.同樣也存在與建筑顏色相差較大的建筑分類為非建筑類的問題:最后一行,建筑中央顏色與建筑整體相差較大,這部分分割結(jié)果出現(xiàn)灰色陰影,展示出了模型對于這部分的不確定性.
總體來說,結(jié)合了多尺度特征和注意力機制的網(wǎng)絡(luò)模型,對航空建筑分割效果有較大的提升.
本文結(jié)合多尺度特征和注意力機制實現(xiàn)航空圖像分割.采用多尺度特征,并將注意力模型分別和基本網(wǎng)絡(luò)FCN-8s與U-net結(jié)合,使模型自適應(yīng)找到尺度上的最佳權(quán)重,減少人工干預(yù),實現(xiàn)端到端的訓(xùn)練.采用兩種全卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)進行訓(xùn)練,實驗結(jié)果表明使用注意力模型能在不同尺度的不同位置產(chǎn)生一個軟權(quán)重,以此添加額外的監(jiān)督,獲得更好的模型性能;結(jié)合多尺度特征來獲取圖片更多信息.因此,將結(jié)合多尺度特征和注意力機制的分割網(wǎng)絡(luò)模型應(yīng)用于航空圖像標(biāo)記,能有效提升分割效果.