国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于增強(qiáng)特征融合解碼器的語(yǔ)義分割算法

2020-05-18 11:08:06馬震環(huán)高洪舉
計(jì)算機(jī)工程 2020年5期
關(guān)鍵詞:解碼器級(jí)聯(lián)淺層

馬震環(huán),高洪舉,雷 濤

(1.中國(guó)科學(xué)院光電技術(shù)研究所,成都 610209; 2.中國(guó)科學(xué)院大學(xué) 電子電氣與通信工程學(xué)院,北京 100049;3.32183部隊(duì),遼寧 錦州 121000)

0 概述

圖像語(yǔ)義分割是指利用圖像的高級(jí)語(yǔ)義[1](圖像或圖像區(qū)域所包含對(duì)象或?qū)嶓w的類別信息)為圖像中每個(gè)像素分配一個(gè)對(duì)應(yīng)表示其語(yǔ)義的類別標(biāo)簽。圖像語(yǔ)義分割是計(jì)算機(jī)視覺(jué)、模式識(shí)別與機(jī)器學(xué)習(xí)等領(lǐng)域的重要研究方向,是場(chǎng)景理解、圖像重構(gòu)等任務(wù)的預(yù)處理環(huán)節(jié)。研究者能夠利用圖像語(yǔ)義分割技術(shù)在醫(yī)療圖像中精確查找病變部位,在自動(dòng)駕駛過(guò)程中準(zhǔn)確掌握道路信息,在無(wú)人機(jī)著陸時(shí)高精度定位陸區(qū)域中心,因此,該項(xiàng)技術(shù)具有重要的應(yīng)用價(jià)值。

與此同時(shí),GPU迅猛發(fā)展,適合大數(shù)據(jù)處理的深度學(xué)習(xí)技術(shù)日趨成熟,同時(shí)也出現(xiàn)了像素級(jí)別標(biāo)注的數(shù)據(jù)集,這使得深度模型從大數(shù)據(jù)中發(fā)掘有價(jià)值的信息[2]和知識(shí)成為可能。語(yǔ)義分割在結(jié)合深度學(xué)習(xí)技術(shù)后能夠使性能得到大幅提升。為此,本文設(shè)計(jì)一種增強(qiáng)特征融合的解碼器模塊。該模塊通過(guò)級(jí)聯(lián)高層特征與低層特征,并以卷積的形式加以融合,同時(shí)在降維后引入自身平方項(xiàng)的全局平均池化層,利用兩個(gè)卷積預(yù)測(cè)自身項(xiàng)與自身平方項(xiàng)的權(quán)重并以殘差的形式相結(jié)合,從而改善特征融合效果。

1 相關(guān)研究

文獻(xiàn)[3]提出的AlexNet方法在ILSVRC2012圖像分類競(jìng)賽中取得了出色的效果,這為深度學(xué)習(xí)方法在語(yǔ)義分割中的應(yīng)用拉開(kāi)序幕。文獻(xiàn)[4]提出全卷積神經(jīng)網(wǎng)絡(luò)(FCN),其以VGG16[5]作為基礎(chǔ)網(wǎng)絡(luò),替換網(wǎng)絡(luò)后端的全連接層為卷積層以接受任意尺度的圖像輸入。輸入圖像在經(jīng)過(guò)5個(gè)最大池化層之后得到32倍下采樣的結(jié)果,對(duì)于解碼器部分,則將該結(jié)果直接插值得到原始輸入尺寸。為得到更精細(xì)的分割結(jié)果,FCN通過(guò)插值的上采樣方式,得到更高分辨率的深層特征圖,并與淺層特征以直接作和的方式融合,以產(chǎn)生密集的預(yù)測(cè)結(jié)果。該工作在語(yǔ)義分割中具有里程碑的意義,端到端的方法由此成為主流。

文獻(xiàn)[6]提出deeplab v1,其在VGG16網(wǎng)絡(luò)的基礎(chǔ)上去掉最后兩個(gè)池化層,引入空洞卷積以維持特征圖分辨率并擴(kuò)大感受野。該方法最終得到8倍下采樣的特征圖,最后以雙線性插值的方式作為解碼器恢復(fù)原圖尺寸。文獻(xiàn)[7]提出了SegNet,同樣以VGG16作為基礎(chǔ)網(wǎng)絡(luò),在最大池化過(guò)程中保留池化的索引。在恢復(fù)高分辨率特征圖的過(guò)程中,解碼器利用這些保留的索引得到稀疏的特征圖,然后使用可訓(xùn)練的卷積核進(jìn)行卷積操作,生成密集的特征圖。相比FCN直接使用淺層特征的方式,該方法在內(nèi)存使用上更為高效。

文獻(xiàn)[8]遵循恒等映射的思想設(shè)計(jì)了RefineNet,其將ResNet-101[9]作為編碼器,輸出不同下采樣層的特征圖作為多個(gè)路徑。每個(gè)路徑的特征圖經(jīng)過(guò)RCU(Residual Conv Unit)做兩次卷積與激活后與自身作和。在解碼器部分,將不同分辨率的特征圖分別做卷積,以插值的方法處理到同一尺度,最后以加法的方式融合,逐層恢復(fù)到4倍下采樣結(jié)果,最后上采樣得到最終結(jié)果。

文獻(xiàn)[10]提出的GCN方法,將k×k的卷積分解成1×k加上k×1與k×1加上1×k兩種方式,使用大的參數(shù)k以捕獲大尺度信息。在解碼器部分,將ResNet輸出的深層特征經(jīng)過(guò)轉(zhuǎn)置卷積與淺層特征通過(guò)作和的方式融合,在逐層融合后得到2倍下采樣的特征圖,再經(jīng)過(guò)轉(zhuǎn)置卷積恢復(fù)到原圖大小。

文獻(xiàn)[11]針對(duì)航拍影像分割任務(wù),在網(wǎng)絡(luò)后端使用不同擴(kuò)張率的空洞卷積,得到多尺度的特征圖,然后將這些同一深度不同尺度的特征圖通過(guò)注意力機(jī)制計(jì)算各個(gè)尺度每個(gè)位置像素的重要性,最后通過(guò)加權(quán)和的方式融合特征。

文獻(xiàn)[12]提出的DeepLab v3+,使用DeepLab v3作為編碼器,對(duì)DeepLab v3輸出的16倍下采樣的深層特征做4倍上采樣,然后與網(wǎng)絡(luò)輸出的4倍下采樣的特征圖級(jí)聯(lián)做卷積,最后輸出分類結(jié)果。與直接做加和的特征融合方式相比,先級(jí)聯(lián)再卷積的方式包含了加和這一操作,并且卷積還能得到深層特征與淺層特征之間的權(quán)重關(guān)系,因此更具有普適性。

文獻(xiàn)[13]提出了PAN(Pyramid Attention Network),對(duì)于特征融合部分,該文將深層特征做全局平均池化得到一組特征向量以編碼每個(gè)通道的全局信息,隨后用1×1的卷積做變換以考慮通道與通道間的關(guān)系,再與淺層特征做乘法,最后將深層特征與淺層特征作和。

文獻(xiàn)[14]指出高層特征與低層特征之間存在語(yǔ)義鴻溝,直接融合的方式無(wú)法解決這個(gè)問(wèn)題,進(jìn)而提出SEB(Semantic Embedding Branch)方法進(jìn)行特征融合。該文先將深層的特征圖做卷積,然后通過(guò)雙線性插值的方式做上采樣,再與淺層特征做乘法。與使用全局平均池化的注意力機(jī)制相比,該方法無(wú)法獲取通道的全局信息但保留了各個(gè)特征圖的空間信息。

文獻(xiàn)[15]針對(duì)遙感影像道路提取問(wèn)題提出一種編解碼結(jié)構(gòu)的網(wǎng)絡(luò),該網(wǎng)絡(luò)具有較淺的深度,特征圖具有較高的分辨率等特點(diǎn)。該模型在解碼階段,通過(guò)跳躍連接將原圖分辨率大小的特征圖與2倍下采樣分辨率的特征圖融合,融合的方式為卷積級(jí)聯(lián)的方式。

文獻(xiàn)[16]設(shè)計(jì)了一種快速的語(yǔ)義分割算法,該算法密集層實(shí)現(xiàn)了兩路傳播,將前級(jí)連接與經(jīng)過(guò)卷積后的后級(jí)連接直接相連融合,并且該算法在每層之間均使用跳躍連接融合不同層間的信息。

對(duì)于基于特征融合的解碼器的結(jié)構(gòu),深層特征與淺層特征融合的方式主要有3類方法:1)將淺層特征與深層特征級(jí)聯(lián)做卷積;2)將深層特征做全局平均池化,通過(guò)注意力機(jī)制對(duì)淺層特征做變換,再將深層特征與變換后的淺層特征作和;3)將深層特征經(jīng)過(guò)卷積后直接與淺層特征做逐像素的乘法。除卷積級(jí)聯(lián)形式以外,其他兩種形式均遵循了恒等映射的思想。

2 本文方法

本文設(shè)計(jì)分為編碼器與增強(qiáng)特征融合解碼器(EFFD)兩個(gè)部分,整體網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。

圖1 整體網(wǎng)絡(luò)結(jié)構(gòu)

2.1 編碼器

本文將DeepLab v3算法[17]作為編碼器,在此基礎(chǔ)上進(jìn)行研究。編碼器部分主要包含3個(gè)部分,即基礎(chǔ)網(wǎng)絡(luò)ResNet-101、空洞卷積和ASPP(Atrous Spatial Pyramid Pooling)模塊。輸入圖像經(jīng)過(guò)ResNet-101提取特征,在深層引入空洞卷積。最后使用ASPP獲取多尺度的上下文信息,將這些方式得到的特征圖級(jí)聯(lián),經(jīng)過(guò)1×1的卷積將通道數(shù)降低到256。

2.1.1 空洞卷積

為識(shí)別大尺度的目標(biāo),要求網(wǎng)絡(luò)深層有較大的感受野,步長(zhǎng)為2的卷積、池化的方式使得感受野呈指數(shù)增長(zhǎng),但是這種方式輸出的特征圖分辨率同樣呈指數(shù)級(jí)下降趨勢(shì),最后的結(jié)果難以恢復(fù)。而以步長(zhǎng)為1的卷積堆疊的方式感受野呈線性增長(zhǎng),難以得到足夠大的感受野??斩淳矸e在一定程度上解決了這一問(wèn)題。對(duì)于一維情況有:

(1)

其中,y表示輸出信號(hào),w表示濾波器(卷積核),x是輸入信號(hào),r是對(duì)輸入信號(hào)采樣的步長(zhǎng),即擴(kuò)張率,標(biāo)準(zhǔn)卷積r的值為1。使用步長(zhǎng)為1的空洞卷積,在卷積核中按照擴(kuò)張率在特征圖兩端插入0,使得感受野呈指數(shù)增長(zhǎng)且不會(huì)使特征圖分辨率下降。

2.1.2 ASPP模塊

現(xiàn)有的先進(jìn)方法往往都需要級(jí)聯(lián)大尺度的空間上下文信息,編碼器部分通過(guò)ASPP模塊實(shí)現(xiàn)這一步。ASPP使用1×1的卷積、3×3擴(kuò)張率分別為6、12、18的卷積捕獲多尺度信息。ParseNet證明了全局信息的重要性,該結(jié)構(gòu)同樣引入了圖像級(jí)池化,利用這些部分并行的處理基礎(chǔ)網(wǎng)絡(luò)輸出的特征圖,最后將結(jié)果級(jí)聯(lián)。

2.2 EFFD

編碼器部分輸出了16倍下采樣的特征圖,通過(guò)插值的方式直接做16倍的上采樣,這樣解碼器過(guò)于簡(jiǎn)單。自FCN開(kāi)始及以后的Unet、DeepLab v3+等均證明了在上采樣階段引入淺層特征的有效性。本文的EFFD同樣考慮將深層特征與淺層特征做融合。然而在語(yǔ)義分割任務(wù)中,深層特征與淺層特征以何種方式融合沒(méi)有定論,且融合的方式缺乏可解釋性。因此,本文考慮將加法、乘法等運(yùn)算均融入到網(wǎng)絡(luò)中,端到端的學(xué)習(xí)解決此問(wèn)題。首先,以往的工作證明了簡(jiǎn)單的將高層特征與低層特征作和或者級(jí)聯(lián)起來(lái)做卷積的方式是有效的,本文考慮把級(jí)聯(lián)隨后做卷積的方式作為第1步。ParseNet證明了全局信息的有效性,本文考慮使用乘法結(jié)構(gòu)來(lái)利用這些全局信息,因此,在第2步引入注意力機(jī)制,通過(guò)殘差的方式將經(jīng)過(guò)注意力機(jī)制得到的特征與第一步的特征作和。

2.2.1 級(jí)聯(lián)卷積

本文先使用傳統(tǒng)的特征融合方式將DeepLab v3高層特征與低層特征級(jí)聯(lián)再做卷積。高層的特征帶有豐富的語(yǔ)義信息,重要性高于低層特征,相對(duì)而言,直接卷積的方式應(yīng)使高層特征具有更大的權(quán)重。然而深度網(wǎng)絡(luò)常用L2正則化以提升網(wǎng)絡(luò)的泛化能力。L2正則化在反向傳播過(guò)程中傾向于將所有輸入對(duì)應(yīng)的權(quán)重調(diào)整到比較小的均勻值,避免出現(xiàn)過(guò)大的權(quán)重。因此,首先使用1×1的卷積對(duì)低層特征降維,通過(guò)減少通道數(shù)的方式來(lái)降低淺層特征的權(quán)重。然后將經(jīng)過(guò)雙線性插值后的深層特征與淺層特征級(jí)聯(lián)。級(jí)聯(lián)結(jié)果輸入到3個(gè)卷積層中,其中最后一個(gè)卷積層使用1×1的卷積降低通道數(shù),得到融合后的特征圖。級(jí)聯(lián)卷積過(guò)程如圖2所示。

圖2 級(jí)聯(lián)卷積過(guò)程

2.2.2 注意力機(jī)制

注意力機(jī)制如圖3所示,其中主要包含全局平均池化、通道注意力和激活函數(shù)3個(gè)部分。

圖3 注意力機(jī)制示意圖

1)全局平均池化

原始的全局平均池化(Global Average Pooling,GAP)將每一個(gè)通道的特征圖按照每個(gè)位置產(chǎn)生的響應(yīng)直接求和,公式如下:

(2)

其中,yi表示第i個(gè)位置的權(quán)重向量,H、W分別為輸入特征圖高和寬,xi,j,k表示輸入特征圖第i個(gè)通道第j行第k列的響應(yīng)值。筆者認(rèn)為歐氏距離越大的特征重要性越大,然而直接做GAP對(duì)于特征圖中小于0的部分會(huì)減小該通道注意力權(quán)重向量的響應(yīng)。因此,將融合后的特征圖與自身做乘法得到更能突出每個(gè)位置重要性的特征圖,再做GAP。

2)通道注意力

在得到GAP的結(jié)果后,本文使用兩個(gè)卷積分別預(yù)測(cè)出原始特征圖自身項(xiàng)與自身平方項(xiàng)權(quán)重,經(jīng)過(guò)各自的激活函數(shù)后分別對(duì)自身項(xiàng)與自身平方項(xiàng)做乘法變換,公式如下:

zi,j,k=yi·xi,j,k

(3)

其中,zi,j,k為經(jīng)過(guò)注意力機(jī)制后的輸出特征圖,yi表示第i個(gè)位置的權(quán)重向量,xi,j,k表示輸入特征圖第i個(gè)通道第j行第k列的響應(yīng)值。通道注意力將權(quán)重向量yi與每一個(gè)通道相乘以突出不同通道的重要性。

3)激活函數(shù)

在視覺(jué)任務(wù)中廣泛使用relu作為激活函數(shù)以解決梯度消失的問(wèn)題,考慮到sigmoid函數(shù)僅一層,不存在梯度消失的問(wèn)題,本文在解碼器部分使用sigmoid作為激活函數(shù),公式如下:

(4)

其中,S(x)為輸出響應(yīng),x為輸入。在注意力機(jī)制中,經(jīng)過(guò)全局平均池化后各個(gè)通道權(quán)重向量與各個(gè)通道相乘,與relu相比,使用該函數(shù)能夠?qū)?quán)重限制在(0,1)范圍內(nèi),避免出現(xiàn)過(guò)大的結(jié)果。

3 實(shí)驗(yàn)與結(jié)果分析

3.1 實(shí)驗(yàn)設(shè)置

本文實(shí)驗(yàn)的相關(guān)設(shè)置如下:

1)評(píng)價(jià)指標(biāo)。使用平均交并比(mean Intersection over Union,mIoU)作為評(píng)價(jià)指標(biāo),公式如下:

(5)

其中,k是目標(biāo)類別數(shù)目,pij表示第i類物體的像素被分到第j類物體的像素的數(shù)量。

2)數(shù)據(jù)集。使用pascal voc2012[18]數(shù)據(jù)集,該數(shù)據(jù)集包含飛機(jī)、輪船、人、火車等20類場(chǎng)景下的目標(biāo),所有背景均分為1類,共21類。該數(shù)據(jù)集背景豐富,單張圖片中往往包含了一個(gè)或者多個(gè)類別、多個(gè)目標(biāo),并且該數(shù)據(jù)集中圖片包含了目標(biāo)較大的尺度變化、光照變化、目標(biāo)間的遮擋等問(wèn)題,具有較大的分割難度。該數(shù)據(jù)集訓(xùn)練集僅有1 464張圖片,本文通過(guò)文獻(xiàn)[19]提供的額外的標(biāo)注對(duì)數(shù)據(jù)集做了增強(qiáng),使訓(xùn)練圖像達(dá)到了10 582張。本文使用pytorch實(shí)現(xiàn)以上算法,并在pascal voc2012訓(xùn)練集上訓(xùn)練,驗(yàn)證集不參與調(diào)參,在驗(yàn)證集上做測(cè)試。

3)實(shí)驗(yàn)環(huán)境。系統(tǒng)環(huán)境ubuntu18.04,python 3.6.7,pytorch 1.0,顯卡NVIDIA TITANX Pascal 12 GB,CPU為intel i7-7700k 4.2 GB。

4)數(shù)據(jù)增強(qiáng)。對(duì)輸入的訓(xùn)練圖像做數(shù)據(jù)增強(qiáng),輸入圖像以1/2的概率做水平翻轉(zhuǎn)、隨機(jī)縮放,以1/2的概率做高斯濾波使圖像模糊,最后做中心裁剪得到513像素×513像素的圖像。

5)訓(xùn)練。使用ResNet-101作為基礎(chǔ)網(wǎng)絡(luò),加載在ImageNet上預(yù)訓(xùn)練的參數(shù)。整個(gè)網(wǎng)絡(luò)學(xué)習(xí)率初始化為0.007,ASPP模塊與解碼器部分學(xué)習(xí)率為基礎(chǔ)網(wǎng)絡(luò)學(xué)習(xí)率的10倍。學(xué)習(xí)率策略使用多項(xiàng)式衰減,batch size 取8,訓(xùn)練60個(gè)epoch,近80 000次迭代達(dá)到收斂。

3.2 結(jié)果對(duì)比與分析

本文方法與原始網(wǎng)絡(luò)的mIoU指標(biāo)值對(duì)比如表1所示??梢钥闯?原始網(wǎng)絡(luò)中加入本文解碼器后性能有明顯的提升。解碼器模塊將編碼的帶有豐富語(yǔ)義信息的高層特征與高分辨率的帶有空間位置信息的低層特征相結(jié)合,恢復(fù)了高分辨率的分類結(jié)果。

表1 與原網(wǎng)絡(luò)的mIoU指標(biāo)對(duì)比

Table 1 Comparison of mIoU index with original network %

網(wǎng)絡(luò)mIoU原網(wǎng)絡(luò)77.21加入本文解碼器的網(wǎng)絡(luò)79.35

由于目前主流的特征融合方法使用不同的網(wǎng)絡(luò)和多尺度策略,難以進(jìn)行比較,因此本文使用上文中的解碼器部分統(tǒng)一比較。本文先使用了卷積再引入了attention機(jī)制做乘法,為保證相當(dāng)?shù)木W(wǎng)絡(luò)層數(shù)與參數(shù)量,在其他方法特征融合之后接同樣層數(shù)的卷積層。其中,SEB為文獻(xiàn)[9]提出的語(yǔ)義融合分支,Attention表示文獻(xiàn)[8]提出的注意力融合方式,Concat表示文獻(xiàn)[7]提出的級(jí)聯(lián)方式。4種方法的實(shí)驗(yàn)結(jié)果對(duì)比如表2所示。

表2 基于ResNet的mIoU指標(biāo)對(duì)比

Table 2 Comparison of mIoU index based on ResNet %

網(wǎng)絡(luò) mIoUResNet-SEB77.61ResNet-Attention77.31ResNet-Concat78.89ResNet-EFFD79.35

為證明本文解碼器的有效性,嘗試更換了基礎(chǔ)網(wǎng)絡(luò),將ResNet換成MobileNet[20],參數(shù)使用ImageNet上預(yù)訓(xùn)練的參數(shù),batch size使用16,其他使用與ResNet同樣的方法,在pascal voc上做訓(xùn)練測(cè)試,對(duì)比本文解碼器與其他方式的解碼器,實(shí)驗(yàn)結(jié)果如表3所示。

表3 基于MobileNet的mIoU指標(biāo)對(duì)比

可見(jiàn),本文方法相比基于注意力機(jī)制的方法、基于SEB的方法和傳統(tǒng)的級(jí)聯(lián)方法,性能均有提升。

4 結(jié)束語(yǔ)

本文設(shè)計(jì)一種增強(qiáng)特征融合解碼器模塊,通過(guò)級(jí)聯(lián)高層特征與低層特征,以卷積的形式做第一步融合,通過(guò)降維后在第二步引入自身平方項(xiàng)的全局平均池化,用兩個(gè)卷積預(yù)測(cè)自身項(xiàng)與自身平方項(xiàng)的權(quán)重,并以殘差的形式進(jìn)行融合。實(shí)驗(yàn)結(jié)果表明,該策略相比原網(wǎng)絡(luò)與其他特征融合方式mIoU均有提高。下一步將結(jié)合深度神經(jīng)網(wǎng)絡(luò)可解釋性方面的工作,研究性能更優(yōu)的特征融合方式。

猜你喜歡
解碼器級(jí)聯(lián)淺層
科學(xué)解碼器(一)
科學(xué)解碼器(二)
科學(xué)解碼器(三)
淺層換填技術(shù)在深厚軟土路基中的應(yīng)用
基于淺層曝氣原理的好氧顆粒污泥的快速培養(yǎng)
線圣AudioQuest 發(fā)布第三代Dragonfly Cobalt藍(lán)蜻蜓解碼器
淺層地下水超采區(qū)劃分探究
級(jí)聯(lián)LDPC碼的STBC-OFDM系統(tǒng)
電子制作(2016年15期)2017-01-15 13:39:09
基于級(jí)聯(lián)MUSIC的面陣中的二維DOA估計(jì)算法
包氣帶淺層地?zé)崛萘坑?jì)算方法商榷
兰溪市| 旺苍县| 彭阳县| 绥滨县| 无锡市| 元氏县| 昌图县| 岳西县| 平遥县| 青海省| 东兰县| 海盐县| 商洛市| 谷城县| 前郭尔| 武义县| 铜梁县| 土默特左旗| 睢宁县| 佛冈县| 开远市| 崇仁县| 阳春市| 湄潭县| 河津市| 江源县| 上杭县| 白山市| 油尖旺区| 永清县| 辽宁省| 儋州市| 德安县| 长白| 滨州市| 武邑县| 天峨县| 股票| 平舆县| 贡觉县| 客服|