国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于注意力融合的語義分割網(wǎng)絡(luò)

2021-03-15 06:59李旭升何良華程舸帆
電腦知識(shí)與技術(shù) 2021年1期
關(guān)鍵詞:卷積神經(jīng)網(wǎng)絡(luò)

李旭升 何良華 程舸帆

摘要:為賦予語義分割網(wǎng)絡(luò)在給定空間位置下選擇性強(qiáng)調(diào)整體信息或細(xì)節(jié)信息的能力,提出了一種注意力融合算法,本算法在空洞空間金字塔池化(ASPP)的基礎(chǔ)上融合膠囊網(wǎng)絡(luò)中動(dòng)態(tài)路由算法。首先,以骨干網(wǎng)絡(luò)輸出作為輸入,經(jīng)過多條并行空洞卷積支路得到不同尺度的特征圖。然后,在每一條空洞卷積支路的后面增添一條評(píng)估支路來評(píng)測(cè)該條空洞卷積支路單獨(dú)分割的能力。最后,對(duì)各個(gè)評(píng)估支路的輸出進(jìn)行注意力路由算法從而對(duì)各空洞卷積分配權(quán)重。在PascalVOC 2012和Cityscapes兩個(gè)數(shù)據(jù)集上,提出的模型在各組實(shí)驗(yàn)中均能提升1個(gè)百分點(diǎn)以上,并通過可視化注意力圖表明,提出模型能夠根據(jù)上下文信息對(duì)各空洞卷積支路進(jìn)行有側(cè)重的反向傳播。

關(guān)鍵詞: 語義分割; 卷積神經(jīng)網(wǎng)絡(luò);空洞空間金字塔池化; 膠囊網(wǎng)絡(luò); 動(dòng)態(tài)路由

中圖分類號(hào): TP391? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A

文章編號(hào):1009-3044(2021)01-0001-03

Abstract: To enable semantic segmentation networks to learn to emphasize the overall picture or the focal details at given spatial location, Attention Fusion is proposed, which combines Atrous Spatial Pyramid Pooling and dynamic routing of Capsule Network. Firstly, parallel atrous branches with different ratios are applied on feature map extracted by backbone network, Secondly, an eval branch for each atrous branch is used to output a score map in order to assess the ability of each atrous branch to segment on its own. Finally, attention routing assigns weights for atrous branches by computing attention maps between these score maps. Experiments conducted on Pascal VOC 2012 and Cityscapes, and the performances are boosted by over 1 percent in all settings. Along with visualization of attention maps, it is shown that the proposed model is capable of emphasizing atrous branches according to given context.

Key words:semantic segmentation; convolutional neuron network; atrous spatial pyramid pooling;? capsule network; dynamic routing

語義分割一直是計(jì)算機(jī)視覺方向的關(guān)鍵問題之一。語義分割的任務(wù)是對(duì)給定圖像進(jìn)行像素級(jí)別的分類,同時(shí)也是將圖像中的信息進(jìn)行抽象的過程。語義分割是自動(dòng)駕駛、醫(yī)學(xué)圖像分析、照片編輯等任務(wù)中的關(guān)鍵技術(shù),為這些應(yīng)用提供從原始圖像輸入獲取必要上下文信息的必要能力。

如今大多數(shù)的深度學(xué)習(xí)語義分割框架是在由Long等[1]提出的全卷積網(wǎng)絡(luò)(FCN)的基礎(chǔ)上衍生而來的。雖然Krizhevsky等[2]提出的卷積網(wǎng)絡(luò)(CNN)能夠在感受野的范圍內(nèi)捕捉到全局信息。但是,對(duì)于像語義分割這樣的密集預(yù)測(cè)任務(wù),對(duì)信息進(jìn)行更加有效的多尺度的提取和融合是至關(guān)重要的。為了解決個(gè)問題,Ronneberger等[3]使用帶跳躍連接的編碼解碼器結(jié)構(gòu)U-Net,Zhao等[4]提出了PSPNet和Chen等[5]提出了DeepLabV3+分別設(shè)計(jì)了不同的結(jié)構(gòu)對(duì)特征進(jìn)行多尺度提取。

雖然U-Net,ASPP等結(jié)構(gòu)能夠很好地提取多尺度的信息,但是對(duì)于信息的融合只是簡單地將它們串聯(lián)起來。這意味著不同支路提取到的信息在同樣的空間位置上具有相同的重要性。可這樣做是違反直覺的,比如在分割物體邊緣時(shí),更加需要細(xì)節(jié)信息。反之,分割物體中心時(shí)需要更加關(guān)注全局信息。同時(shí),在認(rèn)知科學(xué)上也有所佐證,F(xiàn)ink等[6]提出,左右半腦分別傾向于處理局部和全局視覺信息。人類的視覺系統(tǒng)能夠此時(shí)的視覺理解需求,將任務(wù)更多地分配給對(duì)應(yīng)的腦半球。所以提出的AttentionFusion (AF)就是來模擬這樣的視覺機(jī)制。

1相關(guān)工作

1.1空間金字塔池化

空間金字塔池化(Spatial Pyramid Pooling)通過并行處理多條不同的支路來提取多尺度信息,其作為語義分割的一種范式結(jié)構(gòu)有著許多的變種,這些變種結(jié)構(gòu)主要是去探索更加合理的支路設(shè)計(jì)。PSPNet[4]采用不同步長的池化操作來形成多尺度表示。后續(xù)研究者發(fā)現(xiàn)空洞卷積能夠在不增加額外參數(shù)的情況下有效地增加感受野,Chen等[5]提出的Atrous Spatial Pyramid Pooling(ASPP)就是由多條平行的不同空洞率(atrous rate)的卷積支路組成。

1.2動(dòng)態(tài)路由

Hinton等[7]在膠囊網(wǎng)絡(luò)中提出動(dòng)態(tài)路由并用其進(jìn)行特征聚類。首先,Hinton將原本為標(biāo)量的神經(jīng)網(wǎng)絡(luò)神經(jīng)元擴(kuò)展成向量形式的膠囊神經(jīng)元,向量的模表示特征存在的概率,向量的方向則表征更為具體的姿態(tài)、顏色等信息。使用動(dòng)態(tài)路由通過對(duì)輸入膠囊進(jìn)行聚類,相似的特征在不斷迭代中加強(qiáng),從而達(dá)到學(xué)習(xí)底層膠囊和高層膠囊之間的映射關(guān)系的目的。

2 注意力融合語義分割模型

PSPNet[4]和DeepLabV3+[5]等網(wǎng)絡(luò)結(jié)構(gòu)中的空間金字塔池化能夠提取多尺度的上下文特征信息,但最后將這些信息進(jìn)行簡單的合并。為了使得多尺度的信息更加有效的融合,在ASPP的基礎(chǔ)上進(jìn)行修改提出了AttentionFusion模塊,提出的模型為AFDeepLabV3+。整體網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。

1.1 評(píng)估支路

為要后續(xù)的注意力路由做準(zhǔn)備,設(shè)計(jì)評(píng)估支路(eval branch)來對(duì)空洞支路提取到的featuremap進(jìn)行評(píng)估生成scoremap并進(jìn)行訓(xùn)練。空洞率大的支路對(duì)于宏觀特征更加關(guān)注,空洞率小的支路則更加注重細(xì)節(jié)特征,這一特點(diǎn)反應(yīng)到scoremap上則表示對(duì)應(yīng)的空洞支路對(duì)于圖像的理解程度。實(shí)現(xiàn)方面,如圖1所示,故意將評(píng)估支路設(shè)計(jì)成簡單的淺層網(wǎng)絡(luò),由64通道的[3×3]卷積和通道數(shù)等于預(yù)測(cè)類別數(shù)的[1×1]卷積來輸scoremap。為了加快網(wǎng)絡(luò)擬合使用了批正則化[8](batch normalization)和Dropout[9]技術(shù)。

1.2 注意力路由

在膠囊網(wǎng)絡(luò)動(dòng)態(tài)路由的啟發(fā)下設(shè)計(jì)注意力路由(Attention Routing)并且使用評(píng)估支路生成的scoremap來代替膠囊結(jié)構(gòu),具體步驟見算法1。

算法1:注意力路由

Input:Scoremap[Si, i∈{1,2,3,4}]

Output:Attentionmap[Ai]

1)Construct[Bi]with the same shape of [Si]

2)[Bi←0]

3)[Ui=scaleSi]

4)for [r]iteration do

5)[Ci=softmax(Bi)]

6)[V=iCiUi]

7)[V=scale(V)]

8)[Bi=Bi+iUiV]

9)end if

10)[Ci←softmaxBi]

11)[Ai=4Ci]

12)return [Ai]

評(píng)估支路生成的scoremap的每一維對(duì)應(yīng)固定的類別,所以相比于動(dòng)態(tài)路由,注意力路由計(jì)算更加簡便。評(píng)估支路輸出score vector記為[Si],[Bi]為logpriorprobabilitymap,在路由算法迭代過程中couplingcoefficientmap[Ci]由[Bi]通過[softmax]函數(shù)生成。

如圖2所示,從上往下分別是輸入圖像和空洞率分別為1,3,12,18各支路的注意力圖。從圖中可以看出空洞卷積空洞率不同導(dǎo)致不同支路適合處理的物體大小和上下文不同,并通過AttentionFusion最后反映在attentionmap上。

1.3損失函數(shù)

網(wǎng)絡(luò)使用端到端的訓(xùn)練方式,總的損失函數(shù)表示如下。

其中,每個(gè)損失函數(shù)[L]都是標(biāo)準(zhǔn)交叉熵?fù)p失函數(shù),公式表示如下。

其中,[yj]和[Pj]分別表示對(duì)每個(gè)類別[j∈C]的ground-truth和預(yù)測(cè)輸出。[Lmain]是DeepLabV3+的損失函數(shù),而[Li]是對(duì)應(yīng)評(píng)估支路的損失函數(shù),共計(jì)4條。通過實(shí)驗(yàn)發(fā)現(xiàn),把[α]設(shè)為0.01時(shí)模型表現(xiàn)較好。此時(shí)[α]防止評(píng)估支路產(chǎn)生的loss過多地影響主路的loss。

2 實(shí)驗(yàn)與結(jié)果分析

2.1 實(shí)驗(yàn)數(shù)據(jù)

實(shí)驗(yàn)主要在兩個(gè)數(shù)據(jù)集上進(jìn)行,分別是PascalVOC 2012[10]和Cityscapes[11],同時(shí),也使用了MS-COCO[12]對(duì)模型進(jìn)行預(yù)訓(xùn)練。

PascalVOC 2012數(shù)據(jù)共有4369張圖片,另外,還有一份由Hariharan等[13]提供的trainaug集,共9118張。該數(shù)據(jù)集包含背景共有21個(gè)類別。MS-COCO數(shù)據(jù)集用于在PascalVOC 2012之前對(duì)模型進(jìn)行預(yù)訓(xùn)練,根據(jù)Chen等[5]提出的訓(xùn)練流程,對(duì)MS-COCO只篩選使用了PascalVOC 2012中定義的類別,其他的類別被歸為背景。Cityscapes數(shù)據(jù)集共有5000張圖片,另外提供了19998張粗標(biāo)注數(shù)據(jù)作為trainextra集。根據(jù)Cordts等[11]的建議,Cityscapes在語義分割中應(yīng)采用19個(gè)類別的劃分方式。

2.2 訓(xùn)練流程

本文實(shí)驗(yàn)主要考慮以下兩個(gè)模型,作為基線模型的DeepLabV3+和提出的Attention Fusion DeepLabV3+,下面描述的訓(xùn)練流程對(duì)兩個(gè)模型均保持一致。

本文實(shí)驗(yàn)基于Python3.7環(huán)境和PyTorch1.0[14]框架,使用4塊NVIDIA GEFORCE 1080Ti進(jìn)行訓(xùn)練和測(cè)試。指標(biāo)方面使用交并比(mIoU)來衡量模型的效果。所有實(shí)驗(yàn)的輸入圖像長寬固定為512,batchsize設(shè)置為16。數(shù)據(jù)增強(qiáng)方面則使用了:隨機(jī)水平翻轉(zhuǎn),隨機(jī)HSV變化,隨機(jī)縮放和隨機(jī)剪切。本實(shí)驗(yàn)采用了兩種backbone網(wǎng)絡(luò),ResNet-101[15]和Xception[16]。優(yōu)化算法動(dòng)量為0.9隨機(jī)梯度下降(SGD)。并使用Chen等[5]建議的poly學(xué)習(xí)率衰減策略來加快優(yōu)化。其公式[1-itermaxiterpower]為,[power]值為0.9。下面對(duì)兩個(gè)數(shù)據(jù)集上不同的設(shè)置進(jìn)行說明。

對(duì)于Pascal VOC 2012數(shù)據(jù)集上的實(shí)驗(yàn)。如果不在MS-COCO上進(jìn)行預(yù)訓(xùn)練,則先使用0.007的學(xué)習(xí)率在trainaug集上訓(xùn)練,然后使用0.001學(xué)習(xí)率在train集上微調(diào)。如果使用MS-COCO,則分別使用0.007、0.001、0.0001的學(xué)習(xí)率在MS-COCO、VOC trainaug、VOC train上進(jìn)行訓(xùn)練,并且在后面兩VOC數(shù)據(jù)集上訓(xùn)練的兩階段,固定batch normalization的參數(shù)。

對(duì)于Cityscapes數(shù)據(jù)集,首先在trainextra集上使用0.007學(xué)習(xí)率進(jìn)行30K次迭代,然后再在train集上使用0.001學(xué)習(xí)率迭代60K次。在輸入方面,由于Cityscapes中每張圖像長寬為,如果采用VOC數(shù)據(jù)集那樣直接resize的做法,會(huì)大量損失細(xì)節(jié)信息。因此訓(xùn)練時(shí)采用在數(shù)據(jù)增強(qiáng)后隨機(jī)剪接成512大小的圖像作為輸入。

2.3 結(jié)果分析

在模型推斷時(shí)。部分實(shí)驗(yàn)采用了Chen等所建議的測(cè)試時(shí)數(shù)據(jù)增強(qiáng)(TTA)來進(jìn)一步提升精度。本文采用對(duì)輸入圖像的多尺度放縮和左右水平翻轉(zhuǎn),然后將輸出進(jìn)行平均化作為結(jié)果,其中多尺度放縮使用0.5、0.75、1.0、1.25、1.5、1.75等6種比例。

如表1所示,在兩種數(shù)據(jù)集各自的驗(yàn)證集上,提出的AFDeepLabV3+能夠有效提升mIoU指標(biāo),不同實(shí)驗(yàn)條件下對(duì)比均能提升1個(gè)百分點(diǎn)以上。并且從圖3可以看出,提出的AFDeepLabV3+模型在分割輸入圖像的復(fù)雜細(xì)節(jié)區(qū)域時(shí)有著更好的表現(xiàn),同時(shí)也更不容易出現(xiàn)噪聲。

3 結(jié)論

本文提出了的注意力融合機(jī)制能夠促使ASPP不同支路多尺度信息的深度融合,通過對(duì)比和消融實(shí)驗(yàn)證明了本文提出方法的有效性。同時(shí),視覺效果展示說明了本文方法在應(yīng)對(duì)復(fù)雜場景時(shí)更加魯棒。

參考文獻(xiàn):

[1] Long J, Shelhamer E, Darrell T. Fully convolutional networks for semantic segmentation[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2015: 3431-3440.

[2] Krizhevsky A,Sutskever I,Hinton G E.ImageNet classification with deep convolutional neural networks[J].CommunicationsoftheACM,2017,60(6):84-90.

[3] Ronneberger O,F(xiàn)ischer P,Brox T.U-net:convolutional networks for biomedical image segmentation[J].Medical Image Computing and Computer-Assisted Intervention -MICCAI2015,2015: 234-241

[4] Zhao H, Shi J, Qi X, et al. Pyramid scene parsing network[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2017: 2881-2890.

[5] Chen L C,Zhu Y K,Papandreou G,et al.Encoder-decoder with atrous separable convolution for semantic image segmentation[M]//Computer Vision – ECCV 2018.Cham:SpringerInternational Publishing,2018:833-851.

[6] Fink G R,Halligan P W,Marshall J C,et al.Where in the brain does visual attention select the forest and the trees?[J].Nature,1996,382(6592):626-628.

[7] Sabour S, Frosst N, Hinton G E. Dynamic routing between capsules[C]//Advances in neural information processing systems. 2017: 3856-3866.

[8] Ioffe S, Szegedy C. Batch normalization: Accelerating deep network training by reducing internal covariate shift[J]. arXiv preprint arXiv:1502.03167, 2015.

[9] Srivastava N, Hinton G, Krizhevsky A, et al. Dropout: a simple way to prevent neural networks from overfitting[J]. The journal of machine learning research, 2014, 15(1): 1929-1958.

[10] Everingham M, Winn J. The pascal visual object classes challenge 2012 (voc2012) development kit[J]. Pattern Analysis, Statistical Modelling and Computational Learning, Tech. Rep, 2011, 8.

[11] Cordts M,Omran M,Ramos S,et al.The cityscapes dataset for semantic urban scene understanding[EB/OL].2016:arXiv:1604.01685[cs.CV].https://arxiv.org/abs/1604.01685.

[12] Lin T Y,Maire M,Belongie S,et al.Microsoft COCO:common objects in context[M]//ComputerVision–ECCV2014.Cham:Springer InternationalPublishing,2014:740-755.

[13] Hariharan B,Arbelaez P,Bourdev L,et al.Semantic contours from inverse detectors[C]//ICCV '11:Proceedings of the 2011 International Conference on Computer Vision.2011:991-998.

[14] Paszke A, Gross S, Massa F, et al. Pytorch: An imperative style, high-performance deep learning library[C]//Advances in neural information processing systems. 2019: 8026-8037.

[15] He K, Zhang X, Ren S, et al. Deep residual learning for image recognition[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2016: 770-778.

[16] Chollet F.Xception:Deep learning with depthwise separable convolutions[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2017: 1251-1258.

【通聯(lián)編輯:唐一東】

猜你喜歡
卷積神經(jīng)網(wǎng)絡(luò)
卷積神經(jīng)網(wǎng)絡(luò)語言模型研究
基于卷積神經(jīng)網(wǎng)絡(luò)溫室智能大棚監(jiān)控系統(tǒng)的研究
基于深度卷積神經(jīng)網(wǎng)絡(luò)的物體識(shí)別算法