国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于全局注意力機(jī)制的語義分割方法研究

2020-07-31 09:31彭啟偉馮杰呂進(jìn)余磊程鼎
現(xiàn)代信息科技 2020年4期
關(guān)鍵詞:注意力機(jī)制

彭啟偉 馮杰 呂進(jìn) 余磊 程鼎

摘 ?要:如何捕獲更長(zhǎng)距離的上下文信息成為語義分割的一個(gè)研究熱點(diǎn),但已有的方法無法捕獲到全局的上下文信息。為此,文章提出了一種全局注意力模塊,其通過計(jì)算每個(gè)像素和其他像素之間的關(guān)系生成一個(gè)全局關(guān)系注意力譜,然后通過該全局注意力譜來對(duì)深層卷積特征進(jìn)行重新聚合,加強(qiáng)其中的有用信息,抑制無用的噪聲信息。在具有挑戰(zhàn)性的Cityscapes和PASCAL VOC 2012數(shù)據(jù)集上驗(yàn)證了所提出的方法具有有效性其優(yōu)于現(xiàn)有的方法。

關(guān)鍵詞:語義分割;注意力機(jī)制;全局信息

中圖分類號(hào):TP391.41 ? ? 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):2096-4706(2020)04-0102-03

Abstract:How to capture the context information with longer distance has become a research hotspot of semantic segmentation,but the existing methods can not capture the global context information. This paper proposes a global attention module,which generates a global relation attention spectrum by calculating the relationship between each pixel and other pixels,and then reaggregates the deep convolution features through the global attention spectrum to strengthen the useful information and suppress the useless noise information. The validity of the proposed method is verified on the challenging Cityscape and PASCAL VOC 2012 datasets,which is superior to the existing methods.

Keywords:semantic segmentation;attention mechanism;global information

0 ?引 ?言

語義分割[1,2]是計(jì)算機(jī)視覺中的一個(gè)基礎(chǔ)任務(wù),需要對(duì)給定圖片的每個(gè)像素分配一個(gè)類別標(biāo)簽。其可以應(yīng)用在信息通信領(lǐng)域的多個(gè)任務(wù)上,如智能圖片信息識(shí)別、自動(dòng)駕駛中的信息識(shí)別等。由于需要在精細(xì)的像素級(jí)別上識(shí)別目標(biāo)的類別,因此具有較大的難度,取得的性能也不是很理想。

針對(duì)以上問題,本文提出了一種基于全局注意力機(jī)制的語義分割方法,通過該方法可以獲得高精度的語義分割結(jié)果,進(jìn)而為本企業(yè)中的智能圖片信息識(shí)別項(xiàng)目提供強(qiáng)力的技術(shù)保障。

傳統(tǒng)的方法首先將待分割圖像分成一些區(qū)域塊,然后提取每個(gè)區(qū)域塊的特征,如形狀、顏色和紋理特征等,然后建立圖像特征到高級(jí)語義之間的概率模型,得到語義分割模型。其關(guān)鍵點(diǎn)在于如何提取有用的關(guān)鍵特征用于分割模型的建立。傳統(tǒng)方法多是基于手工特征進(jìn)行提取,不僅耗時(shí)耗力,而且精度較低。

近來,隨著深度卷積神經(jīng)網(wǎng)絡(luò)的興起,越來越多的人關(guān)注于使用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行語義分割。如前面所說,其關(guān)鍵點(diǎn)在于如何提取有用的關(guān)鍵特征。使用卷積神經(jīng)網(wǎng)絡(luò)提取特征,其卷積層和池化層的有效組合能夠自動(dòng)學(xué)習(xí)提取圖像的關(guān)鍵特征,不僅避免了大量的人力消耗,而且提取的特征更有利于分割模型的建立。卷積層的作用從本質(zhì)上來講就是局部特征的提取,而池化層將語義上的相似特征進(jìn)行組合。一般情況下,池化層計(jì)算特征圖中的局部最大值或平均值等,這樣做的好處在于可以提高數(shù)據(jù)的平移不變性并減少表達(dá)的維度。通過幾個(gè)卷積層和池化層組合得到的網(wǎng)絡(luò),可以很好地提取圖像的有用特征。在此基礎(chǔ)上,基于全卷積網(wǎng)絡(luò)的語義分割框架取得了顯著的進(jìn)展,但由于卷積核的感受野受限,其僅能聚合局部和短距離的上下文信息,無法捕獲全局的上下文信息。

為了捕獲長(zhǎng)距離的上下文信息,具有更大感受野的空洞卷積被提出。帶有金字塔池化模塊的PSPNet也進(jìn)一步被提出,用于捕獲更長(zhǎng)距離的上下文信息。然而,基于空洞卷積的方法雖然能擴(kuò)大感受野,但實(shí)際上無法生成密集的上下文信息,基于金字塔池化的PSPNet也在一定程度上無法滿足不同像素對(duì)不同上下文信息的要求。

為了最大程度地利用全局的上下文信息,本文提出了一種全新的注意力模塊。其通過計(jì)算每個(gè)像素和其他所有像素之間的關(guān)系生成一個(gè)全局的注意力譜,然后基于全局注意力譜來對(duì)深層特征進(jìn)行聚合,從而對(duì)有用信息進(jìn)行加強(qiáng),對(duì)噪聲信息進(jìn)行抑制。并在Cityscapes數(shù)據(jù)集和PASCAL VOC 2012數(shù)據(jù)集上驗(yàn)證所提出方法的有效性,證明其優(yōu)于現(xiàn)有的方法。

1 ?方法的總體結(jié)構(gòu)

圖1為提出方法的總體結(jié)構(gòu)。輸入圖像首先經(jīng)過卷積神經(jīng)網(wǎng)絡(luò)提取圖像的深層特征,其大小為H×W×C,該特征圖一方面經(jīng)過本文提出的全局注意力模塊得到HW×HW的全局注意力譜,另一方面經(jīng)過變形操作,得到C×HW的特征圖。之后使用全局注意力譜與變形的特征圖進(jìn)行矩陣相乘,得到C×HW的特征圖,然后再將該特征圖變形得到H×W×C的特征圖。該特征圖即為通過全局注意力模塊重新聚合之后的特征,相對(duì)于卷積神經(jīng)網(wǎng)絡(luò)輸出的H×W×C的特征圖,該特征圖能夠增強(qiáng)有用的特征信息,抑制無用的噪聲信息。最后,將聚合重組之后的H×W×C特征圖通過上采樣進(jìn)行分割,即可得到最后的語義分割結(jié)果。

圖2為本文提出的全局注意力模塊,輸入大小為H× W×C的特征圖,分別通過兩個(gè)結(jié)構(gòu)相似但參數(shù)不一樣的平行分支。第一個(gè)分支經(jīng)過一個(gè)小的卷積神經(jīng)網(wǎng)絡(luò)φ1得到一個(gè)大小為H×W×C的重組特征圖1,經(jīng)過形變操作,得到大小為HW×C的變形特征圖1。與之類似,第二個(gè)分支經(jīng)過一個(gè)小的卷積神經(jīng)網(wǎng)絡(luò)φ2和變形操作,得到一個(gè)大小為C×HW的變形特征圖2。之后變形特征圖1和變形特征圖2經(jīng)過矩陣相乘,即可得到一個(gè)大小為HW×HW的全局注意力譜。該譜刻畫的是輸入特征的每一個(gè)通道位置的像素和其他通道位置之間的關(guān)系,是一個(gè)基于全局的逐像素對(duì)之間的信息。

2 ?實(shí)驗(yàn)過程

2.1 ?實(shí)驗(yàn)設(shè)置

數(shù)據(jù)集:我們?cè)贑ityscapes數(shù)據(jù)集和PASCAL VOC 2012數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)。

Cityscapes是用于城市語義分割的一個(gè)數(shù)據(jù)集,其包含從50個(gè)不同城市捕獲的5 000張高質(zhì)量像素級(jí)精細(xì)標(biāo)注的圖像和20 000張粗略標(biāo)注的圖像。每張圖像的大小為1 024×2 048,共有19個(gè)類別。我們?cè)趯?shí)驗(yàn)中僅使用5 000張精細(xì)標(biāo)注的圖像,其分別有2 975、500、1 525張訓(xùn)練集、驗(yàn)證集、測(cè)試集。

PASCAL VOC 2012數(shù)據(jù)集是語義分割任務(wù)中常用的基準(zhǔn)數(shù)據(jù)集之一,和其他方法一樣,我們使用其增強(qiáng)數(shù)據(jù)集用于語義分割,因此訓(xùn)練集、驗(yàn)證集和測(cè)試集分別為10 582、1 449和1 456張。

2.2 ?實(shí)施細(xì)節(jié)

我們所有的實(shí)驗(yàn)均在深度學(xué)習(xí)框架PyTorch上運(yùn)行,GPU為一張Titan XP,骨干網(wǎng)絡(luò)我們采用由ImageNet預(yù)訓(xùn)練的ResNet-101,優(yōu)化器為SGD,mini-batch size設(shè)置為2,初始學(xué)習(xí)率為1e-2,使用多元學(xué)習(xí)策略,即學(xué)習(xí)率為初始學(xué)習(xí)率乘以1-,iter為此時(shí)的迭代次數(shù),max_iter為訓(xùn)練的最大迭代次數(shù),power是一個(gè)超參數(shù),本文設(shè)置為0.9。weight decay設(shè)置為0.000 5,momentum設(shè)置為0.99,共訓(xùn)練30個(gè)epoch。

2.3 ?實(shí)驗(yàn)結(jié)果對(duì)比

表1為本文方法和其他現(xiàn)有方法在Cityscapes數(shù)據(jù)集上的結(jié)果比較。我們將提出的全局注意力模塊分別用到現(xiàn)有的方法中,如DeepLab v2[2],RefineNet[3],SAC[4],GCN[5]。前四行為不加本文提出的全局注意力模塊的結(jié)果,其mIoU分別為70.4、73.6、78.1和76.9,后四行為加了本文提出的全局注意力模塊,分別提升了2.2(70.4 VS 72.6)、1.7(73.6 VS 75.3)、1.3(78.1 VS 79.4)、1.7(76.9 VS 78.6)個(gè)點(diǎn),充分表明了本文提出的全局注意力模塊的有效性。

表2為本文方法和其他現(xiàn)有方法在PASCAL VOC 2012數(shù)據(jù)集上的結(jié)果比較。我們將提出的全局注意力模塊分別用到現(xiàn)有的方法中,如DeepLab v2[2],RefineNet[3]。前兩行為不加本文提出的全局注意力模塊的結(jié)果,其mIoU分別為79.7和84.2,后兩行為加了本文提出的全局注意力模塊,分別提升了1.1(79.7 VS 80.8)和0.9(84.2 VS 85.1)個(gè)點(diǎn),表明了本文提出的全局注意力模塊的有效性。

3 ?結(jié) ?論

為了在語義分割任務(wù)中充分利用深層特征的上下文信息,本文提出了一種全局注意力模塊,通過計(jì)算每個(gè)像素和其他所有像素之間的關(guān)系生成一個(gè)全局注意力譜,然后以此注意力譜對(duì)深層特征進(jìn)行重新聚合,從而加強(qiáng)深層特征的有用信息,抑制無用噪聲信息。由于該模塊充分利用了特征中的上下文信息,即全局信息,因此能有效提高語義分割性能。我們?cè)贑ityscapes和PASCAL VOC 2012數(shù)據(jù)集上驗(yàn)證了本文提出的方法有效性。

參考文獻(xiàn):

[1] LONG J,SHELHAMER E,DARRELL T.Fully convolutional networks for semantic segmentation [C]//Proceedings of the IEEE conference on computer vision and pattern recognition,2015:3431-3440.

[2] CHEN L C,PAPANDREOU G,KOKKINOS I,et al.Deeplab:Semantic image segmentation with deep convolutional nets,atrous convolution,and fully connected crfs [J].IEEE transactions on pattern analysis and machine intelligence,2017,40(4):834-848.

[3] LIN G S,MILAN A,SHEN C H,et al.Refinenet:Multi-path refinement networks for high-resolution semantic segmentation [C]//Proceedings of the IEEE conference on computer vision and pattern recognition,2017.

[4] ZHANG R,TANG S,ZHANG Y,et al. Scale-Adaptive Convolutions for Scene Parsing [C]//2017 IEEE International Conference on Computer Vision (ICCV).IEEE,2017.

[5] PENG C,ZHANG X Y,YU G,et al.Large Kernel Matters——Improve Semantic Segmentation by Global Convolutional Network [C]//The IEEE Conference on Computer Vision and Pattern Recognition,2017.

作者簡(jiǎn)介:彭啟偉(1984-),男,漢族,安徽六安人,高級(jí)工程師,碩士研究生,主要研究方向:視頻處理。

猜你喜歡
注意力機(jī)制
基于注意力機(jī)制的行人軌跡預(yù)測(cè)生成模型
基于注意力機(jī)制和BGRU網(wǎng)絡(luò)的文本情感分析方法研究
多特征融合的中文實(shí)體關(guān)系抽取研究
基于序列到序列模型的文本到信息框生成的研究
基于深度學(xué)習(xí)的手分割算法研究
從餐館評(píng)論中提取方面術(shù)語
面向短文本的網(wǎng)絡(luò)輿情話題
基于自注意力與動(dòng)態(tài)路由的文本建模方法
基于深度學(xué)習(xí)的問題回答技術(shù)研究
基于LSTM?Attention神經(jīng)網(wǎng)絡(luò)的文本特征提取方法
苍溪县| 凉城县| 汽车| 河东区| 乃东县| 岑溪市| 赞皇县| 阳信县| 南皮县| 石首市| 白银市| 晋江市| 德州市| 册亨县| 葵青区| 寿阳县| 灵石县| 固阳县| 绍兴县| 南汇区| 深州市| 玛多县| 萨迦县| 沾益县| 龙陵县| 大冶市| 富裕县| 昌平区| 丘北县| 寿宁县| 乌兰县| 金溪县| 乌拉特前旗| 高碑店市| 衡阳市| 榆林市| 龙泉市| 大悟县| 神农架林区| 建平县| 常德市|