国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于特征金字塔的多尺度特征融合網(wǎng)絡(luò)

2020-11-04 03:06郭啟帆徐文娟靖穩(wěn)峰
關(guān)鍵詞:金字塔層級(jí)注意力

郭啟帆, 劉 磊, 張 珹, 徐文娟, 靖穩(wěn)峰,?

(1- 西安交通大學(xué)數(shù)學(xué)與統(tǒng)計(jì)學(xué)院,西安 710049; 2- 中鐵第一勘察設(shè)計(jì)院集團(tuán)有限公司,西安 710043)

1 引言

卷積神經(jīng)網(wǎng)絡(luò)CNN 能夠?qū)W習(xí)圖像的高級(jí)特征表示,在計(jì)算機(jī)視覺(jué)中得到廣泛應(yīng)用.自2012 年一種有效的CNN―AlexNet[1]出現(xiàn)之后,卷積神經(jīng)網(wǎng)絡(luò)得到了快速發(fā)展,基于CNN 的VGGNet[2]、Inception[3]等網(wǎng)絡(luò)在工程圖像分類(lèi)中取得了優(yōu)異的表現(xiàn).隨著ResNet 殘差網(wǎng)絡(luò)[4]的提出,CNN 向更深層次的網(wǎng)絡(luò)邁進(jìn),其圖像處理的性能不斷提升,已經(jīng)在視覺(jué)檢測(cè)領(lǐng)域顯現(xiàn)出巨大的優(yōu)勢(shì).

近年來(lái),圖像分類(lèi)、目標(biāo)檢測(cè)等計(jì)算機(jī)視覺(jué)算法隨著CNN 的改進(jìn)快速發(fā)展.Girshick等提出了基于CNN 的R-CNN[5]用于目標(biāo)檢測(cè),使得兩階段的目標(biāo)檢測(cè)成為主流.He 等人提出了SPPNet[6],有效解決了候選區(qū)域計(jì)算冗余的問(wèn)題.Girshick 提出了Fast RCNN[7],實(shí)現(xiàn)了一種多任務(wù)學(xué)習(xí)方式,對(duì)目標(biāo)分類(lèi)和包圍框回歸的同步訓(xùn)練.Ren 等人在Faster R-CNN[8]中提出RPN,將區(qū)域推薦階段和CNN 分類(lèi)融到了一起,實(shí)現(xiàn)了一個(gè)完全意義上的端到端的CNN 目標(biāo)檢測(cè)模型.Redmon 等人提出的YOLO[9]是第一個(gè)單階段卷積網(wǎng)絡(luò)檢測(cè)算法,僅通過(guò)一次前向傳播直接得到目標(biāo)包圍框的位置和目標(biāo)的類(lèi)別,有著非??斓臋z測(cè)速度,但是其精度較差.Liu 等人接著提出SSD 算法[10],吸收了YOLO 速度快和RPN 定位精準(zhǔn)的優(yōu)點(diǎn),采用了RPN 中的多參考窗口技術(shù),并進(jìn)一步提出在多個(gè)分辨率的特征圖上進(jìn)行檢測(cè).為了提高單階段方法的檢測(cè)精度,Lin 等人提出了RetinaNet[11]檢測(cè)模型,對(duì)傳統(tǒng)的交叉熵?fù)p失函數(shù)進(jìn)行修正,提出了“Focal Loss”,極大的提高了檢測(cè)精度.

特征金字塔網(wǎng)絡(luò)FPN[12]是傳統(tǒng)CNN 網(wǎng)絡(luò)對(duì)圖片信息進(jìn)行表達(dá)輸出的一種有效方法,通過(guò)對(duì)不同層的特征圖進(jìn)行特征融合,使用多尺度的特征圖進(jìn)行預(yù)測(cè).特征金字塔對(duì)多尺度特征圖的融合在目標(biāo)檢測(cè)網(wǎng)絡(luò)中得到了廣泛應(yīng)用,并取得了顯著的效果提升.然而,F(xiàn)PN 沒(méi)有將存在于低層特征圖準(zhǔn)確定位信號(hào)反饋到高層語(yǔ)義特征圖,同時(shí)各層級(jí)之間的特征傳遞僅限于相鄰層級(jí),導(dǎo)致了特征融合的不平衡性.在Liu 等人的Path Aggregation Network[13]中,引入bottom-up path augmentation 結(jié)構(gòu),利用網(wǎng)絡(luò)淺特征對(duì)FPN 特征進(jìn)行融合.

針對(duì)FPN 的不足,本文提出基于特征金字塔的多尺度特征融合網(wǎng)絡(luò)模型(Muti-scale Feature Fusion Network, MSFFN).MSFFN 包含了混合特征金字塔(Mixed Feature Pyramid, MFP)和金字塔融合模塊(Pyramid Fusion Block, PFB).MFP 在FPN 的基礎(chǔ)上增加了自底向上的路徑,把FPN 中低層的細(xì)節(jié)信息傳遞到高層的語(yǔ)義特征圖,PFB 引入特征注意力機(jī)制,將不同層級(jí)的特征進(jìn)行直接融合,同時(shí)保留其語(yǔ)義和位置信息,以此來(lái)平衡所有用來(lái)進(jìn)行預(yù)測(cè)的層級(jí).針對(duì)MSFFN,本文在MSCOCO 2014 和PASCAL VOC 2012 數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),驗(yàn)證了本文提出的MSFFN 方法的有效性.

2 相關(guān)工作

2.1 特征金字塔網(wǎng)絡(luò)(FPN)

特征金字塔網(wǎng)絡(luò)將低分辨率、高語(yǔ)義信息的高層特征和高分辨率、低語(yǔ)義信息的低層特征進(jìn)行自上而下地側(cè)邊連接,使得所有尺度下的特征都有豐富的語(yǔ)義信息,其結(jié)構(gòu)如圖1 所示.通過(guò)利用常規(guī)CNN 模型從底至上各個(gè)層對(duì)同一圖片不同維度的特征表達(dá)結(jié)構(gòu),可有效在單一圖像視圖下生成對(duì)其的多維度特征表達(dá),其核心思想包括兩部分:自下至上的通路即自下至上的不同維度特征生成;自上至下的通路即自上至下的特征補(bǔ)充增強(qiáng).

自下而上的部分是卷積神經(jīng)網(wǎng)絡(luò)的前向過(guò)程.在前向過(guò)程中,特征圖的大小在經(jīng)過(guò)一些層后會(huì)改變,而在經(jīng)過(guò)其他一些層的時(shí)候不會(huì)改變,將不改變特征圖大小的層歸為一個(gè)階段,因此每次抽取的特征都是每個(gè)階段的最后一個(gè)層的輸出,這樣就能構(gòu)成特征金字塔.具體地說(shuō),使用了ResNet 網(wǎng)絡(luò)Conv2-x、Conv3-x、Conv4-x 和Conv5-x 各階段的最后一個(gè)殘差結(jié)構(gòu)的特征激活輸出.自上而下的過(guò)程采用上采樣,通過(guò)內(nèi)插值方法,即在原有圖像像素的基礎(chǔ)上在像素點(diǎn)之間采用合適的插值算法插入新的元素,從而擴(kuò)大原圖像的大小.通過(guò)對(duì)特征圖進(jìn)行上采樣,使得上采樣后的特征圖具有和下一層的特征圖相同的大小.

圖1 特征金字塔結(jié)構(gòu)

2.2 注意力機(jī)制

注意力機(jī)制是在特征提取的時(shí)候,著重關(guān)注圖像信息最顯著的組成部分.即讓網(wǎng)絡(luò)更關(guān)注有效特征,具體實(shí)施時(shí)一般在通道維度加入注意力. Hu 等人[14]提出了探索通道間關(guān)系的SE 注意力模塊,通過(guò)全局池化特征計(jì)算每個(gè)通道的注意力,SE 注意力模塊的結(jié)構(gòu)如圖2 所示.

圖2 SE 注意力模塊

首先對(duì)進(jìn)入SE 注意力模塊的特征圖F 進(jìn)行卷積操作,生成特征圖F1, F1∈RH×W×C,SE 注意力模塊在通道維度關(guān)注輸入特征圖的有用部分,通過(guò)將特征圖F1全局平均池化生成一維注意力圖Favg,其中全局平均池化為了得到每個(gè)通道所有元素的反饋,再經(jīng)過(guò)共享的多層感知機(jī)得到注意力特征圖,經(jīng)過(guò)sigmoid 函數(shù)激活生成權(quán)重特征圖M, M ∈R1×1×C,即為通道注意力特征圖,公式表示為

其中σ 為sigmoid 函數(shù).

將帶有注意力的權(quán)重M 加入網(wǎng)絡(luò),M 與特征圖F1進(jìn)行元素相乘得到SE 注意力模塊輸出特征圖F2,公式表示為

3 多尺度特征融合網(wǎng)絡(luò)

針對(duì)傳統(tǒng)特征提取網(wǎng)絡(luò)只能依靠深層語(yǔ)義信息來(lái)進(jìn)行預(yù)測(cè),而忽略網(wǎng)絡(luò)低層細(xì)節(jié)信息的不足,本文提出了多尺度特征融合網(wǎng)絡(luò)MSFFN,其結(jié)構(gòu)如圖3 所示.MSFFN 在FPN主干網(wǎng)絡(luò)的基礎(chǔ)上,為了用低層細(xì)節(jié)信息增強(qiáng)特征金字塔,創(chuàng)建了自下而上的路徑,以增強(qiáng)低層細(xì)節(jié)信息到高層的傳遞.同時(shí),MSFFN 對(duì)各層級(jí)的特征進(jìn)行了融合,并反過(guò)來(lái)作用于相應(yīng)層級(jí)的特征,來(lái)平衡各層級(jí)間的差異性,同時(shí)增強(qiáng)了有用特征的表達(dá).本節(jié)首先介紹MSFFN 的用來(lái)路徑增強(qiáng)的混合特征金字塔網(wǎng)絡(luò),然后描述金字塔融合模塊.

圖3 MSFFN 網(wǎng)絡(luò)結(jié)構(gòu)

3.1 混合特征金字塔

混合特征金字塔MFP 在FPN 的基礎(chǔ)上,增加了自底向上的路徑,將FPN 中低層的細(xì)節(jié)信息傳遞到高層的語(yǔ)義特征圖.圖3 中矩形虛線(xiàn)框?yàn)镸FP 的結(jié)構(gòu),N2~N5為自底向上的路徑增強(qiáng).MFP 使用ResNet 作為基礎(chǔ)的特征提取網(wǎng)絡(luò),使用ImageNet 上訓(xùn)練好的權(quán)重作為預(yù)訓(xùn)練模型,采用ResNet 網(wǎng)絡(luò)Conv2-x、Conv3-x、Conv4-x 和Conv5-x 各階段的最后一個(gè)殘差結(jié)構(gòu)的特征激活輸出.根據(jù)FPN 的定義,將四種不同尺度的輸出生成與相同層空間維度大小一致的特征圖,記為{C2,C3,C4,C5}.

在此基礎(chǔ)上,本文設(shè)計(jì)了從低層到最高層的路徑.從C2開(kāi)始一直到C5,空間尺寸逐漸采取下采樣.該過(guò)程新生成的與{C2,C3,C4,C5}相對(duì)應(yīng)的特征圖記為{N2,N3,N4,N5}.圖4 描述了從Ni產(chǎn)生Ni+1的結(jié)構(gòu),每個(gè)Ni首先通過(guò)一個(gè)3×3,步長(zhǎng)為2 的卷積層來(lái)減小尺寸,產(chǎn)生與Ci+1尺寸相同的特征圖.之后Ci+1與下采樣的特征圖元素相加.加和后的特征圖經(jīng)過(guò)另外一個(gè)3×3 的卷積操作產(chǎn)生Ni+1.生成Ni+2的操作由Ni+1重復(fù)上述過(guò)程.圖4 結(jié)構(gòu)的公式表示如下

圖4 從底向上的路徑增強(qiáng)

3.2 金字塔融合模塊

MFP 中的路徑增強(qiáng)將低層細(xì)節(jié)信息和深層語(yǔ)義信息進(jìn)行了傳遞.但是,這種傳遞僅限于相鄰層級(jí),最高層的信息傳遞到最低層會(huì)變得較為微弱,造成了各層級(jí)之間信息的不平衡性.為了解決這個(gè)問(wèn)題,本文提出了一個(gè)金字塔融合模塊PFB,將不同層級(jí)的特征進(jìn)行直接融合,同時(shí)保留其語(yǔ)義和位置信息,以此來(lái)平衡所有用來(lái)進(jìn)行預(yù)測(cè)的層級(jí).PFB 的結(jié)構(gòu)如圖3 中右邊的虛線(xiàn)框部分所示.首先將不同層級(jí)的特征{N2,N3,N4,N5}通過(guò)插值或最大池化重構(gòu)為N4的尺寸大小,得到{F2,F(xiàn)3,F(xiàn)4,F(xiàn)5},之后,取其均值得到平衡語(yǔ)義特征Fb.在l 層分辨率的特征記作Fl,最低層及最高層特征的索引記作lmin, lmax.Fb的公式如下

其中L 為金字塔的層數(shù).

為減少平衡語(yǔ)義特征的信息冗余,進(jìn)一步增強(qiáng)特征表達(dá),本文采用了SE 注意力模塊[14],利用注意力機(jī)制對(duì)融合特征圖的有效特征進(jìn)行了加強(qiáng),并加入了殘差連接,其結(jié)構(gòu)如圖5 所示.通過(guò)提取特征圖的通道維度的注意力,關(guān)注信息最顯著的組成部分,可以有效地增強(qiáng)平衡語(yǔ)義特征的特征表示.

圖5 殘差注意力機(jī)制模塊

這里σ 表示sigmoid 函數(shù),W0∈RC/r×C, W1∈RC×C/r,表示通道注意力分支中MLP 的權(quán)重參數(shù).在上述操作之后,本文將得到注意力圖Mc作用于SE 注意力模塊的輸入特征圖Fb,得到經(jīng)過(guò)注意力機(jī)制增強(qiáng)特征表示的A,公式如下

為了將平衡后語(yǔ)義特征信息反饋到每一個(gè)層級(jí),將SE 注意力模塊的輸出A 使用相同但相反的過(guò)程,重構(gòu)到與各層級(jí)對(duì)應(yīng)相同的尺寸,得到{A2,A3,A4,A5},與{C2,C3,C4,C5}進(jìn)行加和操作,得到{P2,P3,P4,P5}.其公式表示如下

{P2,P3,P4,P5}與{C2,C3,C4,C5}相比,平衡了各層級(jí)間的差異性,增強(qiáng)了各層的原始特征.用于后續(xù)的目標(biāo)檢測(cè)中,流程和FPN 相同.

4 實(shí)驗(yàn)

本文實(shí)驗(yàn)計(jì)算環(huán)境:CPU 為Xeon E5-2664 v4 Gold,主頻3.2 GHz,16 核;GPU 為NVIDIA Tesla P100,16 GB 顯存,3584 個(gè)核心.采用深度學(xué)習(xí)開(kāi)源框架Pytorch1.1.0 進(jìn)行深度網(wǎng)絡(luò)模型訓(xùn)練和測(cè)試.

4.1 數(shù)據(jù)集

本實(shí)驗(yàn)在PASCAL VOC 2012 和MS COCO 2014 數(shù)據(jù)集對(duì)本文提出的多尺度特征融合網(wǎng)絡(luò)進(jìn)行測(cè)試.PASCAL VOC 2012 具有21 個(gè)類(lèi),訓(xùn)練集包含5717 張圖像,驗(yàn)證集包含5823 張圖像.MS COCO 2014 具有81 個(gè)類(lèi),訓(xùn)練集包含82783 張圖像,驗(yàn)證集包含40504 張圖像.

4.2 實(shí)驗(yàn)細(xì)節(jié)

1) 訓(xùn)練過(guò)程

本實(shí)驗(yàn)使用Faster R-CNN 作為基礎(chǔ)目標(biāo)檢測(cè)結(jié)構(gòu),使用ResNet 作為特征提取網(wǎng)絡(luò),對(duì)所提出的多尺度特征融合網(wǎng)絡(luò)進(jìn)行訓(xùn)練.在PASCAL VOC 2012 數(shù)據(jù)集上,本文設(shè)置了12 個(gè)epoch,betchsize 大小為16,初始學(xué)習(xí)率為0.02,分別在第8 和第11 個(gè)epoch,學(xué)習(xí)率減小為原來(lái)的0.1 倍.在MS COCO 2014 數(shù)據(jù)集上,除了將初始學(xué)習(xí)率設(shè)置為0.01,其他設(shè)置與PASCAL VOC 2012 數(shù)據(jù)集相同.

2) 模型評(píng)估

本文使用MAP(Mean Average Precision)來(lái)評(píng)估所提出方法的性能,其公式如下

這里Recall(R)是召回率,Precision(P)是精確率,TP 為正樣本被分為正樣本的數(shù)量,F(xiàn)N 為正樣本被錯(cuò)誤地分為負(fù)樣本的數(shù)量,F(xiàn)P 為負(fù)樣本被錯(cuò)誤地分為正樣本的數(shù)量.TP +FN 為全部正樣本數(shù)量,TP +FP 全部被分為正樣本的數(shù)量.

TP 和FP 根據(jù)IOU(Intersection Over Union)閾值來(lái)判斷,IOU 公式如下

這里A 表示GT Box,B 表示檢測(cè)模型預(yù)測(cè)的anchor.假設(shè)IOU 閾值為0.5,如果IOU >0.5,則樣本為T(mén)P,否則為FP.

4.3 實(shí)驗(yàn)結(jié)果及分析

在PASCAL VOC 2012 數(shù)據(jù)集的性能實(shí)驗(yàn)中,本文使用Faster R-CNN 作為基礎(chǔ)檢測(cè)器,ResNet 作為特征提取網(wǎng)絡(luò),來(lái)評(píng)估所提出的模型,使用5717 張圖像訓(xùn)練模型,5823 張圖像進(jìn)行測(cè)試.表1 顯示出MAP 值在三種深度的ResNet 上均得到了一定的提升,ResNet50、ResNet101 和ResNet152 分別提升1.1%、0.9%和0.6%.MSFFN 與FPN 的識(shí)別效果對(duì)比如圖6 所示,圖6(b)的小鳥(niǎo)和遠(yuǎn)處的船只均被MSFFN 識(shí)別,而圖6(a)中FPN 則未檢測(cè)出,圖6(c)中左側(cè)的酒瓶被FPN 識(shí)別出兩個(gè)目標(biāo)框,而圖6(d)中MSFFN 則準(zhǔn)確地檢測(cè)出酒瓶.實(shí)驗(yàn)說(shuō)明本文使用注意力機(jī)制對(duì)FPN 各層特征進(jìn)行了有效的融合.

為進(jìn)一步驗(yàn)證所提方法的性能,本文在MS COCO 2014 數(shù)據(jù)集上對(duì)模型進(jìn)行測(cè)試.MS COCO 2014 數(shù)據(jù)集包含80 個(gè)類(lèi),超過(guò)80,000 張圖像用于訓(xùn)練.表2 描述了本文使用ResNet50 和ResNet101 得到的檢測(cè)器在驗(yàn)證集的性能表現(xiàn).使用ResNet50 時(shí)MSF FN 比FPN 在AP@IOU=0.5 上高1.8%,AP@IOU=0.7 上高1%以及AP@IOU=0.5:0.95上高1.2%.使用ResNet101 時(shí)MSFFN 比FPN 在AP@IOU=0.5 上高1.6%,AP@IOU=0.7 上高1.2%以及AP@IOU=0.5:0.95 上高1.1%.總的來(lái)說(shuō),這個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)顯示了所提出的方法在Faster R-CNN 目標(biāo)檢測(cè)網(wǎng)絡(luò)中所起到的性能提升作用.

表1 PASCAL VOC 2012 數(shù)據(jù)集實(shí)驗(yàn)結(jié)果

表2 MS COCO 2014 數(shù)據(jù)集實(shí)驗(yàn)結(jié)果

圖6 MSFFN 與FPN 效果對(duì)比

5 結(jié)論

針對(duì)傳統(tǒng)的特征金字塔網(wǎng)絡(luò)只能依靠深層語(yǔ)義信息來(lái)進(jìn)行預(yù)測(cè),而忽略網(wǎng)絡(luò)低層細(xì)節(jié)信息的不足,本文提出了基于特征金字塔的多尺度特征融合網(wǎng)絡(luò)MSFFN.MSFFN 在FPN主干網(wǎng)絡(luò)的基礎(chǔ)上,設(shè)計(jì)了混合特征金字塔MFP 和金字塔融合模塊PFB.為了用低層的細(xì)節(jié)信息增強(qiáng)特征金字塔,MFP 創(chuàng)建了自下而上的路徑增強(qiáng).同時(shí),PFB 對(duì)各層級(jí)的特征進(jìn)行了融合,并反過(guò)來(lái)作用于相應(yīng)層級(jí)的特征,來(lái)平衡各層級(jí)間的差異性,增強(qiáng)了有用特征的表達(dá).之后,在PASCAL VOC 2012 和MS COCO 2014 兩個(gè)數(shù)據(jù)集上進(jìn)行的實(shí)驗(yàn)證明了MSFFN 對(duì)特征融合的有效性.本文提出的多尺度特征融合網(wǎng)絡(luò)可以作為提升目標(biāo)識(shí)別與跟蹤、異常檢測(cè)和圖像分割等圖像處理與視頻分析算法性能的基本模塊.

猜你喜歡
金字塔層級(jí)注意力
“金字塔”
讓注意力“飛”回來(lái)
軍工企業(yè)不同層級(jí)知識(shí)管理研究實(shí)踐
Great Vacation Places
基于軍事力量層級(jí)劃分的軍力對(duì)比評(píng)估
海上有座“金字塔”
職務(wù)職級(jí)并行后,科員可以努力到哪個(gè)層級(jí)
金字塔是用金子造的嗎
“揚(yáng)眼”APP:讓注意力“變現(xiàn)”
A Beautiful Way Of Looking At Things
沧州市| 定兴县| 长兴县| 准格尔旗| 明水县| 麻栗坡县| 衡阳县| 乌拉特中旗| 高淳县| 比如县| 朝阳区| 南汇区| 莱西市| 台山市| 都江堰市| 东丽区| 四子王旗| 广丰县| 蕲春县| 宁乡县| 霍邱县| 永嘉县| 晋中市| 湟中县| 夏邑县| 松阳县| 湘西| 洪江市| 土默特左旗| 奎屯市| 乌鲁木齐县| 敦煌市| 南康市| 石屏县| 通州市| 临清市| 汉川市| 龙门县| 合江县| 黎川县| 虎林市|