基于特征金字塔的多尺度特征融合網(wǎng)絡(luò)

2020-11-04 03:06郭啟帆徐文娟靖穩(wěn)峰

工程數(shù)學(xué)學(xué)報(bào) 2020年5期

郭啟帆，劉磊，張珹，徐文娟，靖穩(wěn)峰，?

(1- 西安交通大學(xué)數(shù)學(xué)與統(tǒng)計(jì)學(xué)院，西安 710049; 2- 中鐵第一勘察設(shè)計(jì)院集團(tuán)有限公司，西安 710043)

1 引言

卷積神經(jīng)網(wǎng)絡(luò)CNN 能夠?qū)W習(xí)圖像的高級(jí)特征表示，在計(jì)算機(jī)視覺(jué)中得到廣泛應(yīng)用.自2012 年一種有效的CNN―AlexNet[1]出現(xiàn)之后，卷積神經(jīng)網(wǎng)絡(luò)得到了快速發(fā)展，基于CNN 的VGGNet[2]、Inception[3]等網(wǎng)絡(luò)在工程圖像分類(lèi)中取得了優(yōu)異的表現(xiàn).隨著ResNet 殘差網(wǎng)絡(luò)[4]的提出，CNN 向更深層次的網(wǎng)絡(luò)邁進(jìn)，其圖像處理的性能不斷提升，已經(jīng)在視覺(jué)檢測(cè)領(lǐng)域顯現(xiàn)出巨大的優(yōu)勢(shì).

近年來(lái)，圖像分類(lèi)、目標(biāo)檢測(cè)等計(jì)算機(jī)視覺(jué)算法隨著CNN 的改進(jìn)快速發(fā)展.Girshick等提出了基于CNN 的R-CNN[5]用于目標(biāo)檢測(cè)，使得兩階段的目標(biāo)檢測(cè)成為主流.He 等人提出了SPPNet[6]，有效解決了候選區(qū)域計(jì)算冗余的問(wèn)題.Girshick 提出了Fast RCNN[7]，實(shí)現(xiàn)了一種多任務(wù)學(xué)習(xí)方式，對(duì)目標(biāo)分類(lèi)和包圍框回歸的同步訓(xùn)練.Ren 等人在Faster R-CNN[8]中提出RPN，將區(qū)域推薦階段和CNN 分類(lèi)融到了一起，實(shí)現(xiàn)了一個(gè)完全意義上的端到端的CNN 目標(biāo)檢測(cè)模型.Redmon 等人提出的YOLO[9]是第一個(gè)單階段卷積網(wǎng)絡(luò)檢測(cè)算法，僅通過(guò)一次前向傳播直接得到目標(biāo)包圍框的位置和目標(biāo)的類(lèi)別，有著非?？斓臋z測(cè)速度，但是其精度較差.Liu 等人接著提出SSD 算法[10]，吸收了YOLO 速度快和RPN 定位精準(zhǔn)的優(yōu)點(diǎn)，采用了RPN 中的多參考窗口技術(shù)，并進(jìn)一步提出在多個(gè)分辨率的特征圖上進(jìn)行檢測(cè).為了提高單階段方法的檢測(cè)精度，Lin 等人提出了RetinaNet[11]檢測(cè)模型，對(duì)傳統(tǒng)的交叉熵?fù)p失函數(shù)進(jìn)行修正，提出了“Focal Loss”，極大的提高了檢測(cè)精度.

特征金字塔網(wǎng)絡(luò)FPN[12]是傳統(tǒng)CNN 網(wǎng)絡(luò)對(duì)圖片信息進(jìn)行表達(dá)輸出的一種有效方法，通過(guò)對(duì)不同層的特征圖進(jìn)行特征融合，使用多尺度的特征圖進(jìn)行預(yù)測(cè).特征金字塔對(duì)多尺度特征圖的融合在目標(biāo)檢測(cè)網(wǎng)絡(luò)中得到了廣泛應(yīng)用，并取得了顯著的效果提升.然而，F(xiàn)PN 沒(méi)有將存在于低層特征圖準(zhǔn)確定位信號(hào)反饋到高層語(yǔ)義特征圖，同時(shí)各層級(jí)之間的特征傳遞僅限于相鄰層級(jí)，導(dǎo)致了特征融合的不平衡性.在Liu 等人的Path Aggregation Network[13]中，引入bottom-up path augmentation 結(jié)構(gòu)，利用網(wǎng)絡(luò)淺特征對(duì)FPN 特征進(jìn)行融合.

針對(duì)FPN 的不足，本文提出基于特征金字塔的多尺度特征融合網(wǎng)絡(luò)模型(Muti-scale Feature Fusion Network， MSFFN).MSFFN 包含了混合特征金字塔(Mixed Feature Pyramid， MFP)和金字塔融合模塊(Pyramid Fusion Block， PFB).MFP 在FPN 的基礎(chǔ)上增加了自底向上的路徑，把FPN 中低層的細(xì)節(jié)信息傳遞到高層的語(yǔ)義特征圖，PFB 引入特征注意力機(jī)制，將不同層級(jí)的特征進(jìn)行直接融合，同時(shí)保留其語(yǔ)義和位置信息，以此來(lái)平衡所有用來(lái)進(jìn)行預(yù)測(cè)的層級(jí).針對(duì)MSFFN，本文在MSCOCO 2014 和PASCAL VOC 2012 數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)，驗(yàn)證了本文提出的MSFFN 方法的有效性.

2 相關(guān)工作

2.1 特征金字塔網(wǎng)絡(luò)(FPN)

特征金字塔網(wǎng)絡(luò)將低分辨率、高語(yǔ)義信息的高層特征和高分辨率、低語(yǔ)義信息的低層特征進(jìn)行自上而下地側(cè)邊連接，使得所有尺度下的特征都有豐富的語(yǔ)義信息，其結(jié)構(gòu)如圖1 所示.通過(guò)利用常規(guī)CNN 模型從底至上各個(gè)層對(duì)同一圖片不同維度的特征表達(dá)結(jié)構(gòu)，可有效在單一圖像視圖下生成對(duì)其的多維度特征表達(dá)，其核心思想包括兩部分：自下至上的通路即自下至上的不同維度特征生成；自上至下的通路即自上至下的特征補(bǔ)充增強(qiáng).

自下而上的部分是卷積神經(jīng)網(wǎng)絡(luò)的前向過(guò)程.在前向過(guò)程中，特征圖的大小在經(jīng)過(guò)一些層后會(huì)改變，而在經(jīng)過(guò)其他一些層的時(shí)候不會(huì)改變，將不改變特征圖大小的層歸為一個(gè)階段，因此每次抽取的特征都是每個(gè)階段的最后一個(gè)層的輸出，這樣就能構(gòu)成特征金字塔.具體地說(shuō)，使用了ResNet 網(wǎng)絡(luò)Conv2-x、Conv3-x、Conv4-x 和Conv5-x 各階段的最后一個(gè)殘差結(jié)構(gòu)的特征激活輸出.自上而下的過(guò)程采用上采樣，通過(guò)內(nèi)插值方法，即在原有圖像像素的基礎(chǔ)上在像素點(diǎn)之間采用合適的插值算法插入新的元素，從而擴(kuò)大原圖像的大小.通過(guò)對(duì)特征圖進(jìn)行上采樣，使得上采樣后的特征圖具有和下一層的特征圖相同的大小.

圖1 特征金字塔結(jié)構(gòu)

2.2 注意力機(jī)制

注意力機(jī)制是在特征提取的時(shí)候，著重關(guān)注圖像信息最顯著的組成部分.即讓網(wǎng)絡(luò)更關(guān)注有效特征，具體實(shí)施時(shí)一般在通道維度加入注意力. Hu 等人[14]提出了探索通道間關(guān)系的SE 注意力模塊，通過(guò)全局池化特征計(jì)算每個(gè)通道的注意力，SE 注意力模塊的結(jié)構(gòu)如圖2 所示.

圖2 SE 注意力模塊

首先對(duì)進(jìn)入SE 注意力模塊的特征圖F 進(jìn)行卷積操作，生成特征圖F1， F1∈RH×W×C，SE 注意力模塊在通道維度關(guān)注輸入特征圖的有用部分，通過(guò)將特征圖F1全局平均池化生成一維注意力圖Favg，其中全局平均池化為了得到每個(gè)通道所有元素的反饋，再經(jīng)過(guò)共享的多層感知機(jī)得到注意力特征圖，經(jīng)過(guò)sigmoid 函數(shù)激活生成權(quán)重特征圖M， M ∈R1×1×C，即為通道注意力特征圖，公式表示為

其中σ 為sigmoid 函數(shù).

將帶有注意力的權(quán)重M 加入網(wǎng)絡(luò)，M 與特征圖F1進(jìn)行元素相乘得到SE 注意力模塊輸出特征圖F2，公式表示為

3 多尺度特征融合網(wǎng)絡(luò)

針對(duì)傳統(tǒng)特征提取網(wǎng)絡(luò)只能依靠深層語(yǔ)義信息來(lái)進(jìn)行預(yù)測(cè)，而忽略網(wǎng)絡(luò)低層細(xì)節(jié)信息的不足，本文提出了多尺度特征融合網(wǎng)絡(luò)MSFFN，其結(jié)構(gòu)如圖3 所示.MSFFN 在FPN主干網(wǎng)絡(luò)的基礎(chǔ)上，為了用低層細(xì)節(jié)信息增強(qiáng)特征金字塔，創(chuàng)建了自下而上的路徑，以增強(qiáng)低層細(xì)節(jié)信息到高層的傳遞.同時(shí)，MSFFN 對(duì)各層級(jí)的特征進(jìn)行了融合，并反過(guò)來(lái)作用于相應(yīng)層級(jí)的特征，來(lái)平衡各層級(jí)間的差異性，同時(shí)增強(qiáng)了有用特征的表達(dá).本節(jié)首先介紹MSFFN 的用來(lái)路徑增強(qiáng)的混合特征金字塔網(wǎng)絡(luò)，然后描述金字塔融合模塊.

圖3 MSFFN 網(wǎng)絡(luò)結(jié)構(gòu)

3.1 混合特征金字塔

混合特征金字塔MFP 在FPN 的基礎(chǔ)上，增加了自底向上的路徑，將FPN 中低層的細(xì)節(jié)信息傳遞到高層的語(yǔ)義特征圖.圖3 中矩形虛線(xiàn)框?yàn)镸FP 的結(jié)構(gòu)，N2～N5為自底向上的路徑增強(qiáng).MFP 使用ResNet 作為基礎(chǔ)的特征提取網(wǎng)絡(luò)，使用ImageNet 上訓(xùn)練好的權(quán)重作為預(yù)訓(xùn)練模型，采用ResNet 網(wǎng)絡(luò)Conv2-x、Conv3-x、Conv4-x 和Conv5-x 各階段的最后一個(gè)殘差結(jié)構(gòu)的特征激活輸出.根據(jù)FPN 的定義，將四種不同尺度的輸出生成與相同層空間維度大小一致的特征圖，記為{C2，C3，C4，C5}.

在此基礎(chǔ)上，本文設(shè)計(jì)了從低層到最高層的路徑.從C2開(kāi)始一直到C5，空間尺寸逐漸采取下采樣.該過(guò)程新生成的與{C2，C3，C4，C5}相對(duì)應(yīng)的特征圖記為{N2，N3，N4，N5}.圖4 描述了從Ni產(chǎn)生Ni+1的結(jié)構(gòu)，每個(gè)Ni首先通過(guò)一個(gè)3×3，步長(zhǎng)為2 的卷積層來(lái)減小尺寸，產(chǎn)生與Ci+1尺寸相同的特征圖.之后Ci+1與下采樣的特征圖元素相加.加和后的特征圖經(jīng)過(guò)另外一個(gè)3×3 的卷積操作產(chǎn)生Ni+1.生成Ni+2的操作由Ni+1重復(fù)上述過(guò)程.圖4 結(jié)構(gòu)的公式表示如下

圖4 從底向上的路徑增強(qiáng)

3.2 金字塔融合模塊

MFP 中的路徑增強(qiáng)將低層細(xì)節(jié)信息和深層語(yǔ)義信息進(jìn)行了傳遞.但是，這種傳遞僅限于相鄰層級(jí)，最高層的信息傳遞到最低層會(huì)變得較為微弱，造成了各層級(jí)之間信息的不平衡性.為了解決這個(gè)問(wèn)題，本文提出了一個(gè)金字塔融合模塊PFB，將不同層級(jí)的特征進(jìn)行直接融合，同時(shí)保留其語(yǔ)義和位置信息，以此來(lái)平衡所有用來(lái)進(jìn)行預(yù)測(cè)的層級(jí).PFB 的結(jié)構(gòu)如圖3 中右邊的虛線(xiàn)框部分所示.首先將不同層級(jí)的特征{N2，N3，N4，N5}通過(guò)插值或最大池化重構(gòu)為N4的尺寸大小，得到{F2，F(xiàn)3，F(xiàn)4，F(xiàn)5}，之后，取其均值得到平衡語(yǔ)義特征Fb.在l 層分辨率的特征記作Fl，最低層及最高層特征的索引記作lmin， lmax.Fb的公式如下

其中L 為金字塔的層數(shù).

為減少平衡語(yǔ)義特征的信息冗余，進(jìn)一步增強(qiáng)特征表達(dá)，本文采用了SE 注意力模塊[14]，利用注意力機(jī)制對(duì)融合特征圖的有效特征進(jìn)行了加強(qiáng)，并加入了殘差連接，其結(jié)構(gòu)如圖5 所示.通過(guò)提取特征圖的通道維度的注意力，關(guān)注信息最顯著的組成部分，可以有效地增強(qiáng)平衡語(yǔ)義特征的特征表示.

圖5 殘差注意力機(jī)制模塊

這里σ 表示sigmoid 函數(shù)，W0∈RC/r×C， W1∈RC×C/r，表示通道注意力分支中MLP 的權(quán)重參數(shù).在上述操作之后，本文將得到注意力圖Mc作用于SE 注意力模塊的輸入特征圖Fb，得到經(jīng)過(guò)注意力機(jī)制增強(qiáng)特征表示的A，公式如下

為了將平衡后語(yǔ)義特征信息反饋到每一個(gè)層級(jí)，將SE 注意力模塊的輸出A 使用相同但相反的過(guò)程，重構(gòu)到與各層級(jí)對(duì)應(yīng)相同的尺寸，得到{A2，A3，A4，A5}，與{C2，C3，C4，C5}進(jìn)行加和操作，得到{P2，P3，P4，P5}.其公式表示如下

{P2，P3，P4，P5}與{C2，C3，C4，C5}相比，平衡了各層級(jí)間的差異性，增強(qiáng)了各層的原始特征.用于后續(xù)的目標(biāo)檢測(cè)中，流程和FPN 相同.

4 實(shí)驗(yàn)

本文實(shí)驗(yàn)計(jì)算環(huán)境：CPU 為Xeon E5-2664 v4 Gold，主頻3.2 GHz，16 核；GPU 為NVIDIA Tesla P100，16 GB 顯存，3584 個(gè)核心.采用深度學(xué)習(xí)開(kāi)源框架Pytorch1.1.0 進(jìn)行深度網(wǎng)絡(luò)模型訓(xùn)練和測(cè)試.

4.1 數(shù)據(jù)集

本實(shí)驗(yàn)在PASCAL VOC 2012 和MS COCO 2014 數(shù)據(jù)集對(duì)本文提出的多尺度特征融合網(wǎng)絡(luò)進(jìn)行測(cè)試.PASCAL VOC 2012 具有21 個(gè)類(lèi)，訓(xùn)練集包含5717 張圖像，驗(yàn)證集包含5823 張圖像.MS COCO 2014 具有81 個(gè)類(lèi)，訓(xùn)練集包含82783 張圖像，驗(yàn)證集包含40504 張圖像.

4.2 實(shí)驗(yàn)細(xì)節(jié)

1) 訓(xùn)練過(guò)程

本實(shí)驗(yàn)使用Faster R-CNN 作為基礎(chǔ)目標(biāo)檢測(cè)結(jié)構(gòu)，使用ResNet 作為特征提取網(wǎng)絡(luò)，對(duì)所提出的多尺度特征融合網(wǎng)絡(luò)進(jìn)行訓(xùn)練.在PASCAL VOC 2012 數(shù)據(jù)集上，本文設(shè)置了12 個(gè)epoch，betchsize 大小為16，初始學(xué)習(xí)率為0.02，分別在第8 和第11 個(gè)epoch，學(xué)習(xí)率減小為原來(lái)的0.1 倍.在MS COCO 2014 數(shù)據(jù)集上，除了將初始學(xué)習(xí)率設(shè)置為0.01，其他設(shè)置與PASCAL VOC 2012 數(shù)據(jù)集相同.

2) 模型評(píng)估

本文使用MAP(Mean Average Precision)來(lái)評(píng)估所提出方法的性能，其公式如下

這里Recall(R)是召回率，Precision(P)是精確率，TP 為正樣本被分為正樣本的數(shù)量，F(xiàn)N 為正樣本被錯(cuò)誤地分為負(fù)樣本的數(shù)量，F(xiàn)P 為負(fù)樣本被錯(cuò)誤地分為正樣本的數(shù)量.TP +FN 為全部正樣本數(shù)量，TP +FP 全部被分為正樣本的數(shù)量.

TP 和FP 根據(jù)IOU(Intersection Over Union)閾值來(lái)判斷，IOU 公式如下

這里A 表示GT Box，B 表示檢測(cè)模型預(yù)測(cè)的anchor.假設(shè)IOU 閾值為0.5，如果IOU ＞0.5，則樣本為T(mén)P，否則為FP.

4.3 實(shí)驗(yàn)結(jié)果及分析

在PASCAL VOC 2012 數(shù)據(jù)集的性能實(shí)驗(yàn)中，本文使用Faster R-CNN 作為基礎(chǔ)檢測(cè)器，ResNet 作為特征提取網(wǎng)絡(luò)，來(lái)評(píng)估所提出的模型，使用5717 張圖像訓(xùn)練模型，5823 張圖像進(jìn)行測(cè)試.表1 顯示出MAP 值在三種深度的ResNet 上均得到了一定的提升，ResNet50、ResNet101 和ResNet152 分別提升1.1%、0.9%和0.6%.MSFFN 與FPN 的識(shí)別效果對(duì)比如圖6 所示，圖6(b)的小鳥(niǎo)和遠(yuǎn)處的船只均被MSFFN 識(shí)別，而圖6(a)中FPN 則未檢測(cè)出，圖6(c)中左側(cè)的酒瓶被FPN 識(shí)別出兩個(gè)目標(biāo)框，而圖6(d)中MSFFN 則準(zhǔn)確地檢測(cè)出酒瓶.實(shí)驗(yàn)說(shuō)明本文使用注意力機(jī)制對(duì)FPN 各層特征進(jìn)行了有效的融合.

為進(jìn)一步驗(yàn)證所提方法的性能，本文在MS COCO 2014 數(shù)據(jù)集上對(duì)模型進(jìn)行測(cè)試.MS COCO 2014 數(shù)據(jù)集包含80 個(gè)類(lèi)，超過(guò)80，000 張圖像用于訓(xùn)練.表2 描述了本文使用ResNet50 和ResNet101 得到的檢測(cè)器在驗(yàn)證集的性能表現(xiàn).使用ResNet50 時(shí)MSF FN 比FPN 在AP@IOU=0.5 上高1.8%，AP@IOU=0.7 上高1%以及AP@IOU=0.5：0.95上高1.2%.使用ResNet101 時(shí)MSFFN 比FPN 在AP@IOU=0.5 上高1.6%，AP@IOU=0.7 上高1.2%以及AP@IOU=0.5：0.95 上高1.1%.總的來(lái)說(shuō)，這個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)顯示了所提出的方法在Faster R-CNN 目標(biāo)檢測(cè)網(wǎng)絡(luò)中所起到的性能提升作用.

表1 PASCAL VOC 2012 數(shù)據(jù)集實(shí)驗(yàn)結(jié)果

表2 MS COCO 2014 數(shù)據(jù)集實(shí)驗(yàn)結(jié)果

圖6 MSFFN 與FPN 效果對(duì)比

5 結(jié)論

針對(duì)傳統(tǒng)的特征金字塔網(wǎng)絡(luò)只能依靠深層語(yǔ)義信息來(lái)進(jìn)行預(yù)測(cè)，而忽略網(wǎng)絡(luò)低層細(xì)節(jié)信息的不足，本文提出了基于特征金字塔的多尺度特征融合網(wǎng)絡(luò)MSFFN.MSFFN 在FPN主干網(wǎng)絡(luò)的基礎(chǔ)上，設(shè)計(jì)了混合特征金字塔MFP 和金字塔融合模塊PFB.為了用低層的細(xì)節(jié)信息增強(qiáng)特征金字塔，MFP 創(chuàng)建了自下而上的路徑增強(qiáng).同時(shí)，PFB 對(duì)各層級(jí)的特征進(jìn)行了融合，并反過(guò)來(lái)作用于相應(yīng)層級(jí)的特征，來(lái)平衡各層級(jí)間的差異性，增強(qiáng)了有用特征的表達(dá).之后，在PASCAL VOC 2012 和MS COCO 2014 兩個(gè)數(shù)據(jù)集上進(jìn)行的實(shí)驗(yàn)證明了MSFFN 對(duì)特征融合的有效性.本文提出的多尺度特征融合網(wǎng)絡(luò)可以作為提升目標(biāo)識(shí)別與跟蹤、異常檢測(cè)和圖像分割等圖像處理與視頻分析算法性能的基本模塊.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡