国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

多尺度通道注意力融合網(wǎng)絡(luò)的小目標(biāo)檢測(cè)算法

2021-12-13 12:54:42李文濤
計(jì)算機(jī)與生活 2021年12期
關(guān)鍵詞:尺度卷積樣本

李文濤,彭 力

物聯(lián)網(wǎng)技術(shù)應(yīng)用教育部工程研究中心(江南大學(xué) 物聯(lián)網(wǎng)工程學(xué)院),江蘇 無(wú)錫 214122

小目標(biāo)檢測(cè)在日常生活中扮演著極為重要的角色[1-3],如無(wú)人機(jī)航拍領(lǐng)域、遙感圖像、無(wú)人駕駛汽車(chē)對(duì)周邊較遠(yuǎn)較小目標(biāo)的檢測(cè)以及工業(yè)領(lǐng)域?qū)Ξa(chǎn)品微小瑕疵的檢測(cè)等。當(dāng)前計(jì)算機(jī)領(lǐng)域?qū)π∧繕?biāo)物體還沒(méi)有一個(gè)嚴(yán)格的定義與區(qū)分,每個(gè)數(shù)據(jù)集對(duì)小目標(biāo)的像素劃分也不盡相同。本文按照主流的小目標(biāo)定義[4-5],規(guī)定圖像中尺寸小于32×32 像素的物體為小目標(biāo)。當(dāng)前,目標(biāo)檢測(cè)領(lǐng)域?qū)Υ笾心繕?biāo)的檢測(cè)效果已經(jīng)達(dá)到了很高的水平[6-7],但是小目標(biāo)因?yàn)槠浞直媛实?,圖像模糊,攜帶的信息少,所以導(dǎo)致特征表達(dá)能力弱,其檢測(cè)已經(jīng)成為目標(biāo)檢測(cè)中的一大難題。

目標(biāo)檢測(cè)領(lǐng)域發(fā)展了幾十年,傳統(tǒng)的基于手工設(shè)計(jì)特征的目標(biāo)檢測(cè)算法如Haar(joint Haar-like features)[8]、HOG(histograms of oriented gradients)[9]等由于其準(zhǔn)確性低、魯棒性差而逐漸被淘汰。隨之而來(lái)的是近些年蓬勃發(fā)展的基于深度學(xué)習(xí)的各種神經(jīng)網(wǎng)絡(luò)算法,這些算法在縮短檢測(cè)時(shí)間的同時(shí)大大提高了檢測(cè)精度?;诰矸e神經(jīng)網(wǎng)絡(luò)的檢測(cè)算法大概可以分為兩類(lèi),one-stage(單步)算法和two-stage(雙步)算法。two-stage 檢測(cè)算法將檢測(cè)任務(wù)分成了兩步,第一步生成候選區(qū)域,第二步對(duì)選出的候選區(qū)域進(jìn)行分類(lèi)預(yù)測(cè),采用這種方式雖然犧牲了速度,但檢測(cè)的精度較高。比較有代表性的是Girshick等人提出的R-CNN(region-based convolutional networks)[10]和Fast R-CNN(fast region-based convolutional networks)[11],以及Ren 等人提出的Faster R-CNN(faster region-based convolutional networks)[12]檢測(cè)算法,均取得了很好的檢測(cè)效果。

One-stage 類(lèi)檢測(cè)算法直接對(duì)不同區(qū)域的候選框尺度和長(zhǎng)寬比進(jìn)行預(yù)設(shè),然后分類(lèi)與回歸,速度快,精度低。2016 年,Liu 等人提出利用不同尺度特征進(jìn)行特征提取融合的SSD(single shot multibox detector)[13]算法,首次實(shí)現(xiàn)了精度與速度的相對(duì)平衡。其利用多尺度特征進(jìn)行小目標(biāo)檢測(cè),但是由于使用的低層特征圖的感受野不夠小,導(dǎo)致SSD 算法對(duì)小目標(biāo)檢測(cè)效果較差。很多學(xué)者研究了基于SSD 模型的小目標(biāo)檢測(cè)算法并進(jìn)一步做出了改進(jìn)。Fu等人提出了DSSD(deconvolutional single shot multibox detector)[14]模型,利用殘差網(wǎng)絡(luò),同時(shí)增加了反卷積模塊來(lái)融合上下文信息,但是由于計(jì)算量大無(wú)法實(shí)現(xiàn)實(shí)時(shí)性的目標(biāo)檢測(cè)。Jeong 等人提出了RSSD(rainbow single shot multibox detector)[15]模型,通過(guò)反復(fù)堆疊池化和反卷積的操作來(lái)融合不同特征圖,檢測(cè)性能與DSSD 持平。Li 等人提出了FSSD(feature fusion single shot multibox detector)[16]算法,通過(guò)建立一個(gè)輕量級(jí)的特征融合模塊提高了與淺層特征的交互能力,速度和精度都得到了提高,但是精度提高有限。

針對(duì)上述小目標(biāo)檢測(cè)中遇到的問(wèn)題,本文提出了一種基于SSD 的多尺度通道注意力融合網(wǎng)絡(luò)的小目標(biāo)檢測(cè)算法。首先,針對(duì)小目標(biāo)存在的特征不足情況設(shè)計(jì)出了一種基于K鄰域的局部通道注意力模塊,實(shí)現(xiàn)特征通道間的信息交互,通過(guò)對(duì)每個(gè)通道的特征進(jìn)行權(quán)重分配來(lái)學(xué)習(xí)不同通道間特征的相關(guān)性和重要性。其次,為了能有效地把信息融合起來(lái),構(gòu)造了Bottleneck 模塊,通過(guò)在卷積神經(jīng)網(wǎng)絡(luò)中加入該模塊來(lái)實(shí)現(xiàn)更好的特征融合,利用網(wǎng)絡(luò)低層和高層的特征進(jìn)行多尺度檢測(cè),提高了小目標(biāo)檢測(cè)的精度。同時(shí)將基礎(chǔ)網(wǎng)絡(luò)由原來(lái)的VGG16 替換為特征表達(dá)能力強(qiáng)和速度快的ResNet[17],在獲取更多網(wǎng)絡(luò)特征的同時(shí)保證了網(wǎng)絡(luò)的收斂性。損失函數(shù)采用在標(biāo)準(zhǔn)交叉熵?fù)p失函數(shù)基礎(chǔ)上修改得到的Focal Loss[18],通過(guò)減少易分類(lèi)樣本的權(quán)重,使得模型在訓(xùn)練時(shí)更關(guān)注于難分類(lèi)的樣本。實(shí)驗(yàn)結(jié)果表明,該算法在提升整體檢測(cè)精度的同時(shí)保證了速度,并且對(duì)小目標(biāo)的檢測(cè)能力有了較大的提高。

1 改進(jìn)方法

1.1 基礎(chǔ)網(wǎng)絡(luò)

目標(biāo)檢測(cè)算法中通常會(huì)選取在分類(lèi)任務(wù)中表現(xiàn)較好的網(wǎng)絡(luò)模型作為其基礎(chǔ)網(wǎng)絡(luò),基礎(chǔ)網(wǎng)絡(luò)完成大部分特征提取的任務(wù),對(duì)目標(biāo)檢測(cè)的性能有非常大的影響。卷積神經(jīng)網(wǎng)絡(luò)能夠提取低、中、高層的特征[19],網(wǎng)絡(luò)的層數(shù)越多,意味著能夠提取到的特征越豐富,目標(biāo)檢測(cè)需要提取更多的特征信息使得對(duì)目標(biāo)的分類(lèi)更加精準(zhǔn)。但是簡(jiǎn)單的直接增加網(wǎng)絡(luò)層數(shù)會(huì)存在信息丟失、損耗問(wèn)題,導(dǎo)致梯度爆炸。ResNet 殘差網(wǎng)絡(luò)的殘差單元解決了由網(wǎng)絡(luò)深度增加導(dǎo)致的退化問(wèn)題,使網(wǎng)絡(luò)深度得到大幅增加,擁有更多的特征信息,提高了網(wǎng)絡(luò)對(duì)小目標(biāo)的識(shí)別和分類(lèi)能力,因此本文將其作為基礎(chǔ)網(wǎng)絡(luò)。

1.2 損失函數(shù)

卷積神經(jīng)網(wǎng)絡(luò)在進(jìn)行前向傳播階段,依次調(diào)用每個(gè)網(wǎng)絡(luò)層的前向傳播函數(shù),得到逐層的輸出,最后一層與目標(biāo)函數(shù)比較得到損失函數(shù),計(jì)算誤差更新值,通過(guò)反向傳播逐層到達(dá)第一層,所有權(quán)值在反向傳播結(jié)束時(shí)一起更新。一個(gè)好的損失函數(shù)可以讓預(yù)測(cè)值一直逼近真實(shí)值的效果,當(dāng)預(yù)測(cè)值和真實(shí)值相等時(shí),損失最小。本文采用He 提出的焦點(diǎn)損失函數(shù)Focal Loss,真實(shí)目標(biāo)預(yù)測(cè)概率公式定義如下:

這里以二分類(lèi)為例,y表示label,y的取值為1和-1,p表示預(yù)測(cè)樣本屬于1 的概率,1-p表示預(yù)測(cè)樣本屬于-1 的概率。損失函數(shù)如下:

目標(biāo)檢測(cè)中存在著難易樣本不平衡問(wèn)題,易分類(lèi)樣本對(duì)模型來(lái)說(shuō)是一個(gè)簡(jiǎn)單樣本,模型很難從這個(gè)樣本中得到有用的信息,難分類(lèi)樣本對(duì)模型來(lái)說(shuō)是一個(gè)困難的樣本,它產(chǎn)生的梯度信息會(huì)更豐富,指導(dǎo)模型優(yōu)化的方向。然而易分樣本數(shù)量在總體樣本中占有絕對(duì)優(yōu)勢(shì),即使單個(gè)樣本損失函數(shù)較小,累計(jì)的損失函數(shù)會(huì)主導(dǎo)損失函數(shù),但這部分引導(dǎo)的參數(shù)更新不會(huì)改善模型的判斷能力。難分類(lèi)樣本占總體樣本的比例較小,訓(xùn)練貢獻(xiàn)低,導(dǎo)致訓(xùn)練效率變低,甚至模型不能收斂。本文使用的Focal Loss 損失函數(shù)很好地解決了這個(gè)問(wèn)題,在式(2)中,當(dāng)pt趨向于1的時(shí)候,此時(shí)分類(lèi)正確而且是易分類(lèi)樣本,調(diào)制系數(shù)(1-pt)γ趨于0,也就是對(duì)于總的損失貢獻(xiàn)很小。當(dāng)pt<0.5 時(shí),此時(shí)為困難樣本,即難分類(lèi)樣本,(1-pt)γ趨于1,對(duì)于總的損失貢獻(xiàn)大,這樣的話(huà)困難樣本的權(quán)重就相對(duì)提升了很多,增加了那些誤分類(lèi)的重要性。其中,可以通過(guò)設(shè)定αt的值來(lái)控制正負(fù)樣本對(duì)于總的損失的共享權(quán)重,αt取比較小的值來(lái)降低負(fù)樣本的權(quán)重。本文損失函數(shù)參數(shù)取γ=2,αt=0.25。

通過(guò)這個(gè)損失函數(shù)可以解決目標(biāo)檢測(cè)中的難易樣本不平衡問(wèn)題,減少了易分類(lèi)樣本的權(quán)重,使得模型在訓(xùn)練時(shí)更關(guān)注于難分類(lèi)的樣本。在消融實(shí)驗(yàn)中,F(xiàn)ocal Loss 損失函數(shù)對(duì)比SSD 原始損失函數(shù)將mAP 提高了0.24 個(gè)百分點(diǎn),取得了更高的精確度。

1.3 K 鄰域通道注意力模塊

在進(jìn)行特征圖融合時(shí),采用的是Concat(串聯(lián))操作,但是Concat 操作只是在通道維度上將特征連接,不能反映出不同通道間特征的相關(guān)性和重要性。為了能使網(wǎng)絡(luò)自動(dòng)學(xué)習(xí)特征圖通道之間的相關(guān)性和重要性,本文采用了一種不降維的K鄰域通道注意力模塊(K-neighbor channel attention module,KNCA)?,F(xiàn)有的注意力模塊為實(shí)現(xiàn)更好的性能,加入了大量的參數(shù)計(jì)算,增加了模型的復(fù)雜性[20-21]。KNCA 模塊則沒(méi)有采取降維和全部通道進(jìn)行關(guān)聯(lián)的做法,在大大降低了復(fù)雜度的同時(shí)提高了模型的檢測(cè)性能。

如圖1 所示,KNCA 模塊首先對(duì)輸入特征塊的每個(gè)通道分別進(jìn)行不降低維數(shù)的全局平均池化GAP 操作,輸出維度為1×1×C的特征圖,此輸出特征圖反映了全局的感受野。然后通過(guò)卷積核為K的Conv1d(一維卷積)操作來(lái)捕獲每個(gè)通道及其K個(gè)通道鄰域之間的局部交互信息。利用Sigmoid 激活函數(shù)輸出維度為1×1×C的權(quán)值。接著對(duì)輸入的特征圖與激活函數(shù)得到的權(quán)值進(jìn)行乘積運(yùn)算,從而對(duì)各通道特征進(jìn)行權(quán)值重新分配。KNCA 模塊可以使網(wǎng)絡(luò)自動(dòng)地學(xué)習(xí)特征通道之間的相關(guān)性和重要性。在獲取通道信息時(shí),捕獲所有通道之間的依賴(lài)是低效而不必要的,這在后面的對(duì)照實(shí)驗(yàn)中有所體現(xiàn)。需要注意的是,本文的KNCA 模塊可以通過(guò)大小為K的一維卷積來(lái)有效實(shí)現(xiàn),其中卷積核大小為K,代表了局部跨通道交互的覆蓋率,即該通道及附近共K個(gè)通道參與了這個(gè)通道的注意力預(yù)測(cè)。圖2 直觀展示出了加入KNCA 模塊前后卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)到的特征,該模塊促進(jìn)了各通道間信息交流,使得特征塊各個(gè)通道不再是一個(gè)個(gè)獨(dú)立的個(gè)體,信息關(guān)聯(lián)加強(qiáng)了目標(biāo)整體特征對(duì)最終模型檢測(cè)結(jié)果的貢獻(xiàn),對(duì)目標(biāo)檢測(cè)提升效果顯著。

Fig.1 K-neighbor channel attention module structure圖1 K 鄰域通道注意力模塊結(jié)構(gòu)圖

Fig.2 Heat maps before and after adding K-neighbor channel attention module圖2 K 鄰域通道注意力模塊添加前后熱力圖

KNCA 模塊的通道權(quán)重公式可以表示如下:

其中,g(x)代表通道級(jí)的全局平均池化GAP 操作,式(4)中W和H分別代表特征塊的寬和高,其余的W均表示為一個(gè)C×C的參數(shù)矩陣,f{W}為K個(gè)通道鄰域的交互函數(shù),σ代表Sigmoid 函數(shù)。

現(xiàn)令y=g(x),則ω=σ(Wy),對(duì)于每一個(gè)通道權(quán)重:

此時(shí),該算法可以由一個(gè)卷積核為K的一維卷積實(shí)現(xiàn),公式進(jìn)一步簡(jiǎn)化為:

式中,Conv1dK代表卷積核為K的一維卷積。卷積核K計(jì)算公式如下:

其中,Nin=Nout,S=1,故K=2P+1 為奇數(shù),卷積核的大小K對(duì)KNCA 模塊有一定的影響,分別取K值為3、5、7 進(jìn)行對(duì)比,選取最優(yōu)的鄰域K值,在消融實(shí)驗(yàn)中,K=3 時(shí)模型取得了最好的效果。

1.4 特征融合模塊

在一個(gè)多層卷積神經(jīng)網(wǎng)絡(luò)中,低層的特征往往能很好地表示圖像的紋理、邊緣等細(xì)節(jié)信息,而越往高層走,隨著神經(jīng)元感受野的擴(kuò)大,高層的特征往往能很好地表示圖像的語(yǔ)義信息,相應(yīng)的就會(huì)忽視一些細(xì)節(jié)信息[22]。為了進(jìn)一步驗(yàn)證這個(gè)結(jié)論,把ResNet卷積神經(jīng)網(wǎng)絡(luò)不同深度的特征層提取出來(lái),進(jìn)行了特征圖可視化。從圖3 的可視化特征圖中可以看出,低層網(wǎng)絡(luò)提取的是小目標(biāo)檢測(cè)更關(guān)注的紋理、細(xì)節(jié)特征等細(xì)節(jié)信息,高層網(wǎng)絡(luò)提取的是輪廓、形狀特征等語(yǔ)義信息。小目標(biāo)的檢測(cè)需要更多的細(xì)節(jié)信息,因此本文在對(duì)特征圖進(jìn)行融合時(shí)既考慮了包含細(xì)節(jié)信息的低層特征圖,又結(jié)合了包含語(yǔ)義信息的高層特征圖。選取ResNet 的Conv3_4、Conv4_23 和Conv5_3層特征圖,首先通過(guò)雙線(xiàn)性插值法對(duì)特征圖尺寸進(jìn)行統(tǒng)一,然后利用Concat 操作將各深度的特征融合。但是Concat 操作只是在通道維度上將特征連接,不能反映出不同通道間特征的相關(guān)性和重要性。在特征圖尺度縮減的同時(shí)為了使網(wǎng)絡(luò)自動(dòng)學(xué)習(xí)特征圖通道之間的相關(guān)性和重要性,設(shè)計(jì)了包含通道注意力機(jī)制的Bottleneck 模塊,利用該模塊對(duì)融合后的特征塊進(jìn)行尺度縮減得到7 組尺度不同的特征圖,共利用7 組特征圖構(gòu)建多尺度檢測(cè)網(wǎng)絡(luò)。

在對(duì)特征圖進(jìn)行尺度縮減時(shí)設(shè)計(jì)的Bottleneck模塊結(jié)構(gòu)如圖4 所示。圖中的第一個(gè)Conv1×1(卷積核為1 的二維卷積)的作用是對(duì)輸入特征圖進(jìn)行降維,以降低計(jì)算量。BatchNorm(批歸一化)可以加快網(wǎng)絡(luò)的訓(xùn)練和收斂速度,防止梯度消失,對(duì)于網(wǎng)絡(luò)比較深的ResNet 非常合適,加入BatchNorm 后還可以適當(dāng)增大學(xué)習(xí)率,加快訓(xùn)練速度。ReLU 層的作用是增加神經(jīng)網(wǎng)絡(luò)各層之間的非線(xiàn)性關(guān)系,避免過(guò)擬合問(wèn)題的發(fā)生。Conv3×3(卷積核為3 的二維卷積)的作用是使輸入特征圖的尺度減半,得到不同尺度的特征圖。第二個(gè)Conv1×1 的作用是升維,返回輸入時(shí)的特征維度,以減少原特征圖特征信息的損失。KNCA模塊即K鄰域通道注意力模塊,該模塊增加了特征圖不同通道之間特征的相關(guān)性,提高了小目標(biāo)的檢測(cè)準(zhǔn)確率。

目前特征融合的方法手段很多,F(xiàn)aster R-CNN 算法僅對(duì)最后一個(gè)特征塊進(jìn)行預(yù)測(cè),雖然包含了高層特征,但是低層特征信息沒(méi)有被使用,在消融實(shí)驗(yàn)中檢測(cè)精度僅為73.2%。SSD 算法采用了特征圖大小遞減的特征金字塔對(duì)不同尺度特征進(jìn)行預(yù)測(cè),效果得到提高,但對(duì)低層特征的關(guān)注度還是不夠,檢測(cè)精度為77.2%。DSSD 采用了特征圖大小先遞減后反卷積遞增的特征金字塔融合方式,融合過(guò)程復(fù)雜耗時(shí),檢測(cè)速度為13 frame/s。本文僅先對(duì)3 個(gè)不同深度的特征塊進(jìn)行串聯(lián),得到一個(gè)融合特征塊,再?gòu)倪@個(gè)特征塊得到不同尺度的特征金字塔進(jìn)行預(yù)測(cè),檢測(cè)精度為82.7%,速度為30 frame/s。

Fig.3 ResNet visualization feature map圖3 ResNet可視化特征圖

Fig.4 Bottleneck module structure圖4 瓶頸模塊結(jié)構(gòu)圖

Fig.5 Overall algorithm structure of this paper圖5 本文整體算法結(jié)構(gòu)圖

圖5展示了本文整體算法結(jié)構(gòu)圖,首先選取ResNet的第三、四、五層卷積塊后的特征圖,大小分別為64×64、32×32、16×16,通過(guò)選取3 個(gè)不同尺度特征圖組成的密集塊,在接下來(lái)的Concat 操作中對(duì)不同尺度的特征信息進(jìn)行融合,提升了以低層特征為主要檢測(cè)依據(jù)的小目標(biāo)檢測(cè)精度。然后對(duì)第一組特征圖采用Conv1×1 進(jìn)行降維,第二組和第三組特征圖先降維再進(jìn)行上采樣,這里上采樣選取雙線(xiàn)性插值法,使3 組特征圖的尺度相同。這樣接下來(lái)就可以進(jìn)行Concat操作,將3 組特征圖進(jìn)行串聯(lián)操作,尺度不變,通道數(shù)相加。合并為一組特征圖后,采取Conv1×1進(jìn)行降維和BN 即BatchNorm 進(jìn)行加速訓(xùn)練,防止梯度消失。然后,基于該組特征圖依次進(jìn)行尺度縮減,獲取檢測(cè)用的不同尺度的特征圖。這里利用了剛才提出的Bottleneck 模塊,其中的降維操作有效降低了訓(xùn)練參數(shù),減少了訓(xùn)練時(shí)間。位于Bottleneck 模塊中的KNCA 注意力模塊促進(jìn)了通道間的信息流通,增加了特征圖不同通道之間特征的相關(guān)性。最終得到了7組特征圖,尺寸分別為64×64、32×32、16×16、8×8、4×4、2×2、1×1,將這7 組特征圖送入預(yù)測(cè)模塊,進(jìn)行分類(lèi)與回歸,得到預(yù)測(cè)結(jié)果。

2 實(shí)驗(yàn)結(jié)果與分析

本文使用兩類(lèi)不同的數(shù)據(jù)集對(duì)算法的精確性和有效性進(jìn)行驗(yàn)證:第一類(lèi)VOC 數(shù)據(jù)集,包括PASCAL VOC[23]-2007 公共數(shù)據(jù)集和PASCAL VOC-2012 公共數(shù)據(jù)集;第二類(lèi)為自建的航拍小目標(biāo)數(shù)據(jù)集[24]AP(aerial photography)數(shù)據(jù)集。VOC 數(shù)據(jù)集中包含人物、動(dòng)物、交通工具、生活用品等20 類(lèi)常見(jiàn)目標(biāo),其中PASCAL VOC-2007包含9 963張圖片,PASCAL VOC-2012 包含12 031 張圖片。AP 數(shù)據(jù)集中有22 761 張來(lái)自不同傳感器和采集平臺(tái)的航拍樣本,包含了車(chē)輛、船舶、飛機(jī)等13 類(lèi)小尺度目標(biāo)。

訓(xùn)練時(shí)為了防止過(guò)擬合現(xiàn)象的發(fā)生,在訓(xùn)練前先對(duì)輸入圖片采取了數(shù)據(jù)增強(qiáng),包括對(duì)圖片平移旋轉(zhuǎn)、灰度變換、隨機(jī)裁剪和尺度變換等操作,增強(qiáng)模型的魯棒性。圖片的先驗(yàn)框長(zhǎng)寬比為2 和3,7 張?zhí)卣鲌D的先驗(yàn)框數(shù)量分別為4、6、6、6、6、4、4。

本次訓(xùn)練基于Pytorch1.0 框架,計(jì)算機(jī)操作系統(tǒng)為64 位的Ubuntu16.04,內(nèi)存16 GB,處理器為Intel?CoreTMi5-8500@3.00 GHz 六核,顯卡為一塊英偉達(dá)GTX 1080Ti,顯存11 GB。訓(xùn)練參數(shù)方面,batch size設(shè)置為8,maxiteration 設(shè)置為60 000,動(dòng)量為0.9,權(quán)值衰減為0.000 5。初始學(xué)習(xí)率為0.000 35,前500 個(gè)iteration 是熱身階段,學(xué)習(xí)率逐漸增長(zhǎng),該操作有利于模型更快收斂。之后保持0.001 的學(xué)習(xí)率,當(dāng)iteration是36 000 和48 000 時(shí),學(xué)習(xí)率分別乘以0.1。

本文提出的多尺度通道注意力融合小目標(biāo)算法在PASCAL VOC-2007 和PASCAL VOC-2012 訓(xùn)練集上訓(xùn)練60 000 iteration 時(shí),訓(xùn)練時(shí)的損失函數(shù)曲線(xiàn)和測(cè)試集mAP 曲線(xiàn)如圖6 所示。

首先對(duì)算法各模塊進(jìn)行了對(duì)照實(shí)驗(yàn),此時(shí)訓(xùn)練maxiteration 為200 000,其中包括KNCA 注意力模塊的使用與否;fusion module特征融合模塊的使用與否;Focal Loss 焦點(diǎn)損失函數(shù)的使用與否;fusion method 3 張?zhí)卣鲌D進(jìn)行融合時(shí)的方法選擇,有Concat 和Element-wise[25]sum(元素級(jí)求和)兩種特征圖融合方式;scale reduction 尺度縮減方法選擇,對(duì)比第一種僅使用Conv3×3 進(jìn)行尺度縮減,第二種先使用Conv1×1進(jìn)行降維再使用Conv3×3 進(jìn)行尺度縮減和升維,第三種就是本文提出的Bottleneck 模塊;KNCA 模塊中鄰域K的大小選擇,本文測(cè)試了K=3,5,7 時(shí)的mAP精確度。算法各模塊在VOC 數(shù)據(jù)集上的檢測(cè)結(jié)果如表1 所示。

Fig.6 Loss function convergence curve and mAP curve of algorithm in this paper圖6 本文算法的損失函數(shù)收斂曲線(xiàn)和mAP 曲線(xiàn)

Table 1 Detection results of each module of algorithm on VOC data set表1 算法各模塊在VOC 數(shù)據(jù)集上的檢測(cè)結(jié)果

對(duì)比表1 中的第1 行和第2 行數(shù)據(jù)可以看出,在使用Focal Loss 后確實(shí)帶來(lái)了mAP 精確度的提升,提升了0.24 個(gè)百分點(diǎn),原因在于Focal Loss 解決了訓(xùn)練時(shí)的正負(fù)樣本不平衡問(wèn)題。對(duì)比表中的第1、3、4 行結(jié)果,可以發(fā)現(xiàn)尺度縮減方式對(duì)模型的影響較小,在0.1 個(gè)百分點(diǎn)左右。采取單獨(dú)一個(gè)Conv3×3 或者是Conv1×1 和Conv3×3 組合的方式都沒(méi)能改善模型的性能,同時(shí)兩者效果差不多。本文提出的Bottleneck模塊取得了較好的效果,因?yàn)樵撃K首先進(jìn)行了降維,降低了計(jì)算量,最后進(jìn)行升維,保證了原特征圖的特征信息不會(huì)丟失。第1 行和第5 行對(duì)比了特征融合模塊中3 組特征塊進(jìn)行信息融合的方式,第5 行所采取的Element-wise sum 特征融合方法是將3 組特征圖對(duì)應(yīng)元素分別進(jìn)行加和的方式,這種方式會(huì)得到新的特征,這個(gè)新的特征可以反映原始特征的一些特性,但是原始特征的一些信息會(huì)在這個(gè)過(guò)程中損失,然而Concat 操作是直接對(duì)原始特征進(jìn)行串聯(lián),讓網(wǎng)絡(luò)去學(xué)習(xí)如何融合特征,不會(huì)造成信息的損失。通過(guò)實(shí)驗(yàn)對(duì)比可以看出,Concat操作的檢測(cè)精確度更高,因此本文選擇了Concat操作來(lái)對(duì)3 組特征塊進(jìn)行融合。由第1、6、7 行可以看出,隨著KNCA 模塊中鄰域K的增大,模型的精度越來(lái)越低,過(guò)多的通道之間的交互確實(shí)是低效且不必要的,這里選取K=3能取得最優(yōu)的效果。第1 行和最后兩行的對(duì)比較好地展示了KNCA 注意力模塊和特征融合模塊對(duì)目標(biāo)檢測(cè)性能的重大影響,檢測(cè)精確度均提高了1~2 個(gè)百分點(diǎn)。KNCA 注意力模塊對(duì)通道間信息的關(guān)注和特征融合模塊對(duì)低層高層特征信息的融合都能很好地改善目標(biāo)檢測(cè)中小目標(biāo)信息缺乏的問(wèn)題。

PASCAL VOC 數(shù)據(jù)集上各算法性能對(duì)比如表2所示。PASCAL VOC-2007 測(cè)試集上測(cè)試得到的mAP 為82.7%,相比SSD 算法有5.5 個(gè)百分點(diǎn)的提升,較DSSD 算法的mAP 提高了4.1 個(gè)百分點(diǎn)。本文算法在檢測(cè)鳥(niǎo)、瓶子等小目標(biāo)時(shí),檢測(cè)效果明顯優(yōu)于其他算法。

由于拍攝位置的原因,航拍數(shù)據(jù)集AP 的側(cè)重點(diǎn)更偏向于小目標(biāo),且其場(chǎng)景更復(fù)雜,目標(biāo)尺度變換較大。表3 顯示了本文在AP 數(shù)據(jù)集上的檢測(cè)表現(xiàn),可以看出,本文所提出的小目標(biāo)檢測(cè)算法性能指標(biāo)明顯高于其他幾種算法,進(jìn)一步展示了本文在小目標(biāo)檢測(cè)方向所做出的改進(jìn)成效顯著,具備了大部分小目標(biāo)檢測(cè)場(chǎng)景的精度要求。在所引用的航拍數(shù)據(jù)集中的mAP 為86.8%。

為了更直觀地分析本文的檢測(cè)結(jié)果,圖7 和圖8分別可視化地展示出了一些PASCAL VOC-2007 測(cè)試集和航拍測(cè)試集上的檢測(cè)結(jié)果。將SSD 目標(biāo)檢測(cè)算法和本文算法檢測(cè)效果進(jìn)行了對(duì)比,可以發(fā)現(xiàn),在圖片中具有多個(gè)小目標(biāo)的情況下,本文算法檢測(cè)出的目標(biāo)數(shù)量和精確度均領(lǐng)先于SSD 檢測(cè)算法,取得了更好的小目標(biāo)檢測(cè)效果。

Table 2 Performance comparison of algorithms on PASCAL VOC data set表2 PASCAL VOC 數(shù)據(jù)集上各算法性能對(duì)比

Table 3 Performance comparison of algorithms on aerial photography data set表3 AP 航拍數(shù)據(jù)集上各算法性能對(duì)比

Fig.7 Comparison of SSD and proposed algorithm on PASCAL VOC data set圖7 SSD 和本文算法在PASCAL VOC 數(shù)據(jù)集上對(duì)比結(jié)果

Fig.8 Comparison of SSD and proposed algorithm on aerial photography data set圖8 SSD 和本文算法在航拍數(shù)據(jù)集上對(duì)比結(jié)果

3 結(jié)束語(yǔ)

本文針對(duì)目標(biāo)檢測(cè)中的小目標(biāo)信息缺失、檢測(cè)精度低的問(wèn)題提出了K鄰域通道注意力模塊(KNCA)。通過(guò)對(duì)特征圖特征通道權(quán)重的重新分配有效地增強(qiáng)了小目標(biāo)的特征信息。同時(shí)提出了基于Bottleneck 模塊的特征融合網(wǎng)絡(luò),該網(wǎng)絡(luò)先對(duì)淺層和深層特征進(jìn)行融合,再結(jié)合降維和尺度縮減的方式獲得多尺度特征圖,降低了模型的復(fù)雜度和計(jì)算量。并且,檢測(cè)模型將ResNet 和Focal Loss 結(jié)合在一起,豐富了網(wǎng)絡(luò)的特征信息且避免了訓(xùn)練時(shí)難易樣本不平衡的問(wèn)題。通過(guò)在PASCAL VOC 數(shù)據(jù)集和AP 航拍數(shù)據(jù)集上的訓(xùn)練測(cè)試,本文算法在保證檢測(cè)速度的情況下檢測(cè)精度取得了大幅提高。

猜你喜歡
尺度卷積樣本
基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
用樣本估計(jì)總體復(fù)習(xí)點(diǎn)撥
財(cái)產(chǎn)的五大尺度和五重應(yīng)對(duì)
從濾波器理解卷積
電子制作(2019年11期)2019-07-04 00:34:38
推動(dòng)醫(yī)改的“直銷(xiāo)樣本”
基于傅里葉域卷積表示的目標(biāo)跟蹤算法
隨機(jī)微分方程的樣本Lyapunov二次型估計(jì)
宇宙的尺度
太空探索(2016年5期)2016-07-12 15:17:55
村企共贏的樣本
9
蚌埠市| 榆林市| 紫云| 博客| 奉化市| 宝兴县| 大同市| 中山市| 乌审旗| 岳西县| 新津县| 望谟县| 沙坪坝区| 潞西市| 乌兰县| 罗甸县| 韶关市| 建宁县| 石家庄市| 中西区| 长寿区| 敦化市| 永和县| 汉源县| 无锡市| 康乐县| 漳浦县| 水富县| 枣强县| 乳山市| 曲靖市| 阿拉尔市| 泰和县| 富蕴县| 鄂托克前旗| 怀柔区| 常熟市| 泗阳县| 土默特右旗| 平定县| 马龙县|