国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于上下文增強(qiáng)和特征提純的小目標(biāo)檢測(cè)網(wǎng)絡(luò)

2023-03-02 10:10:28肖進(jìn)勝樂秋平楊力衡
關(guān)鍵詞:尺度卷積特征

肖進(jìn)勝 趙 陶 周 劍 樂秋平 楊力衡

1(武漢大學(xué)電子信息學(xué)院 武漢 430072)

2(測(cè)繪遙感信息工程國家重點(diǎn)實(shí)驗(yàn)室(武漢大學(xué))武漢 430079)

小目標(biāo)檢測(cè)作為目標(biāo)檢測(cè)中的難點(diǎn)技術(shù),被廣泛應(yīng)用于自動(dòng)駕駛、醫(yī)學(xué)領(lǐng)域、無人機(jī)導(dǎo)航、衛(wèi)星定位和工業(yè)檢測(cè)等視覺任務(wù)中.近些年基于深度學(xué)習(xí)的目標(biāo)檢測(cè)算法發(fā)展迅猛.以YOLO(You Only Look Once)[1]和SSD(Single Shot MultiBox Detector)[2]為代表的一階段算法直接預(yù)測(cè)出目標(biāo)的位置和類別,具有較快的速度.而二階段算法[3-4]在生成候選框的基礎(chǔ)上再回歸出目標(biāo)區(qū)域,具有更高的精度.但是這些算法在檢測(cè)只含有較少像素的小目標(biāo)(小于32×32 像素)時(shí)表現(xiàn)較差,檢測(cè)率甚至不到較大目標(biāo)的一半.因此,小目標(biāo)檢測(cè)仍然具有很大的改進(jìn)空間.

小目標(biāo)檢測(cè)效果差主要是由于網(wǎng)絡(luò)本身的局限性以及訓(xùn)練數(shù)據(jù)不平衡所導(dǎo)致[5].為了獲得較強(qiáng)的語義信息和較大的感受野,檢測(cè)網(wǎng)絡(luò)不斷堆疊下采樣層,使得小目標(biāo)信息在前向傳播的過程中逐漸丟失[6],限制了小目標(biāo)的檢測(cè)性能.特征金字塔網(wǎng)絡(luò)(feature pyramid network,FPN)[7]將低層特征圖和高層特征橫向融合,可以在一定程度上緩解信息丟失的問題[1-2].然而FPN 直接融合不同層級(jí)的特征會(huì)造成語義沖突,限制多尺度特征的表達(dá),使小目標(biāo)容易淹沒于沖突信息中.同時(shí),目前主流的公開數(shù)據(jù)集中,小目標(biāo)的數(shù)量遠(yuǎn)遠(yuǎn)小于較大目標(biāo),使得小目標(biāo)對(duì)損失的貢獻(xiàn)小,網(wǎng)絡(luò)收斂的方向不斷向較大目標(biāo)傾斜.

針對(duì)小目標(biāo)檢測(cè)效果差的問題,本文提出一種上下文增強(qiáng)和特征提純相結(jié)合的復(fù)合FPN 結(jié)構(gòu),該結(jié)構(gòu)主要包括上下文增強(qiáng)模塊(context augmentation module,CAM)和特征 提純模 塊(feature refinement module,FRM).同時(shí),提出一種復(fù)制—縮小—粘貼(copy-reduce-paste)的數(shù)據(jù)增強(qiáng)方法,具體有3 點(diǎn):

1)CAM 融合多尺度空洞卷積特征以獲取豐富的上下文信息,補(bǔ)充檢測(cè)所需信息;

2)FRM 引入通道和空間自適應(yīng)融合的特征提純機(jī)制以抑制特征中的沖突信息;

3)通過copy-reduce-paste 數(shù)據(jù)增強(qiáng)來提高小目標(biāo)在訓(xùn)練過程中對(duì)損失的貢獻(xiàn)率.

1 相關(guān)工作

1.1 現(xiàn)代目標(biāo)檢測(cè)器

目標(biāo)檢測(cè)是一種基礎(chǔ)的計(jì)算機(jī)視覺任務(wù),經(jīng)過多年的發(fā)展,基于卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)的目標(biāo)檢測(cè)器逐漸成為主流.RCNN[3]首先生成候選區(qū)域以匹配不同尺寸的目標(biāo),然后通過CNN 篩選候選區(qū)域.FasterR-CNN[4]將候選區(qū)域生成階段和分類階段結(jié)合在一起,以提高檢測(cè)速度.EFPN[8]提出超分辨率FPN 結(jié)構(gòu)以放大小目標(biāo)的特征[9].一階段網(wǎng)絡(luò)SSD 將錨盒密集的布置在圖像上以回歸出目標(biāo)框,同時(shí)充分利用不同尺度的特征,以檢測(cè)較小目標(biāo).YOLOV3[1]利用特征金字塔的3 層輸出分別檢測(cè)大、中、小目標(biāo),明顯提高小目標(biāo)檢測(cè)性能.RefineDet[10]引入一種新的損失函數(shù)以解決簡(jiǎn)單樣本和復(fù)雜樣本不平衡的問題.同時(shí)也有研究者提出基于anchor-free架構(gòu)的檢測(cè)器[11].盡管目標(biāo)檢測(cè)算法發(fā)展迅速,但是小目標(biāo)檢測(cè)率卻一直較低.本文選用帶有FPN 的YOLOV3 作為基礎(chǔ)網(wǎng)絡(luò),并在此基礎(chǔ)上做出改進(jìn).

1.2 多尺度特征融合

多尺度特征是一種提高小目標(biāo)檢測(cè)率的有效方法.SSD[2]首次嘗試在多尺度特征上預(yù)測(cè)目標(biāo)位置和類別.FPN[7]自上而下地將含有豐富語義信息的高層特征圖和含有豐富幾何信息的低層特征圖橫向融合.PANet[12]在FPN 的基礎(chǔ)上添加了額外的自下而上的連接以更高效地傳遞淺層信息到高層.NAS-FPN[13]利用神經(jīng)架構(gòu)搜索技術(shù)搜索出了一種新的連接方式.BiFPN[14]改良了PANet 的連接方式,使其更加高效,并在連接處引入了簡(jiǎn)單的注意力機(jī)制.雖然文獻(xiàn)[12?14]中的結(jié)構(gòu)都能提升網(wǎng)絡(luò)多尺度表達(dá)的能力,但是都忽略了不同尺度特征之間沖突信息的存在可能會(huì)阻礙性能的進(jìn)一步提升,本文則充分考慮了沖突信息對(duì)檢測(cè)精度的影響.

1.3 數(shù)據(jù)增強(qiáng)

深度學(xué)習(xí)是基于數(shù)據(jù)的方法,因而對(duì)訓(xùn)練數(shù)據(jù)的預(yù)處理是其關(guān)鍵的一環(huán).常見的數(shù)據(jù)預(yù)處理方法如旋轉(zhuǎn)、變形、隨機(jī)擦除、隨機(jī)遮擋和光照畸變等.Stitcher[15]將4 張訓(xùn)練圖像縮小為原圖的1/4,并且將它們拼接為1 張圖像來實(shí)現(xiàn)小目標(biāo)的數(shù)據(jù)增強(qiáng),同時(shí)將損失值作為反饋信號(hào)以指導(dǎo)數(shù)據(jù)增強(qiáng)的進(jìn)行.YOLOV4[16]將4 張訓(xùn)練圖像縮小為不同大小并且拼接為1 張來實(shí)現(xiàn)小目標(biāo)的數(shù)據(jù)增強(qiáng).文獻(xiàn)[15?16]中的方式對(duì)于目標(biāo)尺寸普遍很大的圖像來說,會(huì)將大目標(biāo)圖像縮小為中等目標(biāo)大小,最終提高中等目標(biāo)圖像的檢測(cè)率.Kisantal 等人[5]采用將圖像的小目標(biāo)區(qū)域復(fù)制然后粘貼回原圖的方式實(shí)現(xiàn)小目標(biāo)數(shù)據(jù)增強(qiáng).但這種方式只能增加小目標(biāo)個(gè)數(shù)而不能增加含有小目標(biāo)的圖像個(gè)數(shù),也會(huì)造成一定的不平衡.本文提出的數(shù)據(jù)增強(qiáng)算法則基于較大目標(biāo)廣泛分布于訓(xùn)練的各個(gè)批次的事實(shí),保證訓(xùn)練平衡進(jìn)行.本文算法結(jié)構(gòu)圖如圖1 所示:

Fig.1 Overall network structure of FPN圖1 FPN 總體網(wǎng)絡(luò)結(jié)構(gòu)

2 本文算法

圖1 中{C2,C3,C4,C5}分別表示圖像經(jīng)過{4,8,16,32}倍下采樣后的特征圖,{C3,C4,C5}經(jīng)過1 層卷積后分別生成{F1,F(xiàn)2,F(xiàn)3},其中C2由于含有大量噪聲而未被使用.{L1,L2,L3}分別是{F1,F(xiàn)2,F(xiàn)3}經(jīng)過FPN后的結(jié)果,{P1,P2,P3}為{L1,L2,L3}經(jīng)過FRM 的輸出.

CAM 啟發(fā)于人類識(shí)別物體的模式.如,我們很難分辨很高天空中的小鳥,但是考慮天空作為其背景,我們就很容易分辨出,因?yàn)閺奈覀儗W(xué)習(xí)到的知識(shí)中可知,在天空背景下的微小目標(biāo)很有可能是小鳥,而這種背景信息,即是目標(biāo)的上下文信息.因此如果目標(biāo)檢測(cè)網(wǎng)絡(luò)也在圖像中學(xué)習(xí)到這樣的“知識(shí)”將會(huì)有助于檢測(cè)小目標(biāo).

由于FPN 不同層的特征密度不同,因而含有大量的語義差異,在實(shí)現(xiàn)信息共享的同時(shí)也引入了很多沖突信息.因此,本文提出了FRM 用于過濾沖突信息,減少語義差異.FRM 通過將不同層間的特征自適應(yīng)融合,以達(dá)到抑制層間沖突信息的目的.

針對(duì)小目標(biāo)對(duì)損失貢獻(xiàn)低的問題,提出了一種copy-reduce-paste 數(shù)據(jù)增強(qiáng)方法,以提高小目標(biāo)對(duì)損失的貢獻(xiàn).

2.1 上下文增強(qiáng)和特征提純的特征金字塔網(wǎng)絡(luò)

2.1.1 上下文增強(qiáng)模塊(CAM)

目標(biāo)檢測(cè)需要定位信息也需要語義信息,處于FPN 最低層的L3含有較多的定位信息而缺少語義信息.FPN 自上而下的信息共享結(jié)構(gòu)在通道數(shù)減少之后才進(jìn)行融合,使得L3未能獲取充分的語義信息.為此我們利用不同空洞卷積率的空洞卷積來獲取上下文信息,并將其注入到FPN 中,以補(bǔ)充上下文信息.

圖2(a)是CAM 的結(jié)構(gòu)圖.對(duì)于大小為[bs,C,H,W]的輸入分別進(jìn)行空洞卷積率為1,3,5 的空洞卷積[17].bs,C,H,W分別為特征圖的批次大小、通道數(shù)、高和寬.由于該模塊輸入的尺寸較小,為了獲取更多的細(xì)節(jié)特征,不宜使用大卷積,因此選用3×3 的卷積.同時(shí)為了避免引入較多的參數(shù)量,選取卷積核的個(gè)數(shù)為C/4,即首先壓縮通道數(shù)為輸入的1/4,然后再通過1×1 的卷積擴(kuò)張通道數(shù)為C,得到3 種大小相同而感受野不同的輸出,最后融合得到的特征.特征融合可采用的方式如圖2(b)~(d)所示.圖2(b),(c)分別為拼接融合和加權(quán)融合,即分別在通道和空間維度上直接拼接和相加.圖2(d)是自適應(yīng)融合方式,即通過卷積、拼接和歸一化等操作將輸入特征圖壓縮為通道為3 的空間權(quán)重,3 個(gè)通道分別與3 個(gè)輸入一一對(duì)應(yīng),計(jì)算輸入特征和空間權(quán)重的加權(quán)和可以將上下文信息聚合到輸出中.

本文通過消融實(shí)驗(yàn)驗(yàn)證各個(gè)融合方式的有效性,實(shí)驗(yàn)結(jié)果如表1 所示.

由表1 可知,對(duì)于小目標(biāo)來說,拼接融合所取得的增益最大,APs和ARs分別提高了1.8%和1.9%.自適應(yīng)融合對(duì)中目標(biāo)的提升最為明顯,APm提升了2.6%.相加融合帶來的提升則基本介于拼接融合和自適應(yīng)融合兩者之間,因此本文選擇拼接融合的方式.

Fig.2 The structure of CAM圖2 CAM 結(jié)構(gòu)圖

Table 1 Ablation Experimental Results of CAM表1 CAM 消融實(shí)驗(yàn)結(jié)果%

本文將部分特征圖可視化以說明CAM 的效果,可視化結(jié)果如圖3 所示.

圖3(b)為CAM 輸入特征圖,從中可以發(fā)現(xiàn)在圖像的目標(biāo)處有微小響應(yīng),呈現(xiàn)為較小的“白點(diǎn)”.圖3(c)為CAM 輸出特征圖,可以明顯看到目標(biāo)處的響應(yīng)明顯增強(qiáng),并且響應(yīng)范圍更大,這是因?yàn)镃AM將目標(biāo)周圍的上下文信息也融入特征中,使得目標(biāo)處的響應(yīng)更強(qiáng).因此將CAM 提取的上下文信息注入網(wǎng)絡(luò)中將有助于小目標(biāo)的檢測(cè).

2.1.2 特征提純模塊(FRM)

FPN 用于融合不同尺度大小的特征,然而不同尺度的特征具有不可忽視的語義差異,將不同尺度的特征直接融合可能引入大量的冗余信息和沖突信息,降低多尺度表達(dá)的能力.為了抑制沖突信息,本文提出FRM,該模塊結(jié)構(gòu)如圖4 所示.

圖4(a)為接在FPN 第2 層后的FRM 結(jié)構(gòu)圖.從圖(4)可看出,X1,X2,X3(FPN 的3 層輸出)為該模塊的輸入,首先將X1,X2,X33 個(gè)輸入縮放到同一大小,分別為R1,R2,R3,然后再利用拼接和卷積操作將所有輸入特征的通道數(shù)壓縮為3,隨后接上并聯(lián)的通道提純模塊和空間提純模塊.

通道提純模塊的具體結(jié)構(gòu)如圖4(b)所示,為了計(jì)算通道注意力,采用平均池化和最大池化相結(jié)合的方式來聚合圖像的全局空間信息.用Xm表示FRM的第m(m∈{1,2,3})層輸入特征圖,其輸出可表示為其中RS表示resize 函數(shù),在式(1)中將X1和X3特征縮放到和X2同一尺度.α,β,γ為通道自適應(yīng)權(quán)重,其尺度為1×1×1.經(jīng)過歸一化的 α,β,γ 代表3 個(gè)輸入的相對(duì)權(quán)重,這3 個(gè)值越大表示具有更大的響應(yīng),將它們與輸入相乘,響應(yīng)大的輸入將被放大,響應(yīng)小的輸入將被抑制,以此將更加有用的信息增強(qiáng)而抑制不重要的噪聲.α,β,γ可表示為

Fig.3 Context information augmentation effect diagrams圖3 上下文信息增強(qiáng)效果圖

Fig.4 The structure of FRM圖4 FRM 結(jié)構(gòu)

其中F為圖4(a)中標(biāo)識(shí)的特征圖,AvgPool和MaxPool分別為平均池化和最大池化操作.

空間提純模塊利用softmax 函數(shù)將特征圖在空間上歸一化,得到特征圖中某點(diǎn)關(guān)于其他所有位置的相對(duì)權(quán)重,然后將其與輸入分別相乘.其輸出可表示為

(x,y)表示特征圖的空間坐標(biāo).μ,ν,ω為空間自適應(yīng)權(quán)重,目標(biāo)區(qū)域的響應(yīng)較大,將會(huì)獲得更大的權(quán)重,反之背景區(qū)域獲得的權(quán)重較小.μ,ν,ω與輸入具有相同的空間大小,因此將它們和輸入直接相乘可以達(dá)到將目標(biāo)特征放大和背景噪聲抑制的目的.μ,ν,ω可由式(4)表示.

softmax 函數(shù)用于歸一化特征參數(shù)以提高模型的泛化能力.那么此模塊的總輸出為

FPN 所有層的特征都在自適應(yīng)權(quán)重的引導(dǎo)下融合,融合的結(jié)果作為整個(gè)網(wǎng)絡(luò)的輸出.

為更加直觀地說明特征提純模塊的作用,圖5 展示了部分可視化的特征圖.由于小目標(biāo)的檢測(cè)由FPN的最低層主導(dǎo),因此我們僅可視化了最低層的特征.圖5 中F3,L3,P3分別對(duì)應(yīng)圖1 中的標(biāo)簽F3,L3,P3.

Fig.5 Visualization results of FRM圖5 FRM 可視化結(jié)果

由圖5 可知,F(xiàn)3特征可大致定位目標(biāo)位置,但是包含較多背景噪聲,具有較大誤檢的可能.L3相比于F3,背景信息明顯減少,這是FPN 融合高層信息的結(jié)果.高層信息更加關(guān)注于物體的抽象信息而不關(guān)注背景信息,因此背景信息會(huì)被中和.但是由于特征的細(xì)膩度不同,引入了沖突信息,使得目標(biāo)的響應(yīng)被削弱.而P3的目標(biāo)特征被強(qiáng)化,并且目標(biāo)和背景之間的邊界更加明顯.由可視化分析可知,本文提出的FRM可減少干擾小目標(biāo)的沖突信息,提高判別性,以此提高小目標(biāo)的檢測(cè)率.

2.2 copy-reduce-paste 數(shù)據(jù)增強(qiáng)

當(dāng)前主流的公開數(shù)據(jù)集中,小目標(biāo)的數(shù)量或包含小目標(biāo)的圖片數(shù)量遠(yuǎn)遠(yuǎn)小于較大目標(biāo)的,如VOC數(shù)據(jù)集,統(tǒng)計(jì)情況如表2 所示.同時(shí),如圖6(a)所示,小目標(biāo)產(chǎn)生的正樣本數(shù)量遠(yuǎn)遠(yuǎn)小于較大目標(biāo)的,因而小目標(biāo)對(duì)損失的貢獻(xiàn)率遠(yuǎn)遠(yuǎn)小于較大目標(biāo)的,使得網(wǎng)絡(luò)收斂的方向不斷向較大目標(biāo)傾斜.

Table 2 Statistical Results of Target Size on VOC Datebase表2 VOC 數(shù)據(jù)集目標(biāo)尺寸統(tǒng)計(jì)結(jié)果%

為了緩解這個(gè)問題,我們?cè)谟?xùn)練過程中復(fù)制、縮小、粘貼圖像中的目標(biāo),以增加小目標(biāo)產(chǎn)生的正樣本數(shù)量以及對(duì)損失的貢獻(xiàn)值,使得訓(xùn)練更為平衡.數(shù)據(jù)增強(qiáng)效果如圖6(b)和圖6(c)所示.

Fig.6 Data augmentation examples圖6 數(shù)據(jù)增強(qiáng)示例

圖6(b),圖6(c)是粘貼1 次的結(jié)果示例,實(shí)線框是原有的目標(biāo),虛線框?yàn)檎迟N的目標(biāo).首先復(fù)制大目標(biāo)圖像塊,然后對(duì)圖像塊進(jìn)行縮小,最后粘貼到原圖的不同位置.我們提出的數(shù)據(jù)增強(qiáng)方法并沒有直接復(fù)制小目標(biāo)圖像區(qū)域粘貼到不同位置,這是考慮到數(shù)據(jù)集中含有小目標(biāo)的圖像數(shù)量較少,如果僅僅復(fù)制粘貼小目標(biāo),在很多批次中小目標(biāo)對(duì)損失的貢獻(xiàn)仍然很低.此外,我們研究了粘貼次數(shù)對(duì)小目標(biāo)檢測(cè)性能的影響,實(shí)驗(yàn)結(jié)果如表3 所示.

從表3 中可知,隨著粘貼次數(shù)的增加,小目標(biāo)的檢測(cè)率逐漸減小,甚至?xí)斐傻陀诨€模型的情況.這可能是由于隨著粘貼次數(shù)的增加,逐漸破壞了原始數(shù)據(jù)的分布,使得在測(cè)試集的表現(xiàn)較差.在粘貼1 次時(shí),APs提高了2.5%,ARs提高了1.9%,同時(shí)中目標(biāo)的檢測(cè)率也略有提升,結(jié)果表明粘貼1 個(gè)目標(biāo)是最佳的設(shè)定.

Table 3 Ablation Experimental Results of Data Augmentation表3 數(shù)據(jù)增強(qiáng)消融實(shí)驗(yàn)結(jié)果%

3 實(shí) 驗(yàn)

3.1 訓(xùn)練設(shè)置

本文實(shí)驗(yàn)在VOC 和TinyPerson 兩種數(shù)據(jù)集[18]上進(jìn)行.VOC 有22 136 張訓(xùn)練圖像和4 952 張測(cè)試圖像,共20 個(gè)類別.TinyPerson 數(shù)據(jù)集包含2 個(gè)類別,798 張訓(xùn)練圖片和816 張測(cè)試圖片,其場(chǎng)景多為遠(yuǎn)距離大背景下的圖像,所標(biāo)注目標(biāo)的平均大小為18 像素,是一個(gè)真正意義上的小目標(biāo)數(shù)據(jù)集.

本文所使用的評(píng)估指標(biāo)為:

精度(precision,P),用來檢測(cè)結(jié)果中相關(guān)類別占總結(jié)果的比重;

召回率(recall,R),用來檢測(cè)結(jié)果中相關(guān)類別占總類別的比重.由P-R曲線可計(jì)算所有大、中、小目標(biāo)平均檢測(cè)精度的均值(mAP):

其中N為測(cè)試集總數(shù),P(n)表示n張圖像的精確度,?r(n)表示從n?1 增加到n時(shí)召回率的變化量,k為類別數(shù).同時(shí),使用下標(biāo)s,m,l 分別表示在小尺度、中尺度和大尺度目標(biāo)上的性能.本文所有的實(shí)驗(yàn)在同樣的軟件和硬件條件下進(jìn)行(pytorch[19]框架,Intel Core i7-5820k CPU@3.30 GHz 處理器,16 GB 內(nèi) 存,GeForce GTX TITAN 顯卡).

圖7 為訓(xùn)練時(shí)的損失變化曲線,我們采用SGD優(yōu)化器訓(xùn)練50 輪次(前2 個(gè)輪次預(yù)熱),批次設(shè)定為8,學(xué)習(xí)率初始值為 0.000 1,訓(xùn)練的損失值平滑下降.部分特征可視化結(jié)果如圖8 所示.

Fig.7 The curve of loss圖7 損失曲線

Fig.8 Visualization results of feature maps in training圖8 訓(xùn)練特征圖可視化效果

如圖8 所示,圖8(b)為淺層特征,網(wǎng)絡(luò)更關(guān)注物體的紋理信息.圖8(c)為深層特征,圖像的信息逐漸抽象,網(wǎng)絡(luò)更關(guān)注物體的高層語義信息.

3.2 實(shí)驗(yàn)結(jié)果

為驗(yàn)證本文算法在小目標(biāo)檢測(cè)上的有效性,本文在TinyPerson 和VOC 數(shù)據(jù)集上分別進(jìn)行了實(shí)驗(yàn).

本文復(fù)現(xiàn)了4 種算法在TinyPerson 數(shù)據(jù)集上的檢測(cè)結(jié)果,由于該數(shù)據(jù)集幾乎全是小目標(biāo),因此只進(jìn)行APs指標(biāo)的對(duì)比,對(duì)比結(jié)果如表4 所示.

由表4 可知,本文算法在該數(shù)據(jù)集上的APs達(dá)到55.1%.相比YOLOV5 和DSFD 算法,本文算法分別有0.8%和3.5%的提升,而相比于AL-MDN 和MaskRCNN 則分別高出21%和12.6%.

Table 4 Detection Results on TinyPerson Dataset表4 TinyPerson 數(shù)據(jù)集上的檢測(cè)結(jié)果%

本文復(fù)現(xiàn)了3 種較為前沿的目標(biāo)檢測(cè)算法在VOC 上的結(jié)果,并且比較這些算法在小目標(biāo)、中目標(biāo)上的AP和AR,實(shí)驗(yàn)結(jié)果如表5 所示:

Table 5 Results of Small Targets Detection on VOC Dataset表5 VOC 數(shù)據(jù)集上的小目標(biāo)檢測(cè)結(jié)果%

由表5 可知,本文算法相比于YOLOV4,APs高3.9%,ARs高11.3%;相比于RefineDet,APs高5.3%,ARs高9.2%;而相比于CenterNet,本文算法的APs和ARs分別具有7.7%和12.0%的優(yōu)勢(shì).不難發(fā)現(xiàn),本文算法在小目標(biāo)的召回率上具有較大優(yōu)勢(shì),說明本文算法具有較強(qiáng)的小目標(biāo)查找能力.

將本文算法和近幾年的一階段算法和二階段算法在VOC 數(shù)據(jù)集上的mAP進(jìn)行對(duì)比,對(duì)比結(jié)果如表6所示.

由表6 可知,與一階段算法相比,本文算法比PFPNet 的mAP高1.3%,具有最好的表現(xiàn).與二階段算法相比,本文算法優(yōu)于大部分的二階段算法,但比IPG-Net 的mAP低1.2%,這主要是由于本文算法的主干網(wǎng)絡(luò)性能較差以及輸入圖像大小較小.如果本文采用多尺度測(cè)試的方法,則在VOC 數(shù)據(jù)集上的檢測(cè)率可達(dá)到85.1%,高于所有的對(duì)比算法.

Table 6 Experimental Results on VOC Dataset (IOU=0.5)表6 VOC 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果(IOU=0.5)

本文算法對(duì)小目標(biāo)的檢測(cè)具有較大優(yōu)勢(shì),不管是總體檢測(cè)效果還是小目標(biāo)的檢測(cè)率、召回率都表現(xiàn)良好,優(yōu)于大多數(shù)檢測(cè)算法.

3.3 消融實(shí)驗(yàn)

本文以消融實(shí)驗(yàn)驗(yàn)證每個(gè)模塊的貢獻(xiàn).通過逐個(gè)添加數(shù)據(jù)增強(qiáng)方法、CAM 和FRM 到基線模型YOLOV3中,得出實(shí)驗(yàn)結(jié)果如表7 所示:

Table 7 Ablation Experimental Results表7 消融實(shí)驗(yàn)結(jié)果

總體來說,本文提出的算法可顯著提高目標(biāo)檢測(cè)率,尤其是小目標(biāo)和中等目標(biāo)的檢測(cè)率,這也符合本文算法的初衷.如表7 所示,APs提升5.4%,APm提升3.6%,而APl提升1.0%.同時(shí)對(duì)于不同尺度目標(biāo)的召回率也有不同程度的提升.具體來說,ARs提升6.9%,ARm提升1.3%,ARl提升1.1%.

copy-reduce-paste 數(shù)據(jù)增強(qiáng)方法將APs和APm分別提高2.5%和2.2%.而APl略有下降.由此可知,該方法可有效提高小目標(biāo)檢測(cè)率.

CAM 分別提高小目標(biāo)的APs和ARs1.8%和0.6%.證實(shí)了補(bǔ)充上下文信息對(duì)于小目標(biāo)檢測(cè)的重要性.

FRM 將APs和APm分別提高2.8%和1.6%,而APl基本持平.由此可見,F(xiàn)RM 可濾除特征的沖突信息,提高較小目標(biāo)特征的判別性.

4 總結(jié)

小目標(biāo)特征模糊,能夠提取的特征少,是目標(biāo)檢測(cè)領(lǐng)域的難點(diǎn).為了解決小目標(biāo)特征消散的問題,本文引入CAM,通過不同空洞卷積率的空洞卷積提取上下文信息,以補(bǔ)充小目標(biāo)的上下文信息.由于小目標(biāo)容易淹沒在沖突信息中,本文提出FRM,該模塊結(jié)合通道和空間自適應(yīng)融合來抑制沖突信息,提高特征的判別性.同時(shí),提出一種copy-reduce-paste 的小目標(biāo)增強(qiáng)方法來提高小目標(biāo)對(duì)損失函數(shù)的貢獻(xiàn),使得訓(xùn)練更加平衡.通過實(shí)驗(yàn)結(jié)果可知,本文提出的小目標(biāo)檢測(cè)網(wǎng)絡(luò)在TinyPerson 和VOC 數(shù)據(jù)集上均表現(xiàn)良好,優(yōu)于大多數(shù)的目標(biāo)檢測(cè)算法.

致謝感謝武漢大學(xué)超級(jí)計(jì)算中心對(duì)本文的數(shù)值計(jì)算提供的支持.

作者貢獻(xiàn)聲明:肖進(jìn)勝和趙陶設(shè)計(jì)網(wǎng)絡(luò)并實(shí)踐;肖進(jìn)勝和周劍負(fù)責(zé)論文撰寫;樂秋平和楊力衡提供數(shù)據(jù)支持和文章的潤(rùn)色

猜你喜歡
尺度卷積特征
基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
財(cái)產(chǎn)的五大尺度和五重應(yīng)對(duì)
如何表達(dá)“特征”
從濾波器理解卷積
電子制作(2019年11期)2019-07-04 00:34:38
不忠誠的四個(gè)特征
基于傅里葉域卷積表示的目標(biāo)跟蹤算法
抓住特征巧觀察
宇宙的尺度
太空探索(2016年5期)2016-07-12 15:17:55
9
一種基于卷積神經(jīng)網(wǎng)絡(luò)的性別識(shí)別方法
元朗区| 湖南省| 台湾省| 彩票| 普定县| 三门峡市| 新昌县| 桃园县| 夏津县| 绥化市| 察隅县| 开化县| 清新县| 中卫市| 深州市| 修水县| 阳春市| 云安县| 宜州市| 白河县| 怀柔区| 阿坝| 萨迦县| 沾益县| 三穗县| 鹿邑县| 青浦区| 冀州市| 蓬溪县| 宿迁市| 丁青县| 张家界市| 临猗县| 天水市| 遂昌县| 晋宁县| 抚顺市| 茶陵县| 荔浦县| 万山特区| 武清区|