楊建秀
(山西大同大學(xué)物理與電子科學(xué)學(xué)院,山西大同 037009)
目標(biāo)檢測的任務(wù)是確定圖像中所有感興趣目標(biāo)的位置和大小,是計算機(jī)視覺領(lǐng)域中的研究熱點(diǎn),廣泛應(yīng)用于智能視頻監(jiān)控、機(jī)器人導(dǎo)航、工業(yè)檢測等諸多領(lǐng)域。但在實(shí)際的應(yīng)用場景中,由于各類物體存在不同的形狀、姿態(tài)、外觀以及遮擋、光照等外界因素的干擾,使得目標(biāo)檢測存在著許多困難,特別是小目標(biāo)的檢測。由于深度學(xué)習(xí)爆發(fā)式的發(fā)展,目標(biāo)檢測算法已由基于手工特征的傳統(tǒng)算法快速向基于深度學(xué)習(xí)的檢測算法轉(zhuǎn)變。
基于深度卷積神經(jīng)網(wǎng)絡(luò)的檢測算法主要有兩種,一種是基于兩階段(two-stage)的目標(biāo)檢測算法,如R-CNN 系列[1-2],首先要依據(jù)輸入圖像產(chǎn)生可能包含目標(biāo)物體的區(qū)域候選框,然后對生成的區(qū)域候選框進(jìn)行精細(xì)的分類和回歸;另一種是基于單階段(one-stage)的目標(biāo)檢測算法,如YOLO[3]和SSD[4]等,該算法直接在卷積神經(jīng)網(wǎng)絡(luò)中提取特征同時完成目標(biāo)物體的分類和位置回歸。針對小目標(biāo)物體檢測的算法,主要是利用網(wǎng)絡(luò)內(nèi)部多尺度特征金字塔的淺層預(yù)測完成對小目標(biāo)的分類回歸;同時為了增強(qiáng)小目標(biāo)的特征表達(dá)能力,一些網(wǎng)絡(luò)結(jié)構(gòu)如FPN[5],RetinaNet[6]和RefineDet,利用自頂向下結(jié)構(gòu)為小目標(biāo)提供上下文信息。鑒于人腦識別小目標(biāo)的策略,可以適當(dāng)增大對小目標(biāo)物體的感受野,就可以很好的識別目標(biāo)。因此,本文提出一種基于有效感受野的小目標(biāo)檢測算法。該算法在單階段目標(biāo)檢測算法SSD的基礎(chǔ)上,利用自頂向下結(jié)構(gòu)進(jìn)行層間特征融合的同時,采用空洞卷積操作為小目標(biāo)提供多樣性的有效感受野來增強(qiáng)特征,使其學(xué)習(xí)到更有效的語義信息來提高小目標(biāo)特征的判別性和魯棒性,為解決小目標(biāo)的識別檢測問題提供一條新思路。
目標(biāo)檢測算法是在基于單階段目標(biāo)檢測SSD[4]基礎(chǔ)上實(shí)現(xiàn)的,整體結(jié)構(gòu)共分為三部分,SSD 原始結(jié)構(gòu)網(wǎng)絡(luò)的特征提取層(Original Feature Layers,OFL),有效感受野模塊(Effective Receptive Field Module,ERFM) 和最后特征增強(qiáng)的預(yù)測層(Enhanced Feature Layers,EFL)。整體的網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計如圖1 所示。本文沿用原始SSD 的基礎(chǔ)網(wǎng)絡(luò)結(jié)構(gòu)VGG-16作為卷積特征提取的主干網(wǎng)絡(luò)。由于較小的目標(biāo)很容易在更深的卷積層中丟失,本文只保留了Conv1_1 到Conv_fc7 的卷積層,移除了Conv_fc7之后較深的卷積特征層,同時可保證利用自頂向下結(jié)構(gòu)進(jìn)行特征融合后可得到全局上下文信息來提供有效的感受野。因為較深的卷積層有更大的感受野,利用自頂向下結(jié)構(gòu)添加上下文信息時會引入大量的背景干擾,不利于小目標(biāo)的精確定位。同時根據(jù)無人機(jī)數(shù)據(jù)集中小目標(biāo)尺寸分布情況,本文選擇Conv3_3,Conv4_3,Conv5_3 和Conv_fc7 四個不同的特征層用于小目標(biāo)物體的檢測,生成四個原始特征提取層。然后根據(jù)本文提出的有效感受野模塊將這些原始特征提取層轉(zhuǎn)換為對應(yīng)的四個增強(qiáng)的特征預(yù)測層P3、P4、P5和P6。最后利用soft-max分類損失函數(shù)和regression 回歸損失函數(shù)實(shí)現(xiàn)多目標(biāo)多類別的精確定位。
圖1 目標(biāo)檢測的整體網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計圖
經(jīng)典的FPN[5]和StairNet 利用自頂向下結(jié)構(gòu)形成多尺度特征金字塔來增大感受野,但每一特征層的感受野都是相同的,限制了目標(biāo)檢測的性能。本文提出的有效感受野模塊ERFM在利用自頂向下結(jié)構(gòu)在網(wǎng)絡(luò)內(nèi)部形成一個多尺度特征金字塔的同時,在具有一樣感受野的特征層中利用空洞卷積提供多樣性的感受野??斩淳矸e[7]可以在不降低分辨率的情況下來增大感受野,同時又可以進(jìn)一步獲取多尺度的上下文信息,而且不需要引入額外參數(shù)。因此,ERFM 不僅可以利用自頂向下結(jié)構(gòu)提供全局的上下文信息增大有效的感受野,也可利用空洞卷積得到多樣性的感受野,使其目標(biāo)學(xué)習(xí)到更為有效的上下文信息和語義信息。因此ERFM為小目標(biāo)提供了增強(qiáng)的特征表示,提高小目標(biāo)的判別能力和魯棒性,其結(jié)構(gòu)圖如圖2所示。
圖2 有效感受野模塊(ERFM)
為確保當(dāng)前特征能夠與深層特征進(jìn)行點(diǎn)對點(diǎn)相乘(element-wise product),本文先對當(dāng)前特征層Fn進(jìn)行1×1 卷積得到Fn',然后深層特征Fn+1也進(jìn)行1×1 卷積,并對其結(jié)果進(jìn)行反卷積操作得到和Fn' 相同大小尺度的特征層F'n+1。將Fn' 和Fn+1'進(jìn)行點(diǎn)對點(diǎn)相乘得到新的特征圖Pn',本文對新的特征圖Pn' 按通道數(shù)分為兩半分別對其進(jìn)行不同次數(shù)的空洞卷積操作,最后將其結(jié)果級聯(lián)在一起得到增強(qiáng)后的預(yù)測特征層Pn。因此,ERFM利用自頂向下結(jié)構(gòu)和空洞卷積操作為小目標(biāo)提供全局和局部上下文信息的同時,又提供多樣性的有效感受野來增強(qiáng)特征,使其學(xué)習(xí)到更為有效的語義信息來提高小目標(biāo)特征的判別性和魯棒性。
為了驗證本文的算法性能,本文實(shí)驗數(shù)據(jù)采用公開可用的無人機(jī)車輛數(shù)據(jù)集[8],其中訓(xùn)練圖像樣本的數(shù)量為23,258,測試樣本為16592 張圖像。人工標(biāo)注圖像中的3類目標(biāo)分別為小汽車、卡車和公交車作為訓(xùn)練數(shù)據(jù)集。實(shí)驗的硬件環(huán)境為NVIDIA GeForce GTX-1080Ti GPU,軟件仿真平臺為Ubuntu16.04 操作系統(tǒng)下的Caffe 深度學(xué)習(xí)框架[9],CUDA版本為8.0,cuDNN 版本為6.0。本文實(shí)驗利用公開分類網(wǎng)絡(luò)VGG ISSVRC[10]的權(quán)重作為網(wǎng)絡(luò)訓(xùn)練的初始值,訓(xùn)練圖像大小為300×300,每批次訓(xùn)練圖像數(shù)量(batch size)為16。訓(xùn)練所用初始學(xué)習(xí)率為0.001,訓(xùn)練次數(shù)共為120 k次,在80 k次和100 k次時學(xué)習(xí)率降為0.0001和0.00001.
移除了SSD中Conv_fc7之后的卷積層,利用自頂向下的結(jié)構(gòu)為小目標(biāo)提供全局上下文信息得到合適有效的感受野,避免較深層引入太大的感受野會帶來較多的背景干擾;同時利用空洞卷積操作為小目標(biāo)提供局部上下文信息從而得到多樣性的有效感受野來增強(qiáng)特征。由圖3可以看出,本文提出的小目標(biāo)檢測算法對不同尺度、形變、遮擋、模糊程度和照明度等情況下能夠保持高的召回率以及具有良好的檢測性能。
針對小目標(biāo)判別性不足的問題,本文借鑒人腦識別小目標(biāo)的策略,適當(dāng)增大小目標(biāo)感受野有利于它的準(zhǔn)確定位,為此提出一種有效增大感受野的小目標(biāo)檢測算法。本文以單階段多尺度特征預(yù)測的神經(jīng)網(wǎng)路結(jié)構(gòu)為基礎(chǔ),利用自頂向下的結(jié)構(gòu)將深層語義特征和淺層細(xì)節(jié)特征進(jìn)行融合,為小目標(biāo)提供全局上下文信息來增大有效的感受野;同時利用空洞卷積在不降低分辨率的情況下增大感受野,可以進(jìn)一步獲取多尺度的局部上下文信息增強(qiáng)小目標(biāo)的特征表示。實(shí)驗結(jié)果表明,本文提出的基于有效感受野的小目標(biāo)檢測算法,可以較好解決處于遮擋、陰影干擾等復(fù)雜環(huán)境下小目標(biāo)定位問題,為中高級計算機(jī)視覺問題提供良好的預(yù)處理手段。