彭小飛 方志軍
摘 要:非??毡尘靶∧繕?biāo)檢測(cè)是圖像處理最具挑戰(zhàn)的任務(wù)之一。為了解決復(fù)雜條件下的小目標(biāo)檢測(cè)準(zhǔn)確率不足的情況,本文提出首先運(yùn)用超分辨率模型對(duì)拍攝模糊圖像進(jìn)行重建,將重建后的清晰圖像進(jìn)行小目標(biāo)檢測(cè)。另外,對(duì)原始FPN模型進(jìn)行改進(jìn),利用淺層網(wǎng)絡(luò)豐富的位置信息,僅采用三層特征提取網(wǎng)絡(luò),即可完成小目標(biāo)全圖搜索檢測(cè)。實(shí)驗(yàn)表明,本文方法在清晰圖像直接進(jìn)行重建準(zhǔn)確率達(dá)到81.82%,map值為0.895 1,重建后的再進(jìn)行小目標(biāo)檢測(cè)與清晰圖像直接檢測(cè)僅有一個(gè)未檢測(cè)出。
關(guān)鍵詞: 小目標(biāo)檢測(cè);超分辨率重建;淺層; 全圖搜索
文章編號(hào): 2095-2163(2019)03-0171-05 中圖分類號(hào): TP391.4 文獻(xiàn)標(biāo)志碼: A
0 引 言
隨著視頻監(jiān)控的不斷發(fā)展,使得硬件設(shè)備的性能在迅速提升的同時(shí),監(jiān)控涉及的領(lǐng)域也在拓展與增加。近年來,運(yùn)用圖像處理的方法對(duì)一些復(fù)雜的環(huán)境進(jìn)行有目的監(jiān)控已然成為現(xiàn)代社會(huì)保障公眾人身安全的一項(xiàng)有益舉措。例如,機(jī)場(chǎng)開闊區(qū)域?qū)π∧繕?biāo)的檢測(cè)識(shí)別,遠(yuǎn)距離大范圍監(jiān)控等。
機(jī)場(chǎng)以及學(xué)校區(qū)域,安全管理至關(guān)重要。諸如眾所皆知的是,近年來鳥類影響飛機(jī)起飛的事件就時(shí)有發(fā)生。迄今為止,學(xué)界研究中的二維通用目標(biāo)檢測(cè)準(zhǔn)確率以及速率均已達(dá)到商用的要求。2013年,RCNN[1]將卷積神經(jīng)網(wǎng)絡(luò)運(yùn)用到目標(biāo)檢測(cè)上,而后又相繼涌現(xiàn)一系列基于卷積神經(jīng)網(wǎng)絡(luò)的目標(biāo)檢測(cè)框架。例如,基于區(qū)域候選提議的SPP-Net[2]、Fast-Net[3]、Faster-Net[4]等,此類檢測(cè)主要是分為2個(gè)步驟,即:區(qū)域候選目標(biāo)檢測(cè)和細(xì)化打分分類,但在研發(fā)上卻基本無法達(dá)到最基本的實(shí)時(shí)效果。后期主要基于特征提取網(wǎng)絡(luò)的端對(duì)端目標(biāo)檢測(cè)方法,如SSD[5]、YOLOv1[6]、YOLO9000[7]等,此類方法主要就是將檢測(cè)和分類融合起來,優(yōu)點(diǎn)是速度較快,但是對(duì)小目標(biāo)檢測(cè)在效果上卻仍然欠佳。
目前,國內(nèi)外小目標(biāo)檢測(cè)研究主要停留在紅外小目標(biāo)檢測(cè)[8-10]、雷達(dá)空對(duì)地遙感小目標(biāo)檢測(cè)[11-12]等。其研發(fā)原理是利用特殊的熱傳感器來分析景物不同物體溫度,將圖像轉(zhuǎn)換為灰度圖像的灰度值,物體在圖像中的灰度值大小與物體溫度有關(guān)。基于此,紅外小目標(biāo)檢測(cè)即使用于諸如叢林等可見光很弱的惡劣條件下也能獲得較強(qiáng)的辨別能力。但是現(xiàn)在研究指出,這種檢測(cè)方法在通用的視頻監(jiān)控領(lǐng)域中對(duì)通用目標(biāo)識(shí)別能力很差,只能大致分析出物體所在區(qū)域,并不能準(zhǔn)確判斷出屬于哪類物體。
綜上分析后可知,本文在FPN[13]的基礎(chǔ)上提出利用淺層網(wǎng)絡(luò)特征對(duì)復(fù)雜條件下的小目標(biāo)進(jìn)行檢測(cè)。這里的復(fù)雜條件可描述為:場(chǎng)景內(nèi)存在模糊圖像,此時(shí)先要對(duì)模糊圖像進(jìn)行超分辨率重建;背景較復(fù)雜,非海空純背景,有建筑物干擾;基于全圖搜索小目標(biāo),目標(biāo)很小,絕對(duì)像素大約為24*24。
1 算法原理
1.1 超分辨率重建算法
本文采用的超分辨率重建算法是基于SRN[14]模型,其研發(fā)設(shè)計(jì)主要源起自編碼器-解碼器思想。相應(yīng)地,編碼器是通過卷積神經(jīng)網(wǎng)絡(luò)對(duì)模糊圖像特征進(jìn)行提取并映射到一個(gè)矩陣空間,解碼器是編碼器反過程,就是模糊圖像通過尋找映射空間中相似特征塊進(jìn)行重建。但在本次研究中,設(shè)計(jì)時(shí)在超分辨率模型中加入了多尺度訓(xùn)練模型,這樣一來在使用不同尺度圖像訓(xùn)練模型過程中則可以綜合提取不同尺度模糊圖像特征細(xì)節(jié),由此將使最終超分辨率效果能有一定提升。并且,還可以通過在不同尺度訓(xùn)練網(wǎng)絡(luò)的環(huán)節(jié)中做到權(quán)重共享,同時(shí)大大減少訓(xùn)練時(shí)間。另外,本文方法將循環(huán)神經(jīng)網(wǎng)絡(luò)(LSTM)應(yīng)用到超分辨率重建訓(xùn)練過程,這種做法的好處就是在訓(xùn)練過程中即可以利用LSTM的記憶功能,從而不斷優(yōu)化參數(shù),提升訓(xùn)練效率以及超分辨率重建效果。重建模型如圖1所示。
本文模型總共包含3個(gè)尺度,每個(gè)尺度以一張模糊圖像和一張上采樣的去模糊圖像作為輸入,并且用ConvLSTM循環(huán)神經(jīng)網(wǎng)絡(luò)來求得時(shí)間相關(guān)性和空間相關(guān)性。本文方法為了解決直接使用編碼器帶來的層數(shù)少導(dǎo)致感受野小、層數(shù)多導(dǎo)致空間信息不充分的問題,將殘差塊用于編碼器網(wǎng)絡(luò),而且又采用跳躍連接就可以極大限度利用不同層的特征,且有利于梯度傳播和模型加速收斂。
此模型可劃分為3個(gè)部分,即:編碼器模塊、LSTM模塊、解碼器模塊。設(shè)計(jì)上,編碼器由3層卷積塊組成。具體來說,第一層卷積塊包括conv1_1、conv1_2、conv1_3、conv1_4,其中conv1_1輸出feature map大小為32*32,卷積核大小為5*5,采用默認(rèn)卷積步長為1;conv1_2、conv1_3、conv1_4采用的是restnet模塊,輸出feature map大小為32*32,卷積核大小為5*5,采用默認(rèn)卷積步長為1。第二層卷積塊包括conv2_1、conv2_2、conv2_3、conv2_4,其中conv2_1輸出feature map大小為64*64,卷積核大小為5*5,步長為2;conv2_2、conv2_3、conv2_4同理采用的是restnet模塊,輸出feature map大小為64*64,卷積核大小為5*5;第三層卷積塊包括conv3_1、conv3_2、conv3_3、conv3_4,其中conv3_1輸出feature map大小為128*128,卷積核大小為5*5,步長為2;conv3_2、conv3_3、conv3_4同理采用的是restnet模塊,輸出feature map大小為128*128,卷積核大小為5*5。
LSTM模塊采用的是convLSTM,cell尺寸為h/4*w/4,卷積核大小為3*3,feature map大小為128*128。采用convLSTM模塊,不僅具備LSTM能夠得到時(shí)序關(guān)系,還能提取空間特征。
解碼器模塊與編碼器模塊對(duì)稱,由一次卷積塊和兩層反卷積塊組成,主要用于對(duì)編碼模塊數(shù)據(jù)進(jìn)行解析。超分辨率重建設(shè)計(jì)流程如圖2所示。
1.2 小目標(biāo)檢測(cè)算法
本文研究中,采用了改進(jìn)的FPN特征金字塔網(wǎng)絡(luò)對(duì)小目標(biāo)進(jìn)行檢測(cè)。經(jīng)過探索討論后可知,淺層網(wǎng)絡(luò)特征對(duì)于小目標(biāo)檢測(cè)更加有效,而且也將具有更為豐富的位置信息,如果將深層網(wǎng)絡(luò)特征反卷積與淺層特征相融合卻會(huì)對(duì)小目標(biāo)檢測(cè)起到負(fù)面作用。本文方法中,需要輸入整張圖像,這是為了緩解圖像縮放導(dǎo)致的”絕對(duì)尺寸”縮小而隨之出現(xiàn)無法檢測(cè)的問題。在此基礎(chǔ)上,通過實(shí)驗(yàn)驗(yàn)證后得知,對(duì)于本文單小目標(biāo)進(jìn)行檢測(cè),僅利用3層淺層網(wǎng)絡(luò)對(duì)目標(biāo)進(jìn)行特征提取更有效,加入高層網(wǎng)絡(luò)反傳特征進(jìn)行疊加,反而會(huì)影響最終的結(jié)果。究其原因則在于本文小目標(biāo)絕對(duì)像素大小約為24*24,經(jīng)過第一個(gè)Pooling層之后,小目標(biāo)絕對(duì)像素大小約為12*12;經(jīng)過第二個(gè)Pooling 層之后,小目標(biāo)絕對(duì)像素大小約為6*6。研究得到的小目標(biāo)檢測(cè)模型即如圖3所示。
本文模型采用Faster-RCNN基本思想,對(duì)小目標(biāo)進(jìn)行檢測(cè)。輸入圖像為整張圖,如此則可以擴(kuò)大相對(duì)像素大小,如YOLO、SSD輸入首先要將圖像變換到小于原始圖像大小,這樣就會(huì)進(jìn)一步縮小原始目標(biāo)圖像,不利于小目標(biāo)的特征提取。輸入圖像僅僅經(jīng)過3層的CNN網(wǎng)絡(luò)即可對(duì)小目標(biāo)特征進(jìn)行提取,其間采用了ResNet跳躍連接的思想。就設(shè)計(jì)整體而言,第一層包括:卷積層Conv1,卷積核大小為5*5,num_output為64,stride為2,采用BactchNorm層和Scale層對(duì)卷積層輸出進(jìn)行歸一化處理,ReLu激活,pooling層采用Max pooling,核大小為3*3,步長為2。第二層包括:卷積層res2a_branch1,卷積核大小為1*1,num_output為256,采用BactchNorm層和Scale層對(duì)卷積層輸出進(jìn)行歸一化處理,Relu激活;卷積層res2a_branch2a,卷積核大小為1*1,num_output為64,采用BactchNorm層和Scale層對(duì)卷積層輸出進(jìn)行歸一化處理,Relu激活;卷積層res2a_branch2b連接res2a_branch2a的輸出,卷積核大小為3*3,num_output為64,采用BactchNorm層和Scale層對(duì)卷積層輸出進(jìn)行歸一化處理;卷積層res2a_branch2c連接res2a_branch2b的輸出,卷積核大小為1*1,num_output為256,采用BactchNorm層和Scale層對(duì)卷積層輸出進(jìn)行歸一化處理;res2a_branch2c的輸出和res2a_branch1的輸出采用Eltwise連接輸出得到res2a,經(jīng)過ReLu進(jìn)行統(tǒng)一激活;res2a輸出作為res2b輸入,具體參數(shù)設(shè)置如res2b_branch1,res2b_branch2a,res2b_branch2b,res2b_branch2c與res2a各模塊類似;res2c具體參數(shù)與上述類似;同理,res3a、res3b、res3c、res3d參數(shù)設(shè)置與上述類似,不同的是,res3層提取的特征經(jīng)過上采樣與res2進(jìn)行特征融合,構(gòu)成特征金字塔模型,最后利用res2和res3融合的特征對(duì)小目標(biāo)檢測(cè)。
本文采用anchor尺寸設(shè)置為[16,16]和[32,32],分別對(duì)應(yīng)3種ratios[0.5,1,2]。原始相應(yīng)層anchor尺寸設(shè)置為[64,64]和[128,128],為了適應(yīng)本文小目標(biāo)檢測(cè)任務(wù),將對(duì)應(yīng)anchor尺寸縮小,實(shí)驗(yàn)證明,此方法對(duì)于本文應(yīng)用場(chǎng)景小目標(biāo)檢測(cè)具有很好的效果。
2 實(shí)驗(yàn)與分析
2.1 實(shí)驗(yàn)平臺(tái)
實(shí)驗(yàn)基于Ubuntu16.04,64 位操作系統(tǒng),超分辨率模型訓(xùn)練平臺(tái)為 Python2.7 和 Tensorflow,小目標(biāo)檢測(cè)模型訓(xùn)練平臺(tái)為Python2.7和caffe,硬件配置為GTX1080Ti。
2.2 數(shù)據(jù)集制作
本文訓(xùn)練數(shù)據(jù)集為無人機(jī)小目標(biāo),背景為天空、教學(xué)樓以及不確定物體,為了使網(wǎng)絡(luò)有更好的魯棒性,訓(xùn)練數(shù)據(jù)采用隔幀獲取,帶小目標(biāo)的清晰數(shù)據(jù)集為863張。模糊數(shù)據(jù)集采用方框?yàn)V波、均值濾波、高斯濾波三種線性濾波的方式和中值濾波、雙邊濾波兩種非線性濾波的方式進(jìn)行模糊處理,最終可得到21 575張模糊圖像。小目標(biāo)檢測(cè)數(shù)據(jù)集在標(biāo)注上采用了label-image開源標(biāo)注工具,同時(shí)為了達(dá)到深度學(xué)習(xí)大數(shù)據(jù)訓(xùn)練要求,對(duì)標(biāo)注圖像進(jìn)行擴(kuò)充。主要擴(kuò)充方式,包括將圖像順時(shí)針旋轉(zhuǎn)60°、90°、120°、150°、180°、210°、240°、270°、300°、330°,并且將標(biāo)注信息隨著圖像旋轉(zhuǎn),通過這種方法得到擴(kuò)充圖像為8 300張。另外,本文還將隨機(jī)剪裁圖像,此方法參考SSD數(shù)據(jù)擴(kuò)充的方法,所剪裁的區(qū)塊大小為原圖大小的0.9,經(jīng)過10次隨機(jī)剪裁,利用該方法得到的擴(kuò)充數(shù)據(jù)集為8 300張,而且標(biāo)注數(shù)據(jù)也將隨著剪裁一起變化。
2.3 結(jié)果與分析
為了證明本文方法的有效性,將本超分辨率重建算法與經(jīng)典超分辨重建算法SRCNN[15]、FSRCNN[16]、ESPCN[17]進(jìn)行3倍、4倍、5倍放大情況下的研究對(duì)比,主要評(píng)價(jià)標(biāo)準(zhǔn)參考結(jié)構(gòu)相似性(Structual Similarity Index Measurement, SSIM)、峰值信噪比(Peak Signal to Noise Ratio PSNR)兩種指標(biāo)。4種不同對(duì)比實(shí)驗(yàn)結(jié)果詳見表1和表2。
分析可知,模糊圖像對(duì)于小目標(biāo)檢測(cè)任務(wù)影響巨大,故而選取一個(gè)優(yōu)質(zhì)超分辨率重建模型對(duì)于小目標(biāo)檢測(cè)任務(wù)將尤為關(guān)鍵。由表1和表2可知,SRN在同等條件要優(yōu)于其它3種超分辨率算法,更符合此應(yīng)用場(chǎng)景。
本文小目標(biāo)檢測(cè)對(duì)比實(shí)驗(yàn)分為2個(gè)部分,對(duì)此闡釋如下。
(1)將本文模型和經(jīng)典目標(biāo)檢測(cè)框架FPN、YOLOv2及SSD進(jìn)行準(zhǔn)確率和平均精度map值對(duì)比。
(2)經(jīng)過超分辨重建和未經(jīng)過超分辨率再進(jìn)行小目標(biāo)檢測(cè)準(zhǔn)確率對(duì)比。
由表3可以得出,在此場(chǎng)景下,本文算法FPN3具有更高的準(zhǔn)確率,以及平均精度map值優(yōu)于YOLO、SSD、FPN框架。
通過分析可得,F(xiàn)PN原始模型運(yùn)用的特征提取網(wǎng)絡(luò)為RestNet50,本文小目標(biāo)絕對(duì)像素大小為24*24左右,經(jīng)過3層Pooling層操作之后,像素大小減小為3*3,基本無目標(biāo)特征,如果經(jīng)過上采樣和低層特征進(jìn)行融合,反而會(huì)影響最終檢測(cè)結(jié)果;相對(duì)于YOLOv2檢測(cè),SSD準(zhǔn)確率會(huì)高一些,這是因?yàn)镾SD利用了多尺度特征圖的思想對(duì)小目標(biāo)進(jìn)行預(yù)測(cè),而YOLOv2采用全局對(duì)目標(biāo)進(jìn)行預(yù)測(cè)。但是SSD、YOLOv2對(duì)于小目標(biāo)檢測(cè)效果卻仍有待改進(jìn),追根溯源皆是因?yàn)閮烧呔词褂玫蛯痈叻直媛实奈恢眯畔ⅲ皇窃诰W(wǎng)絡(luò)層最后一層做出預(yù)測(cè)。因此參考借鑒如上研究方案后,本文研究則采用3層網(wǎng)絡(luò)對(duì)小目標(biāo)進(jìn)行預(yù)測(cè),極大提高運(yùn)算效率與準(zhǔn)確率。
由表4分析后知道,圖像模糊到一定程度時(shí),基本無法進(jìn)行小目標(biāo)檢測(cè)。經(jīng)過超分辨率重建之后,準(zhǔn)確率方面和清晰圖像小目標(biāo)檢測(cè)準(zhǔn)確率基本相當(dāng)。故可以推論得出如下研究結(jié)論:經(jīng)過對(duì)模糊圖像超分辨率重建后進(jìn)行小目標(biāo)檢測(cè),具有一定研究和應(yīng)用價(jià)值。本文的總體結(jié)果流程如圖4所示。
3 結(jié)束語
本文分析了時(shí)下目標(biāo)檢測(cè)以及小目標(biāo)檢測(cè)方法的不足,并基于此展開了在復(fù)雜條件下的小目標(biāo)檢測(cè)研究。首先運(yùn)用超分辨率重建方法對(duì)模糊圖像進(jìn)行重建,而后再將重建后清晰圖像輸入到小目標(biāo)檢測(cè)模型中進(jìn)行小目標(biāo)檢測(cè)。不同于傳統(tǒng)紅外等灰度圖像小目標(biāo)檢測(cè)的是,本文選擇圖像具有復(fù)雜背景,以及模糊圖像干擾,且目標(biāo)足夠小,達(dá)到絕對(duì)像素大小為24*24。其清晰圖像直接進(jìn)行小目標(biāo)檢測(cè)準(zhǔn)確率達(dá)到81.82%,map值達(dá)到0.895 1,進(jìn)行超分辨率重建后、再進(jìn)行小目標(biāo)檢測(cè)的準(zhǔn)確率最終達(dá)到了72.73%。本文方法設(shè)計(jì)新穎,具有一定研究價(jià)值,但是目前仍處于2個(gè)獨(dú)立階段,后續(xù)還需將2個(gè)步驟予以系統(tǒng)整合。
參考文獻(xiàn)
[1]GIRSHICK R, DONAHUE J, DARRELL T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C]// 2014 IEEE Conference on Computer Vision & Pattern Recognition. Columbus, OH, USA:IEEE, 2014:580-587.
[2] HE Kaiming ZHANG Xiangyu, REN Shaoqing , et al. Spatial pyramid pooling in deep convolutional networks for visual recognition[M]//FLEET D, et al. ECCV 2014, Part III, LNCS 8691.Switzerland:Springer International Publishing,2014:346-361.
[3] GIRSHICK R . Fast R-CNN[J]. arXiv preprint arXiv:1504.08083, 2015.
[4] REN Shaoqing, HE Kaiming, GIRSHICK R, et al. Faster R-CNN: Towards real-time object detection with region proposal networks[C]// IEEE Transactions on Pattern Analysis & Machine Intelligence,2017,39(6):1137-1149.
[5] LIU Wei, ANGUELOV D, ERHAN D , et al. SSD: Single shot multibox detector[J]. arXiv preprint arXiv:1512.02325,2015.
[6] REDMON J , DIVVALA S , GIRSHICK R , et al. You only look once: Unified, real-time object detection[J]. arXiv preprint arXiv:1506.02640, 2015.
[7] REDMON J, FARHADI A. YOLO9000: Better, faster, stronger[C]// 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Honolulu, Hawaii, USA:IEEE,2017:6517-6525.
[8] 朱國強(qiáng), 孟祥勇, 錢惟賢. 基于曲率的近地面紅外小目標(biāo)檢測(cè)算法[J]. 光子學(xué)報(bào), 2018, 47(10):1010001(1-12).
[9] 胡洪濤, 敬忠良, 胡士強(qiáng). 基于輔助粒子濾波的紅外小目標(biāo)檢測(cè)前跟蹤算法[J]. 控制與決策, 2005, 20(11):1208-1211.
[10]王軍, 姜志, 孫慧婷,等. 基于噪聲方差估計(jì)的紅外弱小目標(biāo)檢測(cè)與跟蹤方法[J]. 光電子·激光, 2018,29(3):305-313.
[11]于曉涵, 陳小龍, 陳寶欣,等. 快速高分辨稀疏FRFT雷達(dá)機(jī)動(dòng)目標(biāo)檢測(cè)方法[J]. 光電工程, 2018,45(6):170702(1-7).
[12]李東, 趙婷, 宋偉, 等. 一種低信噪比下穩(wěn)健的ISAR平動(dòng)補(bǔ)償方法[J]. 電子學(xué)報(bào), 2018, 46(9):2049-2056.
[13]LIN T Y,DOLLAR P,GIRSHICK R , et al. Feature pyramid networks for object detection[C]// 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Honolulu, Hawaii, USA:IEEE Computer Society, 2017:936-944.
[14]TAO Xin,GAO Hongyun,WANG Yi , et al. Scale-recurrent network for deep image deblurring[J]. arXiv preprint arXiv:1802.01770, 2018.
[15]DONG Chao, LOY C C,HE Kaiming , et al. Learning a deep convolutional network for image super-resolution[M]//FLEET D, et al. ECCV 2014, Part IV, LNCS 8692.Switzerland:Springer International Publishing,2014: 184-199.
[16]DONG Chao, LOY C C , TANG Xiaoou . Accelerating the super-resolution convolutional neural network[J]. arXiv preprint arXiv:1608.00369, 2016.
[17]SHI Wenzhi, CABALLERO J, HUSZR F, et al. Real-time single image and video super-resolution using an efficient sub-pixel convolutional neural network[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).Las Vegas, NV, USA:IEEE, 2016:1874-1883.