黃繼鵬 史穎歡 高 陽
(計(jì)算機(jī)軟件新技術(shù)國家重點(diǎn)實(shí)驗(yàn)室(南京大學(xué)) 南京 210023)
目標(biāo)檢測是結(jié)合了目標(biāo)定位和識別2個任務(wù)的一項(xiàng)基礎(chǔ)性計(jì)算機(jī)視覺任務(wù),它的目的是在圖像的復(fù)雜背景中找到若干目標(biāo),給出一個精確的目標(biāo)邊框(bounding box),并判斷該邊框中目標(biāo)所屬的類別[1].因?yàn)槟繕?biāo)檢測的效果直接決定了圖像語義理解、目標(biāo)重識別等眾多高層視覺任務(wù)的效果,并且它在智能監(jiān)控系統(tǒng)、醫(yī)學(xué)圖像分析等方面具有很好的應(yīng)用前景,所以對它的研究具有很強(qiáng)的理論和應(yīng)用價值,目標(biāo)檢測也一直是計(jì)算機(jī)視覺領(lǐng)域備受關(guān)注的若干研究方向之一.
小目標(biāo)[2]是指自身真實(shí)的物理尺寸過小或與拍攝設(shè)備距離較遠(yuǎn)導(dǎo)致其在整幅圖像中占比小的一類目標(biāo),通常只含有幾十個或更少的像素.如圖1所示,第1行圖像中邊框標(biāo)記出的挖掘機(jī)為小目標(biāo),第2行圖像是Faster-RCNN[3]的一些檢測結(jié)果,第2行中的各類目標(biāo)為目標(biāo)檢測中經(jīng)常研究的一些目標(biāo).裝配在許多設(shè)備上的攝像頭,比如:無人機(jī)攝像頭、通信基站攝像頭以及其他一些架設(shè)高度較高的監(jiān)控?cái)z像頭等,它們采集的圖像中存在很多小目標(biāo),所以研究小目標(biāo)檢測對于分析和利用這些圖像非常重要,這在安防、交通、救援等方面有重要的應(yīng)用價值.
Fig. 1 Regular object and small object圖1 常規(guī)目標(biāo)與小目標(biāo)
自2012年Krizhevsky等人[4]提出的AlexNet在ImageNet圖像分類任務(wù)的精度上取得顯著提升以來,以卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network, CNN)為代表的各類深度學(xué)習(xí)方法被廣泛應(yīng)用于許多視覺任務(wù)中,這其中也包括目標(biāo)檢測.因?yàn)橄噍^于傳統(tǒng)的基于手工特征的方法,基于深度學(xué)習(xí)的方法通常可以取得更好的效果,所以現(xiàn)在深度學(xué)習(xí)的方法在目標(biāo)檢測這一方向上已經(jīng)成為主流,絕大多數(shù)的研究工作都是圍繞CNN展開的.
然而,即使這些基于深度學(xué)習(xí)的方法在通用的目標(biāo)檢測數(shù)據(jù)集上取得了很好的效果,它們?nèi)匀徊荒芎芎玫亟鉀Q小目標(biāo)檢測這一問題.例如:圖1第1行圖像中的挖掘機(jī)用通用的目標(biāo)檢測方法是檢測不出來的,而用本文的方法則可以檢測出來.
小目標(biāo)檢測問題主要有2個難點(diǎn):
1) 當(dāng)目標(biāo)在圖像中占比非常小的情況下,對應(yīng)區(qū)域的像素所反映出的信息量是非常有限的.在極端情況下,小目標(biāo)檢測任務(wù)甚至可能退化為像素分類任務(wù).這導(dǎo)致一些通用的目標(biāo)檢測算法難以適用于小目標(biāo)檢測,而一些專門為小目標(biāo)檢測設(shè)計(jì)的算法只能針對特定的應(yīng)用背景,缺乏通用性.
2) 標(biāo)記圖像中的小目標(biāo)作為訓(xùn)練數(shù)據(jù)時很容易出現(xiàn)誤差,在目標(biāo)本身已經(jīng)很小的情況下,細(xì)微的誤差容易對檢測結(jié)果造成較大的影響,而且標(biāo)記數(shù)據(jù)的人工成本也很高[5],所以目前為止還沒有一個較大的完整的用于小目標(biāo)檢測研究的數(shù)據(jù)集,這阻礙了學(xué)術(shù)界對于小目標(biāo)檢測的研究.
針對上述的問題,本文提出了一種面向小目標(biāo)的多尺度Faster-RCNN檢測算法.該方法根據(jù)卷積神經(jīng)網(wǎng)絡(luò)的特性,對網(wǎng)絡(luò)結(jié)構(gòu)做出修改,使得網(wǎng)絡(luò)可以同時利用低層和高層的特征進(jìn)行多尺度檢測.同時,本文還用網(wǎng)上搜索引擎爬蟲獲得的高分辨率大目標(biāo)圖像進(jìn)行訓(xùn)練以解決缺少小目標(biāo)訓(xùn)練數(shù)據(jù)的問題.由于高分辨率的大目標(biāo)訓(xùn)練圖像與低分辨率的小目標(biāo)測試圖像的數(shù)據(jù)分布存在很大差異,通過可視化分析問題后,又使用下采樣和上采樣的方法盡可能消除訓(xùn)練圖像與測試圖像的差異.實(shí)驗(yàn)表明,所提出的方法確實(shí)可以較好地解決小目標(biāo)檢測的問題.
具體來說,本文的主要貢獻(xiàn)包括:
1) 針對Faster-RCNN在小目標(biāo)檢測上的不足,提出了通用的網(wǎng)絡(luò)結(jié)構(gòu)修改規(guī)則,同時利用低層和高層的特征進(jìn)行多尺度檢測,提高了小目標(biāo)檢測的精度;
2) 通過對目標(biāo)高分辨率圖像進(jìn)行下采樣和上采樣的方法,使網(wǎng)上獲取的數(shù)據(jù)與實(shí)際測試數(shù)據(jù)的分布盡可能接近,解決缺少小目標(biāo)訓(xùn)練數(shù)據(jù)的問題.
在2014年以前,目標(biāo)檢測領(lǐng)域效果最好的方法是Felzenszwalb等人[6-7]提出的可變形部件模型(deformable part model, DPM),這一方法本質(zhì)上利用的是手工特征.然而隨著深度學(xué)習(xí)的發(fā)展,DPM的檢測效果已經(jīng)遠(yuǎn)遠(yuǎn)比不上深度學(xué)習(xí)的方法了,因此現(xiàn)在目標(biāo)檢測領(lǐng)域的主流是深度學(xué)習(xí),絕大多數(shù)研究工作都是圍繞CNN展開的.
區(qū)域卷積神經(jīng)網(wǎng)絡(luò)(regions with convolutional neural network, RCNN)系列[3,8-9]的方法是用深度學(xué)習(xí)的方法進(jìn)行目標(biāo)檢測的代表性工作.Girshick等人[8]提出的RCNN開創(chuàng)性地將候選區(qū)域生成和深度學(xué)習(xí)的分類方法結(jié)合起來.RCNN通過過分割[10]生成一些候選區(qū)域,然后用CNN分別對每一塊候選區(qū)域提取特征,最后送入分類器判斷類別并對邊框進(jìn)行回歸.因?yàn)椴煌蜻x區(qū)域重復(fù)卷積的問題,該方法的速度非常慢.
在借鑒何愷明等人[11]提出的空間金字塔池化網(wǎng)絡(luò)(spatial pyramid pooling network, SPPNet)和Sermanet等人[12]提出的定位思想后,Girshick等人[9]又提出了Fast-RCNN.該方法在RCNN的基礎(chǔ)上引入了目標(biāo)區(qū)域池化(region of interest pooling, ROI pooling),這實(shí)際上是一個單層的金字塔池化層,它使得網(wǎng)絡(luò)可以對不同尺寸的輸入圖像都產(chǎn)生相同大小的特征,保證了輸入圖像的尺寸不變性,同時它通過特征映射的方法直接在整張圖像的特征圖(feature map)上提取候選區(qū)域的特征,避免了重復(fù)卷積,在精度和速度上都優(yōu)于RCNN. Fast-RCNN之后,制約該方法速度的主要原因變成了候選區(qū)域生成所使用的過分割.
隨后,任少卿等人[3]在Fast-RCNN的基礎(chǔ)上又提出了Faster-RCNN.該方法采用錨點(diǎn)(anchor)的方式來生成候選區(qū)域,將候選區(qū)域生成也交由深度網(wǎng)絡(luò)來做,速度和精度進(jìn)一步提升.至此,使用深度學(xué)習(xí)做目標(biāo)檢測被RCNN統(tǒng)一到了一個深度框架中.
繼RCNN之后,Redmon等人[13]又提出了更快的目標(biāo)檢測方法YOLO(you only look once).YOLO不同于RCNN,它將目標(biāo)檢測作為回歸問題處理,直接在劃分的網(wǎng)格上回歸目標(biāo)邊界框和所屬類別.因?yàn)槊馊チ藦?fù)雜費(fèi)時的候選區(qū)域生成,YOLO的速度非???,但對于靠得很近或較小的目標(biāo),其檢測精度不高且泛化能力偏弱.
結(jié)合RCNN的Anchor思想和YOLO的回歸思想,劉偉等人[14]提出了單次多框檢測器(single shot multi-box detector, SSD).SSD有RCNN定位準(zhǔn)確和YOLO速度快的優(yōu)點(diǎn),因?yàn)橐攵喑叨葯z測[15],它對于不同尺寸的目標(biāo)都有較好的檢測效果.檢測速度和精度進(jìn)一步提升.
這3類方法對于一般的目標(biāo)檢測問題有不錯的精度,然而對于小目標(biāo)的檢測精度卻都不理想.事實(shí)上,這些方法檢測不出來的目標(biāo)往往不是一些復(fù)雜的目標(biāo),而是一些較小的目標(biāo),比如PASCAL VOC數(shù)據(jù)集[5]中的瓶子.這說明不是深度網(wǎng)絡(luò)缺乏學(xué)習(xí)和表示能力,而是深度網(wǎng)絡(luò)提取的小目標(biāo)特征所能表示的信息實(shí)在是太少了[16].
除此之外,還有一些研究者專門針對小目標(biāo)的檢測進(jìn)行了研究.Takeki等人[17]提出了一種結(jié)合圖像語義分割的小目標(biāo)檢測方法,該方法將全卷積網(wǎng)絡(luò)(fully convolutional network, FCN)及其變體和CNN結(jié)合起來,以支持向量機(jī)(support vector machine, SVM)整合三者的結(jié)果,但是這個方法只適用于在純凈的天空背景下檢測小鳥這一任務(wù),難以適用于復(fù)雜背景下的多類目標(biāo)檢測任務(wù).Chen等人[18]基于RCNN進(jìn)行改進(jìn),使得RCNN可以生成更小的候選區(qū)域,對RCNN在小目標(biāo)檢測這一任務(wù)上的提升非常大,但算法復(fù)雜度較高.Eggert等人[19]同樣也是基于RCNN進(jìn)行改進(jìn),他們對feature map分辨率與檢測效果的關(guān)系進(jìn)行了研究,在公司商標(biāo)檢測的問題背景下,用改進(jìn)的anchor box生成方法提升了RCNN使用高分辨率feature map進(jìn)行檢測的效果.
由此可見,雖然已經(jīng)有人針對小目標(biāo)檢測做出一些工作,但是這些方法都只能在特定的問題背景下使用,或者對于一般目標(biāo)檢測的效果不如前面3種方法,缺乏一定的通用性.
在一個多層卷積神經(jīng)網(wǎng)絡(luò)中,低層的特征往往能很好地表示圖像的紋理、邊緣等的細(xì)節(jié)信息,而越往高層走,隨著神經(jīng)元感受野的擴(kuò)大,高層的特征往往能很好地表示圖像的語義信息,但是相應(yīng)的就會忽略一些細(xì)節(jié)信息[20].
當(dāng)一個目標(biāo)非常小時,從僅有的像素中所能反應(yīng)出來的語義信息是非常有限的,而太小的目標(biāo)也完全不需要神經(jīng)元具有很大的感受野,所以我們一般要更多地依靠低層的細(xì)節(jié)信息才能識別出小目標(biāo).為了證明這個結(jié)論,我們利用梯度上升法對圖像特征進(jìn)行重構(gòu)[21],以此可視化地展示深度網(wǎng)絡(luò)不同層提取出的小目標(biāo)特征有何區(qū)別.如圖2所示,圖2(a)中邊框里的挖掘機(jī)為需要檢測的小目標(biāo),我們通過VGG16網(wǎng)絡(luò)提取它的特征,并利用conv1_2和conv5_3層提取出的特征對圖像進(jìn)行重構(gòu);圖2(b)是用VGG16網(wǎng)絡(luò)conv1_2層特征重構(gòu)的結(jié)果,可以清楚看出是一個挖掘機(jī);而圖2(c)是用VGG16網(wǎng)絡(luò)conv5_3層特征重構(gòu)的結(jié)果,只能看清輪廓.所以對于小目標(biāo)檢測的問題,卷積神經(jīng)網(wǎng)絡(luò)的低層特征往往比高層特征要更加有效.
Fig. 2 Reconstructed image圖2 重構(gòu)圖像
Fig. 3 Network structure圖3 網(wǎng)絡(luò)結(jié)構(gòu)
在原始Faster-RCNN的方法中,候選區(qū)域由候選區(qū)域生成網(wǎng)絡(luò)(region proposal network, RPN)生成,候選區(qū)域的特征僅由最后一個卷積層經(jīng)過目標(biāo)區(qū)域池化得到,利用這樣的高層特征對小目標(biāo)進(jìn)行檢測顯然會存在比較大的問題[22].因此我們參考了SSD方法的思想,對Faster-RCNN引入了多尺度檢測,即不單單依靠最后一層的feature map進(jìn)行檢測,而是對網(wǎng)絡(luò)中的多個尺度的feature map都進(jìn)行生成候選區(qū)域的操作.具體流程如圖3所示,輸入圖片經(jīng)過一個卷積神經(jīng)網(wǎng)絡(luò)提取特征,將不同層提取出的多個不同尺度的feature map送入各自的RPN生成候選區(qū)域,不同尺度對應(yīng)的RPN是有區(qū)別的,因?yàn)榈蛯由窠?jīng)元的感受野小,對應(yīng)的anchor box尺寸也要小,所以越低層的特征得到的候選區(qū)域越小,具體anchor設(shè)置將在實(shí)驗(yàn)環(huán)節(jié)詳細(xì)說明.得到生成的候選區(qū)域后,求取feature map映射,再通過ROI pooling將特征變成統(tǒng)一大小,最后送入分類器,這樣就可以充分利用低層特征對小目標(biāo)進(jìn)行檢測.這樣的結(jié)構(gòu)適用于不同的特征網(wǎng)絡(luò),我們在實(shí)驗(yàn)部分分別對利用ZF[23]和VGG16[24]2種特征網(wǎng)絡(luò)的Faster-RCNN方法進(jìn)行改進(jìn).對于ZF網(wǎng)絡(luò),將conv1,conv2,conv5這3層的輸出送入候選區(qū)域生成網(wǎng)絡(luò)和ROI pooling進(jìn)行多尺度檢測;對于VGG16網(wǎng)絡(luò),將conv1_2,conv2_2,conv3_3,conv4_3,conv5_3這5層的輸出送入候選區(qū)域生成網(wǎng)絡(luò)和ROI pooling進(jìn)行多尺度檢測,其他具體參數(shù)設(shè)置會在實(shí)驗(yàn)部分說明.
網(wǎng)絡(luò)結(jié)構(gòu)的改進(jìn)解決了只利用高層網(wǎng)絡(luò)特征難以檢測小目標(biāo)的問題,針對小目標(biāo)難以標(biāo)記、缺乏訓(xùn)練樣本,我們利用了從網(wǎng)絡(luò)上獲取的圖像作為訓(xùn)練數(shù)據(jù),共7 804張.然而通過搜索引擎關(guān)鍵字檢索出來的圖像往往是以目標(biāo)為主體的,相比測試圖像中的小目標(biāo),這些圖像中的目標(biāo)分辨率較大.比如:我們通過“挖掘機(jī)”檢索出來的一般都是以挖掘機(jī)為主體的圖像,挖掘機(jī)這個目標(biāo)在圖像中所占的比例非常大,而測試圖像中目標(biāo)所占比例卻非常小,兩者的像素不一樣多,所反映的信息量也不一樣,因而數(shù)據(jù)的分布可能存在差異.如圖4所示,圖4第1列為部分網(wǎng)上獲取的高分辨率大目標(biāo)訓(xùn)練圖像,圖4第2列為采樣處理后的訓(xùn)練圖像,圖4第3列和第4列為小目標(biāo)檢測的部分測試圖像.
Fig. 4 Training data and test data圖4 訓(xùn)練數(shù)據(jù)與測試數(shù)據(jù)
Fig. 5 The distribution of different object圖5 不同目標(biāo)的分布
為了說明高分辨率(high resolution, HR)目標(biāo)和低分辨率(low resolution, LR)目標(biāo)的分布確實(shí)存在差異,我們利用t-SNE[25]的方法對這2類圖像中的目標(biāo)特征進(jìn)行降維.我們以原始Faster-RCNN結(jié)構(gòu)進(jìn)行驗(yàn)證,特征網(wǎng)絡(luò)為VGG16.用目標(biāo)低分辨率圖像訓(xùn)練網(wǎng)絡(luò),再用目標(biāo)低分辨率圖像和目標(biāo)高分辨率圖像測試.對ROI pooling層后得到的大小相同的特征向量用T-SNE方法降維.可視化結(jié)果如圖5所示,紫色圓點(diǎn)代表低分辨率目標(biāo),藍(lán)色十字代表高分辨率目標(biāo),可見兩者確實(shí)存在很大差異.
針對這樣一個分布差異,我們采用下采樣和上采樣的方式對訓(xùn)練數(shù)據(jù)進(jìn)行預(yù)處理.使用的下采樣方法包括最大池化和平均池化,這使得高分辨率圖像的信息量減少.而使用的上采樣方法包括線性插值、區(qū)域插值和最近鄰插值,這將圖像還原為原始大小,并引入了一些噪聲.從人的視覺上來看,采樣后的訓(xùn)練圖像和測試圖像更類似,我們在實(shí)驗(yàn)部分對這6種采樣方法的組合進(jìn)行了實(shí)驗(yàn),經(jīng)過效果最好的采樣方法處理過后的訓(xùn)練圖像如圖4第2列所示.實(shí)驗(yàn)證明,下采樣和上采樣可以有效提升使用高分辨率目標(biāo)圖像訓(xùn)練出的模型檢測目標(biāo)低分辨率圖像的檢測精度.不同的下采樣和上采樣方式對檢測效果的影響會在實(shí)驗(yàn)部分給出說明.
實(shí)驗(yàn)采用的數(shù)據(jù)集由2部分組成,檢測的小目標(biāo)為挖掘機(jī).一部分來源于基站鐵塔上的監(jiān)控?cái)z像頭所拍攝的圖像,共有14 449張,其中的挖掘機(jī)通常非常小;另一部分來源于通過搜索引擎搜索“挖掘機(jī)”關(guān)鍵字獲取的高分辨率大目標(biāo)圖像,共有7 804張,其中的挖掘機(jī)通常比較大,如圖4所示.
為了比較方法的精度,分別采用了ZF和VGG16這2種網(wǎng)絡(luò)作為特征網(wǎng)絡(luò)進(jìn)行實(shí)驗(yàn).因?yàn)闄z測目標(biāo)是挖掘機(jī),所以anchor box的比例參數(shù)都設(shè)置為0.7,1,1.4.每個尺度的feature map對應(yīng)候選區(qū)域生成網(wǎng)絡(luò)的anchor尺寸不同,對于ZF網(wǎng)絡(luò):conv1層對應(yīng)的尺度參數(shù)為2,4,8;conv2層對應(yīng)的尺度參數(shù)為4,8,16;conv5層對應(yīng)的尺度參數(shù)為8,16,32;對于VGG16網(wǎng)絡(luò):conv1_2層對應(yīng)的尺度參數(shù)為2,4;conv2_2層對應(yīng)的尺度參數(shù)為4,8;conv3_3層對應(yīng)的尺度參數(shù)為4,8;conv4_3層對應(yīng)的尺度參數(shù)為8,16;conv5_3層對應(yīng)的尺度參數(shù)為8,16;其余參數(shù)均與原始Faster-RCNN一致.
為了比較方法的計(jì)算復(fù)雜度,在比較精度的實(shí)驗(yàn)設(shè)置基礎(chǔ)上作如下設(shè)置:對于ZF網(wǎng)絡(luò),分別測試只采用conv1特征、conv2特征、conv5特征和同時采用三者的方法復(fù)雜度;對于VGG網(wǎng)絡(luò),分別測試只采用conv1_2特征、conv2_2特征、conv5_3特征和同時采用三者的方法復(fù)雜度.以平均單張圖像的檢測時間為計(jì)算復(fù)雜度的評估指標(biāo),單位為s.
將目標(biāo)低分辨率數(shù)據(jù)集劃分成2部分,7 225張用于評估模型性能,7 224張用于單獨(dú)或搭配目標(biāo)高分辨率圖像進(jìn)行訓(xùn)練,在不同特征網(wǎng)絡(luò)下所得的檢測結(jié)果如表1所示:
Table 1 The mAP of Detection 表1 檢測精度 %
第1列表示模型使用的網(wǎng)絡(luò)結(jié)構(gòu),帶MS前綴的表示使用多尺度檢測改進(jìn)的模型.之后每一列第1行表示訓(xùn)練數(shù)據(jù),HR表示從網(wǎng)上獲取的目標(biāo)高分辨率圖像,LR表示用于訓(xùn)練的7 224張目標(biāo)低分辨率圖像,其余數(shù)值分別表示在對應(yīng)數(shù)據(jù)下訓(xùn)練出的模型的檢測精度,指標(biāo)為平均精度均值(mean average precision, mAP),在這里實(shí)際上是挖掘機(jī)的AP.
從表1中可以得出2個結(jié)論:
1) 不論采用高分辨率圖像還是低分辨率圖像作為訓(xùn)練數(shù)據(jù),使用多尺度檢測的方法都可以有效提升小目標(biāo)的檢測精度,這說明結(jié)合深度網(wǎng)絡(luò)的低層和高層特征進(jìn)行多尺度檢測的方法確實(shí)可行;
2) 僅使用高分辨率圖像作為訓(xùn)練數(shù)據(jù)的模型檢測效果不佳,僅使用低分辨率圖像作為訓(xùn)練數(shù)據(jù)的模型檢測效果較好,而兩者結(jié)合時性能折中,這說明直接使用網(wǎng)上獲取的目標(biāo)高分辨率圖像訓(xùn)練是不行的,想要用這部分?jǐn)?shù)據(jù)必須解決訓(xùn)練集和測試集之間存在的差異,即高分辨率目標(biāo)和低分辨率目標(biāo)的差異.
將7 225張測試圖像的平均檢測時間作為評估計(jì)算復(fù)雜度的指標(biāo),不同特征網(wǎng)絡(luò)下所得的檢測結(jié)果如表2所示:
Table 2 The Time of Detection 表2 檢測時間 s
第1列表示模型使用的網(wǎng)絡(luò)結(jié)構(gòu),之后每一列第1行表示采用哪一層的特征進(jìn)行檢測,All表示采用全部3個特征.為便于表格說明,VGG的conv1_2,conv2_2,conv5_3分別簡寫為conv1,conv2,conv5.
從表2中可以得出2個結(jié)論:
1) 在只利用一個特征檢測的前提下,利用高層特征的平均檢測時間少,這說明大的低層特征雖然適用于小目標(biāo)檢測,但會帶來額外的計(jì)算開銷;
2) 同時利用多個特征增加的計(jì)算開銷仍然在可以接受的范圍內(nèi),可以勝任實(shí)時性要求不高的任務(wù).
通過對目標(biāo)高分辨率圖像進(jìn)行下采樣和上采樣得到新的訓(xùn)練數(shù)據(jù),用新數(shù)據(jù)訓(xùn)練出的模型檢測精度如表3所示.表3中的字符含義與表1基本一致,訓(xùn)練數(shù)據(jù)HR后的2個后綴分別表示不同下采樣和上采樣的操作組合,第1個后綴M和A分別表示最大池化和平均池化2種下采樣的方式,池化操作的窗口為2×2,滑動步長為2,第2個后綴A,L,N分別表示區(qū)域插值、線性插值和最近鄰插值3種上采樣的方式.
從表3中可以看出:
1) 只需要通過簡單的下采樣就可以大幅提升目標(biāo)高分辨率圖像訓(xùn)練出的模型精度,這說明下采樣的方式可以從一定程度上消除目標(biāo)高分辨率圖像和目標(biāo)低分辨率圖像數(shù)據(jù)差異帶來的影響;
2) 最大池化在這樣一個問題背景下一般比平均池化效果好;
3) 在下采樣的基礎(chǔ)上使用線性插值上采樣的方法可以略微提升模型的精度,目前還不能從理論上解釋原因,但可能是因?yàn)檫@樣增加了噪聲,從一定程度上防止了過擬合;
4) 結(jié)合采樣變換后的目標(biāo)高分辨率圖像和目標(biāo)低分辨率圖像訓(xùn)練出的模型檢測精度較高,不但沒有出現(xiàn)表1精度降低的情況,反而提升了精度,這說明對目標(biāo)高分辨率圖像進(jìn)行采樣變換確實(shí)可以消除目標(biāo)高分辨率圖像和目標(biāo)低分辨率圖像數(shù)據(jù)差異帶來的影響.在小目標(biāo)檢測數(shù)據(jù)難以標(biāo)記、缺少訓(xùn)練數(shù)據(jù)的情況下,可以通過這種方式簡單、快速地增加訓(xùn)練數(shù)據(jù)量,提升檢測精度.部分檢測結(jié)果如圖6所示.
Table3ThemAPofDetectionwithSampledTrainingData
表3訓(xùn)練數(shù)據(jù)采樣后的檢測精度%
NetworkHRLRLR+HR-M-LHR-MHR-M-AHR-M-LHR-M-NHR-AHR-A-AHR-A-LHR-A-NMS-ZF20.456.258.447.347.749.445.843.242.644.036.8MS-VGG1630.558.761.552.351.255.249.643.343.246.237.7
Note: First suffix—M: max pooling; A: average.
Second suffix—L: linear interpolation; N: nearest neighbor interpolation; A: area interpolation
Fig. 6 Partial detection results圖6 部分檢測結(jié)果
同樣,為了說明對目標(biāo)高分辨率圖像進(jìn)行采樣變換可以消除目標(biāo)高分辨率圖像和目標(biāo)低分辨率圖像數(shù)據(jù)差異帶來的影響,我們利用T-SNE[25]方法對采樣操作前后目標(biāo)的特征進(jìn)行降維.
我們以實(shí)驗(yàn)效果最好的MS-VGG16結(jié)構(gòu)進(jìn)行驗(yàn)證.用目標(biāo)低分辨率圖像訓(xùn)練網(wǎng)絡(luò),再用目標(biāo)低分辨率圖像、目標(biāo)高分辨率圖像和采樣操作后的目標(biāo)高分辨率圖像三者來測試.對ROI pooling層后得到的大小相同的特征向量用T-SNE方法降維.
可視化的結(jié)果如圖7所示,紫色圓點(diǎn)代表低分辨率目標(biāo),藍(lán)色十字代表高分辨率目標(biāo),紅色叉代表采樣后的高分辨率目標(biāo),可以看出采樣操作后的特征分布確實(shí)比采樣操作前的特征分布更接近目標(biāo)低分辨率圖像的特征分布.
Fig. 7 The distribution of different objects after sampling圖7 不同目標(biāo)采樣后的分布
目標(biāo)檢測作為計(jì)算機(jī)視覺領(lǐng)域的一個基本任務(wù)一直受到許多科研人員的關(guān)注,目標(biāo)檢測方法的性能也直接關(guān)系到許多高層領(lǐng)域的研究.當(dāng)前通用的目標(biāo)檢測方法在小目標(biāo)檢測上效果不佳,而專門為小目標(biāo)檢測設(shè)計(jì)的方法又不具有通用性,因而本文針對小目標(biāo)檢測問題進(jìn)行研究.首先,我們根據(jù)卷積神經(jīng)網(wǎng)絡(luò)的特性,對Faster-RCNN進(jìn)行改進(jìn),引入了多尺度檢測,改進(jìn)后的方法比原始Faster-RCNN的檢測精度提升了約5%;然后,我們用下采樣和上采樣組合的方式變換網(wǎng)上獲取的高分辨率圖像,使高分辨率目標(biāo)的特征分布更接近低分辨率目標(biāo),從而可以很方便地?cái)U(kuò)充訓(xùn)練數(shù)據(jù)集,解決了小目標(biāo)數(shù)據(jù)難以標(biāo)記的問題.
將來的工作可以從2個方面進(jìn)行:現(xiàn)在的目標(biāo)檢測領(lǐng)域幾乎都是深度學(xué)習(xí)的方法,雖然深度學(xué)習(xí)方法在提取圖像特征方面的表現(xiàn)確實(shí)非常優(yōu)秀,但是對于語義信息相對不是非常明顯的小目標(biāo),我們也可以嘗試研究一些非深度學(xué)習(xí)的方法;其次,當(dāng)目標(biāo)非常小時,目標(biāo)檢測就退化成了像素分類的問題,我們也可以嘗試從像素分類的角度出發(fā),研究分割的一些方法能以什么樣的形式應(yīng)用在小目標(biāo)檢測的問題上.