面向小目標(biāo)的多尺度Faster-RCNN檢測算法

2019-02-20 08:33黃繼鵬史穎歡

計(jì)算機(jī)研究與發(fā)展 2019年2期

黃繼鵬史穎歡高陽

(計(jì)算機(jī)軟件新技術(shù)國家重點(diǎn)實(shí)驗(yàn)室(南京大學(xué)) 南京 210023)

目標(biāo)檢測是結(jié)合了目標(biāo)定位和識別2個任務(wù)的一項(xiàng)基礎(chǔ)性計(jì)算機(jī)視覺任務(wù)，它的目的是在圖像的復(fù)雜背景中找到若干目標(biāo)，給出一個精確的目標(biāo)邊框(bounding box)，并判斷該邊框中目標(biāo)所屬的類別[1].因?yàn)槟繕?biāo)檢測的效果直接決定了圖像語義理解、目標(biāo)重識別等眾多高層視覺任務(wù)的效果，并且它在智能監(jiān)控系統(tǒng)、醫(yī)學(xué)圖像分析等方面具有很好的應(yīng)用前景，所以對它的研究具有很強(qiáng)的理論和應(yīng)用價值，目標(biāo)檢測也一直是計(jì)算機(jī)視覺領(lǐng)域備受關(guān)注的若干研究方向之一.

小目標(biāo)[2]是指自身真實(shí)的物理尺寸過小或與拍攝設(shè)備距離較遠(yuǎn)導(dǎo)致其在整幅圖像中占比小的一類目標(biāo)，通常只含有幾十個或更少的像素.如圖1所示，第1行圖像中邊框標(biāo)記出的挖掘機(jī)為小目標(biāo)，第2行圖像是Faster-RCNN[3]的一些檢測結(jié)果，第2行中的各類目標(biāo)為目標(biāo)檢測中經(jīng)常研究的一些目標(biāo).裝配在許多設(shè)備上的攝像頭，比如：無人機(jī)攝像頭、通信基站攝像頭以及其他一些架設(shè)高度較高的監(jiān)控?cái)z像頭等，它們采集的圖像中存在很多小目標(biāo)，所以研究小目標(biāo)檢測對于分析和利用這些圖像非常重要，這在安防、交通、救援等方面有重要的應(yīng)用價值.

Fig. 1 Regular object and small object圖1 常規(guī)目標(biāo)與小目標(biāo)

自2012年Krizhevsky等人[4]提出的AlexNet在ImageNet圖像分類任務(wù)的精度上取得顯著提升以來，以卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network， CNN)為代表的各類深度學(xué)習(xí)方法被廣泛應(yīng)用于許多視覺任務(wù)中，這其中也包括目標(biāo)檢測.因?yàn)橄噍^于傳統(tǒng)的基于手工特征的方法，基于深度學(xué)習(xí)的方法通常可以取得更好的效果，所以現(xiàn)在深度學(xué)習(xí)的方法在目標(biāo)檢測這一方向上已經(jīng)成為主流，絕大多數(shù)的研究工作都是圍繞CNN展開的.

然而，即使這些基于深度學(xué)習(xí)的方法在通用的目標(biāo)檢測數(shù)據(jù)集上取得了很好的效果，它們?nèi)匀徊荒芎芎玫亟鉀Q小目標(biāo)檢測這一問題.例如：圖1第1行圖像中的挖掘機(jī)用通用的目標(biāo)檢測方法是檢測不出來的，而用本文的方法則可以檢測出來.

小目標(biāo)檢測問題主要有2個難點(diǎn)：

1) 當(dāng)目標(biāo)在圖像中占比非常小的情況下，對應(yīng)區(qū)域的像素所反映出的信息量是非常有限的.在極端情況下，小目標(biāo)檢測任務(wù)甚至可能退化為像素分類任務(wù).這導(dǎo)致一些通用的目標(biāo)檢測算法難以適用于小目標(biāo)檢測，而一些專門為小目標(biāo)檢測設(shè)計(jì)的算法只能針對特定的應(yīng)用背景，缺乏通用性.

2) 標(biāo)記圖像中的小目標(biāo)作為訓(xùn)練數(shù)據(jù)時很容易出現(xiàn)誤差，在目標(biāo)本身已經(jīng)很小的情況下，細(xì)微的誤差容易對檢測結(jié)果造成較大的影響，而且標(biāo)記數(shù)據(jù)的人工成本也很高[5]，所以目前為止還沒有一個較大的完整的用于小目標(biāo)檢測研究的數(shù)據(jù)集，這阻礙了學(xué)術(shù)界對于小目標(biāo)檢測的研究.

針對上述的問題，本文提出了一種面向小目標(biāo)的多尺度Faster-RCNN檢測算法.該方法根據(jù)卷積神經(jīng)網(wǎng)絡(luò)的特性，對網(wǎng)絡(luò)結(jié)構(gòu)做出修改，使得網(wǎng)絡(luò)可以同時利用低層和高層的特征進(jìn)行多尺度檢測.同時，本文還用網(wǎng)上搜索引擎爬蟲獲得的高分辨率大目標(biāo)圖像進(jìn)行訓(xùn)練以解決缺少小目標(biāo)訓(xùn)練數(shù)據(jù)的問題.由于高分辨率的大目標(biāo)訓(xùn)練圖像與低分辨率的小目標(biāo)測試圖像的數(shù)據(jù)分布存在很大差異，通過可視化分析問題后，又使用下采樣和上采樣的方法盡可能消除訓(xùn)練圖像與測試圖像的差異.實(shí)驗(yàn)表明，所提出的方法確實(shí)可以較好地解決小目標(biāo)檢測的問題.

具體來說，本文的主要貢獻(xiàn)包括：

1) 針對Faster-RCNN在小目標(biāo)檢測上的不足，提出了通用的網(wǎng)絡(luò)結(jié)構(gòu)修改規(guī)則，同時利用低層和高層的特征進(jìn)行多尺度檢測，提高了小目標(biāo)檢測的精度；

2) 通過對目標(biāo)高分辨率圖像進(jìn)行下采樣和上采樣的方法，使網(wǎng)上獲取的數(shù)據(jù)與實(shí)際測試數(shù)據(jù)的分布盡可能接近，解決缺少小目標(biāo)訓(xùn)練數(shù)據(jù)的問題.

1 相關(guān)工作

在2014年以前，目標(biāo)檢測領(lǐng)域效果最好的方法是Felzenszwalb等人[6-7]提出的可變形部件模型(deformable part model， DPM)，這一方法本質(zhì)上利用的是手工特征.然而隨著深度學(xué)習(xí)的發(fā)展，DPM的檢測效果已經(jīng)遠(yuǎn)遠(yuǎn)比不上深度學(xué)習(xí)的方法了，因此現(xiàn)在目標(biāo)檢測領(lǐng)域的主流是深度學(xué)習(xí)，絕大多數(shù)研究工作都是圍繞CNN展開的.

區(qū)域卷積神經(jīng)網(wǎng)絡(luò)(regions with convolutional neural network， RCNN)系列[3,8-9]的方法是用深度學(xué)習(xí)的方法進(jìn)行目標(biāo)檢測的代表性工作.Girshick等人[8]提出的RCNN開創(chuàng)性地將候選區(qū)域生成和深度學(xué)習(xí)的分類方法結(jié)合起來.RCNN通過過分割[10]生成一些候選區(qū)域，然后用CNN分別對每一塊候選區(qū)域提取特征，最后送入分類器判斷類別并對邊框進(jìn)行回歸.因?yàn)椴煌蜻x區(qū)域重復(fù)卷積的問題，該方法的速度非常慢.

在借鑒何愷明等人[11]提出的空間金字塔池化網(wǎng)絡(luò)(spatial pyramid pooling network， SPPNet)和Sermanet等人[12]提出的定位思想后，Girshick等人[9]又提出了Fast-RCNN.該方法在RCNN的基礎(chǔ)上引入了目標(biāo)區(qū)域池化(region of interest pooling， ROI pooling)，這實(shí)際上是一個單層的金字塔池化層，它使得網(wǎng)絡(luò)可以對不同尺寸的輸入圖像都產(chǎn)生相同大小的特征，保證了輸入圖像的尺寸不變性，同時它通過特征映射的方法直接在整張圖像的特征圖(feature map)上提取候選區(qū)域的特征，避免了重復(fù)卷積，在精度和速度上都優(yōu)于RCNN. Fast-RCNN之后，制約該方法速度的主要原因變成了候選區(qū)域生成所使用的過分割.

隨后，任少卿等人[3]在Fast-RCNN的基礎(chǔ)上又提出了Faster-RCNN.該方法采用錨點(diǎn)(anchor)的方式來生成候選區(qū)域，將候選區(qū)域生成也交由深度網(wǎng)絡(luò)來做，速度和精度進(jìn)一步提升.至此，使用深度學(xué)習(xí)做目標(biāo)檢測被RCNN統(tǒng)一到了一個深度框架中.

繼RCNN之后，Redmon等人[13]又提出了更快的目標(biāo)檢測方法YOLO(you only look once).YOLO不同于RCNN，它將目標(biāo)檢測作為回歸問題處理，直接在劃分的網(wǎng)格上回歸目標(biāo)邊界框和所屬類別.因?yàn)槊馊チ藦?fù)雜費(fèi)時的候選區(qū)域生成，YOLO的速度非?？?，但對于靠得很近或較小的目標(biāo)，其檢測精度不高且泛化能力偏弱.

結(jié)合RCNN的Anchor思想和YOLO的回歸思想，劉偉等人[14]提出了單次多框檢測器(single shot multi-box detector， SSD).SSD有RCNN定位準(zhǔn)確和YOLO速度快的優(yōu)點(diǎn)，因?yàn)橐攵喑叨葯z測[15]，它對于不同尺寸的目標(biāo)都有較好的檢測效果.檢測速度和精度進(jìn)一步提升.

這3類方法對于一般的目標(biāo)檢測問題有不錯的精度，然而對于小目標(biāo)的檢測精度卻都不理想.事實(shí)上，這些方法檢測不出來的目標(biāo)往往不是一些復(fù)雜的目標(biāo)，而是一些較小的目標(biāo)，比如PASCAL VOC數(shù)據(jù)集[5]中的瓶子.這說明不是深度網(wǎng)絡(luò)缺乏學(xué)習(xí)和表示能力，而是深度網(wǎng)絡(luò)提取的小目標(biāo)特征所能表示的信息實(shí)在是太少了[16].

除此之外，還有一些研究者專門針對小目標(biāo)的檢測進(jìn)行了研究.Takeki等人[17]提出了一種結(jié)合圖像語義分割的小目標(biāo)檢測方法，該方法將全卷積網(wǎng)絡(luò)(fully convolutional network， FCN)及其變體和CNN結(jié)合起來，以支持向量機(jī)(support vector machine， SVM)整合三者的結(jié)果，但是這個方法只適用于在純凈的天空背景下檢測小鳥這一任務(wù)，難以適用于復(fù)雜背景下的多類目標(biāo)檢測任務(wù).Chen等人[18]基于RCNN進(jìn)行改進(jìn)，使得RCNN可以生成更小的候選區(qū)域，對RCNN在小目標(biāo)檢測這一任務(wù)上的提升非常大，但算法復(fù)雜度較高.Eggert等人[19]同樣也是基于RCNN進(jìn)行改進(jìn)，他們對feature map分辨率與檢測效果的關(guān)系進(jìn)行了研究，在公司商標(biāo)檢測的問題背景下，用改進(jìn)的anchor box生成方法提升了RCNN使用高分辨率feature map進(jìn)行檢測的效果.

由此可見，雖然已經(jīng)有人針對小目標(biāo)檢測做出一些工作，但是這些方法都只能在特定的問題背景下使用，或者對于一般目標(biāo)檢測的效果不如前面3種方法，缺乏一定的通用性.

2 多尺度Faster-RCNN檢測算法

2.1 多尺度檢測

在一個多層卷積神經(jīng)網(wǎng)絡(luò)中，低層的特征往往能很好地表示圖像的紋理、邊緣等的細(xì)節(jié)信息，而越往高層走，隨著神經(jīng)元感受野的擴(kuò)大，高層的特征往往能很好地表示圖像的語義信息，但是相應(yīng)的就會忽略一些細(xì)節(jié)信息[20].

當(dāng)一個目標(biāo)非常小時，從僅有的像素中所能反應(yīng)出來的語義信息是非常有限的，而太小的目標(biāo)也完全不需要神經(jīng)元具有很大的感受野，所以我們一般要更多地依靠低層的細(xì)節(jié)信息才能識別出小目標(biāo).為了證明這個結(jié)論，我們利用梯度上升法對圖像特征進(jìn)行重構(gòu)[21]，以此可視化地展示深度網(wǎng)絡(luò)不同層提取出的小目標(biāo)特征有何區(qū)別.如圖2所示，圖2(a)中邊框里的挖掘機(jī)為需要檢測的小目標(biāo)，我們通過VGG16網(wǎng)絡(luò)提取它的特征，并利用conv1_2和conv5_3層提取出的特征對圖像進(jìn)行重構(gòu);圖2(b)是用VGG16網(wǎng)絡(luò)conv1_2層特征重構(gòu)的結(jié)果，可以清楚看出是一個挖掘機(jī);而圖2(c)是用VGG16網(wǎng)絡(luò)conv5_3層特征重構(gòu)的結(jié)果，只能看清輪廓.所以對于小目標(biāo)檢測的問題，卷積神經(jīng)網(wǎng)絡(luò)的低層特征往往比高層特征要更加有效.

Fig. 2 Reconstructed image圖2 重構(gòu)圖像

Fig. 3 Network structure圖3 網(wǎng)絡(luò)結(jié)構(gòu)

在原始Faster-RCNN的方法中，候選區(qū)域由候選區(qū)域生成網(wǎng)絡(luò)(region proposal network， RPN)生成，候選區(qū)域的特征僅由最后一個卷積層經(jīng)過目標(biāo)區(qū)域池化得到，利用這樣的高層特征對小目標(biāo)進(jìn)行檢測顯然會存在比較大的問題[22].因此我們參考了SSD方法的思想，對Faster-RCNN引入了多尺度檢測，即不單單依靠最后一層的feature map進(jìn)行檢測，而是對網(wǎng)絡(luò)中的多個尺度的feature map都進(jìn)行生成候選區(qū)域的操作.具體流程如圖3所示，輸入圖片經(jīng)過一個卷積神經(jīng)網(wǎng)絡(luò)提取特征，將不同層提取出的多個不同尺度的feature map送入各自的RPN生成候選區(qū)域，不同尺度對應(yīng)的RPN是有區(qū)別的，因?yàn)榈蛯由窠?jīng)元的感受野小，對應(yīng)的anchor box尺寸也要小，所以越低層的特征得到的候選區(qū)域越小，具體anchor設(shè)置將在實(shí)驗(yàn)環(huán)節(jié)詳細(xì)說明.得到生成的候選區(qū)域后，求取feature map映射，再通過ROI pooling將特征變成統(tǒng)一大小，最后送入分類器，這樣就可以充分利用低層特征對小目標(biāo)進(jìn)行檢測.這樣的結(jié)構(gòu)適用于不同的特征網(wǎng)絡(luò)，我們在實(shí)驗(yàn)部分分別對利用ZF[23]和VGG16[24]2種特征網(wǎng)絡(luò)的Faster-RCNN方法進(jìn)行改進(jìn).對于ZF網(wǎng)絡(luò)，將conv1，conv2，conv5這3層的輸出送入候選區(qū)域生成網(wǎng)絡(luò)和ROI pooling進(jìn)行多尺度檢測；對于VGG16網(wǎng)絡(luò)，將conv1_2，conv2_2，conv3_3，conv4_3，conv5_3這5層的輸出送入候選區(qū)域生成網(wǎng)絡(luò)和ROI pooling進(jìn)行多尺度檢測，其他具體參數(shù)設(shè)置會在實(shí)驗(yàn)部分說明.

2.2 訓(xùn)練數(shù)據(jù)變換

網(wǎng)絡(luò)結(jié)構(gòu)的改進(jìn)解決了只利用高層網(wǎng)絡(luò)特征難以檢測小目標(biāo)的問題，針對小目標(biāo)難以標(biāo)記、缺乏訓(xùn)練樣本，我們利用了從網(wǎng)絡(luò)上獲取的圖像作為訓(xùn)練數(shù)據(jù)，共7 804張.然而通過搜索引擎關(guān)鍵字檢索出來的圖像往往是以目標(biāo)為主體的，相比測試圖像中的小目標(biāo)，這些圖像中的目標(biāo)分辨率較大.比如：我們通過“挖掘機(jī)”檢索出來的一般都是以挖掘機(jī)為主體的圖像，挖掘機(jī)這個目標(biāo)在圖像中所占的比例非常大，而測試圖像中目標(biāo)所占比例卻非常小，兩者的像素不一樣多，所反映的信息量也不一樣，因而數(shù)據(jù)的分布可能存在差異.如圖4所示，圖4第1列為部分網(wǎng)上獲取的高分辨率大目標(biāo)訓(xùn)練圖像，圖4第2列為采樣處理后的訓(xùn)練圖像，圖4第3列和第4列為小目標(biāo)檢測的部分測試圖像.

Fig. 4 Training data and test data圖4 訓(xùn)練數(shù)據(jù)與測試數(shù)據(jù)

Fig. 5 The distribution of different object圖5 不同目標(biāo)的分布

為了說明高分辨率(high resolution, HR)目標(biāo)和低分辨率(low resolution, LR)目標(biāo)的分布確實(shí)存在差異，我們利用t-SNE[25]的方法對這2類圖像中的目標(biāo)特征進(jìn)行降維.我們以原始Faster-RCNN結(jié)構(gòu)進(jìn)行驗(yàn)證，特征網(wǎng)絡(luò)為VGG16.用目標(biāo)低分辨率圖像訓(xùn)練網(wǎng)絡(luò)，再用目標(biāo)低分辨率圖像和目標(biāo)高分辨率圖像測試.對ROI pooling層后得到的大小相同的特征向量用T-SNE方法降維.可視化結(jié)果如圖5所示，紫色圓點(diǎn)代表低分辨率目標(biāo)，藍(lán)色十字代表高分辨率目標(biāo)，可見兩者確實(shí)存在很大差異.

針對這樣一個分布差異，我們采用下采樣和上采樣的方式對訓(xùn)練數(shù)據(jù)進(jìn)行預(yù)處理.使用的下采樣方法包括最大池化和平均池化，這使得高分辨率圖像的信息量減少.而使用的上采樣方法包括線性插值、區(qū)域插值和最近鄰插值，這將圖像還原為原始大小，并引入了一些噪聲.從人的視覺上來看，采樣后的訓(xùn)練圖像和測試圖像更類似，我們在實(shí)驗(yàn)部分對這6種采樣方法的組合進(jìn)行了實(shí)驗(yàn)，經(jīng)過效果最好的采樣方法處理過后的訓(xùn)練圖像如圖4第2列所示.實(shí)驗(yàn)證明，下采樣和上采樣可以有效提升使用高分辨率目標(biāo)圖像訓(xùn)練出的模型檢測目標(biāo)低分辨率圖像的檢測精度.不同的下采樣和上采樣方式對檢測效果的影響會在實(shí)驗(yàn)部分給出說明.

3 實(shí) 驗(yàn)

3.1 實(shí)驗(yàn)設(shè)置

實(shí)驗(yàn)采用的數(shù)據(jù)集由2部分組成，檢測的小目標(biāo)為挖掘機(jī).一部分來源于基站鐵塔上的監(jiān)控?cái)z像頭所拍攝的圖像，共有14 449張，其中的挖掘機(jī)通常非常小;另一部分來源于通過搜索引擎搜索“挖掘機(jī)”關(guān)鍵字獲取的高分辨率大目標(biāo)圖像，共有7 804張，其中的挖掘機(jī)通常比較大，如圖4所示.

為了比較方法的精度，分別采用了ZF和VGG16這2種網(wǎng)絡(luò)作為特征網(wǎng)絡(luò)進(jìn)行實(shí)驗(yàn).因?yàn)闄z測目標(biāo)是挖掘機(jī)，所以anchor box的比例參數(shù)都設(shè)置為0.7，1，1.4.每個尺度的feature map對應(yīng)候選區(qū)域生成網(wǎng)絡(luò)的anchor尺寸不同，對于ZF網(wǎng)絡(luò)：conv1層對應(yīng)的尺度參數(shù)為2，4，8；conv2層對應(yīng)的尺度參數(shù)為4，8，16；conv5層對應(yīng)的尺度參數(shù)為8，16，32；對于VGG16網(wǎng)絡(luò)：conv1_2層對應(yīng)的尺度參數(shù)為2，4；conv2_2層對應(yīng)的尺度參數(shù)為4，8；conv3_3層對應(yīng)的尺度參數(shù)為4，8；conv4_3層對應(yīng)的尺度參數(shù)為8，16；conv5_3層對應(yīng)的尺度參數(shù)為8，16；其余參數(shù)均與原始Faster-RCNN一致.

為了比較方法的計(jì)算復(fù)雜度，在比較精度的實(shí)驗(yàn)設(shè)置基礎(chǔ)上作如下設(shè)置：對于ZF網(wǎng)絡(luò)，分別測試只采用conv1特征、conv2特征、conv5特征和同時采用三者的方法復(fù)雜度；對于VGG網(wǎng)絡(luò)，分別測試只采用conv1_2特征、conv2_2特征、conv5_3特征和同時采用三者的方法復(fù)雜度.以平均單張圖像的檢測時間為計(jì)算復(fù)雜度的評估指標(biāo)，單位為s.

3.2 實(shí)驗(yàn)結(jié)果

將目標(biāo)低分辨率數(shù)據(jù)集劃分成2部分，7 225張用于評估模型性能，7 224張用于單獨(dú)或搭配目標(biāo)高分辨率圖像進(jìn)行訓(xùn)練，在不同特征網(wǎng)絡(luò)下所得的檢測結(jié)果如表1所示：

Table 1 The mAP of Detection 表1 檢測精度 %

第1列表示模型使用的網(wǎng)絡(luò)結(jié)構(gòu)，帶MS前綴的表示使用多尺度檢測改進(jìn)的模型.之后每一列第1行表示訓(xùn)練數(shù)據(jù)，HR表示從網(wǎng)上獲取的目標(biāo)高分辨率圖像，LR表示用于訓(xùn)練的7 224張目標(biāo)低分辨率圖像，其余數(shù)值分別表示在對應(yīng)數(shù)據(jù)下訓(xùn)練出的模型的檢測精度，指標(biāo)為平均精度均值(mean average precision， mAP)，在這里實(shí)際上是挖掘機(jī)的AP.

從表1中可以得出2個結(jié)論：

1) 不論采用高分辨率圖像還是低分辨率圖像作為訓(xùn)練數(shù)據(jù)，使用多尺度檢測的方法都可以有效提升小目標(biāo)的檢測精度，這說明結(jié)合深度網(wǎng)絡(luò)的低層和高層特征進(jìn)行多尺度檢測的方法確實(shí)可行；

2) 僅使用高分辨率圖像作為訓(xùn)練數(shù)據(jù)的模型檢測效果不佳，僅使用低分辨率圖像作為訓(xùn)練數(shù)據(jù)的模型檢測效果較好，而兩者結(jié)合時性能折中，這說明直接使用網(wǎng)上獲取的目標(biāo)高分辨率圖像訓(xùn)練是不行的，想要用這部分?jǐn)?shù)據(jù)必須解決訓(xùn)練集和測試集之間存在的差異，即高分辨率目標(biāo)和低分辨率目標(biāo)的差異.

將7 225張測試圖像的平均檢測時間作為評估計(jì)算復(fù)雜度的指標(biāo)，不同特征網(wǎng)絡(luò)下所得的檢測結(jié)果如表2所示：

Table 2 The Time of Detection 表2 檢測時間 s

第1列表示模型使用的網(wǎng)絡(luò)結(jié)構(gòu)，之后每一列第1行表示采用哪一層的特征進(jìn)行檢測，All表示采用全部3個特征.為便于表格說明，VGG的conv1_2，conv2_2，conv5_3分別簡寫為conv1，conv2，conv5.

從表2中可以得出2個結(jié)論：

1) 在只利用一個特征檢測的前提下，利用高層特征的平均檢測時間少，這說明大的低層特征雖然適用于小目標(biāo)檢測，但會帶來額外的計(jì)算開銷；

2) 同時利用多個特征增加的計(jì)算開銷仍然在可以接受的范圍內(nèi)，可以勝任實(shí)時性要求不高的任務(wù).

通過對目標(biāo)高分辨率圖像進(jìn)行下采樣和上采樣得到新的訓(xùn)練數(shù)據(jù)，用新數(shù)據(jù)訓(xùn)練出的模型檢測精度如表3所示.表3中的字符含義與表1基本一致，訓(xùn)練數(shù)據(jù)HR后的2個后綴分別表示不同下采樣和上采樣的操作組合，第1個后綴M和A分別表示最大池化和平均池化2種下采樣的方式，池化操作的窗口為2×2，滑動步長為2，第2個后綴A，L，N分別表示區(qū)域插值、線性插值和最近鄰插值3種上采樣的方式.

從表3中可以看出：

1) 只需要通過簡單的下采樣就可以大幅提升目標(biāo)高分辨率圖像訓(xùn)練出的模型精度，這說明下采樣的方式可以從一定程度上消除目標(biāo)高分辨率圖像和目標(biāo)低分辨率圖像數(shù)據(jù)差異帶來的影響；

2) 最大池化在這樣一個問題背景下一般比平均池化效果好；

3) 在下采樣的基礎(chǔ)上使用線性插值上采樣的方法可以略微提升模型的精度，目前還不能從理論上解釋原因，但可能是因?yàn)檫@樣增加了噪聲，從一定程度上防止了過擬合；

4) 結(jié)合采樣變換后的目標(biāo)高分辨率圖像和目標(biāo)低分辨率圖像訓(xùn)練出的模型檢測精度較高，不但沒有出現(xiàn)表1精度降低的情況，反而提升了精度，這說明對目標(biāo)高分辨率圖像進(jìn)行采樣變換確實(shí)可以消除目標(biāo)高分辨率圖像和目標(biāo)低分辨率圖像數(shù)據(jù)差異帶來的影響.在小目標(biāo)檢測數(shù)據(jù)難以標(biāo)記、缺少訓(xùn)練數(shù)據(jù)的情況下，可以通過這種方式簡單、快速地增加訓(xùn)練數(shù)據(jù)量，提升檢測精度.部分檢測結(jié)果如圖6所示.

Table3ThemAPofDetectionwithSampledTrainingData
表3訓(xùn)練數(shù)據(jù)采樣后的檢測精度%

NetworkHRLRLR+HR-M-LHR-MHR-M-AHR-M-LHR-M-NHR-AHR-A-AHR-A-LHR-A-NMS-ZF20.456.258.447.347.749.445.843.242.644.036.8MS-VGG1630.558.761.552.351.255.249.643.343.246.237.7

Note: First suffix—M: max pooling; A: average.

Second suffix—L: linear interpolation; N: nearest neighbor interpolation; A: area interpolation

Fig. 6 Partial detection results圖6 部分檢測結(jié)果

同樣，為了說明對目標(biāo)高分辨率圖像進(jìn)行采樣變換可以消除目標(biāo)高分辨率圖像和目標(biāo)低分辨率圖像數(shù)據(jù)差異帶來的影響，我們利用T-SNE[25]方法對采樣操作前后目標(biāo)的特征進(jìn)行降維.

我們以實(shí)驗(yàn)效果最好的MS-VGG16結(jié)構(gòu)進(jìn)行驗(yàn)證.用目標(biāo)低分辨率圖像訓(xùn)練網(wǎng)絡(luò)，再用目標(biāo)低分辨率圖像、目標(biāo)高分辨率圖像和采樣操作后的目標(biāo)高分辨率圖像三者來測試.對ROI pooling層后得到的大小相同的特征向量用T-SNE方法降維.

可視化的結(jié)果如圖7所示，紫色圓點(diǎn)代表低分辨率目標(biāo)，藍(lán)色十字代表高分辨率目標(biāo)，紅色叉代表采樣后的高分辨率目標(biāo)，可以看出采樣操作后的特征分布確實(shí)比采樣操作前的特征分布更接近目標(biāo)低分辨率圖像的特征分布.

Fig. 7 The distribution of different objects after sampling圖7 不同目標(biāo)采樣后的分布

4 總結(jié)與展望

目標(biāo)檢測作為計(jì)算機(jī)視覺領(lǐng)域的一個基本任務(wù)一直受到許多科研人員的關(guān)注，目標(biāo)檢測方法的性能也直接關(guān)系到許多高層領(lǐng)域的研究.當(dāng)前通用的目標(biāo)檢測方法在小目標(biāo)檢測上效果不佳，而專門為小目標(biāo)檢測設(shè)計(jì)的方法又不具有通用性，因而本文針對小目標(biāo)檢測問題進(jìn)行研究.首先，我們根據(jù)卷積神經(jīng)網(wǎng)絡(luò)的特性，對Faster-RCNN進(jìn)行改進(jìn)，引入了多尺度檢測，改進(jìn)后的方法比原始Faster-RCNN的檢測精度提升了約5%；然后，我們用下采樣和上采樣組合的方式變換網(wǎng)上獲取的高分辨率圖像，使高分辨率目標(biāo)的特征分布更接近低分辨率目標(biāo)，從而可以很方便地?cái)U(kuò)充訓(xùn)練數(shù)據(jù)集，解決了小目標(biāo)數(shù)據(jù)難以標(biāo)記的問題.

將來的工作可以從2個方面進(jìn)行：現(xiàn)在的目標(biāo)檢測領(lǐng)域幾乎都是深度學(xué)習(xí)的方法，雖然深度學(xué)習(xí)方法在提取圖像特征方面的表現(xiàn)確實(shí)非常優(yōu)秀，但是對于語義信息相對不是非常明顯的小目標(biāo)，我們也可以嘗試研究一些非深度學(xué)習(xí)的方法；其次，當(dāng)目標(biāo)非常小時，目標(biāo)檢測就退化成了像素分類的問題，我們也可以嘗試從像素分類的角度出發(fā)，研究分割的一些方法能以什么樣的形式應(yīng)用在小目標(biāo)檢測的問題上.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡