劉 洋,戰(zhàn)蔭偉
廣東工業(yè)大學(xué) 計(jì)算機(jī)學(xué)院,廣州510006
目標(biāo)檢測(cè)是結(jié)合了目標(biāo)定位和識(shí)別兩個(gè)任務(wù)的一項(xiàng)基礎(chǔ)計(jì)算機(jī)視覺(jué)任務(wù),其目的是在圖像的復(fù)雜背景中找到若干目標(biāo),對(duì)每一個(gè)目標(biāo)給出一個(gè)精確目標(biāo)包圍盒并判斷該包圍盒中的目標(biāo)所屬的類別[1]。深度學(xué)習(xí)的流行使得目標(biāo)檢測(cè)技術(shù)獲益匪淺,目前,深度學(xué)習(xí)已被廣泛應(yīng)用于整個(gè)目標(biāo)檢測(cè)領(lǐng)域,包括通用目標(biāo)檢測(cè)和特定領(lǐng)域目標(biāo)檢測(cè)。其中,小目標(biāo)檢測(cè)是目前計(jì)算機(jī)視覺(jué)領(lǐng)域中的一個(gè)熱點(diǎn)難點(diǎn)問(wèn)題。由于小目標(biāo)的分辨率和信息量有限,使得小目標(biāo)檢測(cè)任務(wù)成為現(xiàn)階段計(jì)算機(jī)視覺(jué)領(lǐng)域中的一項(xiàng)巨大挑戰(zhàn)。小目標(biāo)檢測(cè)任務(wù)在民用、軍事、安防等各個(gè)領(lǐng)域中也有著十分重要的作用,譬如無(wú)人機(jī)對(duì)地面車輛、行人等的目標(biāo)檢測(cè),遙感衛(wèi)星圖像的地面目標(biāo)檢測(cè),無(wú)人駕駛中遠(yuǎn)處行人車輛以及交通標(biāo)志的識(shí)別,醫(yī)學(xué)成像中一些早期病灶和腫塊的檢測(cè),自動(dòng)工業(yè)檢查定位材料上的小缺陷等[2-8]。隨著現(xiàn)實(shí)生活中計(jì)算機(jī)視覺(jué)系統(tǒng)的逐漸復(fù)雜化和智能化,小目標(biāo)的檢測(cè)任務(wù)也需要更多的關(guān)注。
本文針對(duì)目標(biāo)檢測(cè)特別是小目標(biāo)檢測(cè)問(wèn)題,首先歸納了常用的數(shù)據(jù)集,系統(tǒng)性地總結(jié)了常用的目標(biāo)檢測(cè)方法,以及小目標(biāo)檢測(cè)面臨的挑戰(zhàn),梳理了基于深度學(xué)習(xí)的小目標(biāo)檢測(cè)方法的最新工作,并簡(jiǎn)要評(píng)述,最后對(duì)其優(yōu)劣進(jìn)行總結(jié)及未來(lái)可能發(fā)展方向進(jìn)行討論。
為了更好地進(jìn)行研究,出現(xiàn)了許多目標(biāo)檢測(cè)數(shù)據(jù)集。數(shù)據(jù)集在整個(gè)目標(biāo)檢測(cè)領(lǐng)域的發(fā)展歷史中占據(jù)了重要位置,數(shù)據(jù)量充足且具有針對(duì)性的數(shù)據(jù)集是開(kāi)發(fā)先進(jìn)的目標(biāo)檢測(cè)算法的關(guān)鍵,也是不同算法用于對(duì)比的一個(gè)評(píng)價(jià)基準(zhǔn)。在過(guò)去十年里,目標(biāo)檢測(cè)領(lǐng)域出現(xiàn)了許多知名的數(shù)據(jù)集,包括SUN、PASCAL VOC、ImageNet、MS COCO、Open Image 等[9-14]。而針對(duì)一些特定領(lǐng)域的目標(biāo)檢測(cè),尤其是應(yīng)用領(lǐng)域中有大量小目標(biāo)需要檢測(cè)的情況,譬如航拍圖像中的物體檢測(cè)、遙感衛(wèi)星圖像中的物體檢測(cè)等,也提出了許多相關(guān)數(shù)據(jù)集。相關(guān)數(shù)據(jù)集對(duì)比如表1所示。
早期加州理工學(xué)院提出的Caltech數(shù)據(jù)庫(kù)[15-16],包含Caltech101和Caltech256兩個(gè)數(shù)據(jù)集,但缺乏類間差異,目前已經(jīng)很少使用。針對(duì)這一問(wèn)題,SUN數(shù)據(jù)集在場(chǎng)景的多樣化上進(jìn)行推進(jìn)。PASCAL VOC挑戰(zhàn)賽是早期計(jì)算機(jī)視覺(jué)界中最重要的比賽之一,在2005 年到2012 年每年都會(huì)舉辦,包含多種任務(wù),如圖像分類、目標(biāo)檢測(cè)、語(yǔ)義分割和動(dòng)作檢測(cè)等,大大推動(dòng)了目標(biāo)檢測(cè)的發(fā)展。ImageNet數(shù)據(jù)集的數(shù)據(jù)量相比于VOC數(shù)據(jù)集擴(kuò)大了兩個(gè)數(shù)量級(jí),由于數(shù)據(jù)量太大同時(shí)標(biāo)注的物體大多居于圖片中心,缺乏多樣性,目標(biāo)檢測(cè)領(lǐng)域中也很少使用。MS COCO 數(shù)據(jù)集是目前最具有挑戰(zhàn)性的目標(biāo)檢測(cè)數(shù)據(jù)集,值得一提的是,相比于VOC 和ImageNet 數(shù)據(jù)集,MS COCO數(shù)據(jù)集具有更多的小目標(biāo)以及更密集的目標(biāo)分布(平均每張圖像包含7.2個(gè)目標(biāo)),所以也更為貼近現(xiàn)實(shí)環(huán)境。繼MS COCO數(shù)據(jù)集之后,針對(duì)視覺(jué)關(guān)系的檢測(cè),推出了規(guī)??涨伴_(kāi)放圖像檢測(cè)(Open Image Detection)挑戰(zhàn)賽,包含600 個(gè)對(duì)象類別和1 910 000 張圖像。DOTA數(shù)據(jù)集[17]針對(duì)航空?qǐng)D像,包含2 806張尺寸大約為4 000×4 000 的航空?qǐng)D像,15 個(gè)類別共計(jì)188 000 個(gè)實(shí)例。對(duì)于航拍圖像中的較小的車輛目標(biāo)檢測(cè),2016 年Razakarivony等人[18]建立了VEDAI數(shù)據(jù)庫(kù)。同年Zhu等人[19]提出一種針對(duì)交通標(biāo)志進(jìn)行檢測(cè)的方法,并建立TT100k 數(shù)據(jù)集,這也是迄今為止最大的交通標(biāo)志數(shù)據(jù)集,擁有100 000張圖像和128類共計(jì)30 000個(gè)實(shí)例。而在行人檢測(cè)方面,常用的KITTI數(shù)據(jù)集[20]和CityPerson數(shù)據(jù)集[21]中的行人尺寸都比較大,不適用于較小的行人,針對(duì)這一問(wèn)題,Yu等人[22]建立TinyPerson數(shù)據(jù)集用于微小行人的檢測(cè),相應(yīng)標(biāo)注示例如圖1所示。
由此也可以看出,目前通用目標(biāo)檢測(cè)數(shù)據(jù)集已經(jīng)相對(duì)完善,但是對(duì)于小目標(biāo)的數(shù)據(jù)集仍舊十分匱乏,只有一些特定領(lǐng)域下的小目標(biāo)數(shù)據(jù)集。這主要有兩方面原因,一方面小目標(biāo)的檢測(cè)在一定程度上還不夠受重視,標(biāo)注人員也會(huì)忽視,標(biāo)注的時(shí)候也容易出現(xiàn)偏差;另一方面,某些應(yīng)用場(chǎng)景中,小目標(biāo)的出現(xiàn)屬于個(gè)別現(xiàn)象,導(dǎo)致這類樣本稀缺訓(xùn)練集分布不均勻,訓(xùn)練效果不理想。小目標(biāo)數(shù)據(jù)集的標(biāo)注和數(shù)據(jù)量的不足,也是阻礙小目標(biāo)檢測(cè)相關(guān)工作進(jìn)展的重要因素。
表1 相關(guān)目標(biāo)檢測(cè)數(shù)據(jù)集對(duì)比
圖1 TinyPerson數(shù)據(jù)集示例
在介紹算法之前,需要了解幾個(gè)常見(jiàn)的目標(biāo)檢測(cè)評(píng)價(jià)指標(biāo)術(shù)語(yǔ)。假定待分類目標(biāo)只有正例(positive)和負(fù)例(negative)兩種,則有以下四個(gè)指標(biāo):(1)TP(True Positives),被正確識(shí)別成正例的正例;(2)FP(False Positives),被錯(cuò)誤識(shí)別成正例的負(fù)例;(3)TN(True Negatives),被正確識(shí)別成負(fù)例的負(fù)例;(4)FN(False Negatives),被錯(cuò)誤識(shí)別成負(fù)例的正例。
則有如下定義,準(zhǔn)確率(Precision)指預(yù)測(cè)的總實(shí)例中,被正確識(shí)別成正例的正例數(shù)所占的比率,如式(1);召回率(Recall)指待測(cè)試的所有正例樣本中,被正確識(shí)別成正例的正例數(shù),如式(2);一般來(lái)說(shuō),準(zhǔn)確率和召回率成反比的關(guān)系。
以召回率為橫坐標(biāo)軸,準(zhǔn)確率為縱坐標(biāo)軸,在一定閾值的基礎(chǔ)上形成的曲線被稱之為P-R 曲線,P-R 曲線所圍成的面積,即為平均精度(Average Precision),簡(jiǎn)稱為AP。通常情況下,性能越好的分類器,AP 值越高。對(duì)多個(gè)類別求平均AP 值,即為mAP(mean Average Precision),mAP 通常用以表示模型在多個(gè)類別上的性能好壞。
圖2 目標(biāo)檢測(cè)發(fā)展時(shí)間軸
目標(biāo)檢測(cè)的方法主要分為兩大類:基于傳統(tǒng)人工特征的目標(biāo)檢測(cè)方法和基于深度學(xué)習(xí)的目標(biāo)檢測(cè)方法,如圖2所示。
早期的目標(biāo)檢測(cè)算法大多是基于手工特征構(gòu)建的?;舅悸穂23]如圖3 所示,先在輸入的原始圖像上尋找可能存在目標(biāo)的區(qū)域,然后對(duì)每一個(gè)區(qū)域進(jìn)行特征提取,并送入分類器模型進(jìn)行判斷,最后分類器模型認(rèn)為是目標(biāo)的區(qū)域進(jìn)行篩選等后處理操作從而得到結(jié)果。由于當(dāng)時(shí)缺乏有效的圖像表示,人們別無(wú)選擇,只能設(shè)計(jì)復(fù)雜的特征表示,并使用各種加速技術(shù)來(lái)耗盡有限的計(jì)算資源。
圖3 傳統(tǒng)目標(biāo)檢測(cè)方法基本流程
2.1.1 VJ檢測(cè)器
19年前,Viola和Jones設(shè)計(jì)了一款高效的人臉檢測(cè)器,比當(dāng)時(shí)其他檢測(cè)器的速度提升了幾十倍,這是人臉檢測(cè)乃至計(jì)算機(jī)視覺(jué)領(lǐng)域發(fā)展的一項(xiàng)里程碑,為了紀(jì)念這項(xiàng)工作,人們將之命名為Viola-Jones(VJ)檢測(cè)器[24-25]。VJ 檢測(cè)器采用滑動(dòng)窗口的檢測(cè)方法,采用Haar 特征來(lái)描述每一個(gè)窗口,并引入了積分圖來(lái)加速Haar 特征的提取,使得每個(gè)窗口的計(jì)算復(fù)雜度與窗口大小無(wú)關(guān),結(jié)合Adaboost 算法[26]進(jìn)行特征的選擇,并引入級(jí)聯(lián)思想,減少背景窗口計(jì)算量,增加人臉目標(biāo)計(jì)算量,提升精度的同時(shí)降低了計(jì)算規(guī)模。
2.1.2 HOG特征
方向梯度直方圖(HOG)特征[27]最早是由Dalal等人對(duì)于行人檢測(cè)問(wèn)題提出的一種局部特征。顧名思義,HOG特征通過(guò)計(jì)算圖片某一區(qū)域中不同方向上的梯度值進(jìn)行累積形成直方圖,作為這片區(qū)域的特征。HOG特征能較好地提取圖像的局部細(xì)節(jié)信息,在圖像的幾何形變、光學(xué)畸變等情況下,都具有較好的特征不變性,多年來(lái),HOG 特征一直是許多目標(biāo)檢測(cè)器和各類計(jì)算機(jī)視覺(jué)系統(tǒng)的基礎(chǔ)。
2.1.3 可變部件模型(DPM)
針對(duì)HOG 特征處理遮擋問(wèn)題表現(xiàn)較差的不足,2008年Felzenszwalb等人[28]提出了DPM算法,而后聯(lián)合Girshick 等人進(jìn)行了各種改進(jìn)[29-31],在當(dāng)時(shí)表現(xiàn)優(yōu)異,連續(xù)獲得VOC 挑戰(zhàn)賽2007、2008、2009 三年的冠軍。DPM 算法采用一種“分而治之”的思想,可以將訓(xùn)練檢測(cè)過(guò)程看作是對(duì)象的各個(gè)部件的學(xué)習(xí)以及各個(gè)部件檢測(cè)的集合,并對(duì)HOG 特征進(jìn)行改進(jìn),取消了HOG 特征中的塊,只保留了單元。并在后續(xù)改進(jìn)中,結(jié)合了一些其他的重要技術(shù)思想來(lái)提高精度,如難例挖掘、邊界盒回歸等,對(duì)現(xiàn)在仍有著深刻的影響。
隨著人工特征對(duì)目標(biāo)檢測(cè)算法的性能推進(jìn)趨于飽和,人們開(kāi)始將目光轉(zhuǎn)向深度卷積網(wǎng)絡(luò)上,相比于人工特征,深度神經(jīng)網(wǎng)絡(luò)提取出的特征雖然可解釋性不強(qiáng),但是在語(yǔ)義的表示能力上遠(yuǎn)遠(yuǎn)超過(guò)傳統(tǒng)人工特征,因此基于深度學(xué)習(xí)的目標(biāo)檢測(cè)方法逐步取代了基于人工特征的方法,以卷積神經(jīng)網(wǎng)絡(luò)為代表的深度學(xué)習(xí)模型逐漸成為主流?;谏疃葘W(xué)習(xí)的目標(biāo)檢測(cè)方法根據(jù)檢測(cè)思想的不同可以分為兩階段(two stage)方法和單階段(one stage)方法。
2.2.1 兩階段目標(biāo)檢測(cè)方法
2014 年,Girshick 等人[32]率先打破目標(biāo)檢測(cè)發(fā)展緩慢的僵局,提出了RCNN 算法,開(kāi)創(chuàng)性地將候選區(qū)域生成和深度學(xué)習(xí)的分類方法結(jié)合起來(lái)。其背后的思想很簡(jiǎn)單,如圖4所示:先通過(guò)選擇性搜索[33]提取出一組對(duì)象候選框,然后將每個(gè)候選框重新調(diào)整為固定大小的圖像,并將其輸入到卷積神經(jīng)網(wǎng)絡(luò)模型中,以提取特征。最后,利用線性支持向量機(jī)分類器對(duì)每個(gè)區(qū)域內(nèi)的目標(biāo)進(jìn)行預(yù)測(cè)和分類。雖然在當(dāng)時(shí)RCNN 已經(jīng)取得了很大的進(jìn)步,但是其缺點(diǎn)也很明顯:由于一張圖像生成超過(guò)2 000 個(gè)候選框,在大量重疊的候選框進(jìn)行了冗余的計(jì)算導(dǎo)致檢測(cè)的速度極慢,在GPU 上運(yùn)行一副圖像大約需要14 s。
圖4 RCNN算法結(jié)構(gòu)
同年晚些時(shí)候,He等人[34]提出了SPPNet方法,設(shè)計(jì)了一種空間金字塔池化層,能夠從不同大小的特征圖中提取相同長(zhǎng)度的特征向量,實(shí)現(xiàn)了多尺度輸入,大大節(jié)省了計(jì)算時(shí)間。但是仍然存在一些不足,模型訓(xùn)練仍然是多階段的。Girshick[35]在2015 年提出了Fast RCNN算法,做出了進(jìn)一步改進(jìn),創(chuàng)新性地提出了多任務(wù)損失,同時(shí)訓(xùn)練分類器和包圍盒回歸器,實(shí)現(xiàn)了檢測(cè)階段的端到端訓(xùn)練,精度和速度都大大提高。雖然Fast RCNN結(jié)合了RCNN 和SPPNet 的優(yōu)點(diǎn),但由于候選框的選取仍是使用選擇性搜索,檢測(cè)速度仍舊受到限制。所以,Ren等人[36]在不久之后針對(duì)這一缺陷提出Faster RCNN算法,引入了RPN網(wǎng)絡(luò),使得候選框生成幾乎不需要成本。Faster RCNN算法使用錨點(diǎn)(anchor)來(lái)生成初始候選區(qū)域,再通過(guò)RPN 來(lái)判斷該區(qū)域是屬于目標(biāo)還是背景,將屬于目標(biāo)的區(qū)域送入后續(xù)結(jié)構(gòu)中處理。
從RCNN到Faster RCNN,一個(gè)目標(biāo)檢測(cè)系統(tǒng)中的大部分模塊都逐漸集成到一個(gè)統(tǒng)一的端到端的框架中,F(xiàn)aster RCNN是首個(gè)端到端,接近實(shí)時(shí)的深度學(xué)習(xí)目標(biāo)檢測(cè)器。在RCNN系列的開(kāi)創(chuàng)性工作之后,針對(duì)這一系列的改進(jìn)工作也如雨后春筍。Dai等人[37]提出了基于區(qū)域的全卷積網(wǎng)絡(luò)(RFCN),改進(jìn)了ROI pooling層以后的網(wǎng)絡(luò),以全卷積得到的位置敏感得分圖代替全連接,大幅提升檢測(cè)速度。He 等人[38]提出的Mask-RCNN,融合了分割和檢測(cè)任務(wù),使用插值對(duì)ROI 進(jìn)行對(duì)齊,進(jìn)一步提高了檢測(cè)精度。在2017 年,Lin 等人[39]基于Faster RCNN提出了特征金字塔網(wǎng)絡(luò)(FPN)。在此之前,大多基于深度學(xué)習(xí)的檢測(cè)器只在網(wǎng)絡(luò)的頂層進(jìn)行檢測(cè),雖然CNN 的深層特征有利于類別識(shí)別,但是不利于目標(biāo)的定位。為此,在FPN中開(kāi)發(fā)了具有橫向連接的自頂向下的體系結(jié)構(gòu),用于在所有層級(jí)上都能提取較強(qiáng)的語(yǔ)義信息。FPN在各種尺度的檢測(cè)任務(wù)上取得了巨大進(jìn)步,現(xiàn)如今已成為許多最新檢測(cè)模型的基本組成部分。
2.2.2 單階段目標(biāo)檢測(cè)方法
基于深度學(xué)習(xí)的單階段目標(biāo)檢測(cè)的一般流程有所不同,如圖5 所示,因?yàn)榇祟惙椒ㄍ鶝](méi)有在候選區(qū)域上分類的過(guò)程,而是直接回歸輸出類別。
圖5 單階段目標(biāo)檢測(cè)方法基本流程
2016年,Redmon等人[40]提出了YOLO算法,這是深度學(xué)習(xí)時(shí)代的第一款單階段目標(biāo)檢測(cè)算法,它的速度非???。如圖6 所示,該網(wǎng)絡(luò)將圖像分割成網(wǎng)格,同時(shí)預(yù)測(cè)每個(gè)網(wǎng)格區(qū)域的包圍盒bounding box和分類概率,單個(gè)神經(jīng)網(wǎng)絡(luò)可經(jīng)過(guò)一次運(yùn)算從完整圖像上得到結(jié)果,有利于對(duì)檢測(cè)性能進(jìn)行端到端的優(yōu)化。不過(guò)YOLO 也有著泛化能力弱、檢測(cè)精度較低的問(wèn)題,其后Redmon 等人[41-42]陸續(xù)推出了YOLO9000和YOLOv3逐步改進(jìn)這些問(wèn)題。
圖6 YOLO算法結(jié)構(gòu)
而后在2016年,結(jié)合了RCNN的anchor機(jī)制和YOLO的回歸思想,Liu等人[43]提出了SSD算法,引入了多尺度的檢測(cè)方法,在每一個(gè)尺度提取的特征圖上都進(jìn)行檢測(cè)。Lin等人[44]為了研究單階段檢測(cè)方法在精度上落后于兩階段檢測(cè)方法,在2017 年提出了RetinaNet。他們認(rèn)為訓(xùn)練過(guò)程中的類別的不平衡導(dǎo)致了單階段方法在精度上的劣勢(shì),因此提出了Focal Loss來(lái)代替?zhèn)鹘y(tǒng)的交叉熵,改進(jìn)了背景樣本的權(quán)重,使得模型在訓(xùn)練過(guò)程中更偏向于較難檢測(cè)的目標(biāo)樣本。
盡管近年來(lái)目標(biāo)檢測(cè)取得了巨大進(jìn)展,但是上述方法也只是對(duì)于常規(guī)的目標(biāo)檢測(cè)問(wèn)題有較好效果,提取出的特征對(duì)于小目標(biāo)的表示能力較差,對(duì)于小目標(biāo)的檢測(cè)效果不太理想。根據(jù)MS COCO數(shù)據(jù)集的定義,通常將尺寸小于32×32 像素的目標(biāo)定義為小目標(biāo)。Huang 等人[45]的研究表明,現(xiàn)階段的檢測(cè)器,小目標(biāo)的平均精度大約比大目標(biāo)低10 倍,這并非說(shuō)明卷積神經(jīng)網(wǎng)絡(luò)所提取的特征表示能力不夠,而是小目標(biāo)的分辨率太低,能提供給模型的信息較少,這也是目前限制目標(biāo)檢測(cè)發(fā)展的瓶頸之一,越來(lái)越多的專家學(xué)者們也將目光轉(zhuǎn)向小目標(biāo)檢測(cè)領(lǐng)域并開(kāi)展研究,目前也已提出一系列有效的改進(jìn)方法。
現(xiàn)有通用目標(biāo)檢測(cè)的卷積模型,大多采用卷積模型的最頂端特征進(jìn)行預(yù)測(cè),小目標(biāo)的信息量較少,所以需要更好地利用圖像的細(xì)節(jié)信息。在一個(gè)卷積神經(jīng)網(wǎng)絡(luò)中,低層的特征往往能很好地表示圖像的紋理、邊緣等細(xì)節(jié)信息,而高層特征往往能很好地表示圖像的語(yǔ)義信息,但是相應(yīng)的隨著卷積池化的進(jìn)行也會(huì)忽略掉一些細(xì)節(jié)信息。針對(duì)這一因素,Liu 等人[43]率先引入多尺度的思想,提出了SSD 算法,在每一個(gè)尺度提取的特征圖上都進(jìn)行預(yù)測(cè),對(duì)小目標(biāo)的檢測(cè)相比于YOLO算法有較好的提升。雖然淺層的特征能更好地表示細(xì)節(jié)信息,但由于語(yǔ)義信息的不豐富,加之小目標(biāo)所對(duì)應(yīng)的anchor 較少,無(wú)法得到充分的訓(xùn)練,實(shí)際應(yīng)用中SSD 的效果仍舊不盡如人意。Fu 等人[46]針對(duì)SSD 對(duì)于小目標(biāo)因?yàn)閷?duì)應(yīng)anchor 較少訓(xùn)練不充分做出改進(jìn),如圖7 所示,采用ResNet[47]替換了SSD 中的VGG[48]模型,并使用反卷積(Deconvolution)層,將圖片分成更小的格子,從而減少漏檢率。但由于DSSD引入了ResNet模型,有著更為復(fù)雜的殘差連接和橫向連接,并且在模型中的預(yù)測(cè)模塊和反卷積模塊添加了額外層,引入了額外開(kāi)銷,導(dǎo)致DSSD算法在預(yù)測(cè)速度上并不如SSD算法。
圖7 SSD與DSSD算法結(jié)構(gòu)
Singh 等人[49]從數(shù)據(jù)集的角度思考,認(rèn)為目前數(shù)據(jù)集中的目標(biāo)物體尺度差異較大,小目標(biāo)相對(duì)于待檢測(cè)圖片而言尺寸過(guò)小,提出一種多尺度的訓(xùn)練方法——圖像金字塔的尺度歸一化(SNIP),在金字塔的每一個(gè)尺度上進(jìn)行訓(xùn)練,高效地使用所有訓(xùn)練數(shù)據(jù),雖對(duì)小目標(biāo)的檢測(cè)效果有顯著提升,但是速度較慢。
Lin 等人[44]提出的特征金字塔網(wǎng)絡(luò)(FPN)使用采樣的方式融合了細(xì)節(jié)信息較多的底層特征和語(yǔ)義信息較多的高層特征,雖然效率略有降低,但增強(qiáng)了所提取出的深度特征對(duì)于小目標(biāo)的表達(dá)能力,效果也優(yōu)于一般通用檢測(cè)方法,而后也衍生出眾多基于FPN 的改進(jìn)方法。Cao 等人[50]將FPN 的思想結(jié)合至SSD,從而提升SSD 算法對(duì)小目標(biāo)的檢測(cè)效果,由于其注重模型的輕量化,參數(shù)略少,背景信息中的噪聲無(wú)法更好地篩除,相比于同使用特征融合思想的DSSD 算法精度略低。Liu 等人[51]在FPN的基礎(chǔ)上,將模型最底層的特征與最高層的特征相連接,縮短了頂層與底層之間的信息路徑,進(jìn)一步增強(qiáng)了每一層特征圖之間的聯(lián)系。
Shrivastava 等人[52]提出一種類似FPN 的結(jié)構(gòu),用另一種方式實(shí)現(xiàn)了Top-Down 的特征融合,提升小目標(biāo)的檢測(cè)效果,該算法的融合并不像FPN一樣采用單純的加權(quán)疊加,而是利用卷積進(jìn)行融合,該算法核心在于其Top-Down Modulation 模塊,該模塊核心結(jié)構(gòu)可以自行選擇,但由于是卷積進(jìn)行特征融合,導(dǎo)致每新加一個(gè)該模塊網(wǎng)絡(luò)就要逐步訓(xùn)練一次,訓(xùn)練過(guò)程較為繁瑣,不一定適用實(shí)際場(chǎng)景。其后Ghiasi 等人[53]和Xu 等人[54]相繼提出NAS-FPN和Auto-FPN對(duì)FPN算法進(jìn)行優(yōu)化,不同于之前的人工設(shè)計(jì)的網(wǎng)絡(luò)結(jié)構(gòu),將Auto-ML技術(shù)應(yīng)用于目標(biāo)檢測(cè)上,使得神經(jīng)網(wǎng)絡(luò)自動(dòng)搜索設(shè)計(jì)從而提升FPN算法的效率。Guo等人[55]為更好地利用多尺度特征,引入一種新的特征金字塔結(jié)構(gòu)——AugFPN,利用一致性監(jiān)督在特征融合前縮小語(yǔ)義差距,并采用殘差特征以減少卷積池化過(guò)程中的信息丟失,最后提出一種Soft-ROI選擇方法以更好地學(xué)習(xí)特征,在ResNet50 網(wǎng)絡(luò)上平均精度提升了2.3 個(gè)百分點(diǎn),但模型的復(fù)雜化導(dǎo)致在相同條件下,采用AugFPN算法的訓(xùn)練時(shí)間和幀率都要遜于FPN 算法,如在ResNet50 網(wǎng)絡(luò)上訓(xùn)練每個(gè)epoch,采用AugFPN的Faster RCNN需要1.1 h,而采用FPN的只需0.9 h,幀率則分別為11.1 幀和13.4 幀。Rashwan 等人[56]認(rèn)為之前的多尺度方法并沒(méi)有考慮長(zhǎng)寬尺度的因素,提出MatrixNet 模型,如圖8 所示,并在MS COCO 數(shù)據(jù)集上達(dá)到了47.8%的平均精度,高于其他任何現(xiàn)有最先進(jìn)的單階段目標(biāo)檢測(cè)方法,不過(guò)該方法雖然采用了基于矩陣的層級(jí)預(yù)測(cè)機(jī)制,但并未考慮將不同層級(jí)的語(yǔ)義信息結(jié)合,比如高層低分辨率和底層高分辨率,同時(shí)結(jié)合所提出的長(zhǎng)寬尺度思想,或許可以在精度上更進(jìn)一步。
圖8 MatrixNet模型結(jié)構(gòu)
由此也可以看出,為了得到更好的效果,獲取更多有效的小目標(biāo)特征信息,多尺度的檢測(cè)模型也從最初的單層特征,向多層特征融合轉(zhuǎn)變,同時(shí)多層特征融合也從最開(kāi)始的簡(jiǎn)單加權(quán)疊加,逐步發(fā)展為卷積融合以及在模型上添加一定的殘差特征塊等,模型的逐步冗余復(fù)雜化,雖然能逐步提高檢測(cè)效果,但導(dǎo)致其更難在實(shí)際場(chǎng)景中得到應(yīng)用。因此一些學(xué)者也開(kāi)始在模型的輕量化上做研究,并提出了一些優(yōu)秀模型,如MobileNet[57-59]、ShuffleNet[60-61]等,并將其應(yīng)用于現(xiàn)有的一些優(yōu)秀方法中,模型相關(guān)介紹如表2所示。在降低模型復(fù)雜度的情況下如何更好地保持檢測(cè)精度也是一個(gè)重難點(diǎn)問(wèn)題,在應(yīng)用輕量化模型的同時(shí),研究人員也提出一些結(jié)合輕量化策略的目標(biāo)檢測(cè)方法,如表3所示。
由于小目標(biāo)在圖像中所占像素少、分辨率低,所以小目標(biāo)檢測(cè)的另一種直接方法是生成高分辨率圖像作為檢測(cè)模型的輸入。Hu等人[67]利用雙線性插值獲得了兩次上采樣的輸入圖像來(lái)訓(xùn)練卷積模型,F(xiàn)ookes等人[68]使用傳統(tǒng)的超分辨率技術(shù)來(lái)更好地識(shí)別人臉。雖然這樣提升了輸入圖像的分辨率有益于小目標(biāo)的檢測(cè),但也帶來(lái)了其他問(wèn)題,超分辨率模型與檢測(cè)模型是相互獨(dú)立訓(xùn)練的,經(jīng)由超分辨率模型生成的高分辨率輸入圖像中也包括無(wú)需檢測(cè)以及對(duì)檢測(cè)不必要的對(duì)象和因素,而輸入圖像分辨率的增加使得整體架構(gòu)過(guò)分沉重,模型的訓(xùn)練和預(yù)測(cè)時(shí)間都會(huì)大幅增加,降低了在實(shí)際應(yīng)用的可能性。Haris 等人[69]也針對(duì)這一問(wèn)題提出一種端到端聯(lián)合訓(xùn)練超分辨率模型和檢測(cè)模型的架構(gòu),但仍舊有大量與檢測(cè)任務(wù)無(wú)關(guān)的圖像執(zhí)行超分辨率從而拉低整體效率。
表2 輕量級(jí)網(wǎng)絡(luò)簡(jiǎn)要介紹及對(duì)比
表3 結(jié)合輕量化策略的目標(biāo)檢測(cè)方法
隨著深度學(xué)習(xí)在超分辨率技術(shù)上[70]的逐步應(yīng)用,人們開(kāi)始將目光從輸入圖像的分辨率提升轉(zhuǎn)移到了特征的分辨率提升。Krishna等人[71]基于Faster RCNN算法將超分辨率網(wǎng)絡(luò)整合進(jìn)目標(biāo)檢測(cè)模型中,從而提升提取特征的效果,但是由于小目標(biāo)本身包含的信息量不足,所提取的特征在經(jīng)過(guò)超分辨率后效果仍舊不是很好。而后Ledig等人[72]首次將生成對(duì)抗網(wǎng)絡(luò)(GAN)[73]應(yīng)用于超分辨率技術(shù)上并超越了以往的基于深度卷積網(wǎng)絡(luò)的超分辨率模型,與雙線性插值調(diào)整圖像分辨率的方式相比,利用GAN來(lái)進(jìn)行超分辨率生成的圖片質(zhì)量更高、偽影更少,雖然相比于以往的超分辨率方法效率較低,但這也給小目標(biāo)檢測(cè)的特征增強(qiáng)開(kāi)拓了新的研究思路。Li等人[74]認(rèn)為小目標(biāo)的特征雖然包含的信息量少,但是與常規(guī)目標(biāo)特征之間是具有某種映射關(guān)系的,于是率先將生成對(duì)抗網(wǎng)絡(luò)應(yīng)用于小目標(biāo)檢測(cè)上,提出了感知生成對(duì)抗網(wǎng)絡(luò)(Perceptual GAN),利用GAN 來(lái)學(xué)習(xí)這種映射關(guān)系并縮小小目標(biāo)與常規(guī)目標(biāo)之間的特征差距以達(dá)到提升小目標(biāo)檢測(cè)效果的目的。如圖9所示,Perceptual GAN 分為生成器與判別器兩個(gè)子網(wǎng)絡(luò),先利用包含常規(guī)目標(biāo)的圖像訓(xùn)練判別器的底層卷積與感知分支,而后利用生成器訓(xùn)練包含小目標(biāo)的圖像,生成小目標(biāo)特征的超分表示,通過(guò)判別器的對(duì)抗分支來(lái)區(qū)分小目標(biāo)特征的超分表示與常規(guī)目標(biāo)特征,引入Perceptual Los 聯(lián)合交替訓(xùn)練,不斷提高生成器的生成能力和判別器的判別能力,使生成器生成的小目標(biāo)超分特征逐漸接近常規(guī)目標(biāo)特征,最終在TT100k數(shù)據(jù)集上相比于Faster RCNN算法的小目標(biāo)檢測(cè)率取得了較為明顯的提升。隨后Bai 等人[75]也提出一種利用GAN來(lái)針對(duì)ROI進(jìn)行超分辨率的小目標(biāo)檢測(cè)算法——SOD-MTGAN,并可于任何現(xiàn)有的檢測(cè)器結(jié)合使用,但由于針對(duì)ROI 區(qū)域,忽略了小目標(biāo)的上下文信息。Noh等人[76]的工作證明,現(xiàn)有用于小目標(biāo)的特征級(jí)超分辨率模型缺乏直接的監(jiān)督,訓(xùn)練不穩(wěn)定,限制了超分辨率特征的質(zhì)量,同時(shí)在針對(duì)整體圖像特征的超分辨率任務(wù)時(shí),高低分辨率特征對(duì)的相對(duì)感受野差別不大,而小目標(biāo)檢測(cè)所針對(duì)的小目標(biāo)特征差異較大,也會(huì)對(duì)生成效果帶來(lái)影響。
總之,目前基于多尺度的方法通常通過(guò)結(jié)合多個(gè)低層特征來(lái)增強(qiáng)高層特征,以增加特征維度和信息量,無(wú)法保證所構(gòu)造的特征對(duì)小目標(biāo)具有足夠的可解釋性和區(qū)分性,而目前的基于超分辨率的小目標(biāo)檢測(cè)方法相對(duì)而言解釋性較強(qiáng),效果也十分可觀,在MS COCO、TT100k 等數(shù)據(jù)集上也取得了十分具有競(jìng)爭(zhēng)力的結(jié)果,但是硬件要求相對(duì)較高,極度依賴海量的數(shù)據(jù),未來(lái)仍有大幅的提升空間。
除開(kāi)基于多尺度和超分辨率的小目標(biāo)檢測(cè)方法外,還有一些比較優(yōu)秀的方法。Takeki 等人[77]針對(duì)天空大背景下的小目標(biāo)鳥類識(shí)別,提出了一種聯(lián)合了語(yǔ)義分割方法的小目標(biāo)檢測(cè)方法,并利用了小目標(biāo)的弱語(yǔ)義性,將全卷積網(wǎng)絡(luò)的變體和卷積網(wǎng)絡(luò)結(jié)合并集成支持向量機(jī),但是僅針對(duì)該特定環(huán)境難以進(jìn)行擴(kuò)展。在遙感衛(wèi)星圖像小目標(biāo)檢測(cè)領(lǐng)域中,Ren 等人[78]對(duì)Faster RCNN 的RPN 模塊進(jìn)行研究,提出常規(guī)RPN 模塊對(duì)應(yīng)的anchor框尺度太大,無(wú)法覆蓋遙感數(shù)據(jù)集中的小目標(biāo),所以專門設(shè)計(jì)對(duì)應(yīng)小目標(biāo)尺度的RPN 模塊,并結(jié)合上下文信息以改進(jìn)模型性能,并在他們自制的SORSI遙感數(shù)據(jù)集(包含5 216 張輪船圖像和706 張飛機(jī)圖像)上達(dá)到了78.9%的平均精度,但受限于訓(xùn)練樣本,對(duì)于復(fù)雜場(chǎng)景中的遙感目標(biāo)和密集的小型光學(xué)遙感目標(biāo)效果依舊不佳。在小人臉檢測(cè)方面,Zhang 等人[79]參考OHEM[80]中的難負(fù)例挖掘思想,在圖像級(jí)和特征級(jí)上動(dòng)態(tài)地給訓(xùn)練圖像分配難度分?jǐn)?shù),以判斷圖像是否已被很好地檢測(cè)或是對(duì)進(jìn)一步的訓(xùn)練有用,充分利用那些未被完美檢測(cè)的圖像以更好地監(jiān)督接下來(lái)的學(xué)習(xí)過(guò)程,并在WIDER FACE數(shù)據(jù)集上獲得了優(yōu)異表現(xiàn),尤其是hard子集上也達(dá)到了89.7%的精度。Luo 等人[81]提出一種四分支人臉檢測(cè)體系結(jié)構(gòu),將大中小臉?lè)珠_(kāi)進(jìn)行處理,并采用特征融合技術(shù)的同時(shí)增加更多的anchor匹配小臉,進(jìn)一步提高了對(duì)小人臉的檢測(cè)能力。
圖9 Preceptual GAN模型結(jié)構(gòu)
Chen等人[82]在RCNN的基礎(chǔ)上進(jìn)行擴(kuò)展,改進(jìn)后的RCNN 模型可以針對(duì)小目標(biāo)檢測(cè)任務(wù)生成更小的候選框,雖然在精度上有所提升,但是對(duì)計(jì)算資源要求太大,效率低,無(wú)法實(shí)現(xiàn)實(shí)時(shí)檢測(cè)。Eggert 等人[83]也在RCNN的基礎(chǔ)上進(jìn)行改進(jìn),對(duì)如何anchor 尺寸進(jìn)行探討,并對(duì)特征圖分辨率與小目標(biāo)檢測(cè)效果的關(guān)系進(jìn)行研究,而后修改了候選框的生成方法用于公司商標(biāo)的檢測(cè)[84]。Cai等人[85]提出,現(xiàn)有的檢測(cè)模型的檢測(cè)結(jié)果,bounding box并不是特別準(zhǔn),很容易被噪聲干擾,經(jīng)過(guò)研究發(fā)現(xiàn),對(duì)于不同的IoU 閾值,閾值越高,網(wǎng)絡(luò)對(duì)于準(zhǔn)確度較高的候選框的效果也就越好。針對(duì)這一結(jié)論,提出一種級(jí)聯(lián)區(qū)域卷積神經(jīng)網(wǎng)絡(luò)模型(Cascade RCNN),引入不同的IoU閾值,訓(xùn)練多個(gè)級(jí)聯(lián)檢測(cè)器,提高了小目標(biāo)的檢測(cè)精度和bounding box 的定位精度,在Faster RCNN、R-FCN、FPN 三種two-stage 檢測(cè)器作為基準(zhǔn)的情況下均能穩(wěn)定提升3到4個(gè)百分點(diǎn),但正因?yàn)椴煌A段的IoU閾值不同,容易導(dǎo)致在前兩個(gè)stage中表現(xiàn)較好的樣本在第三個(gè)stage中獲得低分被判為負(fù)樣本,雖然其采用了三個(gè)stage分?jǐn)?shù)平均的策略用以平衡,但仍舊會(huì)有一定的正樣本被誤判。
Zoph等人[86]表示,未來(lái)的輕量化模型提取特征的能力必然有限,從數(shù)據(jù)增強(qiáng)方面入手是增強(qiáng)檢測(cè)效果的利器,并假設(shè)當(dāng)提出的特征足夠好,利用數(shù)據(jù)增強(qiáng)可以擺脫當(dāng)前算法嚴(yán)重的數(shù)據(jù)驅(qū)動(dòng)依賴。Kisantal 等人[87]認(rèn)為,小目標(biāo)檢測(cè)精度低主要有兩個(gè)原因,一是現(xiàn)有公共數(shù)據(jù)集中含有小目標(biāo)的圖片較少,二是即便圖片中含有小目標(biāo),但是出現(xiàn)次數(shù)少模型訓(xùn)練不充分,針對(duì)這點(diǎn)提出了一種過(guò)度采樣復(fù)制粘貼小目標(biāo)以增強(qiáng)數(shù)據(jù)的手段。如圖10 所示,通過(guò)復(fù)制圖像中小目標(biāo)粘貼到圖像中的不同位置,增加了圖像中小目標(biāo)的數(shù)量和位置多樣性,同時(shí)相對(duì)應(yīng)匹配的anchor 數(shù)目也會(huì)增強(qiáng),從而降低了漏檢率,以Mask RCNN 算法為基準(zhǔn),在MS COCO數(shù)據(jù)集上相比未進(jìn)行數(shù)據(jù)增強(qiáng)的方法,小目標(biāo)的檢測(cè)精度提高了7.1 個(gè)百分點(diǎn)。除此之外,還有一些學(xué)者也提出了一些基于深度學(xué)習(xí)的小目標(biāo)檢測(cè)算法,如表4所示。
圖10 通過(guò)復(fù)制粘貼小目標(biāo)以達(dá)到數(shù)據(jù)增強(qiáng)的例子
本文系統(tǒng)地闡述了近些年來(lái)目標(biāo)檢測(cè)領(lǐng)域的研究進(jìn)展,包括傳統(tǒng)的目標(biāo)檢測(cè)方法和基于深度學(xué)習(xí)的目標(biāo)檢測(cè)方法,并對(duì)時(shí)下熱門的相關(guān)數(shù)據(jù)集進(jìn)行了綜述與分析。重點(diǎn)關(guān)注目標(biāo)檢測(cè)領(lǐng)域中較為困難的小目標(biāo)檢測(cè)問(wèn)題,分析了近幾年來(lái)國(guó)內(nèi)外在小目標(biāo)檢測(cè)問(wèn)題上的一些改進(jìn)算法,希望能給相關(guān)領(lǐng)域內(nèi)的科研人員帶來(lái)新的研究思路。雖然現(xiàn)有小目標(biāo)檢測(cè)算法已經(jīng)取得了一些成果,但精度依然很低,隨著現(xiàn)實(shí)生活中部署的計(jì)算機(jī)視覺(jué)系統(tǒng)的逐漸復(fù)雜化,小目標(biāo)檢測(cè)的精度要求也會(huì)逐漸提高,通過(guò)對(duì)上述技術(shù)的總結(jié)分析,提出以下幾點(diǎn)觀點(diǎn)。
表4 其他基于深度學(xué)習(xí)的小目標(biāo)檢測(cè)方法
(1)結(jié)合傳統(tǒng)方法進(jìn)行小目標(biāo)檢測(cè)。雖然基于深度學(xué)習(xí)的方法是近年來(lái)的主流,但大量工作表明由于小目標(biāo)包含的信息量少,語(yǔ)義信息不充分,利用深度卷積網(wǎng)絡(luò)提取的特征雖然語(yǔ)義信息充分,對(duì)于小目標(biāo)而言效果卻不是很好??紤]研究一些對(duì)小目標(biāo)更具有表征能力的特征,結(jié)合一些非深度學(xué)習(xí)的方法用以特征提取,如隨機(jī)森林、圖像的局部秩等,或許可以起到更好的效果。
(2)引入注意力機(jī)制?,F(xiàn)如今的多尺度檢測(cè)網(wǎng)絡(luò)已經(jīng)可以很好地利用來(lái)自網(wǎng)絡(luò)淺層的特征信息,但淺層特征同時(shí)也有來(lái)自圖像背景的噪聲信息,考慮引入注意力機(jī)制來(lái)進(jìn)行檢測(cè)可以有助于減少不必要的淺層特征信息,以提高小目標(biāo)的檢測(cè)效果。如2018年Hu等人提出的SENet[101],其作為通道上的注意力機(jī)制,強(qiáng)化重要通道的特征,弱化非重要通道的特征,可以靈活地嵌入各種網(wǎng)絡(luò)結(jié)構(gòu)中以提升效果,作為一款輕量級(jí)結(jié)構(gòu),額外增加的計(jì)算量相對(duì)較少。除了通道上的注意力機(jī)制,還有空間方向的注意力機(jī)制,通過(guò)空間方向的變換,使得目標(biāo)樣本的局部空間特征更容易被學(xué)習(xí),相比于通道方向的,計(jì)算量略微有所增加,但可以獲得更高的精度??梢钥紤]將二者進(jìn)行結(jié)合,針對(duì)小目標(biāo)靈活設(shè)計(jì)結(jié)構(gòu),以獲得更低的計(jì)算代價(jià)和更高的精度。
(3)構(gòu)建更為完善的小目標(biāo)檢測(cè)數(shù)據(jù)集。雖然現(xiàn)有的VOC 數(shù)據(jù)集、COCO 數(shù)據(jù)集都得到了研究人員的廣泛認(rèn)同,但深度學(xué)習(xí)方法的發(fā)展始終離不開(kāi)數(shù)據(jù)。而上述數(shù)據(jù)集中的小目標(biāo)樣本仍舊不夠充分,樣本的不平衡、樣本量的不夠,都阻礙著小目標(biāo)檢測(cè)的發(fā)展,因此仍需要考慮建立一個(gè)專門的小目標(biāo)檢測(cè)數(shù)據(jù)集,或者另辟蹊徑,采用某種數(shù)據(jù)增強(qiáng)的方式來(lái)建立小目標(biāo)的仿真數(shù)據(jù)集,也不失為是一個(gè)補(bǔ)充訓(xùn)練樣本的好辦法。
(4)模型的輕量化,以提高檢測(cè)系統(tǒng)的實(shí)時(shí)性、準(zhǔn)確性和魯棒性。隨著時(shí)代發(fā)展,各個(gè)領(lǐng)域中小目標(biāo)檢測(cè)的需求也逐漸增多,而在目前的研究中,為了提高精度,往往模型都十分冗余,比如增加超分辨率模塊導(dǎo)致運(yùn)算量的大幅提升。要想在實(shí)際應(yīng)用中發(fā)揮效果,必須保證模型的實(shí)時(shí)性、準(zhǔn)確性和魯棒性。因此如何保證模型的輕量化的同時(shí)又不失準(zhǔn)確性也將會(huì)成為未來(lái)的研究熱點(diǎn)。
(5)在模型訓(xùn)練過(guò)程中,著重針對(duì)小目標(biāo)進(jìn)行訓(xùn)練。現(xiàn)下的模型對(duì)大中目標(biāo)檢測(cè)效果好,對(duì)小目標(biāo)檢測(cè)效果差也是由于在訓(xùn)練過(guò)程中對(duì)小目標(biāo)的監(jiān)督不夠完善,小目標(biāo)的損失對(duì)整體的模型損失貢獻(xiàn)較少,考慮在訓(xùn)練過(guò)程中專門針對(duì)小目標(biāo)著重采樣,提高訓(xùn)練質(zhì)量。
(6)基于anchor-free的小目標(biāo)檢測(cè)方法研究。雖然現(xiàn)在的基于anchor的目標(biāo)檢測(cè)方法已經(jīng)十分出色,在單階段與兩階段方法上都得到了廣泛應(yīng)用,但仍舊存在許多不足。由于基于anchor 的方法都有一組預(yù)先定義的尺度框,導(dǎo)致對(duì)尺度較小的目標(biāo)不夠敏感,或者需要專門預(yù)設(shè)針對(duì)小目標(biāo)的尺度框,但這樣對(duì)硬件的要求極高。同時(shí)預(yù)設(shè)的尺度框多為負(fù)樣本,容易造成正負(fù)樣本的不平衡從而影響訓(xùn)練效果。所以考慮研究無(wú)錨點(diǎn)的方法進(jìn)行小目標(biāo)檢測(cè),最近也有一些研究證明anchor-free的方法一樣可以達(dá)到接近基于anchor 的目標(biāo)檢測(cè)方法的效果,將anchor-free 的方法用以小目標(biāo)檢測(cè),或許也能使小目標(biāo)檢測(cè)的研究得到推動(dòng)。
目前基于深度學(xué)習(xí)的方法已成為主流趨勢(shì),并從簡(jiǎn)單的模型逐漸向復(fù)雜模型進(jìn)行演化,多尺度特征融合、通過(guò)更高的分辨率提升小目標(biāo)的檢測(cè)效果、數(shù)據(jù)的增強(qiáng)等,都是小目標(biāo)檢測(cè)未來(lái)發(fā)展的趨勢(shì)。雖然現(xiàn)有小目標(biāo)檢測(cè)算法已經(jīng)取得了一些成果,但精度依然很低,隨著現(xiàn)實(shí)生活中部署的計(jì)算機(jī)視覺(jué)系統(tǒng)的逐漸復(fù)雜化,小目標(biāo)檢測(cè)的精度和實(shí)時(shí)性要求也會(huì)逐漸提高,還有很長(zhǎng)的一段路要走,未來(lái)可以考慮引入注意力機(jī)制以及在高分辨率輕量級(jí)網(wǎng)絡(luò)上進(jìn)行發(fā)展。