王婉婷,姜國(guó)龍,褚云飛,陳業(yè)紅
齊魯工業(yè)大學(xué)(山東省科學(xué)院) 輕工科學(xué)與工程學(xué)院,濟(jì)南 250353
物體檢測(cè)算法在深度學(xué)習(xí)的應(yīng)用下逐漸成為近年來(lái)的研究熱點(diǎn)[1]。物體檢測(cè)的目的是確定圖像中是否存在來(lái)自給定類別的物體實(shí)例(如人類、汽車、自行車、狗和貓),如果存在,則通過(guò)一個(gè)邊界框[2-3]來(lái)返回每個(gè)物體實(shí)例的空間位置。物體檢測(cè)在人工智能和信息技術(shù)的許多領(lǐng)域都有廣泛的應(yīng)用,包括機(jī)器視覺(jué)、安全監(jiān)控、自動(dòng)駕駛、人機(jī)交互、虛擬現(xiàn)實(shí)和增強(qiáng)現(xiàn)實(shí)等[4]。
一般來(lái)說(shuō),基于深度學(xué)習(xí)的物體檢測(cè)方法主要有基于候選區(qū)域和非候選區(qū)的方法。其中,基于候選區(qū)域的方法通常是二步檢測(cè)法,即需要先從輸入的圖像中生成一系列區(qū)域,然后利用CNN從生成的區(qū)域中提取特征并構(gòu)造一個(gè)目標(biāo)分類器,最后在候選區(qū)域上進(jìn)行分類與回歸。基于候選區(qū)域的卷積神經(jīng)網(wǎng)絡(luò)(RCNN)[5]法是最早引入深度學(xué)習(xí)的方法。它采用選擇性搜索(Selective Search,SS)[6]的策略在輸入圖像中生成候選區(qū)域,并使用卷積神經(jīng)網(wǎng)絡(luò)從生成的候選區(qū)域中提取特征。提取的特征用于訓(xùn)練支持向量機(jī)(SVM)[7]。在RCNN方法的基礎(chǔ)上,研究人員提出了Fast RCNN[8]和Faster RCNN[9],以減少訓(xùn)練時(shí)間,提高精度。雖然基于候選區(qū)域的方法具有較高的檢測(cè)精度,但該方法結(jié)構(gòu)復(fù)雜且檢測(cè)耗時(shí)。而基于非候選區(qū)域的一步檢測(cè)法比較有代表性的是YOLO系列算法,其結(jié)構(gòu)簡(jiǎn)單并能夠快速檢測(cè)出物體,但準(zhǔn)確度卻不如基于候選區(qū)域的二步檢測(cè)方法。這兩類方法具有不同的優(yōu)點(diǎn)且適用于不同的應(yīng)用場(chǎng)合。本文主要對(duì)該兩類方法進(jìn)行詳細(xì)的綜述。
傳統(tǒng)的物體檢測(cè)算法在準(zhǔn)確度、魯棒性、運(yùn)行速度上都存在一定缺陷,研究人員為此不斷尋求新的解決方法。RCNN家族將候選區(qū)域和CNN相結(jié)合來(lái)避免傳統(tǒng)方法帶來(lái)的弊端。這類算法首先使用區(qū)域選擇方法從圖像中生成與類別無(wú)關(guān)的候選區(qū)域,再?gòu)倪@些區(qū)域中進(jìn)行CNN的特征提取、使用分類器來(lái)確定類別并進(jìn)行邊界框的位置回歸,從而完成物體檢測(cè)任務(wù)。
根據(jù)AlexNet[10]在圖像特征提取方面取得巨大成功的啟發(fā),Girshick等[5]采用深度卷積網(wǎng)絡(luò)作為特征提取的骨干網(wǎng)絡(luò),并結(jié)合區(qū)域選擇方法,以生成候選區(qū)域并形成RCNN架構(gòu)。該模型成為了基于深度學(xué)習(xí)的物體檢測(cè)算法的開(kāi)端。其算法過(guò)程如圖1a:首先,利用SS算法生成約2 000個(gè)與類別無(wú)關(guān)的候選區(qū)域;其次,將候選區(qū)域歸一化后輸入到深度網(wǎng)絡(luò)中;接著使用SVM分類器對(duì)特征進(jìn)行分類,預(yù)測(cè)對(duì)應(yīng)的類別;最后,通過(guò)邊界框回歸和和非極大值抑制來(lái)進(jìn)行邊界框的微調(diào)。
Girshick等提出了Fast RCNN[8],在RCNN的基礎(chǔ)上加入了空間金字塔池化(Spatial Pyramid Pooling,SPP)[11]以及感興趣區(qū)域(Region of Interest,RoI)池化層。Fast RCNN的流程如圖1b所示。
鑒于Fast RCNN采用選擇性搜索來(lái)找出所有候選框的方法也非常耗時(shí)。為解決這一缺點(diǎn),Shaoqing Ren等提出了Faster RCNN[9]算法。應(yīng)用一個(gè)準(zhǔn)確高效的候選區(qū)域網(wǎng)絡(luò)(Regional Proposal Network,RPN)來(lái)代替選擇性搜索來(lái)生成候選區(qū)域。RPN的引入減少了候選框的數(shù)量,提高了候選區(qū)域的質(zhì)量,提升了物體檢測(cè)的定位精度和速度。其流程如圖1c所示。
注:a)RCNN檢測(cè);b)Fast RCNN檢測(cè);c)Faster RCNN檢測(cè)。
為彌補(bǔ)Faster RCNN在檢測(cè)速度上難以滿足實(shí)時(shí)要求的缺點(diǎn),Redmon等[12]在2016年提出了YOLO(You Only Look Once)物體檢測(cè)算法,一種端到端的一步檢測(cè)系統(tǒng),并且經(jīng)歷了從v1到v5的版本更新,逐漸成為物體檢測(cè)的主流框架。
YOLOv1[12]通過(guò)CNN直接在一張完整的圖像上實(shí)現(xiàn)物體類別概率和邊界框回歸的預(yù)測(cè)。其網(wǎng)絡(luò)結(jié)構(gòu)是在GoogLeNet[13]模型的基礎(chǔ)上建立的。YOLO的實(shí)現(xiàn)過(guò)程如圖2。首先,將輸入圖像固定為統(tǒng)一尺寸(448×448),輸入的圖像劃分為S×S個(gè)網(wǎng)格,每個(gè)網(wǎng)格負(fù)責(zé)檢測(cè)一個(gè)物體中心落在其上的目標(biāo),并預(yù)測(cè)該物體的confidence(置信度)、類別及位置;其次,利用CNN對(duì)輸入圖像提取特征并進(jìn)行物體檢測(cè);最后,通過(guò)非極大值抑制(Non-Maximum Suppression,NMS)[14]處理邊界框得到最優(yōu)結(jié)果。YOLO劃分的每個(gè)網(wǎng)格檢測(cè)一個(gè)物體,并將檢測(cè)邊界框轉(zhuǎn)化為回歸問(wèn)題,以使該構(gòu)架可以直接從輸入圖像中提取特征來(lái)預(yù)測(cè)物體邊界框和類別概率。
圖2 YOLO算法實(shí)現(xiàn)流程[12]
YOLO檢測(cè)系統(tǒng)的設(shè)計(jì)是將輸入的448×448×3的圖像劃分為7×7的網(wǎng)格,其預(yù)測(cè)輸出張量的計(jì)算表示為:
S×S(B×5+C)
(1)
其中,S×S表示輸入圖像劃分的網(wǎng)格數(shù)量,對(duì)應(yīng)特征圖的分辨率;B表示每個(gè)網(wǎng)格生成B個(gè)邊界框;5表示預(yù)測(cè)參數(shù)數(shù)量(x,y,w,h,confidence);C表示能檢測(cè)到識(shí)別的種類(20)。
相比于0.5 fps的Fast RCNN和7 fps的Faster RCNN,YOLO網(wǎng)絡(luò)以45 fps的速度運(yùn)行,在運(yùn)行速度上有大幅提升,但在預(yù)測(cè)精度上仍存在一定不足,容易產(chǎn)生更多的定位誤差,尤其對(duì)于小目標(biāo)物體無(wú)法準(zhǔn)確檢測(cè)出來(lái)。
YOLOv2[15]相對(duì)v1版本,主要從預(yù)測(cè)精度、速度、識(shí)別物體數(shù)目這三個(gè)方面進(jìn)行了改進(jìn)。YOLOv2識(shí)別的物體變得更多,即擴(kuò)展到能夠檢測(cè)9 000種不同物體,又稱為YOLO9000。它采用更簡(jiǎn)單的特征提取網(wǎng)絡(luò)DarkNet19[15]來(lái)取代GoogLeNet網(wǎng)絡(luò);引入了批次歸一化(Batch Normalization,BN)層[16]來(lái)加強(qiáng)網(wǎng)絡(luò)的收斂速度,增強(qiáng)了網(wǎng)絡(luò)的泛化能力;訓(xùn)練高分辨率分類器以適應(yīng)更高分辨率的圖像;利用WordTree將ImageNet[17]分類數(shù)據(jù)集和COCO[18]檢測(cè)數(shù)據(jù)集聯(lián)合訓(xùn)練;除去全連接層并采用k-means聚類算法自動(dòng)尋找先驗(yàn)框——錨框(anchor boxes),從而提高檢測(cè)性能。其中,錨框是基于一個(gè)窗口只能檢測(cè)一個(gè)目標(biāo)以及無(wú)法進(jìn)行多尺度檢測(cè)問(wèn)題所提出的一種先驗(yàn)框。
2018年,原作者提出了YOLOv3算法[19],它繼承了YOLOv1和YOLO9000的思想,實(shí)現(xiàn)了速度和檢測(cè)精度的平衡。該算法對(duì)DarkNet19再加以改進(jìn)設(shè)計(jì)出了DarkNet53網(wǎng)絡(luò),其靈感來(lái)自于ResNet(殘差網(wǎng)絡(luò))[20],在網(wǎng)絡(luò)中加入直連通道,允許輸入的信息直接傳到后面的層,同時(shí)引入了特征金字塔(Feature Pyramid Networks,FPN)[21]來(lái)實(shí)現(xiàn)多尺度預(yù)測(cè),通過(guò)這種新的特征連接方式能有效提高小物體的檢測(cè)能力。YOLOv3引入殘差結(jié)構(gòu)并通過(guò)卷積層來(lái)實(shí)現(xiàn)特征圖尺寸的修改,其網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。
圖3 基于Darknet-53的YOLOv3結(jié)構(gòu)示意圖[19]
2020年4月,Alexey等[22]在 YOLOv3 的基礎(chǔ)上做了各方面改進(jìn)并提出了新的高效檢測(cè)物體的算法—YOLOv4。其特點(diǎn)在于集大成,包括新的數(shù)據(jù)增強(qiáng)方法Mosaic法和自對(duì)抗訓(xùn)練(Self-Adversarial Training,SAT)法、提出了改進(jìn)的SAM[23]和PAN[24]以及交叉小批量標(biāo)準(zhǔn)化(Cross mini-Batch Normalization,CmBN)。YOLOv4的框架如圖4所示。包括YOLOv3的Head、SPP和PAN的Neck以及CSPDarkNet53[25]的Backbone。
圖4 YOLOv4結(jié)構(gòu)
YOLOv4分成了4個(gè)部分。包括輸入端、BackBone主干網(wǎng)絡(luò)、Neck、預(yù)測(cè)部分。其中,輸入端主要包括Mosaic、cmBN、SAT;主干網(wǎng)絡(luò)包括CSPDarknet53網(wǎng)絡(luò)、Mish激活函數(shù)、Dropblo-ck[26];Neck部分包括SPP模塊、FPN+PAN結(jié)構(gòu);預(yù)測(cè)部分主要為改進(jìn)的損失函數(shù)CIOU_Loss,以及邊界框篩選的nms變?yōu)镈IOU_nms。
繼YOLOv4之后時(shí)隔2個(gè)月,有研究人員推出了YOLOv5算法。在準(zhǔn)確度指標(biāo)上,其性能與YOLOv4不相上下,速度上遠(yuǎn)超v4,模型尺寸相比于YOLOv4(245 MB)也非常小(27 MB),在模型部署上有極強(qiáng)的優(yōu)勢(shì),同樣也是目前最先進(jìn)的物體檢測(cè)技術(shù)。YOLOv5結(jié)構(gòu)與YOLOv4略微相似,但又有所不同。其輸入端采用了Mosaic數(shù)據(jù)增強(qiáng)[27]、自適應(yīng)錨框計(jì)算、自適應(yīng)圖片縮放方法;框架包括Focus結(jié)構(gòu),CSP結(jié)構(gòu)的Backbone和FPN結(jié)構(gòu)的Neck。YOLOv5雖然對(duì)當(dāng)前的深度學(xué)習(xí)構(gòu)建的各種技術(shù)進(jìn)行了優(yōu)化整合并發(fā)布了代碼,但論文仍處于未發(fā)表階段,所以對(duì)于v5版本的性能評(píng)價(jià)還沒(méi)有明確的認(rèn)定。
通過(guò)YOLO系列算法的改進(jìn)并與RCNN系列算法作比較可知,相對(duì)于RCNN系列的候選框的提取與分類,YOLO實(shí)現(xiàn)了“只需看一眼即可實(shí)現(xiàn)”;另外,YOLO將檢測(cè)統(tǒng)一為一個(gè)回歸問(wèn)題,而RCNN將檢測(cè)結(jié)果劃分為物體類別(分類問(wèn)題)和物體位置(回歸問(wèn)題)兩部分進(jìn)行求解。一系列的改進(jìn)方法讓YOLO在物體檢測(cè)速度上占據(jù)領(lǐng)導(dǎo)地位。YOLOv1到Y(jié)OLOv4版本的發(fā)展如表1所示。
表1 YOLOv1到v4的網(wǎng)絡(luò)結(jié)構(gòu)特點(diǎn)和模型發(fā)展
卷積網(wǎng)絡(luò)在物體檢測(cè)上涉及了眾多的應(yīng)用領(lǐng)域,諸如食品蔬菜的分類檢測(cè)、交通流量監(jiān)控、火災(zāi)熱源探測(cè)、車輛檢測(cè)等。
Jahani Heravi等提出了一種新的具有23層結(jié)構(gòu)的深度ConvNet網(wǎng)絡(luò)對(duì)Food-101數(shù)據(jù)集和UECFood256數(shù)據(jù)集進(jìn)行訓(xùn)練[28],結(jié)果表明,相比于AlexNet、GoogleNet和VGGNet[29]網(wǎng)絡(luò),該網(wǎng)絡(luò)具有更高的精度且網(wǎng)絡(luò)層次更深,用最少的參數(shù)學(xué)習(xí)更復(fù)雜的結(jié)果,將最先進(jìn)的網(wǎng)絡(luò)應(yīng)用于食品領(lǐng)域來(lái)開(kāi)發(fā)食品檢測(cè)系統(tǒng);Sachin等使用YOLO模型對(duì)黃瓜、青蘋果、青椒三種蔬菜進(jìn)行檢測(cè)和分類[30],通過(guò)建立三種蔬菜的檢測(cè)和分類模型來(lái)實(shí)現(xiàn)YOLO算法,結(jié)果表明該算法能在各種約束條件下檢測(cè)并分類出60%~70%的收獲量,并成功識(shí)別出圖中的多種蔬菜;Chang-Yu Cao等提出了一種基于TensorFlow的改進(jìn)YOLO模型——YOLO-UA,通過(guò)使用YOLO的預(yù)訓(xùn)練模型的權(quán)重來(lái)進(jìn)行初始化,并優(yōu)化損失函數(shù),引入權(quán)重正則化來(lái)實(shí)現(xiàn)交通的實(shí)時(shí)檢測(cè)和流量統(tǒng)計(jì)[31];Dewi等使用YOLO和Tiny YOLO[32]模型檢測(cè)CCTV視頻中的火災(zāi)熱點(diǎn)[33],且準(zhǔn)確率高達(dá)90%,有助于消防員的疏散;Jimin Yu等對(duì)YOLOv4模型中的CSPDarknet53和PANet網(wǎng)絡(luò)進(jìn)行改進(jìn),以提取更多語(yǔ)義信息來(lái)檢測(cè)口罩[34]。
由此可見(jiàn),逐漸興起的物體檢測(cè)技術(shù)應(yīng)用到了生活中的方方面面,利用計(jì)算機(jī)的自動(dòng)檢測(cè)系統(tǒng)減輕了人類的負(fù)擔(dān),為人們的生活帶來(lái)了更多的便利。
在物體檢測(cè)研究中,數(shù)據(jù)集上的評(píng)估標(biāo)準(zhǔn)是評(píng)價(jià)網(wǎng)絡(luò)性能的標(biāo)準(zhǔn),當(dāng)前的物體檢測(cè)任務(wù)中比較流行的數(shù)據(jù)集有:ImageNet[3]、Pascal VOC[35]和MS COCO[18]。
ImageNet數(shù)據(jù)集是常用的分類數(shù)據(jù)集,它在視覺(jué)領(lǐng)域有著廣泛的應(yīng)用。其主要功能是圖像分類、物體檢測(cè)、場(chǎng)景分類等任務(wù),有易于使用的詳細(xì)數(shù)據(jù)集文檔。它包含超過(guò)1 400萬(wàn)張的圖片,涵蓋約2萬(wàn)個(gè)類別。著名的ILSVRC圖像分類和目標(biāo)檢測(cè)挑戰(zhàn)都是基于ImageNet數(shù)據(jù)集。
PASCAL VOC是常用的物體檢測(cè)數(shù)據(jù)集,它為圖像檢測(cè)、分割和分類提供了一組標(biāo)準(zhǔn)化的數(shù)據(jù)集。流行的有PASCAL VOC2007和PASCAL VOC2012數(shù)據(jù)集。訓(xùn)練集以標(biāo)記圖像的形式呈現(xiàn)。從2005年的4個(gè)類別(人、動(dòng)物、車輛和室內(nèi)對(duì)象)開(kāi)始,數(shù)據(jù)集增加到了日常生活中常見(jiàn)的20個(gè)類別。訓(xùn)練集中每個(gè)圖像都一一對(duì)應(yīng)于其注釋文件(邊界框和類標(biāo)簽)。一個(gè)圖像中可能存在多個(gè)不同類別的對(duì)象。PASCAL VOC數(shù)據(jù)集具有良好的圖像質(zhì)量和完整的標(biāo)簽,非常適合評(píng)價(jià)算法的性能。自2009年以來(lái),圖像的數(shù)量每年都在增長(zhǎng),但保留了以前的所有圖像,以便每年對(duì)測(cè)試結(jié)果進(jìn)行比較。
MS COCO也是常用的圖像檢測(cè)數(shù)據(jù)集之一,它對(duì)于圖像的標(biāo)注信息不僅有類別和位置信息,還有圖像的語(yǔ)義文本描述,主要用于物體檢測(cè)、語(yǔ)義分割等任務(wù),對(duì)于物體檢測(cè),它是挑戰(zhàn)性最大的數(shù)據(jù)集之一。其中包含日常復(fù)雜場(chǎng)景的圖像,這些場(chǎng)景在自然環(huán)境中具有共同的物體且更接近真實(shí)生活。該數(shù)據(jù)集以理解場(chǎng)景為目標(biāo),包含91個(gè)stuff類、328 000個(gè)圖像和2 500 000個(gè)標(biāo)簽。
物體檢測(cè)系統(tǒng)性能評(píng)估主要是用的評(píng)估指標(biāo)和計(jì)算方法,最后給出RCNN家族和YOLO系列在各論文中體現(xiàn)的性能比較。
3.2.1 一般性能評(píng)估方法
一般對(duì)于應(yīng)用深度學(xué)習(xí)的模型而言,常用的評(píng)價(jià)指標(biāo)有:
1)精度指標(biāo):mAP(mean average precision)。平均準(zhǔn)確度均值,精度評(píng)價(jià)。
2)速度指標(biāo):FPS(Frame Per Second)。每秒幀率,即每秒內(nèi)處理的圖片數(shù)量,且必須在同一硬件條件下進(jìn)行比較。
3) 定位準(zhǔn)確性:IOU(Intersection Over Union)。模型產(chǎn)生的目標(biāo)窗口和原來(lái)標(biāo)記窗口的交疊率。如式(2)。
(2)
即檢測(cè)結(jié)果(Detection Result)與真實(shí)值(Ground Truth)的交集比上它們的并集。理想情況下,檢測(cè)結(jié)果與真實(shí)值完全重合,即IOU=1。IOU的展示圖如圖5所示。
圖5 IOU計(jì)算示意圖
其中綠框代表目標(biāo)物體的真實(shí)值,紅框表示檢測(cè)的邊框,通過(guò)計(jì)算IOU來(lái)判斷檢測(cè)結(jié)果是否符合條件?;贗OU定義了一些列的變量和指標(biāo):
TP:IOU>0.5的檢測(cè)框數(shù)量(同一Ground Truth只計(jì)算一次);FP:IOU<=0.5的檢測(cè)框,或者是檢測(cè)到同一個(gè)GT的多余檢測(cè)框的數(shù)量;FN:沒(méi)有檢測(cè)到的GT的數(shù)量。而平均準(zhǔn)確度AP來(lái)源于精確率和召回率。
精確率表示被分為正例的示例中實(shí)際為正例的比例,定義為式(3):
(3)
召回率表示的是樣本中的正例被預(yù)測(cè)正確的度量,定義為式(4):
(4)
3.2.2 部分算法性能比較
表2為部分檢測(cè)算法在VOC數(shù)據(jù)集上的檢測(cè)結(jié)果。從表中可見(jiàn)YOLO的改進(jìn)對(duì)檢測(cè)物體的性能有顯著提升。PS指標(biāo)的建立是為了顯示各個(gè)基于相同權(quán)重的精度和速度的檢測(cè)系統(tǒng)的一般值。其定義可根據(jù)mAP和FPS的不同的權(quán)重比例來(lái)改變。其中,權(quán)重比例表示mAP和FPS對(duì)目標(biāo)物體的相對(duì)重要性。
表2 幾種檢測(cè)系統(tǒng)的性能比較[36]
本文將基于深度學(xué)習(xí)的物體檢測(cè)算法分為基于候選區(qū)域的二步檢測(cè)系統(tǒng)和基于非候選區(qū)域的一步檢測(cè)系統(tǒng),從算法的發(fā)展及不同方向的改進(jìn)角度分別對(duì)這兩類系統(tǒng)進(jìn)行了綜述。二步檢測(cè)系統(tǒng)首先生成物體候選區(qū)域,然后對(duì)候選區(qū)域進(jìn)行回歸和分類,如Faster RCNN。它在精度上比一步檢測(cè)系統(tǒng)要好,如YOLO。但是二步系統(tǒng)的速度明顯低于一步系統(tǒng)。在實(shí)踐中,精度和速度兩者需要適當(dāng)平衡。一般來(lái)說(shuō),當(dāng)精度達(dá)到一定水平時(shí),繼續(xù)提高精度所帶來(lái)的成本并不樂(lè)觀。在某些領(lǐng)域,實(shí)時(shí)性的要求使得物體檢測(cè)框架的速度比準(zhǔn)確性更為重要。另外還介紹了構(gòu)造檢測(cè)系統(tǒng)的一般方法,包括常用數(shù)據(jù)集及使用方法和案例的構(gòu)造分析。盡管物體檢測(cè)技術(shù)在各領(lǐng)域中都有廣泛的應(yīng)用且發(fā)展迅速,但依然有許多問(wèn)題待進(jìn)一步研究:1)有效結(jié)合上下文信息解決物體檢測(cè)任務(wù)中進(jìn)行的小目標(biāo)物體或遮擋部分的檢測(cè);2)研究更優(yōu)的特征提取網(wǎng)絡(luò)及邊界框的選定方法以節(jié)省繪制框的時(shí)間;3)探究最佳檢測(cè)體系結(jié)構(gòu)來(lái)平衡檢測(cè)的速度和準(zhǔn)確度。相信隨著未來(lái)基礎(chǔ)理論和相關(guān)硬件設(shè)備的不斷發(fā)展,物體檢測(cè)必將取得長(zhǎng)足的進(jìn)步。