国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于深度學(xué)習(xí)的目標(biāo)檢測(cè)算法綜述*

2022-04-12 08:37包曉敏王思琪
傳感器與微系統(tǒng) 2022年4期
關(guān)鍵詞:示意圖卷積深度

包曉敏, 王思琪

(浙江理工大學(xué) 信息學(xué)院,浙江 杭州 310018)

0 引 言

目標(biāo)檢測(cè)(object detection)[1]將待測(cè)目標(biāo)的分割、識(shí)別、語義等高級(jí)視覺問題合為一體,對(duì)圖像中的物體進(jìn)行識(shí)別和定位,其準(zhǔn)確性和實(shí)時(shí)性是衡量整個(gè)計(jì)算機(jī)視覺系統(tǒng)的一項(xiàng)重要標(biāo)準(zhǔn)。目標(biāo)檢測(cè)的目的在于解決圖像的實(shí)例分割[2]和定位框表示,所以,對(duì)圖像進(jìn)行目標(biāo)檢測(cè)不僅要確定目標(biāo)的類別,還要判斷出其像素范圍[3]。當(dāng)前,目標(biāo)檢測(cè)被廣泛應(yīng)用于不同的領(lǐng)域[4~7],例如農(nóng)業(yè)生產(chǎn)生活中的害蟲檢測(cè)[5],醫(yī)學(xué)領(lǐng)域中對(duì)病變區(qū)域的檢測(cè)[6],常見的視頻監(jiān)控[7]等等。

盡管傳統(tǒng)的機(jī)器學(xué)習(xí)檢測(cè)[8]方法在目標(biāo)識(shí)別方面取得了較好的成果,但依舊存在著不足:1)采用基于滑動(dòng)窗口的區(qū)域選擇策略,存在運(yùn)行成本和時(shí)間復(fù)雜度高等問題;2)由于待測(cè)目標(biāo)成像時(shí)存在多樣性變化和干擾,手動(dòng)選擇特征沒有較好的魯棒性。這使得傳統(tǒng)目標(biāo)檢測(cè)方法的準(zhǔn)確性和實(shí)時(shí)性存在著許多挑戰(zhàn)。如何能夠?qū)ξ矬w進(jìn)行精準(zhǔn)、實(shí)時(shí)檢測(cè)成為了當(dāng)前目標(biāo)檢測(cè)算法研究的關(guān)鍵問題。2012年的ILSVRC圖像分類比賽中,Alex提出了著名的AlexNet卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)模型[8]在極大地提高了圖片分類的準(zhǔn)確率同時(shí)縮短了檢測(cè)時(shí)間,擺脫了傳統(tǒng)檢測(cè)方法的困境,自此深度學(xué)習(xí)技術(shù)開始走進(jìn)主流學(xué)術(shù)界。與傳統(tǒng)的提取特征方法不同,深度學(xué)習(xí)依靠大量的數(shù)據(jù),通過卷積神經(jīng)網(wǎng)絡(luò)自主學(xué)習(xí)獲得有用的特征信息,從而對(duì)物體進(jìn)行更高精度的分類識(shí)別[9]。

1 兩階段深度學(xué)習(xí)算法

傳統(tǒng)的目標(biāo)檢測(cè)方法存在著魯棒性差、計(jì)算成本高等缺點(diǎn),國(guó)內(nèi)外的學(xué)者們不斷在目標(biāo)檢測(cè)領(lǐng)域進(jìn)行探索,希望找到新的方法突破這一瓶頸。兩階段深度學(xué)習(xí)算法[15]通過選擇性搜索、邊界箱等常見區(qū)域選擇方法生成候選區(qū)域,接著在候選區(qū)域與卷積神經(jīng)網(wǎng)絡(luò)相結(jié)合提取特征并進(jìn)行回歸分類。這一類檢測(cè)算法需要分兩步完成,即先產(chǎn)生候選區(qū)域再進(jìn)行特征提取,被稱為兩階段深度學(xué)習(xí)算法,其具有準(zhǔn)確度高但速度相對(duì)慢的特點(diǎn),典型的基于候選區(qū)域的檢測(cè)算法有區(qū)域卷積神經(jīng)網(wǎng)絡(luò)(region-CNN,R-CNN)、空間金字塔池化網(wǎng)絡(luò)(spatial pyramid pooling-Net,SPP-Net)[16]、快速區(qū)域卷及神經(jīng)網(wǎng)絡(luò)(fast R-CNN)、快速區(qū)域卷及神經(jīng)網(wǎng)絡(luò)(faster R-CNN)和掩模卷積神經(jīng)網(wǎng)絡(luò)(mask R-CNN)。

1.1 R-CNN

在2014年,Girshick R等人[17]提出了R-CNN模型并在數(shù)據(jù)集Pascal VOC 2012上,將目標(biāo)檢測(cè)的重要驗(yàn)證指標(biāo)均值平均精度(mean average precision,mAP)提升到了53.3 %。該成果比這以前的最好結(jié)果提升了30 %,引起了學(xué)術(shù)界的廣泛關(guān)注。

R-CNN算法的具體流程為:1)通過選擇搜索(selective search)網(wǎng)絡(luò)對(duì)圖像的紋理、顏色等特征進(jìn)行分析,選取出2 000個(gè)大小不同的候選區(qū)域;2)對(duì)特征向量進(jìn)行歸一化處理;3)通過深度網(wǎng)絡(luò)對(duì)輸入的候選區(qū)域進(jìn)行前向計(jì)算獲得特征;4)訓(xùn)練支持向量機(jī)(support vector machine,SVM)分類器進(jìn)行分類;5)使用回歸器精細(xì)修正每個(gè)候選框的位置。圖1為R-CNN算法示意圖。

圖1 R-CNN算法示意[18]

相較于傳統(tǒng)的物體檢測(cè)方法,R-CNN通過選擇性搜索確定候選區(qū)域來進(jìn)行目標(biāo)檢測(cè),從根本上提高了檢測(cè)效率。但是該算法依舊存在著明顯的缺點(diǎn):1)候選區(qū)需要進(jìn)行歸一化處理,這容易導(dǎo)致圖像信息缺失;2)資源利用率低,在分類和回歸操作時(shí)CNN模型的參數(shù)沒有進(jìn)行同步修改;3)每一個(gè)候選區(qū)域都需要輸入到CNN中提取特征,占用大量磁盤空間,時(shí)間復(fù)雜度高。在數(shù)據(jù)集 Pascal VOC2007中,基于VGG卷積神經(jīng)網(wǎng)絡(luò)模型的R-CNN算法,檢測(cè)一張圖像的平均時(shí)間高達(dá)47 s。

1.2 SSP-Net

在2015年,He K M等人[16]在R-CNN模型的基礎(chǔ)上進(jìn)行改進(jìn)提出了SSP-Net模型,其在全連接層前接入了金字塔池化(spatial pyramid pooling,SPP)層來適應(yīng)任何尺寸的圖像輸入,解決了R-CNN模型由于歸一化導(dǎo)致的信息缺失問題。圖2為SPP-Net算法示意圖。

圖2 SPP-Net算法示意[19]

SPP-Net對(duì)R-CNN的特征提取步驟進(jìn)行了修改,這樣特征提取不再需要每個(gè)候選區(qū)域都經(jīng)過CNN,只需要將整張圖片輸入。感興趣區(qū)域(region of interest,ROI)特征可以直接從特征圖獲取,使得運(yùn)行速度得到了極大的提高。該算法仍然使用的是R-CNN框架,所以缺點(diǎn)十分明顯,在運(yùn)行時(shí)占用巨大的磁盤資源。

1.3 Fast R-CNN

在2015年, Girshick R團(tuán)隊(duì)[18]在之前的基礎(chǔ)上提出了Fast R-CNN算法,解決了之前存在的問題:1)訓(xùn)練分步過多導(dǎo)致訓(xùn)練速度慢,通過對(duì)整幅圖像進(jìn)行卷積操作,再?gòu)奶卣饔成渲羞x擇候選區(qū)域,極大地提高了訓(xùn)練速度;2)訓(xùn)練時(shí)間和內(nèi)存消耗比較大,R-CNN在訓(xùn)練SVM和回歸的時(shí)候需要用網(wǎng)絡(luò)訓(xùn)練的特征作為輸入,將特征保存在磁盤上再讀入。

Fast R-CNN結(jié)合了SPP-Net網(wǎng)絡(luò)的優(yōu)點(diǎn),將R-CNN網(wǎng)絡(luò)進(jìn)行改進(jìn):1)對(duì)整張待測(cè)圖像進(jìn)行卷積操作,減少重復(fù)計(jì)算;2)整張待測(cè)圖像歸一化后送入深度網(wǎng)絡(luò),通過最后少數(shù)幾層處理每個(gè)候選框,提升了運(yùn)行速度;3)引入多任務(wù)損失(multi-task loss)函數(shù),用深度網(wǎng)絡(luò)統(tǒng)一實(shí)現(xiàn)類別判斷和位置調(diào)整,減少內(nèi)存占用。圖3為Fast R-CNN算法示意圖。

學(xué)生天天與數(shù)學(xué)打交道,卻對(duì)生活中的數(shù)學(xué)熟視無睹,對(duì)數(shù)學(xué)缺乏興趣,解決實(shí)際問題的能力得不到鍛煉和提高。教學(xué)《可能性》時(shí):以“分組摸球”比賽來探索可能性大小與什么有關(guān),每組盒中有10個(gè)球,球的大小一樣(各組盒中放的球顏色數(shù)量不同),每次摸一個(gè)球,然后把球放進(jìn)去,攪拌后再摸。小組內(nèi)每人摸2次,組長(zhǎng)統(tǒng)計(jì)好結(jié)果,然后全班統(tǒng)計(jì)各組摸到顏色,評(píng)出摸到紅色多的組獲勝,引導(dǎo)學(xué)生觀察、分析實(shí)驗(yàn)獲得的數(shù)據(jù),討論交流發(fā)現(xiàn):可能性的大小與在總數(shù)中所占數(shù)量的多少有關(guān),在對(duì)比中更好地體會(huì)確定事件和不確定事件。

圖3 Fast R-CNN算法示意[20]

在同樣使用最大規(guī)模的網(wǎng)絡(luò)的情況下,在數(shù)據(jù)集PASCAL VOC 2007上進(jìn)行測(cè)試發(fā)現(xiàn),F(xiàn)ast R-CNN相較于R-CNN的準(zhǔn)確率相似,但在訓(xùn)練和測(cè)試時(shí)間上有了明顯的縮短。表1為在VOC2007數(shù)據(jù)集上,基于VGG—16卷積網(wǎng)絡(luò)模型的R-CNN與Fast R-CNN訓(xùn)練和測(cè)試性能對(duì)比。

表1 基于VGG—16的R-CNN與Fast R-CNN算法性能對(duì)比

1.4 Faster R-CNN

在2015年,Ren S Q團(tuán)隊(duì)[19]在之前的基礎(chǔ)上提出了Faster R-CNN算法,該算法在簡(jiǎn)單網(wǎng)絡(luò)的目標(biāo)檢測(cè)速度達(dá)到17 fps,在PASCAL VOC上準(zhǔn)確率為59.9 %,而復(fù)雜網(wǎng)絡(luò)下達(dá)到5 fps,準(zhǔn)確率78.8 %。

該算法將目標(biāo)檢測(cè)的4個(gè)基本步驟都整合在了一個(gè)深度網(wǎng)絡(luò)中,提高了算法的綜合性能,尤其在檢測(cè)速度方面。Faster R-CNN算法的具體流程:1)將待測(cè)圖像輸入卷積網(wǎng)絡(luò)中,生成特征映射;2)使用區(qū)域投標(biāo)網(wǎng)絡(luò)[20](region proposal network,RPN),在生成候選區(qū)域的同時(shí)產(chǎn)生錨點(diǎn)(anchors),通過判別函數(shù)判斷并使用邊框回歸調(diào)整Anchors以獲取準(zhǔn)確的候選區(qū)域, 圖4為RPN算法示意圖;3)通過RoI池化層,解決最后輸入全連接層的特征圖的尺寸大小不同的問題;4)通過完全連接層來分別判斷物體的類別和精準(zhǔn)位置。由于采用RPN代替Fast R-CNN算法的選擇性搜索方法,在檢測(cè)率相同的情況下,F(xiàn)aster R-CNN算法的檢測(cè)速度是之前的10倍。圖5為Faster R-CNN算法示意圖。

圖4 RPN算法示意[21]

圖5 Faster R-CNN算法示意[21]

1.5 Mask R-CNN

2017年He K M等人[22]在基于Faster R-CNN的基礎(chǔ)上進(jìn)行改進(jìn)提出了Mask R-CNN,該算法可以精確到像素級(jí)輸出,高質(zhì)量完成分割任務(wù)。此外兩者的輸出也有所不同。Faster R-CNN輸出為種類標(biāo)簽和box坐標(biāo),而Mask R-CNN則會(huì)增加一個(gè)輸出,即物體掩膜(object mask)。

Mask R-CNN具有以下特點(diǎn):1)通過引入感興趣區(qū)域聚集(RoI Align)層來替代Faster R-CNN采用的高校池以解決僅通過池化直接采樣導(dǎo)致特征圖譜在原圖的對(duì)應(yīng)位置與真實(shí)位置有所偏差的問題;2)多任務(wù)損失函數(shù)包括分類誤差、回歸誤差、分割誤差,即將識(shí)別預(yù)測(cè)和分割預(yù)測(cè)分割,掩膜分支針對(duì)每個(gè)RoI產(chǎn)生一個(gè)K×M×M二值的掩膜輸出,其中K為分類物體的類別數(shù)目。該算法在COCO數(shù)據(jù)集上測(cè)試效果都略優(yōu)于Faster R-CNN。圖6為Mask R-CNN算法示意圖。

圖6 Mask R-CNN算法示意[24]

2 單階段深度學(xué)習(xí)方法

以上介紹深度學(xué)習(xí)算法都屬于兩階段深度學(xué)習(xí)的算法,即分為候選區(qū)域生成和區(qū)域分類兩步,存在著實(shí)時(shí)性較差的缺點(diǎn)。接著介紹的是單階段深度學(xué)習(xí)方法[23],即端對(duì)端、單階段對(duì)物體進(jìn)行檢測(cè),對(duì)于一張待測(cè)圖像僅使用一個(gè)卷積神經(jīng)網(wǎng)絡(luò)直接預(yù)測(cè)不同目標(biāo)的類別與位置。這種端對(duì)端的檢測(cè)方法極大地提高了算法的運(yùn)行速度,滿足目標(biāo)檢測(cè)實(shí)時(shí)性的要求,典型的算法有YOLO(you only look once)系列、SSD(single shot multibox detector)系列。

2.1 YOLO

在2016年,Redmon J等人[24]提出YOLO算法使得基于深度學(xué)習(xí)的目標(biāo)檢測(cè)算法有了單階段和兩階段的區(qū)分。與之前兩階段目標(biāo)檢測(cè)算法最明顯的區(qū)別在于YOLO舍棄候選框提取,直接采用回歸的方法進(jìn)行物體分類和候選框預(yù)測(cè)[25]。這樣的改進(jìn)簡(jiǎn)化了網(wǎng)絡(luò)結(jié)構(gòu),將檢測(cè)速度提升至了Faster R-CNN的10倍左右。至此,基于深度學(xué)習(xí)的目標(biāo)檢測(cè)算法能夠滿足實(shí)時(shí)性的需求。YOLO v1首先將待測(cè)圖像進(jìn)行歸一化處理,然后將處理后的圖像輸入CNN中進(jìn)行特征提取以及邊界框置信度的預(yù)測(cè),最后采用非極大值抑制(non-maximum suppression,NMS)算法過濾邊界框獲得最優(yōu)結(jié)果。但是算法只針對(duì)最后特征圖進(jìn)行分析,使得它對(duì)小目標(biāo)的檢測(cè)效果不佳,當(dāng)多個(gè)目標(biāo)出現(xiàn)在一個(gè)網(wǎng)格單元時(shí)不容易區(qū)分。圖7為YOLO v1算法示意圖。

圖7 YOLO v1算法示意[26]

時(shí)隔一年,Redmon J等人[27]在YOLO v1的基礎(chǔ)上進(jìn)行改進(jìn)提出了YOLO9000,該算法的檢測(cè)速度遠(yuǎn)遠(yuǎn)超過其他檢測(cè)算法,代表著當(dāng)時(shí)業(yè)界最先進(jìn)的檢測(cè)水平。YOLO9000相較于YOLO v1做出了以下改進(jìn):1)對(duì)網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行了優(yōu)化,在消除對(duì)其他正則化的依賴的同時(shí),提高了收斂性;2)YOLO v2提高了分辨率,為了適應(yīng)高分辨率輸入,使用新的高分辨率分類器;3)使用卷積層預(yù)測(cè)邊界框位置并用標(biāo)準(zhǔn)歐氏距離的K-means聚類方法代替手動(dòng)選擇邊界框個(gè)數(shù)、形狀,以提高置信分?jǐn)?shù);4)采用新的特征提取網(wǎng)絡(luò)模型Darknet—19,以提取到物體更精細(xì)的特征;5)采用多尺度圖像訓(xùn)練,通過采用不同分辨率的圖像進(jìn)行模型迭代訓(xùn)練,增強(qiáng)模型對(duì)多尺度圖像的預(yù)測(cè)魯棒性。

2018年,Redmon J等人[26]在YOLO v2的基礎(chǔ)上提出了效果更佳的YOLO v3算法,1)調(diào)整了網(wǎng)絡(luò)結(jié)構(gòu),使用殘差網(wǎng)絡(luò)模型[29]Darknet—53進(jìn)行特征提取;2)采用多尺度特征進(jìn)行目標(biāo)檢測(cè),借鑒特征金字塔網(wǎng)絡(luò)(feature pyramid networks,FPN)思想,通過采用了3個(gè)不同尺度的特征圖能獲得細(xì)粒度的特征;3)進(jìn)行分類時(shí),采用多個(gè)單獨(dú)的Logistic分類器取代了SoftMax,提升了檢測(cè)速度與精度。

從YOLO算法被提出至今,一直在不斷地改進(jìn)提升,但依舊存在著物體定位準(zhǔn)確度低、召回率差等問題需要解決。

2.2 SSD

在2016年,Liu W等人[28]提出了SSD算法,解決了同時(shí)期YOLO算法存在的定位精度低、難以檢測(cè)小目標(biāo)等問題。SSD算法有以下改進(jìn):1)采用CNN來直接進(jìn)行檢測(cè),避免了YOLO方法在全連接之后再進(jìn)行檢測(cè)的操作;2)提出尺度不同的特征圖來對(duì)物體進(jìn)行檢測(cè),通過快速檢測(cè)不同尺度特征圖的準(zhǔn)確度,明確區(qū)分預(yù)測(cè);3)結(jié)合Faster R-CNN算法中的Anchor機(jī)制,通過大小不同的先驗(yàn)框在特征圖中獲取候選區(qū)域,提高了召回率。圖8為SSD算法示意圖。

圖8 SSD算法示意圖[31]

SSD通過對(duì)Faster R-CNN算法和YOLO算法的優(yōu)點(diǎn)結(jié)合,利用特征的金字塔結(jié)構(gòu)充分挖掘卷積層的特征信息,使得其在滿足檢測(cè)精度的同時(shí)保證了算法的速度,在一定程度上克服了YOLO算法難以檢測(cè)小目標(biāo)、定位不準(zhǔn)的缺點(diǎn)。

2017年,F(xiàn)u C Y等人[30]對(duì)SSD算法進(jìn)一步優(yōu)化提出了DSSD(deconvolutional single shot detector)算法,將SSD中的融合模塊采用反卷積代替?zhèn)鹘y(tǒng)的雙線性插值上采樣,將高層語義與低層特征信息進(jìn)行充分融合,進(jìn)一步提升了對(duì)小目標(biāo)的檢測(cè)精度。與此同時(shí),隨著網(wǎng)絡(luò)的復(fù)雜度增加,算法的檢測(cè)速度有所下降。圖9為DSSD算法示意圖。

圖9 DSSD算法示意圖

同年,Li Z X等人[31]提出了FSSD(feature fusion single shot multibox detector)算法,通過借鑒FPN算法思想,將多尺度特征與信息融合,雖然對(duì)小目標(biāo)的檢測(cè)精度有所下降,檢測(cè)速度得到了明顯的提升。圖10為FSSD算法示意圖。

圖10 FSSD算法示意圖[31]

3 結(jié)束語

隨著科學(xué)技術(shù)的不斷發(fā)展,計(jì)算機(jī)的硬件基礎(chǔ)不斷增強(qiáng),國(guó)內(nèi)外數(shù)據(jù)集的規(guī)模不斷擴(kuò)增,深度學(xué)習(xí)目標(biāo)檢測(cè)算法的檢測(cè)速度和精度也在不斷上升。但與此同時(shí),目標(biāo)檢測(cè)依然存在著許多困難與挑戰(zhàn):1)圖像背景與目標(biāo)狀態(tài)的融合;2)多層級(jí)、多維度的特征提取方法;3)基于深度學(xué)習(xí)的特征表達(dá);4)基于核的支持向量機(jī)分類方法;5)高維數(shù)據(jù)的分類方法;6)深度學(xué)習(xí)理論性指導(dǎo)。相信隨著深度學(xué)習(xí)的不斷發(fā)展,越來越多的學(xué)者在目標(biāo)檢測(cè)領(lǐng)域不斷探究,將會(huì)涌現(xiàn)更好、更優(yōu)的算法。

猜你喜歡
示意圖卷積深度
基于全卷積神經(jīng)網(wǎng)絡(luò)的豬背膘厚快速準(zhǔn)確測(cè)定
四增四減 深度推進(jìn)
深度思考之不等式
一種基于卷積神經(jīng)網(wǎng)絡(luò)的地磁基準(zhǔn)圖構(gòu)建方法
基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
一種并行不對(duì)稱空洞卷積模塊①
黔西南州旅游示意圖
簡(jiǎn)約教學(xué) 深度學(xué)習(xí)
貧困戶建檔立卡工作示意圖及參考文本
“三定兩標(biāo)”作好圖
甘南县| 江口县| 盈江县| 石景山区| 尼勒克县| 铁岭市| 察哈| 胶州市| 琼结县| 新乐市| 三明市| 昆明市| 广西| 上蔡县| 家居| 武邑县| 铁岭县| 灌南县| 莱西市| 海丰县| 彭州市| 中山市| 东至县| 高邑县| 中方县| 丹阳市| 丹东市| 本溪市| 玛沁县| 江山市| 湟源县| 西安市| 寿阳县| 黎平县| 海淀区| 涪陵区| 永登县| 乌拉特前旗| 乳源| 吴旗县| 韶山市|