国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于深度學(xué)習(xí)的目標(biāo)檢測(cè)算法綜述*

2021-03-05 07:15宋曉茹陳超波
傳感器與微系統(tǒng) 2021年2期
關(guān)鍵詞:候選框尺度卷積

吳 雪,宋曉茹,高 嵩,陳超波

(西安工業(yè)大學(xué) 電子信息工程學(xué)院,陜西 西安 710021)

0 引 言

隨著計(jì)算機(jī)技術(shù)快速發(fā)展,圖像的分類[1]和檢測(cè)[2]成為計(jì)算機(jī)視覺[3]領(lǐng)域非?;钴S的兩個(gè)研究方向,已被廣泛應(yīng)用于國家安防、人機(jī)交互[4]和信息安全等方面。與目標(biāo)分類不同,目標(biāo)檢測(cè)的任務(wù)包括目標(biāo)分類與目標(biāo)定位兩部分,除了判斷是否包含目標(biāo)物體,目標(biāo)檢測(cè)算法還要負(fù)責(zé)找出感興趣的區(qū)域的位置并用外接矩形框出。

根據(jù)目標(biāo)檢測(cè)算法中是否需要手動(dòng)提取特征,可以將目標(biāo)檢測(cè)算法分為傳統(tǒng)方法和基于深度學(xué)習(xí)[5]的目標(biāo)檢測(cè)算法。傳統(tǒng)的目標(biāo)檢測(cè)算法由不同尺度和寬度的區(qū)域選擇、特征提取[6]和目標(biāo)分類3個(gè)部分組成。區(qū)域選擇多是采用基于滑動(dòng)窗口的物體檢測(cè)[7]方法,特征提取主要采用手動(dòng)選擇的方式,如顏色特征、紋理特征、尺度不變特征變換(scale invariant feature transform,SIFT)特征[8]和HOG[9]特征,分類器常用的是支持向量機(jī)(support vector machine,SVM)[10]和AdaBoost[11]。由于滑動(dòng)窗口的無針對(duì)性和需要手動(dòng)提取特征,導(dǎo)致檢測(cè)算法時(shí)間復(fù)雜度高,魯棒性低、準(zhǔn)確度和實(shí)時(shí)性差的缺點(diǎn)。

基于深度學(xué)習(xí)的目標(biāo)檢測(cè)技術(shù)解決了傳統(tǒng)目標(biāo)檢測(cè)滑動(dòng)窗口選擇和手動(dòng)提取特征的缺點(diǎn),通過引入卷積神經(jīng)網(wǎng)絡(luò)(CNN)[12]自學(xué)習(xí)目標(biāo)特征來代替?zhèn)鹘y(tǒng)手動(dòng)選擇和提取特征的過程,引入?yún)^(qū)域候選框或直接回歸方法使目標(biāo)檢測(cè)準(zhǔn)確度和實(shí)時(shí)性大幅度提升。

本文介紹了深度學(xué)習(xí)中CNN的發(fā)展,對(duì)目前基于深度學(xué)習(xí)的主流的兩階段目標(biāo)檢測(cè)算法和單階段目標(biāo)檢測(cè)算法進(jìn)行了綜述,最后針對(duì)目標(biāo)檢測(cè)領(lǐng)域現(xiàn)存的問題做出了總結(jié)和展望。

1 CNN的發(fā)展

CNN是深度神經(jīng)網(wǎng)絡(luò)模型的一種,由輸入層、卷積層、池化層和全連接層組成,在深度學(xué)習(xí)領(lǐng)域表現(xiàn)出色,成為目前的研究熱點(diǎn)。1998年,Lecun Y L教授[13]將LeNet5 CNN應(yīng)用到圖像的二維卷積,開創(chuàng)了現(xiàn)代CNN的先河。

2012年,Krizhevsky A[14]提出Alex-Net 網(wǎng)絡(luò),該網(wǎng)絡(luò)由5個(gè)卷積層和3個(gè)全連接層組成,在2個(gè)GPU上加速計(jì)算,首次引入Relu非線性激活函數(shù)、最大池化、Dropout過擬合方法和標(biāo)準(zhǔn)化層等新技術(shù),獲得了Image net比賽的冠軍,證明了通過更深層的網(wǎng)絡(luò)可以提取圖像更魯棒的信息,標(biāo)志著深度學(xué)習(xí)革命的開始。

2013年,Zeiler M D[15]在Alex-Net基礎(chǔ)上進(jìn)行細(xì)節(jié)調(diào)整,將第一層卷積核大小變?yōu)?×7,設(shè)置卷積參數(shù)步長為2,加入更多的卷積核數(shù)目,通過更小的卷積核和步長提取更多的信息。從可視化角度出發(fā),解釋CNN特征分層次體系結(jié)構(gòu),深層特征更魯棒等性能的原因,并取得2013年ILSVRC的冠軍。

2014年,Simonyan K[16]提出VGG模型,該網(wǎng)絡(luò)提出的目的是為了探究在大規(guī)模圖像識(shí)別任務(wù)中,卷積網(wǎng)絡(luò)深度對(duì)模型精確度的影響。相比之前CNN,VGG模型將一個(gè)大的卷積核分解為連續(xù)多個(gè)小卷積核,在每次池化后通道數(shù)量增加1倍,網(wǎng)絡(luò)層數(shù)達(dá)到19層,參數(shù)在140 M左右。VGG模型的優(yōu)點(diǎn)是結(jié)構(gòu)簡潔有效,泛化性能好,容易修改和遷移到其他任務(wù)中去。但缺點(diǎn)是更深的網(wǎng)絡(luò)模型產(chǎn)生巨量參數(shù),在小樣本時(shí)容易產(chǎn)生過擬合。

GoogLe-Net是2014年ImageNet比賽的冠軍,該網(wǎng)絡(luò)取消了全連接層和引入輔助分類器,不僅強(qiáng)調(diào)網(wǎng)絡(luò)的深度,也會(huì)考慮網(wǎng)絡(luò)的寬度,通過增加CNN的寬度來增加對(duì)多尺度的適應(yīng)性,巧妙地利用1×1的卷積核來進(jìn)行通道降維,減少計(jì)算量,網(wǎng)絡(luò)深度達(dá)到22層。GoogLe-Net卷積神經(jīng)網(wǎng)絡(luò)的優(yōu)點(diǎn)是預(yù)先給網(wǎng)絡(luò)添加所有可能值,讓網(wǎng)絡(luò)自行學(xué)習(xí)其需要什么參數(shù),不需要人為確定使用哪個(gè)過濾器;但缺點(diǎn)是該網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜,遷移能力弱。

2015年,微軟研究院He K M等人提出Res-Net殘差網(wǎng)絡(luò)[17],獲得ILSVRC比賽的冠軍。該網(wǎng)絡(luò)全部采用相同大小的卷積核,使用卷積步長取代池化,平均池化層代替全連接層減少參數(shù)量,通過引入跳遠(yuǎn)連接來解決梯度消失的問題,使網(wǎng)絡(luò)深度達(dá)到152層。ResNet的提出使得更深層次的模型可以被訓(xùn)練,后續(xù)2016年到2017年提出的ResNeXt[18],Densenet[19]網(wǎng)絡(luò)對(duì)ResNet網(wǎng)絡(luò)結(jié)構(gòu)做出優(yōu)化,大大加快了人工智能的發(fā)展。

為了CNN模型能夠在移動(dòng)端和嵌入式平臺(tái)運(yùn)行,CNN朝著輕量型化[20]發(fā)展,SqueezeNet[21]使用1×1卷積核和不同尺寸的卷積核進(jìn)行特征提取,使用壓縮技術(shù)實(shí)現(xiàn)模型的減小。MobileNet[22]使用深度可分離卷積方法代替?zhèn)鹘y(tǒng)卷積方式,達(dá)到減少網(wǎng)絡(luò)權(quán)值參數(shù)的目的。

2 基于深度學(xué)習(xí)的目標(biāo)檢測(cè)器

圖像的目標(biāo)檢測(cè)任務(wù)主要是找到圖像中的目標(biāo)位置并對(duì)其進(jìn)行分類。基于深度學(xué)習(xí)的目標(biāo)檢測(cè)算法利用CNN代替?zhèn)鹘y(tǒng)的手動(dòng)選取特征,主要可以分為兩階段的目標(biāo)檢測(cè)算法和單階段的目標(biāo)檢測(cè)算法。兩階段檢測(cè)算法將物體檢測(cè)按分類問題對(duì)待,首先生成包含物體的區(qū)域,然后對(duì)候選區(qū)域進(jìn)行分類和校準(zhǔn),得到最終的檢測(cè)結(jié)果。單階段檢測(cè)算法直接給出最終的檢測(cè)結(jié)果,沒有顯式的生成候選框步驟。

2.1 兩階段目標(biāo)檢測(cè)算法

2.1.1 R-CNN模型

Girshick R等人提出的R-CNN[23]模型使目標(biāo)檢測(cè)取得巨大突破,成為后續(xù)R-CNN系列兩階段目標(biāo)檢測(cè)的開山之作。R-CNN的框架流程如圖1所示,首先使用SS (selective search) 算法提取大約2 000個(gè)候選框;然后將提取到的候選框做預(yù)處理固定到相同尺寸,送入Alex-Net網(wǎng)絡(luò)進(jìn)行區(qū)域特征提取;最后對(duì)CNN提取的區(qū)域特征使用SVM進(jìn)行分類與邊框校準(zhǔn)。R-CNN算法的性能較傳統(tǒng)算法有很大的提升,但還存在SS算法產(chǎn)生候選框耗時(shí)嚴(yán)重,裁剪會(huì)導(dǎo)致信息丟失或引入過多背景,卷積特征重復(fù)計(jì)算量大和網(wǎng)絡(luò)訓(xùn)練需要分步驟進(jìn)行的缺點(diǎn)。

圖1 R-CNN模型

2.1.2 SPP-Net模型

為了任意大小的圖像能夠輸入網(wǎng)絡(luò),何凱明等人提出SPP-Net[24]目標(biāo)檢測(cè)模型,如圖2所示。

圖2 SPP-Net目標(biāo)檢測(cè)框架

通過在最后一個(gè)卷積層與全連接層間加入金字塔池化層,結(jié)構(gòu)如圖3所示,將SS算法生成的不同大小的候選框歸一化到固定尺寸的全連接層上,完成對(duì)整張圖像只需進(jìn)行一次卷積特征提取的操作,避免了R-CNN對(duì)2 000個(gè)區(qū)域都會(huì)計(jì)算CNN特征的過程。SPP-Net目標(biāo)檢測(cè)算法能夠適應(yīng)不同尺寸,實(shí)現(xiàn)了卷積特征的共享計(jì)算,大大減少了計(jì)算量。但缺點(diǎn)除了繼承R-CNN需要存儲(chǔ)大量特征和多階段訓(xùn)練等剩余問題,而且由于金字塔池化層的多尺度,增加了在金字塔池化層之前的所有卷積層不能微調(diào)的新問題。

圖3 金字塔池化層

2.1.3 Fast R-CNN模型

2015年Ross G等人[25]提出Fast R-CNN目標(biāo)檢測(cè)算法,該模型的流程結(jié)構(gòu)如圖4所示。通過結(jié)合SPP-Net改進(jìn)R-CNN,使用VGG16代替Alex-Net網(wǎng)絡(luò),簡化SPP算法中的金字塔池化層為單尺度使得所有層參數(shù)可以微調(diào),將SVM分類器改為SoftMax分類器,通過引入多任務(wù)學(xué)習(xí)模式,同時(shí)解決分類和位置回歸的問題。相比于R-CNN和SPP-Net,Fast R-CNN將多個(gè)步驟整合到一個(gè)模型中,訓(xùn)練過程不再分步進(jìn)行,減少了磁盤空間的占用,在提升網(wǎng)絡(luò)性能的同時(shí)加快了訓(xùn)練速度。但Fast R-CNN的不足仍是需要專門的生成候選框算法。

圖4 Fast R-CNN 流程圖

2.1.4 Faster R-CNN模型

使用SPP-Net與Fast R-CNN進(jìn)行檢測(cè)的耗時(shí)性主要集中在使用專門的候選框生成算法,為了解決此問題,Ren S 等人[26]又提出Faster R-CNN目標(biāo)檢測(cè)框架,過程如圖5所示。

圖5 Faster R-CNN框架

該算法引入RPN(region proposal networks),代替專門的生成候選窗口算法,通過對(duì)特征圖上的每個(gè)點(diǎn)進(jìn)行滑窗操作,將不同尺寸的錨點(diǎn)框映射到原始圖片,得到候選區(qū)域,完成前景背景的粗分類和粗定位。RPN的使用,使Faster R-CNN能夠?qū)⒕W(wǎng)絡(luò)中區(qū)域建議、特征提取、分類及定位多個(gè)步驟整合到一起,真正成為端到端的訓(xùn)練。但由于Faster R-CNN特征圖上的一個(gè)錨點(diǎn)框?qū)?yīng)于原圖中一塊較大區(qū)域,因此,Faster R-CNN對(duì)小目標(biāo)檢測(cè)效果不是很好。

2.1.5 后續(xù)兩階段目標(biāo)檢測(cè)器的改進(jìn)

Faster R-CNN已經(jīng)形成了具體的兩階段檢測(cè)框架,后續(xù)也有從更好的CNN特征,更完善的ROI分類,更精準(zhǔn)的RPN和樣本后處理等方面對(duì)Faster R-CNN算法的改進(jìn)。R-FCN[27]提出全卷積化設(shè)計(jì),引入變換敏感分值圖和位置敏感池化,將VGG16主干網(wǎng)絡(luò)替換為ResNet,進(jìn)一步實(shí)現(xiàn)更多計(jì)算的共享。Hyper Net[28]是2016年由清華大學(xué)提出的Faster R-CNN變種,該網(wǎng)絡(luò)對(duì)高層特征采用Pooling方式進(jìn)行下采樣,低層次特征采用反卷積方式進(jìn)行上采樣,然后將不同尺度的特征融合輸入到RPN網(wǎng)絡(luò)中,相比Faster R-CNN,能夠?qū)π∥矬w檢測(cè)有比較好的效果。但由于引入了新的卷積、池化和反卷積操作,帶來了時(shí)間上的消耗。

2.2 基于回歸的檢測(cè)算法

2.2.1 YOLO v1算法

兩階段目標(biāo)檢測(cè)算法雖然在檢測(cè)任務(wù)上取得了很大的進(jìn)步,但由于模型復(fù)雜,仍存在訓(xùn)練參數(shù)多,訓(xùn)練時(shí)間長的缺點(diǎn)?;诨貧w的YOLO v1[29]算法直接使用一個(gè)CNN同時(shí)完成分類和回歸任務(wù),模型如圖6所示。

圖6 YOLO流程框架

該算法剔除了生成候選框的操作,將圖像劃分為網(wǎng)格,使用一個(gè)神經(jīng)網(wǎng)絡(luò),直接在每個(gè)網(wǎng)格中預(yù)測(cè)物體邊框和類別,大大提升了檢測(cè)速度。且由于每個(gè)物體邊框的預(yù)測(cè)都以整張圖的特征作為輸入,因此,YOLO v1算法預(yù)測(cè)出來的邊框都是綜合了整張圖的信息,包含了充足的上下文信息。但由于YOLO v1算法以每個(gè)格子作為中心點(diǎn),因此存在準(zhǔn)確率低,對(duì)小尺度物體、密集排布的物體檢測(cè)精度低的問題。

2.2.2 YOLO v1 系列優(yōu)化算法及擴(kuò)展

為了克服YOLO v1檢測(cè)速度快,但檢測(cè)精度低的問題,YOLO v2[30]算法引入BN(batch normalization)、多尺度訓(xùn)練、錨框機(jī)制和細(xì)粒度特征等方法對(duì)YOLO v1算法進(jìn)行改進(jìn),YOLO v3[31]算法在YOLO v2的基礎(chǔ)上,采用更好的主干網(wǎng)絡(luò)、多尺度預(yù)測(cè)和9個(gè)錨框進(jìn)行檢測(cè),使得檢測(cè)算法在保證實(shí)時(shí)性的同時(shí),精度提高。

2.2.3 SSD算法

2016年,SSD[32](single shot multibox detector)算法被提出。該算法結(jié)合了YOLO算法和Faster R-CNN中的錨框設(shè)計(jì)機(jī)制,在結(jié)構(gòu)上采用VGG16的卷積層作為主干網(wǎng)絡(luò),并在VGG基礎(chǔ)上新增加了6個(gè)卷積層來獲得更多的特征圖。通過新增加多尺度檢測(cè)和設(shè)置多個(gè)先驗(yàn)框,利用大尺度特征圖檢測(cè)小物體,小尺度特征圖檢測(cè)大物體來識(shí)別不同大小同一類別的物體。相比Faster R-CNN和YOLO算法,SSD算法的優(yōu)點(diǎn)是將不同層次的特征圖進(jìn)行融合,提升了速度和檢測(cè)精度。但缺點(diǎn)仍是對(duì)小目標(biāo)不具有魯棒性。

2.2.4 SSD系列優(yōu)化算法及擴(kuò)展

SSD算法對(duì)小目標(biāo)不夠魯棒性的主要原因是特征圖表征能力不夠強(qiáng),2017年提出的DSSD[33]算法使用更好的ResNet CNN作為主干網(wǎng)絡(luò),將經(jīng)過反卷積得到的深層次特征和淺層次特征相融合,為小目標(biāo)增加更多的上下文信息,使用更復(fù)雜的帶跨層連接的預(yù)測(cè)模塊預(yù)測(cè)類別和邊框。DSSD相比SSD,提取到了更加魯棒性的特征,使得精度有所提高。Retina Net[34]使用對(duì)樣本給予不同權(quán)重的方法解決樣本不平衡導(dǎo)致精度不高的問題,大幅度提升了單階段檢測(cè)器的精度。

3 結(jié) 論

兩階段目標(biāo)檢測(cè)算法和單階段目標(biāo)檢測(cè)算法是目前基于深度學(xué)習(xí)目標(biāo)檢測(cè)的主流框架。兩階段目標(biāo)檢測(cè)算法相比單階段目標(biāo)檢測(cè)算法,優(yōu)點(diǎn)是在定位和檢出率方面精度高,使用錨框機(jī)制考慮不同尺度的區(qū)域提升目標(biāo)檢測(cè)性能。但缺點(diǎn)是速度慢,訓(xùn)練時(shí)間長。單階段目標(biāo)檢測(cè)算法相比兩階段目標(biāo)檢測(cè)算法,優(yōu)點(diǎn)是速度快,能夠?qū)W習(xí)到物體的泛化特征,但缺點(diǎn)是在定位和檢出率方面精度低,對(duì)小物體檢測(cè)效果不好?;谏疃葘W(xué)習(xí)的目標(biāo)檢測(cè)算法相比傳統(tǒng)檢測(cè)算法在精度和實(shí)時(shí)性上獲得了較大的提升,但由于現(xiàn)實(shí)場(chǎng)景的復(fù)雜多變性,依然面臨有許多問題。如何減小背景復(fù)雜對(duì)目標(biāo)檢測(cè)的影響以及如何降低因目標(biāo)尺度和形狀變化引起的精度下降問題成為目標(biāo)檢測(cè)領(lǐng)域研究的熱點(diǎn)。

猜你喜歡
候選框尺度卷積
重定位非極大值抑制算法
面向自然場(chǎng)景文本檢測(cè)的改進(jìn)NMS算法
基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
財(cái)產(chǎn)的五大尺度和五重應(yīng)對(duì)
基于深度學(xué)習(xí)的重疊人臉檢測(cè)
從濾波器理解卷積
基于傅里葉域卷積表示的目標(biāo)跟蹤算法
一種針對(duì)特定目標(biāo)的提議算法
宇宙的尺度
9