周鐵林
沈陽理工大學(xué) 遼寧 沈陽 110000
目標(biāo)檢測是將圖像或視頻中的目標(biāo)與感興趣區(qū)域分開,確定目標(biāo)是否存在,以及是否存在目標(biāo),確定目標(biāo)的位置。YOLO系列目標(biāo)檢測網(wǎng)絡(luò)是單次目標(biāo)檢測網(wǎng)絡(luò)中最具代表性的網(wǎng)絡(luò)結(jié)構(gòu),YOLOv3是YOLO系列的網(wǎng)絡(luò)之一,因?yàn)樵跈z測精度上可以與兩次目標(biāo)檢測網(wǎng)絡(luò)相媲美,同時(shí)可以達(dá)到實(shí)時(shí)檢測速度,因此成為主要的,廣泛應(yīng)用的目標(biāo)檢測算法之一。
針對拍攝采集的數(shù)據(jù)大多模糊不清,對于需要采集的目標(biāo)容易造成采集模糊,無法識別,無法定位的這個(gè)問題,需要在算法的預(yù)測框方面改良,使其更好地檢測到實(shí)際需要采集的目標(biāo)。一個(gè)目標(biāo)的每個(gè)邊界框都要預(yù)測邊界框位置信息(x,y,w,h)和置信度(cinfidence),置信度的計(jì)算公式如公式1所示:
由于算法存在著高分類準(zhǔn)確率和低定位準(zhǔn)確率,我們需要將YOLOv3算法的預(yù)測框輸出信息中加入顯示預(yù)測框準(zhǔn)確程度的指標(biāo),在網(wǎng)絡(luò)訓(xùn)練過程中指導(dǎo)網(wǎng)絡(luò)學(xué)習(xí)預(yù)測更加準(zhǔn)確的預(yù)測框,從而降低YOLOv3 算法的定位誤差[2]??赏ㄟ^建立模型將顯示預(yù)測框的中心點(diǎn)坐標(biāo)和概率輸入設(shè)定為x,輸出設(shè)定為y,為平均值,用來表示預(yù)測框相對位置,為方差,用來表示預(yù)測框相對的準(zhǔn)確度。模型公式如公式2所示:
改進(jìn)后每一個(gè)預(yù)測框輸出8個(gè)位置和尺寸信息,1個(gè)有無目標(biāo)的置信度信息和多個(gè)類別信息。在網(wǎng)絡(luò)預(yù)測層加入對預(yù)測框的不確定性回歸使網(wǎng)絡(luò)整體性能提升了6.81個(gè)百分點(diǎn),平均交并比提升了5.2%,這證明了加入預(yù)測框不確定性回歸減小了YOLOv3算法的定位誤差。為了獲得更高性能的訓(xùn)練模型,在網(wǎng)絡(luò)訓(xùn)練階段會(huì)使用多種有利于網(wǎng)絡(luò)訓(xùn)練的方法。特征提取網(wǎng)絡(luò)是由高質(zhì)量圖像分類的尺度架構(gòu)截?cái)喽桑饕糜谔崛D像特征[3]。將Darknet53結(jié)構(gòu)進(jìn)行裁剪后,在數(shù)據(jù)集較少的情況下更加符合實(shí)際應(yīng)用。借鑒上述思想,設(shè)計(jì)了全新的Darknet-Bird網(wǎng)絡(luò)結(jié)構(gòu)。改進(jìn)后的Darknet-Bird模型層數(shù)比原有的Darknet53模型層數(shù)少了11層,整體的運(yùn)算量,網(wǎng)絡(luò)深度等都大幅下降。
原始的YOLO v3網(wǎng)絡(luò)將輸入圖像拆分為SxS網(wǎng)格。如果將對象的中心坐標(biāo)折疊到網(wǎng)格中,則該網(wǎng)格負(fù)責(zé)跟蹤對象。由于Darknet網(wǎng)絡(luò)引入residual結(jié)構(gòu),結(jié)構(gòu)優(yōu)勢遠(yuǎn)遠(yuǎn)超過傳統(tǒng)VGG-16網(wǎng)絡(luò),優(yōu)化了冗余的回歸金字塔結(jié)構(gòu),速度會(huì)快很多。增加了Libra R-CNN模型,包含候選區(qū)域生成與選擇、特征提取、類別分類和檢測框回歸等多個(gè)任務(wù)的訓(xùn)練與收斂。與Faster-RCNN相比,COCO兩步目標(biāo)檢測任務(wù)的LibraR-CNN模型精度超過2%,效果非常明顯。
將數(shù)據(jù)集分別通過改進(jìn)后的YOLOv3網(wǎng)絡(luò)和正常的YOLOv3網(wǎng)絡(luò)訓(xùn)練后得出的結(jié)果如圖1所示:
圖1 數(shù)據(jù)集訓(xùn)練結(jié)果對比圖
將本文算法與其他算法的實(shí)驗(yàn)結(jié)果比較如下:Faster-RCNN的識別率為89.2%,YOLO v3的識別率為79.6%,本文算法識別率為86.6%。召回率分別為82.3%,80.7%,89.2%;FPS分別為14.7,30,37;用時(shí)分別為11.4s,8.3s,6.1s。
目前存在的檢測算法很多,論實(shí)用性來說本文經(jīng)過改進(jìn)的YOLOv3算法比較符合需求,但仍相差很大,距離實(shí)際應(yīng)用仍有很大距離。由于實(shí)際應(yīng)用的復(fù)雜性,還需根據(jù)實(shí)際應(yīng)用情況來選擇符合條件的算法。