淺析復(fù)雜場景下的濕地鳥類目標(biāo)檢測

2021-02-01 14:01周鐵林

科學(xué)與信息化 2021年2期

周鐵林

沈陽理工大學(xué) 遼寧沈陽 110000

1 YOLOv3目標(biāo)檢測及原理

目標(biāo)檢測是將圖像或視頻中的目標(biāo)與感興趣區(qū)域分開，確定目標(biāo)是否存在，以及是否存在目標(biāo)，確定目標(biāo)的位置。YOLO系列目標(biāo)檢測網(wǎng)絡(luò)是單次目標(biāo)檢測網(wǎng)絡(luò)中最具代表性的網(wǎng)絡(luò)結(jié)構(gòu)，YOLOv3是YOLO系列的網(wǎng)絡(luò)之一，因?yàn)樵跈z測精度上可以與兩次目標(biāo)檢測網(wǎng)絡(luò)相媲美，同時(shí)可以達(dá)到實(shí)時(shí)檢測速度，因此成為主要的，廣泛應(yīng)用的目標(biāo)檢測算法之一。

2 YOLOv3對于濕地鳥類檢測算法的改進(jìn)

2.1 對于檢測框及網(wǎng)絡(luò)層的改進(jìn)

針對拍攝采集的數(shù)據(jù)大多模糊不清，對于需要采集的目標(biāo)容易造成采集模糊，無法識別，無法定位的這個(gè)問題，需要在算法的預(yù)測框方面改良，使其更好地檢測到實(shí)際需要采集的目標(biāo)。一個(gè)目標(biāo)的每個(gè)邊界框都要預(yù)測邊界框位置信息(x,y,w,h)和置信度(cinfidence)，置信度的計(jì)算公式如公式1所示：

由于算法存在著高分類準(zhǔn)確率和低定位準(zhǔn)確率，我們需要將YOLOv3算法的預(yù)測框輸出信息中加入顯示預(yù)測框準(zhǔn)確程度的指標(biāo)，在網(wǎng)絡(luò)訓(xùn)練過程中指導(dǎo)網(wǎng)絡(luò)學(xué)習(xí)預(yù)測更加準(zhǔn)確的預(yù)測框，從而降低YOLOv3 算法的定位誤差[2]?？赏ㄟ^建立模型將顯示預(yù)測框的中心點(diǎn)坐標(biāo)和概率輸入設(shè)定為x，輸出設(shè)定為y，為平均值，用來表示預(yù)測框相對位置，為方差，用來表示預(yù)測框相對的準(zhǔn)確度。模型公式如公式2所示：

改進(jìn)后每一個(gè)預(yù)測框輸出8個(gè)位置和尺寸信息，1個(gè)有無目標(biāo)的置信度信息和多個(gè)類別信息。在網(wǎng)絡(luò)預(yù)測層加入對預(yù)測框的不確定性回歸使網(wǎng)絡(luò)整體性能提升了6.81個(gè)百分點(diǎn)，平均交并比提升了5.2%，這證明了加入預(yù)測框不確定性回歸減小了YOLOv3算法的定位誤差。為了獲得更高性能的訓(xùn)練模型，在網(wǎng)絡(luò)訓(xùn)練階段會(huì)使用多種有利于網(wǎng)絡(luò)訓(xùn)練的方法。特征提取網(wǎng)絡(luò)是由高質(zhì)量圖像分類的尺度架構(gòu)截?cái)喽桑饕糜谔崛D像特征[3]。將Darknet53結(jié)構(gòu)進(jìn)行裁剪后，在數(shù)據(jù)集較少的情況下更加符合實(shí)際應(yīng)用。借鑒上述思想，設(shè)計(jì)了全新的Darknet-Bird網(wǎng)絡(luò)結(jié)構(gòu)。改進(jìn)后的Darknet-Bird模型層數(shù)比原有的Darknet53模型層數(shù)少了11層，整體的運(yùn)算量，網(wǎng)絡(luò)深度等都大幅下降。

2.2 YOLOv3改進(jìn)后和已有的網(wǎng)絡(luò)對比

原始的YOLO v3網(wǎng)絡(luò)將輸入圖像拆分為SxS網(wǎng)格。如果將對象的中心坐標(biāo)折疊到網(wǎng)格中，則該網(wǎng)格負(fù)責(zé)跟蹤對象。由于Darknet網(wǎng)絡(luò)引入residual結(jié)構(gòu)，結(jié)構(gòu)優(yōu)勢遠(yuǎn)遠(yuǎn)超過傳統(tǒng)VGG-16網(wǎng)絡(luò)，優(yōu)化了冗余的回歸金字塔結(jié)構(gòu)，速度會(huì)快很多。增加了Libra R-CNN模型，包含候選區(qū)域生成與選擇、特征提取、類別分類和檢測框回歸等多個(gè)任務(wù)的訓(xùn)練與收斂。與Faster-RCNN相比，COCO兩步目標(biāo)檢測任務(wù)的LibraR-CNN模型精度超過2%，效果非常明顯。

3 結(jié)果展示

將數(shù)據(jù)集分別通過改進(jìn)后的YOLOv3網(wǎng)絡(luò)和正常的YOLOv3網(wǎng)絡(luò)訓(xùn)練后得出的結(jié)果如圖1所示：

圖1 數(shù)據(jù)集訓(xùn)練結(jié)果對比圖

將本文算法與其他算法的實(shí)驗(yàn)結(jié)果比較如下：Faster-RCNN的識別率為89.2%，YOLO v3的識別率為79.6%，本文算法識別率為86.6%。召回率分別為82.3%，80.7%，89.2%；FPS分別為14.7，30，37；用時(shí)分別為11.4s，8.3s，6.1s。

4 結(jié)束語

目前存在的檢測算法很多，論實(shí)用性來說本文經(jīng)過改進(jìn)的YOLOv3算法比較符合需求，但仍相差很大，距離實(shí)際應(yīng)用仍有很大距離。由于實(shí)際應(yīng)用的復(fù)雜性，還需根據(jù)實(shí)際應(yīng)用情況來選擇符合條件的算法。