李 蘭,劉 杰,張 潔
(青島理工大學(xué)信息與控制工程學(xué)院,山東 青島 266000)
當(dāng)今社會(huì),監(jiān)控遍布住宅小區(qū)、超市、工廠、廣場(chǎng)、車站和機(jī)要室等眾多場(chǎng)所,為維護(hù)社會(huì)治安發(fā)揮著重要作用。卷積神經(jīng)網(wǎng)絡(luò)的出現(xiàn)及應(yīng)用為高速準(zhǔn)確地在圖像和視頻序列中進(jìn)行目標(biāo)檢測(cè)提供了可能。目前主流的目標(biāo)檢測(cè)算法有2種:兩階段檢測(cè)算法和單階段檢測(cè)算法。兩階段檢測(cè)算法首先在第一階段通過(guò)選擇性搜索算法提取出候選區(qū)域,生成提議對(duì)象;然后在第二階段利用深度神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)分類。該類檢測(cè)算法主要包括R-CNN(Region-based Convolutional Neural Network)、SPPNet(Spatial Pyramid Pooling Network)、Fast R-CNN(Fast Region-based Convolutional Network)、Faster R-CNN(Faster Region-based Convolutional Neural Network)和R-FCN (Region-based Fully Convolutional Network)等,其特點(diǎn)是檢測(cè)精度較高,但檢測(cè)速度慢。單階段檢測(cè)算法跳過(guò)了提議對(duì)象的生成,直接預(yù)測(cè)目標(biāo)邊界框和分類。該類檢測(cè)算法主要包括SSD(Single Shot multibox Detector)、YOLO(You Only Look Once)、YOLOv2、YOLOv3和YOLOv4等,其特點(diǎn)是檢測(cè)精度略低,但檢測(cè)速度明顯優(yōu)于兩階段檢測(cè)算法[1-3]。
行人檢測(cè)存在行人姿態(tài)和尺度多樣及行人遮擋的問(wèn)題,導(dǎo)致YOLOv4算法對(duì)部分行人檢測(cè)不準(zhǔn)確,存在誤檢和漏檢的情況。本文提出一種在YOLOv4模型基礎(chǔ)上的改進(jìn)算法。改進(jìn)算法使用k-means聚類算法對(duì)數(shù)據(jù)集中目標(biāo)真實(shí)框尺寸進(jìn)行聚類分析,根據(jù)分析結(jié)果選出適用于行人的先驗(yàn)框尺寸。在此基礎(chǔ)上使用PANet(Path Aggregation Network)將淺層特征和高層特征進(jìn)行融合,解決行人的多姿態(tài)多尺度問(wèn)題。對(duì)于行人遮擋問(wèn)題,使用斥力損失函數(shù),利用預(yù)測(cè)框吸引指定目標(biāo),同時(shí)排斥周圍其他行人目標(biāo),使預(yù)測(cè)框靠近正確目標(biāo)的同時(shí)遠(yuǎn)離錯(cuò)誤目標(biāo),提高行人檢測(cè)效果。然后將非極大值抑制NMS(Non-Maximum Suppression)替換為soft-NMS(soft Non-Maximum Suppression)和DIoU-NMS(Distance-IoU Non- Maximum Suppression)[4,5],當(dāng)其他先驗(yàn)框與得分最高的先驗(yàn)框重疊時(shí),衰減其他先驗(yàn)框的分?jǐn)?shù),重疊越多受到的懲罰越大,衰減得也就越多,以此減少目標(biāo)的丟失。實(shí)驗(yàn)結(jié)果表明,基于YOLOv4算法改進(jìn)的行人檢測(cè)模型能夠很好地定位圖像中多姿態(tài)多尺度的行人,并且對(duì)處于遮擋情況下的行人也能檢測(cè)得很好。
由文獻(xiàn)[6]可知,R-CNN算法利用選擇性搜索算法從輸入的圖像中提取出2 000個(gè)可能存在目標(biāo)的候選區(qū)域;然后復(fù)制所有候選框所對(duì)應(yīng)的原圖區(qū)域并將其縮放為固定大小的圖像,依次將其輸入到卷積神經(jīng)網(wǎng)絡(luò)中進(jìn)行特征提取,使用支持向量機(jī)進(jìn)行分類;最后通過(guò)線性回歸器得到每個(gè)類的精確位置信息。但是,R-CNN算法中的每個(gè)候選框都要單獨(dú)進(jìn)行特征提取和分類,非常耗時(shí)。蔡佳然[7]和羅鵬飛[8]在SPP(Spatial Pyramid Pooling)模型中引入了空間金字塔池化策略,使得檢測(cè)模型可以接受任意大小的輸入,提高了模型對(duì)于目標(biāo)形變的魯棒性。文獻(xiàn)[9]中的Fast R-CNN檢測(cè)算法使用卷積神經(jīng)網(wǎng)絡(luò)提取整幅輸入圖像的深度特征;接著用選擇性搜索算法基于原圖生成候選框;隨后將候選框映射到特征圖并使用ROI Pooling提取其對(duì)應(yīng)的特征,將Softmax分類器添加在全連接層的后端以實(shí)現(xiàn)模型的分類,使模型特征提取和分類都基于神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn);最后使用邊界回歸器調(diào)整位置坐標(biāo)。但是,F(xiàn)ast R-CNN算法仍使用選擇性搜索算法,耗時(shí)大以致無(wú)法實(shí)現(xiàn)真正的端到端檢測(cè)。文獻(xiàn)[10]也采用了Faster R-CNN檢測(cè)算法,在使用卷積神經(jīng)網(wǎng)絡(luò)提取整幅輸入圖像的深度特征后,用RPN(Region Proposal Network)取代選擇性搜索算法生成候選框并映射到所提取的特征圖上;然后ROI Pooling將候選框所對(duì)應(yīng)的特征轉(zhuǎn)換為固定長(zhǎng)度的輸出數(shù)據(jù);最后利用Softmax分類器分類并進(jìn)一步調(diào)整物體的位置信息。文獻(xiàn)[11]采用R-FCN算法,根據(jù)目標(biāo)檢測(cè)需要定位目標(biāo)位置的特點(diǎn)將ResNet(Residual Network)網(wǎng)絡(luò)改造成用一層位置敏感卷積層替換掉全連接層的全卷積網(wǎng)絡(luò),旨在解決目標(biāo)檢測(cè)過(guò)程中全連接層丟失目標(biāo)精確位置信息的問(wèn)題。
單階段檢測(cè)算法中整個(gè)檢測(cè)過(guò)程只有一個(gè)網(wǎng)絡(luò),可以進(jìn)行端到端的回歸,在單個(gè)的神經(jīng)網(wǎng)絡(luò)中,直接從一次評(píng)估中得到目標(biāo)的位置信息和類概率。由文獻(xiàn)[12]可知,YOLO檢測(cè)算法將原始輸入圖像分成S×S個(gè)網(wǎng)格單元,每個(gè)網(wǎng)格單元生成B個(gè)邊界框和置信度,進(jìn)行物體的框定和分類,最后利用NMS去除冗余的邊界框,得到最終的位置信息和類概率。YOLO大大加快了檢測(cè)速度,但1個(gè)網(wǎng)格單元只能預(yù)測(cè)2個(gè)邊界框而且這2個(gè)邊界框?qū)儆谕粋€(gè)類,導(dǎo)致靠得近的目標(biāo)和尺度小的目標(biāo)都很難被檢測(cè)到。由文獻(xiàn)[13]可知,YOLOv2對(duì)網(wǎng)絡(luò)中每一層輸入的數(shù)據(jù)進(jìn)行批量歸一化處理和預(yù)處理,大大提高了訓(xùn)練速度和效果;引入的先驗(yàn)框可以在一個(gè)網(wǎng)格單元中預(yù)測(cè)多個(gè)尺度的不同物體,增加了預(yù)測(cè)框的數(shù)量;通路層獲取上一層特征圖的細(xì)節(jié)信息,并將該特征圖同最后輸出的特征圖相結(jié)合,提高了對(duì)小目標(biāo)的檢測(cè)能力。由文獻(xiàn)[14]可知,YOLOv3算法使用加入了殘差模塊的Darknet-53解決了深層網(wǎng)絡(luò)的梯度問(wèn)題,使用k-means聚類算法確定了先驗(yàn)框尺寸,改進(jìn)了多尺度特征融合網(wǎng)絡(luò),小目標(biāo)行人的檢測(cè)效果得到進(jìn)一步提升。Bochkovskiy等人[15]提出了YOLOv4檢測(cè)算法,使用CSPDarknet53作為主干特征提取網(wǎng)絡(luò),SPP和PANet作為加強(qiáng)特征提取網(wǎng)絡(luò)。SPP分別利用4個(gè)不同尺度的最大池化層進(jìn)行處理,極大增加了感受野,分離出最顯著的上下文特征;PANet在完成特征金字塔從上到下的特征提取后還需要實(shí)現(xiàn)從下到上的特征反復(fù)提取。此外,YOLOv4還有Mish激活函數(shù)、Mosaic數(shù)據(jù)增強(qiáng)、CIoU(Complete Intersection over Union)、學(xué)習(xí)率預(yù)先退貨衰減等“堆料”應(yīng)用,相較于其他算法檢測(cè)精度更高,檢測(cè)速度更快。YOLOv4是目標(biāo)檢測(cè)模型,行人與物體目標(biāo)之間存在長(zhǎng)寬比、形態(tài)、尺寸和遮擋等差異,如果直接將YOLOv4模型用于行人檢測(cè),會(huì)導(dǎo)致模型對(duì)小尺度、非站立姿態(tài)、被遮擋行人的檢測(cè)效果并不是特別令人滿意。
為了使YOLOv4算法更好地適用于行人檢測(cè),本文對(duì)YOLOv4進(jìn)行以下改進(jìn):首先,使用k-means聚類算法對(duì)行人數(shù)據(jù)集真實(shí)框尺寸進(jìn)行分析,根據(jù)聚類結(jié)果確定先驗(yàn)框尺寸;其次,利用改進(jìn)的PANet特征金字塔進(jìn)行多尺度特征融合,增加對(duì)多姿態(tài)、多尺度行人目標(biāo)的敏感度,以提高檢測(cè)效果;最后,針對(duì)行人遮擋問(wèn)題,利用預(yù)測(cè)框吸引指定目標(biāo)的同時(shí)排斥周圍其他行人目標(biāo),提出使用斥力損失來(lái)優(yōu)化損失函數(shù),使得預(yù)測(cè)框靠近正確目標(biāo)的同時(shí)遠(yuǎn)離錯(cuò)誤目標(biāo)。
YOLOv4算法中,先驗(yàn)框(即初始邊界框)是根據(jù)不同尺度的網(wǎng)絡(luò)層來(lái)確定的。早期目標(biāo)檢測(cè)算法中先驗(yàn)框的尺寸是憑經(jīng)驗(yàn)確定的,過(guò)于主觀。YOLOv2之后的算法大多使用k-means聚類分析來(lái)確定先驗(yàn)框尺寸。
k-means聚類算法發(fā)現(xiàn)給定數(shù)據(jù)集的k個(gè)簇并用簇的中心點(diǎn)來(lái)描述,k-means聚類算法使用歐氏距離來(lái)度量樣本間的相似度,若在真實(shí)框聚類過(guò)程中使用k均值歐氏距離,就會(huì)使較大的邊界框產(chǎn)生較多誤差。因此,本文提出如式(1)所示的先驗(yàn)框聚類的距離度量計(jì)算公式,使得樣本間的距離與邊界框的大小無(wú)關(guān)。
distance(box,cen)=1-CIoU(box,cen)
(1)
其中,box和cen分別是真實(shí)框和邊界框簇中心點(diǎn)集合;CIoU是IoU(Intersection over Union)基礎(chǔ)上的改進(jìn),對(duì)邊界框的尺寸不再敏感,不僅考慮了真實(shí)框與邊界框簇中心的交并集比值,還考慮了真實(shí)框與邊界框之間的中心點(diǎn)距離、重疊率、長(zhǎng)寬比和最小閉包區(qū)域?qū)蔷€距離。CIoU計(jì)算如式(2)~式(4)所示:
(2)
(3)
(4)
其中,b和bgt分別表示邊界框和真實(shí)框的中心點(diǎn),d表示2個(gè)中心點(diǎn)的歐氏距離,c表示最小閉包區(qū)域的對(duì)角線長(zhǎng)度,α是權(quán)重參數(shù),v表示長(zhǎng)寬比的相似性,w和wgt分別表示邊界框和真實(shí)框的寬,h和hgt分別表示邊界框和真實(shí)框的高。圖1中左上角為真實(shí)框,右下角為邊界框,外邊框?yàn)閮烧叩淖钚¢]包區(qū)域。
Figure 1 Relation of ground truth,boundary box and minimum closure area 圖1 真實(shí)框、邊界框與最小閉包區(qū)域關(guān)系
本文利用k-means聚類算法將行人數(shù)據(jù)集分成k個(gè)簇,經(jīng)過(guò)一系列迭代運(yùn)算使得簇內(nèi)邊界框的距離盡可能小,簇間邊界框的距離盡可能大,再通過(guò)目標(biāo)函數(shù)確定先驗(yàn)框的尺寸。通過(guò)對(duì)行人數(shù)據(jù)集中真實(shí)框的尺寸進(jìn)行聚類分析,選出適合行人目標(biāo)的先驗(yàn)框尺寸,取代YOLOv4算法中原來(lái)的先驗(yàn)框尺寸,以達(dá)到提高檢測(cè)效果的目的。
淺層網(wǎng)絡(luò)包含更多的行人定位信息,深層網(wǎng)絡(luò)包含更多的行人語(yǔ)義信息,網(wǎng)絡(luò)經(jīng)過(guò)一系列的下采樣操作后,小尺度行人的定位信息就會(huì)丟失[3]。本節(jié)的目的是通過(guò)多尺度特征融合,使淺層小目標(biāo)行人的定位信息更多地傳遞到深層網(wǎng)絡(luò)中,以提高YOLOv4檢測(cè)模型對(duì)小尺度行人的檢測(cè)精確度。
YOLOv4算法中SPP模塊[16]設(shè)計(jì)在CSPDarknet53最后一個(gè)特征層的卷積里,分別利用4個(gè)不同尺度的池化核(分別為13×13,9×9,5×5和1×1)進(jìn)行最大池化處理,將不同尺度的特征轉(zhuǎn)換為長(zhǎng)度固定的輸出,以極大地增加感受野,分離出最顯著的上下文特征[7]。SPP加強(qiáng)特征網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。
Figure 2 Structure of SPP enhanced feature network 圖2 SPP加強(qiáng)特征網(wǎng)絡(luò)結(jié)構(gòu)
PANet結(jié)構(gòu)[17]首先在傳統(tǒng)特征金字塔結(jié)構(gòu)FPN(Feature Pyramid Network)中完成從上到下的特征提取,這一步中只增強(qiáng)了語(yǔ)義信息,沒(méi)有傳遞定位信息;然后在下一個(gè)特征金字塔中完成從下到上的路徑增強(qiáng)特征提取,將淺層的強(qiáng)定位信息傳遞上去;接下來(lái)自適應(yīng)特征池化層利用金字塔所有層的特征使得后期的分類和定位更加準(zhǔn)確;最后是全連接層融合。其網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示,從左到右a為FPN特征金字塔,b為從下到上路徑增強(qiáng),c為自適應(yīng)特征池化,d為分類定位,e為全連接融合。
Figure 3 Structure of PANet 圖3 PANet結(jié)構(gòu)
Figure 4 Structure of improved feature extraction network 圖4 改進(jìn)后的特征提取網(wǎng)絡(luò)結(jié)構(gòu)
YOLOv4算法在3個(gè)有效特征層上使用了PANet結(jié)構(gòu),但對(duì)于小目標(biāo)行人和多姿態(tài)行人的識(shí)別效果還是不佳。因此,本文對(duì)YOLOv4進(jìn)行如圖4所示的改進(jìn),使其在4個(gè)有效層上進(jìn)行多尺度特征融合。
遮擋分為類間遮擋和類內(nèi)遮擋,前者是對(duì)象被其他類別的對(duì)象遮擋,后者是對(duì)象被同一類別的對(duì)象遮擋。進(jìn)行行人檢測(cè)時(shí),類內(nèi)遮擋所占比例更大[18]。本文針對(duì)類內(nèi)遮擋提出使用斥力損失函數(shù)來(lái)優(yōu)化YOLOv4原有損失函數(shù),利用預(yù)測(cè)框吸引指定目標(biāo)的同時(shí)排斥周圍其他行人目標(biāo)框,增大預(yù)測(cè)框與周圍其他行人目標(biāo)框的距離,使得預(yù)測(cè)框靠近正確目標(biāo)的同時(shí)遠(yuǎn)離錯(cuò)誤目標(biāo)。計(jì)算公式如式(5)所示:
L=LYOLOv4+γ·LRepGT+β·LRepBox
(5)
其中,LYOLOv4表示預(yù)測(cè)框與其指定目標(biāo)的損失計(jì)算值,本文繼續(xù)沿用YOLOv4中的損失計(jì)算方式;LRepGT表示預(yù)測(cè)框與周圍其他目標(biāo)真實(shí)框的損失計(jì)算值;LRepBox表示預(yù)測(cè)框與周圍其他目標(biāo)預(yù)測(cè)框的損失計(jì)算值;γ和β分別表示2種損失的權(quán)重。
當(dāng)預(yù)測(cè)框與其他目標(biāo)真實(shí)框靠得太近時(shí),會(huì)出現(xiàn)檢測(cè)不準(zhǔn)確的情況。本文通過(guò)使用LRepGT減小其他目標(biāo)真實(shí)框?qū)︻A(yù)測(cè)框的影響,其計(jì)算公式如式(6)~式(11)所示:
(6)
(7)
(8)
(9)
(10)
(11)
其中,P=(lp,tp,wp,hp)和G=(lg,tg,wg,hg)為預(yù)測(cè)框和真實(shí)框,分別由它們的左頂點(diǎn)坐標(biāo)及其寬度和高度表示;ρ+={P}是所有預(yù)測(cè)框的集合;ζ={G}是一幅圖像中所有真實(shí)框的集合;ρ+中的預(yù)測(cè)框P經(jīng)過(guò)回歸計(jì)算得到BP;光滑函數(shù)Smoothln(x)在(0,1)中連續(xù)可微;σ∈[0,1)是調(diào)整斥力損失函數(shù)對(duì)異常值敏感的光滑參數(shù)。
當(dāng)預(yù)測(cè)框與其他目標(biāo)預(yù)測(cè)框靠得太近時(shí),在進(jìn)行soft-NMS、DIoU-NMS計(jì)算過(guò)程中容易篩選掉IoU大于閾值的預(yù)測(cè)框,出現(xiàn)漏檢的情況。本文使用LRepBox將不同目標(biāo)的預(yù)測(cè)框分開(kāi),可以有效緩解這種情況,其計(jì)算如式(12)所示:
(12)
其中,BPi和BPj分別表示P中第i個(gè)和j個(gè)預(yù)測(cè)框;當(dāng)預(yù)測(cè)框之間的交并比大于0時(shí)使用I(·)函數(shù)進(jìn)行計(jì)算;ε為很小的常數(shù)。
本文在Windows系統(tǒng)下使用keras搭建基于YOLOv4改進(jìn)的目標(biāo)檢測(cè)框架作為實(shí)驗(yàn)運(yùn)行環(huán)境。硬件條件為CPU:Intel(R)Core i7-8750H 2.2 GHz,最高睿頻4.1 GHz;GPU:NVIDIA GeForce GTX1060Ti。
本文比較分析了CityPersons[19]、CoCo和CrowdHuman 3個(gè)行人數(shù)據(jù)集的特點(diǎn)。如表1所示,CityPersons中平均每幅圖像有7個(gè)行人而且行人被遮擋的情況更多,行人多樣性和被遮擋情況更符合本文研究?jī)?nèi)容。CityPersons行人數(shù)據(jù)集是在CityScapes數(shù)據(jù)集的基礎(chǔ)上建立的,5 000個(gè)精細(xì)標(biāo)注的圖像中包含35 000個(gè)行人,劃分為2 975個(gè)訓(xùn)練圖像、500個(gè)驗(yàn)證圖像和1 525個(gè)測(cè)試圖像。行人主要分為4種:(1)步行的人,包括跑步、走路和站立姿勢(shì)的行人;(2)騎行的人,包括騎自行車和摩托車的行人;(3)坐著的行人;(4)非正常姿勢(shì)的人,包括彎腰、深蹲等姿勢(shì)的行人。非密集圖像上的實(shí)驗(yàn)是為了驗(yàn)證本文所提方法是否對(duì)孤立對(duì)象檢測(cè)有影響。
Table 1 Pedestrian density in different datasets表1 不同數(shù)據(jù)集行人密度
本文使用0.000 1的權(quán)重衰減和0.9的動(dòng)量,模型分別以0.000 05,0.000 5和0.005的學(xué)習(xí)率進(jìn)行4×103,8×103和30×103次迭代訓(xùn)練,訓(xùn)練批量為10,輸入圖像大小為608×608像素。
訓(xùn)練集中的真實(shí)框經(jīng)過(guò)k-means聚類后得到的12個(gè)先驗(yàn)框尺寸,如表2所示,將得到的先驗(yàn)框尺寸分別應(yīng)用于網(wǎng)絡(luò)不同尺度的檢測(cè)層中。
Table 2 Anchorbox sizes after cluster analysis表2 聚類分析后先驗(yàn)框尺寸
本文改進(jìn)模型在CityPersons數(shù)據(jù)集上的檢測(cè)結(jié)果如圖5所示。
從圖5可以看出,不同形態(tài)尺度的行人和被遮擋的行人都可以被檢測(cè)到,且準(zhǔn)確率較高,在非密集型圖像上也表現(xiàn)出了較好的檢測(cè)效果,因此,在YOLOv4算法基礎(chǔ)上進(jìn)行改進(jìn)的行人檢測(cè)模型具有較好的檢測(cè)效果。
Figure 5 Detection results of the improved YOLOv4 圖5 本文改進(jìn)的YOLOv4檢測(cè)結(jié)果
為進(jìn)一步證明改進(jìn)模型的性能,將處理好的數(shù)據(jù)集分別在Faster R-CNN、YOLOv3、YOLOv4和改進(jìn)的YOLOv4 4種模型上進(jìn)行實(shí)驗(yàn),檢測(cè)結(jié)果對(duì)比如圖6所示。
Figure 6 Comparison of detection results圖6 檢測(cè)結(jié)果對(duì)比圖
從圖6可以看出,相比于其他3種模型,改進(jìn)的YOLOv4行人檢模型架在小尺度、多姿態(tài)和被遮擋行人方面檢測(cè)精度都更高。本文使用平均檢測(cè)時(shí)間Avgtime、準(zhǔn)確率Precision、召回率Recall和平均檢測(cè)精度AP作為檢測(cè)模型的評(píng)價(jià)標(biāo)準(zhǔn)。k-YOLOv4表示只對(duì)原YOLOv4模型進(jìn)行k-means改進(jìn),P-YOLOv4表示只對(duì)原YOLOv4模型進(jìn)行多尺度融合改進(jìn),檢測(cè)結(jié)果對(duì)比如表3所示,6種檢測(cè)模型的P-R值變化如圖7所示。
Table 3 Comparison of results of different detection models表3 不同檢測(cè)模型檢測(cè)結(jié)果對(duì)比表
Figure 7 Comparison of P-R values of different detection models圖7 不同檢測(cè)模型P-R值變化對(duì)比圖
從表3可以看出,在這6種檢測(cè)模型中,YOLOv3的平均檢測(cè)時(shí)間遠(yuǎn)遠(yuǎn)少于Faster R-CNN的,但準(zhǔn)確率略低于Faster R-CNN的;Faster R-CNN的平均檢測(cè)時(shí)間過(guò)長(zhǎng),達(dá)不到實(shí)時(shí)檢測(cè)的目的;YOLOv4的平均檢測(cè)時(shí)間較YOLOv3的少0.59 ms,平均檢測(cè)精度提高了3.79%,且召回率也有所提升;k-YOLOv4和P-YOLOv4相比于YOLOv4檢測(cè)效果均有所提高;改進(jìn)的YOLOv4檢測(cè)模型的平均檢測(cè)時(shí)間略高于YOLOv4的,但召回率提高了1.14%,平均檢測(cè)精度也提高了。從圖7可以看出,改進(jìn)的YOLOv4檢測(cè)模型P-R值大于其余5種檢測(cè)模型,一方面是因?yàn)榫垲惙治鰹橄闰?yàn)框選擇了合適的尺寸,使得目標(biāo)定位更準(zhǔn)確,多層的多尺度融合可以更好地檢測(cè)小目標(biāo)和多姿態(tài)的行人;另一方面是因?yàn)槭褂贸饬p失函數(shù)提高了被遮擋行人的檢測(cè)精度。總之,實(shí)驗(yàn)表明本文提出的YOLOv4改進(jìn)模型具有更好的檢測(cè)效果。
相同迭代次數(shù)下,截取的6種檢測(cè)模型訓(xùn)練過(guò)程中的loss值變化情況如圖8所示。
Figure 8 Change trend of loss values of different detection models圖8 不同檢測(cè)模型loss值變化對(duì)比圖
從loss值變化對(duì)比圖來(lái)看,本文改進(jìn)的YOLOv4檢測(cè)模型開(kāi)始訓(xùn)練時(shí)loss值相比其他6種模型都大,經(jīng)過(guò)訓(xùn)練后loss值開(kāi)始下降并逐漸趨于平穩(wěn),收斂效果更好且收斂值更低。
本文還用自己采集的數(shù)據(jù)集進(jìn)行了測(cè)試,檢測(cè)結(jié)果如圖9所示,說(shuō)明進(jìn)行多尺度特征融合對(duì)檢測(cè)小目標(biāo)、多姿態(tài)行人是有效的,斥力損失函數(shù)的使用也提高了被遮擋行人的檢測(cè)精度。
Figure 9 Diagram of detection results圖9 檢測(cè)結(jié)果圖
為了提高多尺度、多姿態(tài)行人的檢測(cè)精度,本文對(duì)LOYOv4算法進(jìn)行了以下改進(jìn):首先,使用k-means聚類算法對(duì)行人數(shù)據(jù)集的真實(shí)框尺寸進(jìn)行分析,根據(jù)聚類結(jié)果確定先驗(yàn)框尺寸大?。黄浯?,利用改進(jìn)的PANet特征金字塔進(jìn)行多尺度特征融合。針對(duì)行人遮擋問(wèn)題,提出使用斥力損失來(lái)優(yōu)化損失函數(shù),利用預(yù)測(cè)框排斥周圍其他行人目標(biāo),使預(yù)測(cè)框靠近正確目標(biāo)的同時(shí)遠(yuǎn)離錯(cuò)誤目標(biāo)。實(shí)驗(yàn)結(jié)果表明,相比于YOLOv4和其他行人檢測(cè)模型,本文提出的改進(jìn)模型可以大幅度提高行人檢測(cè)的準(zhǔn)確率。