耿帥帥,廖濤,劉喚喚
(安徽理工大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院,安徽 淮南 232001)
寵物犬在人們的日常生活中扮演著很重要的角色,然而人們帶著寵物犬散步時(shí),常常因?yàn)槟承┰驅(qū)櫸锶粻坷K,給其他行人的安全帶來(lái)了很大的威脅。因此公共場(chǎng)景下對(duì)未牽繩寵物犬的監(jiān)管力度應(yīng)該加大。由于遛犬時(shí)間不定與巡查人力少等原因,人工檢測(cè)難度較大,對(duì)基于網(wǎng)絡(luò)的、高效的寵物犬牽繩檢測(cè)變得愈發(fā)重要。因此急需實(shí)現(xiàn)基于網(wǎng)絡(luò)的、高效的寵物犬牽繩自動(dòng)動(dòng)態(tài)的目標(biāo)檢測(cè)。
近些年來(lái),隨著計(jì)算機(jī)計(jì)算能力的提升與計(jì)算機(jī)視覺對(duì)圖像、視頻提取特征方式的改變,基于深度學(xué)習(xí)目標(biāo)檢測(cè)算法(如Faster R-CNN、SSD)的檢測(cè)精度得到較大的提升且識(shí)別效果較好,目標(biāo)檢測(cè)算法在動(dòng)植物檢測(cè)方面有廣泛的應(yīng)用前景。
目前,主流的深度學(xué)習(xí)模型在動(dòng)植物檢測(cè)中取得了不錯(cuò)的效果,例如:楊等人提出一種融合坐標(biāo)注意力機(jī)制的YOLOv4網(wǎng)絡(luò)模型對(duì)奶牛面部進(jìn)行識(shí)別,達(dá)到了不錯(cuò)的效果;權(quán)等人使用減少?gòu)埩康腨OLOv4模型對(duì)采集的農(nóng)田苗草數(shù)據(jù)進(jìn)行訓(xùn)練,實(shí)現(xiàn)了苗草的高效識(shí)別;吳等人在YOLOv5模型中引入跳轉(zhuǎn)連接與注意力機(jī)制,解決真實(shí)近海環(huán)境下珊瑚礁底棲生物識(shí)別效果差的問(wèn)題;劉等人設(shè)計(jì)了一種含有殘差模塊的darknet-20主干網(wǎng)絡(luò)且融合多尺度檢測(cè)模塊,提升了復(fù)雜環(huán)境下番茄果實(shí)的檢測(cè)精度。
然而在寵物犬牽繩方面的應(yīng)用還存在以下問(wèn)題:比如公開數(shù)據(jù)集噪點(diǎn)嚴(yán)重,可用樣本較少;寵物犬毛發(fā)旺盛且與犬主人靠近,采集照片存在繩子被遮擋,檢測(cè)難度高等。針對(duì)以上問(wèn)題,本文在對(duì)公開數(shù)據(jù)集擴(kuò)充的基礎(chǔ)上,首先通過(guò)網(wǎng)絡(luò)爬取了部分?jǐn)?shù)據(jù)集,與篩選出的符合要求的公開數(shù)據(jù)集進(jìn)行組合,構(gòu)成了本文自制數(shù)據(jù)集;其次,本文通過(guò)修改骨干特征提取網(wǎng)絡(luò)添加坐標(biāo)注意力機(jī)制方法,提出了一種改進(jìn)的YOLOv5模型,基于原YOLOv5的在寵物檢測(cè)方面的缺陷,參考犬類牽繩數(shù)據(jù)在實(shí)際檢測(cè)中存在的問(wèn)題和需求,改進(jìn)的YOLOv5模型在犬類目標(biāo)識(shí)別與實(shí)時(shí)捕捉定位能較好的滿足本文的需求。
YOLOv5模型是目前主流的一階段深度學(xué)習(xí)目標(biāo)檢測(cè)算法,該模型主要是由輸入端(Input)、主干網(wǎng)絡(luò)(Backbone)、特征融合(Neck)、檢測(cè)端(Detect)四部分組成,如圖1所示。Input模塊對(duì)輸入的圖片進(jìn)行自適應(yīng)縮放、拼接等操作,自適應(yīng)地找出最優(yōu)的錨框進(jìn)行檢測(cè);Backbone模塊的FOCUS、CBL、CSP1、SPP操作對(duì)圖片不同尺度的特征進(jìn)行提取與聚合,提煉出13×13、26×26、52×52三種尺度的特征圖;Neck模塊采用了FPN+PAN的網(wǎng)路結(jié)構(gòu)對(duì)上層不同尺度的信息進(jìn)行融合,F(xiàn)PN層自頂向下的對(duì)圖片進(jìn)行上采樣從而與主干網(wǎng)絡(luò)的特征進(jìn)行特征融合,為了提高上層尺度信息的表現(xiàn)力,借助PAN結(jié)構(gòu)把特征信息由下向上傳遞以達(dá)到上層尺度融合更多的特征,通過(guò)FPN+PAN的結(jié)構(gòu)可以對(duì)主干網(wǎng)絡(luò)和檢測(cè)網(wǎng)絡(luò)提取的特征進(jìn)行聚合,提高網(wǎng)絡(luò)特征融合的能力;最后,Detect模塊根據(jù)上層的三種尺度的候選框?qū)D像的特征進(jìn)行預(yù)測(cè),生成邊界框、置信度以及定位識(shí)別。
圖1 YOLOv5網(wǎng)絡(luò)模型結(jié)構(gòu)圖
為了提升模型對(duì)局部特征的關(guān)注程度,在模型的骨干特征提取網(wǎng)絡(luò)中引入了通道注意力模型SENet模塊,如圖2所示。該模型結(jié)合了注意力機(jī)制的特點(diǎn),強(qiáng)化了對(duì)主要特征的關(guān)注度,以期達(dá)到誤檢與漏檢的目標(biāo)。
圖2 通道注意力模型
SENet由Squeeze、Excitation與Reweight三個(gè)子模塊組成。其中,Squeeze是SENet的壓縮模塊,由一個(gè)全局平均池化Globe Average Pooling構(gòu)成,主要負(fù)責(zé)對(duì)特征圖的壓縮以及提高感受野;Excitation模塊使用兩個(gè)全連接層以及一個(gè)權(quán)重調(diào)節(jié)激活函數(shù)對(duì)通道之間的相關(guān)性進(jìn)行顯式的建模,權(quán)重調(diào)節(jié)部件通過(guò)參數(shù)來(lái)為每個(gè)特征通道生成權(quán)重,這些特征參數(shù)也稱為特征響應(yīng)值,被顯示的學(xué)習(xí)用以去抑制對(duì)當(dāng)前模塊不重要特征的權(quán)值以達(dá)到減小損失的效果;Reweight模塊為模型的特征重定向?qū)?,能夠?qū)ι蠈觽鬏敊?quán)重的結(jié)果進(jìn)行通道上的定向加權(quán),逐通道的進(jìn)行賦值并對(duì)初始特征進(jìn)行權(quán)值賦予,以此作為本模塊的輸出。
寵物犬牽繩數(shù)據(jù)集一部分來(lái)自Kaggle競(jìng)賽貓狗圖像數(shù)據(jù)2 000張,另一部分鑒于本文的檢測(cè)環(huán)境為公共場(chǎng)景下對(duì)未牽繩寵物犬的識(shí)別,采用網(wǎng)絡(luò)爬蟲的技術(shù)爬取了特定公共場(chǎng)景(公園、馬路、小區(qū))下的圖片2 000張與對(duì)此圖片進(jìn)行數(shù)據(jù)增強(qiáng)擴(kuò)充500張。
由于公共場(chǎng)景遛寵物犬時(shí)間與天氣狀況不一,晴天、多云、陰天、下午、晚上等,因此,為提高模型對(duì)公共場(chǎng)景下檢測(cè)寵物犬圖像的魯棒性,將圖像進(jìn)行色域調(diào)整,將HSV(Hue,Saturation,Value)顏色模型中的色調(diào)(H)、飽和度(S)、明度(V)進(jìn)行調(diào)整,從而模擬出在不同天氣與時(shí)間點(diǎn)的環(huán)境情況,如圖3所示。用數(shù)據(jù)增強(qiáng)的方法獲得500張。
圖3 色域扭曲數(shù)據(jù)增強(qiáng)
實(shí)驗(yàn)的標(biāo)注工具采用LabelImg對(duì)寵物犬?dāng)?shù)據(jù)進(jìn)行人工標(biāo)注,實(shí)驗(yàn)需要識(shí)別寵物犬是否牽繩,故總共設(shè)置兩個(gè)標(biāo)簽,分別為:cord-dog(牽繩)、dog(未牽繩)。數(shù)據(jù)集共包含4 500張,訓(xùn)練集、測(cè)試集與驗(yàn)證集數(shù)量比例為8:1:1即3 600:450:450。其中訓(xùn)練集由1 600張kaggle競(jìng)賽數(shù)據(jù)圖片和2 000張網(wǎng)絡(luò)爬取的寵物犬圖片組成,測(cè)試集和驗(yàn)證集分別由200張kaggle競(jìng)賽數(shù)據(jù)圖片和250張網(wǎng)絡(luò)爬取的寵物犬圖片組成,如表1所示。
表1 寵物犬牽繩數(shù)據(jù)集分布
實(shí)驗(yàn)所需的環(huán)境如表2所示。以相同的配置設(shè)置于對(duì)比試驗(yàn)?zāi)P偷腨OLOv5、Mobilenet-V2 YOLOv5網(wǎng)絡(luò),作為對(duì)照組網(wǎng)絡(luò)。
表2 深度學(xué)習(xí)環(huán)境配置表
本次實(shí)驗(yàn)測(cè)試集共包含4 500張圖片,其中寵物犬被牽繩檢測(cè)的平均精確度為78.6%,寵物犬未被牽繩檢測(cè)的平均準(zhǔn)確度均值為82.9%,檢測(cè)到寵物犬未被牽繩如圖4所示。檢測(cè)到寵物犬已被牽繩如圖5(a)所示,檢測(cè)到寵物犬被牽繩隨后進(jìn)入公共場(chǎng)景,進(jìn)行牽繩識(shí)別如圖5(b)所示。
從圖4和5中可以看出對(duì)于正常的公共場(chǎng)景下寵物犬是否牽繩的檢測(cè)識(shí)別,本文提出的算法取得了不錯(cuò)的檢測(cè)效果,map值達(dá)到近80.7%。由圖4可以看出,當(dāng)寵物犬在公共場(chǎng)景下未被牽繩時(shí),則可以使用YOLOv5準(zhǔn)確檢測(cè)識(shí)別。而由圖5可以看出,當(dāng)寵物犬被牽繩活動(dòng)時(shí),細(xì)小的繩索信息也可以被獲取并抓取識(shí)別,本模型對(duì)寵物犬繩索粗細(xì)的信息可以較好的識(shí)別。
圖4 寵物犬未被牽繩的檢測(cè)示例
圖5 寵物犬已被牽繩的檢測(cè)示例
本文對(duì)YOLOv5模型進(jìn)行改進(jìn),對(duì)公共場(chǎng)景下寵物犬是否牽繩進(jìn)行檢測(cè)的同時(shí),與原YOLOv5、Mobilenet V2-YOLOv5網(wǎng)絡(luò)模型進(jìn)行對(duì)比實(shí)驗(yàn)。然后在測(cè)試集上分別對(duì)其進(jìn)行訓(xùn)練測(cè)試評(píng)估,以參數(shù)量、模型大小、平均精度均值作map為模型的性能的評(píng)價(jià)標(biāo)準(zhǔn),詳細(xì)的對(duì)比實(shí)驗(yàn)數(shù)據(jù)如表3所示。
表3 改進(jìn)YOLOv5 與其他算法對(duì)比實(shí)驗(yàn)結(jié)果
根據(jù)實(shí)驗(yàn)數(shù)據(jù)表的三組模型的測(cè)試信息可以看出,改進(jìn)后網(wǎng)絡(luò)模型YOLOv5的map值已經(jīng)達(dá)到80.7%且參數(shù)量與模型大小為7 214 431、14.7 m,與原YOLOv5相比,改進(jìn)YOLOv5網(wǎng)絡(luò)在網(wǎng)絡(luò)參數(shù)、模型大小增加少量的情況下平均精度的均值提升了1.5個(gè)百分點(diǎn);相較于Mobilenet-v2 YOLOv5,改進(jìn)YOLOv5網(wǎng)絡(luò)在參數(shù)量、模型大小上稍大,但平均精度的均值有了顯著的提升。通過(guò)以上實(shí)驗(yàn)數(shù)據(jù)對(duì)比可以得出,改進(jìn)YOLOV5在參數(shù)量、模型大小沒有顯著擴(kuò)大的情況下,精度得到提升,在寵物犬牽繩檢測(cè)上具有較好的精度。
針對(duì)在公共場(chǎng)景下寵物犬襲擊行人的問(wèn)題,本文在公共安全領(lǐng)域引入基于深度學(xué)習(xí)的YOLO網(wǎng)路模型來(lái)對(duì)寵物犬是否牽繩進(jìn)行檢測(cè),并借鑒SENet的特點(diǎn)對(duì)原始模型進(jìn)行改進(jìn)。改進(jìn)的YOLOv5模型目標(biāo)檢測(cè)算法對(duì)寵物犬被牽繩檢測(cè)的平均精度為78.6%,對(duì)未牽繩的寵物犬檢測(cè)的map為82.9%。實(shí)驗(yàn)結(jié)果充分證明了本文的算法的平均精度對(duì)寵物犬是否牽繩檢測(cè)具有較高的識(shí)別度,有助于提升在公共場(chǎng)合下人們對(duì)寵物的管理水平。
基于深度學(xué)習(xí)的目標(biāo)檢測(cè)方法應(yīng)用于公共安全領(lǐng)域有著極大的研究?jī)r(jià)值以及應(yīng)用前景。在接下來(lái)的工作中將重點(diǎn)對(duì)實(shí)際公共場(chǎng)景禁入目標(biāo)的課題進(jìn)行相關(guān)研究,并結(jié)合深度學(xué)習(xí)中的transform結(jié)構(gòu)對(duì)模型進(jìn)行改進(jìn),對(duì)公共場(chǎng)景禁入目標(biāo)進(jìn)行準(zhǔn)確識(shí)別與檢測(cè)。