国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于MobileNet的輕量化密集行人檢測算法

2024-06-17 14:28:06魏志劉罡張旭
軟件工程 2024年6期
關(guān)鍵詞:注意力機(jī)制

魏志 劉罡 張旭

摘?要:

針對(duì)現(xiàn)有的行人檢測算法在復(fù)雜場景下檢測速度慢、檢測精度不高的問題,提出一種輕量化密集行人檢測算法MER\|YOLO(Miniature?Enhanced?Recognition\|You?Only?Look?Once)。首先,MER\|YOLO以MobileNetV3(輕量化網(wǎng)絡(luò)模型)作為特征提取主干網(wǎng)絡(luò),提升模型對(duì)于小目標(biāo)及模糊圖像的學(xué)習(xí)能力;其次,通過融合深度可分離卷積和ECA(Efficient?Channel?Attention)注意力機(jī)制構(gòu)建DPE\|C3模塊,解決密集行人檢測過程中的遮擋丟失漏檢的問題;最后,MER\|YOLO使用空間和通道重建卷積處理標(biāo)準(zhǔn)卷積中固有的空間和信道冗余,減少模型計(jì)算需求。該算法應(yīng)用于WiderPerson(混合行人數(shù)據(jù)集)上的檢測精度達(dá)到了78.9%,相較于YOLOv5s算法提升了3.0百分點(diǎn),同時(shí)模型計(jì)算量比YOLOv5s降低了13.3百分點(diǎn)。因此,MER\|YOLO算法兼顧了檢測準(zhǔn)確度和檢測速度的要求。

關(guān)鍵詞:行人檢測;輕量化網(wǎng)絡(luò);注意力機(jī)制;空間重建卷積

中圖分類號(hào):TP391.4??文獻(xiàn)標(biāo)志碼:A

0?引言(Introduction)

隨著城市交通建設(shè)速度的加快,城市空間布局不斷變化,越加復(fù)雜的道路交通環(huán)境造成交通安全事故頻發(fā),行人檢測成為計(jì)算機(jī)視覺領(lǐng)域重要的研究方向之一,基于深度學(xué)習(xí)的目標(biāo)檢測算法發(fā)展迅速,在復(fù)雜場景下的目標(biāo)檢測中具有較高的靈活性。

為了提升行人識(shí)別技術(shù)的準(zhǔn)確性,最大限度地減少漏檢情況,研究人員開展了眾多研究。單志勇等[1]基于Faster?R\|CNN(Faster?Region\|based?Convolutional?Neural?Network)進(jìn)行了優(yōu)化,在一定程度上減少了重疊區(qū)域的漏檢和誤檢問題。趙九霄等[2]對(duì)SSD(Single?Shot?MultiBox?Detector)網(wǎng)絡(luò)模型進(jìn)行了創(chuàng)新,結(jié)合聚類算法選取檢測框,提高了算法的學(xué)習(xí)效率。馮宇平等[3]對(duì)目標(biāo)檢測算法YOLOv3\|Tiny進(jìn)行了優(yōu)化,降低了復(fù)雜背景對(duì)檢測精度的影響。石欣等[4]引入了淺層特征金字塔網(wǎng)絡(luò),雖然提升了模型的小目標(biāo)特征提取能力,但是提升了模型的復(fù)雜度。上述算法難以實(shí)現(xiàn)檢測精度和模型復(fù)雜度的平衡。

基于此,本文將YOLOv5s[5]作為基礎(chǔ)網(wǎng)絡(luò)進(jìn)行改進(jìn),使用MobileNetV3、深度可分離卷積、ECA注意力機(jī)制、空間和通道重建卷積構(gòu)建一種輕量化的可面向復(fù)雜檢測場景的行人檢測算法模型MER\|YOLO。在降低模型復(fù)雜度的同時(shí),提高了其在密集人群場景下對(duì)受遮擋行人的檢測能力。

1?算法改進(jìn)(Algorithm?improvement)

為了能夠快速準(zhǔn)確地檢測出行人,本文以?YOLOv5s(You?Only?Look?Once?version?5?small)為基礎(chǔ)模型進(jìn)行行人檢測算法的改進(jìn)和驗(yàn)證,改進(jìn)后的模型結(jié)構(gòu)如圖1所示。

1.1?輕量化網(wǎng)絡(luò)模塊

本研究的核心目標(biāo)是設(shè)計(jì)一種新的特征提取網(wǎng)絡(luò)架構(gòu),減少信息融合過程中的梯度冗余,增強(qiáng)網(wǎng)絡(luò)的學(xué)習(xí)效率并加速訓(xùn)練過程。為此,本研究選擇使用MobileNet網(wǎng)絡(luò),這是一種輕量級(jí)的特征提取模塊,用以替代YOLOv5網(wǎng)絡(luò)中的特征提取模塊,減少模型的體積和參數(shù)量。

MobileNetV3[6]是通過網(wǎng)絡(luò)架構(gòu)檢索(Network?Architecture?Search,?NAS)構(gòu)建的深度神經(jīng)網(wǎng)絡(luò)架構(gòu),它繼承了MobileNetV1的深度可分離卷積和MobileNetV2的線性殘差結(jié)構(gòu)。MobileNetV3的最大改進(jìn)是在瓶頸結(jié)構(gòu)上增加了壓縮和激勵(lì)(SE)[7]結(jié)構(gòu),以及用h\|swish函數(shù)代替swish函數(shù),由于“s”形曲線的計(jì)算時(shí)間較長,特別是在移動(dòng)設(shè)備上,因此采用h\|swish近似“s”形曲線,消除量化過程中潛在的精度損失,swish和h\|swish的公式分別如下:

swishx=x·δ(x)[JZ)][JY](1)

h\|swish=x·[ReLU6(x+3)/6][JZ)][JY](2)

公式(1)表示swish激活函數(shù),該函數(shù)將輸入x與δ(x)進(jìn)行逐元素乘法運(yùn)算,在計(jì)算中引入非線性量。公式(2)表示h\|swish激活函數(shù),這是一種計(jì)算效率更高的swish版本,它將輸入x與ReLU6[8]函數(shù)進(jìn)行逐元素乘法運(yùn)算,使其能有效地提取重要特征。利用MobileNetV3的特征提取層,可以有效地從輸入數(shù)據(jù)中捕獲相關(guān)特征和判別特征,MobileNetV3的主體網(wǎng)絡(luò)架構(gòu)如圖2所示。

1.2?DPE\|C3模塊

在目前的道路行人檢測中,檢測目標(biāo)往往很小,增大了檢測網(wǎng)絡(luò)的識(shí)別難度,為了充分提取輸入特征的上下文信息,增強(qiáng)對(duì)行人小目標(biāo)、圖像模糊情形下的檢測能力,對(duì)原有的YOLOv5算法的C3模塊進(jìn)行改進(jìn),通過融合深度可分離卷積和ECA注意力機(jī)制構(gòu)建DPE\|C3模塊(圖3)。在增強(qiáng)模型檢測能力的同時(shí),使得整體模塊更加輕量化,也可以更好地解決梯度消失等導(dǎo)致模型不穩(wěn)定的問題。本文使用深度可分離卷積DPConv替換原C3模塊中的普通卷積,在C3模塊的Concat操作之后加入ECA注意力機(jī)制,增強(qiáng)了模型對(duì)上下文特征信息的提取能力,進(jìn)一步提升了模型對(duì)小目標(biāo)行人的檢測能力。

高效通道注意力機(jī)制ECA[9](Efficient?Channel?Attention)的結(jié)構(gòu)如圖4所示,它的主要作用是突出特征圖中有效信息的特征通道,ECA模塊考慮到了跨通道的交互問題,能更好地捕捉通道間的聯(lián)系,獲得較高的性能增益。

注意力通道權(quán)值表達(dá)式如下:

w=σ([WTHX]W[WTBX]y)[JZ)][JY](3)

其中:σ代表ReLU6激活函數(shù),[WTHX]W[WTBX]代表一個(gè)c×c的參數(shù)矩陣,w表示通道的權(quán)值。

1.3?SCConv卷積模塊

SCConv[10]卷積模塊(圖5)代表空間和信道重構(gòu)卷積,設(shè)計(jì)了一種新的CNN(Convolutional?Neural?Network)壓縮方法,用以減少卷積層中存在的空間和信道冗余,它通過兩個(gè)獨(dú)特的模塊,即空間重構(gòu)單元SRU(Selective?Receptive?Unit)和通道重構(gòu)單元CRU(Channel?Recalibration?Unit),實(shí)現(xiàn)了較大的性能提升,同時(shí)顯著降低了計(jì)算量,這兩個(gè)模塊最大限度地減少了特征映射中的冗余。

SRU主要關(guān)注特征圖的空間維度,它的目標(biāo)是減少空間冗余。為了實(shí)現(xiàn)這一目標(biāo),SRU將輸入特征映射分解為多個(gè)空間塊的機(jī)制,并對(duì)每個(gè)空間塊應(yīng)用不同的卷積核,這種方法不僅可以更精確地捕獲每個(gè)空間塊內(nèi)的特征信息,而且可以顯著降低整體空間冗余。

本研究在MER\|YOLO檢測網(wǎng)絡(luò)的設(shè)計(jì)中,采用SCConv替代原始模型Neck中的普通卷積,減少了標(biāo)準(zhǔn)卷積中普遍存在的空間冗余和信道冗余,從而提高了卷積網(wǎng)絡(luò)模型的性能,同時(shí)減少了計(jì)算需求。

2?實(shí)驗(yàn)與分析(Experiment?and?analysis)

2.1?實(shí)驗(yàn)環(huán)境

模型實(shí)驗(yàn)基于Pytorch框架,實(shí)驗(yàn)所使用GPU為GeForce?RTX3060(16.0?GB),CUDA版本12.0,Pytorch版本1.11,Python版本3.9,CPU為i7\|11800H,操作系統(tǒng)為Windows11?64位。

2.2?數(shù)據(jù)集

本實(shí)驗(yàn)使用的WiderPerson數(shù)據(jù)集,是一個(gè)多樣化密集行人檢測數(shù)據(jù)集,具有豐富的前景圖像和背景圖像以及行人高度模糊的豐富人群場景。WiderPerson數(shù)據(jù)集中主要涉及的行人有3類,第一類是行人,即完全行人;第二類是騎行者,他們騎電動(dòng)車或自行車;第三類是部分可見的行人,所有行人都受到不同程度的遮擋。在實(shí)驗(yàn)中對(duì)原始數(shù)據(jù)集按照8∶2的比例劃分訓(xùn)練集和測試集。

2.3?實(shí)驗(yàn)結(jié)果與分析

為了有效地評(píng)估模型的檢測效果,采用平均精度均值mAP(mean?Average?Precision)衡量模型的性能,用浮點(diǎn)運(yùn)算次數(shù)FLOPs表示模型的復(fù)雜度。

2.3.1?消融實(shí)驗(yàn)

為了評(píng)估各改進(jìn)部分對(duì)整體算法性能的優(yōu)化程度,本文設(shè)計(jì)了消融實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表1所示。

從表1中可以看出,改進(jìn)1實(shí)驗(yàn)引入MobileNetV3模塊后,網(wǎng)絡(luò)模型的FLOPs降低了48%,而mAP0.5和mAP0.5:0.95分別降低了1.4百分點(diǎn)和1.6百分點(diǎn),表明MobileNetV3模塊在犧牲一定精度的情況下成功地降低了算法的復(fù)雜度。改進(jìn)2實(shí)驗(yàn)引入DPE\|C3模塊后,雖然FLOPs增加了35.4%,但是網(wǎng)絡(luò)模型的mAP0.5提高了0.7百分點(diǎn),表明DPE\|C3模塊可以增強(qiáng)網(wǎng)絡(luò)提取特征和關(guān)注大量語義信息的能力,從而提高針對(duì)小目標(biāo)行人的檢測準(zhǔn)確率。改進(jìn)3實(shí)驗(yàn)引入SCConv模塊后,在不提升網(wǎng)絡(luò)復(fù)雜度的情況下,將網(wǎng)絡(luò)模型的mAP0.5和mAP0.5:0.95均提高了1.7百分點(diǎn),表明SCConv模塊可以降低卷積網(wǎng)絡(luò)的冗余,提高回歸精度,對(duì)增強(qiáng)網(wǎng)絡(luò)對(duì)遮擋行人的識(shí)別能力有較大的幫助。

與原始YOLOv5s檢測網(wǎng)絡(luò)相比,MER\|YOLO的mAP0.5提高了3.0百分點(diǎn),mAP0.5:0.95提高了1.2百分點(diǎn),模型的復(fù)雜度降低了13.3%。以上結(jié)構(gòu)說明,同時(shí)采用3種改進(jìn)模塊,在提升了模型平均精度的基礎(chǔ)上,也降低了模型的復(fù)雜度,兼顧了模型的檢測精度與計(jì)算量。

2.3.2?不同算法的對(duì)比實(shí)驗(yàn)

為了進(jìn)一步驗(yàn)證本文提出的MER\|YOLO算法的檢測效果,與現(xiàn)有目標(biāo)檢測算法YOLOv3、YOLOv4和YOLOX\|Tiny在混合行人數(shù)據(jù)集上的應(yīng)用效果進(jìn)行對(duì)比,得到最符合本文要求的算法模型,MER\|YOLO與現(xiàn)有目標(biāo)檢測算法的對(duì)比結(jié)果如表2所示。

YOLOv3使用兩種主要的輕量化策略,去除骨干網(wǎng)絡(luò)中的殘差結(jié)構(gòu),只保留兩個(gè)檢測頭,犧牲了一定的檢測精度,YOLOv3網(wǎng)絡(luò)的mAP0.5和mAP0.5:0.95分別比MER\|YOLO降低了12.2百分點(diǎn)和10.7百分點(diǎn),表明MER\|YOLO更好地兼顧了計(jì)算量和檢測精度要求,盡可能地保留了原有YOLOv5s的基本架構(gòu),將YOLOv5s網(wǎng)絡(luò)中的Conv模塊替換為SCConv模塊,最大限度地減少了特征網(wǎng)絡(luò)映射中的冗余。此外,MER\|YOLO網(wǎng)絡(luò)采用ECA注意力機(jī)制,緩解了輕量化帶來的精度下降問題。

YOLOv4通過對(duì)原始網(wǎng)絡(luò)進(jìn)行特定優(yōu)化,將骨干網(wǎng)絡(luò)激活函數(shù)改為LeakyReLu函數(shù),保留了3個(gè)殘差結(jié)構(gòu)及特征融合金字塔,由于網(wǎng)絡(luò)使用了同樣的輕量化策略,因此網(wǎng)絡(luò)也面臨同樣的精度下降問題。YOLOv4網(wǎng)絡(luò)的mAP0.5和mAP0.5:0.95分別比MER\|YOLO網(wǎng)絡(luò)降低了12.5百分點(diǎn)和16.8百分點(diǎn),F(xiàn)LOPs比MER\|YOLO網(wǎng)絡(luò)多2.4?GB。由此可見,YOLOv4采用的輕量化策略并不適合行人檢測。

YOLOX\|Tiny中使用的輕量化方案保留了原有的YOLOX的框架結(jié)構(gòu),減少了網(wǎng)絡(luò)中的通道數(shù),使網(wǎng)絡(luò)更輕量化。YOLOX\|Tiny的mAP0.5和mAP0.5:0.95分別比MER\|YOLO降低了3.8百分點(diǎn)和4.5百分點(diǎn),F(xiàn)LOPs比MER\|YOLO網(wǎng)絡(luò)多1.4?GB,實(shí)驗(yàn)數(shù)據(jù)表明,MER\|YOLO更適合應(yīng)用于行人檢測算法。

2.3.3?可視化實(shí)驗(yàn)對(duì)比

為了更直觀地體現(xiàn)改進(jìn)后算法與原有算法的區(qū)別,本研究使用WiderPerson數(shù)據(jù)集對(duì)比了MER\|YOLO和YOLOv5s的檢測效果。分別在不同檢測場景下對(duì)模型進(jìn)行檢驗(yàn),如圖6所示,對(duì)于漏檢目標(biāo)圖中用箭頭標(biāo)簽指示出。對(duì)比圖6(a)和圖6(b),MER\|YOLO能夠檢測出圖片邊緣部分出現(xiàn)的行人,而原有算法出現(xiàn)了漏檢。在行人互遮擋的檢測中,圖6(c)中原有算法對(duì)貼近的兩個(gè)行人只給出了一個(gè)檢測框,圖6(d)中改進(jìn)后算法給兩個(gè)行人分別分配了檢測框。圖6(e)和圖6(f)為暗光密集行人場景下的檢測效果對(duì)比,MER\|YOLO算法具有較好的檢測效果,檢測框也更加貼近被檢測行人。綜合對(duì)比各種場景下的檢測效果來看,本文改進(jìn)算法對(duì)于密集行人檢測有更好的檢測效果和魯棒性。

3?結(jié)論(Conclusion)

本文提出的MER\|YOLO算法是一種輕量化行人檢測網(wǎng)絡(luò),在MER\|YOLO檢測網(wǎng)絡(luò)中,通過MobileNetV3輕量化特征提取主干網(wǎng)絡(luò),降低主干模型復(fù)雜度的同時(shí),獲取了更多的行人目標(biāo)特征,通過融合深度可分離卷積和ECA注意力機(jī)制構(gòu)建DPE\|C3模塊,提升了模型對(duì)于小目標(biāo)及模糊圖像的學(xué)習(xí)能力。

在WiderPerson數(shù)據(jù)集上的消融實(shí)驗(yàn)表明,與YOLOv5s相比,MER\|YOLO可以提高行人識(shí)別精度,同時(shí)最小化網(wǎng)絡(luò)復(fù)雜度。不同算法的對(duì)比實(shí)驗(yàn)結(jié)果表明,與其他算法相比,MER\|YOLO在準(zhǔn)確性和復(fù)雜性之間取得了更好的平衡。未來,研究人員將通過優(yōu)化模型去除更多冗余的特征信息,進(jìn)一步降低網(wǎng)絡(luò)的復(fù)雜度,確保MER\|YOLO能夠大幅降低對(duì)計(jì)算能力的需求,并容易部署在算力有限的嵌入式設(shè)備上。

參考文獻(xiàn)(References)

[1]?單志勇,張鐘月.?基于改進(jìn)Faster?R\|CNN算法的行人檢測[J].?現(xiàn)代計(jì)算機(jī),2021,27(23):124\|128.

[2]?趙九霄,劉毅,李國燕.?基于改進(jìn)SSD的視頻行人目標(biāo)檢測[J].?傳感器與微系統(tǒng),2022,41(1):146\|149,156.

[3]?馮宇平,管玉宇,楊旭睿,等.?融合注意力機(jī)制的實(shí)時(shí)行人檢測算法[J].?電子測量技術(shù),2021,44(17):123\|130.

[4]?石欣,盧灝,秦鵬杰,等.?一種遠(yuǎn)距離行人小目標(biāo)檢測方法[J].?儀器儀表學(xué)報(bào),2022,43(5):136\|146.

[5]?陳冬冬,任曉明,李登攀,等.?基于改進(jìn)的YOLOv5s的雙目視覺車輛檢測與測距方法研究[J].?光電子·激光,2024,35(3):311\|319.

[6]?楊登杰,葉愛芬,袁舸凡,等.?基于MobileNetV3\|YOLOv4超市取貨機(jī)器人目標(biāo)檢測策略優(yōu)化設(shè)計(jì)[J].?電腦知識(shí)與技術(shù),2022,18(30):18\|22.

[7]?賀海玉.?基于多注意力機(jī)制的多粒度讀者畫像分析[J].?微型電腦應(yīng)用,2023,39(12):143\|146.

[8]?張煥,張慶,于紀(jì)言.?卷積神經(jīng)網(wǎng)絡(luò)中激活函數(shù)的性質(zhì)分析與改進(jìn)[J].?計(jì)算機(jī)仿真,2022,39(4):328\|334.

[9]?袁培森,歐陽柳江,翟肇裕,等.?基于MobileNetV3Small\|ECA的水稻病害輕量級(jí)識(shí)別研究[J].?農(nóng)業(yè)機(jī)械學(xué)報(bào),2024,55(1):253\|262.

[10]?[ZK(]ZHANG?Z?Y,TAN?L?Y,TIONG?R?L?K.?Ship\|fire?net:an?improved?YOLOv8?algorithm?for?ship?fire?detection[J].?Sensors,2024,24(3):727.

作者簡介:

魏?志(1996\|),男,碩士生。研究領(lǐng)域:計(jì)算機(jī)視覺,行人檢測。

劉?罡(1981\|),男,碩士,副教授。研究領(lǐng)域:深度學(xué)習(xí),計(jì)算機(jī)視覺。

張?旭(1998\|),男,碩士生。研究領(lǐng)域:機(jī)器視覺,人工智能。

猜你喜歡
注意力機(jī)制
基于注意力機(jī)制的行人軌跡預(yù)測生成模型
基于注意力機(jī)制和BGRU網(wǎng)絡(luò)的文本情感分析方法研究
多特征融合的中文實(shí)體關(guān)系抽取研究
基于序列到序列模型的文本到信息框生成的研究
基于深度學(xué)習(xí)的手分割算法研究
從餐館評(píng)論中提取方面術(shù)語
面向短文本的網(wǎng)絡(luò)輿情話題
基于自注意力與動(dòng)態(tài)路由的文本建模方法
基于深度學(xué)習(xí)的問題回答技術(shù)研究
基于LSTM?Attention神經(jīng)網(wǎng)絡(luò)的文本特征提取方法
尉氏县| 兴化市| 泗水县| 中卫市| 柯坪县| 云霄县| 天津市| 康定县| 镇原县| 偃师市| 贡嘎县| 徐水县| 平陆县| 哈尔滨市| 定南县| 钦州市| 蕲春县| 来宾市| 罗山县| 扶沟县| 松原市| 寻甸| 小金县| 绥宁县| 祁门县| 探索| 高青县| 浙江省| 城固县| 鱼台县| 祁门县| 吉木乃县| 连平县| 大名县| 涡阳县| 东兴市| 读书| 东光县| 抚顺市| 峨山| 红河县|