融合改進(jìn)FPN和注意力機(jī)制的規(guī)范穿戴工作服識(shí)別方法

2023-02-14 06:01:46翟永杰張禎琪陳年昊

電力科學(xué)與工程 2023年1期

翟永杰，張禎琪，陳年昊

（華北電力大學(xué) 自動(dòng)化系，河北保定 071003）

0 引言

實(shí)現(xiàn)智能化的規(guī)范穿戴工作服識(shí)別對(duì)于電力生產(chǎn)安全的保障具有重要意義。將深度學(xué)習(xí)技術(shù)應(yīng)用于作業(yè)人員規(guī)范穿戴工作服的識(shí)別，可以減少人工成本的投入，提高工作效率。

受監(jiān)控圖像像素較低、圖像失真、目標(biāo)被遮擋等情況影響，一些不規(guī)范穿戴情況難以被智能算法準(zhǔn)確識(shí)別。所以，目前基于圖像識(shí)別算法的研究基本都是針對(duì)安全帽佩戴[1,2]和輸電線路[3,4]，而在作業(yè)人員著裝規(guī)范性的識(shí)別方面尚未有顯著的成果。

文獻(xiàn)[5]提出了基于HOG和HOC提取形狀、顏色特征并結(jié)合 SVM 分類器的變電站作業(yè)人員服裝規(guī)范性識(shí)別方法，該方法實(shí)現(xiàn)了復(fù)雜背景下的著裝規(guī)范性識(shí)別。相比傳統(tǒng)目標(biāo)檢測(cè)算法，該方法具有較高的識(shí)別精度，但依舊有提升空間。

文獻(xiàn)[6]提出了一種基于樣本Q鄰域敏感度的徑向基神經(jīng)網(wǎng)絡(luò)的著裝識(shí)別算法。通過優(yōu)化參數(shù)改進(jìn)傳統(tǒng)的RBFNN，該算法在提高模型的檢測(cè)精度和魯棒性能的同時(shí)降低其漏警率；但是，該算法的檢測(cè)速度較慢。

文獻(xiàn)[7]提出了一種基于Faster R-CNN[8]的穿戴識(shí)別方法：采用多特征層融合結(jié)合多尺度檢測(cè)的改進(jìn)方法，提高了模型的識(shí)別精度和魯棒性能。但是，該算法檢測(cè)實(shí)時(shí)性較低，不適用于實(shí)際應(yīng)用。

文獻(xiàn)[9]提出了一種基于Faster R-CNN的規(guī)范穿戴工作服的檢測(cè)算法：將L2正則項(xiàng)引入損失函數(shù)中，提高了模型的訓(xùn)練收斂速度。該模型有較好的泛化能力和魯棒性能，準(zhǔn)確率和實(shí)時(shí)性相較于基線模型都有所提高。

文獻(xiàn)[10]提出了一種基于 YOLOv5的工作服規(guī)范穿戴識(shí)別檢測(cè)算法。該算法的思想是：修改YOLOv5中檢測(cè)模塊輸出層的維度；以算法在公開數(shù)據(jù)集上得到的預(yù)訓(xùn)練模型作為基礎(chǔ)，將實(shí)際監(jiān)控圖像作為訓(xùn)練集進(jìn)行訓(xùn)練，并對(duì)數(shù)據(jù)集進(jìn)行數(shù)據(jù)增廣；通過調(diào)整模型的超參數(shù)，使得最終得到的算法模型有較好的查準(zhǔn)率和查全率。但是，該模型無(wú)法檢測(cè)出工作服的材質(zhì)是否符合要求，并且角度和視線遮蓋的問題對(duì)檢測(cè)的準(zhǔn)確度有較大的影響。

綜上所述，目前基于深度學(xué)習(xí)的工作服規(guī)范穿戴識(shí)別方法仍存在一些問題，例如對(duì)小目標(biāo)的識(shí)別精度不高、模型魯棒性能和泛化能力較低、實(shí)時(shí)性不強(qiáng)等。本文通過在基礎(chǔ)的Faster R-CNN模型中加入改進(jìn)特征圖金字塔網(wǎng)絡(luò)（Feature pyramid networks，F(xiàn)PN）[11]模塊和注意力機(jī)制[12]模塊，從不同的方面提高算法模型對(duì)目標(biāo)的識(shí)別精度。

1 改進(jìn)的Faster R-CNN算法

針對(duì)當(dāng)前基于Faster R-CNN的規(guī)范穿戴工作服識(shí)別算法在目標(biāo)較小、目標(biāo)被遮擋時(shí)識(shí)別效果較差的問題，本文提出了一種融合改進(jìn)FPN和注意力機(jī)制的目標(biāo)檢測(cè)算法。

如圖2所示，本文模型分為3部分：特征提取部分，候選區(qū)域選取部分，回歸分類部分。圖1中：ResNet50為一類卷積神經(jīng)網(wǎng)絡(luò)；fc為全連接層；區(qū)域候選網(wǎng)絡(luò)（Region proposal network，RPN）結(jié)構(gòu)和Two MLPHead結(jié)構(gòu)是Faster R-CNN網(wǎng)絡(luò)的組成部分。

圖1 融合改進(jìn)FPN和注意力機(jī)制的目標(biāo)檢測(cè)算法模型Fig. 1 An object detection algorithm model combining improved FPN and attention mechanism

圖2 改進(jìn)的特征圖金字塔網(wǎng)絡(luò)Fig. 2 Improved feature pyramid networks

本文模型以ResNet50網(wǎng)絡(luò)為基礎(chǔ)網(wǎng)絡(luò)，在其中加入了注意力模塊。輸入圖片經(jīng)ResNet50網(wǎng)絡(luò)和注意力模塊后，傳入改進(jìn)的FPN結(jié)構(gòu)中；將得到的融合后的特征圖作為特征提取部分的輸出，傳入候選區(qū)域選取部分中。將特征圖與RPN選出的候選框一起送入RoI align結(jié)構(gòu)[13]中，得到固定大小的特征矩陣；再通過Two MLPHead結(jié)構(gòu)進(jìn)行展平，通過全連接層，得到了候選區(qū)域選取部分的輸出。最后將候選區(qū)域選取部分的輸出內(nèi)容分別傳入2個(gè)全連接層，得到了模型識(shí)別出的目標(biāo)類別參數(shù)和邊界框回歸參數(shù)。

本文算法的核心，是將基礎(chǔ)Faster R-CNN算法中的RoI pooling層[14]更換為RoI align層，并加入了改進(jìn)的FPN結(jié)構(gòu)和注意力模塊，進(jìn)而實(shí)現(xiàn)模型識(shí)別精度的提高。

1.1 Faster R-CNN算法

Faster R-CNN算法是基于 Fast R-CNN和R-CNN進(jìn)行改進(jìn)得到的雙階段目標(biāo)檢測(cè)算法。

Fast R-CNN雖然實(shí)現(xiàn)了在R-CNN的基礎(chǔ)上大幅度提升檢測(cè)速度，但是由于其依舊采用SS算法[15]生成候選區(qū)域，所以模型的檢測(cè)耗時(shí)仍舊較長(zhǎng)，無(wú)法滿足實(shí)時(shí)檢測(cè)的需求。Faster R-CNN算法通過RPN結(jié)構(gòu)生成候選框，減少了冗余，實(shí)現(xiàn)了模型訓(xùn)練速度的進(jìn)一步提升。

Faster R-CNN算法的步驟為：首先將圖像輸入卷積神經(jīng)網(wǎng)絡(luò)中，得到相應(yīng)的特征圖；然后使用RPN結(jié)構(gòu)生成候選框并將其投影到先前生成的特征圖上，從而獲得相應(yīng)的特征矩陣；最后將生成的特征矩陣通過RoI pooling層和一系列全連接層運(yùn)算得到預(yù)測(cè)結(jié)果。

1.2 改進(jìn)的FPN

在Faster R-CNN網(wǎng)絡(luò)模型中，輸入圖像通過基礎(chǔ)卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行特征提取，從而得到單尺度特征圖，然后將得到的特征圖傳入模型中的RPN結(jié)構(gòu)和RoI pooling層進(jìn)行預(yù)測(cè)。

通過神經(jīng)網(wǎng)絡(luò)提取單一深層特征圖進(jìn)行網(wǎng)絡(luò)訓(xùn)練，可以使網(wǎng)絡(luò)得到較強(qiáng)的特征表達(dá)能力。這種方法對(duì)于較大目標(biāo)的分類和定位精度較高，但無(wú)法準(zhǔn)確識(shí)別小目標(biāo)。這是因?yàn)樵趫D像經(jīng)過深層卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行大量卷積運(yùn)算和池化運(yùn)算的過程中，網(wǎng)絡(luò)特征層的感受野會(huì)逐漸增大、分辨率逐漸降低，容易造成小目標(biāo)的漏檢。

與深層特征不同，淺層神經(jīng)網(wǎng)絡(luò)中得到的低層特征分辨率高且包含信息多，其有利于小目標(biāo)的檢測(cè)。因此，將不同尺度的特征進(jìn)行融合，可以在維持對(duì)大目標(biāo)識(shí)別精度的基礎(chǔ)上，提高模型對(duì)小目標(biāo)的識(shí)別精度。

為提高模型算法對(duì)小目標(biāo)的檢測(cè)精度，本文在Faster R-CNN的基礎(chǔ)上加入改進(jìn)的FPN。基礎(chǔ)的FPN結(jié)構(gòu)通過將高層特征與低層特征進(jìn)行自上而下的的融合，提高了輸出的低層特征的語(yǔ)義性。本文改進(jìn)的FPN結(jié)構(gòu)如圖2所示。從圖2可以看出，模型對(duì)基礎(chǔ)FPN輸出的P2、P3、P4、P5進(jìn)行了自下而上的融合，從而提高了高層特征的分辨率。

1.3 注意力機(jī)制

通過現(xiàn)場(chǎng)監(jiān)控拍攝得到的數(shù)據(jù)圖像，其像素通常較低，存在目標(biāo)被遮擋、光線不好等問題。為減輕上述影響因素對(duì)模型識(shí)別的干擾，本節(jié)引入了注意力機(jī)制，通過降低背景權(quán)重、提高目標(biāo)部分的權(quán)重，實(shí)現(xiàn)模型識(shí)別精度的進(jìn)一步提高。

在Faster R-CNN模型中，輸入特征圖中的所有通道權(quán)重都相同，即每個(gè)通道對(duì)于模型而言重要程度相同；這會(huì)使得模型使用大量算力對(duì)背景部分進(jìn)行運(yùn)算，而對(duì)目標(biāo)部分的運(yùn)算不足。

壓縮和激勵(lì)網(wǎng)絡(luò)（Squeeze-and-excitation networks，SENet）模塊[16]通過賦予特征圖中各個(gè)通道不同的權(quán)重，令包含目標(biāo)的通道權(quán)重增高、背景相關(guān)通道權(quán)重降低，使得模型能夠增加對(duì)目標(biāo)相關(guān)通道的運(yùn)算，從而提高模型的特征表達(dá)能力。

在SENet的結(jié)構(gòu)中，輸入的特征圖首先通過自適應(yīng)平均池化層，得到全局感受野，其中包含了特征在通道維度上的全局信息。然后，將全局感受野通過2個(gè)全連接層和ReLU激活函數(shù)，使得模型能自動(dòng)學(xué)習(xí)通道特征。最后，通過sigmoid函數(shù)將所得值轉(zhuǎn)換到[0,1]范圍內(nèi)，作為最終權(quán)重；將最終權(quán)重與最初的輸入特征相乘，結(jié)果即為經(jīng)過SENet處理后的特征。

2 仿真性能測(cè)試

2.1 實(shí)驗(yàn)參數(shù)與評(píng)價(jià)指標(biāo)

實(shí)驗(yàn)計(jì)算硬件條件：操作系統(tǒng)為Ubuntn 16.4；GPU為Geforce RTX 1080Ti顯卡；CUDA版本為11.3。

實(shí)驗(yàn)計(jì)算軟件條件：以Python3.7為程序開發(fā)語(yǔ)言；以Pytorch中的Faster R-CNN代碼框架為基線模型代碼，對(duì)其中的代碼進(jìn)行修改。

實(shí)驗(yàn)中，主要調(diào)整的超參數(shù)有學(xué)習(xí)率[17]和一次傳入圖像數(shù)量[18]。

學(xué)習(xí)率可以理解為每一次迭代時(shí)參數(shù)更新的幅度。學(xué)習(xí)率過小會(huì)導(dǎo)致模型收斂速度過慢，造成模型梯度下降至局部最小點(diǎn)；而學(xué)習(xí)率過大會(huì)導(dǎo)致模型難以收斂，出現(xiàn)震蕩。通過不斷調(diào)整學(xué)習(xí)率，得到本文模型在實(shí)驗(yàn)中的最優(yōu)學(xué)習(xí)率為0.016。

一次傳入圖像數(shù)量是指模型一次處理的圖像數(shù)量。一次傳入圖像數(shù)量過少，會(huì)導(dǎo)致模型梯度變化的準(zhǔn)確性過低，使得模型的收斂速度過慢；而一次傳入圖像數(shù)量過多，會(huì)導(dǎo)致模型占用內(nèi)存空間過大，對(duì)硬件要求高。通過不斷調(diào)整一次傳入圖像的數(shù)量，最終確定該參數(shù)的最優(yōu)取值為4，即模型一次同時(shí)處理4張傳入圖像。

其他實(shí)驗(yàn)參數(shù)設(shè)置如下：動(dòng)量，0.9；權(quán)重衰減值，0.000 5。

本文模型選取的評(píng)價(jià)指標(biāo)為：當(dāng)候選框和真實(shí)框的交并比取值為0.5時(shí)，各個(gè)類別的精度均值（Average precison，AP）以及所有類別的平均精度均值（Mean average precision，mAP），即AP50和mAP。

2.2 數(shù)據(jù)集與數(shù)據(jù)增強(qiáng)

實(shí)驗(yàn)使用的數(shù)據(jù)集中共有2 645張圖像，包含了不同的場(chǎng)景、不同目標(biāo)大小、不同亮度的樣本。

將數(shù)據(jù)集內(nèi)標(biāo)注分為4類，分別為：佩戴紅袖章的監(jiān)護(hù)人員（badge），正確穿戴工作服的人員（clothes），不規(guī)范穿戴工作服的人員（wrong clothes），在場(chǎng)人員（person）。

在原有圖像中，wrong clothes類別的目標(biāo)圖像僅占總量的 11%?？紤]數(shù)據(jù)集長(zhǎng)尾分布會(huì)導(dǎo)致模型訓(xùn)練時(shí)過擬合，從而使識(shí)別精度過低；因此，將數(shù)據(jù)集中的部分圖像進(jìn)行數(shù)據(jù)增強(qiáng)[19]。本文通過對(duì)圖像進(jìn)行翻轉(zhuǎn)、旋轉(zhuǎn)、裁剪、移位、模糊、色彩轉(zhuǎn)換、添加噪聲等操作，對(duì)有限的數(shù)據(jù)進(jìn)行擴(kuò)充。通過對(duì)圖像進(jìn)行數(shù)據(jù)增強(qiáng)，將圖像增廣至4 740張，實(shí)現(xiàn)了數(shù)據(jù)集中各類別目標(biāo)數(shù)量的均衡分布。

數(shù)據(jù)增強(qiáng)后，將數(shù)據(jù)集中的圖像劃分為 80%訓(xùn)練集，10%驗(yàn)證集和10%測(cè)試集。

2.3 實(shí)驗(yàn)驗(yàn)證

2.3.1 對(duì)比實(shí)驗(yàn)

用 YOLOv3-SPP 算法[20]、SSD 算法[21]、Retina Net算法[22]、基礎(chǔ)的Faster R-CNN算法以及本文模型分別進(jìn)行訓(xùn)練和測(cè)試。

實(shí)驗(yàn)得到4個(gè)目標(biāo)類別的識(shí)別精度AP50和所有類別的平均精度均值mAP如表1所示。

表1 不同模型的對(duì)比實(shí)驗(yàn)結(jié)果Tab. 1 Comparative experimental results between different models

由表1可知，YOLOv3-SPP算法對(duì)小目標(biāo)的識(shí)別精度較高，但整體的檢測(cè)精度較低；SSD算法整體識(shí)別精度較低；RetinaNet算法整體識(shí)別精度都較高，但仍有提升空間；基礎(chǔ)的Faster R-CNN算法對(duì)各類別目標(biāo)的識(shí)別效果都較差；相比之下，本文提出的識(shí)別模型的精度明顯優(yōu)于上述各類算法，檢測(cè)漏檢、誤檢的情況較少。

2.3.2 消融實(shí)驗(yàn)

本文通過數(shù)據(jù)增強(qiáng)來平衡數(shù)據(jù)集中各類別目標(biāo)的數(shù)量，并通過在基線模型中加入改進(jìn)的 FPN結(jié)構(gòu)、SENet模塊等方法，實(shí)現(xiàn)了模型對(duì)規(guī)范穿戴工作服的識(shí)別精度的提升。

表2展示了本文模型消融實(shí)驗(yàn)的結(jié)果，由表2可以看出，在Faster R-CNN中加入FPN結(jié)構(gòu)后，各類別的平均精度均值從原先的76.2%提升至92.4%。

表2 不同模塊的消融實(shí)驗(yàn)對(duì)比Tab. 2 Comparison of ablation experiments of different modules

以加入FPN的Faster R-CNN模型為基線模型。在基線模型中加入改進(jìn)的FPN結(jié)構(gòu)后，各類別的平均精度均值從原先的92.4%提升至93.9%。在基線模型中加入SENet模塊后，各類別的平均精度均值從原先的92.4%提升至94.2%。

在基線模型中加入改進(jìn)的FPN結(jié)構(gòu)和SENet模塊后，各類別的平均精度均值從原先的 92.4%提升至94.5%。

與基礎(chǔ)Faster R-CNN模型相比，本文提出的融合改進(jìn)FPN和注意力機(jī)制的目標(biāo)檢測(cè)算法模型各類別的平均精度均值從原先的 76.2%提升至94.5%，其中，badge一類的AP50提升了14.9%，clothes一類的AP50提升了10.5%，wrong clothes一類的AP50提升了38.9%，person一類的AP50提升了9.0%。

圖3中展示了本文提出模型的檢測(cè)效果。由圖3中可以看出，在加入改進(jìn)的FPN結(jié)構(gòu)和注意力機(jī)制后，模型在大目標(biāo)無(wú)遮擋、小目標(biāo)無(wú)遮擋、大目標(biāo)被遮擋、小目標(biāo)被遮擋、目標(biāo)背景復(fù)雜等情況下的識(shí)別效果都較好。

圖3 模型實(shí)際檢測(cè)效果：（a）—（c）各類目標(biāo)被遮擋情況，（d）各類目標(biāo)無(wú)被遮擋情況Fig. 3 Detection effects of the model: (a) — (c) the situation that different targets are obscured, (d) the situation that different targets are not obscured

3 結(jié)論

本文基于Faster R-CNN算法，設(shè)計(jì)了一種融合改進(jìn)FPN和注意力機(jī)制的規(guī)范穿戴工作服識(shí)別方法。

通過在 Faster R-CNN的基礎(chǔ)上加入改進(jìn)的FPN結(jié)構(gòu)，將ResNet50網(wǎng)絡(luò)的輸出特征傳入改進(jìn)的FPN結(jié)構(gòu)中進(jìn)行雙向融合，使得模型對(duì)小目標(biāo)的識(shí)別精度有一定程度的提高。通過在 Faster R-CNN中加入SENet注意力模塊，降低背景權(quán)重、提高目標(biāo)部分的權(quán)重，實(shí)現(xiàn)模型對(duì)復(fù)雜背景下目標(biāo)識(shí)別精度的提高。

通過在包含4個(gè)類別的數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)，本文模型較基礎(chǔ)的Faster R-CNN模型有了18.3%的檢測(cè)準(zhǔn)確率提升。本文模型具有較好的魯棒性能和泛化能力。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡