翟永杰,張禎琪,陳年昊
(華北電力大學(xué) 自動(dòng)化系,河北 保定 071003)
實(shí)現(xiàn)智能化的規(guī)范穿戴工作服識(shí)別對(duì)于電力生產(chǎn)安全的保障具有重要意義。將深度學(xué)習(xí)技術(shù)應(yīng)用于作業(yè)人員規(guī)范穿戴工作服的識(shí)別,可以減少人工成本的投入,提高工作效率。
受監(jiān)控圖像像素較低、圖像失真、目標(biāo)被遮擋等情況影響,一些不規(guī)范穿戴情況難以被智能算法準(zhǔn)確識(shí)別。所以,目前基于圖像識(shí)別算法的研究基本都是針對(duì)安全帽佩戴[1,2]和輸電線路[3,4],而在作業(yè)人員著裝規(guī)范性的識(shí)別方面尚未有顯著的成果。
文獻(xiàn)[5]提出了基于HOG和HOC提取形狀、顏色特征并結(jié)合 SVM 分類器的變電站作業(yè)人員服裝規(guī)范性識(shí)別方法,該方法實(shí)現(xiàn)了復(fù)雜背景下的著裝規(guī)范性識(shí)別。相比傳統(tǒng)目標(biāo)檢測(cè)算法,該方法具有較高的識(shí)別精度,但依舊有提升空間。
文獻(xiàn)[6]提出了一種基于樣本Q鄰域敏感度的徑向基神經(jīng)網(wǎng)絡(luò)的著裝識(shí)別算法。通過優(yōu)化參數(shù)改進(jìn)傳統(tǒng)的RBFNN,該算法在提高模型的檢測(cè)精度和魯棒性能的同時(shí)降低其漏警率;但是,該算法的檢測(cè)速度較慢。
文獻(xiàn)[7]提出了一種基于Faster R-CNN[8]的穿戴識(shí)別方法:采用多特征層融合結(jié)合多尺度檢測(cè)的改進(jìn)方法,提高了模型的識(shí)別精度和魯棒性能。但是,該算法檢測(cè)實(shí)時(shí)性較低,不適用于實(shí)際應(yīng)用。
文獻(xiàn)[9]提出了一種基于Faster R-CNN的規(guī)范穿戴工作服的檢測(cè)算法:將L2正則項(xiàng)引入損失函數(shù)中,提高了模型的訓(xùn)練收斂速度。該模型有較好的泛化能力和魯棒性能,準(zhǔn)確率和實(shí)時(shí)性相較于基線模型都有所提高。
文獻(xiàn)[10]提出了一種基于 YOLOv5的工作服規(guī)范穿戴識(shí)別檢測(cè)算法。該算法的思想是:修改YOLOv5中檢測(cè)模塊輸出層的維度;以算法在公開數(shù)據(jù)集上得到的預(yù)訓(xùn)練模型作為基礎(chǔ),將實(shí)際監(jiān)控圖像作為訓(xùn)練集進(jìn)行訓(xùn)練,并對(duì)數(shù)據(jù)集進(jìn)行數(shù)據(jù)增廣;通過調(diào)整模型的超參數(shù),使得最終得到的算法模型有較好的查準(zhǔn)率和查全率。但是,該模型無(wú)法檢測(cè)出工作服的材質(zhì)是否符合要求,并且角度和視線遮蓋的問題對(duì)檢測(cè)的準(zhǔn)確度有較大的影響。
綜上所述,目前基于深度學(xué)習(xí)的工作服規(guī)范穿戴識(shí)別方法仍存在一些問題,例如對(duì)小目標(biāo)的識(shí)別精度不高、模型魯棒性能和泛化能力較低、實(shí)時(shí)性不強(qiáng)等。本文通過在基礎(chǔ)的Faster R-CNN模型中加入改進(jìn)特征圖金字塔網(wǎng)絡(luò)(Feature pyramid networks,F(xiàn)PN)[11]模塊和注意力機(jī)制[12]模塊,從不同的方面提高算法模型對(duì)目標(biāo)的識(shí)別精度。
針對(duì)當(dāng)前基于Faster R-CNN的規(guī)范穿戴工作服識(shí)別算法在目標(biāo)較小、目標(biāo)被遮擋時(shí)識(shí)別效果較差的問題,本文提出了一種融合改進(jìn)FPN和注意力機(jī)制的目標(biāo)檢測(cè)算法。
如圖2所示,本文模型分為3部分:特征提取部分,候選區(qū)域選取部分,回歸分類部分。圖1中:ResNet50為一類卷積神經(jīng)網(wǎng)絡(luò);fc為全連接層;區(qū)域候選網(wǎng)絡(luò)(Region proposal network,RPN)結(jié)構(gòu)和Two MLPHead結(jié)構(gòu)是Faster R-CNN網(wǎng)絡(luò)的組成部分。
圖1 融合改進(jìn)FPN和注意力機(jī)制的目標(biāo)檢測(cè)算法模型Fig. 1 An object detection algorithm model combining improved FPN and attention mechanism
圖2 改進(jìn)的特征圖金字塔網(wǎng)絡(luò)Fig. 2 Improved feature pyramid networks
本文模型以ResNet50網(wǎng)絡(luò)為基礎(chǔ)網(wǎng)絡(luò),在其中加入了注意力模塊。輸入圖片經(jīng)ResNet50網(wǎng)絡(luò)和注意力模塊后,傳入改進(jìn)的FPN結(jié)構(gòu)中;將得到的融合后的特征圖作為特征提取部分的輸出,傳入候選區(qū)域選取部分中。將特征圖與RPN選出的候選框一起送入RoI align結(jié)構(gòu)[13]中,得到固定大小的特征矩陣;再通過Two MLPHead結(jié)構(gòu)進(jìn)行展平,通過全連接層,得到了候選區(qū)域選取部分的輸出。最后將候選區(qū)域選取部分的輸出內(nèi)容分別傳入2個(gè)全連接層,得到了模型識(shí)別出的目標(biāo)類別參數(shù)和邊界框回歸參數(shù)。
本文算法的核心,是將基礎(chǔ)Faster R-CNN算法中的RoI pooling層[14]更換為RoI align層,并加入了改進(jìn)的FPN結(jié)構(gòu)和注意力模塊,進(jìn)而實(shí)現(xiàn)模型識(shí)別精度的提高。
Faster R-CNN算法是基于 Fast R-CNN和R-CNN進(jìn)行改進(jìn)得到的雙階段目標(biāo)檢測(cè)算法。
Fast R-CNN雖然實(shí)現(xiàn)了在R-CNN的基礎(chǔ)上大幅度提升檢測(cè)速度,但是由于其依舊采用SS算法[15]生成候選區(qū)域,所以模型的檢測(cè)耗時(shí)仍舊較長(zhǎng),無(wú)法滿足實(shí)時(shí)檢測(cè)的需求。Faster R-CNN算法通過RPN結(jié)構(gòu)生成候選框,減少了冗余,實(shí)現(xiàn)了模型訓(xùn)練速度的進(jìn)一步提升。
Faster R-CNN算法的步驟為:首先將圖像輸入卷積神經(jīng)網(wǎng)絡(luò)中,得到相應(yīng)的特征圖;然后使用RPN結(jié)構(gòu)生成候選框并將其投影到先前生成的特征圖上,從而獲得相應(yīng)的特征矩陣;最后將生成的特征矩陣通過RoI pooling層和一系列全連接層運(yùn)算得到預(yù)測(cè)結(jié)果。
在Faster R-CNN網(wǎng)絡(luò)模型中,輸入圖像通過基礎(chǔ)卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行特征提取,從而得到單尺度特征圖,然后將得到的特征圖傳入模型中的RPN結(jié)構(gòu)和RoI pooling層進(jìn)行預(yù)測(cè)。
通過神經(jīng)網(wǎng)絡(luò)提取單一深層特征圖進(jìn)行網(wǎng)絡(luò)訓(xùn)練,可以使網(wǎng)絡(luò)得到較強(qiáng)的特征表達(dá)能力。這種方法對(duì)于較大目標(biāo)的分類和定位精度較高,但無(wú)法準(zhǔn)確識(shí)別小目標(biāo)。這是因?yàn)樵趫D像經(jīng)過深層卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行大量卷積運(yùn)算和池化運(yùn)算的過程中,網(wǎng)絡(luò)特征層的感受野會(huì)逐漸增大、分辨率逐漸降低,容易造成小目標(biāo)的漏檢。
與深層特征不同,淺層神經(jīng)網(wǎng)絡(luò)中得到的低層特征分辨率高且包含信息多,其有利于小目標(biāo)的檢測(cè)。因此,將不同尺度的特征進(jìn)行融合,可以在維持對(duì)大目標(biāo)識(shí)別精度的基礎(chǔ)上,提高模型對(duì)小目標(biāo)的識(shí)別精度。
為提高模型算法對(duì)小目標(biāo)的檢測(cè)精度,本文在Faster R-CNN的基礎(chǔ)上加入改進(jìn)的FPN。基礎(chǔ)的FPN結(jié)構(gòu)通過將高層特征與低層特征進(jìn)行自上而下的的融合,提高了輸出的低層特征的語(yǔ)義性。本文改進(jìn)的FPN結(jié)構(gòu)如圖2所示。從圖2可以看出,模型對(duì)基礎(chǔ)FPN輸出的P2、P3、P4、P5進(jìn)行了自下而上的融合,從而提高了高層特征的分辨率。
通過現(xiàn)場(chǎng)監(jiān)控拍攝得到的數(shù)據(jù)圖像,其像素通常較低,存在目標(biāo)被遮擋、光線不好等問題。為減輕上述影響因素對(duì)模型識(shí)別的干擾,本節(jié)引入了注意力機(jī)制,通過降低背景權(quán)重、提高目標(biāo)部分的權(quán)重,實(shí)現(xiàn)模型識(shí)別精度的進(jìn)一步提高。
在Faster R-CNN模型中,輸入特征圖中的所有通道權(quán)重都相同,即每個(gè)通道對(duì)于模型而言重要程度相同;這會(huì)使得模型使用大量算力對(duì)背景部分進(jìn)行運(yùn)算,而對(duì)目標(biāo)部分的運(yùn)算不足。
壓縮和激勵(lì)網(wǎng)絡(luò)(Squeeze-and-excitation networks,SENet)模塊[16]通過賦予特征圖中各個(gè)通道不同的權(quán)重,令包含目標(biāo)的通道權(quán)重增高、背景相關(guān)通道權(quán)重降低,使得模型能夠增加對(duì)目標(biāo)相關(guān)通道的運(yùn)算,從而提高模型的特征表達(dá)能力。
在SENet的結(jié)構(gòu)中,輸入的特征圖首先通過自適應(yīng)平均池化層,得到全局感受野,其中包含了特征在通道維度上的全局信息。然后,將全局感受野通過2個(gè)全連接層和ReLU激活函數(shù),使得模型能自動(dòng)學(xué)習(xí)通道特征。最后,通過sigmoid函數(shù)將所得值轉(zhuǎn)換到[0,1]范圍內(nèi),作為最終權(quán)重;將最終權(quán)重與最初的輸入特征相乘,結(jié)果即為經(jīng)過SENet處理后的特征。
實(shí)驗(yàn)計(jì)算硬件條件:操作系統(tǒng)為Ubuntn 16.4;GPU為Geforce RTX 1080Ti顯卡;CUDA版本為11.3。
實(shí)驗(yàn)計(jì)算軟件條件:以Python3.7為程序開發(fā)語(yǔ)言;以Pytorch中的Faster R-CNN代碼框架為基線模型代碼,對(duì)其中的代碼進(jìn)行修改。
實(shí)驗(yàn)中,主要調(diào)整的超參數(shù)有學(xué)習(xí)率[17]和一次傳入圖像數(shù)量[18]。
學(xué)習(xí)率可以理解為每一次迭代時(shí)參數(shù)更新的幅度。學(xué)習(xí)率過小會(huì)導(dǎo)致模型收斂速度過慢,造成模型梯度下降至局部最小點(diǎn);而學(xué)習(xí)率過大會(huì)導(dǎo)致模型難以收斂,出現(xiàn)震蕩。通過不斷調(diào)整學(xué)習(xí)率,得到本文模型在實(shí)驗(yàn)中的最優(yōu)學(xué)習(xí)率為0.016。
一次傳入圖像數(shù)量是指模型一次處理的圖像數(shù)量。一次傳入圖像數(shù)量過少,會(huì)導(dǎo)致模型梯度變化的準(zhǔn)確性過低,使得模型的收斂速度過慢;而一次傳入圖像數(shù)量過多,會(huì)導(dǎo)致模型占用內(nèi)存空間過大,對(duì)硬件要求高。通過不斷調(diào)整一次傳入圖像的數(shù)量,最終確定該參數(shù)的最優(yōu)取值為4,即模型一次同時(shí)處理4張傳入圖像。
其他實(shí)驗(yàn)參數(shù)設(shè)置如下:動(dòng)量,0.9;權(quán)重衰減值,0.000 5。
本文模型選取的評(píng)價(jià)指標(biāo)為:當(dāng)候選框和真實(shí)框的交并比取值為0.5時(shí),各個(gè)類別的精度均值(Average precison,AP)以及所有類別的平均精度均值(Mean average precision,mAP),即AP50和mAP。
實(shí)驗(yàn)使用的數(shù)據(jù)集中共有2 645張圖像,包含了不同的場(chǎng)景、不同目標(biāo)大小、不同亮度的樣本。
將數(shù)據(jù)集內(nèi)標(biāo)注分為4類,分別為:佩戴紅袖章的監(jiān)護(hù)人員(badge),正確穿戴工作服的人員(clothes),不規(guī)范穿戴工作服的人員(wrong clothes),在場(chǎng)人員(person)。
在原有圖像中,wrong clothes類別的目標(biāo)圖像僅占總量的 11%??紤]數(shù)據(jù)集長(zhǎng)尾分布會(huì)導(dǎo)致模型訓(xùn)練時(shí)過擬合,從而使識(shí)別精度過低;因此,將數(shù)據(jù)集中的部分圖像進(jìn)行數(shù)據(jù)增強(qiáng)[19]。本文通過對(duì)圖像進(jìn)行翻轉(zhuǎn)、旋轉(zhuǎn)、裁剪、移位、模糊、色彩轉(zhuǎn)換、添加噪聲等操作,對(duì)有限的數(shù)據(jù)進(jìn)行擴(kuò)充。通過對(duì)圖像進(jìn)行數(shù)據(jù)增強(qiáng),將圖像增廣至4 740張,實(shí)現(xiàn)了數(shù)據(jù)集中各類別目標(biāo)數(shù)量的均衡分布。
數(shù)據(jù)增強(qiáng)后,將數(shù)據(jù)集中的圖像劃分為 80%訓(xùn)練集,10%驗(yàn)證集和10%測(cè)試集。
2.3.1 對(duì)比實(shí)驗(yàn)
用 YOLOv3-SPP 算法[20]、SSD 算法[21]、Retina Net算法[22]、基礎(chǔ)的Faster R-CNN算法以及本文模型分別進(jìn)行訓(xùn)練和測(cè)試。
實(shí)驗(yàn)得到4個(gè)目標(biāo)類別的識(shí)別精度AP50和所有類別的平均精度均值mAP如表1所示。
表1 不同模型的對(duì)比實(shí)驗(yàn)結(jié)果Tab. 1 Comparative experimental results between different models
由表1可知,YOLOv3-SPP算法對(duì)小目標(biāo)的識(shí)別精度較高,但整體的檢測(cè)精度較低;SSD算法整體識(shí)別精度較低;RetinaNet算法整體識(shí)別精度都較高,但仍有提升空間;基礎(chǔ)的Faster R-CNN算法對(duì)各類別目標(biāo)的識(shí)別效果都較差;相比之下,本文提出的識(shí)別模型的精度明顯優(yōu)于上述各類算法,檢測(cè)漏檢、誤檢的情況較少。
2.3.2 消融實(shí)驗(yàn)
本文通過數(shù)據(jù)增強(qiáng)來平衡數(shù)據(jù)集中各類別目標(biāo)的數(shù)量,并通過在基線模型中加入改進(jìn)的 FPN結(jié)構(gòu)、SENet模塊等方法,實(shí)現(xiàn)了模型對(duì)規(guī)范穿戴工作服的識(shí)別精度的提升。
表2展示了本文模型消融實(shí)驗(yàn)的結(jié)果,由表2可以看出,在Faster R-CNN中加入FPN結(jié)構(gòu)后,各類別的平均精度均值從原先的76.2%提升至92.4%。
表2 不同模塊的消融實(shí)驗(yàn)對(duì)比Tab. 2 Comparison of ablation experiments of different modules
以加入FPN的Faster R-CNN模型為基線模型。在基線模型中加入改進(jìn)的FPN結(jié)構(gòu)后,各類別的平均精度均值從原先的92.4%提升至93.9%。在基線模型中加入SENet模塊后,各類別的平均精度均值從原先的92.4%提升至94.2%。
在基線模型中加入改進(jìn)的FPN結(jié)構(gòu)和SENet模塊后,各類別的平均精度均值從原先的 92.4%提升至94.5%。
與基礎(chǔ)Faster R-CNN模型相比,本文提出的融合改進(jìn)FPN和注意力機(jī)制的目標(biāo)檢測(cè)算法模型各類別的平均精度均值從原先的 76.2%提升至94.5%,其中,badge一類的AP50提升了14.9%,clothes一類的AP50提升了10.5%,wrong clothes一類的AP50提升了38.9%,person一類的AP50提升了9.0%。
圖3中展示了本文提出模型的檢測(cè)效果。由圖3中可以看出,在加入改進(jìn)的FPN結(jié)構(gòu)和注意力機(jī)制后,模型在大目標(biāo)無(wú)遮擋、小目標(biāo)無(wú)遮擋、大目標(biāo)被遮擋、小目標(biāo)被遮擋、目標(biāo)背景復(fù)雜等情況下的識(shí)別效果都較好。
圖3 模型實(shí)際檢測(cè)效果:(a)—(c)各類目標(biāo)被遮擋情況,(d)各類目標(biāo)無(wú)被遮擋情況Fig. 3 Detection effects of the model: (a) — (c) the situation that different targets are obscured, (d) the situation that different targets are not obscured
本文基于Faster R-CNN算法,設(shè)計(jì)了一種融合改進(jìn)FPN和注意力機(jī)制的規(guī)范穿戴工作服識(shí)別方法。
通過在 Faster R-CNN的基礎(chǔ)上加入改進(jìn)的FPN結(jié)構(gòu),將ResNet50網(wǎng)絡(luò)的輸出特征傳入改進(jìn)的FPN結(jié)構(gòu)中進(jìn)行雙向融合,使得模型對(duì)小目標(biāo)的識(shí)別精度有一定程度的提高。通過在 Faster R-CNN中加入SENet注意力模塊,降低背景權(quán)重、提高目標(biāo)部分的權(quán)重,實(shí)現(xiàn)模型對(duì)復(fù)雜背景下目標(biāo)識(shí)別精度的提高。
通過在包含4個(gè)類別的數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),本文模型較基礎(chǔ)的Faster R-CNN模型有了18.3%的檢測(cè)準(zhǔn)確率提升。本文模型具有較好的魯棒性能和泛化能力。