国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

一種基于姿態(tài)感知的電力人員穿戴識(shí)別殘差網(wǎng)絡(luò)*

2022-02-12 05:15常政威黃坤超熊興中陳明舉
電訊技術(shù) 2022年1期
關(guān)鍵詞:殘差姿態(tài)卷積

常政威,蒲 維,吳 杰,黃坤超,熊興中,陳明舉

(1.國(guó)網(wǎng)四川省電力公司電力科學(xué)研究院,成都 610041;2.四川輕化工大學(xué) 自動(dòng)化與信息工程學(xué)院,四川 宜賓 644002)

0 引 言

在電力、礦山以及油田等施工現(xiàn)場(chǎng)中,工作人員的不規(guī)范穿戴往往是造成安全生產(chǎn)事故的主要因素之一。近年來(lái),隨著信息技術(shù)的發(fā)展,利用計(jì)算機(jī)視覺(jué)技術(shù)可以實(shí)現(xiàn)對(duì)施工作業(yè)人員的穿戴情況進(jìn)行檢測(cè)與識(shí)別,對(duì)不規(guī)范的穿戴行為進(jìn)行預(yù)警,從而避免安全事故的發(fā)生。

傳統(tǒng)的穿戴識(shí)別方法主要采用圖像分割與特征識(shí)別兩個(gè)步驟。圖像分割技術(shù)實(shí)現(xiàn)人物目標(biāo)與背景的分離,再利用膚色與衣服的特征定位人體的各個(gè)區(qū)域,最后通過(guò)機(jī)器學(xué)習(xí)算法對(duì)穿戴區(qū)域的顏色、形狀和紋理特征進(jìn)行分類與識(shí)別[1-2]。傳統(tǒng)方法主要提取目標(biāo)較淺的顯著特征[3]進(jìn)行識(shí)別,其識(shí)別性能受環(huán)境影響大,魯棒性不強(qiáng),難以適應(yīng)復(fù)雜施工現(xiàn)場(chǎng)人員的穿戴設(shè)備識(shí)別[4]。

近年來(lái),深度學(xué)習(xí)通過(guò)自主學(xué)習(xí)大樣本數(shù)據(jù)深層次的特征,建立魯棒性強(qiáng)的泛化網(wǎng)絡(luò),能有效地實(shí)現(xiàn)復(fù)雜環(huán)境下的目標(biāo)檢測(cè)與識(shí)別?;谏疃葘W(xué)習(xí)的目標(biāo)檢測(cè)算法主要包括基于區(qū)域建議的兩階網(wǎng)絡(luò)和基于回歸策略的單階網(wǎng)[5]。兩階網(wǎng)絡(luò)先生成可能含有待檢測(cè)物體的預(yù)選框,再利用主干網(wǎng)絡(luò)提取特征信息進(jìn)行分類和回歸[6-7];單步檢測(cè)算法直接在網(wǎng)絡(luò)中提取特征,輸出目標(biāo)的類別概率以及位置邊界框,如SSD、YOLO網(wǎng)絡(luò)等等[8-9]。與二階網(wǎng)絡(luò)相比,單階網(wǎng)絡(luò)不僅提高了識(shí)別的速度,且識(shí)別的準(zhǔn)確率接近于二階網(wǎng)絡(luò)。通常神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的加深與加寬可以提高網(wǎng)絡(luò)的特征表征能力,但增加網(wǎng)絡(luò)的深度與寬度,不但會(huì)增加網(wǎng)絡(luò)的復(fù)雜度,甚至還會(huì)產(chǎn)生梯度彌散與過(guò)擬合現(xiàn)象,從而導(dǎo)致特征表示能力的下降。為解決上述現(xiàn)象,深度殘差網(wǎng)絡(luò)通過(guò)在高層和低層之間相互信息傳導(dǎo),并抑制錯(cuò)誤信息傳播到網(wǎng)絡(luò)低層,從而緩解梯度彌散問(wèn)題[10]。另一方面,Google提出的Inception系列網(wǎng)絡(luò)采用稀疏連接代替全連接層,并將稀疏矩陣聚類成密集矩陣,以減少網(wǎng)絡(luò)參數(shù),緩解過(guò)擬合的發(fā)生[11]。

與傳統(tǒng)算法相比,深度學(xué)習(xí)技術(shù)獲得了更好的穿戴檢測(cè)與識(shí)別性能。文獻(xiàn)[12]與[13]分別針對(duì)交通與施工環(huán)境的復(fù)雜性,將深度學(xué)習(xí)網(wǎng)絡(luò)應(yīng)用于安全帽識(shí)別中,從而實(shí)現(xiàn)了復(fù)雜施工環(huán)境下的安全帽識(shí)別。但直接將深度學(xué)習(xí)網(wǎng)絡(luò)應(yīng)用于安全帽識(shí)別中,其耗時(shí)較大,無(wú)法滿足實(shí)時(shí)性要求。為解決深層網(wǎng)絡(luò)運(yùn)算耗時(shí)的缺點(diǎn),Wang[14]與Cheng[15]等人對(duì)YOLOv3網(wǎng)絡(luò)進(jìn)行簡(jiǎn)化,從而減少安全帽識(shí)別的時(shí)間,但造成弱小目標(biāo)的漏檢與誤檢。一些學(xué)者將多尺度特征金字塔[16]與可分深度卷積模塊[17]引入到卷積神經(jīng)網(wǎng)絡(luò)中,從而提高了復(fù)雜環(huán)境下弱小安全帽的檢測(cè)能力。另外,一些學(xué)者針對(duì)穿戴服飾的特殊性,建立與之相適應(yīng)的深度卷積網(wǎng)絡(luò),如油田作業(yè)安全環(huán)境的安全帽的識(shí)別殘差網(wǎng)絡(luò)[18]、流行服飾識(shí)別Inception網(wǎng)絡(luò)[19]等。

現(xiàn)有的作業(yè)人員穿戴設(shè)備識(shí)別網(wǎng)絡(luò)大都集中于單一穿戴設(shè)備進(jìn)行識(shí)別,且識(shí)別的搜索區(qū)域在整個(gè)圖像區(qū)域。施工作業(yè)人員穿戴規(guī)范性識(shí)別僅需在人形區(qū)域進(jìn)行,若將穿戴設(shè)備識(shí)別的搜索范圍限制在人形區(qū)域,勢(shì)必減少識(shí)別的運(yùn)算時(shí)間[20]。另外,現(xiàn)有的穿戴識(shí)別網(wǎng)絡(luò)著重于穿戴目標(biāo)的特性,忽略了穿戴設(shè)備與人形結(jié)構(gòu)特性的聯(lián)系,識(shí)別的準(zhǔn)確性有限。鑒于此,本文引入VGG(Visual Geometry Group)[21]與分裂-轉(zhuǎn)換-聚合(Split-Transfer-Agregation,STA)[22]模塊構(gòu)建基礎(chǔ)殘差網(wǎng)絡(luò)ResNeXt-50,利用ResNeXt-50不同卷積層不同深度殘差特征信息實(shí)現(xiàn)作業(yè)人員的姿態(tài)感知。在實(shí)現(xiàn)姿態(tài)感知的基礎(chǔ)上,將穿戴關(guān)鍵區(qū)域送入引入卷積塊注意力模塊(Convolutional Block Attention Module,CBAM)[23]的ResNeXt-50網(wǎng)絡(luò)中,進(jìn)而實(shí)現(xiàn)作業(yè)人員穿戴局部特征與全局特征的融合與精確識(shí)別。

1 基于姿態(tài)感知與遷移學(xué)習(xí)的殘差網(wǎng)絡(luò)

本文構(gòu)建的識(shí)別網(wǎng)絡(luò)由人形姿態(tài)感知與穿戴識(shí)別兩個(gè)階段組成,如圖1所示。網(wǎng)絡(luò)將VGG堆疊網(wǎng)絡(luò)與STA分裂-轉(zhuǎn)換-聚合技術(shù)引入到殘差網(wǎng)絡(luò)中,構(gòu)建ResNeXt-50作為基礎(chǔ)網(wǎng)絡(luò)。姿態(tài)感知利用ResNeXt-50不同深度卷積層的殘差圖像特征實(shí)現(xiàn)人形骨架估計(jì)與邊緣檢測(cè),從而實(shí)現(xiàn)人形分割與人形關(guān)鍵區(qū)域的定位,如頭部、上身、下身等關(guān)鍵穿戴局部區(qū)域,從而縮小后續(xù)穿戴識(shí)別網(wǎng)絡(luò)搜尋的范圍。穿戴識(shí)別網(wǎng)絡(luò)將注意力模塊的CBAM引入到ResNeXt-50網(wǎng)絡(luò),分別對(duì)人形的全局特征與穿戴局部特征進(jìn)行特征提取,并通過(guò)Concat層將局部特征與全局特征融合后送入Softmax層實(shí)現(xiàn)穿戴設(shè)備的識(shí)別。在訓(xùn)練階段,針對(duì)訓(xùn)練樣本數(shù)量不夠的缺點(diǎn),引入遷移學(xué)習(xí)的方法,在保持預(yù)訓(xùn)練網(wǎng)絡(luò)的中低層網(wǎng)絡(luò)參數(shù)不變的情況下,僅對(duì)頂層Softmax層進(jìn)行遷移學(xué)習(xí)修正[24],使遷移學(xué)習(xí)后的網(wǎng)絡(luò)具有更高的穿戴識(shí)別準(zhǔn)確率。

圖1 基于姿態(tài)感知與遷移學(xué)習(xí)的穿戴識(shí)別的網(wǎng)絡(luò)結(jié)構(gòu)

本文建立的穿戴識(shí)別網(wǎng)絡(luò)在態(tài)勢(shì)感知的基礎(chǔ)上確定穿戴的關(guān)鍵區(qū)域,僅對(duì)關(guān)鍵區(qū)域進(jìn)行穿戴規(guī)范檢測(cè),不僅減少了識(shí)別的時(shí)間,而且提高了識(shí)別的準(zhǔn)確率。在確定的位置進(jìn)行穿戴設(shè)備識(shí)別,從而確定穿戴設(shè)備是否在正確的位置,可實(shí)現(xiàn)穿戴的規(guī)范性識(shí)別。

1.1 ResNeXt50基礎(chǔ)網(wǎng)絡(luò)的構(gòu)建

ResNet雖然解決了網(wǎng)絡(luò)加深造成梯度彌散問(wèn)題,但是隨著超參數(shù)數(shù)量的增加,網(wǎng)絡(luò)的復(fù)雜度和計(jì)算開(kāi)銷也會(huì)增加。相應(yīng)的研究表明[15,25],將VGG堆疊網(wǎng)絡(luò)與STA技術(shù)相結(jié)合,在不增加參數(shù)復(fù)雜度的前提下可以減少超參數(shù)的數(shù)量,同時(shí)提高網(wǎng)絡(luò)識(shí)別的準(zhǔn)確率。圖2(a)給出了輸入與輸出通道都為256的ResNet模塊,其依次進(jìn)行1×1、3×3、1×1的卷積。圖2(b)為圖2(a)對(duì)應(yīng)的ResNeXt網(wǎng)絡(luò)模塊,ResNeXt模塊通過(guò)分裂32個(gè)卷積路徑group,再聚合輸出與ResNet模塊相同的輸出,且運(yùn)算復(fù)雜度與ResNet模塊相近。

圖2 殘差模塊示意圖

ResNeXt模塊分裂-轉(zhuǎn)換-聚合用數(shù)學(xué)表示為

(1)

式中:x為通道的輸入,Ti(x)為第i條卷積路徑的傳遞函數(shù),D為卷積路徑數(shù)。根據(jù)式(1)可以得出殘差輸出方程:

(2)

ResNeXt的每條卷積路徑的Ti都具有相同的拓?fù)浣Y(jié)構(gòu)。借助AlexNet網(wǎng)絡(luò)grouped convolutions的思想[25],通過(guò)限制本層卷積核和輸入通道的卷積,可得到更簡(jiǎn)潔的ResNeXt模塊,如圖2(c)所示。圖2(c)將32個(gè)group的每個(gè)group的輸入輸出channels設(shè)置為4,最后把channels合并。簡(jiǎn)化的ResNeXt模塊可以減少計(jì)算量,獲得相同的輸出,速度更快。這里在ResNet50的基礎(chǔ)上引入分裂-轉(zhuǎn)換-聚合結(jié)構(gòu),構(gòu)建ResNXt50如表1所示。

表1 ResNeXt50簡(jiǎn)化網(wǎng)絡(luò)結(jié)構(gòu)

1.2 基于殘差網(wǎng)絡(luò)穿戴區(qū)域檢測(cè)

建立的ResNeXt50網(wǎng)絡(luò)的低層輸出高分辨圖像結(jié)構(gòu)信息的特征圖像,高層輸出包含豐富的語(yǔ)義信息的特征圖像。借助于殘差網(wǎng)絡(luò)人體關(guān)鍵節(jié)點(diǎn)估計(jì)的方法[26],這里將構(gòu)建的ResNXt50模塊的平均池化和全連接層刪除,將Res2-Res4輸出的特征圖送入特征聚合模塊(Feature Aggregation,FA)進(jìn)行特征融合。FA模塊由上采樣Upsampling模塊與聚合模塊Concatenation模塊組成,Upsampling模塊由K分組反卷積層實(shí)現(xiàn),產(chǎn)生一個(gè)K個(gè)激活圖{A1,A2,…,AK}的集合,送入Concatenation模塊聚合得到邊緣圖[27]。將Res5輸出的語(yǔ)義特征圖送入由二級(jí)反卷積模塊組成的姿態(tài)解碼(Pose Encoder,PoE),便可得到姿態(tài)關(guān)鍵節(jié)點(diǎn)圖[28],整個(gè)過(guò)程如圖3所示。

圖3 基于ResNXt50的姿態(tài)感知網(wǎng)絡(luò)

圖4 人形關(guān)鍵節(jié)點(diǎn)示圖

1.3 基于CBAM+ResNeXt特征提取與識(shí)別網(wǎng)絡(luò)

CBAM是一種結(jié)合了空間(spatial)和通道(channel)的注意力的輕量級(jí)模塊,沿著空間和通道兩個(gè)維度依次推斷出注意力權(quán)重,實(shí)現(xiàn)對(duì)特征進(jìn)行自適應(yīng)調(diào)整,更加有效地表征目標(biāo)的本質(zhì)特征[23,29]。電力作業(yè)人員穿戴服飾具有多樣性,如顏色、材質(zhì)、款式等各種各樣。為了提高穿戴設(shè)備的準(zhǔn)確性,同時(shí)避免增加訓(xùn)練額外開(kāi)銷,將CBAM無(wú)縫地集成到ResNeXt的上一個(gè)特征層的最后一個(gè)卷積模塊與下一個(gè)特征層的第一個(gè)卷積模塊之間,如圖5所示。

圖5 嵌入到ResNeXt網(wǎng)絡(luò)的CBAM模塊

對(duì)于上一殘差層的特征圖像(feature map)F∈C×H×W,CBAM將按順序推理出通道注意力特征圖(channel attention map)Mc∈C×1×1以及空間注意力特征圖(Spatial Attention Map)Ms∈1×H×W,整個(gè)過(guò)程如下:

F′=Mc(F)?F,

(3)

F″=Ms(F′)?F′ 。

(4)

式(3)和式(4)中:?為element-wise multiplication,F(xiàn)′、F″分別為通道注意力與空間注意力模塊的輸出。殘差卷積神經(jīng)網(wǎng)絡(luò)的每個(gè)通道傳遞的信息并不是都有用[23]。通道注意機(jī)制模塊通過(guò)增加有效通道的權(quán)重,減少無(wú)效通道的權(quán)重,實(shí)現(xiàn)有效特征的加強(qiáng),其結(jié)構(gòu)如圖6所示。

圖6 通道注意力模塊

通道注意力特征圖Mc可表示為

Mc(F)=σ(MLP(AvgPool(F))+MLP(MaxPool(F)))。

(5)

式中:AvgPool與MaxPool分別表示平均池化與最大值池化,σ為Sigmoid函數(shù)。池化輸出的矢量送入MLP多次多層感知機(jī),最后逐個(gè)元素求和得到通道特征圖。

將通道模塊輸出的特征圖作為空間注意力模塊的輸入特征圖,如圖7所示。首先,做一個(gè)基于通道的全局最大值池化和全局平均值池化,將它們連接起來(lái)生成一個(gè)有效的特征描述符。然后,經(jīng)過(guò)一個(gè)7×7卷積操作后,經(jīng)過(guò)sigmoid生成spatial attention feature。最后將該feature和該模塊的輸入feature做乘法,得到最終生成的特征Ms:

圖7 空間注意力模塊

Ms(F′)=σ(cov(AvgPool(F′);MaxPool(F′)))。

(6)

1.4 特征識(shí)別網(wǎng)絡(luò)的遷移學(xué)習(xí)方法

對(duì)于殘差網(wǎng)絡(luò),在訓(xùn)練過(guò)程中通常需要上百萬(wàn)張標(biāo)注圖像。本文的穿戴識(shí)別網(wǎng)絡(luò)由姿態(tài)感知?dú)埐罹W(wǎng)絡(luò)與局部特征提取殘差網(wǎng)絡(luò)兩部分組成。姿態(tài)感知?dú)埐罹W(wǎng)絡(luò)可以通過(guò)現(xiàn)有開(kāi)源的人體圖像數(shù)據(jù)庫(kù)進(jìn)行訓(xùn)練。作業(yè)人員穿戴識(shí)別CBAM+ResNeXt殘差網(wǎng)絡(luò)的訓(xùn)練,需要大量作業(yè)穿戴設(shè)備圖片數(shù)據(jù)集,目前沒(méi)有開(kāi)源的安全帽、工作服、絕緣鞋等電力服飾的數(shù)據(jù)集,自行收集并且標(biāo)注上百萬(wàn)的電力作業(yè)服飾圖片用于殘差網(wǎng)絡(luò)模型的訓(xùn)練是不夠現(xiàn)實(shí)的,這里將遷移學(xué)習(xí)技術(shù)應(yīng)用于CBAM+ResNeXt網(wǎng)絡(luò)訓(xùn)練中。

遷移學(xué)習(xí)考慮到訓(xùn)練模型任務(wù)之間的相關(guān)性,對(duì)先前任務(wù)學(xué)習(xí)到的知識(shí)進(jìn)行微小的調(diào)整以適應(yīng)當(dāng)前的新任務(wù),從而解決當(dāng)前任務(wù)很難獲取到大量數(shù)據(jù)集的問(wèn)題。這里采用ImageNet圖像數(shù)據(jù)庫(kù)中120萬(wàn)張標(biāo)注圖片對(duì)CBAM+ResNeXt殘差網(wǎng)絡(luò)進(jìn)行訓(xùn)練,得到穿戴識(shí)別預(yù)訓(xùn)練網(wǎng)絡(luò)。接下來(lái)凍結(jié)預(yù)訓(xùn)練網(wǎng)絡(luò)的全部卷積層(各層參數(shù)保持不變),利用收集并標(biāo)注的穿戴設(shè)備圖像僅對(duì)頂層部分參數(shù)進(jìn)行訓(xùn)練并微調(diào)。這里遷移學(xué)習(xí)包括加載預(yù)訓(xùn)練模型、特征提取、Softmax回歸三個(gè)步驟,具體實(shí)現(xiàn)流程如圖8所示。

圖8 穿戴設(shè)備識(shí)別遷移學(xué)習(xí)過(guò)程

Softmax實(shí)現(xiàn)多分類遷移回歸,對(duì)于遷移學(xué)習(xí)訓(xùn)練集{(x1,y1),(x2,y2),…,(xm,ym)}有k個(gè)類別,xi為輸入數(shù)據(jù),yi為類別標(biāo)簽。Softmax回歸將輸入數(shù)據(jù)xi歸屬于j類的概率矩陣為

(7)

式中:θ為遷移學(xué)習(xí)的微調(diào)Softmax層矩陣參數(shù),其代價(jià)函數(shù)為

(8)

式中:1{·}是示性函數(shù)。通過(guò)梯度下降法求解L(θ),實(shí)現(xiàn)對(duì)參數(shù)θ的估計(jì)。在遷移學(xué)習(xí)中,標(biāo)注的穿戴設(shè)備樣本數(shù)有限,擬合參數(shù)數(shù)量非常大。為保證擬合的準(zhǔn)確性,這里在損失函數(shù)后面加上一個(gè)正則項(xiàng),通過(guò)懲罰過(guò)大的參數(shù)值來(lái)修改代價(jià)函數(shù)。代價(jià)函數(shù)定義為

(9)

令λ>0,代價(jià)函數(shù)L(θ)為一個(gè)嚴(yán)格的凸函數(shù),可以通過(guò)梯度下降法確保代價(jià)函數(shù)收斂于全局最優(yōu)解。遷移學(xué)習(xí)Softmax回歸模型通過(guò)以下梯度下降法極小化損失函數(shù)獲得:

(10)

2 實(shí)驗(yàn)與分析

2.1 實(shí)驗(yàn)環(huán)境與評(píng)價(jià)指標(biāo)

本次實(shí)驗(yàn)在深度學(xué)習(xí)服務(wù)器上搭建環(huán)境,服務(wù)器硬件配置為CPU(Inter Xeon 1顆)、GPU(Nvidia TITAN 4顆)、超微X10DRG-Q主板。操作系統(tǒng)為Windows10專業(yè)版操作系統(tǒng),采用caffe深度學(xué)習(xí)框架,程序運(yùn)行平臺(tái)為Anaconda3。

姿態(tài)感知網(wǎng)絡(luò)的訓(xùn)練采用COCO2017數(shù)據(jù)集,該數(shù)據(jù)集包含45萬(wàn)張關(guān)鍵點(diǎn)標(biāo)注的人體實(shí)例圖像。CBAM+ResNeXt特征提取與識(shí)別網(wǎng)絡(luò)采用ImageNet數(shù)據(jù)庫(kù)中120萬(wàn)張標(biāo)注圖片進(jìn)行預(yù)訓(xùn)練。需識(shí)別的穿戴設(shè)備包括安全帽、安全帶、工作衣褲、手套、工作鞋,如圖9所示。針對(duì)穿戴設(shè)備圖片不足,這里采用爬蟲(chóng)技術(shù)收集,并采用labelimg軟件進(jìn)行標(biāo)注。為了增強(qiáng)模型的泛化能力,對(duì)遷移學(xué)習(xí)數(shù)據(jù)集進(jìn)行圖像縮放、長(zhǎng)寬扭曲、色域扭曲等處理。一共選擇3 500張圖像用于遷移學(xué)習(xí)所需的數(shù)據(jù)集并將數(shù)據(jù)集按8∶1∶1 的比例分成訓(xùn)練集、交叉驗(yàn)證集、測(cè)試集。

圖9 電力作業(yè)穿戴設(shè)備圖片

實(shí)驗(yàn)中的客觀評(píng)價(jià)指標(biāo)采用各種穿戴設(shè)備的識(shí)別精確率(Average Precision,AP)與平均精確率(Mean Average Precision,MAP)。

2.2 遷移學(xué)習(xí)對(duì)模型學(xué)習(xí)效果的影響

遷移學(xué)習(xí)設(shè)置迭代周期為20,每5個(gè)周期學(xué)習(xí)率變?yōu)樵瓕W(xué)習(xí)率的0.1。為證明遷移學(xué)習(xí)的收斂性情況,保持整個(gè)網(wǎng)絡(luò)其他參數(shù)不變,遷移學(xué)習(xí)僅對(duì)CBAM+ResNeXt的Softmax進(jìn)行學(xué)習(xí)修正,學(xué)習(xí)率設(shè)置為0.000 1。記錄訓(xùn)練迭代周期與平均精確率的關(guān)系,如圖10所示。從圖10中可以看出,準(zhǔn)確率從80%左右隨迭代周期開(kāi)始逐步上升,當(dāng)?shù)芷跒?0個(gè)周期左右訓(xùn)練準(zhǔn)確率趨于穩(wěn)定,模型開(kāi)始收斂。

圖10 迭代周期與平均精確率的關(guān)系

為進(jìn)一步證明遷移學(xué)習(xí)能提高網(wǎng)絡(luò)識(shí)別精確率,對(duì)遷移學(xué)習(xí)與非遷移學(xué)習(xí)模型的識(shí)別精確率進(jìn)行對(duì)比分析,如圖11所示。從圖中可以看出,未進(jìn)行遷移學(xué)習(xí)的網(wǎng)絡(luò)對(duì)穿戴情況的識(shí)別率不高于90%,進(jìn)行遷移學(xué)習(xí)的網(wǎng)絡(luò)的對(duì)穿戴設(shè)備的識(shí)別率提高了約10個(gè)百分點(diǎn)。

圖11 有無(wú)遷移學(xué)習(xí)識(shí)別精確率對(duì)比

2.3 不同模型識(shí)別效果比較

將本文網(wǎng)絡(luò)分別與SDD、ResNet50、Inception-v3網(wǎng)絡(luò)進(jìn)行對(duì)比分析,以驗(yàn)證本文基于姿態(tài)感知與遷移學(xué)習(xí)的殘差網(wǎng)絡(luò)的優(yōu)越性。對(duì)比網(wǎng)絡(luò)在預(yù)訓(xùn)練網(wǎng)絡(luò)的基礎(chǔ)上,采用同樣的遷移學(xué)習(xí)方式對(duì)頂層進(jìn)行修正,并在相同的數(shù)據(jù)集上進(jìn)行對(duì)比實(shí)驗(yàn)。

表2給出了4種網(wǎng)絡(luò)的模型參數(shù)與進(jìn)行單幀圖像(圖像大小為512×512×24 b)穿戴識(shí)別所耗的平均時(shí)間。從表2可以看出,本文模型參數(shù)量得到了極大的降低,單幀所耗的平均時(shí)間最少,相較于SDD、ResNet50和Inception-v3單幀的平均時(shí)間分別下降了0.06 s、0.02 s和0.17 s。其原因是,雖然本文網(wǎng)絡(luò)采用兩級(jí)網(wǎng)絡(luò),但第一級(jí)姿態(tài)感知網(wǎng)絡(luò)實(shí)現(xiàn)人形姿勢(shì)的感知,并利用人形的特點(diǎn)確定穿戴設(shè)備區(qū)域;二級(jí)特征提取與識(shí)別網(wǎng)絡(luò)在確定的穿戴目標(biāo)區(qū)域進(jìn)行特征提取與識(shí)別,大大減少了錨框進(jìn)行回歸與目標(biāo)識(shí)別的時(shí)間。而其他網(wǎng)絡(luò)在整個(gè)圖像區(qū)域?qū)Χ鄠€(gè)穿戴目標(biāo)進(jìn)行搜索識(shí)別,運(yùn)算量較大。因此,本文網(wǎng)絡(luò)運(yùn)算量最低,降低了對(duì)硬件運(yùn)算能力的要求。

表2 網(wǎng)絡(luò)參數(shù)對(duì)比表

表3給出4種網(wǎng)絡(luò)在相同的測(cè)試數(shù)據(jù)集上識(shí)別的AP與MAP。從表中可以看出,本文網(wǎng)絡(luò)在穿戴各種穿戴設(shè)備的識(shí)別的精確率AP以及穿戴設(shè)備的識(shí)別平均精確率MAP都明顯高于其他網(wǎng)絡(luò),說(shuō)明本文采用在確定的穿戴識(shí)別區(qū)域,引入注意力的輕量級(jí)模塊CBAM的殘差網(wǎng)絡(luò),有效地表征了穿戴設(shè)備的本質(zhì)特征,從而提高了穿戴設(shè)備的識(shí)別的準(zhǔn)確性。

表3 不同網(wǎng)絡(luò)識(shí)別穿戴設(shè)備的平均精確率

圖13給出了圖12所示的原始測(cè)試圖片進(jìn)行穿戴識(shí)別的結(jié)果,從中可以看出SDD、ResNet50對(duì)小目標(biāo)與部分遮擋的圖像無(wú)法進(jìn)行識(shí)別,如圖片1中的鞋子,圖片2、3的鞋子與手套都未實(shí)現(xiàn)識(shí)別。Inception-v3網(wǎng)絡(luò)與SDD、ResNet50相比,其識(shí)別能力有所提升,但仍然存在小目標(biāo)的錯(cuò)誤識(shí)別,如圖片1中一只鞋子、圖2、3左手的手套都未正確識(shí)別。這說(shuō)明本文引入CBAM注意力模塊建立的分裂-轉(zhuǎn)換-聚合的殘差網(wǎng)絡(luò),在進(jìn)行人形姿態(tài)感知的基礎(chǔ)上,引導(dǎo)網(wǎng)絡(luò)注意于穿戴目標(biāo)區(qū)域進(jìn)行高效識(shí)別,不僅減少了目標(biāo)的搜尋時(shí)間,而且提高了網(wǎng)絡(luò)對(duì)于弱小目標(biāo)以及遮擋穿戴設(shè)備的識(shí)別的準(zhǔn)確率。

圖12 用于測(cè)試的部分圖片

圖13 不同網(wǎng)絡(luò)識(shí)別的結(jié)果(從左到右依次為SDD、Res-Net50、Inception-v3、本文網(wǎng)絡(luò))

3 結(jié) 論

為了提高基于機(jī)器視覺(jué)技術(shù)的電力作業(yè)人員穿戴檢測(cè)的精度與速度,本文建立一種基于姿態(tài)感知網(wǎng)絡(luò)與特征識(shí)別網(wǎng)絡(luò)的兩級(jí)網(wǎng)絡(luò)結(jié)構(gòu)?;A(chǔ)網(wǎng)絡(luò)采用ResNeXt50網(wǎng)絡(luò),該網(wǎng)絡(luò)將VGG模塊與STA引入到殘差網(wǎng)絡(luò)中,在減少網(wǎng)絡(luò)的參數(shù)的同時(shí)提高網(wǎng)絡(luò)的特征提取性能。姿態(tài)感知網(wǎng)絡(luò)利用ResNeXt50不同殘差層的特征圖具有不同分辨率與語(yǔ)義特性的特點(diǎn)進(jìn)行特征聚合與姿態(tài)解碼處理,分別得到人體邊緣圖與骨架圖,進(jìn)從而確定穿戴的關(guān)鍵區(qū)域。為提高特征網(wǎng)絡(luò)的特征感知能力,將CBAM無(wú)縫地集成在ResNeXt50網(wǎng)絡(luò)相鄰卷積層之間,以提高網(wǎng)絡(luò)對(duì)穿戴設(shè)備識(shí)別的能力。在訓(xùn)練環(huán)節(jié),針對(duì)樣本數(shù)據(jù)不足的缺點(diǎn),利用遷移學(xué)習(xí)的方法對(duì)預(yù)訓(xùn)練網(wǎng)絡(luò)的softmax層參數(shù)進(jìn)行修正。對(duì)比實(shí)驗(yàn)證明,建立的模型在減少識(shí)別時(shí)間的同時(shí)能提高穿戴設(shè)備識(shí)別的準(zhǔn)確率。

本文建立的基于姿態(tài)感知與遷移學(xué)習(xí)的穿戴識(shí)別的網(wǎng)絡(luò)不僅適用于電力作業(yè)人員穿戴識(shí)別中,在對(duì)Softmax層參數(shù)進(jìn)一步遷移學(xué)習(xí)修正后,可應(yīng)用于礦業(yè)、交通、醫(yī)療、建筑等行業(yè)的作業(yè)人員的穿戴識(shí)別中。因此,本文建立的穿戴識(shí)別網(wǎng)絡(luò)具有較大的應(yīng)用價(jià)值與學(xué)術(shù)參考價(jià)值。

猜你喜歡
殘差姿態(tài)卷積
基于殘差-注意力和LSTM的心律失常心拍分類方法研究
基于雙向GRU與殘差擬合的車輛跟馳建模
基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
基于殘差學(xué)習(xí)的自適應(yīng)無(wú)人機(jī)目標(biāo)跟蹤算法
攀爬的姿態(tài)
卷積神經(jīng)網(wǎng)絡(luò)的分析與設(shè)計(jì)
基于深度卷積的殘差三生網(wǎng)絡(luò)研究與應(yīng)用
從濾波器理解卷積
全新一代宋的新姿態(tài)
基于傅里葉域卷積表示的目標(biāo)跟蹤算法