摘" 要:以卷積神經(jīng)網(wǎng)絡(luò)為代表的深度學(xué)習(xí)算法可以更加精準(zhǔn)有效地提取人體行為特征,因此將深度學(xué)習(xí)用于人體行為識(shí)別與預(yù)測(cè)成為研究熱點(diǎn)。文章在經(jīng)典HRnet網(wǎng)絡(luò)結(jié)構(gòu)的基礎(chǔ)上通過改進(jìn)L-Swish激活函數(shù)和引入Squeeze-and-Excitation模塊,提出一種新型網(wǎng)絡(luò)模型L-HRnet,用于判斷施工人員高空作業(yè)時(shí)的行為動(dòng)作是否存在危險(xiǎn)性。在公開數(shù)據(jù)集HMDB51上進(jìn)行行為分類與識(shí)別實(shí)驗(yàn),結(jié)果表明,改進(jìn)后網(wǎng)絡(luò)結(jié)構(gòu)L-HRnet的識(shí)別準(zhǔn)確率明顯優(yōu)于HRnet,有效提升了高空作業(yè)人員的防護(hù)水平。
關(guān)鍵詞:神經(jīng)網(wǎng)絡(luò);深度學(xué)習(xí);高空墜落;動(dòng)作識(shí)別
中圖分類號(hào):TP391.4" " 文獻(xiàn)標(biāo)識(shí)碼:A" 文章編號(hào):2096-4706(2024)10-0017-04
A Method for Identifying High-altitude Falling Hazard Behavior Based on Deep Learning
NIE Cheng, YE Xiang, FANG Baili, SUN Jiaxing, ZHANG Tao
(Guangzhou Power Supply Bureau of Guangdong Power Grid Co., Ltd., Guangzhou" 510180, China)
Abstract: Deep Learning algorithms represented by Convolutional Neural Networks can extract human behavior features more accurately and effectively, applying Deep Learning to human behavior recognition and prediction has become a research hotspot. On the basis of the classic HRnet network structure, this paper proposes a new network model L-HRnet by improving the L-Swish activation function and introducing the Squeeze-and-Excitation module, which is used to determine whether the behavioral actions of construction worker during high-altitude operations are dangerous. Behavioral classification and recognition experiments are conducted on the public dataset HMDB51, and the results show that the improved network structure L-HRnet had significantly better recognition accuracy than HRnet, effectively improving the protection level of high-altitude workers.
Keywords: neural network; Deep Learning; high-altitude falling; action recognition
0" 引" 言
近年來,隨著我國經(jīng)濟(jì)的不斷發(fā)展,電力、建筑等基礎(chǔ)行業(yè)也迎來快速發(fā)展的新階段,但是高空作業(yè)安全事故發(fā)生率也是一路上揚(yáng)。研究表明,高空作業(yè)時(shí)安全事故的發(fā)生主要取決于兩大因素:一是主觀因素[1-3],表現(xiàn)為工作人員的危險(xiǎn)作業(yè)行為,比如疲勞作業(yè)、施工動(dòng)作不規(guī)范、不佩戴安全帶等;二是客觀因素,取決于施工環(huán)境存在安全隱患,如腳手架桿松動(dòng)、安全繩脫落等。
現(xiàn)有高空墜落的防范措施主要有墜落事件發(fā)生后的物理防護(hù)措施,比如:佩戴安全繩,使用腳手架、安全網(wǎng)、擋腳板等[4]。這些措施只能在危險(xiǎn)發(fā)生后給予作業(yè)人員一定程度的保護(hù),在危險(xiǎn)預(yù)防方面無法發(fā)揮作用。為此,本文提出一種基于深度學(xué)習(xí)的高空作業(yè)人員動(dòng)作識(shí)別方法,用于在判斷出作業(yè)人員存在危險(xiǎn)動(dòng)作時(shí)發(fā)出預(yù)警信號(hào),預(yù)防危險(xiǎn)的發(fā)生。本文方法作為高空作業(yè)人員安全防護(hù)措施的一種補(bǔ)充手段,一定程度上提高了工作人員的安全系數(shù)。
隨著深度學(xué)習(xí)的興起,神經(jīng)網(wǎng)絡(luò)[5]在特征提取、模式識(shí)別等方面表現(xiàn)出良好的性能。利用神經(jīng)網(wǎng)絡(luò)對(duì)人員行為特征進(jìn)行檢測(cè)已被證實(shí)具有較高的可行性。人體行為檢測(cè)模型在2015年之前主要通過回歸方法[6]得到骨骼關(guān)鍵點(diǎn)坐標(biāo),但實(shí)驗(yàn)效果不夠理想。主要原因有兩點(diǎn):一是人體行為具有多變靈活性,二是回歸模型的遷移性較差,難以應(yīng)用于未被訓(xùn)練過的人體行為數(shù)據(jù)識(shí)別。因此,目前普遍采用的過渡處理方法是將人體行為識(shí)別看作檢測(cè)問題,從而獲得人體行為檢測(cè)熱點(diǎn)圖。2016年,Wei等人提出一種用于人體姿勢(shì)估計(jì)的深度學(xué)習(xí)模型—CPM [7],該模型的核心思想是通過多層次的CNN架構(gòu)逐步細(xì)化姿勢(shì)估計(jì),每一層都專注于預(yù)測(cè)一組關(guān)鍵關(guān)節(jié)點(diǎn)的位置。通過在多個(gè)尺度上對(duì)圖像進(jìn)行處理,捕捉不同尺度下的姿勢(shì)信息,從而提高預(yù)測(cè)準(zhǔn)確性。雖然CPM模型能有效解決遮擋問題,但卻為了降低計(jì)算復(fù)雜度而損失了圖片精度,高分辨率特征有所弱化。為了解決圖片分辨率低的問題,Sun等人[8]提出一種高分辨率網(wǎng)絡(luò)—HRnet,該網(wǎng)絡(luò)能夠在數(shù)據(jù)流通的整個(gè)網(wǎng)絡(luò)鏈路中保持高分辨率,極大地提高了圖像識(shí)別的準(zhǔn)確度,但同時(shí)也帶來了參數(shù)量增大、運(yùn)行速度降低的問題。
為了解決上述問題,本文在HRnet神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上,通過引入Squeeze-and-Excitation模塊,使用改進(jìn)后的激活函數(shù)L-Swish等策略,提出一種改進(jìn)的網(wǎng)絡(luò)結(jié)構(gòu)L-HRnet,并將其應(yīng)用于高空作業(yè)人員危險(xiǎn)行為識(shí)別之中,用以判斷作業(yè)人員是否存在危險(xiǎn)行為,進(jìn)而發(fā)出預(yù)警信號(hào)預(yù)防危險(xiǎn)的發(fā)生。
1" 網(wǎng)絡(luò)架構(gòu)改進(jìn)
本文提出的網(wǎng)絡(luò)模型在HRnet網(wǎng)絡(luò)模型結(jié)構(gòu)的基礎(chǔ)上做了進(jìn)一步的改進(jìn)。HRnet模型作為一種面向高分辨率人體姿勢(shì)估計(jì)任務(wù)的網(wǎng)絡(luò)架構(gòu),通過使用一種稱為“分階段融合”的策略,確保不同分支之間的信息共享和融合[9],不僅保留了高分辨率特征,還通過多分支的設(shè)計(jì)來融合不同尺度的信息,能夠在不損失細(xì)節(jié)的情況下提高姿勢(shì)估計(jì)的準(zhǔn)確性。本文提出的改進(jìn)模型,在保持該模型精度的前提下采用深度可分離卷積[10],引入Squeeze-and-Excitation(SE)模塊[11],極大地減少了網(wǎng)絡(luò)參數(shù)量進(jìn)而縮小模型體積,提高了運(yùn)行速度。同時(shí)使用改進(jìn)后的L-Swish激活函數(shù)來進(jìn)一步提升模型精度。
1.1" Squeeze-and-Excitation模塊引入
SE模塊可根據(jù)目標(biāo)損失函數(shù)loss去學(xué)習(xí)、構(gòu)建特征權(quán)重,最終使特征圖的有效性與權(quán)重值呈正相關(guān)。這種訓(xùn)練方式進(jìn)一步提高了模型的精度。
如圖1所示,F(xiàn)tr為傳統(tǒng)的卷積結(jié)構(gòu),X和U分別為Ftr的輸入(C′×H′×W′)和輸出(C×H×W)。與一般卷積神經(jīng)網(wǎng)絡(luò)不同的是,SE模塊是通過Squeeze(擠壓)、Excitation(激勵(lì))與Scale(重標(biāo)定)等步驟來重新標(biāo)定原先獲得的特征,具體如下所述:
1)Squeeze。對(duì)應(yīng)圖1中的Fsq(·)操作。這一步驟中SE模塊執(zhí)行全局池化(通常是全局平均池化),以對(duì)特征圖每個(gè)通道的信息進(jìn)行壓縮。這使得特征圖的尺寸從(H、W、C)縮減為(1、1、C),其中H和W分別為特征圖的高度和寬度,C為通道數(shù)量。這一步旨在獲取每個(gè)通道的全局信息,以便為稍后的調(diào)整做好準(zhǔn)備。
2)Excitation。對(duì)應(yīng)圖1中的Fex(·,W)。在此步驟中,SE模塊通過一系列的全連接層(通常包括一個(gè)隱藏層和一個(gè)激活函數(shù)(如ReLU))來學(xué)習(xí)每個(gè)通道的權(quán)重或重要性。這些權(quán)重表示每個(gè)通道對(duì)于特定任務(wù)的貢獻(xiàn)程度。Excitation操作將生成的權(quán)重向量應(yīng)用于原始特征圖,以調(diào)整每個(gè)通道的響應(yīng)。
3)Scale。對(duì)應(yīng)圖1中的Fscale。通過逐通道的縮放操作來重新加權(quán)特征圖。具體來說,它將每個(gè)通道的權(quán)重乘以原始特征圖中的對(duì)應(yīng)通道。這會(huì)使具有更高權(quán)重的通道對(duì)后續(xù)網(wǎng)絡(luò)層的輸出產(chǎn)生更大的影響,從而更好地捕捉特定任務(wù)所需的信息。
SE模塊允許網(wǎng)絡(luò)動(dòng)態(tài)學(xué)習(xí)每個(gè)通道的權(quán)重,以適應(yīng)特定任務(wù)的需求,從而提高網(wǎng)絡(luò)的性能。這種注意力機(jī)制的有效性在各種計(jì)算機(jī)視覺任務(wù)(包括圖像分類、對(duì)象檢測(cè)和語義分割)中得以證明。SE模塊通常嵌入到深度卷積神經(jīng)網(wǎng)絡(luò)的不同層中,以增強(qiáng)網(wǎng)絡(luò)的表示能力。
1.2" SE模塊算法
如圖1所示,首先Ftr是轉(zhuǎn)換操作,輸入輸出的定義如下:
那么,F(xiàn)tr的表達(dá)式如式(1)所示:
Ftr操作得到的U就是圖1中左邊第二個(gè)三維矩陣,也叫張量Tensor,或者叫C個(gè)大小為H×W的特征圖,而uC表示U中第C個(gè)二維矩陣,下標(biāo)C表示通道。
然后將結(jié)果輸入Squeeze,實(shí)質(zhì)上就是執(zhí)行全局平均池化操作:
通過此操作可將輸入C×H×W轉(zhuǎn)換成多個(gè)尺寸為1×1×C的輸出,也就是得到了該層的C個(gè)全局特征圖信息。
最后通過式(3)實(shí)現(xiàn)Excitation操作:
從上述計(jì)算式可以看出,Excitation操作其實(shí)是由兩個(gè)全連接組成的。第一個(gè)全連接就是將上一步的Squeeze輸出z乘上權(quán)重W1,其中權(quán)重W1的維度是C/(r×C)。參數(shù)r的目的是減少通道個(gè)數(shù)從而降低計(jì)算量。又因?yàn)閦的維度是1×1×C,所以W1z的結(jié)果為1×1×C/r;然后再經(jīng)過一個(gè)ReLU層,輸出的維度保持不變。
第二個(gè)全連接則是第一個(gè)全連接的輸出結(jié)果和權(quán)重W2相乘,W2的維度為C×C/r,所以輸出結(jié)果的維度為1×1×C;最后再經(jīng)過Sigmoid函數(shù)得到s。s的維度為1×1×C,C為通道數(shù)目,用來刻畫向量U中C個(gè)特征圖的權(quán)重。而且這個(gè)權(quán)重是通過前面這些全連接層和非線性層學(xué)習(xí)得到的,因此可以進(jìn)行端到端訓(xùn)練。
這兩個(gè)全連接層的作用就是融合各通道的特征圖信息,因?yàn)榍懊娴腟queeze都是在某個(gè)通道的特征圖里面操作的。最后,通過計(jì)算式(4)對(duì)初始向量U進(jìn)行通道乘法操作,即圖1中的Fscale過程:
其中,uc為二維矩陣,sc為權(quán)重值。本文將SE模塊引入HRnet網(wǎng)絡(luò),以進(jìn)一步提升算法的精度。
1.3" 激活函數(shù)設(shè)計(jì)
雖然ReLU激活函數(shù)具有收斂速度快的優(yōu)點(diǎn),但是其強(qiáng)制的稀疏處理會(huì)減少模型的有效容量(特征屏蔽太多,導(dǎo)致模型無法學(xué)習(xí)到有效特征)[12]。使用ReLU作為激活函數(shù)極易出現(xiàn)梯度消失、梯度爆炸或輸出不是零中心化的問題,不利于網(wǎng)絡(luò)模型的訓(xùn)練學(xué)習(xí)。實(shí)驗(yàn)表明,Swish [13]激活函數(shù)是一種比ReLU更優(yōu)的非線性激活函數(shù),避免了ReLU函數(shù)x小于0時(shí)梯度為0的情況,如計(jì)算式(5)所示:
其中,β為常數(shù)或可訓(xùn)練的參數(shù),Swish具有無上界有下屆、平滑、非單調(diào)的特性。但是相比于ReLU,因?yàn)樗蠸igmoid函數(shù),計(jì)算更為復(fù)雜。為進(jìn)一步提高模型運(yùn)算精度,降低它的計(jì)算開銷,使用分段函數(shù)L-Sigmoid(如計(jì)算式(6)所示)模擬Sigmoid函數(shù),對(duì)比效果圖如圖2所示。
其中α = 0.01,改進(jìn)后Swish函數(shù)如計(jì)算式(7)所示:
圖2為Sigmoid與L-Sigmoid兩種激活函數(shù)的對(duì)比圖。
圖3為Swish與L-Swish兩種激活函數(shù)的對(duì)比圖。
考慮到應(yīng)用非線性激活函數(shù)的成本問題,在模型設(shè)計(jì)中,本文將L-Swish應(yīng)用于并行低分辨率子網(wǎng)絡(luò)中。
2" 改進(jìn)后的L-HRnet
本文提出的網(wǎng)絡(luò)結(jié)構(gòu)L-HRnet是在原網(wǎng)絡(luò)結(jié)構(gòu)HRnet的Bottleneck部分引入SE模塊,并在原網(wǎng)絡(luò)最后的分支融合階段使用改進(jìn)后的L-Swish激活函數(shù)。圖4為改進(jìn)后的L-HRnet網(wǎng)絡(luò)結(jié)構(gòu)圖
為了充分了解所提模型的性能,本文采用HMDB51 [14]數(shù)據(jù)集訓(xùn)練L-HRnet模型,將HMDB51中51類動(dòng)作統(tǒng)一分為危險(xiǎn)動(dòng)作與安全動(dòng)作兩類,輸入圖片尺寸為256×256×3,然后以高分辨率子網(wǎng)為第一階段,逐步增加高分辨率到低分辨率的子網(wǎng),形成新的階段,并將多分辨率子網(wǎng)并行連接,引入跨并行子網(wǎng)的交換單元,使每個(gè)子網(wǎng)能夠重復(fù)接收來自其他并行子網(wǎng)的信息,最后通過Softmax分類器將圖片分為兩類輸出人體動(dòng)作。
3" 實(shí)驗(yàn)結(jié)果與分析
本實(shí)驗(yàn)采用PyTorch,Intel(R) Xeon(R) CPU E5-2630 v4 @ 2.20 GHz架構(gòu),GPU采用Nvidia Titan X Pascal。在公開數(shù)據(jù)集上使用L-HRnet網(wǎng)絡(luò)模型進(jìn)行人體動(dòng)作關(guān)鍵點(diǎn)檢測(cè),檢測(cè)結(jié)果如圖5所示。實(shí)驗(yàn)結(jié)果驗(yàn)證了L-HRnet模型在人體動(dòng)作關(guān)鍵點(diǎn)檢測(cè)方面的精確性。
為了對(duì)本文所改進(jìn)網(wǎng)絡(luò)進(jìn)行有效驗(yàn)證,在HMDB51數(shù)據(jù)集上分別用HRnet網(wǎng)絡(luò)模型和改進(jìn)后的L-HRnet網(wǎng)絡(luò)模型進(jìn)行人體動(dòng)作識(shí)別分類測(cè)試實(shí)驗(yàn)。分別對(duì)兩種網(wǎng)絡(luò)模型的識(shí)別準(zhǔn)確率、運(yùn)算速度、參數(shù)量進(jìn)行測(cè)試比較,測(cè)試結(jié)果如表1所示,實(shí)驗(yàn)結(jié)果表明,改進(jìn)后L-HRnet網(wǎng)絡(luò)模型的參數(shù)量更小,運(yùn)算速度更快,實(shí)現(xiàn)了輕量化的目標(biāo),同時(shí)識(shí)別準(zhǔn)確率也略有提升。
4" 結(jié)" 論
本文在人體動(dòng)作識(shí)別任務(wù)方面,在HRnet的基礎(chǔ)上提出了改進(jìn)的深度卷積神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)L-HRnet,并利用改進(jìn)后的網(wǎng)絡(luò)模型在HMDB51數(shù)據(jù)集上進(jìn)行測(cè)試,取得了95.6%的識(shí)別準(zhǔn)確率。目前深度卷積神經(jīng)網(wǎng)絡(luò)算法已成功應(yīng)用于圖像識(shí)別、圖片分割等領(lǐng)域,但若要部署在建筑行業(yè),需要首先解決實(shí)驗(yàn)所需建筑工人危險(xiǎn)動(dòng)作數(shù)據(jù)集的采集、攝像頭的部署,以及模型運(yùn)行計(jì)算資源的消耗問題,執(zhí)行起來有一定的困難。在建筑行業(yè)的應(yīng)用場景中,對(duì)模型的精度和實(shí)時(shí)性要求較高,雖然本文所提方案在運(yùn)算速度和精度上有所改善,但距離實(shí)際應(yīng)用還有一段距離。故今后將在模壓縮方面做進(jìn)一步的深入研究。
參考文獻(xiàn):
[1] 王文翔.建筑施工安全管理中高處墜落的原因及預(yù)防措施 [J].散裝水泥,2021(3):41-43+46.
[2] 仇昕.建筑安全事故發(fā)生原因分析及控制措施 [J].建筑與預(yù)算,2022(5):37-39.
[3] 劉昊東.建筑工程安全事故成因分析與預(yù)測(cè) [J].四川建材,2023,49(5):241-243.
[4] 周元昊.高處墜落事故的原因和預(yù)防對(duì)策 [J].建筑施工,2023,45(2):431-433.
[5] KRICHEN M. Convolutional Neural Networks: A survey [J/OL].Computers,2023,12(8)[2023-09-15].https://doi.org/10.3390/computers12080151.
[6] 方升,梁飛豹,劉勇進(jìn).統(tǒng)計(jì)回歸模型及其優(yōu)化算法綜述 [J].福州大學(xué)學(xué)報(bào):自然科學(xué)版,2021,49(5):638-654.
[7] WEI S E,RAMAKRISHNA V,KANADE T,et al. Convolutional Pose Machines [C]//.2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).Las Vegas:IEEE,2016:4724-4732.
[8] SUN K,XIAO B,LIU D,et al. Deep High-Resolution Representation Learning for Human Pose Estimation [J/OL].arXiv:1902.09212v1 [cs.CV].[2023-09-10].https://arxiv.org/abs/1902.09212.
[9] 石洋宇,左景,謝承杰,等.多尺度融合與FMB改進(jìn)的YOLOv8異常行為檢測(cè)方法 [J].計(jì)算機(jī)工程與應(yīng)用,2024,60(9):101-110.
[10] ZHANG T,LI S,F(xiàn)ENG G Q,et al. Local Channel Transformation for Efficient Convolutional Neural Network [J].Signal, Image and Video Processing,2022,17(1):129-137.
[11] ZHANG Y P,WU G C. Temporal Squeeze-and-Excitation Networks for Skeleton-Based Action Recognition [C]//2023 5th International Conference on Industrial Artificial Intelligence (IAI). Shenyang:IEEE,2023:1-6.
[12] VARGAS V M,GUTIéRREZ P A,BARBERO-GóMEZ J,et al. Activation Functions for Convolutional Neural Networks: Proposals and Experimental Study [J].IEEE Transactions on Neural Networks and Learning Systems,34(3):1478-1488.
[13] 米碩,田豐收,孫瑞彬,等.Swish激活函數(shù)在中小規(guī)模數(shù)據(jù)集上的性能表現(xiàn) [J].科技創(chuàng)新與應(yīng)用,2018(1):4-5.
[14] KUEHNE H,JHUANG H,GARROTE E,et al. HMDB: A Large Video Database for Human Motion Recognition [J].2011 International Conference on Computer Vision. Barcelona:2011:2556-2563.
作者簡介:聶程(1995—),男,漢族,江西宜春人,運(yùn)維工程師,工學(xué)碩士,主要研究方向:輸電線路運(yùn)行與維護(hù);葉翔(1984—),男,漢族,江西上饒人,工程師,工學(xué)碩士,主要研究方向:輸電線路運(yùn)維、安全管理;方百里(1992—),男,漢族,廣東揭陽人,工程師,工學(xué)學(xué)士,主要研究方向:輸電線路安全管理;孫嘉興(1986—),男,漢族,遼寧丹東人,工程師,工學(xué)碩士,主要研究方向:輸電線路安全管理;張?zhí)希?984—),男,漢族,江蘇南通人,運(yùn)維工程師,工學(xué)學(xué)士,主要研究方向:輸電生產(chǎn)運(yùn)維技術(shù)。