基于多模態(tài)特征融合的井下人員不安全行為識(shí)別

2023-12-06 03:06:42王宇于春華陳曉青宋家威

工礦自動(dòng)化 2023年11期

王宇，于春華，陳曉青，宋家威

（1.遼寧科技大學(xué) 礦業(yè)工程學(xué)院，遼寧鞍山 114051；2.凌鋼股份北票保國鐵礦有限公司，遼寧朝陽 122102）

0 引言

由于井下作業(yè)環(huán)境復(fù)雜多變，很容易存在安全隱患，從而導(dǎo)致礦井安全事故[1]。調(diào)查結(jié)果顯示，礦工的不安全行為是導(dǎo)致礦井事故發(fā)生的主要原因，我國重大礦井事故中，超過90% 是由人為失誤引起的[2]。因此，對(duì)井下人員的不安全行為進(jìn)行識(shí)別分析，對(duì)保證礦井安全生產(chǎn)具有重要意義。隨著人工智能技術(shù)的發(fā)展與智能礦山的建設(shè)，人工智能技術(shù)被運(yùn)用于礦山的生產(chǎn)和監(jiān)管中[3]。采用人工智能技術(shù)對(duì)井下人員的行為進(jìn)行實(shí)時(shí)識(shí)別，能減輕人工負(fù)擔(dān)，提高識(shí)別效率，從而減少礦井事故的發(fā)生。

作為計(jì)算機(jī)視覺中的熱門研究方向，人體行為識(shí)別可分為基于行為識(shí)別的方法[4]、基于時(shí)序動(dòng)作檢測(cè)的方法[5]、基于時(shí)空動(dòng)作檢測(cè)的方法[6]、基于骨骼點(diǎn)動(dòng)作識(shí)別的方法[7]。隨著礦山智能化、智慧化的推進(jìn)，人體行為識(shí)別技術(shù)被應(yīng)用到井下人員行為識(shí)別中。黨偉超等[8]通過改進(jìn)傳統(tǒng)的雙流卷積神經(jīng)網(wǎng)絡(luò)，對(duì)井下配電室巡檢行為進(jìn)行識(shí)別檢測(cè)，具有較高的準(zhǔn)確率，但在多人巡檢的場(chǎng)景下會(huì)出現(xiàn)誤識(shí)別等問題。劉浩等[9]采用OpenPose 神經(jīng)網(wǎng)絡(luò)對(duì)人體骨骼關(guān)鍵點(diǎn)進(jìn)行提取，并將提取到的信息輸入ST-GCN（Spatial Temporal Graph Convolutional Network，時(shí)空?qǐng)D卷積網(wǎng)絡(luò)）得到識(shí)別結(jié)果，實(shí)現(xiàn)了對(duì)井下多種不安全行為的識(shí)別。黃瀚等[10]提出了DAGCN（Dynamic Attention and Multi-layer Perception Graph Convolutional Network，動(dòng)態(tài)注意力與多層感知圖卷積網(wǎng)絡(luò)）并用于煤礦人員行為識(shí)別，在提高模型泛化力的同時(shí)，也提高了識(shí)別精度。

基于RGB 模態(tài)數(shù)據(jù)，能獲得豐富的人與物體外觀特征信息，但井下開采過程中會(huì)產(chǎn)生大量粉塵，加上井下環(huán)境復(fù)雜、光照不足，使得采集到的RGB 視頻圖像背景噪聲增多[11]。這些噪聲會(huì)影響RGB 模態(tài)特征提取與行為識(shí)別。基于骨骼模態(tài)的行為識(shí)別方法能降低無關(guān)背景噪聲的影響，但缺乏人與物體的外觀特征信息。因此，本文采用多模態(tài)特征融合方法，將從RGB 模態(tài)與骨骼模態(tài)中提取的特征進(jìn)行融合，對(duì)視頻中人員的行為進(jìn)行識(shí)別，提高井下人員不安全行為識(shí)別準(zhǔn)確率。

1 行為識(shí)別模型總體架構(gòu)

基于多模態(tài)特征融合的行為識(shí)別模型框架如圖1 所示。該模型由2 層網(wǎng)絡(luò)組成，分別處理RGB 模態(tài)與骨骼模態(tài)的數(shù)據(jù)。對(duì)于RGB 模態(tài)的輸入視頻數(shù)據(jù)，通過SlowOnly 網(wǎng)絡(luò)[12]進(jìn)行特征提取。對(duì)于骨骼模態(tài)的數(shù)據(jù)，先通過YOLOX 算法[13]對(duì)輸入的RGB 視頻數(shù)據(jù)進(jìn)行人體目標(biāo)檢測(cè)，再使用Lite-HRNet（Lightweight High-Resolution Network，輕量級(jí)高分辨率網(wǎng)絡(luò)）[14]對(duì)目標(biāo)檢測(cè)結(jié)果進(jìn)行人體姿態(tài)估計(jì)，獲取人體2D 骨骼關(guān)鍵點(diǎn)數(shù)據(jù)，從而得到骨骼模態(tài)數(shù)據(jù)；以2D 人體骨骼關(guān)鍵點(diǎn)生成對(duì)應(yīng)的2D 關(guān)鍵點(diǎn)熱圖，并將這些熱圖按幀堆疊生成緊湊的3D 熱圖堆疊，輸入PoseC3D（Pose Convolutional 3D Network）網(wǎng)絡(luò)[15]進(jìn)行特征提取。在特征提取期間，SlowOnly 與PoseC3D 進(jìn)行特征的早期融合，進(jìn)行特征提取后，對(duì)提取到的2 種模態(tài)特征進(jìn)行晚期融合，從而完成RGB 模態(tài)與骨骼模態(tài)的特征融合，最后得到行為識(shí)別結(jié)果。

圖1 基于多模態(tài)特征融合的行為識(shí)別模型框架Fig.1 Behavior recognition model framework based on multimodal feature fusion

2 骨骼模態(tài)數(shù)據(jù)獲取

2.1 基于YOLOX 的人體目標(biāo)檢測(cè)

YOLOX 目標(biāo)檢測(cè)算法在YOLOv3 算法[16]的基礎(chǔ)上進(jìn)行了改進(jìn)，在主干網(wǎng)絡(luò)中加入Focus 結(jié)構(gòu)，解耦預(yù)測(cè)分支，取消先驗(yàn)框，動(dòng)態(tài)匹配正樣本。Focus結(jié)構(gòu)如圖2 所示，對(duì)圖像每隔一個(gè)像素點(diǎn)取一個(gè)值，得到4 個(gè)特征層，相當(dāng)于輸入圖像的通道數(shù)擴(kuò)充了4 倍，有效集中了圖像的寬高信息。解耦預(yù)測(cè)分支是指將分類與回歸分開實(shí)現(xiàn)，在預(yù)測(cè)時(shí)合并，可提高模型的收斂速度與預(yù)測(cè)精度。取消先驗(yàn)框是指將原來網(wǎng)絡(luò)中的3 組先驗(yàn)框減少為1 組，即直接預(yù)測(cè)目標(biāo)檢測(cè)框的左上角坐標(biāo)及高寬，可減少網(wǎng)絡(luò)參數(shù)量，提高網(wǎng)絡(luò)性能。動(dòng)態(tài)匹配正樣本是指根據(jù)不同目標(biāo)設(shè)定不同的正樣本數(shù)量，從全局角度進(jìn)行最優(yōu)分配，從而大大縮短訓(xùn)練時(shí)間，提高運(yùn)算速度。

圖2 Focus 結(jié)構(gòu)Fig.2 Structure of Focus

以上改進(jìn)使YOLOX 目標(biāo)檢測(cè)網(wǎng)絡(luò)的參數(shù)量大大減少，同時(shí)提高了檢測(cè)的精度與速度。本文使用訓(xùn)練好的YOLOX 網(wǎng)絡(luò)對(duì)人體目標(biāo)進(jìn)行檢測(cè)，對(duì)輸入圖像中的人員進(jìn)行定位和標(biāo)志。

2.2 基于Lite-HRNet 的人體骨骼關(guān)鍵點(diǎn)檢測(cè)

人體骨骼關(guān)鍵點(diǎn)檢測(cè)是指通過人體姿態(tài)估計(jì)算法，從輸入圖像中提取人體骨骼關(guān)鍵點(diǎn)對(duì)應(yīng)的坐標(biāo)位置?；贑OCO（Common Objects in Context）數(shù)據(jù)集[17]的人體17 個(gè)骨骼關(guān)鍵點(diǎn)及其對(duì)應(yīng)位置名稱如圖3 所示。目前人體姿態(tài)估計(jì)算法可分為自頂向下式和自底向上式2 類。自頂向下式姿態(tài)估計(jì)算法先對(duì)圖像中的人體進(jìn)行目標(biāo)檢測(cè)，找到每個(gè)人對(duì)應(yīng)的位置，再對(duì)每個(gè)人體目標(biāo)進(jìn)行姿態(tài)估計(jì)，找到對(duì)應(yīng)的骨骼關(guān)鍵點(diǎn)位置。該算法檢測(cè)準(zhǔn)確度較高，但檢測(cè)速度會(huì)受到一定影響。自底向上式姿態(tài)估計(jì)算法則是直接檢測(cè)出圖像中所有的骨骼關(guān)鍵點(diǎn)位置，然后通過聚類對(duì)屬于同一個(gè)人體目標(biāo)的骨骼關(guān)鍵點(diǎn)進(jìn)行關(guān)聯(lián)，生成每個(gè)人體目標(biāo)的骨架。由于不需要先對(duì)人體目標(biāo)進(jìn)行檢測(cè)，該算法檢測(cè)速度較快，但準(zhǔn)確度不及自頂向下式算法。

圖3 人體骨骼關(guān)鍵點(diǎn)及其對(duì)應(yīng)名稱Fig.3 Key points of the human skeleton and the corresponding names

基于骨骼模態(tài)數(shù)據(jù)的人體行為識(shí)別效果受提取到的人體關(guān)鍵點(diǎn)質(zhì)量影響較大，因此，要求姿態(tài)估計(jì)網(wǎng)絡(luò)有較高的識(shí)別精度。同時(shí)，井下不安全行為識(shí)別要求有一定的實(shí)時(shí)性，因此，對(duì)姿態(tài)估計(jì)網(wǎng)絡(luò)的識(shí)別速度也有一定要求。Lite-HRNet 是HRNet（High-Resolution Network，高分辨率網(wǎng)絡(luò)）[18]的輕量化模型，屬于自頂向下式姿態(tài)估計(jì)算法。Lite-HRNet 先將輕量化網(wǎng)絡(luò)Shufflenet[19]中的Shuffle Block 與原有HRNet相結(jié)合，使整個(gè)網(wǎng)絡(luò)輕量化；再用條件通道加權(quán)操作替換Shuffle Block 中的1×1 卷積操作，以降低計(jì)算量。以上操作使得Lite-HRNet 的計(jì)算量大大減少，加快了網(wǎng)絡(luò)檢測(cè)速度，同時(shí)由于保持了HRNet 的高分辨率特征層，使網(wǎng)絡(luò)能夠獲得足夠多的特征信息和位置信息，提高了人體骨骼關(guān)鍵點(diǎn)檢測(cè)精度，滿足了行為識(shí)別網(wǎng)絡(luò)對(duì)人體骨骼關(guān)鍵點(diǎn)質(zhì)量與識(shí)別速度的要求。

3 多模態(tài)特征融合

3.1 RGB 模態(tài)特征提取

基于SlowFast 網(wǎng)絡(luò)的慢速支流SlowOnly 網(wǎng)絡(luò)進(jìn)行RGB 模態(tài)特征提取，SlowOnly 網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示。SlowOnly 網(wǎng)絡(luò)的幀采樣速率較低，即輸入幀數(shù)較少，但分辨率較高。這樣能夠使網(wǎng)絡(luò)更好地從RGB 模態(tài)中提取出相應(yīng)的空間特征。SlowOnly 網(wǎng)絡(luò)在最后2 個(gè)ResNet Layer（殘差網(wǎng)絡(luò)層）使用了3D 卷積，而前面幾個(gè)ResNet Layer 都是2D 卷積。特征圖經(jīng)過前面多次卷積后，擁有更大的感受野，網(wǎng)絡(luò)能夠從中提取到足夠的時(shí)間特征信息。最后經(jīng)過Global Average Pooling（全局平均池化）與Fully Connected Layer（全連接層），得到基于RGB 模態(tài)的行為識(shí)別結(jié)果。

圖4 SlowOnly 網(wǎng)絡(luò)結(jié)構(gòu)Fig.4 SlowOnly network structure

3.2 骨骼模態(tài)特征提取

大部分基于骨骼模態(tài)的行為識(shí)別都采用GCN（Graph Convolutional Network，圖卷積網(wǎng)絡(luò)）及其各種改進(jìn)方法。人體的骨架圖由骨骼關(guān)鍵點(diǎn)連接形成，因此十分適合使用GCN 處理。ST-GCN 將GCN與TCN（Temporal Convolutional Network，時(shí)間卷積網(wǎng)絡(luò)）相結(jié)合，對(duì)于輸入的骨架圖序列數(shù)據(jù)，通過GCN 提取空間維度上的特征信息，通過TCN 提取時(shí)間維度上的特征信息，將2 種特征融合并進(jìn)行分類，識(shí)別出具體的行為?；贕CN 的行為識(shí)別方法存在如下缺點(diǎn)：對(duì)骨架圖序列數(shù)據(jù)中的噪聲較敏感，噪聲對(duì)識(shí)別結(jié)果的影響較大；在多模態(tài)數(shù)據(jù)融合學(xué)習(xí)中，GCN 與使用其他模態(tài)的模型之間難以進(jìn)行特征融合；對(duì)多人場(chǎng)景的行為識(shí)別支持較差。

本文采用的PoseC3D 是一種基于3D-CNN（3DConvolutional Neural Network，三維卷積神經(jīng)網(wǎng)絡(luò)）的行為識(shí)別模型。不同于GCN 的是，PoseC3D 采用由骨骼關(guān)鍵點(diǎn)數(shù)據(jù)生成的熱圖堆疊數(shù)據(jù)作為輸入。在進(jìn)行姿態(tài)估計(jì)得到人體的骨骼關(guān)鍵點(diǎn)坐標(biāo)后，以（xk,yk,ck）的形式儲(chǔ)存，其中（xk,yk）為所預(yù)測(cè)的關(guān)鍵點(diǎn)坐標(biāo)，ck為該關(guān)鍵點(diǎn)預(yù)測(cè)的置信度。以（xk,yk）為中心，ck為最大值，以高斯分布的形式生成對(duì)應(yīng)的關(guān)鍵點(diǎn)熱圖h(x,y)，其公式為

式中σ為高斯分布的標(biāo)準(zhǔn)差。

同理，也能以高斯分布的形式生成2 個(gè)關(guān)鍵點(diǎn)間骨骼的對(duì)應(yīng)熱圖，其公式為

式中：D（·）為距離計(jì)算函數(shù)，用于計(jì)算點(diǎn)（x,y）與骨骼線段s[ak,bk]之間的距離；ak，bk為骨骼兩端的關(guān)鍵點(diǎn)；為ak，bk兩點(diǎn)的置信度。

使用井下人員骨骼關(guān)鍵點(diǎn)生成的關(guān)鍵點(diǎn)熱圖與骨骼熱圖如圖5 所示。

圖5 關(guān)鍵點(diǎn)熱圖與骨骼熱圖生成結(jié)果Fig.5 Key point heat map and skeleton heat map generation results

PoseC3D 行為識(shí)別模型結(jié)構(gòu)如圖6 所示。模型需輸入尺寸為K×T×H×W的三維熱圖堆疊，其中K為骨骼關(guān)鍵點(diǎn)數(shù)量，T為參與熱圖堆疊的二維關(guān)鍵點(diǎn)熱圖數(shù)量，即視頻幀數(shù)，H與W分別為熱圖的高與寬。先經(jīng)過多個(gè)卷積操作與多個(gè)ResNet Layer，再通過全局平均池化，最后經(jīng)全連接層輸出骨骼模態(tài)下的行為分類。

圖6 PoseC3D 行為識(shí)別模型結(jié)構(gòu)Fig.6 Structure of PoseC3D behavior recognition model

3.3 特征融合

RGB 模態(tài)與骨骼模態(tài)的特征融合模型結(jié)構(gòu)如圖7 所示，2 條支流網(wǎng)絡(luò)分別是提取RGB 模態(tài)特征的SlowOnly 網(wǎng)絡(luò)與提取骨骼模態(tài)特征的PoseC3D網(wǎng)絡(luò)。RGB 模態(tài)特征提取支流能提供更多的空間信息，骨骼模態(tài)特征提取支流的輸入擁有更多的通道數(shù)，即輸入幀率更高，這能提供更多的運(yùn)動(dòng)信息。在訓(xùn)練特征融合模型之前，對(duì)2 條支流網(wǎng)絡(luò)分別進(jìn)行預(yù)訓(xùn)練，并用訓(xùn)練得到的權(quán)重來初始化特征融合模型，使特征融合模型收斂速度提高。多模態(tài)特征融合采用早期融合與晚期融合2 種方式。早期融合是在模型的前期特征提取階段，在ResNet Layer2 與ResNet Layer3 之后，通過雙向的橫向連接進(jìn)行2 種模態(tài)間的特征融合。對(duì)比單向的橫向連接，雙向的連接能使整個(gè)融合模型更好地學(xué)習(xí)到不同模態(tài)的時(shí)空特征，使2 個(gè)網(wǎng)絡(luò)進(jìn)行信息互補(bǔ)。晚期融合則是在最后對(duì)2 個(gè)網(wǎng)絡(luò)的預(yù)測(cè)結(jié)果進(jìn)行融合，輸出行為分類結(jié)果。

圖7 多模態(tài)特征融合模型結(jié)構(gòu)Fig.7 Structure of multimodal feature fusion model

4 實(shí)驗(yàn)驗(yàn)證與結(jié)果分析

4.1 實(shí)驗(yàn)數(shù)據(jù)集

分別在公開行為識(shí)別數(shù)據(jù)集NTU60 RGB+D[20]與自制井下不安全行為數(shù)據(jù)集上進(jìn)行測(cè)試驗(yàn)證。NTU60 RGB+D 數(shù)據(jù)集是由新加坡南洋理工大學(xué)發(fā)表的公開行為識(shí)別數(shù)據(jù)集，由40 名演員參與拍攝，包含60 類行為，共56 880 個(gè)行為樣本視頻。該數(shù)據(jù)集包含2 種標(biāo)準(zhǔn)，X-Sub 與X-View。X-Sub 表示訓(xùn)練集與測(cè)試集按不同演員分配，其中20 名演員的行為視頻作為訓(xùn)練集，剩余20 名演員的視頻作為測(cè)試集。X-View 則是按不同的拍攝角度來劃分訓(xùn)練集與測(cè)試集。

自制井下不安全行為數(shù)據(jù)集采集自礦井下實(shí)際拍攝視頻，從固定機(jī)位對(duì)井下人員的10 類不安全行為進(jìn)行采集，不安全行為類別及含義見表1。共采集了600 段視頻，每類不安全行為有60 段視頻，每段視頻持續(xù)8 s 左右，幀速率統(tǒng)一為30 幀/s，其中75%作為訓(xùn)練集，25%作為測(cè)試集。

表1 不安全行為類別及含義Table 1 Categories and meanings of unsafe behaviors

4.2 實(shí)驗(yàn)方案

實(shí)驗(yàn)平臺(tái)基于Ubuntu 18.04 操作系統(tǒng)，編程語言為Python3.8，深度學(xué)習(xí)框架Pytorch 版本為1.10.0，計(jì)算平臺(tái)CUDA 版本為11.3，處理器為Intel Xeon Gold 6271，顯卡為Nvidia Tesla P100-16G，內(nèi)存為48 GiB。

分別在公開行為識(shí)別數(shù)據(jù)集NTU60 RGB+D 與自制井下不安全行為數(shù)據(jù)集上對(duì)基于多模態(tài)特征融合的行為識(shí)別模型進(jìn)行驗(yàn)證，并與基于單一骨骼模態(tài) 的ST-GCN、2S-AGCN（Two-Stream Adaptive Graph Convolutional Network，雙流自適應(yīng)圖卷積網(wǎng)絡(luò)）[21]、PoseC3D 行為識(shí)別模型進(jìn)行對(duì)比。訓(xùn)練開始前，通過預(yù)訓(xùn)練好的YOLOX 與Lite-HRNet 模型從數(shù)據(jù)集視頻中提取人體骨骼點(diǎn)數(shù)據(jù)，作為識(shí)別模型的輸入。行為識(shí)別模型訓(xùn)練參數(shù)設(shè)置如下：算法優(yōu)化器采用SGD（Stochastic Gradient Descent，隨機(jī)梯度下降法），初始學(xué)習(xí)率為0.1，采用余弦退火算法調(diào)整學(xué)習(xí)率，權(quán)值衰減系數(shù)為0.000 1，動(dòng)量值為0.9，批處理大小為8，訓(xùn)練輪數(shù)為160。按照設(shè)置好的參數(shù)訓(xùn)練模型，并以行為識(shí)別模型在測(cè)試集上的最高準(zhǔn)確率作為評(píng)價(jià)指標(biāo)。

4.3 NTU60 RGB+D 公開數(shù)據(jù)集實(shí)驗(yàn)結(jié)果分析

在X-Sub 標(biāo)準(zhǔn)下的NTU60 RGB+D 數(shù)據(jù)集上實(shí)驗(yàn)驗(yàn)證，結(jié)果見表2?？煽闯觯诨趩我还趋滥B(tài)的行為識(shí)別模型中，PoseC3D 的識(shí)別準(zhǔn)確率高于GCN類方法，達(dá)到93.1%。這是因?yàn)镚CN 類方法更易受骨骼模態(tài)數(shù)據(jù)中的噪聲影響。基于多模態(tài)特征融合的行為識(shí)別模型的識(shí)別準(zhǔn)確率比基于單一骨骼模態(tài)的行為識(shí)別模型高，達(dá)到95.4%。這是因?yàn)榛趩我还趋滥B(tài)的行為識(shí)別模型注重提取人的運(yùn)動(dòng)特征，忽視了人與場(chǎng)景的外觀特征，而基于多模態(tài)特征融合的行為識(shí)別模型能同時(shí)提取人的運(yùn)動(dòng)特征與外觀特征。

表2 不同行為識(shí)別模型對(duì)比實(shí)驗(yàn)結(jié)果Table 2 Comparison experimental results of different behavior recognition models

在公共數(shù)據(jù)集上的實(shí)驗(yàn)基本驗(yàn)證了本文融合模型支流網(wǎng)絡(luò)PoseC3D 的優(yōu)秀識(shí)別能力，對(duì)比基于單一骨骼模態(tài)行為識(shí)別模型，基于多模態(tài)特征融合的行為識(shí)別模型擁有更好的特征提取能力與更高的識(shí)別準(zhǔn)確率。

4.4 自制井下不安全行為數(shù)據(jù)集實(shí)驗(yàn)結(jié)果分析

在自制井下不安全行為數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)驗(yàn)證，不同行為識(shí)別模型在測(cè)試集上的識(shí)別準(zhǔn)確率隨訓(xùn)練輪數(shù)的變化如圖8 所示?？煽闯觯S著訓(xùn)練輪數(shù)的增加，各模型準(zhǔn)確率均增加?；诙嗄B(tài)特征融合的行為識(shí)別模型在第140 輪時(shí)收斂至93.3%，基于單一骨骼模態(tài)的ST-GCN 模型在第150 輪時(shí)收斂至77.3%，2S-AGCN 模型在第140 輪收斂至82.6%，PoseC3D 模型在第160 輪收斂至90.6%。上述結(jié)果表明，在井下不安全行為識(shí)別背景下，基于多模態(tài)特征融合的行為識(shí)別模型仍有較高的識(shí)別準(zhǔn)確率，高于單一骨骼模態(tài)的行為識(shí)別模型，更適用于井下復(fù)雜環(huán)境下的人體行為識(shí)別。

圖8 不同行為識(shí)別模型準(zhǔn)確率Fig.8 Accuracy of different behavior recognition models

基于多模態(tài)特征融合的行為識(shí)別模型對(duì)井下不安全行為的部分識(shí)別結(jié)果如圖9 所示?？煽闯瞿Ｐ蛯?duì)較為相似的扒車與翻越圍欄行為做出了準(zhǔn)確的區(qū)分與識(shí)別，在多人識(shí)別場(chǎng)景下，對(duì)多人脫安全帽行為也能夠準(zhǔn)確識(shí)別。

圖9 基于多模態(tài)特征融合的行為識(shí)別結(jié)果Fig.9 Behavior recognition results based on multimodal feature fusion

5 結(jié)論

1）針對(duì)井下復(fù)雜環(huán)境下人員不安全行為識(shí)別的問題，采用多模態(tài)特征融合的方法構(gòu)建行為識(shí)別模型。通過SlowOnly 網(wǎng)絡(luò)提取RGB 模態(tài)數(shù)據(jù)特征；采用YOLOX 與Lite-HRNet 來獲取骨骼模態(tài)數(shù)據(jù)，并用PoseC3D 網(wǎng)絡(luò)提取骨骼模態(tài)數(shù)據(jù)特征；對(duì)提取到的RGB 模態(tài)特征與骨骼模態(tài)特征進(jìn)行早期融合與晚期融合，得到井下人員不安全行為識(shí)別結(jié)果。

2）在X-Sub 標(biāo)準(zhǔn)下的NTU60 RGB+D 公開數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明：在基于單一骨骼模態(tài)的行為識(shí)別模型中，PoseC3D 的識(shí)別準(zhǔn)確率比GCN 類方法高，達(dá)到93.1%；對(duì)比基于單一骨骼模態(tài)的行為識(shí)別模型，基于多模態(tài)特征融合的行為識(shí)別模型擁有更高的識(shí)別準(zhǔn)確率，達(dá)到95.4%。

3）在自制井下不安全行為數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明，在井下復(fù)雜環(huán)境下，基于多模態(tài)特征融合的行為識(shí)別模型識(shí)別準(zhǔn)確率仍然最高，達(dá)到93.3%，對(duì)相似不安全行為與多人不安全行為均能準(zhǔn)確識(shí)別。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡