王宇,于春華,陳曉青,宋家威
(1.遼寧科技大學(xué) 礦業(yè)工程學(xué)院,遼寧 鞍山 114051;2.凌鋼股份北票保國鐵礦有限公司,遼寧 朝陽 122102)
由于井下作業(yè)環(huán)境復(fù)雜多變,很容易存在安全隱患,從而導(dǎo)致礦井安全事故[1]。調(diào)查結(jié)果顯示,礦工的不安全行為是導(dǎo)致礦井事故發(fā)生的主要原因,我國重大礦井事故中,超過90% 是由人為失誤引起的[2]。因此,對(duì)井下人員的不安全行為進(jìn)行識(shí)別分析,對(duì)保證礦井安全生產(chǎn)具有重要意義。隨著人工智能技術(shù)的發(fā)展與智能礦山的建設(shè),人工智能技術(shù)被運(yùn)用于礦山的生產(chǎn)和監(jiān)管中[3]。采用人工智能技術(shù)對(duì)井下人員的行為進(jìn)行實(shí)時(shí)識(shí)別,能減輕人工負(fù)擔(dān),提高識(shí)別效率,從而減少礦井事故的發(fā)生。
作為計(jì)算機(jī)視覺中的熱門研究方向,人體行為識(shí)別可分為基于行為識(shí)別的方法[4]、基于時(shí)序動(dòng)作檢測(cè)的方法[5]、基于時(shí)空動(dòng)作檢測(cè)的方法[6]、基于骨骼點(diǎn)動(dòng)作識(shí)別的方法[7]。隨著礦山智能化、智慧化的推進(jìn),人體行為識(shí)別技術(shù)被應(yīng)用到井下人員行為識(shí)別中。黨偉超等[8]通過改進(jìn)傳統(tǒng)的雙流卷積神經(jīng)網(wǎng)絡(luò),對(duì)井下配電室巡檢行為進(jìn)行識(shí)別檢測(cè),具有較高的準(zhǔn)確率,但在多人巡檢的場(chǎng)景下會(huì)出現(xiàn)誤識(shí)別等問題。劉浩等[9]采用OpenPose 神經(jīng)網(wǎng)絡(luò)對(duì)人體骨骼關(guān)鍵點(diǎn)進(jìn)行提取,并將提取到的信息輸入ST-GCN(Spatial Temporal Graph Convolutional Network,時(shí)空?qǐng)D卷積網(wǎng)絡(luò))得到識(shí)別結(jié)果,實(shí)現(xiàn)了對(duì)井下多種不安全行為的識(shí)別。黃瀚等[10]提出了DAGCN(Dynamic Attention and Multi-layer Perception Graph Convolutional Network,動(dòng)態(tài)注意力與多層感知圖卷積網(wǎng)絡(luò))并用于煤礦人員行為識(shí)別,在提高模型泛化力的同時(shí),也提高了識(shí)別精度。
基于RGB 模態(tài)數(shù)據(jù),能獲得豐富的人與物體外觀特征信息,但井下開采過程中會(huì)產(chǎn)生大量粉塵,加上井下環(huán)境復(fù)雜、光照不足,使得采集到的RGB 視頻圖像背景噪聲增多[11]。這些噪聲會(huì)影響RGB 模態(tài)特征提取與行為識(shí)別。基于骨骼模態(tài)的行為識(shí)別方法能降低無關(guān)背景噪聲的影響,但缺乏人與物體的外觀特征信息。因此,本文采用多模態(tài)特征融合方法,將從RGB 模態(tài)與骨骼模態(tài)中提取的特征進(jìn)行融合,對(duì)視頻中人員的行為進(jìn)行識(shí)別,提高井下人員不安全行為識(shí)別準(zhǔn)確率。
基于多模態(tài)特征融合的行為識(shí)別模型框架如圖1 所示。該模型由2 層網(wǎng)絡(luò)組成,分別處理RGB 模態(tài)與骨骼模態(tài)的數(shù)據(jù)。對(duì)于RGB 模態(tài)的輸入視頻數(shù)據(jù),通過SlowOnly 網(wǎng)絡(luò)[12]進(jìn)行特征提取。對(duì)于骨骼模態(tài)的數(shù)據(jù),先通過YOLOX 算法[13]對(duì)輸入的RGB 視頻數(shù)據(jù)進(jìn)行人體目標(biāo)檢測(cè),再使用Lite-HRNet(Lightweight High-Resolution Network,輕量級(jí)高分辨率網(wǎng)絡(luò))[14]對(duì)目標(biāo)檢測(cè)結(jié)果進(jìn)行人體姿態(tài)估計(jì),獲取人體2D 骨骼關(guān)鍵點(diǎn)數(shù)據(jù),從而得到骨骼模態(tài)數(shù)據(jù);以2D 人體骨骼關(guān)鍵點(diǎn)生成對(duì)應(yīng)的2D 關(guān)鍵點(diǎn)熱圖,并將這些熱圖按幀堆疊生成緊湊的3D 熱圖堆疊,輸入PoseC3D(Pose Convolutional 3D Network)網(wǎng)絡(luò)[15]進(jìn)行特征提取。在特征提取期間,SlowOnly 與PoseC3D 進(jìn)行特征的早期融合,進(jìn)行特征提取后,對(duì)提取到的2 種模態(tài)特征進(jìn)行晚期融合,從而完成RGB 模態(tài)與骨骼模態(tài)的特征融合,最后得到行為識(shí)別結(jié)果。
圖1 基于多模態(tài)特征融合的行為識(shí)別模型框架Fig.1 Behavior recognition model framework based on multimodal feature fusion
YOLOX 目標(biāo)檢測(cè)算法在YOLOv3 算法[16]的基礎(chǔ)上進(jìn)行了改進(jìn),在主干網(wǎng)絡(luò)中加入Focus 結(jié)構(gòu),解耦預(yù)測(cè)分支,取消先驗(yàn)框,動(dòng)態(tài)匹配正樣本。Focus結(jié)構(gòu)如圖2 所示,對(duì)圖像每隔一個(gè)像素點(diǎn)取一個(gè)值,得到4 個(gè)特征層,相當(dāng)于輸入圖像的通道數(shù)擴(kuò)充了4 倍,有效集中了圖像的寬高信息。解耦預(yù)測(cè)分支是指將分類與回歸分開實(shí)現(xiàn),在預(yù)測(cè)時(shí)合并,可提高模型的收斂速度與預(yù)測(cè)精度。取消先驗(yàn)框是指將原來網(wǎng)絡(luò)中的3 組先驗(yàn)框減少為1 組,即直接預(yù)測(cè)目標(biāo)檢測(cè)框的左上角坐標(biāo)及高寬,可減少網(wǎng)絡(luò)參數(shù)量,提高網(wǎng)絡(luò)性能。動(dòng)態(tài)匹配正樣本是指根據(jù)不同目標(biāo)設(shè)定不同的正樣本數(shù)量,從全局角度進(jìn)行最優(yōu)分配,從而大大縮短訓(xùn)練時(shí)間,提高運(yùn)算速度。
圖2 Focus 結(jié)構(gòu)Fig.2 Structure of Focus
以上改進(jìn)使YOLOX 目標(biāo)檢測(cè)網(wǎng)絡(luò)的參數(shù)量大大減少,同時(shí)提高了檢測(cè)的精度與速度。本文使用訓(xùn)練好的YOLOX 網(wǎng)絡(luò)對(duì)人體目標(biāo)進(jìn)行檢測(cè),對(duì)輸入圖像中的人員進(jìn)行定位和標(biāo)志。
人體骨骼關(guān)鍵點(diǎn)檢測(cè)是指通過人體姿態(tài)估計(jì)算法,從輸入圖像中提取人體骨骼關(guān)鍵點(diǎn)對(duì)應(yīng)的坐標(biāo)位置?;贑OCO(Common Objects in Context)數(shù)據(jù)集[17]的人體17 個(gè)骨骼關(guān)鍵點(diǎn)及其對(duì)應(yīng)位置名稱如圖3 所示。目前人體姿態(tài)估計(jì)算法可分為自頂向下式和自底向上式2 類。自頂向下式姿態(tài)估計(jì)算法先對(duì)圖像中的人體進(jìn)行目標(biāo)檢測(cè),找到每個(gè)人對(duì)應(yīng)的位置,再對(duì)每個(gè)人體目標(biāo)進(jìn)行姿態(tài)估計(jì),找到對(duì)應(yīng)的骨骼關(guān)鍵點(diǎn)位置。該算法檢測(cè)準(zhǔn)確度較高,但檢測(cè)速度會(huì)受到一定影響。自底向上式姿態(tài)估計(jì)算法則是直接檢測(cè)出圖像中所有的骨骼關(guān)鍵點(diǎn)位置,然后通過聚類對(duì)屬于同一個(gè)人體目標(biāo)的骨骼關(guān)鍵點(diǎn)進(jìn)行關(guān)聯(lián),生成每個(gè)人體目標(biāo)的骨架。由于不需要先對(duì)人體目標(biāo)進(jìn)行檢測(cè),該算法檢測(cè)速度較快,但準(zhǔn)確度不及自頂向下式算法。
圖3 人體骨骼關(guān)鍵點(diǎn)及其對(duì)應(yīng)名稱Fig.3 Key points of the human skeleton and the corresponding names
基于骨骼模態(tài)數(shù)據(jù)的人體行為識(shí)別效果受提取到的人體關(guān)鍵點(diǎn)質(zhì)量影響較大,因此,要求姿態(tài)估計(jì)網(wǎng)絡(luò)有較高的識(shí)別精度。同時(shí),井下不安全行為識(shí)別要求有一定的實(shí)時(shí)性,因此,對(duì)姿態(tài)估計(jì)網(wǎng)絡(luò)的識(shí)別速度也有一定要求。Lite-HRNet 是HRNet(High-Resolution Network,高分辨率網(wǎng)絡(luò))[18]的輕量化模型,屬于自頂向下式姿態(tài)估計(jì)算法。Lite-HRNet 先將輕量化網(wǎng)絡(luò)Shufflenet[19]中的Shuffle Block 與原有HRNet相結(jié)合,使整個(gè)網(wǎng)絡(luò)輕量化;再用條件通道加權(quán)操作替換Shuffle Block 中的1×1 卷積操作,以降低計(jì)算量。以上操作使得Lite-HRNet 的計(jì)算量大大減少,加快了網(wǎng)絡(luò)檢測(cè)速度,同時(shí)由于保持了HRNet 的高分辨率特征層,使網(wǎng)絡(luò)能夠獲得足夠多的特征信息和位置信息,提高了人體骨骼關(guān)鍵點(diǎn)檢測(cè)精度,滿足了行為識(shí)別網(wǎng)絡(luò)對(duì)人體骨骼關(guān)鍵點(diǎn)質(zhì)量與識(shí)別速度的要求。
基于SlowFast 網(wǎng)絡(luò)的慢速支流SlowOnly 網(wǎng)絡(luò)進(jìn)行RGB 模態(tài)特征提取,SlowOnly 網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示。SlowOnly 網(wǎng)絡(luò)的幀采樣速率較低,即輸入幀數(shù)較少,但分辨率較高。這樣能夠使網(wǎng)絡(luò)更好地從RGB 模態(tài)中提取出相應(yīng)的空間特征。SlowOnly 網(wǎng)絡(luò)在最后2 個(gè)ResNet Layer(殘差網(wǎng)絡(luò)層)使用了3D 卷積,而前面幾個(gè)ResNet Layer 都是2D 卷積。特征圖經(jīng)過前面多次卷積后,擁有更大的感受野,網(wǎng)絡(luò)能夠從中提取到足夠的時(shí)間特征信息。最后經(jīng)過Global Average Pooling(全局平均池化)與Fully Connected Layer(全連接層),得到基于RGB 模態(tài)的行為識(shí)別結(jié)果。
圖4 SlowOnly 網(wǎng)絡(luò)結(jié)構(gòu)Fig.4 SlowOnly network structure
大部分基于骨骼模態(tài)的行為識(shí)別都采用GCN(Graph Convolutional Network,圖卷積網(wǎng)絡(luò))及其各種改進(jìn)方法。人體的骨架圖由骨骼關(guān)鍵點(diǎn)連接形成,因此十分適合使用GCN 處理。ST-GCN 將GCN與TCN(Temporal Convolutional Network,時(shí)間卷積網(wǎng)絡(luò))相結(jié)合,對(duì)于輸入的骨架圖序列數(shù)據(jù),通過GCN 提取空間維度上的特征信息,通過TCN 提取時(shí)間維度上的特征信息,將2 種特征融合并進(jìn)行分類,識(shí)別出具體的行為?;贕CN 的行為識(shí)別方法存在如下缺點(diǎn):對(duì)骨架圖序列數(shù)據(jù)中的噪聲較敏感,噪聲對(duì)識(shí)別結(jié)果的影響較大;在多模態(tài)數(shù)據(jù)融合學(xué)習(xí)中,GCN 與使用其他模態(tài)的模型之間難以進(jìn)行特征融合;對(duì)多人場(chǎng)景的行為識(shí)別支持較差。
本文采用的PoseC3D 是一種基于3D-CNN(3DConvolutional Neural Network,三維卷積神經(jīng)網(wǎng)絡(luò))的行為識(shí)別模型。不同于GCN 的是,PoseC3D 采用由骨骼關(guān)鍵點(diǎn)數(shù)據(jù)生成的熱圖堆疊數(shù)據(jù)作為輸入。在進(jìn)行姿態(tài)估計(jì)得到人體的骨骼關(guān)鍵點(diǎn)坐標(biāo)后,以(xk,yk,ck)的形式儲(chǔ)存,其中(xk,yk)為所預(yù)測(cè)的關(guān)鍵點(diǎn)坐標(biāo),ck為該關(guān)鍵點(diǎn)預(yù)測(cè)的置信度。以(xk,yk)為中心,ck為最大值,以高斯分布的形式生成對(duì)應(yīng)的關(guān)鍵點(diǎn)熱圖h(x,y),其公式為
式中σ為高斯分布的標(biāo)準(zhǔn)差。
同理,也能以高斯分布的形式生成2 個(gè)關(guān)鍵點(diǎn)間骨骼的對(duì)應(yīng)熱圖,其公式為
式中:D(·)為距離計(jì)算函數(shù),用于計(jì)算點(diǎn)(x,y)與骨骼線段s[ak,bk]之間的距離;ak,bk為骨骼兩端的關(guān)鍵點(diǎn);為ak,bk兩點(diǎn)的置信度。
使用井下人員骨骼關(guān)鍵點(diǎn)生成的關(guān)鍵點(diǎn)熱圖與骨骼熱圖如圖5 所示。
圖5 關(guān)鍵點(diǎn)熱圖與骨骼熱圖生成結(jié)果Fig.5 Key point heat map and skeleton heat map generation results
PoseC3D 行為識(shí)別模型結(jié)構(gòu)如圖6 所示。模型需輸入尺寸為K×T×H×W的三維熱圖堆疊,其中K為骨骼關(guān)鍵點(diǎn)數(shù)量,T為參與熱圖堆疊的二維關(guān)鍵點(diǎn)熱圖數(shù)量,即視頻幀數(shù),H與W分別為熱圖的高與寬。先經(jīng)過多個(gè)卷積操作與多個(gè)ResNet Layer,再通過全局平均池化,最后經(jīng)全連接層輸出骨骼模態(tài)下的行為分類。
圖6 PoseC3D 行為識(shí)別模型結(jié)構(gòu)Fig.6 Structure of PoseC3D behavior recognition model
RGB 模態(tài)與骨骼模態(tài)的特征融合模型結(jié)構(gòu)如圖7 所示,2 條支流網(wǎng)絡(luò)分別是提取RGB 模態(tài)特征的SlowOnly 網(wǎng)絡(luò)與提取骨骼模態(tài)特征的PoseC3D網(wǎng)絡(luò)。RGB 模態(tài)特征提取支流能提供更多的空間信息,骨骼模態(tài)特征提取支流的輸入擁有更多的通道數(shù),即輸入幀率更高,這能提供更多的運(yùn)動(dòng)信息。在訓(xùn)練特征融合模型之前,對(duì)2 條支流網(wǎng)絡(luò)分別進(jìn)行預(yù)訓(xùn)練,并用訓(xùn)練得到的權(quán)重來初始化特征融合模型,使特征融合模型收斂速度提高。多模態(tài)特征融合采用早期融合與晚期融合2 種方式。早期融合是在模型的前期特征提取階段,在ResNet Layer2 與ResNet Layer3 之后,通過雙向的橫向連接進(jìn)行2 種模態(tài)間的特征融合。對(duì)比單向的橫向連接,雙向的連接能使整個(gè)融合模型更好地學(xué)習(xí)到不同模態(tài)的時(shí)空特征,使2 個(gè)網(wǎng)絡(luò)進(jìn)行信息互補(bǔ)。晚期融合則是在最后對(duì)2 個(gè)網(wǎng)絡(luò)的預(yù)測(cè)結(jié)果進(jìn)行融合,輸出行為分類結(jié)果。
圖7 多模態(tài)特征融合模型結(jié)構(gòu)Fig.7 Structure of multimodal feature fusion model
分別在公開行為識(shí)別數(shù)據(jù)集NTU60 RGB+D[20]與自制井下不安全行為數(shù)據(jù)集上進(jìn)行測(cè)試驗(yàn)證。NTU60 RGB+D 數(shù)據(jù)集是由新加坡南洋理工大學(xué)發(fā)表的公開行為識(shí)別數(shù)據(jù)集,由40 名演員參與拍攝,包含60 類行為,共56 880 個(gè)行為樣本視頻。該數(shù)據(jù)集包含2 種標(biāo)準(zhǔn),X-Sub 與X-View。X-Sub 表示訓(xùn)練集與測(cè)試集按不同演員分配,其中20 名演員的行為視頻作為訓(xùn)練集,剩余20 名演員的視頻作為測(cè)試集。X-View 則是按不同的拍攝角度來劃分訓(xùn)練集與測(cè)試集。
自制井下不安全行為數(shù)據(jù)集采集自礦井下實(shí)際拍攝視頻,從固定機(jī)位對(duì)井下人員的10 類不安全行為進(jìn)行采集,不安全行為類別及含義見表1。共采集了600 段視頻,每類不安全行為有60 段視頻,每段視頻持續(xù)8 s 左右,幀速率統(tǒng)一為30 幀/s,其中75%作為訓(xùn)練集,25%作為測(cè)試集。
表1 不安全行為類別及含義Table 1 Categories and meanings of unsafe behaviors
實(shí)驗(yàn)平臺(tái)基于Ubuntu 18.04 操作系統(tǒng),編程語言為Python3.8,深度學(xué)習(xí)框架Pytorch 版本為1.10.0,計(jì)算平臺(tái)CUDA 版本為11.3,處理器為Intel Xeon Gold 6271,顯卡為Nvidia Tesla P100-16G,內(nèi)存為48 GiB。
分別在公開行為識(shí)別數(shù)據(jù)集NTU60 RGB+D 與自制井下不安全行為數(shù)據(jù)集上對(duì)基于多模態(tài)特征融合的行為識(shí)別模型進(jìn)行驗(yàn)證,并與基于單一骨骼模態(tài) 的ST-GCN、2S-AGCN(Two-Stream Adaptive Graph Convolutional Network,雙流自適應(yīng)圖卷積網(wǎng)絡(luò))[21]、PoseC3D 行為識(shí)別模型進(jìn)行對(duì)比。訓(xùn)練開始前,通過預(yù)訓(xùn)練好的YOLOX 與Lite-HRNet 模型從數(shù)據(jù)集視頻中提取人體骨骼點(diǎn)數(shù)據(jù),作為識(shí)別模型的輸入。行為識(shí)別模型訓(xùn)練參數(shù)設(shè)置如下:算法優(yōu)化器采用SGD(Stochastic Gradient Descent,隨機(jī)梯度下降法),初始學(xué)習(xí)率為0.1,采用余弦退火算法調(diào)整學(xué)習(xí)率,權(quán)值衰減系數(shù)為0.000 1,動(dòng)量值為0.9,批處理大小為8,訓(xùn)練輪數(shù)為160。按照設(shè)置好的參數(shù)訓(xùn)練模型,并以行為識(shí)別模型在測(cè)試集上的最高準(zhǔn)確率作為評(píng)價(jià)指標(biāo)。
在X-Sub 標(biāo)準(zhǔn)下的NTU60 RGB+D 數(shù)據(jù)集上實(shí)驗(yàn)驗(yàn)證,結(jié)果見表2??煽闯觯诨趩我还趋滥B(tài)的行為識(shí)別模型中,PoseC3D 的識(shí)別準(zhǔn)確率高于GCN類方法,達(dá)到93.1%。這是因?yàn)镚CN 類方法更易受骨骼模態(tài)數(shù)據(jù)中的噪聲影響。基于多模態(tài)特征融合的行為識(shí)別模型的識(shí)別準(zhǔn)確率比基于單一骨骼模態(tài)的行為識(shí)別模型高,達(dá)到95.4%。這是因?yàn)榛趩我还趋滥B(tài)的行為識(shí)別模型注重提取人的運(yùn)動(dòng)特征,忽視了人與場(chǎng)景的外觀特征,而基于多模態(tài)特征融合的行為識(shí)別模型能同時(shí)提取人的運(yùn)動(dòng)特征與外觀特征。
表2 不同行為識(shí)別模型對(duì)比實(shí)驗(yàn)結(jié)果Table 2 Comparison experimental results of different behavior recognition models
在公共數(shù)據(jù)集上的實(shí)驗(yàn)基本驗(yàn)證了本文融合模型支流網(wǎng)絡(luò)PoseC3D 的優(yōu)秀識(shí)別能力,對(duì)比基于單一骨骼模態(tài)行為識(shí)別模型,基于多模態(tài)特征融合的行為識(shí)別模型擁有更好的特征提取能力與更高的識(shí)別準(zhǔn)確率。
在自制井下不安全行為數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)驗(yàn)證,不同行為識(shí)別模型在測(cè)試集上的識(shí)別準(zhǔn)確率隨訓(xùn)練輪數(shù)的變化如圖8 所示??煽闯觯S著訓(xùn)練輪數(shù)的增加,各模型準(zhǔn)確率均增加?;诙嗄B(tài)特征融合的行為識(shí)別模型在第140 輪時(shí)收斂至93.3%,基于單一骨骼模態(tài)的ST-GCN 模型在第150 輪時(shí)收斂至77.3%,2S-AGCN 模型在第140 輪收斂至82.6%,PoseC3D 模型在第160 輪收斂至90.6%。上述結(jié)果表明,在井下不安全行為識(shí)別背景下,基于多模態(tài)特征融合的行為識(shí)別模型仍有較高的識(shí)別準(zhǔn)確率,高于單一骨骼模態(tài)的行為識(shí)別模型,更適用于井下復(fù)雜環(huán)境下的人體行為識(shí)別。
圖8 不同行為識(shí)別模型準(zhǔn)確率Fig.8 Accuracy of different behavior recognition models
基于多模態(tài)特征融合的行為識(shí)別模型對(duì)井下不安全行為的部分識(shí)別結(jié)果如圖9 所示??煽闯瞿P蛯?duì)較為相似的扒車與翻越圍欄行為做出了準(zhǔn)確的區(qū)分與識(shí)別,在多人識(shí)別場(chǎng)景下,對(duì)多人脫安全帽行為也能夠準(zhǔn)確識(shí)別。
圖9 基于多模態(tài)特征融合的行為識(shí)別結(jié)果Fig.9 Behavior recognition results based on multimodal feature fusion
1)針對(duì)井下復(fù)雜環(huán)境下人員不安全行為識(shí)別的問題,采用多模態(tài)特征融合的方法構(gòu)建行為識(shí)別模型。通過SlowOnly 網(wǎng)絡(luò)提取RGB 模態(tài)數(shù)據(jù)特征;采用YOLOX 與Lite-HRNet 來獲取骨骼模態(tài)數(shù)據(jù),并用PoseC3D 網(wǎng)絡(luò)提取骨骼模態(tài)數(shù)據(jù)特征;對(duì)提取到的RGB 模態(tài)特征與骨骼模態(tài)特征進(jìn)行早期融合與晚期融合,得到井下人員不安全行為識(shí)別結(jié)果。
2)在X-Sub 標(biāo)準(zhǔn)下的NTU60 RGB+D 公開數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明:在基于單一骨骼模態(tài)的行為識(shí)別模型中,PoseC3D 的識(shí)別準(zhǔn)確率比GCN 類方法高,達(dá)到93.1%;對(duì)比基于單一骨骼模態(tài)的行為識(shí)別模型,基于多模態(tài)特征融合的行為識(shí)別模型擁有更高的識(shí)別準(zhǔn)確率,達(dá)到95.4%。
3)在自制井下不安全行為數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,在井下復(fù)雜環(huán)境下,基于多模態(tài)特征融合的行為識(shí)別模型識(shí)別準(zhǔn)確率仍然最高,達(dá)到93.3%,對(duì)相似不安全行為與多人不安全行為均能準(zhǔn)確識(shí)別。