饒?zhí)鞓s,潘濤,徐會(huì)軍
(國能信息技術(shù)有限公司,北京 100011)
煤礦生產(chǎn)是勞動(dòng)密集型產(chǎn)業(yè),且礦井地質(zhì)條件復(fù)雜,生產(chǎn)環(huán)境惡劣,工作人員的不安全、不規(guī)范行為容易引發(fā)安全生產(chǎn)事故。據(jù)統(tǒng)計(jì),85%的安全事故是由生產(chǎn)人員的不安全行為引發(fā)的[1]。通過視頻監(jiān)控實(shí)時(shí)掌握礦井生產(chǎn)重點(diǎn)區(qū)域的人員行為,并對不安全行為進(jìn)行實(shí)時(shí)報(bào)警,是提升煤礦生產(chǎn)安全水平的重要手段[2]。
行為識(shí)別是計(jì)算機(jī)視覺領(lǐng)域的研究熱點(diǎn)。目前主流的行為識(shí)別方法大致分為基于圖像特征的行為識(shí)別方法和基于人體關(guān)鍵點(diǎn)特征的行為識(shí)別方法2 類。其中基于圖像特征的行為識(shí)別方法應(yīng)用最廣泛。文獻(xiàn)[3]首次將深度學(xué)習(xí)網(wǎng)絡(luò)用于視頻行為識(shí)別,提出了經(jīng)典的雙流模型,其中一流用于提取視頻中關(guān)鍵幀的圖像特征,另一流用于提取視頻中每一幀變化帶來的光流特征,通過融合圖像特征和光流特征進(jìn)行視頻行為識(shí)別。文獻(xiàn)[4-5]提出了TSN(Temporal Segment Networks,時(shí)間切片網(wǎng)絡(luò))和TSM(Temporal Shift Module,時(shí)間轉(zhuǎn)換模塊)模型,其基于雙流模型結(jié)構(gòu),通過改進(jìn)卷積神經(jīng)網(wǎng)絡(luò)性能來提升視頻行為識(shí)別能力。文獻(xiàn)[6]提出了C3D(Convolutional 3D,三維卷積)模型,將圖像特征和光流特征提取整合到1 個(gè)網(wǎng)絡(luò)結(jié)構(gòu)中進(jìn)行。文獻(xiàn)[7]提出了SlowFast 模型,將雙流模型與C3D 模型結(jié)合來感知瞬時(shí)行為與長期行為,是目前應(yīng)用最廣泛的視頻行為識(shí)別模型。
在煤礦井下,基于圖像特征的行為識(shí)別方法得到一定應(yīng)用[8-9],但仍面臨以下挑戰(zhàn)[10]:①煤礦井下環(huán)境復(fù)雜,存在粉塵、水霧干擾,且光照度遠(yuǎn)低于地面環(huán)境,極大地影響了監(jiān)控視頻質(zhì)量。② 井下監(jiān)控區(qū)域一般存在較多的設(shè)備和管線等復(fù)雜背景物體,增加了有效視覺信息提取難度。③井下人員穿著的工作服、安全帽等對視覺信息提取產(chǎn)生影響??紤]上述挑戰(zhàn),基于人體關(guān)鍵點(diǎn)特征的行為識(shí)別方法成為煤礦井下行為識(shí)別的有效途徑。該方法從圖像中提取人體關(guān)鍵點(diǎn)進(jìn)行連接,構(gòu)建人體骨架圖,去除無關(guān)圖像特征的干擾后,通過GCN(Graph Convolutional Network,圖卷積網(wǎng)絡(luò))對連續(xù)的人體骨架圖進(jìn)行行為識(shí)別[11-12]?;谌梭w關(guān)鍵點(diǎn)特征的行為識(shí)別方法可有效去除與行為識(shí)別無關(guān)的視覺特征,應(yīng)用于煤礦井下環(huán)境中時(shí)識(shí)別性能優(yōu)于基于圖像特征的行為識(shí)別方法[13]。但人體關(guān)鍵點(diǎn)特征提取依賴openpose 等算法,直接從監(jiān)控視頻中提取人體關(guān)鍵點(diǎn)時(shí)準(zhǔn)確度較低,影響識(shí)別性能。另外,基于人體關(guān)鍵點(diǎn)特征的行為識(shí)別方法需采用特殊攝像頭采集人體關(guān)鍵點(diǎn)特征用于模型訓(xùn)練,增大了訓(xùn)練數(shù)據(jù)的采集難度和成本,不利于該方法推廣和應(yīng)用[14]。
考慮2 種行為識(shí)別方法的優(yōu)勢和不足,可通過構(gòu)建復(fù)合模型來同時(shí)提取圖像特征和人體關(guān)鍵點(diǎn)特征,并將2 種特征有效融合后用于煤礦井下不安全行為識(shí)別,從而在不增大數(shù)據(jù)采集難度的前提下,有效提高識(shí)別性能。本文提出一種基于交叉注意力機(jī)制的多特征融合行為識(shí)別模型,通過交叉注意力機(jī)制將監(jiān)控視頻中的圖像特征和人體關(guān)鍵點(diǎn)特征進(jìn)行有效融合,結(jié)合不同特征的特點(diǎn),降低了煤礦井下環(huán)境對行為識(shí)別的影響,同時(shí)在不額外采集人體關(guān)鍵點(diǎn)特征的情況下,提升了行為識(shí)別準(zhǔn)確率。
圖像特征與人體關(guān)鍵點(diǎn)特征在行為識(shí)別中關(guān)注的重點(diǎn)不同,圖像特征關(guān)注不同幀之間圖像的變化,而人體關(guān)鍵點(diǎn)特征關(guān)注關(guān)鍵點(diǎn)之間位置關(guān)系的變化,因此使用常規(guī)的特征融合函數(shù),如concate(),average(),max()等無法很好地將2 種特征進(jìn)行有效融合。注意力機(jī)制可使網(wǎng)絡(luò)自主尋找關(guān)鍵特征,從而提升網(wǎng)絡(luò)整體性能。因此,通過注意力機(jī)制來提取圖像特征和人體關(guān)鍵點(diǎn)特征的有效信息,并通過交叉注意力機(jī)制進(jìn)行特征融合,是一種更為可行的多特征融合方案。
基于交叉注意力機(jī)制的多特征融合行為識(shí)別模型整體結(jié)構(gòu)如圖1 所示。該模型主要包括特征提取模塊和交叉注意力模塊。特征提取模塊負(fù)責(zé)提取待檢測視頻的三維圖像特征Fv和 人體關(guān)鍵點(diǎn)特征Fs,交叉注意力模塊通過自注意力機(jī)制和交叉注意力機(jī)制對2 種特征進(jìn)行融合。融合后的特征經(jīng)歸一化指數(shù)函數(shù)softmax 進(jìn)行行為分類。
圖1 基于交叉注意力機(jī)制的多特征融合行為識(shí)別模型結(jié)構(gòu)Fig.1 Structure of action recognition model of multi-feature fusion based on cross-attention mechanism
為了降低計(jì)算量,對于一段視頻,將其等分為m段。m根據(jù)待檢測視頻長度設(shè)定,保證等分后的視頻片段長度為1~3 s。通常行為識(shí)別視頻長度約為10 s,因此本文中m設(shè)為8。從每段視頻片段中抽取10 個(gè)連續(xù)視頻幀,用于圖像特征提取。采用3D ResNet101 模型[15]提取視頻片段的圖像特征,共得到m個(gè)圖像特征。對于任意待檢測視頻,其圖像特征 為Fv={fv1,fv2,···,fvm} ,fvk(k=1,2,…,m)為 第k個(gè)視頻片段的圖像特征。
提取人體關(guān)鍵點(diǎn)特征時(shí)需從視頻中提取相應(yīng)的人體關(guān)鍵點(diǎn)。目前常用openpose 算法提取人體關(guān)鍵點(diǎn),其通過2 條并行的卷積神經(jīng)網(wǎng)絡(luò)從視頻中提取人體的關(guān)鍵點(diǎn)位置和類別[16],如圖2 所示。
圖2 openpose 算法提取人體關(guān)鍵點(diǎn)效果Fig.2 Human body key points extracted by openpose algorithm
對于等分后的視頻片段,采用openpose 算法得到每一幀圖像的人體關(guān)鍵點(diǎn),將關(guān)鍵點(diǎn)按照固定的順序連接起來,得到該幀圖像的人體骨架圖。將該視頻片段中所有幀圖像的人體骨架圖按時(shí)間順序排列,得到人體骨架序列圖。采用ST-GCN(Spatial Temporal GCN,時(shí)空圖卷積網(wǎng)絡(luò))從人體骨架序列圖中提取人體關(guān)鍵點(diǎn)特征[7]。對于給定的人體骨架序列,構(gòu)建人體骨架時(shí)空圖GST=(X,E)來存儲(chǔ)人體關(guān)鍵點(diǎn)之間的位置和時(shí)間關(guān)系。其中頂點(diǎn)集X為人體關(guān)鍵點(diǎn)vi(i=1,2,…,n,n為人體關(guān)鍵點(diǎn)總數(shù))集合,即X={vi},且X被邊E連接,E={eS,eT},eS為不同關(guān)鍵點(diǎn)的連接(即人體骨架圖),eT為同一關(guān)鍵點(diǎn)在不同時(shí)刻的連接(即運(yùn)動(dòng)軌跡圖)。頂點(diǎn)間的連接需符合2 個(gè)條件:①在空間上,同一人體骨骼的關(guān)鍵點(diǎn)被空間邊eS連接。② 在時(shí)間上,相鄰幀的同一個(gè)關(guān)鍵點(diǎn)被時(shí)間邊eT連接。人體骨架時(shí)空圖如圖3 所示,其中藍(lán)色邊為空間邊eS,綠色邊為空間邊eT。
圖3 人體骨架時(shí)空圖Fig.3 Time-space diagram of the skeleton
通過ST-GCN 提取的人體關(guān)鍵點(diǎn)特征為式中:fsi為第i個(gè)人體關(guān)鍵點(diǎn)特征;vj為第i個(gè)關(guān)鍵點(diǎn)vi(中心節(jié)點(diǎn))的鄰居節(jié)點(diǎn),j=1,2,…,n,且j≠i;Bi為vi的鄰居節(jié)點(diǎn)集合;w為待學(xué)習(xí)的權(quán)重;p(vj)為鄰居節(jié)點(diǎn)vj的采樣函數(shù),表示卷積涉及的節(jié)點(diǎn)范圍,本文設(shè)為1,表示只使用中心節(jié)點(diǎn)及與其相連的鄰居節(jié)點(diǎn)。
得到待檢測視頻的圖像特征后,采用自注意力機(jī)制對其進(jìn)行處理[17]。圖像特征自注意力機(jī)制可通過分析整幅圖像的全局信息來判斷圖像各部分對于最終分析結(jié)果的影響權(quán)重,從而有效去除冗余信息對分析結(jié)果的干擾。自注意力機(jī)制如圖4 所示。K,Q,V分別代表鍵(Key)、查詢(Query)和值(Value),分別由可學(xué)習(xí)的線性映射函數(shù) φ,θ,η對特征進(jìn)行處理得到;MatMul 為矩陣相乘函數(shù);⊕為元素相加運(yùn)算符號(hào)。
圖4 自注意力機(jī)制Fig.4 Self-attention mechanism
圖像特征經(jīng)線性運(yùn)算處理后,得到圖像特征的鍵、查詢、值為Kv=φ(Fv),Qv=θ(Fv),Vv=η(Fv)。通過縮放點(diǎn)積運(yùn)算可得到圖像特征的注意力分?jǐn)?shù):
式中d為的維度,用于控制注意力分?jǐn)?shù)的分布范圍。
經(jīng)自注意力機(jī)制處理后的圖像特征為
為便于模型訓(xùn)練,將原圖像特征與經(jīng)自注意力機(jī)制處理后的圖像特征通過殘差連接,得到最終的圖像特征:
式中Wv為可學(xué)習(xí)的圖像特征注意力權(quán)重矩陣。
采用圖注意力機(jī)制對人體關(guān)鍵點(diǎn)特征進(jìn)行處理。圖注意力機(jī)制通過獲取圖中每個(gè)節(jié)點(diǎn)的鄰域特征為不同節(jié)點(diǎn)分配權(quán)重,如對于吸煙行為,更關(guān)注手部關(guān)鍵點(diǎn)的運(yùn)動(dòng)軌跡。圖注意力機(jī)制原理與圖像特征自注意力相似[18],但由于圖中節(jié)點(diǎn)只有1 種特征表示,可認(rèn)為圖注意力機(jī)制中人體關(guān)鍵點(diǎn)特征的鍵、查詢、值為Ks=Qs=Vs=DFs,其中D為可學(xué)習(xí)的線性變換矩陣。
對于任意人體關(guān)鍵點(diǎn)特征fsi,可通過其鄰居節(jié)點(diǎn)特征fsj得到注意力分?jǐn)?shù):
式中:cij為中心節(jié)點(diǎn)vi在其鄰居節(jié)點(diǎn)vj中的注意力分?jǐn)?shù),可通過權(quán)重向量為a的單層前饋神經(jīng)網(wǎng)絡(luò)計(jì)算得到;||為拼接運(yùn)算符號(hào)。
對cij進(jìn)行歸一化處理,得到歸一化后的注意力分?jǐn)?shù):
式中 δ(·)為激活函數(shù),本文采用LeakyRelu 函數(shù)。
經(jīng)圖注意力機(jī)制處理后的關(guān)鍵點(diǎn)特征為
通過殘差將原人體關(guān)鍵點(diǎn)特征與經(jīng)圖注意力機(jī)制處理后的人體關(guān)鍵點(diǎn)特征連接,得到最終的人體關(guān)鍵點(diǎn)特征:
式中Ws為可學(xué)習(xí)的人體關(guān)鍵點(diǎn)特征注意力權(quán)重矩陣。
自注意力機(jī)制可通過分析全局找出影響最終模型表現(xiàn)的關(guān)鍵特征。但對于多特征模型,還需要通過交叉注意力機(jī)制挖掘不同類別特征間的關(guān)系。由于圖像特征自注意力機(jī)制與圖注意力機(jī)制的原理基本相同,所以可在計(jì)算注意力分?jǐn)?shù)時(shí)將2 種特征交換,從而得到不同特征間的關(guān)系。
用Fs代替Fv得 到關(guān)鍵點(diǎn)特征在圖像特征中的注意力分?jǐn)?shù)Sv←s(Qv,Ks),F(xiàn)v代 替Fs得到圖像特征在關(guān)鍵點(diǎn)特征中的注意力分?jǐn)?shù)Ss←v(Qs,Kv),由此得到經(jīng)交叉注意力機(jī)制融合后的圖像特征和人體關(guān)鍵點(diǎn)特征
為了全面評估基于交叉注意力機(jī)制的多特征融合行為識(shí)別模型的性能,分別在公開數(shù)據(jù)集HMDB51[19]和UCF101[20]、自建的煤礦井下視頻數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)驗(yàn)證。
HMDB51 數(shù)據(jù)集包含51 種日常動(dòng)作,共有6 849段視頻,每種動(dòng)作至少有51 段視頻,分辨率為320×240。UCF101 數(shù)據(jù)集包含101 種動(dòng)作,可分為人與物體交互、單純的肢體動(dòng)作、人與人交互、演奏樂器和體育運(yùn)動(dòng)5 類,共有13 320 段視頻。2 種公共數(shù)據(jù)集視頻主要來自youtube 等網(wǎng)站。自建數(shù)據(jù)集來自井下實(shí)際監(jiān)控視頻,包含井下人員的6 種不安全行為,分別為抽煙、打架、徘徊、跌倒、摘安全帽和脫工作服。每種行為各采集120 段10 s 左右的監(jiān)控視頻片段,共有720 段視頻,分辨率為640×480。
本文模型使用在Kinetic 400 數(shù)據(jù)集上預(yù)訓(xùn)練的3D ResNet101 和ST-GCN 分別提取圖像特征和人體關(guān)鍵點(diǎn)特征。在提取特征前,需將輸入視頻圖像尺寸調(diào)整為224×224。模型通過隨機(jī)梯度下降法進(jìn)行優(yōu)化,權(quán)值衰減為0.000 5,動(dòng)量為0.9,學(xué)習(xí)率為0.001,迭代次數(shù)為50,并在第20 次迭代和第40 次迭代時(shí)對學(xué)習(xí)率進(jìn)行衰減調(diào)整。模型采用pytorch1.7 機(jī)器學(xué)習(xí)框架,運(yùn)行在2 塊Nvidia Tesla V100 16 GB 顯卡上。
采用公共數(shù)據(jù)集HMDB51 和UCF101,對本文模型與主流的基于圖像特征的行為識(shí)別模型C3D[6],3D ResNet101[15],TSN[4],SlowFast[7],以及基于人體關(guān)鍵點(diǎn)特征的行為識(shí)別模型ST-GCN[8],2S-ACGN(Two-Stream Adaptive GCN,雙流漸進(jìn)圖卷積網(wǎng)絡(luò))[9]進(jìn)行對比實(shí)驗(yàn),結(jié)果見表1。
表1 不同行為識(shí)別模型在公共數(shù)據(jù)集上的對比實(shí)驗(yàn)結(jié)果Table 1 Comparison experiment results of different action recognition models by use of public data sets %
從表1 可看出,基于圖像特征的行為識(shí)別模型在HMDB51,UCF101 數(shù)據(jù)集上的表現(xiàn)優(yōu)于基于人體關(guān)鍵點(diǎn)特征的行為識(shí)別模型,原因是HMDB51 和UCF101 數(shù)據(jù)集直接采集相關(guān)行為視頻,而人體關(guān)鍵點(diǎn)特征需通過openpose 算法從視頻中提取,提取過程中會(huì)產(chǎn)生精度損失,影響分類結(jié)果。本文模型在所有模型中取得了最優(yōu)的分類結(jié)果,在HMDB51 和UCF101 數(shù)據(jù)集上的分類準(zhǔn)確率較SlowFast 模型分別提高了1.8%和0.9%,驗(yàn)證了本文模型可有效結(jié)合圖像特征和人體關(guān)鍵點(diǎn)特征,消除了基于人體關(guān)鍵點(diǎn)特征的行為識(shí)別模型因關(guān)鍵點(diǎn)提取導(dǎo)致精度損失而難以在實(shí)際中應(yīng)用的缺點(diǎn)。
為了驗(yàn)證本文模型中各模塊的有效性,在HMDB51 和UCF101 數(shù)據(jù)集上進(jìn)行消融實(shí)驗(yàn),結(jié)果見表2,其中√和×分別表示采用和未采用相關(guān)模塊。從表2 可看出,不管是圖像特征還是人體關(guān)鍵點(diǎn)特征,添加自注意力模塊均能提升模型的行為識(shí)別準(zhǔn)確率,驗(yàn)證了自注意力機(jī)制的有效性。因圖像特征與人體關(guān)鍵點(diǎn)特征差別較大,直接將2 種特征進(jìn)行拼接融合與采用單一特征提取網(wǎng)絡(luò)+自注意力機(jī)制相比并無明顯優(yōu)勢。而采用自注意力機(jī)制后,可在一定程度上去除影響結(jié)果的冗余信息,提升融合效果,但識(shí)別準(zhǔn)確率仍低于SlowFast 模型。采用交叉注意力機(jī)制后,圖像特征和人體關(guān)鍵點(diǎn)特征得到更有效的融合,識(shí)別準(zhǔn)確率大幅提升。
表2 消融實(shí)驗(yàn)結(jié)果Table 2 Ablation experiment results %
在自建數(shù)據(jù)集上對本文模型與主流的行為識(shí)別模型進(jìn)行對比實(shí)驗(yàn),結(jié)果見表3??煽闯鲋髁鞯男袨樽R(shí)別模型在自建數(shù)據(jù)集上的識(shí)別準(zhǔn)確率較UCF101數(shù)據(jù)集有一定程度的下降,原因是UCF101 數(shù)據(jù)集中圖像背景簡單,自建數(shù)據(jù)集中圖像背景較復(fù)雜,說明復(fù)雜背景對行為識(shí)別準(zhǔn)確率有一定影響。本文模型在自建數(shù)據(jù)集上的識(shí)別準(zhǔn)確率較其他模型高,且結(jié)合表1 數(shù)據(jù)可知,本文模型對不同場景下數(shù)據(jù)集的識(shí)別性能更加穩(wěn)定,更適用于煤礦井下復(fù)雜環(huán)境下的人員不安全行為識(shí)別。
表3 不同行為識(shí)別模型在自建數(shù)據(jù)集上的對比實(shí)驗(yàn)結(jié)果Table 3 Comparison experiment results of different action recognition models by use of built underground video data sets %
本文模型對不同行為類別的識(shí)別準(zhǔn)確率見表4。其中抽煙、打架、徘徊和跌倒動(dòng)作因特征較明顯,識(shí)別準(zhǔn)確率較高。而脫工作服和摘安全帽這2 種行為動(dòng)作幅度較小,且因監(jiān)控視頻分辨率較低,識(shí)別準(zhǔn)確率較其他行為類別低。不同模型對摘安全帽行為的識(shí)別結(jié)果如圖5 所示,可看出本文模型更關(guān)注頭部特征,與SlowFast 模型和2S-AGCN 模型相比,能更準(zhǔn)確地檢測出摘安全帽行為。
表4 本文模型對不同行為類別的識(shí)別結(jié)果Table 4 Action recognition results of different action types by the proposed model %
圖5 不同模型對摘安全帽行為的識(shí)別結(jié)果Fig.5 Recognition results of removing safety helmet by different models
(1)分析了基于圖像特征和基于人體關(guān)鍵點(diǎn)特征的行為識(shí)別方法優(yōu)缺點(diǎn),提出采用交叉注意力機(jī)制將2 種不同特征有效結(jié)合,構(gòu)建了一種基于交叉注意力機(jī)制的多特征融合行為識(shí)別模型。
(2)在公共數(shù)據(jù)集HMDB51,UCF101 上對基于交叉注意力機(jī)制的多特征融合行為識(shí)別模型進(jìn)行消融實(shí)驗(yàn),結(jié)果表明,該模型采用交叉注意力機(jī)制可更有效地融合圖像特征和人體關(guān)鍵點(diǎn)特征,大幅提高了識(shí)別準(zhǔn)確率。
(3)在公共數(shù)據(jù)集HMDB51,UCF101 及自建的煤礦井下視頻數(shù)據(jù)集上對主流的行為識(shí)別模型和基于交叉注意力機(jī)制的多特征融合行為識(shí)別模型進(jìn)行對比實(shí)驗(yàn),結(jié)果表明,與目前應(yīng)用最廣泛的行為識(shí)別模型SlowFast 相比,基于交叉注意力機(jī)制的多特征融合行為識(shí)別模型在HMDB51 和UCF101 數(shù)據(jù)集上的識(shí)別準(zhǔn)確率分別提高了1.8%,0.9%,在自建數(shù)據(jù)集上的識(shí)別準(zhǔn)確率提高了6.7%,驗(yàn)證了基于交叉注意力機(jī)制的多特征融合行為識(shí)別模型更適用于煤礦井下復(fù)雜環(huán)境中人員不安全行為識(shí)別。