李 頎,鄧耀輝,王 嬌
(1. 陜西科技大學(xué) 電子信息與人工智能學(xué)院,陜西 西安 710021;2. 陜西科技大學(xué) 電氣與控制工程學(xué)院,陜西 西安 710021)
我國(guó)校園安全在依賴人工巡查的基礎(chǔ)上,逐步向智能化方向發(fā)展,有關(guān)人臉檢測(cè)[1]與人臉識(shí)別[2]系統(tǒng)應(yīng)用已經(jīng)非常廣泛,然而缺乏成熟的異常行為識(shí)別系統(tǒng)。深度學(xué)習(xí)中基于卷積神經(jīng)網(wǎng)絡(luò)的暴力行為識(shí)別方法受圖像光照和顏色等因素影響較大,識(shí)別速度和準(zhǔn)確率有待大幅提高[3]。人體骨架序列不受光照和顏色影響,可以表征人體關(guān)節(jié)點(diǎn)和骨架變化與人體行為的關(guān)聯(lián)信息,但基于骨架數(shù)據(jù)的圖卷積網(wǎng)絡(luò)的方法識(shí)別速度和識(shí)別率未能滿足實(shí)際應(yīng)用,有望通過(guò)改進(jìn)圖卷積網(wǎng)絡(luò)提高實(shí)時(shí)性和可靠性。
早期人體行為識(shí)別通過(guò)專家手工設(shè)計(jì)特征模擬關(guān)節(jié)之間的相關(guān)性實(shí)現(xiàn)[4]。Yang 和Tian 采用樸素貝葉斯最近鄰分類器(Na?ve-Bayes-Nearest-Neighbor,NBNN)實(shí)現(xiàn)了多類動(dòng)作的識(shí)別[5],但手工提取和調(diào)參表征能力有限且工作量大;Li和He 等人通過(guò)深度卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)提取不同時(shí)間段的多尺度特征并得到最終識(shí)別結(jié)果,但映射過(guò)程信息丟失、網(wǎng)絡(luò)參數(shù)量龐大[6];Zhao 和Liu 等人通過(guò)對(duì)原始骨架關(guān)節(jié)坐標(biāo)進(jìn)行尺度變換后輸入殘差獨(dú)立循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)得到識(shí)別結(jié)果,表征時(shí)間信息的能力增強(qiáng),但易丟失原始關(guān)節(jié)點(diǎn)之間的關(guān)聯(lián)信息[7];Yan 和Xiong 等人首次提出用圖卷積網(wǎng)絡(luò)(Graph Convolutional Network,GCN)進(jìn)行行為識(shí)別,避免了手工設(shè)計(jì)遍歷規(guī)則帶來(lái)的缺陷[8]。
基于人體骨架的行為識(shí)別受光照和背景等因素影響非常小,與基于RGB 數(shù)據(jù)的方法相比具有很大優(yōu)勢(shì)。人體的關(guān)節(jié)骨架數(shù)據(jù)是一種拓?fù)鋱D,圖中每個(gè)關(guān)節(jié)點(diǎn)在相鄰關(guān)節(jié)點(diǎn)數(shù)不同的情況下,傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)不能直接使用同樣大小的卷積核進(jìn)行卷積計(jì)算去處理這種非歐式數(shù)據(jù)[9]。因此,在基于骨架的行為識(shí)別領(lǐng)域,基于圖卷積網(wǎng)絡(luò)的方法更為適合。從研究到應(yīng)用階段的轉(zhuǎn)換,需要在保證準(zhǔn)確率的同時(shí)實(shí)現(xiàn)網(wǎng)絡(luò)的輕量化:(1)需要在多種信息流數(shù)據(jù)構(gòu)成的數(shù)據(jù)集上分別多次訓(xùn)練,融合各訓(xùn)練結(jié)果得到最終結(jié)果,增加了網(wǎng)絡(luò)參數(shù)量和計(jì)算復(fù)雜度;(2)輸入的骨架序列中,存在冗余的關(guān)節(jié)點(diǎn)信息,導(dǎo)致識(shí)別速度和識(shí)別率降低。
以圖像為代表的歐式空間中,將圖像中每個(gè)像素點(diǎn)當(dāng)作一個(gè)結(jié)點(diǎn),則結(jié)點(diǎn)規(guī)則排布且鄰居結(jié)點(diǎn)數(shù)量固定,邊緣上的點(diǎn)可進(jìn)行Padding 填充操作。但在圖結(jié)構(gòu)這種非歐空間中,結(jié)點(diǎn)排布無(wú)序且鄰居結(jié)點(diǎn)數(shù)量不固定,無(wú)法通過(guò)傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)固定大小的卷積核實(shí)現(xiàn)特征提取,需要一種能夠處理變長(zhǎng)鄰居結(jié)點(diǎn)的卷積核[10]。對(duì)圖而言,需要輸入維度為N×F的特征矩陣X和N×N的鄰接矩陣A提取特征,其中N為圖中結(jié)點(diǎn)數(shù),F(xiàn)為每個(gè)結(jié)點(diǎn)輸入特征個(gè)數(shù)。相鄰隱藏層的結(jié)點(diǎn)特征變換公式為:
其中i為層數(shù),第一層H0=X;f(·)為傳播函數(shù),不同的圖卷積網(wǎng)絡(luò)模型傳播函數(shù)不同。每層Hi對(duì)應(yīng)N×Fi維度特征矩陣,通過(guò)傳播函數(shù)f(·)將聚合后的特征變換為下一層的特征,使得特征越來(lái)越抽象。
為了使人體骨架序列中的動(dòng)作特征被充分利用,且在識(shí)別準(zhǔn)確率提高的同時(shí)實(shí)現(xiàn)動(dòng)作識(shí)別模型的輕量化,本文提出了一種結(jié)合多信息流數(shù)據(jù)融合和時(shí)空注意力機(jī)制的輕量級(jí)自適應(yīng)圖卷積網(wǎng)絡(luò)。以輸入的人體骨架序列為研究對(duì)象,首先融合關(guān)節(jié)點(diǎn)信息流、骨長(zhǎng)信息流、關(guān)節(jié)點(diǎn)偏移信息流和骨長(zhǎng)變化信息流4 種數(shù)據(jù)信息;接著構(gòu)建基于非局部運(yùn)算的可嵌入的時(shí)空注意力模塊,關(guān)注信息流數(shù)據(jù)融合后人體骨架序列中最具動(dòng)作判別性的關(guān)節(jié)點(diǎn);最后通過(guò)Softmax 得到對(duì)動(dòng)作片段的識(shí)別結(jié)果,網(wǎng)絡(luò)主體框架如圖1 所示。
現(xiàn)階段基于圖卷積的方法[11]多采用在多種不同數(shù)據(jù)集下多次訓(xùn)練,根據(jù)訓(xùn)練結(jié)果進(jìn)行決策級(jí)融合,導(dǎo)致網(wǎng)絡(luò)參數(shù)量大。因此,在訓(xùn)練之前對(duì)原始關(guān)節(jié)點(diǎn)坐標(biāo)數(shù)據(jù)進(jìn)行預(yù)處理,實(shí)現(xiàn)關(guān)節(jié)點(diǎn)信息流、骨長(zhǎng)信息流、關(guān)節(jié)點(diǎn)偏移信息流和骨長(zhǎng)變化信息流的數(shù)據(jù)級(jí)融合,減少網(wǎng)絡(luò)參量,從而降低計(jì)算要求。
人體骨架序列關(guān)節(jié)點(diǎn)的定義如公式(2)所示:
其中:T為序列中的總幀數(shù),N為總關(guān)節(jié)點(diǎn)數(shù)18,i為在t時(shí)刻的關(guān)節(jié)點(diǎn)。融合多信息流之前,需要進(jìn)行骨架序列s的多樣化預(yù)處理。關(guān)節(jié)點(diǎn)信息流由人體姿態(tài)估計(jì)算法OpenPose 獲取到的18 個(gè)關(guān)節(jié)點(diǎn)坐標(biāo)得到,相對(duì)于動(dòng)作捕獲設(shè)備成本大幅降低[12-13]。其他信息流數(shù)據(jù)定義如下。
骨長(zhǎng)信息流(Bone Length Information Flow):將靠近人體重心的關(guān)節(jié)點(diǎn)定義為源關(guān)節(jié)點(diǎn),坐標(biāo)表 示 為Vi,t=(xi,t,yi,t);遠(yuǎn) 離 重 心 點(diǎn) 的 關(guān) 節(jié) 點(diǎn) 定位 為 目 標(biāo) 關(guān) 節(jié) 點(diǎn),坐 標(biāo) 表 示 為Vj,t=(xj,t,yj,t)。通過(guò)兩關(guān)節(jié)點(diǎn)作差獲取骨長(zhǎng)信息流:
關(guān)節(jié)點(diǎn)偏移信息流(Joint Difference Information Flow):定義第t幀的關(guān)節(jié)點(diǎn)i的坐標(biāo)表示為Vi,t=(xi,t,yi,t),第t+1 幀 的關(guān)節(jié)點(diǎn)i的 坐 標(biāo)表示為Vi,t+1=(xi,t+1,yi,t+1),關(guān) 節(jié) 點(diǎn) 偏 移 信 息 流 可通過(guò)對(duì)相鄰幀同一關(guān)節(jié)點(diǎn)坐標(biāo)位置作差獲得:
骨長(zhǎng)變化信息流(Change of Bone Length Information Flow):相鄰兩幀中,同一節(jié)骨骼由于動(dòng)作變化導(dǎo)致所表現(xiàn)出的長(zhǎng)度不同,由公式(3)定 義 第t幀 的 骨 長(zhǎng) 信 息 流 為Bi,j,t,則 第t+1 幀 的骨 長(zhǎng) 信 息 流 為Bi,j,t+1,通 過(guò) 對(duì) 相 鄰 幀 同 一 骨 骼 長(zhǎng)度作差獲得骨長(zhǎng)變化信息流:
如圖2 所示,根據(jù)對(duì)關(guān)節(jié)點(diǎn)信息流、骨長(zhǎng)信息流、關(guān)節(jié)點(diǎn)偏移信息流和骨長(zhǎng)變化信息流的定義,將多數(shù)據(jù)流加權(quán)融合成單一的特征向量,骨架序列維度由4×T×J×C1變?yōu)?×T×J×4C1:
圖2 信息流數(shù)據(jù)融合Fig.2 Data fusion of information flow
其中:權(quán)重ω1~ω4由關(guān)節(jié)點(diǎn)偏移度σ1(σ1∈[0°~360°])和骨長(zhǎng)變化度σ2(σ2∈[0~100%])決定,σ1為前一 幀 坐 標(biāo) 點(diǎn)Vi,t與 后 一 幀 坐 標(biāo) 點(diǎn)Vi,t+1分 別 和 坐標(biāo)原點(diǎn)所構(gòu)成直線的夾角,σ2如式(7)定義:
式中:絕對(duì)值運(yùn)算代表骨骼長(zhǎng)度,當(dāng)σ1≥30°且σ2≤50%時(shí),ω1和ω3權(quán)值為2,ω2和ω4權(quán)值為1;當(dāng)σ1≤30°且σ2≥50%時(shí),ω1和ω3權(quán)值為1,ω2和ω4權(quán)值為2;當(dāng)σ1和σ2都小于閾值時(shí),權(quán)值均為1;當(dāng)σ1和σ2都大于閾值時(shí),權(quán)值均為2。通過(guò)計(jì)算關(guān)節(jié)點(diǎn)偏移程度以及骨長(zhǎng)變化程度,為變化程度大的信息流數(shù)據(jù)賦予了更高的權(quán)重,從而增強(qiáng)了信息流對(duì)動(dòng)作的表征。再使用融合后的單一特征向量表示多信息流數(shù)據(jù),將訓(xùn)練次數(shù)由4 次減少為1 次,降低了總體參數(shù)量,從而提高網(wǎng)絡(luò)運(yùn)算速度。
在保證網(wǎng)絡(luò)運(yùn)算速度提升的基礎(chǔ)上,也要保證動(dòng)作識(shí)別的準(zhǔn)確性。一段人體骨架序列包含時(shí)間域和空間域的所有信息,但是只有對(duì)拳打、腳踢和倒地動(dòng)作具有判別性的關(guān)節(jié)點(diǎn)關(guān)聯(lián)信息值得關(guān)注,注意力機(jī)制大多只是去除無(wú)關(guān)項(xiàng)而關(guān)注感興趣動(dòng)作區(qū)域,但真正的冗余信息來(lái)自兩個(gè)方面:(1)拳打動(dòng)作發(fā)生時(shí),只有肩膀、手肘和手腕3 個(gè)關(guān)節(jié)點(diǎn)相互之間相關(guān)性強(qiáng);腳踢動(dòng)作發(fā)生時(shí),只有髖、膝蓋、腳踝跟3 個(gè)關(guān)節(jié)點(diǎn)相互之間相關(guān)性強(qiáng),這些關(guān)鍵關(guān)節(jié)點(diǎn)與其他關(guān)節(jié)點(diǎn)相關(guān)性弱或不相關(guān)。(2)受到暴力拳打或腳踢而倒地后,各關(guān)節(jié)點(diǎn)偏移幅度較小,前后幀的各關(guān)節(jié)點(diǎn)相關(guān)性幾乎不變,無(wú)需對(duì)后一幀骨架信息進(jìn)行提取。
將每個(gè)關(guān)節(jié)點(diǎn)偏移度σ1≥30°的關(guān)節(jié)點(diǎn)定義為源關(guān)節(jié)點(diǎn),每次選取一個(gè)源關(guān)節(jié)點(diǎn),其他關(guān)節(jié)點(diǎn)則為目標(biāo)關(guān)節(jié)點(diǎn),神經(jīng)網(wǎng)絡(luò)中的局部運(yùn)算方法只能對(duì)目標(biāo)關(guān)節(jié)點(diǎn)遍歷后單獨(dú)計(jì)算兩兩的相關(guān)性,使源關(guān)節(jié)點(diǎn)丟失全局表征能力。為了表征所有目標(biāo)關(guān)節(jié)點(diǎn)對(duì)源關(guān)節(jié)點(diǎn)的相關(guān)性,如圖3 所示,將非局部運(yùn)算(Non-local operations)的思想融入時(shí)空注意力模塊,并在特征輸入后添加尺寸為2×2、步長(zhǎng)為2 的最大池化層(Maxpool layer),以保證壓縮數(shù)據(jù)和參數(shù)數(shù)量的同時(shí)盡可能保留原有特征。
圖3 時(shí)空注意力模塊Fig.3 Spatio-temporal attention module
時(shí)空注意力模塊(Spatio-temporal Attention Module,STA)包含一個(gè)空間注意力模塊和時(shí)間注意力模塊,其中空間注意力模塊(Spatial Attention Module,SA)捕獲幀內(nèi)關(guān)節(jié)相關(guān)性,時(shí)間注意力模塊(Temporal Attention Module,TA)捕獲幀間關(guān)節(jié)的相關(guān)性,最終二者與輸入特征相加融合。時(shí)空注意力模塊輸出特征的維度和輸入相同,因此可以嵌入圖卷積網(wǎng)絡(luò)的網(wǎng)絡(luò)結(jié)構(gòu)之間。模塊功能的實(shí)現(xiàn)分為4 個(gè)步驟:
(1)輸入特征X的維度為T×N×C,其中T、N和C分別對(duì)應(yīng)幀、關(guān)節(jié)和通道的數(shù)目,將空間注意力模塊的輸入特征表示為zs=[z,z,...,z]∈RT×N×C。
(2)將特征嵌入到高斯函數(shù)(θ和φ,卷積內(nèi)核尺寸1×1)中計(jì)算任意位置兩個(gè)關(guān)節(jié)i和j的相關(guān)性,由j進(jìn)行枚舉,得到關(guān)節(jié)點(diǎn)i的加權(quán)表示:
其中:z和z分別表示關(guān)節(jié)點(diǎn)i和j的特征;函數(shù)g用來(lái)計(jì)算關(guān)節(jié)點(diǎn)j特征表示,g(z)=Wz,W是待學(xué)習(xí)的權(quán)重矩陣;高斯函數(shù)f定義為:
通過(guò)基于非局部運(yùn)算的注意力機(jī)制得到具有判別性的關(guān)節(jié)點(diǎn)時(shí)空關(guān)聯(lián)信息,去除了動(dòng)作區(qū)域無(wú)關(guān)項(xiàng)和輸入的冗余關(guān)節(jié)點(diǎn)信息的干擾,減少了不必要的計(jì)算,從而提高了準(zhǔn)確率。
為了提取骨架序列在空間和時(shí)間維度上的特征,首先利用時(shí)空?qǐng)D卷積網(wǎng)絡(luò)和空間劃分策略對(duì)動(dòng)態(tài)骨架進(jìn)行建模,原始表達(dá)式為:
其中,Xin和Xout分別為圖卷積輸入和輸出特征,K為空間域卷積核尺寸,Wi為權(quán)重,Ai為關(guān)節(jié)點(diǎn)i的鄰接矩陣,⊙代表點(diǎn)乘,Mi為賦予連接權(quán)重的關(guān)節(jié)點(diǎn)映射矩陣。
使用預(yù)先定義好的骨架結(jié)構(gòu)數(shù)據(jù)無(wú)法對(duì)所有未知?jiǎng)幼鳒?zhǔn)確識(shí)別,因此需要設(shè)計(jì)一種具有自適應(yīng)性的鄰接矩陣Ai,使得圖卷積網(wǎng)絡(luò)模型具有自適應(yīng)性。因此,為了在網(wǎng)絡(luò)學(xué)習(xí)中改變骨架序列圖的拓?fù)浣Y(jié)構(gòu),將式(12)中決定拓?fù)浣Y(jié)構(gòu)的鄰接矩陣和映射矩陣分成Ai、Hi和Li,自適應(yīng)圖卷積模塊框圖如圖4 所示,輸出特征重新構(gòu)造為:
圖4 自適應(yīng)圖卷積模塊Fig.4 Adaptive graph convolutional module
Xout=∑i KWi Xin(Ai+Hi+Li). (13)
圖4 中θ和φ即式(9)中高斯嵌入函數(shù),卷積內(nèi)核尺寸為1×1;第一部分Ai仍為關(guān)節(jié)點(diǎn)i的鄰接矩陣;第二部分Hi作為對(duì)原始鄰接矩陣的加法補(bǔ)充,能通過(guò)網(wǎng)絡(luò)訓(xùn)練不斷迭代更新;第三部分Li由數(shù)據(jù)不斷驅(qū)動(dòng)更新來(lái)學(xué)習(xí)連接權(quán)重,關(guān)節(jié)點(diǎn)相關(guān)性可由式(8)計(jì)算得到后與1×1 卷積相乘得到相似性矩陣Li:
通過(guò)以上計(jì)算,構(gòu)建出具有自適應(yīng)性的圖卷積模塊,接下來(lái)對(duì)骨架序列包含的時(shí)空信息進(jìn)行提取。
本文提出的時(shí)空特征提取模塊如圖5 所示。在每次完成卷積操作后通過(guò)BN(Batch normalization)層將數(shù)據(jù)歸一化,再通過(guò)ReLU 層提高模型表達(dá)能力??汕度氲臅r(shí)空注意力模塊STA 已在2.4 一節(jié)中搭建完成,將特征輸入提取模塊后對(duì)感興趣動(dòng)作關(guān)節(jié)點(diǎn)進(jìn)行提取。接著通過(guò)具有自適應(yīng)性的GCN 在空間維度上獲得骨架數(shù)據(jù)中同一幀各關(guān)節(jié)點(diǎn)的相關(guān)性,通過(guò)時(shí)間卷積網(wǎng)絡(luò)(Temporal Convolutional Network,TCN)在時(shí)間維度上獲得相鄰幀同一關(guān)節(jié)點(diǎn)的關(guān)系。丟棄層(Dropout)減少隱層結(jié)點(diǎn)的相互作用避免了圖卷積網(wǎng)絡(luò)的過(guò)度擬合,參數(shù)設(shè)置為0.5,同時(shí)為了增加模型穩(wěn)定性進(jìn)行了殘差連接。
圖5 時(shí)空特征提取模塊Fig.5 Spatio-temporal feature extracting module
如圖6 所示,將9 個(gè)時(shí)空特征提取模塊B1~B9進(jìn)行堆疊,從特征輸入X到行為標(biāo)簽Label 輸出方向上,BN 層用于骨架圖輸入后進(jìn)行標(biāo)準(zhǔn)化,B1~B3輸出特征維度為Batch×64×T×N,B4~B6輸出特征 維度為Batch×128×T/2×N,B7~B9輸出特征維度為Batch×256×T/4×N,其中通道數(shù)分別為64,64,64,128,128,128,256,256,256。在空間和時(shí)間維度上應(yīng)用全局平均池化操作(Global Average Pooling,GAP)將樣本的特征圖大小進(jìn)行統(tǒng)一,最終使用softmax層得到0~1 的數(shù)據(jù)進(jìn)行人體行為的識(shí)別。
圖6 整體網(wǎng)絡(luò)架構(gòu)Fig.6 Overall network architecture
實(shí)驗(yàn)平臺(tái)的配置為8 代i7 CPU,64 G 內(nèi)存,4 TB 固態(tài)硬盤存儲(chǔ),顯卡為RTX2080Ti。深度學(xué)習(xí)框架為PyTorch1.3,Python 版本為3.6。優(yōu)化策略采用隨機(jī)梯度下降(Stochastic gradient descent,SGD),每批次訓(xùn)練樣本數(shù)(Batch size)設(shè)置為64,迭代次數(shù)(Epoch)設(shè)置為60,初始學(xué)習(xí)率(Learning rate)為0.1,Epoch 達(dá)到20 以后學(xué)習(xí)率設(shè)置為0.01。
3.2.1 校園安防實(shí)景測(cè)試
本文面向?qū)嶋H應(yīng)用,對(duì)校園馬路、操場(chǎng)和湖邊等不同場(chǎng)景制作了12 000 個(gè)視頻片段,拳打、腳踢、倒地、推搡、打耳光和跪地6 種典型動(dòng)作各2 000 個(gè),單個(gè)時(shí)長(zhǎng)不大于5 s。所有人員身高、體重和身體比例等方面有所差異,以增強(qiáng)模型的泛化能力。根據(jù)實(shí)驗(yàn)配置進(jìn)行訓(xùn)練,圖7 為模型的訓(xùn)練損失與綜合測(cè)試準(zhǔn)確率的變化曲線。
圖7 模型訓(xùn)練損失與測(cè)試準(zhǔn)確率變化圖Fig.7 Variation diagram of model training loss and test accuracy
可以看出隨著迭代次數(shù)的增長(zhǎng),模型的訓(xùn)練損失逐漸下降。當(dāng)epoch 在20 左右時(shí),由于學(xué)習(xí)率的下降,測(cè)試準(zhǔn)確率開始大幅提高;當(dāng)epoch 超過(guò)35 之后,訓(xùn)練損失與測(cè)試準(zhǔn)確率幾乎保持不變。使用訓(xùn)練好的模型分別對(duì)6 類動(dòng)作對(duì)應(yīng)的測(cè)試集進(jìn)行測(cè)試,主要識(shí)別過(guò)程如圖8 所示。
圖8 6 種典型動(dòng)作識(shí)別過(guò)程Fig.8 Six typical action recognition processes
圖8 中處理的5 組動(dòng)作片段從左至右分別為拳打和腳踢、倒地、推搡、打耳光及跪地,圖8(a)是原視頻;圖8(b)是對(duì)輸入的含有拳打和腳踢動(dòng)作的視頻片段使用OpenPose 進(jìn)行人體關(guān)節(jié)點(diǎn)提取,正確匹配各關(guān)節(jié)點(diǎn)后得到人體骨架;圖8(c)是將骨架序列輸入本文改進(jìn)的時(shí)空?qǐng)D卷積網(wǎng)絡(luò)得到動(dòng)作片段的識(shí)別結(jié)果。改進(jìn)后模型的處理速度最大可達(dá)20.6 fps,對(duì)校園安防實(shí)景中拳打、腳踢、倒地、推搡、打耳光和跪地6 種典型動(dòng)作識(shí)別準(zhǔn)確率分別為94.5%,97.0%,98.5%,95.0%,94.5%,95.5%,測(cè)試結(jié)果如表1 所示。
表1 6 種典型動(dòng)作識(shí)別結(jié)果Tab.1 Six typical action recognition results
為了驗(yàn)證不同體型(身高、體重和肩寬表示)人員對(duì)識(shí)別準(zhǔn)確率存在影響,選取參與數(shù)據(jù)集制作的1~6 號(hào)實(shí)驗(yàn)人員,每次使用由單一實(shí)驗(yàn)人員獲取的6 種典型動(dòng)作片段作為訓(xùn)練集,將由其他5 個(gè)實(shí)驗(yàn)人員獲取的6 種動(dòng)作片段作為測(cè)試集,并記錄對(duì)所有動(dòng)作的平均識(shí)別準(zhǔn)確率,實(shí)驗(yàn)參數(shù)及結(jié)果如表2 所示。
由表2 數(shù)據(jù)可知,使用單一實(shí)驗(yàn)人員所拍攝的6 類動(dòng)作片段作為數(shù)據(jù)集進(jìn)行訓(xùn)練,并分別對(duì)其他人員的動(dòng)作片段測(cè)試,測(cè)試結(jié)果最佳僅為85.6%,而使用所有實(shí)驗(yàn)人員視頻片段識(shí)別準(zhǔn)確率在94.5%以上,說(shuō)明了不同人員體型的差異性可以增強(qiáng)模型的泛化能力,即魯棒性。
表2 不同體型人員動(dòng)作識(shí)別結(jié)果Tab.2 Action recognition results of personnel with different body types
表2 的1~6 號(hào) 實(shí) 驗(yàn) 人 員 中,2 號(hào) 的 體 型 為179 cm/67 kg,身材過(guò)瘦;3 號(hào)的體型為155 cm/46 kg,身材矮小,但身高體重比例正常;6 號(hào)的體型為163 cm/103 kg,身材肥胖;1 號(hào)、4 號(hào)和5 號(hào)體型基本正常。不同體型的人做同一種動(dòng)作時(shí),姿態(tài)檢測(cè)算法獲取的18 個(gè)人體骨骼點(diǎn)坐標(biāo)有差異,從而骨長(zhǎng)也會(huì)產(chǎn)生差異,關(guān)節(jié)點(diǎn)信息流、骨長(zhǎng)信息流、關(guān)節(jié)點(diǎn)偏移信息流和骨長(zhǎng)變化信息流4 種數(shù)據(jù)信息也有區(qū)別。因?yàn)? 號(hào)過(guò)瘦,各關(guān)節(jié)點(diǎn)坐標(biāo)較為集中,而6 號(hào)過(guò)胖,各關(guān)節(jié)點(diǎn)坐標(biāo)較為分散,導(dǎo)致2 號(hào)和6 號(hào)的平均識(shí)別準(zhǔn)確率最低,僅為68.7%和64.5%;而3 號(hào)身材比例正常,但身高過(guò)于矮小,也導(dǎo)致了關(guān)節(jié)坐標(biāo)點(diǎn)分布不均勻,72.4%的準(zhǔn)確率低于其他正常體型。
綜上,在數(shù)據(jù)集的制作過(guò)程中所有人員體型差異的多樣性可以增強(qiáng)模型的泛化能力,實(shí)驗(yàn)結(jié)果也表明本文方法可快速有效地識(shí)別出校園暴力的典型動(dòng)作。
3.2.2 方法對(duì)比實(shí)驗(yàn)
為了驗(yàn)證本文方法的有效性,采用具有挑戰(zhàn)性的UCF101 數(shù)據(jù)集進(jìn)行行為識(shí)別對(duì)比實(shí)驗(yàn)。該數(shù)據(jù)集有101 類動(dòng)作,13 320 段視頻,在人員姿態(tài)、外觀、攝像機(jī)運(yùn)動(dòng)狀態(tài)、和物體大小比例等方面具有多樣性。
按照6∶2∶2 的比例,參與訓(xùn)練和驗(yàn)證的視頻數(shù)據(jù)10 656 個(gè),測(cè)試視頻2 664 個(gè),使用表3中5 種方法進(jìn)行對(duì)比實(shí)驗(yàn),在當(dāng)前配置下對(duì)視頻片段處理速度由9.2~15.5 fps 最大提高至19.3 fps,對(duì)數(shù)據(jù)集中101 類動(dòng)作平均識(shí)別準(zhǔn)確率以及參數(shù)量變化對(duì)比結(jié)果如表3 所示,并在表4 中給出了數(shù)據(jù)集中6 種動(dòng)作的識(shí)別準(zhǔn)確率。
表3 數(shù)據(jù)表明:本文方法(無(wú)注意力模塊)相對(duì)于兩種卷積神經(jīng)網(wǎng)絡(luò)的方法,參數(shù)量分別減少約92.6%和94.7%,而識(shí)別準(zhǔn)確率提高21.4%和4.0%;相對(duì)于改進(jìn)前時(shí)空?qǐng)D卷積網(wǎng)絡(luò)的方法,參數(shù)量減少約59.6%,而準(zhǔn)確率提高1.2%。說(shuō)明本文的多信息流數(shù)據(jù)融合方法可有效減少網(wǎng)絡(luò)參數(shù)量,實(shí)現(xiàn)網(wǎng)絡(luò)輕量化。其中,使用基于非局部運(yùn)算的時(shí)空注意力機(jī)制相對(duì)于未使用時(shí)參數(shù)量減少約37.6%,準(zhǔn)確率提高2.9%,說(shuō)明改進(jìn)后的時(shí)空注意力機(jī)制可有效減少冗余關(guān)節(jié)點(diǎn)信息,提高了特征的利用率,從而提高了識(shí)別準(zhǔn)確率。表4 數(shù)據(jù)列出了改進(jìn)后方法在UCF101 數(shù)據(jù)集中6 種動(dòng)作的識(shí)別準(zhǔn)確率。由于該數(shù)據(jù)集中動(dòng)作片段來(lái)源于不受約束的網(wǎng)絡(luò)視頻,存在相機(jī)運(yùn)動(dòng)、部分遮擋和低分辨率等影響導(dǎo)致視頻質(zhì)量差,實(shí)驗(yàn)中在OpenPose 進(jìn)行人體關(guān)節(jié)點(diǎn)提取階段csv 文件中所存的關(guān)節(jié)點(diǎn)坐標(biāo)有部分缺失,因此相較于表1 中實(shí)測(cè)數(shù)據(jù)集識(shí)別準(zhǔn)確率均偏低。
表3 不同識(shí)別方法的對(duì)比結(jié)果Tab.3 Comparison results of different recognition methods
綜上,本文方法在保證準(zhǔn)確率提升的同時(shí)實(shí)現(xiàn)了網(wǎng)絡(luò)的輕量化,從而提高了可靠性與實(shí)時(shí)性。
針對(duì)校園智能安防識(shí)別速度和識(shí)別率不高導(dǎo)致可靠性和實(shí)時(shí)性差的問(wèn)題,本文提出了一種基于輕量級(jí)圖卷積的人體骨架數(shù)據(jù)的行為識(shí)別方法,通過(guò)多信息流數(shù)據(jù)融合與自適應(yīng)圖卷積相結(jié)合的方式,同時(shí)通過(guò)嵌入時(shí)空注意力模塊提高特征的利用率,在校園安防實(shí)景中對(duì)拳打、腳踢、倒地、推搡、打耳光和跪地6 種典型動(dòng)作識(shí)別準(zhǔn)確率分別為94.5%,97.0%,98.5%,95.0%,94.5%,95.5%,識(shí)別速度最快為20.6 fps,且驗(yàn)證了模型的泛化能力。同時(shí)在行為識(shí)別數(shù)據(jù)集UCF101 上驗(yàn)證了方法的通用性,可以擴(kuò)展至人體其他動(dòng)作,在參數(shù)量比原始時(shí)空?qǐng)D卷積網(wǎng)絡(luò)減少了74.8% 的情況下,平均識(shí)別準(zhǔn)確率由85.6% 提高到89.7%,識(shí)別速度最大提高至19.3 fps,能夠較好地完成校園實(shí)際安防中出現(xiàn)最多的典型暴力行為識(shí)別任務(wù)。