汪洋
摘要:在計算機視覺領域中,行為識別是重點研究問題。而隨著大規(guī)模行為數(shù)據(jù)的收集以及計算機水平的提升,深度神經(jīng)網(wǎng)絡得到了長足發(fā)展,計算機視覺性能超越了以往,但是當前方法也存在一些局限。本文就深度神經(jīng)網(wǎng)絡中的行為識別算法展開研究,首先闡述了行為識別現(xiàn)狀,其次分布分析了RGB視頻行為識別和人體骨架3D行為識別。
關(guān)鍵詞:深度神經(jīng)網(wǎng)絡;行為識別算法;集成學習
中圖分類號:TP393? ? ? 文獻標識碼:A
文章編號:1009-3044(2021)03-0017-02
隨著科技的發(fā)展,日常生活中的行為會被攝像頭記錄下來,大量視頻網(wǎng)站紛紛涌現(xiàn)。近年來,隨著智能手機的普及,人們會將日常生活中所拍攝的視頻發(fā)送到網(wǎng)上,這些視頻為計算機技術(shù)帶來了新的發(fā)展機遇。而在密集場所中,攝像設備安裝數(shù)量也越來越多,其中記錄了大量視頻資料,包含各種人體行為。這些功能都需要行為識別算法才能夠?qū)崿F(xiàn),這對計算機視覺技術(shù)提出了更高的要求。
1 行為識別現(xiàn)狀
近年來,計算機視覺技術(shù)發(fā)展迅速,行為識別也得到了較大的發(fā)展,但是其中也存在一些問題亟待解決。當前,行為識別定義不夠確定,人體行為比較復雜,行為定義難度加大。同一行為在不同人的執(zhí)行下,流程有所不同,導致時序提取特征呈現(xiàn)復雜性現(xiàn)象。而現(xiàn)有RGB視頻數(shù)據(jù)集都是人工截取形成的長視頻,不同人的截取不同,樣本市場也不同,且存在信息冗雜、執(zhí)行主體不明等問題[1]。同時,不同角度攝像頭對同一行為的拍攝不同,會導致樣品出現(xiàn)較大差異,不同角度行為識別難度隨之增加。此外,針對復雜多人交互行為,樣本采集本身就比較困難,其還需要與人體分割結(jié)合起來,難度大大增加。
2 RGB視頻行為識別
人體行為分為時間和空間這兩個維度,基于此,本文基于深度神經(jīng)網(wǎng)絡展開設計,以解決RGB視頻行為識別中的不足。以卷積神經(jīng)網(wǎng)絡為空間特征提取器,設計的雙流長短時記憶模型,該模型如圖1所示。
2.1 特征提取
1) VGG16網(wǎng)絡。改為案例具有加強的空間特征提取力,其中蘊含13個卷積層以及3個全連接層,如圖2所示,其為網(wǎng)絡結(jié)構(gòu)。從圖中可以發(fā)現(xiàn),該網(wǎng)絡的卷積核為3*3系列,對比5*5系列,計算量明顯減少。而網(wǎng)絡層數(shù)增加也使得網(wǎng)絡特征空間持續(xù)擴大,但是通道數(shù)也在逐漸增加。卷積操作能夠提取空間臨近視頻信息,重復操作能夠得到高緯度空間特征[2]。
2) ResNet152網(wǎng)。ResNet實現(xiàn)殘差連接,解決反向傳播午安梯度回傳問題,且在3*3卷積堆疊、批次正則化等基礎上,網(wǎng)絡層超過100層,且訓練參數(shù)也有所減少。重復殘差連接能夠?qū)崿F(xiàn)深度神經(jīng)網(wǎng)絡[3]。
2.2 長短時記憶模型
1) 全連接長短時記憶模型。為解決循環(huán)神經(jīng)網(wǎng)絡中時間間隔大、無法連接長時間間隔外信息問題。由此提出了長短時極易模型,其中包含了遺忘門、輸入門、輸出門這三個門。其中,遺忘門包括t時刻輸入以及t-1時刻隱含狀態(tài),其決定了信息需要丟棄多少,影響更新[4]。
2) 卷積長短時記憶模型。該模型結(jié)構(gòu)類似于上一模型,其是將部分全連接變?yōu)榫矸e操作,通過卷積完成學習權(quán)重,卷積操作能夠?qū)W習空間信息,長短時記憶模型能夠?qū)崿F(xiàn)時序建模。在時序建模時就已經(jīng)提取了空間特征。
2.3 時間和時空注意力機制
1) 時間注意力機制。為識別行為,在全連接長短時記憶模型后設計時間注意力機制,其能夠針對模型不同時刻輸出評分,進而自動學習視頻幀。該機制中包括全連接層和SoftMax函數(shù)、∑函數(shù)[5]。訓練完成后,價值視頻幀可得高分,無價值視頻幀得分較低,最后,通過一系列計算后可得整個視頻輸出特征。該機制如圖3所示。
2) 時空注意力機制。卷積長短時記憶模型基礎上的注意力機制,其不僅能夠判斷幀,同時也能夠?qū)W習關(guān)鍵幀及其周邊區(qū)域。
2.4 聯(lián)合優(yōu)化模型
注意力機制后可得兩種輸出特征,其代表了一個行為視頻樣本,內(nèi)部特征較為相似。由此設計了聯(lián)合優(yōu)化模塊,可以對特征向量進行訓練,并將視頻中的語義、時間和空間等特征充分挖掘出來。由LSTM網(wǎng)絡產(chǎn)生的特征向量的注意模型各不相同,具有明顯特征,且存在內(nèi)在聯(lián)系。同時,利用同一分類器對兩個向量進行處理,進而得到其內(nèi)在聯(lián)系。通過兩倍量特征數(shù)據(jù)所得的訓練更強,得到的識別效果也更好。
3人體骨架3D行為識別
3.1基網(wǎng)絡
基網(wǎng)絡包括Block1、Block2和Block3三個模塊,堆疊完成后,連接均值池化層和全連接層。一個基本一維卷積層內(nèi)含一個一維卷積層以及批次歸一化層、修正線性激活單元激活函數(shù)、DropOut操作。如圖4。這種網(wǎng)絡無須大量數(shù)據(jù)就能夠?qū)崿F(xiàn)較好的訓練質(zhì)量,且結(jié)構(gòu)擴展性也比較好,各層間也能夠?qū)崿F(xiàn)任意添加,構(gòu)成所需網(wǎng)絡模型。
3.2 雙流網(wǎng)絡
該網(wǎng)絡中包括基網(wǎng)絡和SoftMax層。SoftMax層會產(chǎn)生相應類別分數(shù),彼此相互融合。基網(wǎng)絡用于特區(qū)時間和空間兩個維度上的特征。SoftMax層能夠產(chǎn)生相應類別概率矩陣,得分可以融合。矩陣中,元素表示網(wǎng)絡對表現(xiàn)置信水平,二者成正比。矩陣相應元素經(jīng)過計算可得新矩陣,其中的元素差異比較大,也就是說,彼此置信水平會有較大差異,在于時間和空間判別信息結(jié)合后,可以提高網(wǎng)絡信息判定可靠性,且有著更好的識別效果[6]。
3.3 肢體分離網(wǎng)絡
日常生活的大部分行為都需要肢體運動才能完成,但是其中應用的肢體只是一部分,其他的肢體是處于靜止狀態(tài)的。這種行為就是微觀行為?;诖耍疚脑O計了一種微觀特征提取網(wǎng)絡。人體包括五部分,在整個進入網(wǎng)絡前,可以分為五部分,之后分別將其數(shù)據(jù)融合到各自的基網(wǎng)絡中。根據(jù)數(shù)據(jù)微觀特征,神經(jīng)網(wǎng)絡可以提取微觀運動特征。
3.4 注意力網(wǎng)絡
注意力機制包括全連接層和SoftMax層。全連接層需要激活函數(shù),SoftMax層則需要針對每幀或每個特征通道評分,賦予關(guān)鍵幀或特征通道更高分,之后經(jīng)過計算構(gòu)成新特征。在基網(wǎng)絡卷積層和Block上附著注意力機制。
3.5 幀差網(wǎng)絡
本文設計了幀差網(wǎng)絡對行為相對運動特征進行提取。通過函數(shù)計算處理了原始樣本數(shù)據(jù),可得新相對位置信息,其能夠?qū)⑿袨檫\動情況直接表達出來,幀差網(wǎng)絡包括基網(wǎng)絡和SoftMax層,在該網(wǎng)絡中,卷積核只能夠在時間維度進行滑動。
3.6 訓練測試
訓練時,本文的目標焊接就是交叉熵損失函數(shù)。在子網(wǎng)絡進行獨立訓練時,其中的SoftMax層可得相應的概率矩陣,測試時,本身針對四個概率矩陣設計兩種方法完成融合,這兩種方法分別為相乘和相加這兩種融合。
4 結(jié)束語
計算機視覺技術(shù)迅速發(fā)展使得人們對于視覺信息的理解更加深入,計算機就是通過收集人體行為數(shù)據(jù),理解人體行為,擴大了應用范圍,提高了應用率。深度學習就是通過計算機強大的硬件條件及其所收集的大量樣本,使得計算機視覺和語言處理效果提高。
參考文獻:
[1] 齊琦,錢慧芳.基于融合3DCNN神經(jīng)網(wǎng)絡的行為識別[J].電子測量技術(shù),2019,42(22):140-144.
[2] 陳勝,朱國勝,祁小云,等.基于深度神經(jīng)網(wǎng)絡的自定義用戶異常行為檢測[J].計算機科學,2019,46(S2):442-445,472.
[3] 張怡佳,茅耀斌.基于雙流卷積神經(jīng)網(wǎng)絡的改進人體行為識別算法[J].計算機測量與控制,2018,26(8):266-269,274.
[4] 劉云,張堃,王傳旭.基于雙流卷積神經(jīng)網(wǎng)絡的人體行為識別方法[J].計算機系統(tǒng)應用,2019,28(7):234-239.
[5] 關(guān)百勝,卞春江,馮水春,等.基于神經(jīng)網(wǎng)絡的交互式異常行為識別研究[J].電子設計工程,2018,26(20):1-5.
[6] 石英,孫明軍,李之達,等.基于運動歷史圖像與卷積神經(jīng)網(wǎng)絡的行為識別[J].湘潭大學學報(自然科學版),2019,41(2):109-117.
【通聯(lián)編輯:光文玲】