基于深度神經(jīng)網(wǎng)絡的行為識別算法

2021-03-15 07:01汪洋

電腦知識與技術(shù) 2021年3期

汪洋

摘要：在計算機視覺領域中，行為識別是重點研究問題。而隨著大規(guī)模行為數(shù)據(jù)的收集以及計算機水平的提升，深度神經(jīng)網(wǎng)絡得到了長足發(fā)展，計算機視覺性能超越了以往，但是當前方法也存在一些局限。本文就深度神經(jīng)網(wǎng)絡中的行為識別算法展開研究，首先闡述了行為識別現(xiàn)狀，其次分布分析了RGB視頻行為識別和人體骨架3D行為識別。

關(guān)鍵詞：深度神經(jīng)網(wǎng)絡;行為識別算法;集成學習

中圖分類號：TP393? ? ? 文獻標識碼：A

文章編號：1009-3044（2021）03-0017-02

隨著科技的發(fā)展，日常生活中的行為會被攝像頭記錄下來，大量視頻網(wǎng)站紛紛涌現(xiàn)。近年來，隨著智能手機的普及，人們會將日常生活中所拍攝的視頻發(fā)送到網(wǎng)上，這些視頻為計算機技術(shù)帶來了新的發(fā)展機遇。而在密集場所中，攝像設備安裝數(shù)量也越來越多，其中記錄了大量視頻資料，包含各種人體行為。這些功能都需要行為識別算法才能夠?qū)崿F(xiàn)，這對計算機視覺技術(shù)提出了更高的要求。

1 行為識別現(xiàn)狀

近年來，計算機視覺技術(shù)發(fā)展迅速，行為識別也得到了較大的發(fā)展，但是其中也存在一些問題亟待解決。當前，行為識別定義不夠確定，人體行為比較復雜，行為定義難度加大。同一行為在不同人的執(zhí)行下，流程有所不同，導致時序提取特征呈現(xiàn)復雜性現(xiàn)象。而現(xiàn)有RGB視頻數(shù)據(jù)集都是人工截取形成的長視頻，不同人的截取不同，樣本市場也不同，且存在信息冗雜、執(zhí)行主體不明等問題[1]。同時，不同角度攝像頭對同一行為的拍攝不同，會導致樣品出現(xiàn)較大差異，不同角度行為識別難度隨之增加。此外，針對復雜多人交互行為，樣本采集本身就比較困難，其還需要與人體分割結(jié)合起來，難度大大增加。

2 RGB視頻行為識別

人體行為分為時間和空間這兩個維度，基于此，本文基于深度神經(jīng)網(wǎng)絡展開設計，以解決RGB視頻行為識別中的不足。以卷積神經(jīng)網(wǎng)絡為空間特征提取器，設計的雙流長短時記憶模型，該模型如圖1所示。

2.1 特征提取

1） VGG16網(wǎng)絡。改為案例具有加強的空間特征提取力，其中蘊含13個卷積層以及3個全連接層，如圖2所示，其為網(wǎng)絡結(jié)構(gòu)。從圖中可以發(fā)現(xiàn)，該網(wǎng)絡的卷積核為3*3系列，對比5*5系列，計算量明顯減少。而網(wǎng)絡層數(shù)增加也使得網(wǎng)絡特征空間持續(xù)擴大，但是通道數(shù)也在逐漸增加。卷積操作能夠提取空間臨近視頻信息，重復操作能夠得到高緯度空間特征[2]。

2） ResNet152網(wǎng)。ResNet實現(xiàn)殘差連接，解決反向傳播午安梯度回傳問題，且在3*3卷積堆疊、批次正則化等基礎上，網(wǎng)絡層超過100層，且訓練參數(shù)也有所減少。重復殘差連接能夠?qū)崿F(xiàn)深度神經(jīng)網(wǎng)絡[3]。

2.2 長短時記憶模型

1）全連接長短時記憶模型。為解決循環(huán)神經(jīng)網(wǎng)絡中時間間隔大、無法連接長時間間隔外信息問題。由此提出了長短時極易模型，其中包含了遺忘門、輸入門、輸出門這三個門。其中，遺忘門包括t時刻輸入以及t-1時刻隱含狀態(tài)，其決定了信息需要丟棄多少，影響更新[4]。

2）卷積長短時記憶模型。該模型結(jié)構(gòu)類似于上一模型，其是將部分全連接變?yōu)榫矸e操作，通過卷積完成學習權(quán)重，卷積操作能夠?qū)W習空間信息，長短時記憶模型能夠?qū)崿F(xiàn)時序建模。在時序建模時就已經(jīng)提取了空間特征。

2.3 時間和時空注意力機制

1）時間注意力機制。為識別行為，在全連接長短時記憶模型后設計時間注意力機制，其能夠針對模型不同時刻輸出評分，進而自動學習視頻幀。該機制中包括全連接層和SoftMax函數(shù)、∑函數(shù)[5]。訓練完成后，價值視頻幀可得高分，無價值視頻幀得分較低，最后，通過一系列計算后可得整個視頻輸出特征。該機制如圖3所示。

2）時空注意力機制。卷積長短時記憶模型基礎上的注意力機制，其不僅能夠判斷幀，同時也能夠?qū)W習關(guān)鍵幀及其周邊區(qū)域。

2.4 聯(lián)合優(yōu)化模型

注意力機制后可得兩種輸出特征，其代表了一個行為視頻樣本，內(nèi)部特征較為相似。由此設計了聯(lián)合優(yōu)化模塊，可以對特征向量進行訓練，并將視頻中的語義、時間和空間等特征充分挖掘出來。由LSTM網(wǎng)絡產(chǎn)生的特征向量的注意模型各不相同，具有明顯特征，且存在內(nèi)在聯(lián)系。同時，利用同一分類器對兩個向量進行處理，進而得到其內(nèi)在聯(lián)系。通過兩倍量特征數(shù)據(jù)所得的訓練更強，得到的識別效果也更好。

3人體骨架3D行為識別

3.1基網(wǎng)絡

基網(wǎng)絡包括Block1、Block2和Block3三個模塊，堆疊完成后，連接均值池化層和全連接層。一個基本一維卷積層內(nèi)含一個一維卷積層以及批次歸一化層、修正線性激活單元激活函數(shù)、DropOut操作。如圖4。這種網(wǎng)絡無須大量數(shù)據(jù)就能夠?qū)崿F(xiàn)較好的訓練質(zhì)量，且結(jié)構(gòu)擴展性也比較好，各層間也能夠?qū)崿F(xiàn)任意添加，構(gòu)成所需網(wǎng)絡模型。

3.2 雙流網(wǎng)絡

該網(wǎng)絡中包括基網(wǎng)絡和SoftMax層。SoftMax層會產(chǎn)生相應類別分數(shù)，彼此相互融合。基網(wǎng)絡用于特區(qū)時間和空間兩個維度上的特征。SoftMax層能夠產(chǎn)生相應類別概率矩陣，得分可以融合。矩陣中，元素表示網(wǎng)絡對表現(xiàn)置信水平，二者成正比。矩陣相應元素經(jīng)過計算可得新矩陣，其中的元素差異比較大，也就是說，彼此置信水平會有較大差異，在于時間和空間判別信息結(jié)合后，可以提高網(wǎng)絡信息判定可靠性，且有著更好的識別效果[6]。

3.3 肢體分離網(wǎng)絡

日常生活的大部分行為都需要肢體運動才能完成，但是其中應用的肢體只是一部分，其他的肢體是處于靜止狀態(tài)的。這種行為就是微觀行為?；诖耍疚脑O計了一種微觀特征提取網(wǎng)絡。人體包括五部分，在整個進入網(wǎng)絡前，可以分為五部分，之后分別將其數(shù)據(jù)融合到各自的基網(wǎng)絡中。根據(jù)數(shù)據(jù)微觀特征，神經(jīng)網(wǎng)絡可以提取微觀運動特征。

3.4 注意力網(wǎng)絡

注意力機制包括全連接層和SoftMax層。全連接層需要激活函數(shù)，SoftMax層則需要針對每幀或每個特征通道評分，賦予關(guān)鍵幀或特征通道更高分，之后經(jīng)過計算構(gòu)成新特征。在基網(wǎng)絡卷積層和Block上附著注意力機制。

3.5 幀差網(wǎng)絡

本文設計了幀差網(wǎng)絡對行為相對運動特征進行提取。通過函數(shù)計算處理了原始樣本數(shù)據(jù)，可得新相對位置信息，其能夠?qū)⑿袨檫\動情況直接表達出來，幀差網(wǎng)絡包括基網(wǎng)絡和SoftMax層，在該網(wǎng)絡中，卷積核只能夠在時間維度進行滑動。

3.6 訓練測試

訓練時，本文的目標焊接就是交叉熵損失函數(shù)。在子網(wǎng)絡進行獨立訓練時，其中的SoftMax層可得相應的概率矩陣，測試時，本身針對四個概率矩陣設計兩種方法完成融合，這兩種方法分別為相乘和相加這兩種融合。

4 結(jié)束語

計算機視覺技術(shù)迅速發(fā)展使得人們對于視覺信息的理解更加深入，計算機就是通過收集人體行為數(shù)據(jù)，理解人體行為，擴大了應用范圍，提高了應用率。深度學習就是通過計算機強大的硬件條件及其所收集的大量樣本，使得計算機視覺和語言處理效果提高。

參考文獻：

[1] 齊琦，錢慧芳.基于融合3DCNN神經(jīng)網(wǎng)絡的行為識別[J].電子測量技術(shù)，2019，42（22）：140-144.

[2] 陳勝，朱國勝，祁小云，等.基于深度神經(jīng)網(wǎng)絡的自定義用戶異常行為檢測[J].計算機科學，2019，46（S2）：442-445，472.

[3] 張怡佳，茅耀斌.基于雙流卷積神經(jīng)網(wǎng)絡的改進人體行為識別算法[J].計算機測量與控制，2018，26（8）：266-269，274.

[4] 劉云，張堃，王傳旭.基于雙流卷積神經(jīng)網(wǎng)絡的人體行為識別方法[J].計算機系統(tǒng)應用，2019，28（7）：234-239.

[5] 關(guān)百勝，卞春江，馮水春，等.基于神經(jīng)網(wǎng)絡的交互式異常行為識別研究[J].電子設計工程，2018，26（20）：1-5.

[6] 石英，孫明軍，李之達，等.基于運動歷史圖像與卷積神經(jīng)網(wǎng)絡的行為識別[J].湘潭大學學報（自然科學版），2019，41（2）：109-117.

【通聯(lián)編輯：光文玲】

電腦知識與技術(shù)2021年3期

電腦知識與技術(shù)的其它文章: 網(wǎng)絡教學資源使用效能的可視化分析平臺設計; 利用數(shù)據(jù)庫觸發(fā)器實現(xiàn)金融賬務管理; 防火墻在企業(yè)網(wǎng)絡安全防護的應用; 計算思維課程混合教學模式的改革實踐; 基于小波自適應閾值的心音信號降噪方法; 游戲《泊羅之旅》的設計與開發(fā)

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于深度神經(jīng)網(wǎng)絡的行為識別算法