OpenPose結(jié)合BP網(wǎng)絡(luò)的行為檢測(cè)方法

2020-06-08 09:56周德良

貴州大學(xué)學(xué)報(bào)（自然科學(xué)版） 2020年3期

周德良

摘要：采用OpenPose與BP網(wǎng)絡(luò)相結(jié)合的方法對(duì)人體整體或局部行為進(jìn)行分類檢測(cè)，首先利用人體姿態(tài)估計(jì)算法獲得人體骨架節(jié)點(diǎn)坐標(biāo)數(shù)據(jù)，然后利用BP分類網(wǎng)絡(luò)對(duì)節(jié)點(diǎn)坐標(biāo)數(shù)據(jù)進(jìn)行迭代訓(xùn)練與學(xué)習(xí)。檢測(cè)不同整體行為的分類模型，訓(xùn)練準(zhǔn)確率達(dá)100%，網(wǎng)絡(luò)損失僅為0.091，實(shí)測(cè)各類準(zhǔn)確率及總體準(zhǔn)確率均達(dá)100%;檢測(cè)局部行為的分類模型，訓(xùn)練準(zhǔn)確率亦達(dá)100%，網(wǎng)絡(luò)損失小于10-6，實(shí)測(cè)各類準(zhǔn)確率及總體準(zhǔn)確率均達(dá)100%;OpenPose與BP網(wǎng)絡(luò)相結(jié)合的方法不僅可以實(shí)現(xiàn)不同整體行為或局部行為快速、準(zhǔn)確的分類檢測(cè)任務(wù)，同時(shí)還克服了傳統(tǒng)行為檢測(cè)方法的不足，能夠?qū)崿F(xiàn)更高效、更準(zhǔn)確、更快速的分類檢測(cè)。

關(guān)鍵詞：BP神經(jīng)網(wǎng)絡(luò);OpenPose;行為識(shí)別;隱藏層

中圖分類號(hào)：TP391.4

文獻(xiàn)標(biāo)識(shí)碼： A

隨著人體行為識(shí)別技術(shù)和計(jì)算機(jī)視覺(jué)的快速發(fā)展，行為檢測(cè)和識(shí)別[1-3]在人機(jī)交互、視頻監(jiān)控和基于內(nèi)容的視頻檢索等領(lǐng)域變得越來(lái)越重要，已引起了學(xué)術(shù)界和工業(yè)界的廣泛關(guān)注，并成為計(jì)算機(jī)視覺(jué)領(lǐng)域的重要研究課題。行為檢測(cè)主要是對(duì)視頻或視頻流中人體行為模式進(jìn)行分析與識(shí)別，并分析判斷是否發(fā)生了指定的目標(biāo)行為，比如站立、坐著、躺臥等，當(dāng)檢測(cè)到指定目標(biāo)行為后則執(zhí)行后續(xù)相關(guān)操作。傳統(tǒng)的行為檢測(cè)方法主要包括模板匹配法、狀態(tài)空間法以及基于模型[4]的方法，這些方法普遍存在識(shí)別準(zhǔn)確率低、識(shí)別可靠性差等問(wèn)題，難以滿足對(duì)海量圖片進(jìn)行準(zhǔn)確、高效的行為檢測(cè)的需求。本文采用“姿態(tài)估計(jì)”與“分類網(wǎng)絡(luò)”相結(jié)合的方法，即利用OpenPose[5-8]與BP分類網(wǎng)絡(luò)[9-13] 相結(jié)合的方法對(duì)視頻或視頻流中的目標(biāo)行為進(jìn)行識(shí)別：首先，基于 OpenPose提取圖像中的人體骨架節(jié)點(diǎn)坐標(biāo)數(shù)據(jù);再次，將骨架節(jié)點(diǎn)坐標(biāo)數(shù)據(jù)作為 BP 分類網(wǎng)絡(luò)的輸入數(shù)據(jù)進(jìn)行迭代訓(xùn)練與學(xué)習(xí);最后，利用分類檢測(cè)模型輸出行為檢測(cè)結(jié)果。

1 BP神經(jīng)網(wǎng)絡(luò)

BP神經(jīng)網(wǎng)絡(luò)[11-13]是誤差反向傳播神經(jīng)網(wǎng)絡(luò)的簡(jiǎn)稱，是一種按照誤差反向傳播算法訓(xùn)練的多層前饋神經(jīng)網(wǎng)絡(luò)，其以網(wǎng)絡(luò)實(shí)際輸出值與期望輸出值之間的誤差均方差為目標(biāo)函數(shù)，利用梯度下降法使目標(biāo)函數(shù)最小以實(shí)現(xiàn)網(wǎng)絡(luò)最優(yōu)。BP神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)如圖1所示，包括輸入層、隱藏層、輸出層[14]，其中隱藏層可以包括一層或多層，BP神經(jīng)網(wǎng)絡(luò)不存在層與層之間的局部連接，而是全部保持全連接狀態(tài)。BP神經(jīng)網(wǎng)絡(luò)具有很強(qiáng)的非線性映射能力，可以對(duì)任一種非線性輸入輸出關(guān)系進(jìn)行逼近，在解決一些非線性問(wèn)題方面非常突出，已廣泛應(yīng)用在分類識(shí)別、模式識(shí)別、函數(shù)逼近、回歸預(yù)測(cè)等領(lǐng)域。

BP神經(jīng)網(wǎng)絡(luò)的訓(xùn)練流程：輸入信號(hào)經(jīng)輸入層輸入，通過(guò)隱含層的復(fù)雜計(jì)算由輸出層得到網(wǎng)絡(luò)輸出，以網(wǎng)絡(luò)輸出與期望輸出之間的誤差均方差為目標(biāo)函數(shù)，若目標(biāo)函數(shù)不滿足期望要求，則將誤差信號(hào)通過(guò)誤差反向傳播算法，由輸出層向輸入層逐層反傳并分?jǐn)偨o各層所有單元，并根據(jù)各單元誤差信號(hào)計(jì)算梯度來(lái)更新各單元權(quán)值及相關(guān)參數(shù)，參數(shù)更新后輸入信號(hào)再次由輸入層輸入網(wǎng)絡(luò)，重復(fù)上述過(guò)程，直到目標(biāo)函數(shù)滿足期望要求，或迭代過(guò)程達(dá)到預(yù)先設(shè)定的訓(xùn)練次數(shù)為止。

2 OpenPose

OpenPose算法[5-8]是由美國(guó)卡耐基梅隆大學(xué)（CMU）基于卷積神經(jīng)網(wǎng)絡(luò)[15-16]和監(jiān)督學(xué)習(xí)并以caffe[17-18]為框架開(kāi)發(fā)的人體姿態(tài)估計(jì)算法，該算法是自下而上的估計(jì)算法，即先得到關(guān)節(jié)點(diǎn)位置再獲得人體骨架。OpenPose是第一個(gè)用于多人二維姿態(tài)檢測(cè)的開(kāi)源實(shí)時(shí)系統(tǒng)，它可以獲得人體骨架節(jié)點(diǎn)并將它們很好地關(guān)聯(lián)起來(lái)，不會(huì)受到畫(huà)面中人數(shù)、人的位置與比例、以及人與人間肢體互動(dòng)的影響，同時(shí)，畫(huà)面中人數(shù)增加不會(huì)影響OpenPose的檢測(cè)實(shí)時(shí)性。OpenPose可以實(shí)現(xiàn)二維多人關(guān)鍵點(diǎn)實(shí)時(shí)識(shí)別，包括18個(gè)身體關(guān)鍵點(diǎn)的識(shí)別、70個(gè)面部關(guān)鍵點(diǎn)的識(shí)別、以及42個(gè)左右手關(guān)鍵點(diǎn)的識(shí)別，圖2所示為18個(gè)身體關(guān)鍵點(diǎn)的識(shí)別效果圖。因此，OpenPose可以實(shí)現(xiàn)面部表情、軀干、四肢及手指的姿態(tài)估計(jì)，適用于單人和多人實(shí)時(shí)檢測(cè)，且具有很好的魯棒性。

OpenPose的主體網(wǎng)絡(luò)結(jié)構(gòu)采用VGGNet網(wǎng)絡(luò)[19]作為骨架，然后采用兩個(gè)分支網(wǎng)絡(luò)分別回歸關(guān)節(jié)點(diǎn)位置 S 和像素點(diǎn)在骨架中的走向 L;兩個(gè)分支網(wǎng)絡(luò)的結(jié)構(gòu)是多階段迭代的，每個(gè)階段計(jì)算一次損失函數(shù)，然后將L、S以及通過(guò)VGGNet提取的原始圖像特征連結(jié)后繼續(xù)下一階段的訓(xùn)練。圖3所示為OpenPose的網(wǎng)絡(luò)結(jié)構(gòu)圖，其中 F 是通過(guò) VGGNet 提取出的原始圖像的特征，下標(biāo) 1 和 2 分別表示多階段迭代中的第一階段和第二階段。

3 整體行為分析

3.1 數(shù)據(jù)采集與處理

本文共采集站立、坐著、躺著共3類整體行為圖片，每類行為圖片均利用usb攝像頭采集1 250張，其中1 000張用于網(wǎng)絡(luò)訓(xùn)練，余下250張用于網(wǎng)絡(luò)實(shí)際測(cè)試。每類行為圖片均利用攝像頭從正面進(jìn)行采集，且采集過(guò)程中四肢、軀干保持自然狀態(tài)，無(wú)抬腿、摸頭、傾斜等有意狀態(tài)。利用OpenPose 對(duì)上述3類行為圖片中人體骨架節(jié)點(diǎn)的坐標(biāo)位置信息進(jìn)行提取，由此可得到軀干、四肢、頭部等部位共18個(gè)骨架節(jié)點(diǎn)（包括鼻子、脖子、右肩、右肘、右腕、左肩、左肘、左腕、右髖、右膝、右踝、左髖、左膝、左踝、右眼、左眼、右耳、左耳）的位置信息，并保存在json文件內(nèi)。

3.2 特征提取與學(xué)習(xí)

站立、坐著、躺著這3類整體行為主要與左右臂、左右腿和脖子共13個(gè)骨架節(jié)點(diǎn)有關(guān)，因此僅從json文件內(nèi)提取這13個(gè)骨架節(jié)點(diǎn)的坐標(biāo)位置信息作為BP網(wǎng)絡(luò)的輸入數(shù)據(jù)進(jìn)行迭代訓(xùn)練與學(xué)習(xí)，然后利用訓(xùn)練所得模型對(duì)實(shí)際行為數(shù)據(jù)進(jìn)行檢測(cè)，從而得到最終的結(jié)果分類與輸出，具體流程如圖4所示。

5 結(jié)論

（1）對(duì)每類250個(gè)共計(jì)750個(gè)行為數(shù)據(jù)進(jìn)行實(shí)際測(cè)試發(fā)現(xiàn)，無(wú)論是整體行為分類檢測(cè)，還是局部行為分類檢測(cè)，OpenPose與BP分類網(wǎng)絡(luò)相結(jié)合的方法均可以實(shí)現(xiàn)各類行為檢測(cè)準(zhǔn)確率達(dá)100%，總體檢測(cè)準(zhǔn)確率亦達(dá)到100%。

（2）OpenPose與BP分類網(wǎng)絡(luò)相結(jié)合的行為檢測(cè)方法，具有較好的行為檢測(cè)普適性，其不僅可以對(duì)軀干整體產(chǎn)生的整體行為進(jìn)行準(zhǔn)確、快速、有效的分類檢測(cè)，對(duì)局部軀干產(chǎn)生的局部行為同樣可以達(dá)到很好的分類檢測(cè)效果。

（3）OpenPose與BP分類網(wǎng)絡(luò)相結(jié)合的方法收斂速度快、訓(xùn)練耗時(shí)短，且克服了傳統(tǒng)行為檢測(cè)方法效率低、準(zhǔn)確率低、可靠性差等不足，能夠?qū)Υ笈啃袨閳D片進(jìn)行更高效、更準(zhǔn)確、更快速的行為分類檢測(cè)。

參考文獻(xiàn)：

[1]XIA L， CHEN C C， AGGARWAL J K. View invariant human action recognition using histograms of 3D joints[C]//Proceedings of the 2012 IEEE Conference on Computer Vision and Pattern Recognition Workshops. Piscataway， NJ： IEEE， 2012： 20-27.

[2]陸中秋，侯振杰，陳宸，等. 基于深度圖像與骨骼數(shù)據(jù)的行為識(shí)別[J]. 計(jì)算機(jī)應(yīng)用， 2016， 36（11）： 2979-2984.

[3]ADAM N R， ATLURI V， HUANG W K. Modeling and analysis of workflows using Petri nets[J]. Journal of Intelligent Information Systems， 1998， 10（2）： 131-158.

[4]鄒建. 基于BP神經(jīng)網(wǎng)絡(luò)的人體行為識(shí)別[J]. 網(wǎng)絡(luò)與信息安全， 2017， 3（9）：1-6.

[5]SATO K， NAGASHIMA Y， MANO T， et al. Quantifying normal and parkinsonian gait features from home movies： Practical application of a deep learning-based 2D pose estimator[J]. PloS one， 2019， 14（11）： 1-15.

[6]LI X， FAN Z， LIU Y B， et al. 3D pose detection of closely interactive humans using multi-view cameras[J]. SENSORS， 2019， 19（12）： 1-16.

[7]SONG C H， KIM S H. Robust vehicle occupant detection based on RGB-depth-thermal camera[J]. The Journal of Korea Robotics Society， 2018， 13（1）： 31-37.

[8]PARK J H， SONG K H， KIM Y S. A kidnapping detection using human pose estimation in intelligent video surveillance systems[J]. Journal of the Korea Society of Computer and Information， 2018， 23（8）： 9-16.

[9]呂學(xué)志，范保新，尹建，等. 基于BP神經(jīng)網(wǎng)絡(luò)的維修任務(wù)優(yōu)先級(jí)分類方法[J]. 計(jì)算機(jī)工程與應(yīng)用， 2014， 50（24）： 250-254.

[10]冷昕，張樹(shù)群，雷兆宜. 改進(jìn)的人工蜂群算法在神經(jīng)網(wǎng)絡(luò)中的應(yīng)用[J].計(jì)算機(jī)工程與應(yīng)用，2016，52（11）： 7-10.

[11]ZOU L， ZHAO Y X， JIAO B. Application of BP neural network in digital image recognition[J]. IOP Conference Series： Materials Science and Engineering， 2019， 490（7）： 1-5.

[12]ZHANG L， WANG F L， SUN T， et al. A constrained optimization method based on BP neural network[J]. Neural Computing & Applications， 2018， 29（2）： 413-421.

[13]ZHU Q L， WANG S G， SUN Q B， et al. Service classification based on improved BP neural network[J]. Journal of Internet Technology， 2018， 19（2）： 369-379.

[14]GULIYEV N J， ISMAILOV V E. On the approximation by single hidden layer feed forward neural networks with fixed weights[J]. Neural Networks， 2018， 98（12）： 296-304.

[15]SHI W W， GONG Y H， TAO X Y， et al. Improving CNN performance accuracies with min-max objective[J]. IEEE Transactions on Neural Networks & Learning Systems， 2018， 29（7）： 2872-2885.

[16]ZHANG X B， CHEN F C， HUANG R Y. A combination of RNN and CNN for attention-based relation classification[J]. Procedia Computer Science， 2018， 131（4）： 911-917.

[17]JIA Y Q， SHELHAMER E， DONAHUE J， et al. Caffe： convolutional architecture for fast feature embedding[J]. Computer Science， 2014， 2： 675-678.

[18]MAKOTO I， TETSUYA O， LEONARD B. A vegetable category recognition system： a comparison study for caffe and Chainer DNN frameworks[J]. Soft Computing， 2019， 23（9）： 3129-3136.

[19]LIU K H， ZHONG P S， ZHENG Y， et al. P_VggNet： A convolutional neural network （CNN） with pixel-based attention map[J]. PLOS ONE， 2018， 13（12）： 1-11.

（責(zé)任編輯：于慧梅）

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

OpenPose結(jié)合BP網(wǎng)絡(luò)的行為檢測(cè)方法