基于神經(jīng)網(wǎng)絡(luò)的骨骼特征融合下坐姿快速識別*

2022-08-19 01:02:04房志遠石守東鄭佳罄胡加鈿

傳感技術(shù)學(xué)報 2022年5期

房志遠，石守東，鄭佳罄，胡加鈿

(寧波大學(xué) 信息科學(xué)與工程學(xué)院，浙江寧波315211)

現(xiàn)代化辦公主導(dǎo)模式使坐姿作業(yè)變得普及，許多人面臨著與這種久坐的生活方式直接相關(guān)的各種疾病，如辦公室工作人員不適當(dāng)?shù)淖藙菔桥c工作有關(guān)的肌肉骨骼疾病的最重要的危險因素之一，直接后果可能是背痛，間接后果則與頸椎病、近視、心血管疾病和過早死亡有關(guān)[1]。因此，坐姿的研究在人機交互、醫(yī)療健康、交通安全等領(lǐng)域具有較高的應(yīng)用價值。

人體坐姿識別作為人體姿態(tài)識別的一個重要分支，目前主要研究方法包括基于接觸式傳感器和基于計算機視覺兩方面。其中，基于接觸式傳感器方法[2-9]識別實時性較好，但成本較高且需要與人體相接觸，一定程度上限制了工作活動中的行動自由。相反，基于計算機視覺的識別方法成本相對較低、易推廣。同時，深度學(xué)習(xí)姿態(tài)估計算法近些年取得了較好的成果，越來越受人關(guān)注。

目前基于計算機視覺的姿態(tài)識別方法主要是通過骨骼信息建立人體姿態(tài)特征，并利用分類器實現(xiàn)姿態(tài)識別。其中一方面是利用具有骨骼關(guān)節(jié)信息檢測功能的深度攝像機獲取深度圖像和骨骼信息(如微軟Kinect 和英特爾Realsense)，結(jié)合兩者信息建立三維人體姿態(tài)。文獻[10]利用Kinect 攝像機獲得的深度圖像和人體輪廓圖，提取前景進行三視圖映射，并利用三視圖數(shù)據(jù)集對網(wǎng)絡(luò)進行訓(xùn)練，訓(xùn)練和推理過程都涉及到圖片預(yù)處理并計算三視圖，因此計算量較大，但利用了雙輸出分別預(yù)測左右和前后姿態(tài)，提高了坐姿分類精度。文獻[11]使用Kinect采集骨骼信息并分別訓(xùn)練支持向量機(SVM)和人工神經(jīng)網(wǎng)絡(luò)(ANN)實現(xiàn)姿態(tài)分類。文獻[12]提出一種基于RIPPER 規(guī)則學(xué)習(xí)算法，利用bagging 算法和隨機子空間方法創(chuàng)建規(guī)則集成，允許訓(xùn)練100 個規(guī)則集組成一個規(guī)則集成，并通過多數(shù)投票進行最終分類。文獻[13]提出一種基于三維卷積神經(jīng)網(wǎng)絡(luò)的姿態(tài)識別方法，利用深度攝像機獲得三維關(guān)節(jié)位置，并用高斯函數(shù)生成三維高斯體素特征，隨后將其輸入到三維姿態(tài)網(wǎng)絡(luò)進行姿態(tài)分類。文獻[14]利用深度圖像獲得3D 骨骼模型，然后計算3D 關(guān)節(jié)距離特征和幾何角度特征作為輸入，送入SVM 分類器進行分類。文獻[15]提出一種基于MobileNetV2的深度循環(huán)層次網(wǎng)絡(luò)(DRHN)模型，該模型通過接受RGB-D 幀序列并產(chǎn)生語義相關(guān)的姿態(tài)狀態(tài)表示，減少了軀干遮擋情況下的姿態(tài)檢測失敗。以上方法都獲得了較好的精度和實時性，但由于算法僅面向PC 端，且依賴于具有骨骼關(guān)節(jié)檢測功能的深度攝像頭，價格高昂，在生產(chǎn)生活中無法大規(guī)模普及。

另一方面則是利用深度學(xué)習(xí)方法實現(xiàn)人體骨骼關(guān)節(jié)點檢測(又稱姿態(tài)估計)，并利用骨骼關(guān)節(jié)點信息計算人體姿態(tài)特征。文獻[16]提出使用姿態(tài)估計OpenPose 模型構(gòu)造表征人體姿態(tài)的骨骼特征數(shù)據(jù)集，并用此來訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)，對不良坐姿進行分類。文獻[17]通過使用OpenPose 模型獲取人體骨骼關(guān)節(jié)坐標，并將其分別送入人工神經(jīng)網(wǎng)絡(luò)、支持向量機和決策樹，并對分類的準確率進行比較，預(yù)測結(jié)果送入樹莓派用來控制家用電器。文獻[18]提出一種基于OpenPose 模型的中國古典舞基本手位識別方法，并將其部署到人工智能開發(fā)板中。文獻[19]通過OpenPose 模型提取骨架信息，并利用18 個關(guān)節(jié)點計算肢體間的角度和距離特征，最后采用基于規(guī)則的決策方法對坐姿和站立姿勢進行分類。文獻[20]提出了一種基于OpenPose 模型的跌倒檢測模型，在骨骼關(guān)節(jié)點的基礎(chǔ)上，結(jié)合SSD-MobileNet 對象檢測框架消除非人類區(qū)域所識別到的關(guān)節(jié)點，減少算法的誤檢率，從目標中提取關(guān)節(jié)信息送入SVM 分類器進行分類。此類方法隨著深度學(xué)習(xí)算法檢測性能的不斷提升，同時因為利用攝像頭采集二維圖像的方法成本低，其應(yīng)用范圍越來廣泛，但缺點是網(wǎng)絡(luò)模型的參數(shù)量和計算復(fù)雜度也隨之增大，使其很難在資源有限的嵌入式設(shè)備上獲得較快的推理速度。

為了解決在有限資源上實現(xiàn)坐姿快速高精度識別的問題，本文提出了一種基于神經(jīng)網(wǎng)絡(luò)的骨骼特征融合下坐姿快速識別方法，針對關(guān)節(jié)點檢測模型OpenPose[21]參數(shù)量和計算復(fù)雜度較大、推理速度較慢的問題，提出對骨干網(wǎng)絡(luò)進行優(yōu)化，并利用基于自適應(yīng)批量歸一化(BN)層的候選評估模塊對預(yù)訓(xùn)練好的模型進行剪枝，從而減少模型所需要的設(shè)備資源，同時改進坐姿識別算法，在原始骨骼關(guān)節(jié)特征基礎(chǔ)上融合骨骼圖像，提升識別精度。

1 坐姿識別方法設(shè)計

1.1 算法總體結(jié)構(gòu)

傳統(tǒng)基于深度學(xué)習(xí)的坐姿識別方法總體結(jié)構(gòu)如圖1 所示，主要由三部分組成: OpenPose 姿態(tài)估計(關(guān)節(jié)點檢測)部分、特征提取部分和坐姿識別部分。具體來說，算法首先利用OpenPose 姿態(tài)估計模型實現(xiàn)人體骨骼關(guān)節(jié)點檢測，特征提取部分利用關(guān)節(jié)點信息計算人體坐姿特征，最后將特征輸入神經(jīng)網(wǎng)絡(luò)實現(xiàn)坐姿分類。坐姿分類網(wǎng)絡(luò)由一個輸入層、2個隱含層以及1 個輸出層組成，每個隱含層包括300 個神經(jīng)元。

圖1 基于深度學(xué)習(xí)的坐姿識別方法總體結(jié)構(gòu)

根據(jù)算法總體結(jié)構(gòu)可知，影響最終坐姿識別精度的主要有兩個方面:姿態(tài)估計算法檢測關(guān)節(jié)點的可靠性以及提取特征的表征能力。為了提高坐姿識別的精度，對特征提取部分進行改進，在骨骼關(guān)節(jié)特征向量基礎(chǔ)上融合骨骼圖片特征向量，特征提取示意圖如圖2 所示，一方面利用12 個骨骼關(guān)節(jié)點來計算表征人體坐姿的特征向量，分別包括:10 個角度特征、12 個骨骼關(guān)節(jié)點歸一化坐標、66 個歸一化距離特征、22 個向量特征。另一方面通過訓(xùn)練好的卷積神經(jīng)網(wǎng)絡(luò)模型提取骨骼圖像特征，將網(wǎng)絡(luò)的輸出與骨骼關(guān)節(jié)特征向量融合，形成新的坐姿特征向量，融合后的特征向量較大程度上表征了人體坐姿特征，利用其對神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練可以提高分類精度。

圖2 特征提取示意圖

1.2 骨骼關(guān)節(jié)特征提取

基于骨骼信息建立人體姿態(tài)特征是姿態(tài)識別的主要方法。近些年，受益于深度學(xué)習(xí)姿態(tài)估計算法的高精度和泛化能力，可用其代替深度相機提取關(guān)節(jié)信息。

目前深度學(xué)習(xí)姿態(tài)估計算法可分為兩類，一是自下而上的姿態(tài)估計方法，算法首先檢測出圖片中的所有關(guān)節(jié)點坐標，然后將這些關(guān)節(jié)點組合成每一個個體。相反，自上而下的姿態(tài)估計方法先檢測每一個個體再估計關(guān)節(jié)點。在檢測速度方面自下而上的方法更有優(yōu)勢。其中，OpenPose 是目前使用較為廣泛[16-20，22]的自下而上的姿態(tài)估計方法，可對坐姿圖片進行骨骼關(guān)節(jié)點檢測。考慮到實際辦公場景下攝像頭一般位于人的正前方，原始算法可以檢測到18 個人體關(guān)節(jié)點，這里只取用了上半身12 個骨骼關(guān)節(jié)點信息，包括左右眼、左右耳、鼻子、嘴巴、脖子、左右肩、左右手肘和左右手腕。

在實際攝像頭采集的過程中，因攝像頭擺放位置或坐姿偏移造成的坐標差異，會導(dǎo)致其骨骼關(guān)節(jié)點的絕對空間位置存在較大差異。對于一個給予的特定姿態(tài)，它應(yīng)該獨立于關(guān)節(jié)的絕對空間位置，而依賴所有關(guān)節(jié)間的相對位置。因此，在這種情況下需要將關(guān)節(jié)的坐標歸一化到[0，1]范圍內(nèi)。為了解決這一問題，本文采用基于邊界框的歸一化方法[13]，其方法的主要思想是利用訓(xùn)練集中骨架的最大邊界框邊長對骨架進行歸一化。具體來說，對于訓(xùn)練集中給定的第i 個骨架(包含12 個骨骼關(guān)節(jié)點的2D 坐標信息)，骨架兩個維度的最大和最小坐標值分別定義為。這個骨架的最大邊界框邊長為li=。因此，擁有N個骨架信息的訓(xùn)練數(shù)據(jù)集，最大邊界框邊長L=max(li)，i∈N，最后，每一個骨骼關(guān)節(jié)的坐標可用式(1)計算。

式中:xmax，xmin為當(dāng)前骨架的最大和最小X軸坐標，x為原始X軸坐標，xnorm為歸一化后的X軸坐標。縱坐標的處理方法和橫坐標相同。通過這種方式，每個骨架被常數(shù)L歸一化，并且骨架的中心對齊到[0.5，0.5]，由于L是不變的，骨架的結(jié)構(gòu)特征也保持了一致性。第二種特征為關(guān)節(jié)間的角度特征，對于一個給定的姿態(tài)，關(guān)節(jié)間的角度特征不會受用戶的高度影響，另一方面關(guān)節(jié)角度縮放和旋轉(zhuǎn)不會發(fā)生改變，因此它們不依賴于主體的高度或用戶相對于相機的距離和方向，這里提取了11 對身體的10 個角度，其中11 對身體由手腕與肘、肘與肩、肩與脖子、脖子與鼻子、鼻子與眼睛以及眼睛與耳朵節(jié)點形成，角度特征則由各相鄰肢體的夾角組成。第三種特征為歸一化身體距離信息。最后還包括11 對身體的22 個向量特征，其中向量特征由X軸和Y軸方向組成。

1.3 骨骼圖像特征提取

獲取更多有價值的姿態(tài)特征是提高姿態(tài)分類精度的關(guān)鍵。這里首先使用Openpose 姿態(tài)估計模型對原始數(shù)據(jù)集進行關(guān)節(jié)點檢測，根據(jù)關(guān)節(jié)信息制作骨骼圖像數(shù)據(jù)集，并訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)。訓(xùn)練后的卷積神經(jīng)網(wǎng)絡(luò)被用于提取骨骼圖像特征，最后一層全連接輸出被融合用作訓(xùn)練坐姿識別網(wǎng)絡(luò)。提出的卷積神經(jīng)網(wǎng)絡(luò)識別框架如圖3 所示，其中，輸入骨骼圖像為224×224 RGB 圖像，卷積操作為3×3，池化操作為2×2。

圖3 提出的卷積神經(jīng)網(wǎng)絡(luò)識別框架

2 模型分析和優(yōu)化

OpenPose 姿態(tài)估計模型雖有較好的檢測性能。但是由于模型本身參數(shù)量和計算復(fù)雜度較大，導(dǎo)致程序運行過程中模型推理占具了極大部分的計算資源，在資源有限的嵌入式設(shè)備上應(yīng)用困難。

由圖1 上部分原始OpenPose 網(wǎng)絡(luò)結(jié)構(gòu)可知，其網(wǎng)絡(luò)結(jié)構(gòu)主要由三個部分組成:VGG 骨干網(wǎng)絡(luò)、一個初始化階段和多個細化階段。其中表1 為模型各階段計算量和精度對比[23]，AP 為平均精度，GFLOPs 為每秒浮點運算次數(shù)，圖像輸入大小368×368。通過分析對比可知模型的主要計算復(fù)雜度集中在骨干網(wǎng)絡(luò)和細化階段上，計算復(fù)雜度分別占了28.14%和68.33%。

表1 OpenPose 模型各階段計算量和精度對比

為了提高檢測速度，對原始OpenPose 網(wǎng)絡(luò)模型進行了結(jié)構(gòu)替換和剪枝的優(yōu)化工作，以減少模型參數(shù)量和計算復(fù)雜度，達到提高推理速度的目的。最后優(yōu)化后的模型需使用COCO 骨骼關(guān)節(jié)點數(shù)據(jù)集進行再訓(xùn)練，以恢復(fù)兩個階段優(yōu)化后的精度損失。詳細優(yōu)化過程如下兩部分。

2.1 骨干網(wǎng)絡(luò)替換

OpenPose 網(wǎng)絡(luò)訓(xùn)練過程包括兩部分，第一部分是骨干網(wǎng)絡(luò)在ImageNet 數(shù)據(jù)集上進行訓(xùn)練，第二部分是使用MS COCO 骨骼關(guān)節(jié)點數(shù)據(jù)集對整個模型進行訓(xùn)練。針對原始模型骨干網(wǎng)絡(luò)VGG 參數(shù)量和計算復(fù)雜度較大的問題，第一部分的骨干網(wǎng)絡(luò)可由其他性能較好且參數(shù)量和計算復(fù)雜度相對較低的模型替代。這里比較了三種網(wǎng)絡(luò)模型，如表2 所示。

表2 網(wǎng)絡(luò)性能比較

對比發(fā)現(xiàn)輕量化網(wǎng)絡(luò)Mobilenet 可以獲得和原始網(wǎng)絡(luò)相當(dāng)?shù)木?，同時模型計算復(fù)雜度和參數(shù)量大幅度減少。因此，這里使用Mobilenet 網(wǎng)絡(luò)對原始VGG進行替換，同時刪除了Conv4＿3，Conv4＿4，以及修改Block＿12＿add 層的輸出特征圖尺寸，最后將其與Block＿5＿add 層的輸出特征圖進行連接作為初始化階段的輸入特征圖。替換后的網(wǎng)絡(luò)組成如圖4 所示。

圖4 替換后的網(wǎng)絡(luò)

2.2 細化階段網(wǎng)絡(luò)剪枝

多個細化階段(Refinement stage)網(wǎng)絡(luò)提升了模型對關(guān)節(jié)點置信圖和親和度向量的預(yù)測能力，同時不可避免地增加了計算開銷。為了盡可能減少模型所需計算資源，利用基于自適應(yīng)批量歸一化(BN)的候選評估模塊[27]對細化階段進行剪枝操作，通過設(shè)置合適的全局剪枝率獲得基于平臺的最佳精度和模型大小間的平衡。

2.2.1 自適應(yīng)批量歸一化(BN)

BN 層具有加速網(wǎng)絡(luò)收斂并提升準確率的作用，現(xiàn)已廣泛應(yīng)用到卷積神經(jīng)網(wǎng)絡(luò)中。在實際網(wǎng)絡(luò)模型中，BN 一般置于卷積層和線性層之后，對上層操作得到的特征圖進行歸一化，從而產(chǎn)生更加穩(wěn)定的分布。原始BN 操作如式(2)所示。

式中:γ和β是可訓(xùn)練的，分別代表BN 的特征縮放系數(shù)和偏移系數(shù)。ε為一個非常小的值，為了避免分母為零。μ和σ2為向量，分別用來記錄每一個通道特征圖的均值和方差，其元素值會在前向傳播中得到更新。對于一個尺寸為N的批量(batch)樣本，μ和σ2統(tǒng)計值的計算如式(3)。

當(dāng)進行訓(xùn)練時，μ和σ2通過移動均值和方差計算得到，如式(4):

式中:m為動量系數(shù)、下標t為訓(xùn)練迭代次數(shù)。在一個訓(xùn)練過程中，如果需要總的訓(xùn)練次數(shù)為T，μT和σ2T則就是最終測試階段的μ和σ2。

以上所述的兩項BN 統(tǒng)計值是基于完整網(wǎng)絡(luò)得到的，而對于一個剪枝后的子網(wǎng)絡(luò)，其統(tǒng)計值均值μ和方差σ2已經(jīng)過時，因此需要利用部分數(shù)據(jù)集進行幾次推理，重新計算自適應(yīng)值μ和σ2，其目的是為了BN 統(tǒng)計值適應(yīng)于剪枝后的網(wǎng)絡(luò)。具體來說，在訓(xùn)練之前凍結(jié)所有反向傳播可更新的網(wǎng)絡(luò)參數(shù)W。最后通過幾次前向傳播，使用式(4)對移動均值和方差進行更新，更新后的均值和方差定義為^μ和^σ2。

2.2.2 剪枝過程

由表1 模型各階段計算量可知，通過增加細化網(wǎng)絡(luò)3、4 和5 所帶來的精度提升較小，但其復(fù)雜度卻大幅增加，這里首先將其三階段全部移除，其次通過基于自適應(yīng)BN 的剪枝模塊對其余階段進行核剪枝，剪枝工作流程如圖5 所示。

圖5 基于自適應(yīng)批量歸一化評估模塊的剪枝工作流程

剪枝過程主要由6 部分組分。具體來說，首先對第一部分優(yōu)化后的網(wǎng)絡(luò)進行訓(xùn)練，然后提取模型中細化階段參與剪枝的卷積層索引，通過隨機生成多個剪枝策略，每一個策略為各索引層的剪枝率。第四部分使用L1 范數(shù)準則，根據(jù)剪枝策略進行剪枝，得到候選網(wǎng)絡(luò)。

第五部分通過基于自適應(yīng)BN 的候選評估模塊對所有候選模型的BN 統(tǒng)計值μ和σ2進行更新，并利用小部分訓(xùn)練集評估每一個候選網(wǎng)絡(luò)。最后，挑選獲得最優(yōu)精度的候選模型作為最終剪枝模型并進行微調(diào)恢復(fù)精度。

3 實驗結(jié)果及分析

3.1 實驗環(huán)境

實驗所用的訓(xùn)練平臺使用深度學(xué)習(xí)框架pytorch1.6，以及雙Nvidia RTX30708G GPU 顯卡。測試平臺為Nvidia Jetson-nano 嵌入式開發(fā)板，搭載128 核Nvidia Maxwell 圖形處理器。

3.2 數(shù)據(jù)集

OpenPose 骨骼關(guān)節(jié)點檢測模型采用MS COCO人體骨骼數(shù)據(jù)集進行訓(xùn)練。但對于坐姿模型的訓(xùn)練，現(xiàn)有坐姿識別工作對于坐姿分類未有可實驗的公共數(shù)據(jù)集。很多現(xiàn)有工作是根據(jù)各文章算法進行數(shù)據(jù)集制作，不同文獻對于坐姿圖像拍攝角度和攝像頭擺放位置存在巨大差異。對于本文方法，其主要研究坐姿檢測方法在嵌入式平臺實現(xiàn)快速應(yīng)用，因此僅對日常辦公學(xué)習(xí)中攝像頭擺放在身體正前方場景下常見的幾種坐姿進行圖像采集。采集坐姿圖像數(shù)據(jù)集共包括8 種坐姿，包括趴著、頭部左傾、頭部右傾、正常、肩膀左低、肩膀右低、左撐頭、右撐頭，采集對象分別為10 個男性和10 個女性志愿者，總共包括圖2500 張RGB 圖像。 8 種坐姿以及利用OpenPose 檢測到的對應(yīng)骨骼如圖6 所示。本文在數(shù)據(jù)清洗上，包括對因Openpose 算法檢測關(guān)節(jié)點失敗的數(shù)據(jù)進行剔除，對類間重復(fù)信息進行剔除。

圖6 各類坐姿以及檢測到的人體骨骼

3.3 特征融合性能結(jié)果和分析

為了提高算法坐姿識別網(wǎng)絡(luò)的精度，本文利用訓(xùn)練好的卷積神經(jīng)網(wǎng)絡(luò)模型對骨骼圖像進行特征提取，并與骨骼向量特征進行融合。特征融合前后的網(wǎng)絡(luò)訓(xùn)練在測試集上損失變化曲線如圖7 所示，融合前僅通過關(guān)節(jié)點信息計算得到的骨骼特征對網(wǎng)絡(luò)進行訓(xùn)練，當(dāng)訓(xùn)練迭代次數(shù)達到600 個epoch 時，損失逐漸收斂。而融合骨骼圖像特征后對網(wǎng)絡(luò)進行訓(xùn)練，經(jīng)過300 次迭代網(wǎng)絡(luò)就已經(jīng)收斂平穩(wěn)，最終損失在0.31 左右。可以得出，從骨骼圖像中提取到的特征提高了網(wǎng)絡(luò)的收斂速度。另外，特征融合前后的坐姿分類精度如圖8 所示，由結(jié)果可得出，特征融合前的網(wǎng)絡(luò)僅獲得了85%的驗證精度，其特征融合后的網(wǎng)絡(luò)獲得了92%的驗證精度，精度提升了7%，進一步說明了特征融合的有效性。

圖8 特征融合前后坐姿分類精度

此外，為了進一步分析模型對于各類坐姿的分類性能，提供了所提出模型在訓(xùn)練集上的混淆矩陣，以及對模型在各類坐姿上的性能指標進行統(tǒng)計。其中，特征融合前后訓(xùn)練集的混淆矩陣結(jié)果如圖9 所示，對于融合前，模型對于坐姿趴著、正常和右撐頭有較好的識別精度。一部分原因是這幾類坐姿之間具有較高的區(qū)分性，另一部分原因是現(xiàn)有坐姿數(shù)據(jù)集中各類坐姿數(shù)量不平衡，致使數(shù)據(jù)量較多的類擁有較高的分類精度。除此之外，由于數(shù)據(jù)清洗不干凈導(dǎo)致存在部分類中數(shù)據(jù)與其他類數(shù)據(jù)較為相似的情況，導(dǎo)致分類困難。比如，對于左肩低類有28%被模型認為正常類。然而，特征融合后，一定程度上提升了左肩低類與正常類之間的可區(qū)分性，原本左肩低類被誤判為正常類的比例已經(jīng)從28%降低到0.03%。通過表3 特征融合前后模型在8 類坐姿上的性能指標對比同樣可以得出，特征融合后相對于融合前精度分別提升了4%、17%、15%、14%、14%、12%、15%和15%，召回率分別提升3%、13%、18%、9%、33%、12%、22%和10%。

圖9 特征融合前后模型在訓(xùn)練集的混淆矩陣

表3 特征融合前后模型在各類坐姿上的性能指標對比

3.4 姿態(tài)估計模型優(yōu)化結(jié)果和分析

OpenPose 姿態(tài)估計模型是本文實現(xiàn)坐姿識別的關(guān)鍵，其準確率在一定程度上影響了最終坐姿分類的精度。因此，為了在保證檢測精度的前提下，提高檢測速度，本文對網(wǎng)絡(luò)模型進行了優(yōu)化，并部署到嵌入式開發(fā)板Jetson Nano 進行測試。其中，模型優(yōu)化前后的性能比較如表4 所示，其中方案1 由MobileNetV2 骨干網(wǎng)絡(luò)、1 個初始化階段和2 個細化階段組成，方案2 在方案1 的基礎(chǔ)上對3 個stage 設(shè)置0.4 的剪枝率。

表4 模型優(yōu)化前后性能比較

從結(jié)果來看，原始關(guān)節(jié)點檢測模型具備較高平均精度(AP)和坐姿識別精度，其中模型大小為68M，檢測效果如圖6，在嵌入式設(shè)備NANO 上的實際運行速度只有1.4 幀左右，無法滿足隨后的快速坐姿檢測任務(wù)。進一步地，方案1 對骨干網(wǎng)絡(luò)進行替代，以及對最后3 個細化階段進行移除，其模型平均精度和識別精度雖分別有7%和2%左右的降低，但其模型大小得到大幅度減少，實際檢測速度提升3 倍左右。而方案2 在此基礎(chǔ)上對復(fù)雜的細化階段網(wǎng)絡(luò)進行剪枝操作，在精度下降2%的情況下，識別精度依然可以達到89%，模型大小只有15M，實際檢測速度可達到5.5 幀，比原始模型速度提升4 倍左右。方案2 模型的各類坐姿檢測效果如圖10 所示。可以發(fā)現(xiàn)，對于正常類、右手撐頭類坐姿，模型可以準確地獲取到關(guān)節(jié)點位置，對于其他類坐姿，模型有檢測到的個別關(guān)節(jié)點發(fā)生偏移或未檢測到的情況，但依然保持了較好的檢測效果。實際應(yīng)用中方案2 滿足正常需求。

圖10 方案2 模型的各類坐姿檢測效果

3.5 嵌入端模型推理

對于模型推理，本文使用英偉達Jetson Nano 開發(fā)板進行實驗，板內(nèi)搭載一個擁有128 核的GPU，可實現(xiàn)加速模型推理。最終的實際測試性能如圖11所示。算法推理一幀的總體時間消耗在286 ms，幀率可達到3.5，其中占比最多的是利用OpenPose 模型檢測關(guān)節(jié)點，時間消耗182 ms，占比63%。其次為坐姿特征的提取及特征融合，該階段包括了骨骼關(guān)節(jié)特征向量計算和骨骼圖像特征提取，時間消耗69 ms，占比24%。坐姿分類模型只消耗了16ms，占比5%，對最終的檢測速度影響較小。

圖11 實際測試性能

3.6 相關(guān)方法對比分析

為了驗證提出方法的可信性，這里比較了其他工作的結(jié)果，結(jié)果如表5 所示，其中RGB-D 為深度相機。

表5 相關(guān)方法對比

本文的方法允許在嵌入式設(shè)備Jetson nano 上實現(xiàn)快速推理，具有較好的識別精度和分類數(shù)。例如，文獻[13]獲得了較高的識別精度和分類數(shù)，但是該工作是面向PC 端，且需要Kinect 深度相機采集圖像。文獻[15]利用深度相機和高性能Nvidia 1070 GPU 實現(xiàn)了實時識別坐姿，但只有3 種坐姿保持了較好的識別精度。文獻[18]利用單目相機獲得較高的識別精度，但模型只能對3 類坐姿進行分類。相比深度相機獲取骨骼三維信息的方法，若坐姿分類不涉及前傾后仰等相對于相機做前后運動的坐姿(文獻[13]和[18])，本文方法同樣可以獲得較好的識別精度，并且利用計算能力較小的Nvidia Maxwell 圖形處理器，在8 類坐姿總識別精度為89%的情況下，獲得了4 幀左右的識別速度。

4 結(jié)束語

本文提出基于神經(jīng)網(wǎng)絡(luò)的骨骼特征融合下坐姿快速識別方法。解決了深度學(xué)習(xí)人體坐姿識別任務(wù)因模型參數(shù)多、計算量大、復(fù)雜程度高，難以在資源有限的嵌入式設(shè)備上實現(xiàn)高精度和快速性的問題。本文方法利用了輕量化網(wǎng)絡(luò)結(jié)構(gòu)和模型剪枝技術(shù)對模型進行優(yōu)化，并提出利用特征融合提升識別精度，在保證識別精度的同時獲得了更快的檢測速度。在Jetson Nano 上的實際幀率可達4 幀，達到了快速識別坐姿的目的，滿足生產(chǎn)生活的需要，具有較好的應(yīng)用價值。同時本文算法也存在不足之處，如缺少空間信息對姿態(tài)進行建模，對辦公場景下前傾后仰等坐姿識別精度不佳，且由于設(shè)備顯存不足等原因，導(dǎo)致特征提取部分沒有得到加速，后續(xù)工作將考慮利用量化技術(shù)進一步加速推理速度。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡