国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于神經(jīng)網(wǎng)絡(luò)的骨骼特征融合下坐姿快速識別*

2022-08-19 01:02:04房志遠石守東鄭佳罄胡加鈿
傳感技術(shù)學(xué)報 2022年5期
關(guān)鍵詞:關(guān)節(jié)點剪枝坐姿

房志遠,石守東,鄭佳罄,胡加鈿

(寧波大學(xué) 信息科學(xué)與工程學(xué)院,浙江 寧波315211)

現(xiàn)代化辦公主導(dǎo)模式使坐姿作業(yè)變得普及,許多人面臨著與這種久坐的生活方式直接相關(guān)的各種疾病,如辦公室工作人員不適當(dāng)?shù)淖藙菔桥c工作有關(guān)的肌肉骨骼疾病的最重要的危險因素之一,直接后果可能是背痛,間接后果則與頸椎病、近視、心血管疾病和過早死亡有關(guān)[1]。 因此,坐姿的研究在人機交互、醫(yī)療健康、交通安全等領(lǐng)域具有較高的應(yīng)用價值。

人體坐姿識別作為人體姿態(tài)識別的一個重要分支,目前主要研究方法包括基于接觸式傳感器和基于計算機視覺兩方面。 其中,基于接觸式傳感器方法[2-9]識別實時性較好,但成本較高且需要與人體相接觸,一定程度上限制了工作活動中的行動自由。相反,基于計算機視覺的識別方法成本相對較低、易推廣。 同時,深度學(xué)習(xí)姿態(tài)估計算法近些年取得了較好的成果,越來越受人關(guān)注。

目前基于計算機視覺的姿態(tài)識別方法主要是通過骨骼信息建立人體姿態(tài)特征,并利用分類器實現(xiàn)姿態(tài)識別。 其中一方面是利用具有骨骼關(guān)節(jié)信息檢測功能的深度攝像機獲取深度圖像和骨骼信息(如微軟Kinect 和英特爾Realsense),結(jié)合兩者信息建立三維人體姿態(tài)。 文獻[10]利用Kinect 攝像機獲得的深度圖像和人體輪廓圖,提取前景進行三視圖映射,并利用三視圖數(shù)據(jù)集對網(wǎng)絡(luò)進行訓(xùn)練,訓(xùn)練和推理過程都涉及到圖片預(yù)處理并計算三視圖,因此計算量較大,但利用了雙輸出分別預(yù)測左右和前后姿態(tài),提高了坐姿分類精度。 文獻[11]使用Kinect采集骨骼信息并分別訓(xùn)練支持向量機(SVM)和人工神經(jīng)網(wǎng)絡(luò)(ANN)實現(xiàn)姿態(tài)分類。 文獻[12]提出一種基于RIPPER 規(guī)則學(xué)習(xí)算法,利用bagging 算法和隨機子空間方法創(chuàng)建規(guī)則集成,允許訓(xùn)練100 個規(guī)則集組成一個規(guī)則集成,并通過多數(shù)投票進行最終分類。 文獻[13]提出一種基于三維卷積神經(jīng)網(wǎng)絡(luò)的姿態(tài)識別方法,利用深度攝像機獲得三維關(guān)節(jié)位置,并用高斯函數(shù)生成三維高斯體素特征,隨后將其輸入到三維姿態(tài)網(wǎng)絡(luò)進行姿態(tài)分類。 文獻[14]利用深度圖像獲得3D 骨骼模型,然后計算3D 關(guān)節(jié)距離特征和幾何角度特征作為輸入,送入SVM 分類器進行分類。 文獻[15]提出一種基于MobileNetV2的深度循環(huán)層次網(wǎng)絡(luò)(DRHN)模型,該模型通過接受RGB-D 幀序列并產(chǎn)生語義相關(guān)的姿態(tài)狀態(tài)表示,減少了軀干遮擋情況下的姿態(tài)檢測失敗。 以上方法都獲得了較好的精度和實時性,但由于算法僅面向PC 端,且依賴于具有骨骼關(guān)節(jié)檢測功能的深度攝像頭,價格高昂,在生產(chǎn)生活中無法大規(guī)模普及。

另一方面則是利用深度學(xué)習(xí)方法實現(xiàn)人體骨骼關(guān)節(jié)點檢測(又稱姿態(tài)估計),并利用骨骼關(guān)節(jié)點信息計算人體姿態(tài)特征。 文獻[16]提出使用姿態(tài)估計OpenPose 模型構(gòu)造表征人體姿態(tài)的骨骼特征數(shù)據(jù)集,并用此來訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò),對不良坐姿進行分類。 文獻[17]通過使用OpenPose 模型獲取人體骨骼關(guān)節(jié)坐標,并將其分別送入人工神經(jīng)網(wǎng)絡(luò)、支持向量機和決策樹,并對分類的準確率進行比較,預(yù)測結(jié)果送入樹莓派用來控制家用電器。 文獻[18]提出一種基于OpenPose 模型的中國古典舞基本手位識別方法,并將其部署到人工智能開發(fā)板中。 文獻[19]通過OpenPose 模型提取骨架信息,并利用18 個關(guān)節(jié)點計算肢體間的角度和距離特征,最后采用基于規(guī)則的決策方法對坐姿和站立姿勢進行分類。 文獻[20]提出了一種基于OpenPose 模型的跌倒檢測模型,在骨骼關(guān)節(jié)點的基礎(chǔ)上,結(jié)合SSD-MobileNet 對象檢測框架消除非人類區(qū)域所識別到的關(guān)節(jié)點,減少算法的誤檢率,從目標中提取關(guān)節(jié)信息送入SVM 分類器進行分類。 此類方法隨著深度學(xué)習(xí)算法檢測性能的不斷提升,同時因為利用攝像頭采集二維圖像的方法成本低,其應(yīng)用范圍越來廣泛,但缺點是網(wǎng)絡(luò)模型的參數(shù)量和計算復(fù)雜度也隨之增大,使其很難在資源有限的嵌入式設(shè)備上獲得較快的推理速度。

為了解決在有限資源上實現(xiàn)坐姿快速高精度識別的問題,本文提出了一種基于神經(jīng)網(wǎng)絡(luò)的骨骼特征融合下坐姿快速識別方法,針對關(guān)節(jié)點檢測模型OpenPose[21]參數(shù)量和計算復(fù)雜度較大、推理速度較慢的問題,提出對骨干網(wǎng)絡(luò)進行優(yōu)化,并利用基于自適應(yīng)批量歸一化(BN)層的候選評估模塊對預(yù)訓(xùn)練好的模型進行剪枝,從而減少模型所需要的設(shè)備資源,同時改進坐姿識別算法,在原始骨骼關(guān)節(jié)特征基礎(chǔ)上融合骨骼圖像,提升識別精度。

1 坐姿識別方法設(shè)計

1.1 算法總體結(jié)構(gòu)

傳統(tǒng)基于深度學(xué)習(xí)的坐姿識別方法總體結(jié)構(gòu)如圖1 所示, 主要由三部分組成: OpenPose 姿態(tài)估計(關(guān)節(jié)點檢測)部分、特征提取部分和坐姿識別部分。 具體來說,算法首先利用OpenPose 姿態(tài)估計模型實現(xiàn)人體骨骼關(guān)節(jié)點檢測,特征提取部分利用關(guān)節(jié)點信息計算人體坐姿特征,最后將特征輸入神經(jīng)網(wǎng)絡(luò)實現(xiàn)坐姿分類。 坐姿分類網(wǎng)絡(luò)由一個輸入層、2個隱含層以及1 個輸出層組成,每個隱含層包括300 個神經(jīng)元。

圖1 基于深度學(xué)習(xí)的坐姿識別方法總體結(jié)構(gòu)

根據(jù)算法總體結(jié)構(gòu)可知,影響最終坐姿識別精度的主要有兩個方面:姿態(tài)估計算法檢測關(guān)節(jié)點的可靠性以及提取特征的表征能力。 為了提高坐姿識別的精度,對特征提取部分進行改進,在骨骼關(guān)節(jié)特征向量基礎(chǔ)上融合骨骼圖片特征向量,特征提取示意圖如圖2 所示,一方面利用12 個骨骼關(guān)節(jié)點來計算表征人體坐姿的特征向量,分別包括:10 個角度特征、12 個骨骼關(guān)節(jié)點歸一化坐標、66 個歸一化距離特征、22 個向量特征。 另一方面通過訓(xùn)練好的卷積神經(jīng)網(wǎng)絡(luò)模型提取骨骼圖像特征,將網(wǎng)絡(luò)的輸出與骨骼關(guān)節(jié)特征向量融合,形成新的坐姿特征向量,融合后的特征向量較大程度上表征了人體坐姿特征,利用其對神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練可以提高分類精度。

圖2 特征提取示意圖

1.2 骨骼關(guān)節(jié)特征提取

基于骨骼信息建立人體姿態(tài)特征是姿態(tài)識別的主要方法。 近些年,受益于深度學(xué)習(xí)姿態(tài)估計算法的高精度和泛化能力,可用其代替深度相機提取關(guān)節(jié)信息。

目前深度學(xué)習(xí)姿態(tài)估計算法可分為兩類,一是自下而上的姿態(tài)估計方法,算法首先檢測出圖片中的所有關(guān)節(jié)點坐標,然后將這些關(guān)節(jié)點組合成每一個個體。 相反,自上而下的姿態(tài)估計方法先檢測每一個個體再估計關(guān)節(jié)點。 在檢測速度方面自下而上的方法更有優(yōu)勢。 其中,OpenPose 是目前使用較為廣泛[16-20,22]的自下而上的姿態(tài)估計方法,可對坐姿圖片進行骨骼關(guān)節(jié)點檢測。 考慮到實際辦公場景下攝像頭一般位于人的正前方,原始算法可以檢測到18 個人體關(guān)節(jié)點,這里只取用了上半身12 個骨骼關(guān)節(jié)點信息,包括左右眼、左右耳、鼻子、嘴巴、脖子、左右肩、左右手肘和左右手腕。

在實際攝像頭采集的過程中,因攝像頭擺放位置或坐姿偏移造成的坐標差異,會導(dǎo)致其骨骼關(guān)節(jié)點的絕對空間位置存在較大差異。 對于一個給予的特定姿態(tài),它應(yīng)該獨立于關(guān)節(jié)的絕對空間位置,而依賴所有關(guān)節(jié)間的相對位置。 因此,在這種情況下需要將關(guān)節(jié)的坐標歸一化到[0,1]范圍內(nèi)。 為了解決這一問題,本文采用基于邊界框的歸一化方法[13],其方法的主要思想是利用訓(xùn)練集中骨架的最大邊界框邊長對骨架進行歸一化。 具體來說,對于訓(xùn)練集中給定的第i 個骨架(包含12 個骨骼關(guān)節(jié)點的2D 坐標信息),骨架兩個維度的最大和最小坐標值分別定義為。 這個骨架的最大邊界框邊長為li=。 因此,擁有N個骨架信息的訓(xùn)練數(shù)據(jù)集,最大邊界框邊長L=max(li),i∈N,最后,每一個骨骼關(guān)節(jié)的坐標可用式(1)計算。

式中:xmax,xmin為當(dāng)前骨架的最大和最小X軸坐標,x為原始X軸坐標,xnorm為歸一化后的X軸坐標。 縱坐標的處理方法和橫坐標相同。 通過這種方式,每個骨架被常數(shù)L歸一化,并且骨架的中心對齊到[0.5,0.5],由于L是不變的,骨架的結(jié)構(gòu)特征也保持了一致性。 第二種特征為關(guān)節(jié)間的角度特征,對于一個給定的姿態(tài),關(guān)節(jié)間的角度特征不會受用戶的高度影響,另一方面關(guān)節(jié)角度縮放和旋轉(zhuǎn)不會發(fā)生改變,因此它們不依賴于主體的高度或用戶相對于相機的距離和方向,這里提取了11 對身體的10 個角度,其中11 對身體由手腕與肘、肘與肩、肩與脖子、脖子與鼻子、鼻子與眼睛以及眼睛與耳朵節(jié)點形成,角度特征則由各相鄰肢體的夾角組成。 第三種特征為歸一化身體距離信息。 最后還包括11 對身體的22 個向量特征,其中向量特征由X軸和Y軸方向組成。

1.3 骨骼圖像特征提取

獲取更多有價值的姿態(tài)特征是提高姿態(tài)分類精度的關(guān)鍵。 這里首先使用Openpose 姿態(tài)估計模型對原始數(shù)據(jù)集進行關(guān)節(jié)點檢測,根據(jù)關(guān)節(jié)信息制作骨骼圖像數(shù)據(jù)集,并訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)。 訓(xùn)練后的卷積神經(jīng)網(wǎng)絡(luò)被用于提取骨骼圖像特征,最后一層全連接輸出被融合用作訓(xùn)練坐姿識別網(wǎng)絡(luò)。 提出的卷積神經(jīng)網(wǎng)絡(luò)識別框架如圖3 所示,其中,輸入骨骼圖像為224×224 RGB 圖像,卷積操作為3×3,池化操作為2×2。

圖3 提出的卷積神經(jīng)網(wǎng)絡(luò)識別框架

2 模型分析和優(yōu)化

OpenPose 姿態(tài)估計模型雖有較好的檢測性能。但是由于模型本身參數(shù)量和計算復(fù)雜度較大,導(dǎo)致程序運行過程中模型推理占具了極大部分的計算資源,在資源有限的嵌入式設(shè)備上應(yīng)用困難。

由圖1 上部分原始OpenPose 網(wǎng)絡(luò)結(jié)構(gòu)可知,其網(wǎng)絡(luò)結(jié)構(gòu)主要由三個部分組成:VGG 骨干網(wǎng)絡(luò)、一個初始化階段和多個細化階段。 其中表1 為模型各階段計算量和精度對比[23],AP 為平均精度,GFLOPs 為每秒浮點運算次數(shù),圖像輸入大小368×368。 通過分析對比可知模型的主要計算復(fù)雜度集中在骨干網(wǎng)絡(luò)和細化階段上,計算復(fù)雜度分別占了28.14%和68.33%。

表1 OpenPose 模型各階段計算量和精度對比

為了提高檢測速度,對原始OpenPose 網(wǎng)絡(luò)模型進行了結(jié)構(gòu)替換和剪枝的優(yōu)化工作,以減少模型參數(shù)量和計算復(fù)雜度,達到提高推理速度的目的。 最后優(yōu)化后的模型需使用COCO 骨骼關(guān)節(jié)點數(shù)據(jù)集進行再訓(xùn)練,以恢復(fù)兩個階段優(yōu)化后的精度損失。 詳細優(yōu)化過程如下兩部分。

2.1 骨干網(wǎng)絡(luò)替換

OpenPose 網(wǎng)絡(luò)訓(xùn)練過程包括兩部分,第一部分是骨干網(wǎng)絡(luò)在ImageNet 數(shù)據(jù)集上進行訓(xùn)練,第二部分是使用MS COCO 骨骼關(guān)節(jié)點數(shù)據(jù)集對整個模型進行訓(xùn)練。 針對原始模型骨干網(wǎng)絡(luò)VGG 參數(shù)量和計算復(fù)雜度較大的問題,第一部分的骨干網(wǎng)絡(luò)可由其他性能較好且參數(shù)量和計算復(fù)雜度相對較低的模型替代。這里比較了三種網(wǎng)絡(luò)模型,如表2 所示。

表2 網(wǎng)絡(luò)性能比較

對比發(fā)現(xiàn)輕量化網(wǎng)絡(luò)Mobilenet 可以獲得和原始網(wǎng)絡(luò)相當(dāng)?shù)木?,同時模型計算復(fù)雜度和參數(shù)量大幅度減少。 因此,這里使用Mobilenet 網(wǎng)絡(luò)對原始VGG進行替換,同時刪除了Conv4_3,Conv4_4,以及修改Block_12_add 層的輸出特征圖尺寸,最后將其與Block_5_add 層的輸出特征圖進行連接作為初始化階段的輸入特征圖。 替換后的網(wǎng)絡(luò)組成如圖4 所示。

圖4 替換后的網(wǎng)絡(luò)

2.2 細化階段網(wǎng)絡(luò)剪枝

多個細化階段(Refinement stage)網(wǎng)絡(luò)提升了模型對關(guān)節(jié)點置信圖和親和度向量的預(yù)測能力,同時不可避免地增加了計算開銷。 為了盡可能減少模型所需計算資源,利用基于自適應(yīng)批量歸一化(BN)的候選評估模塊[27]對細化階段進行剪枝操作,通過設(shè)置合適的全局剪枝率獲得基于平臺的最佳精度和模型大小間的平衡。

2.2.1 自適應(yīng)批量歸一化(BN)

BN 層具有加速網(wǎng)絡(luò)收斂并提升準確率的作用,現(xiàn)已廣泛應(yīng)用到卷積神經(jīng)網(wǎng)絡(luò)中。 在實際網(wǎng)絡(luò)模型中,BN 一般置于卷積層和線性層之后,對上層操作得到的特征圖進行歸一化,從而產(chǎn)生更加穩(wěn)定的分布。 原始BN 操作如式(2)所示。

式中:γ和β是可訓(xùn)練的,分別代表BN 的特征縮放系數(shù)和偏移系數(shù)。ε為一個非常小的值,為了避免分母為零。μ和σ2為向量,分別用來記錄每一個通道特征圖的均值和方差,其元素值會在前向傳播中得到更新。 對于一個尺寸為N的批量(batch)樣本,μ和σ2統(tǒng)計值的計算如式(3)。

當(dāng)進行訓(xùn)練時,μ和σ2通過移動均值和方差計算得到,如式(4):

式中:m為動量系數(shù)、下標t為訓(xùn)練迭代次數(shù)。 在一個訓(xùn)練過程中,如果需要總的訓(xùn)練次數(shù)為T,μT和σ2T則就是最終測試階段的μ和σ2。

以上所述的兩項BN 統(tǒng)計值是基于完整網(wǎng)絡(luò)得到的,而對于一個剪枝后的子網(wǎng)絡(luò),其統(tǒng)計值均值μ和方差σ2已經(jīng)過時,因此需要利用部分數(shù)據(jù)集進行幾次推理,重新計算自適應(yīng)值μ和σ2,其目的是為了BN 統(tǒng)計值適應(yīng)于剪枝后的網(wǎng)絡(luò)。 具體來說,在訓(xùn)練之前凍結(jié)所有反向傳播可更新的網(wǎng)絡(luò)參數(shù)W。 最后通過幾次前向傳播,使用式(4)對移動均值和方差進行更新,更新后的均值和方差定義為^μ和^σ2。

2.2.2 剪枝過程

由表1 模型各階段計算量可知,通過增加細化網(wǎng)絡(luò)3、4 和5 所帶來的精度提升較小,但其復(fù)雜度卻大幅增加,這里首先將其三階段全部移除,其次通過基于自適應(yīng)BN 的剪枝模塊對其余階段進行核剪枝,剪枝工作流程如圖5 所示。

圖5 基于自適應(yīng)批量歸一化評估模塊的剪枝工作流程

剪枝過程主要由6 部分組分。 具體來說,首先對第一部分優(yōu)化后的網(wǎng)絡(luò)進行訓(xùn)練,然后提取模型中細化階段參與剪枝的卷積層索引,通過隨機生成多個剪枝策略,每一個策略為各索引層的剪枝率。第四部分使用L1 范數(shù)準則,根據(jù)剪枝策略進行剪枝,得到候選網(wǎng)絡(luò)。

第五部分通過基于自適應(yīng)BN 的候選評估模塊對所有候選模型的BN 統(tǒng)計值μ和σ2進行更新,并利用小部分訓(xùn)練集評估每一個候選網(wǎng)絡(luò)。 最后,挑選獲得最優(yōu)精度的候選模型作為最終剪枝模型并進行微調(diào)恢復(fù)精度。

3 實驗結(jié)果及分析

3.1 實驗環(huán)境

實驗所用的訓(xùn)練平臺使用深度學(xué)習(xí)框架pytorch1.6,以及雙Nvidia RTX30708G GPU 顯卡。測試平臺為Nvidia Jetson-nano 嵌入式開發(fā)板,搭載128 核Nvidia Maxwell 圖形處理器。

3.2 數(shù)據(jù)集

OpenPose 骨骼關(guān)節(jié)點檢測模型采用MS COCO人體骨骼數(shù)據(jù)集進行訓(xùn)練。 但對于坐姿模型的訓(xùn)練,現(xiàn)有坐姿識別工作對于坐姿分類未有可實驗的公共數(shù)據(jù)集。 很多現(xiàn)有工作是根據(jù)各文章算法進行數(shù)據(jù)集制作,不同文獻對于坐姿圖像拍攝角度和攝像頭擺放位置存在巨大差異。 對于本文方法,其主要研究坐姿檢測方法在嵌入式平臺實現(xiàn)快速應(yīng)用,因此僅對日常辦公學(xué)習(xí)中攝像頭擺放在身體正前方場景下常見的幾種坐姿進行圖像采集。 采集坐姿圖像數(shù)據(jù)集共包括8 種坐姿,包括趴著、頭部左傾、頭部右傾、正常、肩膀左低、肩膀右低、左撐頭、右撐頭,采集對象分別為10 個男性和10 個女性志愿者,總共包括圖2500 張RGB 圖像。 8 種坐姿以及利用OpenPose 檢測到的對應(yīng)骨骼如圖6 所示。 本文在數(shù)據(jù)清洗上,包括對因Openpose 算法檢測關(guān)節(jié)點失敗的數(shù)據(jù)進行剔除,對類間重復(fù)信息進行剔除。

圖6 各類坐姿以及檢測到的人體骨骼

3.3 特征融合性能結(jié)果和分析

為了提高算法坐姿識別網(wǎng)絡(luò)的精度,本文利用訓(xùn)練好的卷積神經(jīng)網(wǎng)絡(luò)模型對骨骼圖像進行特征提取,并與骨骼向量特征進行融合。 特征融合前后的網(wǎng)絡(luò)訓(xùn)練在測試集上損失變化曲線如圖7 所示,融合前僅通過關(guān)節(jié)點信息計算得到的骨骼特征對網(wǎng)絡(luò)進行訓(xùn)練,當(dāng)訓(xùn)練迭代次數(shù)達到600 個epoch 時,損失逐漸收斂。 而融合骨骼圖像特征后對網(wǎng)絡(luò)進行訓(xùn)練,經(jīng)過300 次迭代網(wǎng)絡(luò)就已經(jīng)收斂平穩(wěn),最終損失在0.31 左右。 可以得出,從骨骼圖像中提取到的特征提高了網(wǎng)絡(luò)的收斂速度。 另外,特征融合前后的坐姿分類精度如圖8 所示,由結(jié)果可得出,特征融合前的網(wǎng)絡(luò)僅獲得了85%的驗證精度,其特征融合后的網(wǎng)絡(luò)獲得了92%的驗證精度,精度提升了7%,進一步說明了特征融合的有效性。

圖8 特征融合前后坐姿分類精度

此外,為了進一步分析模型對于各類坐姿的分類性能,提供了所提出模型在訓(xùn)練集上的混淆矩陣,以及對模型在各類坐姿上的性能指標進行統(tǒng)計。 其中,特征融合前后訓(xùn)練集的混淆矩陣結(jié)果如圖9 所示,對于融合前,模型對于坐姿趴著、正常和右撐頭有較好的識別精度。 一部分原因是這幾類坐姿之間具有較高的區(qū)分性,另一部分原因是現(xiàn)有坐姿數(shù)據(jù)集中各類坐姿數(shù)量不平衡,致使數(shù)據(jù)量較多的類擁有較高的分類精度。 除此之外,由于數(shù)據(jù)清洗不干凈導(dǎo)致存在部分類中數(shù)據(jù)與其他類數(shù)據(jù)較為相似的情況,導(dǎo)致分類困難。 比如,對于左肩低類有28%被模型認為正常類。 然而,特征融合后,一定程度上提升了左肩低類與正常類之間的可區(qū)分性,原本左肩低類被誤判為正常類的比例已經(jīng)從28%降低到0.03%。 通過表3 特征融合前后模型在8 類坐姿上的性能指標對比同樣可以得出,特征融合后相對于融合前精度分別提升了4%、17%、15%、14%、14%、12%、15%和15%,召回率分別提升3%、13%、18%、9%、33%、12%、22%和10%。

圖9 特征融合前后模型在訓(xùn)練集的混淆矩陣

表3 特征融合前后模型在各類坐姿上的性能指標對比

3.4 姿態(tài)估計模型優(yōu)化結(jié)果和分析

OpenPose 姿態(tài)估計模型是本文實現(xiàn)坐姿識別的關(guān)鍵,其準確率在一定程度上影響了最終坐姿分類的精度。 因此,為了在保證檢測精度的前提下,提高檢測速度,本文對網(wǎng)絡(luò)模型進行了優(yōu)化,并部署到嵌入式開發(fā)板Jetson Nano 進行測試。 其中,模型優(yōu)化前后的性能比較如表4 所示,其中方案1 由MobileNetV2 骨干網(wǎng)絡(luò)、1 個初始化階段和2 個細化階段組成,方案2 在方案1 的基礎(chǔ)上對3 個stage 設(shè)置0.4 的剪枝率。

表4 模型優(yōu)化前后性能比較

從結(jié)果來看,原始關(guān)節(jié)點檢測模型具備較高平均精度(AP)和坐姿識別精度,其中模型大小為68M,檢測效果如圖6,在嵌入式設(shè)備NANO 上的實際運行速度只有1.4 幀左右,無法滿足隨后的快速坐姿檢測任務(wù)。 進一步地,方案1 對骨干網(wǎng)絡(luò)進行替代,以及對最后3 個細化階段進行移除,其模型平均精度和識別精度雖分別有7%和2%左右的降低,但其模型大小得到大幅度減少,實際檢測速度提升3 倍左右。 而方案2 在此基礎(chǔ)上對復(fù)雜的細化階段網(wǎng)絡(luò)進行剪枝操作,在精度下降2%的情況下,識別精度依然可以達到89%,模型大小只有15M,實際檢測速度可達到5.5 幀,比原始模型速度提升4 倍左右。 方案2 模型的各類坐姿檢測效果如圖10 所示。 可以發(fā)現(xiàn),對于正常類、右手撐頭類坐姿,模型可以準確地獲取到關(guān)節(jié)點位置,對于其他類坐姿,模型有檢測到的個別關(guān)節(jié)點發(fā)生偏移或未檢測到的情況,但依然保持了較好的檢測效果。 實際應(yīng)用中方案2 滿足正常需求。

圖10 方案2 模型的各類坐姿檢測效果

3.5 嵌入端模型推理

對于模型推理,本文使用英偉達Jetson Nano 開發(fā)板進行實驗,板內(nèi)搭載一個擁有128 核的GPU,可實現(xiàn)加速模型推理。 最終的實際測試性能如圖11所示。 算法推理一幀的總體時間消耗在286 ms,幀率可達到3.5,其中占比最多的是利用OpenPose 模型檢測關(guān)節(jié)點,時間消耗182 ms,占比63%。 其次為坐姿特征的提取及特征融合,該階段包括了骨骼關(guān)節(jié)特征向量計算和骨骼圖像特征提取,時間消耗69 ms,占比24%。 坐姿分類模型只消耗了16ms,占比5%,對最終的檢測速度影響較小。

圖11 實際測試性能

3.6 相關(guān)方法對比分析

為了驗證提出方法的可信性,這里比較了其他工作的結(jié)果,結(jié)果如表5 所示,其中RGB-D 為深度相機。

表5 相關(guān)方法對比

本文的方法允許在嵌入式設(shè)備Jetson nano 上實現(xiàn)快速推理,具有較好的識別精度和分類數(shù)。 例如,文獻[13]獲得了較高的識別精度和分類數(shù),但是該工作是面向PC 端,且需要Kinect 深度相機采集圖像。 文獻[15]利用深度相機和高性能Nvidia 1070 GPU 實現(xiàn)了實時識別坐姿,但只有3 種坐姿保持了較好的識別精度。 文獻[18]利用單目相機獲得較高的識別精度,但模型只能對3 類坐姿進行分類。相比深度相機獲取骨骼三維信息的方法,若坐姿分類不涉及前傾后仰等相對于相機做前后運動的坐姿(文獻[13]和[18]),本文方法同樣可以獲得較好的識別精度,并且利用計算能力較小的Nvidia Maxwell 圖形處理器,在8 類坐姿總識別精度為89%的情況下,獲得了4 幀左右的識別速度。

4 結(jié)束語

本文提出基于神經(jīng)網(wǎng)絡(luò)的骨骼特征融合下坐姿快速識別方法。 解決了深度學(xué)習(xí)人體坐姿識別任務(wù)因模型參數(shù)多、計算量大、復(fù)雜程度高,難以在資源有限的嵌入式設(shè)備上實現(xiàn)高精度和快速性的問題。本文方法利用了輕量化網(wǎng)絡(luò)結(jié)構(gòu)和模型剪枝技術(shù)對模型進行優(yōu)化,并提出利用特征融合提升識別精度,在保證識別精度的同時獲得了更快的檢測速度。 在Jetson Nano 上的實際幀率可達4 幀,達到了快速識別坐姿的目的,滿足生產(chǎn)生活的需要,具有較好的應(yīng)用價值。 同時本文算法也存在不足之處,如缺少空間信息對姿態(tài)進行建模,對辦公場景下前傾后仰等坐姿識別精度不佳,且由于設(shè)備顯存不足等原因,導(dǎo)致特征提取部分沒有得到加速,后續(xù)工作將考慮利用量化技術(shù)進一步加速推理速度。

猜你喜歡
關(guān)節(jié)點剪枝坐姿
人到晚年宜“剪枝”
基于深度學(xué)習(xí)和視覺檢測的地鐵違規(guī)行為預(yù)警系統(tǒng)研究與應(yīng)用
基于YOLOv4-Tiny模型剪枝算法
關(guān)節(jié)點連接歷史圖與卷積神經(jīng)網(wǎng)絡(luò)結(jié)合的雙人交互動作識別
坐姿好習(xí)慣
學(xué)生作業(yè)坐姿及臺燈控制器
電子制作(2019年10期)2019-06-17 11:44:54
基于坐姿感應(yīng)的智能視力保護臺燈設(shè)計
電子制作(2018年19期)2018-11-14 02:36:50
搞好新形勢下軍營美術(shù)活動需把握的關(guān)節(jié)點
剪枝
天津詩人(2017年2期)2017-03-16 03:09:39
“長跪”與謝罪無關(guān)
黨的生活(2015年4期)2015-04-18 23:58:39
张家界市| 双鸭山市| 永州市| 陈巴尔虎旗| 屏山县| 汝南县| 漠河县| 阿克陶县| 巴里| 昭通市| 三穗县| 杭锦后旗| 英德市| 历史| 闽清县| 定陶县| 万宁市| 德昌县| 普安县| 敦煌市| 宁阳县| 昭通市| 乌兰县| 清水县| 裕民县| 兴仁县| 桐柏县| 偏关县| 丁青县| 宜昌市| 西乌珠穆沁旗| 满洲里市| 甘孜县| 商河县| 苍溪县| 赞皇县| 泰宁县| 兴安县| 周口市| 深圳市| 韶山市|