摘 要:為實現(xiàn)隊列姿態(tài)動作的準(zhǔn)確評估,針對訓(xùn)練場景中踢腿高度等三維人體姿態(tài)特征難以準(zhǔn)確測量的問題,提出融合雙目信息的隊列三維姿態(tài)特征檢測方法。方法分為2D姿態(tài)估計和雙目立體匹配兩個階段。為提高2D人體姿態(tài)檢測精度,設(shè)計基于改進HRNet網(wǎng)絡(luò)的2D姿態(tài)估計模型。首先,在主干網(wǎng)絡(luò)引入空間通道注意力,增強特征提取能力。特征融合層采用自適應(yīng)空間特征融合模塊,融合網(wǎng)絡(luò)多尺度特征。其次,采用無偏數(shù)據(jù)處理方法進行熱圖編解碼,減小數(shù)據(jù)統(tǒng)計誤差。最后,在模型訓(xùn)練時采用由粗到細(xì)的多階段監(jiān)督方法,提高關(guān)鍵點的檢測準(zhǔn)確率。在2D姿態(tài)估計模型基礎(chǔ)上,采用標(biāo)準(zhǔn)相關(guān)匹配函數(shù)實現(xiàn)雙目立體匹配,再通過坐標(biāo)變換得到三維人體姿態(tài)。實驗結(jié)果表明,改進的姿態(tài)估計網(wǎng)絡(luò)有較好的精度,在COCO數(shù)據(jù)集精度達(dá)到77.1%,在自制的隊列訓(xùn)練數(shù)據(jù)集上精度達(dá)到86.3%,相比原網(wǎng)絡(luò)分別提升2.2%和3.1%。在三維人體姿態(tài)的踢腿高度實驗中,該方法測得平均相對誤差為2.5%,充分驗證了算法的有效性。
關(guān)鍵詞:圖像處理; 雙目視覺; 注意力機制; 姿態(tài)估計
中圖分類號:TP391 文獻(xiàn)標(biāo)志碼:A
文章編號:1001-3695(2024)09-041-2860-07
doi:10.19734/j.issn.1001-3695.2023.11.0595
Queue posture detection with fusion of binocular information
Zhao Jifa1, Wang Cheng1, Rong Yingjiao2
(1.School of Internet of Things, Jiangnan University, Wuxi Jiangsu 214122, China; 2.Science & Technology on Near-surface Detection Laboratory, Wuxi Jiangsu 214000, China)
Abstract:In order to realize the accurate evaluation of queue posture and action, aiming at the problem that it is difficult to accurately measure the three-dimensional human posture characteristics such as kick height in the training scene, this paper proposed a queue three-dimensional posture feature detection method based on binocular information. The method is divided into two stages: the 2D pose estimation stage and binocular stereo matching stage. In order to improve the accuracy of 2D human pose detection, it designed a 2D pose estimation model based on the improved HRNet network. Firstly, it introduced spatial channel attention in the back-bone network to enhance feature extraction capabilities. The feature fusion layer used an adaptive spatial feature fusion module to fuse multi-scale features of the network. Secondly, it used the unbiased data processing method to encode and decode the heat map to reduce the statistical error of the data. Finally,it adopted a coarse-to-fine multi-stage supervision method during model training to improve the detection accuracy of key points. Based on the 2D pose estimation model, it used the standard correlation matching function to achieve binocular stereo matching, and then obtained the 3D human pose through coordinate transformation. The experimental results show that the improved pose estimation network has better accuracy, the accuracy of the COCO dataset reaches 77.1%, and the detection accuracy of the self-made queue training dataset reaches 86.3%, which are respectively 2.2% and 3.1% higher than the original network. In the kick height experiment of the three-dimensional human body posture, the average relative error measured by the proposed method is 2.5%, which fully verifies the effectiveness of the algorithm.
Key words:image processing; binocular vision; attention mechanism; pose estimation
0 引言
傳統(tǒng)隊列訓(xùn)練中士兵姿態(tài)動作的標(biāo)準(zhǔn)性都由教官人眼主觀評判,無法對士兵隊列動作進行量化判斷?;谟嬎銠C視覺評估隊列訓(xùn)練姿態(tài),能夠?qū)崿F(xiàn)更高效的隊列訓(xùn)練。由于隊列訓(xùn)練場景存在人體尺度變化大、光照不均以及遮擋等問題,傳統(tǒng)姿態(tài)估計方法難以實現(xiàn)復(fù)雜場景的姿態(tài)檢測[1]。近年來,基于深度學(xué)習(xí)的2D姿態(tài)估計方法快速發(fā)展,姿態(tài)檢測效果顯著提升,被廣泛應(yīng)用于復(fù)雜場景的人體姿態(tài)檢測[2]。
2D人體姿態(tài)估計是一種基于RGB圖像數(shù)據(jù)來檢測人體骨骼關(guān)鍵點的方法[3]。目前主流姿態(tài)估計方法有RSN[4]、Hourglass[5]、ViTPose[6]、HRNet[7]等方法。RSN網(wǎng)絡(luò)采用密集連接結(jié)構(gòu),充分融合特征的空間信息和語義信息,提高姿態(tài)估計精度。Hourglass網(wǎng)絡(luò)通過重復(fù)上下采樣操作,堆疊多個Hourglass模塊提高網(wǎng)絡(luò)表達(dá)能力,而反復(fù)上下采樣會導(dǎo)致大量有效特征丟失。針對有效特征丟失問題,Zou等人[8]提出了結(jié)合CBAM注意力[9]的層內(nèi)特征殘差類模塊IFRM學(xué)習(xí)有效的通道與空間特征,Hua等人[10]提出仿射模塊affinage block與殘差注意力模塊RAM,取代上采樣操作來獲得高分辨率特征,這兩種方法均有效緩解了特征丟失問題,提高了網(wǎng)絡(luò)性能。ViTPose是基于Vison Transformer結(jié)構(gòu)的人體姿態(tài)估計模型,該模型具有非常好的可拓展性。通過增大模型規(guī)模,引入額外數(shù)據(jù)集等方法, ViTPose-G*在人體姿態(tài)估計任務(wù)中達(dá)到了最先進水平。但隨著模型增大,模型訓(xùn)練與推理對硬件設(shè)備有更高的要求,不便于實際場景的應(yīng)用與部署。HRNet網(wǎng)絡(luò)采樣多分支并行結(jié)構(gòu),不僅保留不同尺度的特征信息,并在不同層次和尺度進行特征融合,充分利用高分辨率特征的空間信息和低分辨率特征的語義信息,有效提高模型的表達(dá)能力。
二維姿態(tài)估計模型一般采用有監(jiān)督方法進行訓(xùn)練,根據(jù)標(biāo)簽類型分為基于坐標(biāo)回歸和基于熱圖回歸[11]?;谧鴺?biāo)回歸的方法忽略了關(guān)鍵點周圍區(qū)域的空間信息,這對關(guān)鍵點的預(yù)測精度有較大的影響。為了得到更高精度的姿態(tài)估計模型,目前的主流姿態(tài)估計方法都采用基于熱圖回歸的方法預(yù)測關(guān)鍵點坐標(biāo)。但是,基于熱圖回歸的模型對標(biāo)簽坐標(biāo)進行編解碼和翻轉(zhuǎn)策略時,數(shù)據(jù)存在統(tǒng)計誤差[11],導(dǎo)致模型的檢測精度下降。為緩解數(shù)據(jù)誤差的影響,提高模型的魯棒性與檢測精度,Huang等人[12]提出了一種采用分類和回歸相結(jié)合的方法進行編碼解碼,實現(xiàn)無偏數(shù)據(jù)處理(UDP),提高了現(xiàn)有姿態(tài)估計方法的關(guān)鍵點檢測精度。
注意力機制能夠自適應(yīng)學(xué)習(xí)特征權(quán)重系數(shù),對網(wǎng)絡(luò)更關(guān)注的區(qū)域分配更大權(quán)重以增強重要特征[13],在基本不增加參數(shù)的情況下提高特征提取能力。Yuan等人[14]在Vison Transformer結(jié)構(gòu)中提出一種輕量高效的注意力,能夠有效地對局部細(xì)粒度信息編碼和全局空間信息聚合,大幅提高了ViTs模型在ImageNet分類任務(wù)的精度。在尺度變化劇烈的場景中檢測小尺度目標(biāo)往往比較困難。為了提高小尺度目標(biāo)的檢測效果,Liu等人[15]提出自適應(yīng)空間特征融合(adaptive spatial feature fusion,ASFF)網(wǎng)絡(luò)改進特征融合模塊,使模型融合多尺度特征圖權(quán)重,充分利用淺層特征與深層特征,提高對小尺度目標(biāo)的檢測精度。
隊列訓(xùn)練正步前進時,還需要檢測步幅、步速及踢腿高度等三維人體姿態(tài)特征,根據(jù)2D姿態(tài)估計結(jié)果無法得到準(zhǔn)確的量化判斷。但在多視圖環(huán)境下,利用多視圖匹配能實現(xiàn)人體姿態(tài)的三維重建[16]。在雙目視覺中,立體匹配是實現(xiàn)立體視覺的關(guān)鍵步驟,根據(jù)匹配函數(shù)作用范圍,可分為局部匹配與全局匹配。全局匹配效率較低,而局部匹配缺乏全局參數(shù)導(dǎo)致匹配精度較差[17]。Hirschmuller[18]提出半全局立體匹配方法(semi-global matching,SGBM),通過聚合多個路徑代價進行匹配,較好地兼顧匹配精度和效率。Hosni等人[19]采用分割算法選擇待匹配區(qū)域,有效提高局部匹配精度?;?D姿態(tài)估計模型預(yù)測結(jié)果選擇待匹配區(qū)域,對左右視圖的人體關(guān)鍵點進行局部匹配,既避免全局匹配的計算消耗,又充分利用了姿態(tài)估計模型性能,很好地平衡了整體算法檢測精度與檢測速度。
綜上,針對隊列訓(xùn)練場景中三維人體姿態(tài)特征檢測問題,本文設(shè)計了基于改進HRNet的姿態(tài)估計模型PoseHRNet,再融合雙目姿態(tài)信息實現(xiàn)隊列三維姿態(tài)檢測,主要工作如下:
a)提出了空間通道注意力SCA,實現(xiàn)細(xì)粒度信息編碼和全局空間信息聚合,增強主干網(wǎng)絡(luò)的表達(dá)能力,并且改進了主干網(wǎng)絡(luò)的特征融合層,通過自適應(yīng)空間特征融合模塊ASFF聚合多尺度特征。
b)重新設(shè)計損失函數(shù),在模型訓(xùn)練階段實現(xiàn)由粗到細(xì)的多階段監(jiān)督,提高關(guān)鍵點的檢測準(zhǔn)確率。
c)根據(jù)關(guān)鍵點預(yù)測結(jié)果選擇待匹配區(qū)域,有效平衡了左右視圖匹配的精度與速度,實現(xiàn)高效的三維人體姿態(tài)估計。
1 基于PoseHRNet的2D姿態(tài)估計方法
本文算法重點關(guān)注隊列訓(xùn)練時二維人體姿態(tài)檢測,針對二維人體姿態(tài)估計任務(wù),提出一種改進網(wǎng)絡(luò)模型PoseHRNet。該模型在HRNet基礎(chǔ)上引入了空間通道注意力SCA和自適應(yīng)姿態(tài)特征融合ASSF模塊,構(gòu)建多階段損失函數(shù),并采用無偏數(shù)據(jù)處理方法UDP進行熱圖編碼和解碼,提高模型檢測準(zhǔn)確性和魯棒性。
1.1 PoseHRNet的網(wǎng)絡(luò)結(jié)構(gòu)
PoseHRNet的主體網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示,網(wǎng)絡(luò)分為四個階段,分支數(shù)依次增加,最后輸出四條不同尺度的特征分支。首先輸入RGB圖片經(jīng)過兩個步長為2的3×3卷積的基礎(chǔ)層Stem預(yù)處理后,分辨率降為1/4,通道數(shù)由3通道增加到64通道。第一條主分支全程保持1/4高分辨率,下采樣的子分支通過分辨率減半通道數(shù)加倍的方式充分表征特征。第一階段由四個bottleneck模塊和SCA注意力組成。后面的三個階段都有若干個HRModule和SCA注意力模塊組成,每個階段之間,會采用一個下采樣模塊增加輸出分支。第四階段末尾采用ASFF模塊自適應(yīng)融合4個不同尺度的特征分支生成17個表征人體關(guān)鍵點熱圖。
HRModule是由四個basic模塊和特征融合模塊組成。特征模塊融合模塊將各個分支輸出的不同尺度特征通過上采樣和下采樣操作達(dá)到同一尺度進行融合。每個輸出支路特征都融合所有輸入分支特征,有效減少了特征傳遞過程中的信息丟失問題。basic模塊由兩個3×3卷積和一條殘差連接組成。bottleneck模塊由1個3×3卷積和兩個1×1卷積和一條殘差連接組成,特征通道數(shù)先減小為輸入的1/4再恢復(fù)到輸入的通道數(shù)。basic模塊和bottleneck模塊均來自ResNet[20]的殘差模塊,通過殘差連接有效解決了主干網(wǎng)絡(luò)加深導(dǎo)致的梯度消失問題。
算法1 PoseHRNet人體姿態(tài)估計算法
輸入:預(yù)處理后的RGB圖像I。
輸出:人體關(guān)鍵點坐標(biāo)Coord。
1) function PoseHRNet(I)
2) S ← stem (I) /*通過stem層卷積操作提取輸入圖像I的底層特征S*/
3) S_1 ← stage1(S) /*stage1通過4個bottleneck模塊進一步提取圖像特征,得到S_1*/
4) S_1 ← SCA(S_1) /*SCA注意力匯聚局部空間特征與全局語義信息*/
5) for k=2 to 4 do
6) S_k ← stage_k(S_{k-1}) /*stage_k通過HRModule模塊提取更高層次的特征S_k*/
7) S_k ← SCA(S_k)
8) end for
9) Predheatmap ← ASFF(S_4) /*ASFF模塊聚合多尺度特征,得到預(yù)測熱圖結(jié)果*/
10) MaxCoord ← argmax(PredHeatmap) /*獲取預(yù)測熱圖中的最大值點的坐標(biāo)*/
11) Coord ← MaxCoord * I_size /*根據(jù)原始圖像的尺寸I_size將熱圖坐標(biāo)轉(zhuǎn)換回原始圖像的坐標(biāo)*/
12) return Coord
13) end function
1.2 空間通道注意力SCA
姿態(tài)估計的任務(wù)是檢測人體關(guān)鍵點的空間位置坐標(biāo),而骨骼關(guān)鍵點之間又有特定的空間聯(lián)系,姿態(tài)估計網(wǎng)絡(luò)需要關(guān)注局部空間特征與全局空間特征。本文受CBAM[9]機制啟發(fā),設(shè)計了空間通道注意力SCA,SCA中的空間注意力模塊(spatial attention module,SAM)能夠?qū)γ總€空間位置計算其相鄰區(qū)域的局部空間信息,通過聚合密集的局部空間信息實現(xiàn)細(xì)粒度的空間特征編碼。同時SCA通道注意力模塊(channel attention module,CAM)采用全局平均池化與最大池化來計算全局通道注意力。SCA模塊兼顧了全局上下文信息與局部空間特征,從而有效提升了關(guān)鍵點檢測精度,SCA注意力結(jié)構(gòu)如圖2所示。
圖2空間注意力模塊中,給定輸入特征圖Xi∈RH×W×C,通過對Xi空間位置(i,j)的C維特征向量進行線性投影,將投影后的特征通過reshape操作進行維度變換,得到(i,j)相鄰K×K局部窗口區(qū)域的空間注意力權(quán)重A^i,j∈RK2×K2。VΔi, j∈RC×K2表示以(i,j)為中心的局部窗口特征,與softmax操作后的空間注意力權(quán)重A^i,j相乘,得到具有空間信息的局部輸出XΔi,j。然后把每個位置窗口內(nèi)所有通過注意力權(quán)重調(diào)整過的特征向量累加起來,實現(xiàn)局部空間信息聚合,即對應(yīng)圖中的fold操作,得到具有細(xì)粒度空間信息的特征圖Xs。
3.3 人體姿態(tài)估計實驗結(jié)果與分析
表1為本文方法和其他姿態(tài)估計方法在COCO驗證集上的性能對比。
由表1中數(shù)據(jù)可知,PoseHRNet的檢測精度AP為77.1%,模型的參數(shù)量和浮點計算量分別為28.83 M和8.05 GFlops。與基線模型HRNet-w32相比,PoseHRNet參數(shù)量和浮點運算量少量增加,模型檢測平均精度AP提高了2.2%,中小目標(biāo)檢測準(zhǔn)確率APM提高了2.8%,在檢測精度和模型復(fù)雜度之間取得了更好的平衡。表1中ViTPose-G*通過增大模型參數(shù)到1 000 M,引入額外數(shù)據(jù)集AIC,提高輸入圖片尺寸,在人體姿態(tài)估計任務(wù)中達(dá)到了最先進水平,但實際應(yīng)用中有諸多限制。與同等規(guī)模的ViTPose-B相比,PoseHRNet以更小的模型復(fù)雜度達(dá)到更高檢測精度,便于實際場景的部署與應(yīng)用。
為驗證PoseHRNet在隊列訓(xùn)練應(yīng)用場景中姿態(tài)檢測的性能,通過在自制隊列訓(xùn)練數(shù)據(jù)進行訓(xùn)練來評估模型的有效性,表2為不同方法在自制數(shù)據(jù)集上性能比較。
根據(jù)表2結(jié)果顯示,PoseHRNet在自制數(shù)據(jù)集平均檢測精度達(dá)到了86.3%。與原基線模型HRNet-w32相比,AP提升了3.1%,AP50和AP75分別提高了2.2%和1.4%。相比其他方法,PoseHRNet取得了更佳檢測精度,驗證了本文算法在隊列訓(xùn)練場景的有效性。二維人體姿態(tài)檢測結(jié)果對三維姿態(tài)結(jié)果的準(zhǔn)確性和可靠性有顯著影響,提高二維姿態(tài)估計模型的檢測精度可以實現(xiàn)更精確的三維隊列姿態(tài)特征檢測效果。
3.4 姿態(tài)估計模型消融實驗
為研究不同模塊對人體姿態(tài)估計模型性能的影響,本節(jié)基于COCO數(shù)據(jù)集對各個模塊進行消融實驗,消融實驗結(jié)果如表3所示。
由表3消融實驗結(jié)果可知,通過對原始數(shù)據(jù)無偏數(shù)據(jù)處理,減小熱圖編解碼過程中統(tǒng)計誤差,各項性能指標(biāo)都有提升,其中檢測精度提升1.3%。通過引入多階段監(jiān)督,構(gòu)建各階段的損失函數(shù)并加權(quán)求和,使得模型收斂效果更好,檢測精度提高0.6%。ASFF模塊能夠融合多尺度分支特征,引入ASFF后模型檢測精度提升1.1%。SCA注意力機制能夠更細(xì)粒度地提取空間信息與通道信息,有效提升模型檢測性能,與基線模型相比,引入SCA模塊后,精度提高1.7%。
3.5 三維姿態(tài)檢測結(jié)果與分析
本文對隊列訓(xùn)練場景典型的踢腿動作進行檢測,采集了28個踢腿動作進行檢測,測量踢腿高度與實際踢腿高度,通過比較測量值與實際值的誤差驗證隊列三維姿態(tài)檢測效果。踢腿高度值實際值通過AimPosition光學(xué)定位系統(tǒng)AP-STD-200測量獲得,AimPosition在視場范圍1~2.4 m內(nèi)的定位精度為0.12 mm,滿足實驗需求。
為驗證基于CCORR_NORMED的三維姿態(tài)估計方法性能,設(shè)計了基于半全局立體匹配方法SGBM的三維重建方法作為對比實驗。SGBM通過對雙目相機左右視圖直接進行立體匹配與視差計算,得到左視圖的三維點云圖,實現(xiàn)二維像素坐標(biāo)到三維空間坐標(biāo)的映射。根據(jù)姿態(tài)估計模型預(yù)測的關(guān)鍵點像素坐標(biāo)即可獲得對應(yīng)的三維空間坐標(biāo)。兩種方法的部分檢測結(jié)果如表4所示。
表中:Vactual表示踢腿高度實際測量值;Vmeasured為測量值;Erelative相對檢測誤差;Tmatching匹配耗時;Tdetection模型檢測圖像耗時;Ttotal表示方法總耗時。本文采用的方法為融合雙目姿態(tài)信息,基于CCORR_NORMED局部匹配實現(xiàn)三維人體姿態(tài)檢測。表中SGBM方法需要對雙目圖像進行半全局立體匹配,再結(jié)合單目圖像的姿態(tài)信息實現(xiàn)三維人體姿態(tài)檢測。
由表4的實驗結(jié)果可知,融合雙目姿態(tài)信息的三維姿態(tài)檢測方法在踢腿高度實驗的平均相對誤差為2.51%,基于SGBM的三維姿態(tài)檢測方法的平均相對誤差為49.8%。姿態(tài)估計網(wǎng)絡(luò)預(yù)測雙目姿態(tài)信息平均耗時為32.98 ms,而僅計算單目姿態(tài)信息平均耗時為24.71 ms。雖然計算雙目姿態(tài)信息需要耗費更多時間,但基于雙目信息進行局部立體匹配大幅度減少計算消耗,整體上以更少的時間消耗達(dá)到更高的檢測精度,實現(xiàn)了高效的三維人體姿態(tài)估計。為更直觀地表示兩種方法的檢測效果,繪制了完整實驗的檢測結(jié)果圖與檢測誤差圖,如圖8與9所示。
圖8(a)為基于CCORR_NORMED的檢測值與實際值對比,縱坐標(biāo)為踢腿高度,橫坐標(biāo)為數(shù)據(jù)編號,圖8(b)為基于SGBM方法得到的檢測對比圖。圖9(a)(b)為兩種方法的誤差曲線圖,縱坐標(biāo)為相對誤差,橫坐標(biāo)為數(shù)據(jù)編號。從圖8和9可以看出,基于CCORR_NORMED方法的檢測誤差明顯更小。分析可知,在2D姿態(tài)估計模型的檢測結(jié)果基礎(chǔ)上對關(guān)鍵點進行立體匹配,能夠準(zhǔn)確快速獲得關(guān)鍵點的三維信息從而實現(xiàn)高效的三維姿態(tài)檢測。傳統(tǒng)的SGBM是對全圖進行三維重建,不但耗時長,而且受圖片的噪點影響大,進而導(dǎo)致局部點檢測精度不足?;贑CORR_NORMED的三維姿態(tài)估計方法對人體關(guān)鍵點進行三維重建有明顯精度優(yōu)勢和速度優(yōu)勢。
3.6 可視化結(jié)果分析
姿態(tài)估計網(wǎng)絡(luò)檢測結(jié)果如圖10和11所示,共檢測17個人體關(guān)鍵點,人體左側(cè)關(guān)鍵點、右側(cè)人體關(guān)鍵點以及頭部區(qū)域關(guān)鍵點分別采用綠色、藍(lán)色和橘黃色表示(見電子版)。圖10給為COCO驗證集上的部分檢測結(jié)果,圖(a)是單人有遮擋場景,圖(b)是較遠(yuǎn)距離逆光場景,圖(c)為光線較暗場景,圖(d)(e)為多人有遮擋的場景。上述結(jié)果表明PoseHRNet在單人、多人、有遮擋、弱光照等復(fù)雜場景下均能準(zhǔn)確檢測出人體關(guān)鍵點。圖11(a)(b)為自制隊列訓(xùn)練數(shù)據(jù)集的檢測效果圖,圖中給出了單人多人以及不同光照下隊列訓(xùn)練場景的人體關(guān)鍵點檢測結(jié)果,圖11(c)還給出了基于SGBM算法得到的深度圖。從檢測結(jié)果可以看出,在復(fù)雜場景PoseHRNet都能較準(zhǔn)確地檢測出關(guān)鍵點位置,達(dá)到了預(yù)期效果。
4 結(jié)束語
針對隊列訓(xùn)練場景中三維姿態(tài)檢測問題,本文提出了融合雙目信息的隊列三維姿態(tài)特征檢測方法。通過2D姿態(tài)估計模型與標(biāo)準(zhǔn)相關(guān)匹配函數(shù)實現(xiàn)雙目相機左右視圖中人體關(guān)鍵點的精確匹配,再利用坐標(biāo)變換得到人體關(guān)鍵點的三維空間坐標(biāo),進而得到三維姿態(tài)特征。2D姿態(tài)估計模型基于HRNet進行改進,在COCO數(shù)據(jù)集精度達(dá)到77.1%,在自制數(shù)據(jù)集上檢測精度達(dá)到86.3%,相比原網(wǎng)絡(luò)分別提升2.2%和3.1%,本文的改進方法有效提升了2D姿態(tài)估計的檢測精度。在隊列三維姿態(tài)檢測的踢腿高度實驗上,本文基于2D姿態(tài)估計模型預(yù)測結(jié)果對左右視圖人體關(guān)鍵點進行局部匹配,匹配平均耗時3.4 ms,測得踢腿高度平均相對誤差為2.5%,很好地平衡了三維人體姿態(tài)估計的檢測精度和檢測速度。
參考文獻(xiàn):
[1]張宇, 溫光照, 米思婭, 等. 基于深度學(xué)習(xí)的二維人體姿態(tài)估計綜述[J]. 軟件學(xué)報, 2022, 33(11): 4173-4191. (Zhang Yu, Wen Guangzhao, Mi Siya, et al. Overview on 2D human pose estimation based on deep learning[J]. Journal of Software, 2022, 33(11): 4173-4191.)
[2]鐘寶榮, 吳夏靈. 基于高分辨率網(wǎng)絡(luò)的輕量型人體姿態(tài)估計研究[J]. 計算機工程, 2023, 49(4): 226-232,239. (Zhong Baorong, Wu Xialing. Research on lightweight human pose estimation based on high-resolution network[J]. Computer Engineering, 2023, 49(4): 226-232,239.)
[3]渠涵冰, 賈振堂. 輕量級高分辨率人體姿態(tài)估計研究[J]. 激光與光電子學(xué)進展, 2022, 59(18): 129-136. (Qu Hanbing, Jia Zhentang. Lightweight and high-resolution human pose estimation method[J]. Laser & Optoelectronics Progress, 2022, 59(18): 129-136.)
[4]Cai Yuanha, Wang Zhicheng, Luo Zhengxiong, et al. Learning delicate local representations for multi-person pose estimation[C]//Proc of European Conference on Computer Vision. Cham: Springer, 2020: 455-472.
[5]Newell A, Yang Kaiyu, Deng Jia. Stacked Hourglass networks for human pose estimation[C]//Proc of European Conference on Computer Vision. Cham: Springer, 2016: 483-499.
[6]Xu Yufei, Zhang Jing, Zhang Qiming, et al. ViTPose: simple vision transformer baselines for human pose estimation[EB/OL]. (2022-04-26). https://arxiv.org/abs/2204.12484.
[7]Sun Ke, Xiao Bin, Liu Dong, et al. Deep high-resolution representation learning for human pose estimation[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press, 2019: 5686-5696.
[8]Zou Xuelian, Bi Xiaojun, Yu Changdong. Improving human pose estimation based on stacked hourglass network[J]. Neural Processing Letters, 2023, 55(7):9521-9544.
[9]Woo S, Park J, Lee J Y, et al. CBAM: convolutional block attention module[C]//Proc of European Conference on Computer Vision. Cham: Springer, 2018: 3-19.
[10]Hua Guoguang, Li Lihong, Liu Shiguang. Multipath affinage stacked-hourglass networks for human pose estimation[J]. Frontiers of Computer Science, 2020, 14(4): 1447011.
[11]王仕宸, 黃凱, 陳志剛, 等. 深度學(xué)習(xí)的三維人體姿態(tài)估計綜述[J]. 計算機科學(xué)與探索, 2023, 17(1): 74-87. (Wang Shichen, Huang Kai, Chen Zhigang, et al. Survey on 3D human pose estimation of deep learning[J]. Journal of Frontiers of Computer Science and Technology, 2023, 17(1): 74-87.)
[12]Huang Junjie, Zhu Zheng, Guo Feng, et al. The devil is in the details: delving into unbiased data processing for human pose estimation[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ:IEEE Press,2020: 5699-5708.
[13]李麗, 張榮芬, 劉宇紅, 等. 基于多尺度注意力機制的高分辨率網(wǎng)絡(luò)人體姿態(tài)估計[J]. 計算機應(yīng)用研究, 2022, 39(11): 3487-3491,3497. (Li Li, Zhang Rongfen, Liu Yuhong, et al. High resolution network human pose estimation based on multi-scale attention mechanism[J]. Application Research of Computers, 2022, 39(11): 3487-3491,3497.)
[14]Yuan Li, Hou Qibin, Jiang Zihang, et al. VOLO: vision outlooker for visual recognition[J]. IEEE Trans on Pattern Analysis and Machine Intelligence, 2022, 45(5): 6575-6586.
[15]Liu Songtao, Huang Di, Wang Yunhong. Learning spatial fusion for single-shot object detection[EB/OL]. (2019). https://arxiv.org/abs/1911.09516.
[16]Qiu Haibo, Wang Chunyu, Wang Jingdong, et al. Cross view fusion for 3D human pose estimation[C]//Proc of IEEE/CVF International Conference on Computer Vision. Piscataway,NJ:IEEE Press,2019: 4341-4350.
[17]暢雅雯, 趙冬青, 單彥虎. 多特征融合和自適應(yīng)聚合的立體匹配算法研究[J]. 計算機工程與應(yīng)用, 2021, 57(23): 219-225. (Chang Yawen, Zhao Dongqing, Shan Yanhu. Research on stereo matching algorithm based on multi-feature fusion and adaptive aggregation[J]. Computer Engineering and Applications, 2021, 57(23): 219-225.)
[18]Hirschmuller H. Stereo processing by semiglobal matching and mutual information[J]. IEEE Trans on Pattern Analysis and Machine Intelligence, 2007, 30(2): 328-341.
[19]Hosni A, Bleyer M, Gelautz M, et al. Local stereo matching using geodesic support weights[C]//Proc of the 16th IEEE International Conference on Image Processing. Piscataway,NJ: IEEE Press, 2009: 2093-2096.
[20]He Kaiming, Zhang Xiangyu, Ren Shaoqing, et al. Deep residual learning for image recognition[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition. 2016: 770-778.
[21]Li Wenbo, Wang Zhicheng, Yin Binyi, et al. Rethinking on multi-stage networks for human pose estimation[EB/OL]. (2019-01-01). https://arxiv.org/abs/1901.00148.
[22]Zhang Hang, Wu Chongruo, Zhang Zhongyue, et al. ResNeSt: split-attention networks[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops. 2022: 2735-2745.
[23]Hu Jie, Shen Li, Sun Gang, et al. Squeeze-and-excitation networks[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2018: 7132-7141.
[24]Wei S E, Ramakrishna V, Kanade T, et al. Convolutional pose machines[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press, 2016: 4724-4732.
[25]Yu Changqian, Xiao Bin, Gao Changxin, et al. Lite-HRNet: a lightweight high-resolution network[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021: 10435-10445.
[26]Ma Ningning, Zhang Xiangyu, Zheng Haitao, et al. ShuffleNet V2: practical guidelines for efficient CNN architecture design[C]//Proc of European Conference on Computer Vision. Cham: Springer, 2018: 122-138.
收稿日期:2023-11-15;修回日期:2024-01-15 基金項目:近地面探測技術(shù)重點實驗室基金資助項目(6142414220203)
作者簡介:趙繼發(fā)(1998—),男,碩士,主要研究方向為圖像處理和姿態(tài)估計;王呈(1983—),男(通信作者),副教授,博士,主要研究方向為非線性系統(tǒng)建模與控制、機器學(xué)習(xí)和數(shù)據(jù)挖掘(wangc@jiangnan.edu.cn);榮英佼(1978—),女,工程師,主要研究方向為目標(biāo)檢測和信號處理.