胡士卓,周斌*,胡波
(1中南民族大學(xué) 計(jì)算機(jī)科學(xué)學(xué)院,武漢 430074;2武漢市東信同邦信息技術(shù)有限公司,武漢 430074)
3D人體姿態(tài)估計(jì)旨在定位場景中人體關(guān)鍵點(diǎn)的3D坐標(biāo)位置,提供與人體相關(guān)的豐富的3D結(jié)構(gòu)信息,因其廣泛的應(yīng)用而受到越來越多的關(guān)注,例如在動(dòng)作識別[1-2]、人機(jī)交互[3-4]、AR/VR[5-6]、自動(dòng)駕駛[7]、計(jì)算機(jī)動(dòng)畫[8]等領(lǐng)域.
從單目圖像的單一視圖重建3D人體姿態(tài)是一項(xiàng)非常重要的任務(wù),它的完成受到自遮擋、其他對象遮擋、深度模糊和訓(xùn)練數(shù)據(jù)不足的困擾.這是一個(gè)嚴(yán)重的不適定問題,因?yàn)椴煌?D人體姿態(tài)可以投影得到相似的2D姿態(tài).此外,對于建立在2D關(guān)節(jié)上的方法,2D身體關(guān)節(jié)的微小定位誤差可能會(huì)導(dǎo)致3D空間中的姿態(tài)失真.上述問題可通過從多個(gè)視圖估計(jì)3D人體姿態(tài)來解決,因?yàn)橐粋€(gè)視圖中的被遮擋部分可能在其他視圖中可見,為了從多個(gè)視圖重建3D姿態(tài),需要解決不同相機(jī)之間對應(yīng)位置的關(guān)聯(lián)問題.
近年來,通過多視圖匹配的3D人體姿態(tài)估計(jì)研究主要分為兩大類[9]:基于2D到3D的多階段方法和基于直接回歸的方法.基于2D到3D的方法如BRIDGEMAN[10]、DONG等[11]通過估計(jì)同一人在每個(gè)視圖中的2D關(guān)鍵點(diǎn),然后將匹配的2D單視圖姿態(tài)提升到3D空間.CHEN等[12]將2D圖結(jié)構(gòu)模型[13]擴(kuò)展到3D圖結(jié)構(gòu)模型以編碼身體關(guān)節(jié)位置之間的成對關(guān)系.BELAGIANNIS等[14]首先解決多人2D姿態(tài)檢測并在多個(gè)攝像機(jī)視圖中進(jìn)行關(guān)聯(lián),再使用三角測量[15]恢復(fù)3D姿態(tài).這些方法在特定的場景下是有效的,但非常依賴2D檢測結(jié)果,2D姿態(tài)估計(jì)不準(zhǔn)確會(huì)很大程度上影響3D姿態(tài)的重建質(zhì)量,特別是存在遮擋的情況.
基于直接回歸的方法也稱為基于端到端的方法,由于深度神經(jīng)網(wǎng)絡(luò)可以擬合復(fù)雜的函數(shù),這一方法通常不需要其他算法輔助和中間數(shù)據(jù),因此可以直接基于回歸的網(wǎng)絡(luò)結(jié)構(gòu)預(yù)測3D姿態(tài)坐標(biāo).如TU等[16]提出的VoxelPose模型通過多視圖特征構(gòu)建離散化的3D特征體積,沒有獨(dú)立地估計(jì)每個(gè)視圖中的2D姿態(tài),而是直接將得到的2D heatmap投影到3D空間中,但在整個(gè)空間中搜索關(guān)鍵點(diǎn)的計(jì)算成本隨著空間的細(xì)致劃分呈幾何增加,同時(shí)還受到空間離散化引起的量化誤差影響.
針對以上研究存在的問題,本文對VoxelPose模型進(jìn)行改進(jìn),提出一種基于heatmap的多視圖融合網(wǎng)絡(luò)(Multi-View Fusion Network,MVFNet),該網(wǎng)絡(luò)在高分辨率網(wǎng)絡(luò)HRNet[17]的基礎(chǔ)上,引入反卷積模塊來生成更高分辨率且語義更加豐富的heatmap,并加入對極約束模型匹配融合不同視圖的人體中心點(diǎn)的heatmap信息.本文方法優(yōu)先獲取人體中心點(diǎn)的空間位置信息,并結(jié)合人體先驗(yàn)性,既減少了其他人體關(guān)鍵點(diǎn)的推理搜索空間,又降低了3D人體姿態(tài)估計(jì)的誤差.
本文整體模型如圖1所示,主要分為兩個(gè)階段:第一階段采用MVFNet網(wǎng)絡(luò)生成heatmap(熱圖),并匹配融合2D視圖中不同視角下人體中心點(diǎn)的heatmap信息,該網(wǎng)絡(luò)包含人體關(guān)鍵點(diǎn)檢測和多視圖融合兩部分;第二階段投影所有的heatmap到3D空間,通過3D CNN網(wǎng)絡(luò)由粗到細(xì)地構(gòu)建3D特征體積來估計(jì)準(zhǔn)確的3D人體姿態(tài).
圖1 網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.1 Network structure diagram
1.1.1 獲取高分辨率heatmap
為獲取高分辨率特征信息,HRNet之前的網(wǎng)絡(luò)采用將高分辨率特征圖下采樣到低分辨率,再恢復(fù)至高分辨率的方法來實(shí)現(xiàn)多尺度特征提取,如U-Net[18]、SegNet[19]、Hourglass[20]等.在這類網(wǎng)絡(luò)結(jié)構(gòu)中,高分辨率特征主要來源于兩個(gè)部分:第一是原本的高分辨率特征,由于只經(jīng)過了少量的卷積操作,只能提供低層次的語義表達(dá);第二是下采樣再上采樣得到的高分辨率特征,然而重復(fù)進(jìn)行上下采樣會(huì)損失大量有效的特征信息.HRNet通過并行多個(gè)高到低分辨率的分支,在始終保持高分辨率特征的同時(shí)逐步引入低分辨率卷積,并將不同分辨率的卷積并行連接進(jìn)行信息交互,使得每一個(gè)高分辨率到低分辨率的特征都從其他并行子網(wǎng)絡(luò)中反復(fù)接收信息,達(dá)到獲取強(qiáng)語義信息和精準(zhǔn)位置信息的目的.因此本文提出的MVFNet網(wǎng)絡(luò)以HRNet為基礎(chǔ)框架,加入反卷積模塊來獲得更高分辨率以及語義信息更加豐富的heatmap,如圖2所示.
圖2 關(guān)鍵點(diǎn)檢測網(wǎng)絡(luò)結(jié)構(gòu)Fig.2 Keypoint detection network structure
網(wǎng)絡(luò)分為4個(gè)階段,主體為4個(gè)并行的子網(wǎng)絡(luò).以高分辨率子網(wǎng)為第一階段,逐步增加高分辨率到低分辨率的子網(wǎng),并將多分辨率子網(wǎng)并行連接.其中第一階段包含4個(gè)殘差單元,每個(gè)殘差單元都和ResNet-50[21]的相同,由一個(gè)通道數(shù)為64的bottleneck構(gòu)成;然后通過一個(gè)3×3,步長為2的卷積下采樣到第二階段.第二、三、四階段分別包含1、4、3個(gè)多分辨率塊,可使網(wǎng)絡(luò)保持一定的深度,充分提取特征信息,每個(gè)多分辨率塊有4個(gè)殘差單元,采用ResNet的BasicBlock,即兩個(gè)3×3卷積.
在網(wǎng)絡(luò)末端將各階段不同分辨率的特征圖進(jìn)行融合,融合后的特征圖作為反卷積模塊的輸入,先經(jīng)過卷積進(jìn)行通道轉(zhuǎn)換,其結(jié)果再與輸入特征進(jìn)行維度上的拼接,然后由一個(gè)卷積核為4×4的反卷積使特征圖的分辨率提升為原來的2倍,再通過4個(gè)殘差塊進(jìn)一步提取特征信息,最后由1×1的卷積來預(yù)測heatmap.其更高的分辨率有助于獲得更豐富的關(guān)鍵點(diǎn)信息,進(jìn)而實(shí)現(xiàn)準(zhǔn)確的3D人體姿態(tài)估計(jì).
1.1.2 多視圖匹配融合
多個(gè)視圖圖像之間存在對極幾何關(guān)系,描述的是兩幅視圖之間的內(nèi)在射影關(guān)系,與外部場景無關(guān),只依賴于相機(jī)內(nèi)參數(shù)和視圖之間的相對姿態(tài).充分利用對極幾何關(guān)系能夠幫助網(wǎng)絡(luò)獲取更多的位置信息,排除訓(xùn)練過程中的無關(guān)噪聲,提高網(wǎng)絡(luò)預(yù)測的準(zhǔn)確度.原理如圖3所示.
圖3 對極幾何示意圖Fig.3 Epipolar geometry diagram
O1、O2為兩個(gè)相機(jī)的光心,I1、I2為成像平面,e1、e2為相機(jī)光心在相對平面上的投影點(diǎn),稱為極點(diǎn).如果兩個(gè)相機(jī)由于角度問題不能拍攝到彼此,那么極點(diǎn)不會(huì)出現(xiàn)在成像平面上.被觀察點(diǎn)P在I1、I2上的投影點(diǎn)為P1、P2,由于深度信息未知,P可在射線O1P1上的任意位置,該射線上的不同點(diǎn)投射到右側(cè)圖像上形成的線L2稱為與點(diǎn)P1對應(yīng)的極線,則P1在右側(cè)圖像的對應(yīng)點(diǎn)P2必然在極線L2上.匹配點(diǎn)的相對位置受到圖像平面空間幾何關(guān)系的約束,這種約束關(guān)系可以用基礎(chǔ)矩陣來表達(dá),根據(jù)文獻(xiàn)[22],對極約束公式為:
其中F為基礎(chǔ)矩陣,計(jì)算公式如下:
其中M1和M2是兩個(gè)相機(jī)內(nèi)部參數(shù)矩陣,E為本征矩陣,包含相機(jī)的外參平移矩陣和旋轉(zhuǎn)矩陣.因此為了充分利用視圖間的幾何約束關(guān)系,本文提出在MVFNet網(wǎng)絡(luò)中引入多視圖對極約束模型.取人體髖關(guān)節(jié)之間的關(guān)鍵點(diǎn)為中心點(diǎn),選擇同一場景不同視角下的heatmap,并通過多視圖對極約束模型獲得中心點(diǎn)對應(yīng)的極線,以此為每個(gè)視角的heatmap的中心點(diǎn),與其所對應(yīng)的其他視角的heatmap的極線進(jìn)行特征融合,來糾正和增強(qiáng)當(dāng)前視角的效果,獲得更豐富的語義信息.如圖4所示.
圖4 多視圖對極約束模型Fig.4 Multi-view epipolar constraint model
多視圖對極約束模型的輸入為高分辨率heatmap,由對極幾何約束關(guān)系求出各圖中心點(diǎn)對應(yīng)的極線并進(jìn)行采樣,得到對應(yīng)點(diǎn)的集合.根據(jù)heatmap的特性,在相應(yīng)的坐標(biāo)處會(huì)生成高斯分布的概率區(qū)域,只有對應(yīng)點(diǎn)附近有高的響應(yīng),其他地方皆接近于0,因此可用一個(gè)全連接層融合對極線上所有點(diǎn)的值,提高中心點(diǎn)檢測的準(zhǔn)確性.最后使用L2 Loss比較最終融合的中心點(diǎn)坐標(biāo)和標(biāo)注的中心點(diǎn)坐標(biāo)之間的差距來進(jìn)行訓(xùn)練約束.
1.2.1 粗略定位人體位置
通過逆圖像投影方法將得到的所有視圖的特征聚合成3D體素體積,初始化體素網(wǎng)格并包含攝像機(jī)觀察到的整個(gè)空間,同時(shí)利用相機(jī)校準(zhǔn)數(shù)據(jù)使得每個(gè)體素中心都被投影到相機(jī)視圖中,再由3DCNN網(wǎng)絡(luò)以此為中心由粗到細(xì)地構(gòu)建特征體積來估計(jì)所有關(guān)鍵點(diǎn)的位置,網(wǎng)絡(luò)結(jié)構(gòu)如圖5所示.
圖5 3DCNN網(wǎng)絡(luò)結(jié)構(gòu)Fig.5 3DCNNnetwork structure
該網(wǎng)絡(luò)輸入的3D特征體積,是通過將所有相機(jī)視圖中的2D heatmap投影到共同的3D空間來構(gòu)建的,由于heatmap編碼了中心點(diǎn)的位置信息,因此得到的3D特征體積也帶有用于檢測3D姿態(tài)的豐富信息,根據(jù)人體先驗(yàn)信息能減少其他關(guān)鍵點(diǎn)在3D空間中的搜索區(qū)域.綠色箭頭表示標(biāo)準(zhǔn)3D卷積層,黃色箭頭表示兩個(gè)3D卷積層的殘差塊.將3D空間離散為X×Y×Z的離散位置{Gx,y,z},每個(gè)位置都可以視為檢測人的一個(gè)anchor.為了減小量化誤差,調(diào)整X,Y,Z的值縮小相鄰anchor之間的距離.在公共數(shù)據(jù)集上,空間一般為8m×8m×2m,因此將X,Y,Z設(shè)置為80,80,20.
融合攝像機(jī)視圖中每個(gè)anchor投影位置的2D heatmap的值,計(jì)算每個(gè)anchor的特征向量.設(shè)將視圖a中的2D heatmap表示為Ma∈RK×H×W,其中K是身體關(guān)鍵點(diǎn)的數(shù)量.對于每個(gè)anchor的位置Gx,y,z,其在視圖中的投影位置為,此處的heatmap值表示為然后計(jì)算anchor的特征向量作為所有攝像機(jī)視圖中的平均heatmap值,公式如下:
其中V是攝像機(jī)的數(shù)量.可以看出Fx,y,z實(shí)際上編碼了K個(gè)關(guān)鍵點(diǎn)在Gx,y,z的可能性.然后用一個(gè)3D bounding box表示包含檢測到的人體關(guān)鍵點(diǎn)位置,bounding box的大小和方向在實(shí)驗(yàn)中是固定的,因?yàn)?D空間中人的變化有限,所以這是一個(gè)合理的簡化.在特征體積F上滑動(dòng)一個(gè)小型網(wǎng)絡(luò),以anchor為中心的每個(gè)滑動(dòng)窗口都映射到一個(gè)低維特征,該特征被反饋到全連接層以回歸置信度作為3D CNN網(wǎng)絡(luò)的輸出,表示人出現(xiàn)在該位置的可能性.根據(jù)anchor到GT位置的距離,計(jì)算每個(gè)anchor的GTheatmap值.即對于每一對GT和anchor,根據(jù)二者的距離計(jì)算高斯分?jǐn)?shù),當(dāng)距離增加時(shí),高斯分?jǐn)?shù)呈指數(shù)下降.如果場景中有N個(gè)人,一個(gè)anchor可能有多個(gè)分?jǐn)?shù),經(jīng)過非極大值抑制(NMS)保留N個(gè)最大的,即代表N個(gè)有人的位置.
1.2.2 構(gòu)建細(xì)粒度特征體積回歸人體姿態(tài)
第一個(gè)3D CNN網(wǎng)絡(luò)無法準(zhǔn)確估計(jì)所有關(guān)鍵點(diǎn)的3D位置,因此在第二個(gè)3D CNN網(wǎng)絡(luò)中構(gòu)建更細(xì)粒度的特征體積,大小設(shè)置為2000 mm×2000 mm×2000 mm,比8 m×8 m×2 m小得多但足以覆蓋人的任何姿勢,該體積被劃分為X0=Y0=Z0=64個(gè)離散網(wǎng)格,其網(wǎng)絡(luò)主體結(jié)構(gòu)與第一個(gè)3D CNN相同.基于構(gòu)造的特征體積,估計(jì)每個(gè)關(guān)鍵點(diǎn)K的3D heatmapHK,最后回歸準(zhǔn)確的3D人體姿態(tài),HK∈RX0×Y0×Z0.根據(jù)公式(4)計(jì)算HK的質(zhì)心,即可得到各關(guān)鍵點(diǎn)的3D位置DK:
將估計(jì)的關(guān)節(jié)位置與真實(shí)位置D*進(jìn)行比較以訓(xùn)練網(wǎng)絡(luò),損失函數(shù)L1的公式為:
本文采用3個(gè)公共數(shù)據(jù)集Campus、Shelf、CMUPanoptic進(jìn)行實(shí)驗(yàn),其中Campus數(shù)據(jù)集通過3個(gè)攝像機(jī)捕獲了3個(gè)人在室外環(huán)境中的互動(dòng)情況,共1.2萬張圖片.Shelf數(shù)據(jù)集由5個(gè)攝像機(jī)拍攝4個(gè)人拆卸貨架的活動(dòng),共1.6萬張圖片.CMU-Panoptic數(shù)據(jù)集是目前用于多人3D姿態(tài)估計(jì)的最大數(shù)據(jù)集,包含30多個(gè)高清攝像機(jī)拍攝的65個(gè)日常活動(dòng)視頻序列和150萬個(gè)人體骨骼關(guān)節(jié)注釋,選取3、6、12、13、23視頻序列得到73萬張圖片.按照標(biāo)準(zhǔn)[23]把視頻序列中的160422_ultimatum1,160224_haggling1,160226_haggling1,161202_haggling1,160906_ian1,160906_ian2,160906_ian3,160906_band1,160906_band2,160906_band3作為訓(xùn)練集;160906_pizza1,160422_haggling1,160906_ian5,160906_band4作為測試集.
使用正確估計(jì)關(guān)節(jié)位置的百分比PCP3D(Percentageof Correct Part 3D)來評估Campus和Shelf數(shù)據(jù)集3D姿態(tài)的準(zhǔn)確性,如果預(yù)測的關(guān)節(jié)位置和真實(shí)關(guān)節(jié)位置之間的距離小于肢體長度的一半,則認(rèn)為檢測正確[14].對于CMU-Panoptic數(shù)據(jù)集,采用每個(gè)關(guān)節(jié)位置的誤差的平均值MPJPE(Mean Per Joint Positon Error)作為重要評價(jià)指標(biāo),以毫米為單位評估3D關(guān)節(jié)的定位精度,表示GT和預(yù)測關(guān)節(jié)位置之間的距離.對于每幀f和人體骨架S,MPJPE的計(jì)算公式如下:
其中NS是骨架S中的關(guān)節(jié)數(shù),對于一組幀,誤差是所有幀的MPJPE的平均值;同時(shí)在MPJPE的閾值(從25 mm到150 mm,步長為25 mm)上取平均精度(Average Precision)和召回率(Recall)作為綜合評估3D人體中心檢測和人體姿態(tài)估計(jì)的性能指標(biāo).AP是由橫坐標(biāo)Recall、縱坐標(biāo)精確率(Precision)兩個(gè)維度圍成的PR曲線下面積,AP的值越大說明檢測模型的綜合性能越好.
實(shí)驗(yàn)基于Linux搭配Pytorch深度學(xué)習(xí)框架實(shí)現(xiàn),具體實(shí)驗(yàn)環(huán)境如表1所示.
表1 實(shí)驗(yàn)環(huán)境配置單Tab.1 Experimental environment configuration sheet
2.3.1 Shelf和Campus數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果分析
在Shelf、Campus數(shù)據(jù)集訓(xùn)練過程中,輸入圖像的尺寸設(shè)置為800×640,batch_size、縮放因子、最大迭代輪次、學(xué)習(xí)率的初始值、人體關(guān)鍵點(diǎn)數(shù)目分別設(shè)置為2,0.35,30,0.0001和17.采用Adam優(yōu)化器自動(dòng)調(diào)整學(xué)習(xí)率,初始3D空間網(wǎng)格劃分為80×80×20,構(gòu)建細(xì)粒度特征體積時(shí),空間網(wǎng)格劃分為64×64×64.實(shí)驗(yàn)結(jié)果與VoxelPose進(jìn)行比較,PCP3D數(shù)據(jù)如表2所示.
表2 Shelf和Campus的PCP3D對比Tab.2 Comparison of PCP3Din Shelf and Campusdatasets /%
對比兩個(gè)數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果可以看出,PCP3D在Shelf中的平均值提升了0.1%,在Campus的Actor1、Actor2均略有提升,說明綜合考慮2D人體中心點(diǎn)的多視圖匹配融合有助于提高3D人體姿態(tài)估計(jì)的準(zhǔn)確率.由于這兩個(gè)數(shù)據(jù)集的GT姿態(tài)注釋不完整,因此沒有進(jìn)行AP和Recall的對比.通過可視化的結(jié)果發(fā)現(xiàn):只要關(guān)鍵點(diǎn)在至少兩個(gè)視圖中可見,通??梢缘玫綔?zhǔn)確的人體姿態(tài)估計(jì),可視化結(jié)果如圖6所示.
由圖6可發(fā)現(xiàn)在Shelf數(shù)據(jù)集中,由于缺少一部分紅圈中人的GT注釋,所以存在無法檢測到該人關(guān)鍵點(diǎn)的情況,輸出的301幀中只有66幀正確檢測到關(guān)鍵點(diǎn),但仍可以恢復(fù)其3D姿態(tài).Campus數(shù)據(jù)集的注釋比較準(zhǔn)確,即使在3號相機(jī)中存在嚴(yán)重的遮擋的情況下,兩人幾乎重合,本文算法通過融合2D人體中心點(diǎn)的特征信息可更精準(zhǔn)地定位其在3D空間中的位置,進(jìn)而由3D CNN網(wǎng)絡(luò)構(gòu)建由粗到細(xì)的特征體積來估計(jì)其他關(guān)鍵點(diǎn)的位置,得到更加準(zhǔn)確的人體姿態(tài),因而通過另外兩個(gè)相機(jī)檢測到Actor1和Actor2關(guān)鍵點(diǎn)的準(zhǔn)確度有所提升.3D人體姿態(tài)估計(jì)結(jié)果如圖6右所示.
圖6 Shelf(上)和Campus(下)數(shù)據(jù)集3D姿態(tài)估計(jì)Fig.6 Shelf(up)and Campus(down)datasets3Dposeestimation
2.3.2 CMU-Panoptic數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果分析
不同的數(shù)據(jù)集所采集的圖像參數(shù)和人體關(guān)鍵點(diǎn)注釋不同,因此設(shè)置輸入圖像的尺寸為960×512,epoch和人體關(guān)鍵點(diǎn)數(shù)目分別為10,15,其他超參數(shù)與前兩個(gè)數(shù)據(jù)集一致.本文模型的AP、Recall與VoxelPose的對比如表3所示.
表3 CMU-Panoptic的評估指標(biāo)對比Tab.3 Comparison of evaluation indicators in CMU-Panoptic dataset/%
在AP25上相較于VoxelPose提升了4.6%,Recall提高了2.17%.重要指標(biāo)MPJPE方面,VoxelPose為17.82 mm,本文算法為16.80 mm,降低了1.02 mm.說明在2D關(guān)鍵點(diǎn)檢測網(wǎng)絡(luò)中,生成的高分辨率heatmap帶有更豐富的特征信息,融合不同視圖的人體中心點(diǎn)heatmap能夠帶來準(zhǔn)確的3D空間位置信息,并結(jié)合人體先驗(yàn)性有效縮小了其他關(guān)鍵點(diǎn)的推理范圍,從而降低了誤差,實(shí)現(xiàn)了更高精度的3D人體姿態(tài)估計(jì).可視化效果見圖7,在吃披薩和彈樂器的活動(dòng)中,即使有人體和桌椅遮擋,仍然能檢測到腿部關(guān)鍵點(diǎn),但對小孩的姿態(tài)估計(jì)存在一定的誤差,因?yàn)樾『㈥P(guān)鍵點(diǎn)間距較小,且只有少量的GT注釋和樣本數(shù)據(jù),所以導(dǎo)致估計(jì)的效果不佳.綜合表2和表3的實(shí)驗(yàn)數(shù)據(jù)可驗(yàn)證在確定2D人體中心點(diǎn)位置的基礎(chǔ)上進(jìn)行3D空間推理從而恢復(fù)人體姿態(tài)的方法是有效的,在不同程度上提高了檢測各個(gè)關(guān)鍵點(diǎn)的精確度,降低了每個(gè)關(guān)節(jié)位置的誤差的平均值.
圖7 CMU-Panoptic數(shù)據(jù)集3D姿態(tài)估計(jì)Fig.7 CMU-Panoptic dataset 3D pose estimation
本文針對自然環(huán)境下遮擋和檢測不準(zhǔn)確等問題,提出了一種基于heatmap的多視圖融合網(wǎng)絡(luò)MVFNet來估計(jì)3D人體姿態(tài).網(wǎng)絡(luò)以HRNet為基礎(chǔ)加入反卷積模塊生成更高分辨率的heatmap,獲得更加豐富的語義信息;然后通過對極約束模型匹配融合中心點(diǎn)特征,可優(yōu)先確定中心點(diǎn)在3D空間中的位置,縮小其他關(guān)鍵點(diǎn)的推理范圍;再經(jīng)過3D CNN網(wǎng)絡(luò)構(gòu)建特征體積得到各關(guān)鍵點(diǎn)的空間位置;最后回歸出準(zhǔn)確的3D人體姿態(tài).實(shí)驗(yàn)結(jié)果表明:本文的改進(jìn)模型相較于VoxelPose具有良好的性能和效果,有一定的工程應(yīng)用價(jià)值.