部位級遮擋感知的人體姿態(tài)估計

2022-12-15 13:19徐士彪張曉鵬

計算機研究與發(fā)展 2022年12期

褚真米慶馬偉徐士彪張曉鵬

1(北京工業(yè)大學(xué)信息學(xué)部北京 100124)2(北京郵電大學(xué)人工智能學(xué)院北京 100876)3(模式識別國家重點實驗室(中國科學(xué)院自動化研究所) 北京 100190)(zhen.chu@foxmail.com)

人體姿態(tài)估計即定位圖像或視頻中的人體關(guān)節(jié)點，是計算機視覺中一項基本但極具挑戰(zhàn)性的任務(wù)，在運動康復(fù)、人機交互、自動駕駛[1]等方面有著廣泛應(yīng)用.近年來，深度學(xué)習(xí)的發(fā)展使得人體姿態(tài)估計技術(shù)取得了突飛猛進的進步.然而，現(xiàn)有方法仍難以較好地處理現(xiàn)實環(huán)境中普遍存在的遮擋問題.如何有效應(yīng)對遮擋問題，進而提升人體姿態(tài)估計方法的實用價值，是目前研究的重點和難點.

數(shù)據(jù)增強是處理遮擋問題的常用方法之一.例如，Ke等人[2]通過從關(guān)節(jié)點周圍圖像背景中裁剪出正方形區(qū)域粘貼到關(guān)節(jié)點位置來模擬遮擋.Bin等人[3]提出語義數(shù)據(jù)增強方法，通過生成網(wǎng)絡(luò)動態(tài)地預(yù)測增強后的圖像，進而利用增強后的數(shù)據(jù)訓(xùn)練人體姿態(tài)估計網(wǎng)絡(luò)，以提升這些網(wǎng)絡(luò)在遮擋環(huán)境下的魯棒性.但是，數(shù)據(jù)增強方法干擾了網(wǎng)絡(luò)對于關(guān)節(jié)點表觀屬性的認(rèn)知.為此，Zhou等人[4]提出OASNet，利用注意力機制預(yù)測遮擋感知的注意力圖，刪除遮擋區(qū)域噪聲特征，進而重建出因遮擋而缺失的人體區(qū)域特征.相比于數(shù)據(jù)增強方法，遮擋感知方法能夠有效去除噪聲干擾.然而，目前此類方法只關(guān)注遮擋區(qū)域在圖像空間中的位置，對所有被遮擋關(guān)節(jié)點等同對待.由于不同關(guān)節(jié)點表觀和上下文關(guān)系差異性大，等同對待難以充分利用關(guān)節(jié)點之間的關(guān)系.

本文提出部位級遮擋感知的人體姿態(tài)估計方法，以提高人體姿態(tài)估計在遮擋下的魯棒性.所提出方法在基準(zhǔn)人體姿態(tài)估計網(wǎng)絡(luò)框架中引入遮擋部位預(yù)測模塊，該模塊由遮擋部位分類網(wǎng)絡(luò)和可見性編碼器組成.其中，遮擋部位分類網(wǎng)絡(luò)用于預(yù)測每個關(guān)節(jié)點的遮擋狀態(tài)，記作關(guān)節(jié)點可見性向量.關(guān)節(jié)點可見性向量描述了人體各個部位是否被遮擋這一關(guān)鍵信息，可以作為先驗知識指導(dǎo)人體姿態(tài)估計任務(wù).基于通道注意力思想，可見性編碼器將可見性向量轉(zhuǎn)換為一組權(quán)重，與基準(zhǔn)姿態(tài)估計網(wǎng)絡(luò)提取的卷積特征進行通道重加權(quán)，從而迫使網(wǎng)絡(luò)學(xué)習(xí)到被遮擋和可見關(guān)節(jié)點之間的差異，感知遮擋部位，利用相關(guān)關(guān)節(jié)點的上下文修正錯誤的預(yù)測.所提出遮擋部位預(yù)測模塊具有通用性，適合任何人體姿態(tài)估計基準(zhǔn)網(wǎng)絡(luò)，且參數(shù)量低，能夠以較低的計算代價有效地減輕遮擋的影響.

本文工作的主要貢獻有3個方面：

1) 提出部位級遮擋感知人體姿態(tài)估計方法，通過關(guān)節(jié)點級別的遮擋推測、知識編碼和使用，提升遮擋狀態(tài)下的人體姿態(tài)估計準(zhǔn)確度；

2) 構(gòu)建遮擋部位預(yù)測模塊，由遮擋部位分類網(wǎng)絡(luò)和可見性編碼器組成.前者預(yù)測關(guān)節(jié)點遮擋狀態(tài)，后者將遮擋狀態(tài)編碼為人體姿態(tài)估計所用先驗知識.所構(gòu)建的遮擋部位預(yù)測模塊能夠兼容不同的基準(zhǔn)姿態(tài)估計網(wǎng)絡(luò)；

3) 在合成和實際數(shù)據(jù)集上的實驗均表明，所提出方法能夠有效地提升遮擋狀態(tài)下的人體姿態(tài)估計性能.

1 相關(guān)工作

首先，回顧近年來人體姿態(tài)估計相關(guān)工作.其次，由于本文重點解決遮擋問題，在此也將對相似任務(wù)中如何處理遮擋問題進行介紹.

1.1 人體姿態(tài)估計

傳統(tǒng)姿態(tài)估計方法[5-7]使用手工構(gòu)建的特征提取器，往往僅僅考慮小范圍的局部特征，特征的豐富度也非常有限，因此很難對姿態(tài)做出準(zhǔn)確的判斷.目前先進的人體姿態(tài)估計方法都是基于深度卷積神經(jīng)網(wǎng)絡(luò)進行的.DeepPose[8]把深度學(xué)習(xí)引入到人體姿態(tài)估計任務(wù)中，它基于卷積神經(jīng)網(wǎng)絡(luò)直接回歸關(guān)節(jié)點的坐標(biāo).由于直接回歸法相對困難，基于熱圖的方法是目前的主流.CPM(convolutional pose machines)[9]能夠提取不同尺度的局部區(qū)域的關(guān)節(jié)點概率，再利用多階段的方式逐步修正提取的結(jié)果.Hourglass[10]使用了U型的網(wǎng)絡(luò)結(jié)構(gòu)，把設(shè)計的殘差模塊作為該網(wǎng)絡(luò)的基本單元，通過反復(fù)的上下采樣和同尺度特征的跨層連接來獲取更有效的多尺度信息，并且使用多階段的網(wǎng)絡(luò)架構(gòu)實現(xiàn)逐步優(yōu)化前一階段的預(yù)測熱圖的“由粗到精”的學(xué)習(xí)策略.在Hourglass的基礎(chǔ)上，PyraNet[11]把殘差模塊替換為金字塔殘差模塊，目的是捕捉到細粒度多尺度特征.Tang等人[12]提出一種復(fù)合模型，利用神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)人體的層級結(jié)構(gòu).Hua等人[13]在Hourglass基礎(chǔ)上引入精煉模塊和殘差注意力模塊，以提高上采樣效果.Lin等人[14]提出基于結(jié)構(gòu)化空間學(xué)習(xí)和中間估計，以保持視頻估計結(jié)果的時序一致性.SBN(simple baseline network)[15]把ResNet[16]的全連接層替換為幾層反卷積用來增大輸出特征圖的分辨率，雖然結(jié)構(gòu)簡單，但是性能更好.HRNet[17]全程保持高分辨率的表征，并逐漸增加更低分辨率的子網(wǎng)，同時，在并行的子網(wǎng)之間反復(fù)交換信息來實現(xiàn)多尺度融合，它超越了以往所有的網(wǎng)絡(luò)模型，在其他計算機視覺任務(wù)中也有著廣泛的應(yīng)用.

盡管取得顯著進展，現(xiàn)有人體姿態(tài)估計網(wǎng)絡(luò)仍難以應(yīng)對遮擋問題.本文提出部位級遮擋感知的人體姿態(tài)估計方法，以較低的額外計算代價提升現(xiàn)有網(wǎng)絡(luò)應(yīng)對遮擋的魯棒性，所提出方法能夠兼容任何主流人體姿態(tài)估計基準(zhǔn)網(wǎng)絡(luò).

1.2 遮擋處理

CPN[18]采用2階段的網(wǎng)絡(luò)結(jié)構(gòu)，利用GlobalNet提取的特征幫助RefineNet優(yōu)化被遮擋的困難的關(guān)節(jié)點的檢測結(jié)果.Chu等人[19]利用基于條件隨機場的注意力機制來處理遮擋問題.Ke等人[2]提出的keypoint masking技術(shù)，通過從關(guān)節(jié)點周圍圖像背景中裁剪出正方形區(qū)域粘貼到關(guān)節(jié)點位置來模擬遮擋.Chen等人[20]利用生成對抗網(wǎng)絡(luò)預(yù)測遮擋部位，通過對抗式學(xué)習(xí)不斷修正預(yù)測結(jié)果.Bin等人[3]提出語義數(shù)據(jù)增強方法，利用生成網(wǎng)絡(luò)粘貼不同語義粒度的身體部位來模擬挑戰(zhàn)性更高的圖像.OASNet[4]在人體姿態(tài)估計網(wǎng)絡(luò)上添加了額外的分支，通過監(jiān)督學(xué)習(xí)的方式預(yù)測圖像中遮擋區(qū)域的空間位置，然后刪除被遮擋區(qū)域的特征，再利用孿生網(wǎng)絡(luò)更好地重建特征圖上被遮擋區(qū)域的特征，從而降低遮擋的干擾，依靠周邊信息恢復(fù)被遮擋部位的特征.前述工作嘗試感知遮擋所在圖像空間位置.本文提出遮擋部位感知的人體姿態(tài)估計方法.人體姿態(tài)結(jié)構(gòu)性強，感知遮擋部位相比感知遮擋位置更加有助于姿態(tài)估計時抹除遮擋對相關(guān)部位估計的影響和利用相關(guān)部位作為上下文線索對遮擋部位進行更有效推斷.

處理遮擋也是其他計算機視覺任務(wù)中研究的重點之一.在行人檢測中，Zhang等人[21]發(fā)現(xiàn)對于基于卷積網(wǎng)絡(luò)的行人檢測器，不同的通道對與人體不同部位有不同的響應(yīng)，為此提出了作用于通道上的注意力機制.OR-CNN[22]設(shè)計了AggLoss最小化建議與對象的距離，并且用部件遮擋感知的RoI池化單元替換原有的RoI層.Pang等人[23]提出了Mask引導(dǎo)的注意力網(wǎng)絡(luò)，在增強人體可見區(qū)域權(quán)重的同時抑制被遮擋的區(qū)域.針對遮擋下的人臉關(guān)節(jié)點進行檢測.Zhu等人[24]提出了遮擋自適應(yīng)的網(wǎng)絡(luò)，它可以在高維空間上過濾掉遮擋區(qū)域的特征的同時根據(jù)上下文恢復(fù)出相應(yīng)的幾何信息.與前述工作不同，本文研究結(jié)構(gòu)性更強的人體姿態(tài)的估計問題，并提出了部位級遮擋感知的人體姿態(tài)估計方法.

2 本文方法

2.1 設(shè)計動機

本文以當(dāng)前性能優(yōu)秀的HRNet和SBN為例，測試現(xiàn)有方法在被遮擋節(jié)點上的預(yù)測效果，結(jié)果如圖1所示，圓圈用于標(biāo)識預(yù)測錯誤的位置.其中，圖1(a)中遮擋影響了未被遮擋的關(guān)節(jié)點(左手腕、右腳踝)的檢測.圖1(b)中由于遮擋存在，導(dǎo)致預(yù)測姿態(tài)不自然.簡言之，遮擋不僅影響被遮擋的部位，也對與遮擋部位相鄰的未被遮擋關(guān)節(jié)點的定位有一定程度的影響.

Fig. 1 Failure examples of existing methods to deal with occlusion problems圖1 現(xiàn)有方法處理遮擋問題的失敗案例

關(guān)節(jié)點被遮擋也將對其他關(guān)節(jié)點的預(yù)測產(chǎn)生負(fù)面影響.為了對比不同部位遮擋對其他關(guān)節(jié)點估計的影響，首先基于MPII數(shù)據(jù)集分別在頭部、軀干(包含肩膀、髖在內(nèi)的關(guān)節(jié)點)、上肢、下肢添加黑色的遮擋；然后排除遮擋部位的關(guān)節(jié)點，分別計算遮擋下的結(jié)果與原始結(jié)果的差值，得到其他關(guān)節(jié)點在遮擋影響下的下降值，再對這些下降值求平均，最終得到遮擋對總體的影響程度PCKh@0.5，在第i個關(guān)節(jié)點上的PCKh@0.5定義為

(1)

Table 1 Influence of Different Parts of Occlusion on PCKh@0.5 of Other Keypoints表1 不同部位遮擋對其他關(guān)節(jié)點PCKh@0.5的影響

Fig. 2 The overall architecture of proposed method圖2 本文方法整體架構(gòu)

從表1中可以看出，遮擋軀干對上肢關(guān)節(jié)點的檢測影響較大.在HRNet和SBN上的平均PCKh(head-normalized probability of correct keypoint)@0.5分別下降了1.98和2.76.究其原因，一方面是由于軀干與上肢直接相連，關(guān)聯(lián)度高;另一方面是由于軀干面積較大且人體上肢靈活，上肢經(jīng)常與軀干重疊，形成人體自遮擋.同理，遮擋上肢對其他關(guān)節(jié)點的影響也較大，在HRNet和SBN上平均PCKh@0.5分別下降了1.58和2.18.此外，遮擋頭部對檢測其他關(guān)節(jié)點有一定影響，在HRNet和SBN上平均PCKh@0.5分別下降了0.65和0.8.而由于MPII數(shù)據(jù)集中人體姿態(tài)多為站立，與其他部位距離較遠，因而遮擋下肢對其他關(guān)節(jié)點的檢測影響較小.

綜上，人體部位遮擋對自身以及與之相關(guān)的其他部位均有一定程度的影響.如果獲得關(guān)節(jié)點級別遮擋線索，則可通過上下文更好地優(yōu)化被遮擋關(guān)節(jié)點的定位，同時減少其對其他關(guān)節(jié)點的影響,提高人體姿態(tài)估計模型應(yīng)對遮擋的能力.

2.2 方法整體架構(gòu)

本文方法的整體架構(gòu)如圖2所示.首先，將輸入圖像同時輸入基準(zhǔn)姿態(tài)估計網(wǎng)絡(luò)和遮擋部位預(yù)測模塊.然后，使用遮擋部位預(yù)測模塊的輸出對基準(zhǔn)姿態(tài)估計網(wǎng)絡(luò)提取的特征施加通道重加權(quán)操作，得到優(yōu)化后的特征.最后，使用1×1卷積獲得最終結(jié)果.其中，基準(zhǔn)姿態(tài)估計網(wǎng)絡(luò)可以是現(xiàn)有任何人體姿態(tài)網(wǎng)絡(luò).所提出遮擋部位預(yù)測模塊由遮擋部位分類網(wǎng)絡(luò)和可見性編碼器(visibility encoder, VE)組成.下面分別對其進行介紹.

2.3 遮擋部位分類網(wǎng)絡(luò)

為了獲得關(guān)節(jié)點級別的遮擋線索，所提出遮擋部位分類網(wǎng)絡(luò)將根據(jù)輸入圖像預(yù)測人體每個關(guān)節(jié)點的遮擋狀態(tài).而關(guān)節(jié)點僅有被遮擋和可見2種狀態(tài)，因而相比于人體姿態(tài)估計的回歸任務(wù)，遮擋部位分類任務(wù)更簡單，模型也更容易收斂.因此，權(quán)衡計算量和精度，遮擋部位分類網(wǎng)絡(luò)將使用輕量級網(wǎng)絡(luò)MobileNetV2[25]作為主干網(wǎng)絡(luò)，用于提取適合遮擋部位分類任務(wù)的特征，獲得每個關(guān)節(jié)點可見性向量，作為可見性編碼器的輸入.可見性向量表示為

o=(v0p0,v1p1,…,vkpk),

(2)

其中,pi表示人體每個關(guān)節(jié)點，vi是一個二值變量，表示第i個關(guān)節(jié)點是否被遮擋，vi∈{0,1},i∈[0,k],0表示被遮擋，1表示可見.

本文對MobileNetV2做出適當(dāng)修改以適應(yīng)關(guān)節(jié)點的遮擋分類任務(wù).將MobileNetV2末尾用于圖像分類的1000維全連接層分類器替換為輸出通道數(shù)為n的1×1卷積.

在訓(xùn)練階段，采用二分類交叉熵?fù)p失監(jiān)督遮擋分類網(wǎng)絡(luò)訓(xùn)練過程，以最小化在每個關(guān)節(jié)點上的遮擋狀態(tài)預(yù)測誤差.遮擋分類預(yù)測損失定義為：

(3)

2.4 可見性編碼器

為了將可見性向量與帶噪聲特征融合，首先利用可見性編碼器擴展可見性向量的維度，然后利用通道注意力機制對帶噪聲特征進行重加權(quán).前述過程可表示為

focc=ΩTfch,

(4)

其中,fch為需要被通道重加權(quán)的特征，Ω為權(quán)重參數(shù)向量.

本文選擇通道重加權(quán)而非其他特征融合方式的原因如下：首先，基于熱圖的人體姿態(tài)估計方法將人體關(guān)節(jié)點轉(zhuǎn)化為以關(guān)節(jié)點位置為中心的2維高斯熱圖，網(wǎng)絡(luò)末尾使用1×1卷積將高維特征轉(zhuǎn)化為與關(guān)節(jié)點數(shù)量相等的熱圖，關(guān)聯(lián)了不同部位間的影響關(guān)系，說明關(guān)節(jié)點的信息與通道相關(guān).其次，深層的網(wǎng)絡(luò)能夠?qū)W習(xí)出人體整體的結(jié)構(gòu)，建模關(guān)節(jié)點之間的關(guān)系.而遮擋部位分類網(wǎng)絡(luò)預(yù)測到的可見性向量僅表達了關(guān)節(jié)點獨自的遮擋狀態(tài)信息，缺乏關(guān)節(jié)點之間的關(guān)聯(lián)信息.因此，通道重加權(quán)能夠更好地利用關(guān)節(jié)點之間的上下文信息，并在本文所提出的可見性編碼器的幫助下，利用注意力機制區(qū)分被遮擋與未被遮擋部位直接的差異，利用相關(guān)部位的上下文線索克服遮擋的干擾.

為了獲得權(quán)重參數(shù)向量Ω，利用可見性編碼器把可見性向量編碼到更高維度的特征上.具體而言，利用可見性編碼器把可見性向量轉(zhuǎn)換為一組維度與基準(zhǔn)姿態(tài)估計網(wǎng)絡(luò)提取的卷積特征通道數(shù)相等的權(quán)重，其值小于1.然后對卷積特征進行通道重加權(quán).該過程的公式表示為

Ω=F(o),

(5)

F=Sigmoid(F2(F1(o))),

(6)

其中,F表示可見性編碼器，其結(jié)構(gòu)如圖3所示.輸入為遮擋部位分類網(wǎng)絡(luò)的輸出，即可見性向量o.經(jīng)過2個全連接層F1和F2使得向量的維度和基準(zhǔn)姿態(tài)估計網(wǎng)絡(luò)提取的卷積特征通道數(shù)相同，再經(jīng)過Sigmoid函數(shù)使該模塊輸出向量每個元素的值調(diào)整為0和1之間，得到權(quán)重參數(shù)向量Ω.再與基準(zhǔn)人體姿態(tài)估計網(wǎng)絡(luò)提取的卷積特征fch進行對應(yīng)通道上相乘，得到重加權(quán)后的特征focc.

Fig. 3 The network sturcture of the visibility encoder圖3 可見性編碼器的網(wǎng)絡(luò)結(jié)構(gòu)

當(dāng)基準(zhǔn)姿態(tài)估計網(wǎng)絡(luò)為HRNet時，2個全連接層輸出通道數(shù)分別為64和32.此時，將可見性編碼器模塊添加在HRNet的stage 4之后、1×1卷積之前;當(dāng)基準(zhǔn)姿態(tài)估計網(wǎng)絡(luò)為SBN時，2個全連接層輸出通道數(shù)分別為64和256.此時，將可見性編碼器添加在最后一層反卷積后.

2.5 整體架構(gòu)訓(xùn)練損失函數(shù)

本文對人體姿態(tài)估計網(wǎng)絡(luò)和部位級遮擋分類網(wǎng)絡(luò)進行聯(lián)合端到端訓(xùn)練.為此，對人體姿態(tài)估計網(wǎng)絡(luò)預(yù)測的關(guān)節(jié)點熱圖和遮擋分類模塊預(yù)測的關(guān)節(jié)點可見性向量的整體損失進行度量，整體損失函數(shù)為

L=Lhm+λLocc,

(7)

其中,Lhm表示人體姿態(tài)估計關(guān)節(jié)點熱圖檢測的L2損失函數(shù)，Locc由式(2)給出，表示用于遮擋部位分類的二分類交叉熵?fù)p失函數(shù).λ為平衡2個損失函數(shù)的超參數(shù).鑒于遮擋分類任務(wù)優(yōu)化較快，本文設(shè)λ=0.01.基準(zhǔn)姿態(tài)估計模塊和遮擋分類網(wǎng)絡(luò)均使用ImageNet預(yù)訓(xùn)練模型進行參數(shù)初始化.

3 實驗結(jié)果與分析

3.1 數(shù)據(jù)集和評價指標(biāo)

MPII數(shù)據(jù)集是一個用于2維人體姿態(tài)估計任務(wù)的數(shù)據(jù)集，包含約25 000張從真實場景中采集的圖像和超過40 000個人體關(guān)節(jié)點標(biāo)注，其中每人共有16個關(guān)節(jié)點被標(biāo)注，是單人姿態(tài)估計任務(wù)的主流數(shù)據(jù)集.

LSP(leeds sports pose)數(shù)據(jù)集由2 000個樣本原始數(shù)據(jù)集和10 000個樣本的擴展數(shù)據(jù)集組成.其中，原始數(shù)據(jù)集中的1 000個樣本用于測試，其余11 000個樣本用于訓(xùn)練.每人有14個標(biāo)注的關(guān)節(jié)點.

PCKh是MPII和LSP數(shù)據(jù)集的評價指標(biāo)，用于計算檢測的關(guān)節(jié)點與其真值的歸一化距離小于預(yù)設(shè)閾值(頭部長度)的比例.

本文分別基于MPII和LSP數(shù)據(jù)集，構(gòu)建合成隨機矩形遮擋的圖像數(shù)據(jù)集，包括訓(xùn)練集和驗證集.隨機矩形遮擋的高是人體目標(biāo)框高度的[1/4,1/2]之間的隨機值，寬是人體目標(biāo)框?qū)挾鹊腫1/2,1]倍之間的隨機值.遮擋區(qū)域的位置在人體的包圍框內(nèi)，顏色是圖像的平均值.

3.2 實驗設(shè)置

訓(xùn)練階段實驗設(shè)置.實驗基于PyTorch框架在GTX 1080Ti GPU上訓(xùn)練，并使用了ImageNet的預(yù)訓(xùn)練參數(shù).參考Xiao等人[15]、Sun等人[17]的實驗設(shè)置，輸入圖像大小調(diào)整為256×256，批大小為32，優(yōu)化器為Adam，初始學(xué)習(xí)率為0.001.基于HRNet基準(zhǔn)網(wǎng)絡(luò)，迭代訓(xùn)練到170和200輪時，學(xué)習(xí)率分別下降至0.000 1和0.000 01，總共訓(xùn)練210輪；基于SBN基準(zhǔn)網(wǎng)絡(luò)，迭代訓(xùn)練到90和120輪時，學(xué)習(xí)率分別下降至0.000 1和0.000 01，總共訓(xùn)練150輪.數(shù)據(jù)增強的策略包括-45°～45°隨機旋轉(zhuǎn)，0.65～1.35隨機尺度變換和左右隨機翻轉(zhuǎn).

測試階段實驗設(shè)置.輸入圖像經(jīng)過網(wǎng)絡(luò)推理得到熱圖后，對該熱圖和翻轉(zhuǎn)后的熱圖對應(yīng)位置求平均，得到最終的熱圖.在后處理時，參考Hourglass[10]，將熱圖上值最高的一點向次高點的1/4像素的偏移作為最終的關(guān)節(jié)點預(yù)測位置.

3.3 消融實驗

本文首先設(shè)計消融實驗確定方法的最終結(jié)構(gòu).所有消融實驗均基于HRNet和所構(gòu)建合成MPII數(shù)據(jù)集訓(xùn)練和測試.以下分別介紹通道重加權(quán)位置、可見性編碼器結(jié)構(gòu)、遮擋部位分類網(wǎng)絡(luò)和遮擋部位預(yù)測模塊通用性的消融實驗.

3.3.1 通道重加權(quán)位置

本文基于HRNet設(shè)計消融實驗，對比在3個位置(A，B，C)施加通道重加權(quán)(如圖4所示)對結(jié)果的影響.其中：A表示在HRNet前執(zhí)行重加權(quán);B表示在主干網(wǎng)絡(luò)提取到特征之后執(zhí)行重加權(quán)；C表示經(jīng)過最后一個1×1卷積，得到的16個關(guān)節(jié)點熱圖后再執(zhí)行重加權(quán)；1，2，3，4表示HRNet四個階段網(wǎng)絡(luò)結(jié)構(gòu)組成.實驗結(jié)果如表2所示，在位置B施加通道重加權(quán)操作的效果最好.

Fig. 4 Indication of the positions where channel weighting is applied on HRNet圖4 在HRNet上施加通道重加權(quán)位置示意圖

Table 2 Ablation Study of HRNet with Channel Re-weighting at Different Positions

3.3.2 可見性編碼器結(jié)構(gòu)

在基于HRNet驗證可見性編碼器結(jié)構(gòu)的消融實驗中，比較該模塊不同數(shù)量的全連接層之間的差異.實驗結(jié)果如表3所示，當(dāng)全連接層數(shù)量為2時，可見性編碼器的結(jié)果最好，因此本文方法最終選擇2層全連接的可見性編碼器.

Table 3 Ablation Study on the Number of Fully Connection Layers in the Visibility Encoder

3.3.3 遮擋部位分類網(wǎng)絡(luò)

遮擋部位預(yù)測模塊所使用的遮擋分類網(wǎng)絡(luò)可以是現(xiàn)有的任何輕量級分類網(wǎng)絡(luò).本文選擇有代表性的輕量級網(wǎng)絡(luò)MobileNetV2[25]，ShuffleNetV2[26]，GhostNet[27]進行對比實驗，結(jié)果如表4所示.從表4中可看出，選擇不同的分類網(wǎng)絡(luò)對最終姿態(tài)估計結(jié)果的影響極小，因此本文選擇經(jīng)典的MobileNetV2作為遮擋部位分類網(wǎng)絡(luò).

Table 4 Ablation Study of the Occlusion Classification Network

3.3.4 遮擋部位預(yù)測模塊通用性

鑒于本文方法兼容所有基準(zhǔn)人體姿態(tài)估計網(wǎng)絡(luò)，為了使其性能最優(yōu)，設(shè)計驗證遮擋部位預(yù)測模塊通用性的消融實驗，結(jié)果如表5所示.在HRNet和SBN中引入遮擋部位預(yù)測模塊后，平均指標(biāo)分別提升了0.3和0.5.實驗結(jié)果說明所提出的遮擋部位預(yù)測模塊能廣泛提升現(xiàn)有方法在合成遮擋下的性能.綜上，最終選擇HRNet作為本文方法的基準(zhǔn)姿態(tài)估計網(wǎng)絡(luò)，用于和現(xiàn)有方法橫向比較.

Table 5 Ablation Study for Verifying the Universality of the Visibility Encoder表5 驗證可見性編碼器通用性的消融實驗

3.4 橫向?qū)Ρ葘嶒灐史治?/h3>
表6給出了各方法的參數(shù)量、計算量和在RTX 3090顯卡上的推理速度(輸入圖片的尺寸為256×256)的橫向?qū)Ρ?從表6中可看出，本文方法設(shè)計的遮擋預(yù)測模塊的參數(shù)量和計算量分別為30.8 MB和9.85 GFLOPS，相比基準(zhǔn)網(wǎng)絡(luò)HRNet分別僅增加8.0%和3.8%，且推理速度僅慢5.9%，達到143 fps.
Table 6 Efficiency Comparison Between the Proposed Method and Existing Methods
進一步說明本文方法在維持較低計算代價的同時，有效降低遮擋對人體姿態(tài)估計的影響.

3.5 橫向?qū)Ρ葘嶒灐炕瘜Ρ扰c分析

通過3.3節(jié)的消融實驗確定了本文方法的最終結(jié)構(gòu)，即基準(zhǔn)姿態(tài)估計網(wǎng)絡(luò)為HRNet，通道重加權(quán)施加在HRNet尾部和1×1卷積之間，可見性編碼器使用2層全連接層.以下分別在MPII與LSP數(shù)據(jù)集上進行橫向?qū)Ρ葘嶒炁c分析.

在MPII數(shù)據(jù)集上，利用在合成遮擋MPII訓(xùn)練集上訓(xùn)練得到本文模型.在實際MPII驗證集上測試該模型，并將其與多種先進的方法做橫向?qū)Ρ?，結(jié)果如表7所示.所有對比方法的結(jié)果數(shù)值取自原文獻.其中SBN，PyraNet，DLCM，Hourglass，HRNet為在MPII數(shù)據(jù)集上的原始結(jié)果，而OASNet和本文方法都使用了構(gòu)建遮擋的數(shù)據(jù)增強策略，顯式地利用遮擋信息.

從表7中可看出，本文方法平均準(zhǔn)確度優(yōu)于其他方法，尤其在人體四肢等靈活度大、挑戰(zhàn)性高的關(guān)節(jié)點上優(yōu)勢更明顯.相比對比方法中表現(xiàn)最好的OASNet，本文方法在頭部、肘部、手腕、髖和膝蓋關(guān)節(jié)點上，PCKh@0.5得分值分別領(lǐng)先0.1，0.2，0.2，0.9，0.4，平均PCKh@0.5得分值為91.0，領(lǐng)先OASNet方法0.3.

綜上可看出，本文所提出的部位級遮擋感知的人體姿態(tài)估計方法推測關(guān)節(jié)點級別的遮擋線索，在此基礎(chǔ)上利用上下文優(yōu)化被遮擋關(guān)節(jié)點的定位，同時減小了被遮擋關(guān)節(jié)點對未被遮擋關(guān)節(jié)點的影響，能夠顯著提升人體姿態(tài)估計模型在應(yīng)對遮擋問題上的性能.

表8給出了在LSP數(shù)據(jù)集上的測試結(jié)果.從表8中可看出，本文方法在多數(shù)關(guān)節(jié)點上，尤其是靈活度高的四肢上，準(zhǔn)確度高于現(xiàn)有方法.

Table 7 Comparison Between the Proposed Method and Existing Methods on the MPII Valid Set表7 本文方法與現(xiàn)有方法在MPII驗證集上的橫向?qū)Ρ?/p>

Table 8 Comparison Between the Proposed Method and Existing Methods on the LSP Test Set表8 本文方法與現(xiàn)有方法在LSP測試集上的橫向?qū)Ρ?/p>

3.6 橫向?qū)Ρ葘嶒灐梢暬瘜Ρ扰c分析

圖5展示了本文方法與HRNet在原始MPII驗證集上的可視化結(jié)果.圖5中3列分別為真值、HRNet和本文方法在相同圖像上的可視化結(jié)果.實線圓圈和虛線圓圈分別標(biāo)識了HRNet和本文方法預(yù)測正確和預(yù)測失敗的例子.

Fig. 5 Visual comparison of proposed method and HRNet on the MPII valid set圖5 本文方法與HRNet在MPII驗證集上的可視化對比

從圖5可看出，第1行圖像中人的雙腳距離近且互相遮擋，導(dǎo)致HRNet錯誤地預(yù)測了2只腳的位置，所估計的雙腿的姿態(tài)與真值相比出現(xiàn)明顯偏差.而本文方法通過對遮擋部位的預(yù)測，避免了腳關(guān)節(jié)點遮擋對于腿部其他關(guān)節(jié)點的影響，同時借助其他可見關(guān)節(jié)點成功預(yù)測了腳關(guān)節(jié)點位置；第2行圖像中雙腳表觀較為模糊，且與之相鄰的膝蓋關(guān)節(jié)點被遮擋，干擾了HRNet對雙腳關(guān)節(jié)點的準(zhǔn)確定位.本文方法能夠在提升被遮擋關(guān)節(jié)點檢測精度的同時，減少其對雙腳關(guān)節(jié)點預(yù)測的干擾，令網(wǎng)絡(luò)對姿態(tài)的估計更加合理；第3行中HRNet完全錯誤地預(yù)測圖像中男士被遮擋的右腳位置，使得估計到的姿態(tài)為右腳翹起的錯誤狀態(tài)，而本文方法結(jié)果合理、更加接近真值.

綜上可看出，本文方法夠有效克服遮擋對自身部位和相關(guān)部位的影響.

本文方法仍有不足之處，尚難以處理如復(fù)雜背景導(dǎo)致的挑戰(zhàn)性高的情形.如圖5第3行例子中所示，本文方法對右臂關(guān)節(jié)點的預(yù)測相比HRNet來說沒有改進，結(jié)果仍然錯誤.第4行例子中，本文方法錯將旁人相近關(guān)節(jié)點當(dāng)作主體對象關(guān)節(jié)點，且右腳位置有一定偏移.

4 結(jié)論與展望

本文提出部位級遮擋感知的人體姿態(tài)估計方法，通過在基準(zhǔn)人體姿態(tài)估計網(wǎng)絡(luò)中引入所提出遮擋部位預(yù)測網(wǎng)絡(luò)，有效降低遮擋對人體姿態(tài)估計任務(wù)的影響.實驗表明，本文方法在較小的計算代價下能夠增強多種基準(zhǔn)方法應(yīng)對遮擋的能力，尤其對于四肢等靈活度高的部位較為明顯.

本文方法對復(fù)雜背景下的人體關(guān)節(jié)點預(yù)測能力仍然有限.原因在于本文方法依賴所學(xué)習(xí)的遮擋線索處理遮擋問題，未進一步考慮關(guān)節(jié)點之間更全局的關(guān)系.現(xiàn)有方法大多根據(jù)人類經(jīng)驗設(shè)計關(guān)節(jié)點之間的關(guān)系模型，僅關(guān)注局部信息，而忽視了潛在的全局關(guān)聯(lián).為了從全局視角下建模關(guān)節(jié)點之間的關(guān)系，在未來的工作中，將考慮設(shè)計遮擋狀態(tài)下基于數(shù)據(jù)驅(qū)動的關(guān)節(jié)點影響關(guān)系建模.同時，探索基于圖神經(jīng)網(wǎng)絡(luò)融合全局關(guān)節(jié)點關(guān)系的人體姿態(tài)優(yōu)化算法，以提升本任務(wù)在遮擋狀態(tài)下的準(zhǔn)確性.

作者貢獻聲明：褚真提出研究思路、設(shè)計方案，進行實驗、起草論文；米慶、馬偉負(fù)責(zé)對文章內(nèi)容進行指導(dǎo)及修訂；徐世彪、張曉鵬負(fù)責(zé)論文的指導(dǎo).

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡