褚 真 米 慶 馬 偉 徐士彪 張曉鵬
1(北京工業(yè)大學(xué)信息學(xué)部 北京 100124)2(北京郵電大學(xué)人工智能學(xué)院 北京 100876)3(模式識別國家重點實驗室(中國科學(xué)院自動化研究所) 北京 100190)(zhen.chu@foxmail.com)
人體姿態(tài)估計即定位圖像或視頻中的人體關(guān)節(jié)點,是計算機視覺中一項基本但極具挑戰(zhàn)性的任務(wù),在運動康復(fù)、人機交互、自動駕駛[1]等方面有著廣泛應(yīng)用.近年來,深度學(xué)習(xí)的發(fā)展使得人體姿態(tài)估計技術(shù)取得了突飛猛進的進步.然而,現(xiàn)有方法仍難以較好地處理現(xiàn)實環(huán)境中普遍存在的遮擋問題.如何有效應(yīng)對遮擋問題,進而提升人體姿態(tài)估計方法的實用價值,是目前研究的重點和難點.
數(shù)據(jù)增強是處理遮擋問題的常用方法之一.例如,Ke等人[2]通過從關(guān)節(jié)點周圍圖像背景中裁剪出正方形區(qū)域粘貼到關(guān)節(jié)點位置來模擬遮擋.Bin等人[3]提出語義數(shù)據(jù)增強方法,通過生成網(wǎng)絡(luò)動態(tài)地預(yù)測增強后的圖像,進而利用增強后的數(shù)據(jù)訓(xùn)練人體姿態(tài)估計網(wǎng)絡(luò),以提升這些網(wǎng)絡(luò)在遮擋環(huán)境下的魯棒性.但是,數(shù)據(jù)增強方法干擾了網(wǎng)絡(luò)對于關(guān)節(jié)點表觀屬性的認(rèn)知.為此,Zhou等人[4]提出OASNet,利用注意力機制預(yù)測遮擋感知的注意力圖,刪除遮擋區(qū)域噪聲特征,進而重建出因遮擋而缺失的人體區(qū)域特征.相比于數(shù)據(jù)增強方法,遮擋感知方法能夠有效去除噪聲干擾.然而,目前此類方法只關(guān)注遮擋區(qū)域在圖像空間中的位置,對所有被遮擋關(guān)節(jié)點等同對待.由于不同關(guān)節(jié)點表觀和上下文關(guān)系差異性大,等同對待難以充分利用關(guān)節(jié)點之間的關(guān)系.
本文提出部位級遮擋感知的人體姿態(tài)估計方法,以提高人體姿態(tài)估計在遮擋下的魯棒性.所提出方法在基準(zhǔn)人體姿態(tài)估計網(wǎng)絡(luò)框架中引入遮擋部位預(yù)測模塊,該模塊由遮擋部位分類網(wǎng)絡(luò)和可見性編碼器組成.其中,遮擋部位分類網(wǎng)絡(luò)用于預(yù)測每個關(guān)節(jié)點的遮擋狀態(tài),記作關(guān)節(jié)點可見性向量.關(guān)節(jié)點可見性向量描述了人體各個部位是否被遮擋這一關(guān)鍵信息,可以作為先驗知識指導(dǎo)人體姿態(tài)估計任務(wù).基于通道注意力思想,可見性編碼器將可見性向量轉(zhuǎn)換為一組權(quán)重,與基準(zhǔn)姿態(tài)估計網(wǎng)絡(luò)提取的卷積特征進行通道重加權(quán),從而迫使網(wǎng)絡(luò)學(xué)習(xí)到被遮擋和可見關(guān)節(jié)點之間的差異,感知遮擋部位,利用相關(guān)關(guān)節(jié)點的上下文修正錯誤的預(yù)測.所提出遮擋部位預(yù)測模塊具有通用性,適合任何人體姿態(tài)估計基準(zhǔn)網(wǎng)絡(luò),且參數(shù)量低,能夠以較低的計算代價有效地減輕遮擋的影響.
本文工作的主要貢獻有3個方面:
1) 提出部位級遮擋感知人體姿態(tài)估計方法,通過關(guān)節(jié)點級別的遮擋推測、知識編碼和使用,提升遮擋狀態(tài)下的人體姿態(tài)估計準(zhǔn)確度;
2) 構(gòu)建遮擋部位預(yù)測模塊,由遮擋部位分類網(wǎng)絡(luò)和可見性編碼器組成.前者預(yù)測關(guān)節(jié)點遮擋狀態(tài),后者將遮擋狀態(tài)編碼為人體姿態(tài)估計所用先驗知識.所構(gòu)建的遮擋部位預(yù)測模塊能夠兼容不同的基準(zhǔn)姿態(tài)估計網(wǎng)絡(luò);
3) 在合成和實際數(shù)據(jù)集上的實驗均表明,所提出方法能夠有效地提升遮擋狀態(tài)下的人體姿態(tài)估計性能.
首先,回顧近年來人體姿態(tài)估計相關(guān)工作.其次,由于本文重點解決遮擋問題,在此也將對相似任務(wù)中如何處理遮擋問題進行介紹.
傳統(tǒng)姿態(tài)估計方法[5-7]使用手工構(gòu)建的特征提取器,往往僅僅考慮小范圍的局部特征,特征的豐富度也非常有限,因此很難對姿態(tài)做出準(zhǔn)確的判斷.目前先進的人體姿態(tài)估計方法都是基于深度卷積神經(jīng)網(wǎng)絡(luò)進行的.DeepPose[8]把深度學(xué)習(xí)引入到人體姿態(tài)估計任務(wù)中,它基于卷積神經(jīng)網(wǎng)絡(luò)直接回歸關(guān)節(jié)點的坐標(biāo).由于直接回歸法相對困難,基于熱圖的方法是目前的主流.CPM(convolutional pose machines)[9]能夠提取不同尺度的局部區(qū)域的關(guān)節(jié)點概率,再利用多階段的方式逐步修正提取的結(jié)果.Hourglass[10]使用了U型的網(wǎng)絡(luò)結(jié)構(gòu),把設(shè)計的殘差模塊作為該網(wǎng)絡(luò)的基本單元,通過反復(fù)的上下采樣和同尺度特征的跨層連接來獲取更有效的多尺度信息,并且使用多階段的網(wǎng)絡(luò)架構(gòu)實現(xiàn)逐步優(yōu)化前一階段的預(yù)測熱圖的“由粗到精”的學(xué)習(xí)策略.在Hourglass的基礎(chǔ)上,PyraNet[11]把殘差模塊替換為金字塔殘差模塊,目的是捕捉到細粒度多尺度特征.Tang等人[12]提出一種復(fù)合模型,利用神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)人體的層級結(jié)構(gòu).Hua等人[13]在Hourglass基礎(chǔ)上引入精煉模塊和殘差注意力模塊,以提高上采樣效果.Lin等人[14]提出基于結(jié)構(gòu)化空間學(xué)習(xí)和中間估計,以保持視頻估計結(jié)果的時序一致性.SBN(simple baseline network)[15]把ResNet[16]的全連接層替換為幾層反卷積用來增大輸出特征圖的分辨率,雖然結(jié)構(gòu)簡單,但是性能更好.HRNet[17]全程保持高分辨率的表征,并逐漸增加更低分辨率的子網(wǎng),同時,在并行的子網(wǎng)之間反復(fù)交換信息來實現(xiàn)多尺度融合,它超越了以往所有的網(wǎng)絡(luò)模型,在其他計算機視覺任務(wù)中也有著廣泛的應(yīng)用.
盡管取得顯著進展,現(xiàn)有人體姿態(tài)估計網(wǎng)絡(luò)仍難以應(yīng)對遮擋問題.本文提出部位級遮擋感知的人體姿態(tài)估計方法,以較低的額外計算代價提升現(xiàn)有網(wǎng)絡(luò)應(yīng)對遮擋的魯棒性,所提出方法能夠兼容任何主流人體姿態(tài)估計基準(zhǔn)網(wǎng)絡(luò).
CPN[18]采用2階段的網(wǎng)絡(luò)結(jié)構(gòu),利用GlobalNet提取的特征幫助RefineNet優(yōu)化被遮擋的困難的關(guān)節(jié)點的檢測結(jié)果.Chu等人[19]利用基于條件隨機場的注意力機制來處理遮擋問題.Ke等人[2]提出的keypoint masking技術(shù),通過從關(guān)節(jié)點周圍圖像背景中裁剪出正方形區(qū)域粘貼到關(guān)節(jié)點位置來模擬遮擋.Chen等人[20]利用生成對抗網(wǎng)絡(luò)預(yù)測遮擋部位,通過對抗式學(xué)習(xí)不斷修正預(yù)測結(jié)果.Bin等人[3]提出語義數(shù)據(jù)增強方法,利用生成網(wǎng)絡(luò)粘貼不同語義粒度的身體部位來模擬挑戰(zhàn)性更高的圖像.OASNet[4]在人體姿態(tài)估計網(wǎng)絡(luò)上添加了額外的分支,通過監(jiān)督學(xué)習(xí)的方式預(yù)測圖像中遮擋區(qū)域的空間位置,然后刪除被遮擋區(qū)域的特征,再利用孿生網(wǎng)絡(luò)更好地重建特征圖上被遮擋區(qū)域的特征,從而降低遮擋的干擾,依靠周邊信息恢復(fù)被遮擋部位的特征.前述工作嘗試感知遮擋所在圖像空間位置.本文提出遮擋部位感知的人體姿態(tài)估計方法.人體姿態(tài)結(jié)構(gòu)性強,感知遮擋部位相比感知遮擋位置更加有助于姿態(tài)估計時抹除遮擋對相關(guān)部位估計的影響和利用相關(guān)部位作為上下文線索對遮擋部位進行更有效推斷.
處理遮擋也是其他計算機視覺任務(wù)中研究的重點之一.在行人檢測中,Zhang等人[21]發(fā)現(xiàn)對于基于卷積網(wǎng)絡(luò)的行人檢測器,不同的通道對與人體不同部位有不同的響應(yīng),為此提出了作用于通道上的注意力機制.OR-CNN[22]設(shè)計了AggLoss最小化建議與對象的距離,并且用部件遮擋感知的RoI池化單元替換原有的RoI層.Pang等人[23]提出了Mask引導(dǎo)的注意力網(wǎng)絡(luò),在增強人體可見區(qū)域權(quán)重的同時抑制被遮擋的區(qū)域.針對遮擋下的人臉關(guān)節(jié)點進行檢測.Zhu等人[24]提出了遮擋自適應(yīng)的網(wǎng)絡(luò),它可以在高維空間上過濾掉遮擋區(qū)域的特征的同時根據(jù)上下文恢復(fù)出相應(yīng)的幾何信息.與前述工作不同,本文研究結(jié)構(gòu)性更強的人體姿態(tài)的估計問題,并提出了部位級遮擋感知的人體姿態(tài)估計方法.
本文以當(dāng)前性能優(yōu)秀的HRNet和SBN為例,測試現(xiàn)有方法在被遮擋節(jié)點上的預(yù)測效果,結(jié)果如圖1所示,圓圈用于標(biāo)識預(yù)測錯誤的位置.其中,圖1(a)中遮擋影響了未被遮擋的關(guān)節(jié)點(左手腕、右腳踝)的檢測.圖1(b)中由于遮擋存在,導(dǎo)致預(yù)測姿態(tài)不自然.簡言之,遮擋不僅影響被遮擋的部位,也對與遮擋部位相鄰的未被遮擋關(guān)節(jié)點的定位有一定程度的影響.
Fig. 1 Failure examples of existing methods to deal with occlusion problems圖1 現(xiàn)有方法處理遮擋問題的失敗案例
關(guān)節(jié)點被遮擋也將對其他關(guān)節(jié)點的預(yù)測產(chǎn)生負(fù)面影響.為了對比不同部位遮擋對其他關(guān)節(jié)點估計的影響,首先基于MPII數(shù)據(jù)集分別在頭部、軀干(包含肩膀、髖在內(nèi)的關(guān)節(jié)點)、上肢、下肢添加黑色的遮擋;然后排除遮擋部位的關(guān)節(jié)點,分別計算遮擋下的結(jié)果與原始結(jié)果的差值,得到其他關(guān)節(jié)點在遮擋影響下的下降值,再對這些下降值求平均,最終得到遮擋對總體的影響程度PCKh@0.5,在第i個關(guān)節(jié)點上的PCKh@0.5定義為
(1)
Table 1 Influence of Different Parts of Occlusion on PCKh@0.5 of Other Keypoints表1 不同部位遮擋對其他關(guān)節(jié)點PCKh@0.5的影響
Fig. 2 The overall architecture of proposed method圖2 本文方法整體架構(gòu)
從表1中可以看出,遮擋軀干對上肢關(guān)節(jié)點的檢測影響較大.在HRNet和SBN上的平均PCKh(head-normalized probability of correct keypoint)@0.5分別下降了1.98和2.76.究其原因,一方面是由于軀干與上肢直接相連,關(guān)聯(lián)度高;另一方面是由于軀干面積較大且人體上肢靈活,上肢經(jīng)常與軀干重疊,形成人體自遮擋.同理,遮擋上肢對其他關(guān)節(jié)點的影響也較大,在HRNet和SBN上平均PCKh@0.5分別下降了1.58和2.18.此外,遮擋頭部對檢測其他關(guān)節(jié)點有一定影響,在HRNet和SBN上平均PCKh@0.5分別下降了0.65和0.8.而由于MPII數(shù)據(jù)集中人體姿態(tài)多為站立,與其他部位距離較遠,因而遮擋下肢對其他關(guān)節(jié)點的檢測影響較小.
綜上,人體部位遮擋對自身以及與之相關(guān)的其他部位均有一定程度的影響.如果獲得關(guān)節(jié)點級別遮擋線索,則可通過上下文更好地優(yōu)化被遮擋關(guān)節(jié)點的定位,同時減少其對其他關(guān)節(jié)點的影響,提高人體姿態(tài)估計模型應(yīng)對遮擋的能力.
本文方法的整體架構(gòu)如圖2所示.首先,將輸入圖像同時輸入基準(zhǔn)姿態(tài)估計網(wǎng)絡(luò)和遮擋部位預(yù)測模塊.然后,使用遮擋部位預(yù)測模塊的輸出對基準(zhǔn)姿態(tài)估計網(wǎng)絡(luò)提取的特征施加通道重加權(quán)操作,得到優(yōu)化后的特征.最后,使用1×1卷積獲得最終結(jié)果.其中,基準(zhǔn)姿態(tài)估計網(wǎng)絡(luò)可以是現(xiàn)有任何人體姿態(tài)網(wǎng)絡(luò).所提出遮擋部位預(yù)測模塊由遮擋部位分類網(wǎng)絡(luò)和可見性編碼器(visibility encoder, VE)組成.下面分別對其進行介紹.
為了獲得關(guān)節(jié)點級別的遮擋線索,所提出遮擋部位分類網(wǎng)絡(luò)將根據(jù)輸入圖像預(yù)測人體每個關(guān)節(jié)點的遮擋狀態(tài).而關(guān)節(jié)點僅有被遮擋和可見2種狀態(tài),因而相比于人體姿態(tài)估計的回歸任務(wù),遮擋部位分類任務(wù)更簡單,模型也更容易收斂.因此,權(quán)衡計算量和精度,遮擋部位分類網(wǎng)絡(luò)將使用輕量級網(wǎng)絡(luò)MobileNetV2[25]作為主干網(wǎng)絡(luò),用于提取適合遮擋部位分類任務(wù)的特征,獲得每個關(guān)節(jié)點可見性向量,作為可見性編碼器的輸入.可見性向量表示為
o=(v0p0,v1p1,…,vkpk),
(2)
其中,pi表示人體每個關(guān)節(jié)點,vi是一個二值變量,表示第i個關(guān)節(jié)點是否被遮擋,vi∈{0,1},i∈[0,k],0表示被遮擋,1表示可見.
本文對MobileNetV2做出適當(dāng)修改以適應(yīng)關(guān)節(jié)點的遮擋分類任務(wù).將MobileNetV2末尾用于圖像分類的1000維全連接層分類器替換為輸出通道數(shù)為n的1×1卷積.
在訓(xùn)練階段,采用二分類交叉熵?fù)p失監(jiān)督遮擋分類網(wǎng)絡(luò)訓(xùn)練過程,以最小化在每個關(guān)節(jié)點上的遮擋狀態(tài)預(yù)測誤差.遮擋分類預(yù)測損失定義為:
(3)
為了將可見性向量與帶噪聲特征融合,首先利用可見性編碼器擴展可見性向量的維度,然后利用通道注意力機制對帶噪聲特征進行重加權(quán).前述過程可表示為
focc=ΩTfch,
(4)
其中,fch為需要被通道重加權(quán)的特征,Ω為權(quán)重參數(shù)向量.
本文選擇通道重加權(quán)而非其他特征融合方式的原因如下:首先,基于熱圖的人體姿態(tài)估計方法將人體關(guān)節(jié)點轉(zhuǎn)化為以關(guān)節(jié)點位置為中心的2維高斯熱圖,網(wǎng)絡(luò)末尾使用1×1卷積將高維特征轉(zhuǎn)化為與關(guān)節(jié)點數(shù)量相等的熱圖,關(guān)聯(lián)了不同部位間的影響關(guān)系,說明關(guān)節(jié)點的信息與通道相關(guān).其次,深層的網(wǎng)絡(luò)能夠?qū)W習(xí)出人體整體的結(jié)構(gòu),建模關(guān)節(jié)點之間的關(guān)系.而遮擋部位分類網(wǎng)絡(luò)預(yù)測到的可見性向量僅表達了關(guān)節(jié)點獨自的遮擋狀態(tài)信息,缺乏關(guān)節(jié)點之間的關(guān)聯(lián)信息.因此,通道重加權(quán)能夠更好地利用關(guān)節(jié)點之間的上下文信息,并在本文所提出的可見性編碼器的幫助下,利用注意力機制區(qū)分被遮擋與未被遮擋部位直接的差異,利用相關(guān)部位的上下文線索克服遮擋的干擾.
為了獲得權(quán)重參數(shù)向量Ω,利用可見性編碼器把可見性向量編碼到更高維度的特征上.具體而言,利用可見性編碼器把可見性向量轉(zhuǎn)換為一組維度與基準(zhǔn)姿態(tài)估計網(wǎng)絡(luò)提取的卷積特征通道數(shù)相等的權(quán)重,其值小于1.然后對卷積特征進行通道重加權(quán).該過程的公式表示為
Ω=F(o),
(5)
F=Sigmoid(F2(F1(o))),
(6)
其中,F表示可見性編碼器,其結(jié)構(gòu)如圖3所示.輸入為遮擋部位分類網(wǎng)絡(luò)的輸出,即可見性向量o.經(jīng)過2個全連接層F1和F2使得向量的維度和基準(zhǔn)姿態(tài)估計網(wǎng)絡(luò)提取的卷積特征通道數(shù)相同,再經(jīng)過Sigmoid函數(shù)使該模塊輸出向量每個元素的值調(diào)整為0和1之間,得到權(quán)重參數(shù)向量Ω.再與基準(zhǔn)人體姿態(tài)估計網(wǎng)絡(luò)提取的卷積特征fch進行對應(yīng)通道上相乘,得到重加權(quán)后的特征focc.
Fig. 3 The network sturcture of the visibility encoder圖3 可見性編碼器的網(wǎng)絡(luò)結(jié)構(gòu)
當(dāng)基準(zhǔn)姿態(tài)估計網(wǎng)絡(luò)為HRNet時,2個全連接層輸出通道數(shù)分別為64和32.此時,將可見性編碼器模塊添加在HRNet的stage 4之后、1×1卷積之前;當(dāng)基準(zhǔn)姿態(tài)估計網(wǎng)絡(luò)為SBN時,2個全連接層輸出通道數(shù)分別為64和256.此時,將可見性編碼器添加在最后一層反卷積后.
本文對人體姿態(tài)估計網(wǎng)絡(luò)和部位級遮擋分類網(wǎng)絡(luò)進行聯(lián)合端到端訓(xùn)練.為此,對人體姿態(tài)估計網(wǎng)絡(luò)預(yù)測的關(guān)節(jié)點熱圖和遮擋分類模塊預(yù)測的關(guān)節(jié)點可見性向量的整體損失進行度量,整體損失函數(shù)為
L=Lhm+λLocc,
(7)
其中,Lhm表示人體姿態(tài)估計關(guān)節(jié)點熱圖檢測的L2損失函數(shù),Locc由式(2)給出,表示用于遮擋部位分類的二分類交叉熵?fù)p失函數(shù).λ為平衡2個損失函數(shù)的超參數(shù).鑒于遮擋分類任務(wù)優(yōu)化較快,本文設(shè)λ=0.01.基準(zhǔn)姿態(tài)估計模塊和遮擋分類網(wǎng)絡(luò)均使用ImageNet預(yù)訓(xùn)練模型進行參數(shù)初始化.
MPII數(shù)據(jù)集是一個用于2維人體姿態(tài)估計任務(wù)的數(shù)據(jù)集,包含約25 000張從真實場景中采集的圖像和超過40 000個人體關(guān)節(jié)點標(biāo)注,其中每人共有16個關(guān)節(jié)點被標(biāo)注,是單人姿態(tài)估計任務(wù)的主流數(shù)據(jù)集.
LSP(leeds sports pose)數(shù)據(jù)集由2 000個樣本原始數(shù)據(jù)集和10 000個樣本的擴展數(shù)據(jù)集組成.其中,原始數(shù)據(jù)集中的1 000個樣本用于測試,其余11 000個樣本用于訓(xùn)練.每人有14個標(biāo)注的關(guān)節(jié)點.
PCKh是MPII和LSP數(shù)據(jù)集的評價指標(biāo),用于計算檢測的關(guān)節(jié)點與其真值的歸一化距離小于預(yù)設(shè)閾值(頭部長度)的比例.
本文分別基于MPII和LSP數(shù)據(jù)集,構(gòu)建合成隨機矩形遮擋的圖像數(shù)據(jù)集,包括訓(xùn)練集和驗證集.隨機矩形遮擋的高是人體目標(biāo)框高度的[1/4,1/2]之間的隨機值,寬是人體目標(biāo)框?qū)挾鹊腫1/2,1]倍之間的隨機值.遮擋區(qū)域的位置在人體的包圍框內(nèi),顏色是圖像的平均值.
訓(xùn)練階段實驗設(shè)置.實驗基于PyTorch框架在GTX 1080Ti GPU上訓(xùn)練,并使用了ImageNet的預(yù)訓(xùn)練參數(shù).參考Xiao等人[15]、Sun等人[17]的實驗設(shè)置,輸入圖像大小調(diào)整為256×256,批大小為32,優(yōu)化器為Adam,初始學(xué)習(xí)率為0.001.基于HRNet基準(zhǔn)網(wǎng)絡(luò),迭代訓(xùn)練到170和200輪時,學(xué)習(xí)率分別下降至0.000 1和0.000 01,總共訓(xùn)練210輪;基于SBN基準(zhǔn)網(wǎng)絡(luò),迭代訓(xùn)練到90和120輪時,學(xué)習(xí)率分別下降至0.000 1和0.000 01,總共訓(xùn)練150輪.數(shù)據(jù)增強的策略包括-45°~45°隨機旋轉(zhuǎn),0.65~1.35隨機尺度變換和左右隨機翻轉(zhuǎn).
測試階段實驗設(shè)置.輸入圖像經(jīng)過網(wǎng)絡(luò)推理得到熱圖后,對該熱圖和翻轉(zhuǎn)后的熱圖對應(yīng)位置求平均,得到最終的熱圖.在后處理時,參考Hourglass[10],將熱圖上值最高的一點向次高點的1/4像素的偏移作為最終的關(guān)節(jié)點預(yù)測位置.
本文首先設(shè)計消融實驗確定方法的最終結(jié)構(gòu).所有消融實驗均基于HRNet和所構(gòu)建合成MPII數(shù)據(jù)集訓(xùn)練和測試.以下分別介紹通道重加權(quán)位置、可見性編碼器結(jié)構(gòu)、遮擋部位分類網(wǎng)絡(luò)和遮擋部位預(yù)測模塊通用性的消融實驗.
3.3.1 通道重加權(quán)位置
本文基于HRNet設(shè)計消融實驗,對比在3個位置(A,B,C)施加通道重加權(quán)(如圖4所示)對結(jié)果的影響.其中:A表示在HRNet前執(zhí)行重加權(quán);B表示在主干網(wǎng)絡(luò)提取到特征之后執(zhí)行重加權(quán);C表示經(jīng)過最后一個1×1卷積,得到的16個關(guān)節(jié)點熱圖后再執(zhí)行重加權(quán);1,2,3,4表示HRNet四個階段網(wǎng)絡(luò)結(jié)構(gòu)組成.實驗結(jié)果如表2所示,在位置B施加通道重加權(quán)操作的效果最好.
Fig. 4 Indication of the positions where channel weighting is applied on HRNet圖4 在HRNet上施加通道重加權(quán)位置示意圖
Table 2 Ablation Study of HRNet with Channel Re-weighting at Different Positions
3.3.2 可見性編碼器結(jié)構(gòu)
在基于HRNet驗證可見性編碼器結(jié)構(gòu)的消融實驗中,比較該模塊不同數(shù)量的全連接層之間的差異.實驗結(jié)果如表3所示,當(dāng)全連接層數(shù)量為2時,可見性編碼器的結(jié)果最好,因此本文方法最終選擇2層全連接的可見性編碼器.
Table 3 Ablation Study on the Number of Fully Connection Layers in the Visibility Encoder
3.3.3 遮擋部位分類網(wǎng)絡(luò)
遮擋部位預(yù)測模塊所使用的遮擋分類網(wǎng)絡(luò)可以是現(xiàn)有的任何輕量級分類網(wǎng)絡(luò).本文選擇有代表性的輕量級網(wǎng)絡(luò)MobileNetV2[25],ShuffleNetV2[26],GhostNet[27]進行對比實驗,結(jié)果如表4所示.從表4中可看出,選擇不同的分類網(wǎng)絡(luò)對最終姿態(tài)估計結(jié)果的影響極小,因此本文選擇經(jīng)典的MobileNetV2作為遮擋部位分類網(wǎng)絡(luò).
Table 4 Ablation Study of the Occlusion Classification Network
3.3.4 遮擋部位預(yù)測模塊通用性
鑒于本文方法兼容所有基準(zhǔn)人體姿態(tài)估計網(wǎng)絡(luò),為了使其性能最優(yōu),設(shè)計驗證遮擋部位預(yù)測模塊通用性的消融實驗,結(jié)果如表5所示.在HRNet和SBN中引入遮擋部位預(yù)測模塊后,平均指標(biāo)分別提升了0.3和0.5.實驗結(jié)果說明所提出的遮擋部位預(yù)測模塊能廣泛提升現(xiàn)有方法在合成遮擋下的性能.綜上,最終選擇HRNet作為本文方法的基準(zhǔn)姿態(tài)估計網(wǎng)絡(luò),用于和現(xiàn)有方法橫向比較.
Table 5 Ablation Study for Verifying the Universality of the Visibility Encoder表5 驗證可見性編碼器通用性的消融實驗
表6給出了各方法的參數(shù)量、計算量和在RTX 3090顯卡上的推理速度(輸入圖片的尺寸為256×256)的橫向?qū)Ρ?從表6中可看出,本文方法設(shè)計的遮擋預(yù)測模塊的參數(shù)量和計算量分別為30.8 MB和9.85 GFLOPS,相比基準(zhǔn)網(wǎng)絡(luò)HRNet分別僅增加8.0%和3.8%,且推理速度僅慢5.9%,達到143 fps.
Table 6 Efficiency Comparison Between the Proposed Method and Existing Methods
進一步說明本文方法在維持較低計算代價的同時,有效降低遮擋對人體姿態(tài)估計的影響.
通過3.3節(jié)的消融實驗確定了本文方法的最終結(jié)構(gòu),即基準(zhǔn)姿態(tài)估計網(wǎng)絡(luò)為HRNet,通道重加權(quán)施加在HRNet尾部和1×1卷積之間,可見性編碼器使用2層全連接層.以下分別在MPII與LSP數(shù)據(jù)集上進行橫向?qū)Ρ葘嶒炁c分析.
在MPII數(shù)據(jù)集上,利用在合成遮擋MPII訓(xùn)練集上訓(xùn)練得到本文模型.在實際MPII驗證集上測試該模型,并將其與多種先進的方法做橫向?qū)Ρ?,結(jié)果如表7所示.所有對比方法的結(jié)果數(shù)值取自原文獻.其中SBN,PyraNet,DLCM,Hourglass,HRNet為在MPII數(shù)據(jù)集上的原始結(jié)果,而OASNet和本文方法都使用了構(gòu)建遮擋的數(shù)據(jù)增強策略,顯式地利用遮擋信息.
從表7中可看出,本文方法平均準(zhǔn)確度優(yōu)于其他方法,尤其在人體四肢等靈活度大、挑戰(zhàn)性高的關(guān)節(jié)點上優(yōu)勢更明顯.相比對比方法中表現(xiàn)最好的OASNet,本文方法在頭部、肘部、手腕、髖和膝蓋關(guān)節(jié)點上,PCKh@0.5得分值分別領(lǐng)先0.1,0.2,0.2,0.9,0.4,平均PCKh@0.5得分值為91.0,領(lǐng)先OASNet方法0.3.
綜上可看出,本文所提出的部位級遮擋感知的人體姿態(tài)估計方法推測關(guān)節(jié)點級別的遮擋線索,在此基礎(chǔ)上利用上下文優(yōu)化被遮擋關(guān)節(jié)點的定位,同時減小了被遮擋關(guān)節(jié)點對未被遮擋關(guān)節(jié)點的影響,能夠顯著提升人體姿態(tài)估計模型在應(yīng)對遮擋問題上的性能.
表8給出了在LSP數(shù)據(jù)集上的測試結(jié)果.從表8中可看出,本文方法在多數(shù)關(guān)節(jié)點上,尤其是靈活度高的四肢上,準(zhǔn)確度高于現(xiàn)有方法.
Table 7 Comparison Between the Proposed Method and Existing Methods on the MPII Valid Set表7 本文方法與現(xiàn)有方法在MPII驗證集上的橫向?qū)Ρ?/p>
Table 8 Comparison Between the Proposed Method and Existing Methods on the LSP Test Set表8 本文方法與現(xiàn)有方法在LSP測試集上的橫向?qū)Ρ?/p>
圖5展示了本文方法與HRNet在原始MPII驗證集上的可視化結(jié)果.圖5中3列分別為真值、HRNet和本文方法在相同圖像上的可視化結(jié)果.實線圓圈和虛線圓圈分別標(biāo)識了HRNet和本文方法預(yù)測正確和預(yù)測失敗的例子.
Fig. 5 Visual comparison of proposed method and HRNet on the MPII valid set圖5 本文方法與HRNet在MPII驗證集上的可視化 對比
從圖5可看出,第1行圖像中人的雙腳距離近且互相遮擋,導(dǎo)致HRNet錯誤地預(yù)測了2只腳的位置,所估計的雙腿的姿態(tài)與真值相比出現(xiàn)明顯偏差.而本文方法通過對遮擋部位的預(yù)測,避免了腳關(guān)節(jié)點遮擋對于腿部其他關(guān)節(jié)點的影響,同時借助其他可見關(guān)節(jié)點成功預(yù)測了腳關(guān)節(jié)點位置;第2行圖像中雙腳表觀較為模糊,且與之相鄰的膝蓋關(guān)節(jié)點被遮擋,干擾了HRNet對雙腳關(guān)節(jié)點的準(zhǔn)確定位.本文方法能夠在提升被遮擋關(guān)節(jié)點檢測精度的同時,減少其對雙腳關(guān)節(jié)點預(yù)測的干擾,令網(wǎng)絡(luò)對姿態(tài)的估計更加合理;第3行中HRNet完全錯誤地預(yù)測圖像中男士被遮擋的右腳位置,使得估計到的姿態(tài)為右腳翹起的錯誤狀態(tài),而本文方法結(jié)果合理、更加接近真值.
綜上可看出,本文方法夠有效克服遮擋對自身部位和相關(guān)部位的影響.
本文方法仍有不足之處,尚難以處理如復(fù)雜背景導(dǎo)致的挑戰(zhàn)性高的情形.如圖5第3行例子中所示,本文方法對右臂關(guān)節(jié)點的預(yù)測相比HRNet來說沒有改進,結(jié)果仍然錯誤.第4行例子中,本文方法錯將旁人相近關(guān)節(jié)點當(dāng)作主體對象關(guān)節(jié)點,且右腳位置有一定偏移.
本文提出部位級遮擋感知的人體姿態(tài)估計方法,通過在基準(zhǔn)人體姿態(tài)估計網(wǎng)絡(luò)中引入所提出遮擋部位預(yù)測網(wǎng)絡(luò),有效降低遮擋對人體姿態(tài)估計任務(wù)的影響.實驗表明,本文方法在較小的計算代價下能夠增強多種基準(zhǔn)方法應(yīng)對遮擋的能力,尤其對于四肢等靈活度高的部位較為明顯.
本文方法對復(fù)雜背景下的人體關(guān)節(jié)點預(yù)測能力仍然有限.原因在于本文方法依賴所學(xué)習(xí)的遮擋線索處理遮擋問題,未進一步考慮關(guān)節(jié)點之間更全局的關(guān)系.現(xiàn)有方法大多根據(jù)人類經(jīng)驗設(shè)計關(guān)節(jié)點之間的關(guān)系模型,僅關(guān)注局部信息,而忽視了潛在的全局關(guān)聯(lián).為了從全局視角下建模關(guān)節(jié)點之間的關(guān)系,在未來的工作中,將考慮設(shè)計遮擋狀態(tài)下基于數(shù)據(jù)驅(qū)動的關(guān)節(jié)點影響關(guān)系建模.同時,探索基于圖神經(jīng)網(wǎng)絡(luò)融合全局關(guān)節(jié)點關(guān)系的人體姿態(tài)優(yōu)化算法,以提升本任務(wù)在遮擋狀態(tài)下的準(zhǔn)確性.
作者貢獻聲明:褚真提出研究思路、設(shè)計方案,進行實驗、起草論文;米慶、馬偉負(fù)責(zé)對文章內(nèi)容進行指導(dǎo)及修訂;徐世彪、張曉鵬負(fù)責(zé)論文的指導(dǎo).