呂中正,劉驪,2*,付曉東,2,劉利軍,2,黃青松,2
1.昆明理工大學(xué)信息工程與自動(dòng)化學(xué)院,昆明 650500;2.云南省計(jì)算機(jī)技術(shù)應(yīng)用重點(diǎn)實(shí)驗(yàn)室,昆明 650500
單人姿態(tài)估計(jì)(Wang等,2020)是指識(shí)別和定位出輸入圖像中單個(gè)人體的關(guān)節(jié)點(diǎn),廣泛應(yīng)用于姿態(tài)追蹤、人機(jī)交互、行為識(shí)別以及虛擬試衣等領(lǐng)域。傳統(tǒng)的單人姿態(tài)估計(jì)主要基于圖結(jié)構(gòu)模型,Ramanan(2006)將人體表示為多個(gè)部件,通過(guò)提取手工設(shè)定的圖像特征解決關(guān)節(jié)匹配問(wèn)題。Yang和Ramanan(2011)通過(guò)部件的幾何形變和外觀等信息構(gòu)建混合部件模型,以約束各個(gè)部件的空間關(guān)系。代欽等人(2017)定義人體部位的遮擋級(jí)別,通過(guò)部位形變模型解決人體姿態(tài)估計(jì)的遮擋干擾問(wèn)題。傳統(tǒng)方法具有較好的時(shí)間效率,但受到人工語(yǔ)義標(biāo)注的限制,很難擴(kuò)展到背景復(fù)雜和人體姿態(tài)變化大的場(chǎng)景。為解決以上問(wèn)題,很多研究工作使用基于深度卷積神經(jīng)網(wǎng)絡(luò)方法,通過(guò)提取更為豐富的深度卷積特征,解決復(fù)雜背景下的人體姿態(tài)估計(jì)精度低的問(wèn)題。Toshev和Szegedy(2014)最早將深度卷積神經(jīng)網(wǎng)絡(luò)運(yùn)用于人體姿態(tài)估計(jì),采用多階段回歸的思路設(shè)計(jì)卷積神經(jīng)網(wǎng)絡(luò),以關(guān)節(jié)點(diǎn)坐標(biāo)為優(yōu)化目標(biāo),回歸輸出人體關(guān)節(jié)點(diǎn)坐標(biāo),最終獲得準(zhǔn)確的人體關(guān)節(jié)點(diǎn)坐標(biāo)位置。Tompson等人(2015)改進(jìn)了已有的回歸網(wǎng)絡(luò)模型,采用逐像素的關(guān)節(jié)點(diǎn)熱圖檢測(cè)代替關(guān)節(jié)點(diǎn)坐標(biāo)回歸,有效提高了關(guān)節(jié)點(diǎn)定位的魯棒性。這些方法極大地促進(jìn)了深度卷積神經(jīng)網(wǎng)絡(luò)在人體姿態(tài)估計(jì)任務(wù)上的應(yīng)用。
隨著網(wǎng)上購(gòu)物的普及,在線服裝購(gòu)物受到極大歡迎,許多研究者投入到服裝分類(lèi)、服裝檢索以及虛擬試衣等服裝分析領(lǐng)域。Liu等人(2016)提出大型時(shí)尚著裝數(shù)據(jù)集DeepFashion用于服裝分類(lèi)和檢索。Ge等人(2019)在DeepFashion基礎(chǔ)上提出DeepFashion2用于服裝檢測(cè)和識(shí)別、分割、檢索以及姿態(tài)估計(jì)等更為全面的任務(wù)。這些任務(wù)不僅面向大量著裝場(chǎng)景下的圖像數(shù)據(jù)集,亦需關(guān)注以人為中心的著裝圖像區(qū)域。而著裝場(chǎng)景下的人體姿態(tài)估計(jì)不僅可以精確估計(jì)出每個(gè)著裝圖像的人體姿態(tài),同時(shí)可以為虛擬試衣、服裝推薦和服裝檢索等服裝分析領(lǐng)域提供人體姿態(tài)的先驗(yàn)信息。
已有的人體姿態(tài)估計(jì)方法側(cè)重人體穿著簡(jiǎn)單的場(chǎng)景,如馬克斯普朗克計(jì)算機(jī)科學(xué)研究所(Max Planck Institut Informatik,MPII)人體姿態(tài)數(shù)據(jù)集(Andriluka等,2014)中圖像主要為運(yùn)動(dòng)、會(huì)議以及娛樂(lè)等場(chǎng)景,通常這些場(chǎng)景中服裝款式單一、服裝對(duì)人體關(guān)節(jié)點(diǎn)的遮擋較少。區(qū)別于其他場(chǎng)景,著裝場(chǎng)景更關(guān)注人體穿著服飾的多樣性,具有以下特點(diǎn):1)著裝人體圖像多來(lái)源于時(shí)尚街拍,背景更具有多樣性和復(fù)雜性;2)著裝人體姿態(tài)多樣和視角位置多變;3)人體穿著款式不一且對(duì)關(guān)節(jié)點(diǎn)遮擋的服飾眾多、服裝紋理以及顏色多樣。已有的著裝場(chǎng)景下人體姿態(tài)估計(jì)方法主要有基于著裝標(biāo)簽的姿態(tài)重定義方法(Yamaguchi等,2012)以及深度學(xué)習(xí)方法(Marras等,2017),但仍不能有效實(shí)現(xiàn)著裝場(chǎng)景下的人體姿態(tài)估計(jì)。目前,著裝場(chǎng)景下的單人姿態(tài)估計(jì)仍然存在以下難點(diǎn):1)豐富多樣的圖像背景內(nèi)容以及人體穿著服飾紋理、顏色信息會(huì)對(duì)人體姿態(tài)估計(jì)特征提取造成嚴(yán)重干擾,需提高人體關(guān)節(jié)點(diǎn)特征提取的準(zhǔn)確率;2)多變的人體姿態(tài)和視角位置,使人體姿態(tài)估計(jì)網(wǎng)絡(luò)學(xué)習(xí)變得困難,需構(gòu)造適合學(xué)習(xí)多變姿態(tài)和視角位置信息的姿態(tài)估計(jì)網(wǎng)絡(luò)模型,以提高人體姿態(tài)估計(jì)的魯棒性;3)著裝人體姿態(tài)可見(jiàn)性受到人體穿著服飾的干擾,導(dǎo)致人體姿態(tài)估計(jì)時(shí)存在關(guān)節(jié)點(diǎn)誤定位問(wèn)題,需結(jié)合著裝語(yǔ)義部位,以提高人體姿態(tài)估計(jì)的精度。
因此,本文以著裝場(chǎng)景下的時(shí)尚街拍圖像為例,提出結(jié)合姿態(tài)表示和部位分割的雙分支網(wǎng)絡(luò),實(shí)現(xiàn)著裝場(chǎng)景下高精度的單人姿態(tài)估計(jì)。本文方法流程如圖1所示,主要貢獻(xiàn)如下:1)通過(guò)在堆疊沙漏網(wǎng)絡(luò)的基礎(chǔ)上增加多尺度損失與特征融合,構(gòu)建著裝姿態(tài)表示分支網(wǎng)絡(luò),以學(xué)習(xí)關(guān)節(jié)點(diǎn)的局部和全局特征,解決著裝圖像多樣的背景和人體穿著服飾對(duì)關(guān)節(jié)點(diǎn)特征提取的干擾,增強(qiáng)關(guān)節(jié)點(diǎn)的定位精度;2)基于對(duì)著裝圖像數(shù)據(jù)集中著裝人體姿態(tài)聚類(lèi)得到的姿態(tài)模板,定義姿態(tài)類(lèi)別損失函數(shù),并結(jié)合歐氏距離損失函數(shù)構(gòu)造姿態(tài)表示分支的多尺度損失,提高網(wǎng)絡(luò)對(duì)著裝人體姿態(tài)變化和不同視角下人體姿態(tài)估計(jì)的魯棒性;3)融合殘差網(wǎng)絡(luò)的深層、淺層特征構(gòu)建著裝部位分割分支網(wǎng)絡(luò),使用著裝部位分割信息對(duì)人體關(guān)節(jié)點(diǎn)定位進(jìn)行約束,最后通過(guò)姿態(tài)優(yōu)化,提升人體姿態(tài)估計(jì)時(shí)關(guān)節(jié)點(diǎn)的定位精度。
圖1 著裝場(chǎng)景下人體姿態(tài)估計(jì)方法流程圖Fig.1 The whole framework of human pose estimation in dressing scene
目前,基于深度卷積神經(jīng)網(wǎng)絡(luò)的單人姿態(tài)估計(jì)方法取得了較大進(jìn)展。Wei等人(2016)構(gòu)建多階段級(jí)聯(lián)的順序化卷積結(jié)構(gòu)學(xué)習(xí)關(guān)節(jié)點(diǎn)空間信息和紋理信息,通過(guò)累加所有階段的響應(yīng)圖將置信度最大的點(diǎn)作為關(guān)節(jié)點(diǎn)位置實(shí)現(xiàn)關(guān)節(jié)點(diǎn)的精確定位。Newell等人(2016)提出堆疊沙漏網(wǎng)絡(luò),每個(gè)沙漏模塊將特征進(jìn)行多次下采樣和上采樣,并將下采樣與上采樣過(guò)程中大小相同的特征融合,不僅獲得了不同尺度的關(guān)節(jié)點(diǎn)特征,同時(shí)降低了模型的計(jì)算量。后續(xù)很多研究工作將沙漏網(wǎng)絡(luò)作為高效的基礎(chǔ)性網(wǎng)絡(luò)架構(gòu)。Yang等人(2017)基于沙漏模塊增加金字塔殘差模塊,采用多分支網(wǎng)絡(luò)對(duì)輸入特征進(jìn)行下采樣,得到大小不同的特征圖,再進(jìn)行上采樣合并到同一尺度,提高模型的尺度不變性。Tang等人(2018)以5個(gè)沙漏模塊為主干網(wǎng)絡(luò),通過(guò)將關(guān)節(jié)點(diǎn)分為低級(jí)、中級(jí)和高級(jí)的組合方式解決單人姿態(tài)估計(jì)中圖像低分辨率模糊問(wèn)題。
多尺度特征可同時(shí)學(xué)習(xí)豐富的空間和語(yǔ)義信息,有效增強(qiáng)人體姿態(tài)估計(jì)模型的學(xué)習(xí)能力。Chen等人(2018)將網(wǎng)絡(luò)分為全局網(wǎng)絡(luò)和精確網(wǎng)絡(luò)兩個(gè)階段,全局網(wǎng)絡(luò)采用基于特征金字塔網(wǎng)絡(luò)獲得多尺度特征并預(yù)測(cè)簡(jiǎn)單可見(jiàn)的關(guān)節(jié)點(diǎn),精確網(wǎng)絡(luò)融合多尺度特征預(yù)測(cè)困難的關(guān)節(jié)點(diǎn)。Xiao等人(2018)采用反卷積的方式從低分辨率特征圖中恢復(fù)高分辨率特征圖,結(jié)合網(wǎng)絡(luò)每個(gè)尺度特征輸出關(guān)節(jié)點(diǎn)熱圖。Ke等人(2018)通過(guò)多尺度特征融合加強(qiáng)人體關(guān)節(jié)點(diǎn)語(yǔ)義部位特征的學(xué)習(xí)。Sun等人(2019)提出保持高分辨率特征,并行連接多分辨率子網(wǎng)絡(luò),通過(guò)多次多尺度特征融合提高關(guān)節(jié)點(diǎn)定位精度。楊興明等人(2019)構(gòu)建多層模型學(xué)習(xí)不同尺度的結(jié)構(gòu)特征,并通過(guò)串聯(lián)初始特征解決混雜背景的干擾問(wèn)題。Li等人(2020)在沙漏網(wǎng)絡(luò)基礎(chǔ)上增加多尺度特征并結(jié)合注意力機(jī)制生成高質(zhì)量關(guān)節(jié)點(diǎn)熱圖。受該方法的啟發(fā),本文在堆疊沙漏網(wǎng)絡(luò)的基礎(chǔ)上提出增加多尺度損失與特征融合。與該方法不同的是,本文通過(guò)姿態(tài)聚類(lèi)構(gòu)建姿態(tài)類(lèi)別損失函數(shù),并與均方誤差損失函數(shù)結(jié)合,以提高關(guān)節(jié)點(diǎn)的定位精度。
人體部位語(yǔ)義分割作為與人體姿態(tài)估計(jì)高度相關(guān)的任務(wù),得到的人體語(yǔ)義部位不僅可以將人體關(guān)節(jié)點(diǎn)約束在特定的部位區(qū)域,亦能輔助人體關(guān)節(jié)點(diǎn)歸類(lèi)。Yamaguchi等人(2012)從兩個(gè)不同方向分析了服裝和姿態(tài)的關(guān)系,提出使用每個(gè)位置附近解析標(biāo)簽的歸一化直方圖作為精確姿態(tài)估計(jì)的附加特征。Ladicky等人(2013)通過(guò)對(duì)身體部位的語(yǔ)義分割獲得人體關(guān)節(jié)點(diǎn)的外觀和形狀信息。Dong等人(2014)利用網(wǎng)格布局特征對(duì)語(yǔ)義部位和混合關(guān)節(jié)組模板之間的成對(duì)幾何關(guān)系建模,并構(gòu)造and-or圖同時(shí)估計(jì)關(guān)節(jié)定位和語(yǔ)義標(biāo)簽。Nie等人(2018)通過(guò)設(shè)計(jì)解析誘導(dǎo)學(xué)習(xí)器學(xué)習(xí)姿態(tài)模型的動(dòng)態(tài)參數(shù),提取有用的互補(bǔ)解析特征以提高人體姿態(tài)估計(jì)精度。Liang等人(2019)采用聯(lián)合細(xì)化網(wǎng)絡(luò),聯(lián)合人體解析中間結(jié)果用于細(xì)化人體姿態(tài)估計(jì)結(jié)果。上述方法在利用人體部位語(yǔ)義分割結(jié)果促進(jìn)人體姿態(tài)估計(jì)任務(wù)上取得了較好成果,但忽視了人體穿著多變對(duì)關(guān)節(jié)點(diǎn)可見(jiàn)性的影響,不能有效利用人體著裝部位構(gòu)建與人體關(guān)節(jié)點(diǎn)的位置約束關(guān)系。
Xia等人(2017)聯(lián)合解決人體部位語(yǔ)義分割和人體姿態(tài)估計(jì)兩個(gè)任務(wù),通過(guò)人體部位語(yǔ)義分割限制人體姿態(tài)定位的變化。針對(duì)著裝場(chǎng)景下的人體穿著多變導(dǎo)致人體姿態(tài)估計(jì)精度低問(wèn)題,受Xia等人(2017)方法的啟發(fā),本文構(gòu)建了包含著裝姿態(tài)表示和著裝部位分割的雙分支網(wǎng)絡(luò)。著裝姿態(tài)表示分支引入姿態(tài)類(lèi)別損失函數(shù),通過(guò)多尺度損失與特征融合增強(qiáng)關(guān)節(jié)點(diǎn)的局部與全局特征,得到初步的人體姿態(tài)估計(jì)結(jié)果。著裝部位分割分支融合殘差網(wǎng)絡(luò)的深層、淺層特征輸出著裝部位分割信息,基于人體關(guān)節(jié)點(diǎn)作為相鄰著裝部位的連接點(diǎn)思想構(gòu)建部位關(guān)節(jié)平滑項(xiàng),以約束人體關(guān)節(jié)點(diǎn)定位,最后通過(guò)姿態(tài)優(yōu)化得到精確的人體姿態(tài)估計(jì)結(jié)果。
本文通過(guò)對(duì)輸入的著裝圖像進(jìn)行人體檢測(cè)(He等,2017),得到著裝人體區(qū)域,分別輸入到著裝姿態(tài)表示和著裝部位分割分支。
2.1.1 姿態(tài)聚類(lèi)
區(qū)別于其他場(chǎng)景的人體姿態(tài),著裝場(chǎng)景下的人體姿態(tài)具有姿態(tài)多樣以及視角位置多變的特殊性,導(dǎo)致人體姿態(tài)估計(jì)網(wǎng)絡(luò)學(xué)習(xí)變得困難。本文通過(guò)對(duì)著裝人體姿態(tài)聚類(lèi)得到姿態(tài)模板,以表示著裝場(chǎng)景下的各類(lèi)人體姿態(tài)。
將著裝圖像數(shù)據(jù)集中的著裝人體姿態(tài)定義為一個(gè)向量列表,使用向量P=(C1,C2,…,Cm)∈Rm×3表示一個(gè)人的關(guān)節(jié)點(diǎn)集合。其中,Ci=(x,y,v)∈R3是一個(gè)3維向量,x,y表示一個(gè)關(guān)節(jié)點(diǎn)的坐標(biāo)位置,v表示該關(guān)節(jié)點(diǎn)是否遮擋,m表示一個(gè)人的關(guān)節(jié)點(diǎn)總數(shù)。由于著裝人體姿態(tài)包含不同視角信息,為此,參照LSP(leeds sports pose)數(shù)據(jù)集(Johnson和Everingham,2010)關(guān)節(jié)點(diǎn)類(lèi)型設(shè)定,定義關(guān)節(jié)點(diǎn)總數(shù)為14,包含頭頂關(guān)節(jié)、頸關(guān)節(jié)、左/右肩關(guān)節(jié)、左/右肘關(guān)節(jié)、左/右腕關(guān)節(jié)、左/右髖關(guān)節(jié)、左/右膝關(guān)節(jié)以及左/右踝關(guān)節(jié)。
首先,對(duì)訓(xùn)練集中已標(biāo)注的姿態(tài)信息和人體邊界框信息的圖像進(jìn)行預(yù)處理。1)利用人體邊界框標(biāo)注裁剪出人體感興趣區(qū)域(region of interest,RoI),并使用姿態(tài)坐標(biāo)信息將人體置于ROI的中心;2)為了便于姿態(tài)坐標(biāo)歸一化,將ROI的大小調(diào)整到64×64像素;3)由于包含有效關(guān)節(jié)點(diǎn)較少的姿態(tài)不具備代表性,并且在聚類(lèi)的過(guò)程中會(huì)成為壞點(diǎn),因此,僅將數(shù)據(jù)集圖像中包含大于8個(gè)有效關(guān)節(jié)點(diǎn)的著裝姿態(tài)進(jìn)行聚類(lèi)。
然后,采用K-means聚類(lèi)方法(Zhang等,2019)進(jìn)行優(yōu)化。具體為
(1)
式中,S表示k個(gè)姿態(tài)類(lèi)別的集合{S1,S2,…,Sk},P表示數(shù)據(jù)集中標(biāo)注的姿態(tài),Pμi表示每類(lèi)姿態(tài)集合Si中的姿態(tài)平均值。Dist(·)定義了兩個(gè)人體姿態(tài)的距離,計(jì)算式為
(2)
式中,m表示14類(lèi)人體關(guān)節(jié)點(diǎn),Cμij表示第j類(lèi)關(guān)節(jié)點(diǎn)位置集合的平均值,Cj表示第j個(gè)關(guān)節(jié)點(diǎn)的位置,具體定義為
(3)
式中,x和y表示關(guān)節(jié)點(diǎn)在圖像中的像素位置。
最后,將訓(xùn)練集中已標(biāo)注的多個(gè)姿態(tài)信息(P1,P2,…,Pn)聚類(lèi)成k(k≤n)個(gè)類(lèi)別的姿態(tài)集合。
聚類(lèi)后,使用每個(gè)姿態(tài)類(lèi)的平均值Pμi構(gòu)成姿態(tài)模板,并將Pμi中v>0.5的關(guān)節(jié)點(diǎn)設(shè)置為有效關(guān)節(jié)點(diǎn),最后的姿態(tài)模板為Pμi中有效關(guān)節(jié)點(diǎn)的組合。圖2給出了本文訓(xùn)練集中不同k值的聚類(lèi)結(jié)果。其中,k=2時(shí),聚類(lèi)結(jié)果為半身和全身的姿態(tài)模板;k=3時(shí),聚類(lèi)結(jié)果為半身、全身正面以及全身背面的姿態(tài)模板;k=4時(shí),聚類(lèi)結(jié)果為半身、全身正面、全身背面、側(cè)面的姿態(tài)模板;k=5時(shí),引入了左、右側(cè)面姿態(tài)模板;當(dāng)k≥6時(shí),重復(fù)增加了右側(cè)面姿態(tài)模板,在視角位置產(chǎn)生冗余。因此,最終確定k=5的姿態(tài)聚類(lèi)模板。姿態(tài)模板可為人體姿態(tài)估計(jì)網(wǎng)絡(luò)提供有效的姿態(tài)結(jié)構(gòu)先驗(yàn)信息。由于不同的姿態(tài)模板表示各類(lèi)著裝場(chǎng)景下的人體姿態(tài),且本文最終確定的姿態(tài)模板數(shù)為5,因此通過(guò)softmax損失將姿態(tài)類(lèi)別損失函數(shù)定義為
圖2 著裝人體姿態(tài)聚類(lèi)模板Fig.2 The clustering templates of dressed human pose
(4)
式中,Pk是一個(gè)1×5的向量,該向量的大小取決于姿態(tài)模板的類(lèi)別數(shù),Sk表示該圖像中的人物屬于第k種姿態(tài)模板的概率。
2.1.2 多尺度損失及特征融合
單人姿態(tài)估計(jì)中由于關(guān)節(jié)點(diǎn)定位不準(zhǔn)確會(huì)導(dǎo)致關(guān)節(jié)點(diǎn)的錯(cuò)誤拼接,本文通過(guò)增加多尺度損失與特征融合學(xué)習(xí)關(guān)節(jié)點(diǎn)多尺度的深度特征,增強(qiáng)人體關(guān)節(jié)點(diǎn)定位精度。為此,在每個(gè)沙漏模塊1/16、1/8、1/4、1/2的4個(gè)反卷積層增加損失監(jiān)督,如圖3所示。
圖3 多尺度損失及特征融合Fig.3 Multi-scale loss and feature fusion
為減少原始圖像直接輸入沙漏網(wǎng)絡(luò)耗占的顯存資源,在圖像輸入姿態(tài)表示分支時(shí)進(jìn)行卷積和最大池化操作,將每個(gè)輸入圖像的分辨率調(diào)整至64×64像素;再使用1×1卷積核對(duì)4個(gè)尺度的特征圖進(jìn)行降維操作,在每個(gè)尺度得到與關(guān)節(jié)點(diǎn)數(shù)量相同的特征圖維度;最后將關(guān)節(jié)點(diǎn)真值熱圖與預(yù)測(cè)的熱圖在對(duì)應(yīng)尺度下進(jìn)行誤差計(jì)算,這里關(guān)節(jié)點(diǎn)真值熱圖大小調(diào)整至64×64像素,進(jìn)而下采樣至1/16、1/8、1/4和1/2尺度,并通過(guò)1×1卷積將對(duì)應(yīng)尺度下反卷積層輸出的特征預(yù)測(cè)為關(guān)節(jié)點(diǎn)熱圖。
數(shù)據(jù)集圖像中關(guān)節(jié)點(diǎn)真值熱圖的生成參照堆疊沙漏網(wǎng)絡(luò)(Newell等,2016),以關(guān)節(jié)點(diǎn)位置(x,y)為中心,使用2維高斯函數(shù)生成第m個(gè)關(guān)節(jié)點(diǎn)的真值熱圖Gm(x,y),標(biāo)準(zhǔn)差為1像素。為了提供有效的多尺度損失,本文將損失函數(shù)定義為每個(gè)尺度下的所有關(guān)節(jié)點(diǎn)熱圖的均方誤差損失之和。因此,第i個(gè)尺度預(yù)測(cè)的所有關(guān)節(jié)點(diǎn)熱圖與對(duì)應(yīng)尺度的真值熱圖損失函數(shù)定義為
(5)
式中,M為14,表示預(yù)測(cè)的14個(gè)人體關(guān)節(jié)點(diǎn),Pm(x,y)和Gm(x,y)分別表示在像素位置(x,y)代表第m個(gè)關(guān)節(jié)的預(yù)測(cè)得分圖和真值熱圖。
多尺度損失定義為
(6)
式中,I為4,表示為沙漏模塊4個(gè)不同的尺度,i表示第i個(gè)尺度。
為了給多尺度姿態(tài)估計(jì)網(wǎng)絡(luò)提供有效的著裝人體姿態(tài)先驗(yàn)信息,本文將姿態(tài)模板下采樣至1/16、1/8、1/4和1/2尺度,并結(jié)合姿態(tài)類(lèi)別損失函數(shù),定義最終的聯(lián)合損失函數(shù)為
(7)
融合關(guān)節(jié)點(diǎn)多尺度特征能夠更好地提高關(guān)節(jié)點(diǎn)定位的魯棒性,為此基于多尺度損失在最后一個(gè)沙漏模塊增加多尺度特征融合。采用上采樣和concat操作,將4個(gè)尺度分別以×2、×4、×8、×16的倍率進(jìn)行上采樣,以融合原始特征。采用反卷積層將融合后的特征恢復(fù)到輸入圖像相同的尺寸,通過(guò)1×1卷積層輸出像素級(jí)人體關(guān)節(jié)點(diǎn)得分圖Pj。通過(guò)對(duì)所有尺度的特征映射學(xué)習(xí),可以全局優(yōu)化關(guān)節(jié)點(diǎn)定位,進(jìn)一步提高人體關(guān)節(jié)點(diǎn)的定位精度,有效避免關(guān)節(jié)點(diǎn)的錯(cuò)誤拼接。
精確的著裝部位分割可以為人體姿態(tài)估計(jì)提供有效的著裝部位信息,以增強(qiáng)關(guān)節(jié)點(diǎn)的定位精度。
基于全卷積網(wǎng)絡(luò)的方法通常迭代地使用卷積和池化操作,降低了特征映射的分辨率,丟失了更精細(xì)的圖像信息,導(dǎo)致語(yǔ)義部位分割結(jié)果不準(zhǔn)確。Ruan等人(2019)提出采用低層特征補(bǔ)償可引入高分辨率的圖像信息。受此啟發(fā),本文采用低層特征與高層特征跳躍連接的方式獲得高分辨率信息,以增強(qiáng)著裝部位分割的準(zhǔn)確度。具體地,通過(guò)ResNet101(residual neural network)網(wǎng)絡(luò)提取圖像語(yǔ)義部位特征,使用網(wǎng)絡(luò)的Res2特征捕獲高分辨率信息。著裝部位分割分支先采用雙線性插值對(duì)殘差網(wǎng)絡(luò)的最后一層特征Res5進(jìn)行上采樣,并使用1×1卷積降低特征維度,然后使用1×1卷積將殘差網(wǎng)絡(luò)的第2層級(jí)特征Res2與上采樣后的特征Res5進(jìn)行跳躍連接操作,獲得同時(shí)包含高級(jí)語(yǔ)義信息和高分辨率信息的特征,最后采用反卷積層將融合后的特征恢復(fù)到輸入圖像相同的尺寸,逐像素計(jì)算softmax分類(lèi)損失,通過(guò)1×1卷積層為7個(gè)著裝語(yǔ)義部位類(lèi)型輸出對(duì)應(yīng)的著裝部位得分圖Ps。其中,softmax分類(lèi)損失函數(shù)定義為
(8)
式中,wj是一個(gè)1×7的向量,si表示該像素屬于第i個(gè)語(yǔ)義部位類(lèi)型概率,向量w對(duì)應(yīng)7個(gè)語(yǔ)義部位類(lèi)型,包含上臂、下臂、腿部上半?yún)^(qū)域、腿部下半?yún)^(qū)域、頭部和身體等6個(gè)著裝部位以及背景。
由于人體關(guān)節(jié)點(diǎn)存在于相鄰著裝部位的交界處,以頭頂關(guān)節(jié)與頸關(guān)節(jié)為例,頭頂關(guān)節(jié)應(yīng)定位在頭部著裝部位區(qū)域內(nèi)以及頭部著裝部位的邊界附近,頸關(guān)節(jié)應(yīng)定位在頭部著裝區(qū)域或者身體著裝區(qū)域內(nèi)以及頭部著裝區(qū)與身體著裝區(qū)域的相交邊界附近,即每個(gè)人體關(guān)節(jié)點(diǎn)類(lèi)型都關(guān)聯(lián)著1個(gè)或者2個(gè)著裝部位,如表1所示。
表1 人體關(guān)節(jié)點(diǎn)與關(guān)聯(lián)的人體著裝部位Table 1 Human body joint points and related dressing part/parts
此外,每相鄰關(guān)節(jié)類(lèi)型都關(guān)聯(lián)著1個(gè)著裝部位類(lèi)型,如頭頂關(guān)節(jié)與頸關(guān)節(jié)的連接線應(yīng)在頭部著裝區(qū)域內(nèi),如表2所示。
表2 相鄰關(guān)節(jié)點(diǎn)與關(guān)聯(lián)的人體著裝部位Table 2 Adjacent joint points and related dressing part
因此,基于著裝部位與人體關(guān)節(jié)點(diǎn)的約束關(guān)系,設(shè)計(jì)部位關(guān)節(jié)平滑項(xiàng)。采用全連接條件隨機(jī)場(chǎng)(conditional random field,CRF)進(jìn)行著裝人體姿態(tài)優(yōu)化,以獲得魯棒性的關(guān)節(jié)點(diǎn)上下文關(guān)系。
將全連接CRF定義為圖結(jié)構(gòu)G={V,E},節(jié)點(diǎn)集合V={c1,c2,…,cn}表示所有候選關(guān)節(jié)點(diǎn)的定位,邊集合E={(ci,cj)|i=1,2,…,n,j=1,2,…,n,i (9) 式中,ψi為一元項(xiàng)函數(shù),表示基于關(guān)節(jié)點(diǎn)得分圖Pj在定位ci上的對(duì)數(shù)似然函數(shù),定義為 (10) ψi,j為二元項(xiàng)函數(shù),表示基于部位得分圖Ps在對(duì)應(yīng)著裝部位與關(guān)節(jié)點(diǎn)約束關(guān)系的對(duì)數(shù)似然函數(shù),具體為 (11) (12) 式中,由部位關(guān)節(jié)平滑項(xiàng)f(ci,cj,lci,lcj|Ps)經(jīng)邏輯回歸得到,ω為權(quán)值參數(shù),包含3個(gè)類(lèi)型的特征,fu(ci,lci|Ps)表示關(guān)節(jié)類(lèi)型為lci的關(guān)節(jié)點(diǎn)在定位ci與對(duì)應(yīng)著裝部位的約束關(guān)系;fu(cj,lcj|Ps)表示關(guān)節(jié)類(lèi)型為lci的關(guān)節(jié)點(diǎn)在定位cj與對(duì)應(yīng)著裝部位的約束關(guān)系;fp(ci,cj,lci,lcj|Ps)表示關(guān)節(jié)類(lèi)型對(duì)為(lci,lcj)分別在定位ci和cj與對(duì)應(yīng)著裝部位的約束關(guān)系。ci和cj表示關(guān)節(jié)點(diǎn)的候選位置,lci和lcj表示關(guān)節(jié)類(lèi)型。 本文基于著裝部位得分圖Ps構(gòu)建部位關(guān)節(jié)平滑項(xiàng)f(ci,cj,lci,lcj|Ps),假設(shè)lci為頭頂關(guān)節(jié),lcj為頸關(guān)節(jié),則fu(ci,lci|Ps)是2維特征向量,第1個(gè)維度表示ci是否在頭部著裝區(qū)域內(nèi),第2個(gè)維度表示ci是否在頭部著裝區(qū)域的邊界附近(邊界的10個(gè)像素內(nèi))。fu(cj,lcj|Ps)是4維特征向量,第1個(gè)維度表示cj是否在頭部著裝區(qū)域內(nèi),第2個(gè)維度表示cj是否在頭部著裝區(qū)域的邊界附近(邊界的10個(gè)像素內(nèi)),第3個(gè)維度表示cj是否在身體著裝部位內(nèi),第4個(gè)維度表示cj是否在身體著裝部位的邊界附近(邊界的10個(gè)像素內(nèi))。fp(ci,cj,lci,lcj|Ps)是2維特征向量,第1個(gè)維度表示ci與cj連線是否在頭部著裝區(qū)域內(nèi);第2個(gè)維度表示由ci與cj構(gòu)造的長(zhǎng)寬比為2.5 ∶1的矩形區(qū)域與頭部著裝部位的交并比(intersection-over-union,IOU)。此外,對(duì)于相鄰關(guān)節(jié)則提取全部3個(gè)特征,對(duì)于非相鄰關(guān)節(jié)如頭頂與踝關(guān)節(jié),將特征fp(ci,cj,lci,lcj|Ps)設(shè)置為0。 為了降低全連接CRF計(jì)算的復(fù)雜性,首先對(duì)輸入圖像進(jìn)行人體檢測(cè)并采用非極大值抑制(non-maximum suppression,NMS)篩選關(guān)節(jié)得分圖Pj,為每個(gè)關(guān)節(jié)點(diǎn)類(lèi)型生成6個(gè)候選定位。然后,基于一元關(guān)節(jié)項(xiàng)和部位關(guān)節(jié)平滑項(xiàng),參照DeeperCut(Insafutdinov等,2016)的推理算法,將全連接CRF轉(zhuǎn)換為帶有L約束的整數(shù)線性規(guī)劃(integer linear programming,ILP)問(wèn)題,為生成的候選關(guān)節(jié)點(diǎn)位置c1,c2,…,cn分配關(guān)節(jié)類(lèi)型標(biāo)簽,并組合成多個(gè)姿態(tài)配置。其中,丟失的關(guān)節(jié)點(diǎn)得分設(shè)定為0.2分,每個(gè)姿態(tài)的得分為一元關(guān)節(jié)項(xiàng)里所有可見(jiàn)關(guān)節(jié)點(diǎn)得分的總和。最后,通過(guò)非極大值抑制算法去除相似的姿態(tài)配置,并以姿態(tài)中心最接近人體檢測(cè)框中心的姿態(tài)為本文最終輸出的人體姿態(tài)估計(jì)結(jié)果。 實(shí)驗(yàn)硬件平臺(tái)為Inter Core i9-9900K @3.60 GHz CPU、2080Ti GPU和32 GB DDR4 2 666 MHz Ram,集成式開(kāi)發(fā)環(huán)境為PyCharm等。 由于時(shí)尚街拍圖像易于獲取,且包含了著裝場(chǎng)景中背景多樣復(fù)雜、人體姿態(tài)和視角位置多變、服裝紋理顏色多樣以及服裝對(duì)關(guān)節(jié)點(diǎn)遮擋較多的特點(diǎn),因此,本文以時(shí)尚街拍圖像為例,通過(guò)爬取大型時(shí)尚街拍圖像網(wǎng)站Chictopia,并結(jié)合在線圖像搜集獲得數(shù)據(jù)集原始圖像,構(gòu)建了一個(gè)包含7個(gè)語(yǔ)義部位標(biāo)簽和14個(gè)人體關(guān)節(jié)點(diǎn)標(biāo)注的著裝人體圖像數(shù)據(jù)集。該數(shù)據(jù)集共23 875幅圖像,包含男性圖像9 256幅和女性圖像14 619幅。使用LabelMe對(duì)數(shù)據(jù)集原始圖像進(jìn)行精細(xì)的語(yǔ)義部位標(biāo)注和人體關(guān)節(jié)點(diǎn)標(biāo)注,語(yǔ)義部位標(biāo)注包含上臂、下臂、腿部上半?yún)^(qū)域、腿部下半?yún)^(qū)域、頭部、身體等6個(gè)著裝語(yǔ)義部位以及背景。此外,考慮到由于缺少人體姿態(tài)視角位置信息導(dǎo)致已有方法對(duì)著裝人體側(cè)面以及背面視角姿態(tài)估計(jì)的精度不高,本文構(gòu)建的著裝圖像數(shù)據(jù)集還包含36%側(cè)面姿態(tài)、25%背面姿態(tài)以及39%正面姿態(tài)的著裝人體圖像,如圖4所示。最終選取數(shù)據(jù)集中的20 000幅圖像作為訓(xùn)練集,2 375幅圖像作為測(cè)試集,1 500幅圖像作為驗(yàn)證集。為了更好地學(xué)習(xí)多尺度人體關(guān)節(jié)點(diǎn)特征以及考慮到顯存大小的限制,本文將所有數(shù)據(jù)集圖像分辨率設(shè)置為256×256像素,圖像格式均為jpg格式,數(shù)據(jù)增強(qiáng)包含在[-45°,45°]內(nèi)隨機(jī)旋轉(zhuǎn)度數(shù),在[0.65,1.35]內(nèi)選擇縮放比例因子以及水平翻轉(zhuǎn)。 圖4 不同視角的姿態(tài)圖像數(shù)量Fig.4 The number of poses with different angles of view 4.2.1 姿態(tài)聚類(lèi)有效性分析 評(píng)估方式采用關(guān)節(jié)點(diǎn)正確估計(jì)比例(percentage of correct keypoints,PCK)機(jī)制,以檢測(cè)關(guān)節(jié)點(diǎn)與對(duì)應(yīng)真值間的歸一化距離小于設(shè)定的閾值作為正確估計(jì)的關(guān)節(jié)點(diǎn)。參照MPII數(shù)據(jù)集設(shè)定,以頭部長(zhǎng)度作為歸一化參考,閾值以頭部長(zhǎng)度乘以一個(gè)系數(shù)表示,如PCKh@0.5表示0.5倍的頭部長(zhǎng)度作為評(píng)估設(shè)定的閾值,PCKh的結(jié)果表示該閾值內(nèi)模型在數(shù)據(jù)集中正確估計(jì)的關(guān)節(jié)點(diǎn)數(shù)占總關(guān)節(jié)點(diǎn)數(shù)的比例。 本文使用K均值聚類(lèi)方法對(duì)數(shù)據(jù)集中已標(biāo)注的姿態(tài)坐標(biāo)信息進(jìn)行聚類(lèi),圖5展示了不同數(shù)量的姿態(tài)模板構(gòu)建的姿態(tài)類(lèi)別損失函數(shù)對(duì)姿態(tài)表示模型效果的影響??梢钥闯?,姿態(tài)模板數(shù)小于等于5時(shí),姿態(tài)估計(jì)的PCKh值不斷上升,姿態(tài)模板數(shù)大于5時(shí),姿態(tài)估計(jì)的PCKh值開(kāi)始下降,這是由于姿態(tài)模板數(shù)為5時(shí)包含了人體正面、背面以及左右側(cè)面的全部視角位置信息。姿態(tài)模板數(shù)為6時(shí),姿態(tài)模板引入了右側(cè)面視角,在視角位置產(chǎn)生冗余,所以本文將姿態(tài)類(lèi)別數(shù)設(shè)置為5,以構(gòu)建姿態(tài)類(lèi)別損失函數(shù),提高不同視角下著裝人體姿態(tài)估計(jì)的魯棒性,進(jìn)一步提高著裝人體姿態(tài)估計(jì)的精度。 圖5 姿態(tài)表示模型的PCKh@0.5結(jié)果Fig.5 The PCKh@0.5 result of pose representation model 為了說(shuō)明姿態(tài)類(lèi)別損失函數(shù)的有效性,本文確定姿態(tài)模板數(shù)量為5,并在姿態(tài)表示模型的基礎(chǔ)上,將有姿態(tài)類(lèi)別損失函數(shù)與無(wú)姿態(tài)類(lèi)別損失函數(shù)的關(guān)節(jié)點(diǎn)正確估計(jì)比例進(jìn)行對(duì)比,結(jié)果如表3所示??梢钥闯觯凶藨B(tài)類(lèi)別損失的姿態(tài)表示模型PCHh@0.5值比無(wú)姿態(tài)類(lèi)別損失的提高了0.7%,說(shuō)明提出的姿態(tài)類(lèi)別損失能夠有效提升著裝人體姿態(tài)估計(jì)精度。 表3 有無(wú)姿態(tài)類(lèi)別損失對(duì)姿態(tài)表示模型的影響(PCKh@0.5)Table 3 The influence of the pose category loss on the pose representation model (PCKh@0.5) /% 4.2.2 姿態(tài)優(yōu)化對(duì)比實(shí)驗(yàn) 圖6展示了姿態(tài)表示模型中最終優(yōu)化構(gòu)造的聯(lián)合損失函數(shù)在訓(xùn)練過(guò)程中隨著迭代次數(shù)增加的損失變化,共迭代500 000次。從圖6可以看出,網(wǎng)絡(luò)具有較快的收斂性能,最終趨于穩(wěn)定的擬合。 圖6 損失函數(shù)變化曲線Fig.6 Change curve of loss function 圖7展示了在姿態(tài)表示模型的基礎(chǔ)上無(wú)著裝部位分割的姿態(tài)估計(jì)結(jié)果、結(jié)合著裝部位分割優(yōu)化后的姿態(tài)估計(jì)結(jié)果以及著裝部位分割結(jié)果。可以看出,本文提出的著裝部位分割具有較好的分割效果,在結(jié)合著裝部位分割優(yōu)化后,能有效避免人體關(guān)節(jié)點(diǎn)的誤定位。 圖7 姿態(tài)優(yōu)化對(duì)比結(jié)果Fig.7 The contrastive results of pose optimization ((a)original images;(b)without dressed part segmentation;(c)dressed part segmentation;(d)with dressed part segmentation) 圖8是姿態(tài)表示模型和姿態(tài)優(yōu)化與堆疊沙漏網(wǎng)絡(luò)的對(duì)比實(shí)驗(yàn)結(jié)果。可以看出,姿態(tài)表示模型以及姿態(tài)優(yōu)化在不同歸一化距離下都有較高的檢測(cè)準(zhǔn)確率。 圖8 不同歸一化距離的PCKh結(jié)果Fig.8 PCKh results of different normalized distance 4.2.3 姿態(tài)估計(jì)實(shí)驗(yàn)結(jié)果 使用PCKh@0.5評(píng)估機(jī)制分別對(duì)人體肩關(guān)節(jié)、肘關(guān)節(jié)、腕關(guān)節(jié)、髖關(guān)節(jié)、膝關(guān)節(jié)和踝關(guān)節(jié)6類(lèi)關(guān)節(jié)以及整體進(jìn)行評(píng)估,衡量著裝圖像中不同人體關(guān)節(jié)點(diǎn)類(lèi)型的定位精度和整體的人體姿態(tài)估計(jì)性能。其中,肩關(guān)節(jié)、肘關(guān)節(jié)、腕關(guān)節(jié)、髖關(guān)節(jié)、膝關(guān)節(jié)和踝關(guān)節(jié)代表左右兩側(cè)對(duì)稱(chēng)關(guān)節(jié)點(diǎn)的平均值。表4展示了本文方法與Yang等人(2017)、Chen等人(2018)、Xiao等人(2018)和Sun等人(2019)4種人體姿態(tài)估計(jì)算法在著裝圖像數(shù)據(jù)集上的評(píng)估結(jié)果。結(jié)果表明,本文提出的人體姿態(tài)估計(jì)雙分支網(wǎng)絡(luò)提高了每類(lèi)關(guān)節(jié)點(diǎn)的準(zhǔn)確性,并在整體關(guān)節(jié)點(diǎn)評(píng)估取得了92.5%的效果,尤其是在最具有挑戰(zhàn)性的肘關(guān)節(jié)和膝關(guān)節(jié),分別較Sun等人(2019)方法提高了1.9%和2.1%。通過(guò)對(duì)比,驗(yàn)證了本文提出的雙分支網(wǎng)絡(luò)的人體姿態(tài)估計(jì)方法能有效提升著裝圖像中人體姿態(tài)估計(jì)的性能。 表4 著裝人體圖像數(shù)據(jù)集上的PCKh@0.5的結(jié)果Table 4 The results of PCKh@0.5 on the clothing human body image dataset /% 表5 不同人體姿態(tài)估計(jì)方法的時(shí)間復(fù)雜度與檢測(cè)精度比較Table 5 Comparison of time complexity and detection accuracy among different human pose estimation methods 本文對(duì)著裝圖像進(jìn)行人體姿態(tài)估計(jì),圖9展示了人體姿態(tài)估計(jì)網(wǎng)絡(luò)模型在著裝圖像數(shù)據(jù)集的可視化結(jié)果。考慮到既要體現(xiàn)著裝場(chǎng)景下人體姿態(tài)的特點(diǎn),又要體現(xiàn)本文提出的雙分支網(wǎng)絡(luò)的人體姿態(tài)估計(jì)方法的有效性,因此圖9選取了不同視角、姿態(tài)、服裝款式以及背景的人體姿態(tài)估計(jì)實(shí)例,通過(guò)與原始堆疊沙漏網(wǎng)絡(luò)、著裝姿態(tài)表示模型(堆疊沙漏網(wǎng)絡(luò)+姿態(tài)類(lèi)別損失+多尺度損失及特征融合)、Sun等人(2019)的方法以及真值的對(duì)比,展示本文提出的人體姿態(tài)估計(jì)雙分支網(wǎng)絡(luò)(著裝姿態(tài)表示分支+著裝部位分割分支)的效果。可以看出,1)堆疊沙漏網(wǎng)絡(luò)的結(jié)果(圖9(d))在人體左、右側(cè)面視角出現(xiàn)腿部關(guān)節(jié)點(diǎn)錯(cuò)誤定位,人體背面視角中出現(xiàn)大量關(guān)節(jié)點(diǎn)漏定位,在背景與人體部位相似、人體著裝款式顏色一致和著裝服飾遮擋的情況下均呈現(xiàn)出不同程度的關(guān)節(jié)點(diǎn)誤定位問(wèn)題。為了克服這些問(wèn)題,本文基于著裝人體姿態(tài)聚類(lèi)引入姿態(tài)類(lèi)別損失,并通過(guò)增加多尺度損失以及特征融合構(gòu)建姿態(tài)表示模型。2)姿態(tài)表示模型的結(jié)果(圖9(e))有效解決了人體視角多樣以及背景和服裝款式干擾導(dǎo)致的關(guān)節(jié)點(diǎn)誤定位和漏定位問(wèn)題。3)本文提出的人體姿態(tài)估計(jì)雙分支網(wǎng)絡(luò)的結(jié)果(圖9(f))通過(guò)結(jié)合著裝部位分割約束人體關(guān)節(jié)點(diǎn)定位,有效解決了由于著裝場(chǎng)景中人體關(guān)節(jié)點(diǎn)易受穿著服飾遮擋導(dǎo)致關(guān)節(jié)點(diǎn)定位失敗的問(wèn)題,進(jìn)一步提高了著裝人體姿態(tài)估計(jì)精度。 圖9 著裝人體姿態(tài)估計(jì)結(jié)果對(duì)比Fig.9 Qualitative results of human pose estimation in dressing scene((a)original images;(b)ground truth;(c)Sun et al.(2019); (d)stacked hourglass network;(e)dressed pose representation model;(f)ours) 4.2.4 消融分析 為了驗(yàn)證人體姿態(tài)估計(jì)網(wǎng)絡(luò)模型每個(gè)部分的有效性,在構(gòu)建的著裝人體圖像數(shù)據(jù)集的驗(yàn)證集上進(jìn)行消融分析。首先以沙漏網(wǎng)絡(luò)作為人體姿態(tài)估計(jì)的基礎(chǔ)網(wǎng)絡(luò),然后分別在基礎(chǔ)網(wǎng)絡(luò)基礎(chǔ)上增加多尺度損失、特征融合以及結(jié)合著裝部位約束部分。實(shí)驗(yàn)結(jié)果如表6所示,其中,Base表示基礎(chǔ)網(wǎng)絡(luò),Base+M表示在基礎(chǔ)網(wǎng)絡(luò)上增加多尺度歐氏距離損失監(jiān)督,Base+M*表示在基礎(chǔ)網(wǎng)絡(luò)上增加多尺度聯(lián)合損失監(jiān)督,其中損失函數(shù)包括歐氏距離損失和姿態(tài)類(lèi)別損失,Base+M*+C表示在Base+M*基礎(chǔ)上增加特征融合,即著裝姿態(tài)表示模型,Base+full表示在Base+M*+C基礎(chǔ)上增加著裝部位分割約束,即人體姿態(tài)估計(jì)雙分支網(wǎng)絡(luò)。 表6 消融實(shí)驗(yàn)(PCKh@0.5)Table 6 Ablation experiment (PCKh@0.5) /% 由表6可見(jiàn),原始堆疊沙漏網(wǎng)絡(luò)在著裝圖像數(shù)據(jù)集上驗(yàn)證整體的關(guān)節(jié)點(diǎn)正確估計(jì)比例為89.4%,本文提出的人體姿態(tài)估計(jì)網(wǎng)絡(luò)模型PCKh整體得分為92.5%,通過(guò)結(jié)合網(wǎng)絡(luò)的每個(gè)部分將基礎(chǔ)得分提高了3.1%。具體地,由于多尺度損失可以較好地捕捉關(guān)節(jié)點(diǎn)局部特征,通過(guò)在每個(gè)沙漏模塊的反卷積層增加多尺度損失,PCKh得分提高了0.8%。通過(guò)引入姿態(tài)類(lèi)別損失函數(shù),多尺度聯(lián)合損失相較多尺度歐氏距離損失的PCKh得分提高了0.7%,歸因于對(duì)數(shù)據(jù)集中姿態(tài)的聚類(lèi)能較好地表征各類(lèi)著裝人體姿態(tài)。特征融合可以全局優(yōu)化人體關(guān)節(jié)點(diǎn)多尺度特征,為難以估計(jì)的關(guān)節(jié)點(diǎn)提供全局上下文信息,通過(guò)在最后一個(gè)沙漏模塊增加特征融合,在多尺度聯(lián)合損失監(jiān)督的基礎(chǔ)上PCKh得分提高了0.8%。最后,通過(guò)使用著裝部位信息約束人體關(guān)節(jié)點(diǎn)定位,其PCKh得分在姿態(tài)表示模型的基礎(chǔ)上提高了0.8%。值得注意的是,在增加著裝部位約束之后,人體的肘關(guān)節(jié)、腕關(guān)節(jié)、膝關(guān)節(jié)以及踝關(guān)節(jié)的PCKh得分都有了大幅提高,尤其是具有挑戰(zhàn)性的肘關(guān)節(jié)和膝關(guān)節(jié)在姿態(tài)表示模型基礎(chǔ)上分別提高了1.3%和2.3%,歸因于著裝部位的上下臂和腿部上下半?yún)^(qū)域的準(zhǔn)確分割。總之,本文方法能夠有效結(jié)合多尺度損失與特征融合以及聯(lián)合著裝部位信息,提升了著裝人體姿態(tài)估計(jì)結(jié)果的精度。 此外,為說(shuō)明提出的雙分支網(wǎng)絡(luò)對(duì)不同服飾的通用性,以簡(jiǎn)單的短袖、短褲穿著為基準(zhǔn),通過(guò)對(duì)數(shù)據(jù)集中穿著為長(zhǎng)褲、短褲、連衣裙、半身裙、西裝、短袖、背心、大衣、套頭衫、襯衫、夾克以及其他常見(jiàn)服飾的人體姿態(tài)進(jìn)行評(píng)估,結(jié)果如圖10所示??梢钥闯?,采用雙分支網(wǎng)絡(luò)模型的整體人體姿態(tài)估計(jì)精度約為92.4%,對(duì)穿著不同服飾的人體姿態(tài)估計(jì)具有較好的魯棒性結(jié)果。 圖10 不同服飾種類(lèi)的人體姿態(tài)估計(jì)結(jié)果Fig.10 The human pose estimation results of different clothing types 針對(duì)由于服裝款式多樣、背景干擾和著裝姿態(tài)多變導(dǎo)致人體姿態(tài)估計(jì)精度較低問(wèn)題,本文以著裝場(chǎng)景為例,提出一種著裝場(chǎng)景下雙分支網(wǎng)絡(luò)的人體姿態(tài)估計(jì)方法。該模型融合全局與局部特征,提高了關(guān)節(jié)點(diǎn)定位精度,引入姿態(tài)類(lèi)別損失提高不同視角下著裝人體姿態(tài)估計(jì)的魯棒性,再結(jié)合著裝部位分割約束人體關(guān)節(jié)點(diǎn)定位,提高了人體姿態(tài)估計(jì)的精度。實(shí)驗(yàn)結(jié)果表明,本文方法在構(gòu)建的著裝人體圖像數(shù)據(jù)集上能夠提高人體姿態(tài)估計(jì)精度,關(guān)節(jié)點(diǎn)正確估計(jì)比例達(dá)到92.5%。 然而,本文方法還存在一些不足。一方面,針對(duì)連衣裙、大衣等對(duì)人體關(guān)節(jié)點(diǎn)遮擋嚴(yán)重的服飾,人體姿態(tài)估計(jì)精度較低,效果不理想;另一方面,當(dāng)著裝人體的關(guān)節(jié)點(diǎn)存在過(guò)多配飾遮擋時(shí),需要提高算法的關(guān)節(jié)點(diǎn)定位精度。因此,本文的后續(xù)工作將著重圍繞這些問(wèn)題展開(kāi),以進(jìn)一步提高著裝場(chǎng)景下人體姿態(tài)估計(jì)的精度。4 實(shí)驗(yàn)結(jié)果與分析
4.1 實(shí)驗(yàn)數(shù)據(jù)集
4.2 實(shí)驗(yàn)結(jié)果與性能分析
5 結(jié) 論