国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于深度學(xué)習(xí)的二維人體姿態(tài)估計(jì)研究進(jìn)展

2021-03-18 08:03:00張建林徐智勇魏宇星
計(jì)算機(jī)工程 2021年3期
關(guān)鍵詞:級聯(lián)關(guān)鍵點(diǎn)姿態(tài)

劉 勇,李 杰,張建林,徐智勇,魏宇星

(1.中國科學(xué)院大學(xué)電子電氣與通信工程學(xué)院,北京 100049;2.中國科學(xué)院光電技術(shù)研究所,成都 610209)

0 概述

二維人體姿態(tài)估計(jì)是計(jì)算機(jī)視覺領(lǐng)域的主要研究方向,在行為識別、姿態(tài)跟蹤等領(lǐng)域有著重要研究價(jià)值和應(yīng)用前景,其本質(zhì)是研究如何從給定圖像中精確識別目標(biāo)人體并獲得目標(biāo)人體姿態(tài)估計(jì)的問題,是姿態(tài)估計(jì)研究領(lǐng)域的重要分支。

二維人體姿態(tài)估計(jì)的研究方法可劃分為早期傳統(tǒng)的基于圖結(jié)構(gòu)模型的方法以及目前主流的基于深度學(xué)習(xí)的方法。傳統(tǒng)的人體姿態(tài)方法通過圖模型建立人體姿態(tài)架構(gòu),參考人體運(yùn)動學(xué)與人體姿態(tài)學(xué)等理論約束并優(yōu)化人體姿態(tài)模型,但其需要根據(jù)樣本的具體情況來選擇姿態(tài)信息的特征描述子,如尺度不變特征描述子(Scale Invariant Feature Transform,SIFT)[1]以及方向梯度直方圖描述子(Histogram of Oriented Gradient,HOG)[2]。這些特征提取策略難以應(yīng)對視角不同、外觀不同以及遮擋等情況的干擾。此外,人體可表達(dá)的姿態(tài)豐富程度使得其變化更為復(fù)雜多樣,這為相關(guān)姿態(tài)特征信息的提取造成了很大挑戰(zhàn)。傳統(tǒng)姿態(tài)估計(jì)方法可被視為一種基于圖結(jié)構(gòu)優(yōu)化后的代數(shù)求解問題,當(dāng)人體姿態(tài)過于復(fù)雜時(shí),針對同一樣本案例的圖結(jié)構(gòu)優(yōu)化將存在多組解,使得估計(jì)結(jié)果不再具有唯一性。

而卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)[3]對二維圖像中的人體進(jìn)行特征提取則可以獲得更為精確和穩(wěn)定的卷積特征。多層卷積疊加可以控制特征感受野的信息感知范圍,從而獲得不同尺度下的特征信息。深度卷積神經(jīng)網(wǎng)絡(luò)通過有策略地對樣本進(jìn)行學(xué)習(xí),可以獲得圖像與標(biāo)簽信息間的復(fù)雜映射關(guān)系,提取更為豐富的關(guān)聯(lián)信息,使得相關(guān)人體姿態(tài)估計(jì)結(jié)果更為精準(zhǔn)穩(wěn)定。

目前基于深度學(xué)習(xí)方法的人體姿態(tài)估計(jì)算法普遍通過卷積神經(jīng)網(wǎng)絡(luò)估計(jì)人體中各個特征關(guān)鍵點(diǎn)的種類和位置,對關(guān)鍵點(diǎn)按指定的策略進(jìn)行關(guān)聯(lián),獲得二維人體樣本目標(biāo)的姿態(tài)估計(jì)結(jié)果?;陉P(guān)鍵點(diǎn)和周圍局部特征間的關(guān)系、關(guān)鍵點(diǎn)間的空間約束關(guān)系和人體姿態(tài)結(jié)構(gòu)關(guān)系,文獻(xiàn)[4]提出標(biāo)準(zhǔn)的人體姿態(tài)骨架模板,后續(xù)人體關(guān)鍵點(diǎn)的標(biāo)注準(zhǔn)則基本都是在此模板的基礎(chǔ)上進(jìn)行合理的增刪。

本文對近十年來有關(guān)二維人體姿態(tài)估計(jì)在深度學(xué)習(xí)領(lǐng)域的相關(guān)工作進(jìn)行整理分類,介紹相關(guān)人體姿態(tài)數(shù)據(jù)集基準(zhǔn),對相關(guān)思路方法進(jìn)行對比分析,描述相關(guān)測評指標(biāo),總結(jié)該領(lǐng)域的研究現(xiàn)狀,并對二維人體姿態(tài)估計(jì)的發(fā)展趨勢進(jìn)行展望。

1 相關(guān)數(shù)據(jù)集基準(zhǔn)

由于研究早期資源的缺乏以及對人體姿態(tài)量化描述的差異,人體姿態(tài)數(shù)據(jù)集多集中于對單人局部姿態(tài)的標(biāo)注,LSP[5]和FLIC[6]即為針對人體肢體姿態(tài)標(biāo)注的數(shù)據(jù)集。隨著人體姿態(tài)估計(jì)課題逐步受到關(guān)注,更多研究機(jī)構(gòu)陸續(xù)開始數(shù)據(jù)集基準(zhǔn)的設(shè)計(jì)。數(shù)據(jù)集MPII[7]將人體關(guān)鍵點(diǎn)標(biāo)注個數(shù)完善到16 個,作為訓(xùn)練和評估單人姿態(tài)估計(jì)網(wǎng)絡(luò)的基準(zhǔn)。該基準(zhǔn)對人體姿態(tài)的量化描述逐步趨于統(tǒng)一完善,樣本數(shù)量初具規(guī)模,能支持全身范圍的單人姿態(tài)估計(jì)以及多人姿態(tài)估計(jì)的研究。

MSCOCO[8]是2014 年發(fā)布的用于深度學(xué)習(xí)的綜合性數(shù)據(jù)集。該數(shù)據(jù)集在2016 年對專門用于多人姿態(tài)估計(jì)的數(shù)據(jù)集進(jìn)行完善,于2017 年發(fā)布人體關(guān)鍵點(diǎn)的標(biāo)注并在隨后幾年對其進(jìn)行相關(guān)維護(hù)。其將人體姿態(tài)的關(guān)鍵點(diǎn)標(biāo)注增至17 個,并對每個人體樣本標(biāo)注了分割掩膜,使得標(biāo)注信息更加完備準(zhǔn)確,無論是在單人還是多人姿態(tài)估計(jì)方面,其在當(dāng)前研究領(lǐng)域皆被公認(rèn)為是最可靠的基準(zhǔn)指標(biāo)之一。

AI Challenger[9]給出與MPII 標(biāo)準(zhǔn)相似的用于競賽的人體姿態(tài)數(shù)據(jù)集,其包含了海量的訓(xùn)練測試圖像。Crowd Pose[10]從現(xiàn)有數(shù)據(jù)集中[7-9]共篩選出約20 000 張有關(guān)人體姿態(tài)研究的圖片,統(tǒng)一采用14 個關(guān)鍵點(diǎn)進(jìn)行標(biāo)注,作為擁擠場景下人體姿態(tài)數(shù)據(jù)集。

常用人體姿態(tài)數(shù)據(jù)集成分對比情況如圖1 所示,一方面數(shù)據(jù)集基準(zhǔn)的擴(kuò)充與完善推動研究方法的改進(jìn)優(yōu)化,另一方面研究方法的改進(jìn)優(yōu)化又對數(shù)據(jù)集基準(zhǔn)提出更具體的要求,從而推動人體姿態(tài)估計(jì)研究的不斷發(fā)展。

圖1 常用人體姿態(tài)數(shù)據(jù)集的成分對比Fig.1 Composition comparison of commonly used human posture datasets

2 二維人體姿態(tài)估計(jì)的深度學(xué)習(xí)方法

通過深層卷積網(wǎng)絡(luò)模型對樣本圖像進(jìn)行特征提取,使得二維人體姿態(tài)估計(jì)方法可實(shí)現(xiàn)對人體的檢測和關(guān)鍵點(diǎn)的定位,最終對關(guān)鍵點(diǎn)進(jìn)行聚類關(guān)聯(lián),獲得人體姿態(tài)估計(jì)結(jié)果。其依據(jù)所給定的標(biāo)注信息對模型的預(yù)測結(jié)果進(jìn)行測評,并通過反傳誤差信息更新人體姿態(tài)估計(jì)網(wǎng)絡(luò)模型的參數(shù),對人體姿態(tài)估計(jì)算法模型進(jìn)行優(yōu)化。基于深度學(xué)習(xí)的二維人體姿態(tài)估計(jì)方法按研究對象數(shù)目,將人體姿態(tài)估計(jì)問題劃分為單人姿態(tài)估計(jì)方法和多人姿態(tài)估計(jì)方法。

在單人姿態(tài)估計(jì)問題方面,多幅圖中同種類人體姿態(tài)關(guān)鍵點(diǎn)間的尺度差別通常較大,這種尺度差異性會對網(wǎng)絡(luò)特征提取模塊的設(shè)計(jì)造成一定的困難。因遮擋和不包含在圖片上等情況所造成的關(guān)鍵點(diǎn)遺失,會對姿態(tài)估計(jì)網(wǎng)絡(luò)的特征識別定位能力以及相關(guān)算法的后處理能力提出一定的要求,而且卷積神經(jīng)網(wǎng)絡(luò)規(guī)模普遍較大,所導(dǎo)致的反向傳播梯度消失問題以及對姿態(tài)估計(jì)網(wǎng)絡(luò)架構(gòu)的改進(jìn)和輕量化等問題也需要相關(guān)解決措施。

而對于多人姿態(tài)估計(jì)而言,在單人姿態(tài)估計(jì)中所遇到的諸多問題會被復(fù)雜化。在一幅圖像中可以出現(xiàn)同種類但尺度差異懸殊的人體姿態(tài)關(guān)鍵點(diǎn);不同人體之間的遮擋和重疊也會使相關(guān)網(wǎng)絡(luò)模塊與后處理算法對關(guān)鍵點(diǎn)的定位、所屬以及分類產(chǎn)生歧義;而且隨著圖像中人體樣本的增加,對卷積神經(jīng)網(wǎng)絡(luò)的特征提取能力也進(jìn)一步提高,由此產(chǎn)生的網(wǎng)絡(luò)參數(shù)規(guī)模擴(kuò)大問題也難以避免。

針對以上問題,基于深度學(xué)習(xí)的二維人體姿態(tài)估計(jì)方法被分成單人姿態(tài)估計(jì)方法和多人姿態(tài)估計(jì)方法,如表1 與圖2 所示。單人姿態(tài)估計(jì)多是對網(wǎng)絡(luò)結(jié)構(gòu)的設(shè)計(jì)和對輸出結(jié)果的后處理,優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu)可以提高人體關(guān)鍵點(diǎn)特征的提取效率,豐富所提取到的特征內(nèi)容,對輸出特征信息的后處理可以提高預(yù)測結(jié)果的信噪比,并結(jié)合先驗(yàn)知識以及傳統(tǒng)機(jī)器學(xué)習(xí)方法獲得網(wǎng)絡(luò)難以學(xué)到的關(guān)聯(lián)信息。多人姿態(tài)估計(jì)按照對全局信息與局部信息執(zhí)行順序的不同,主要分為自底而上(Bottom-up)與自頂而下(Top-down)兩種模式。自底而上的模式通過卷積網(wǎng)絡(luò)檢測并定位所有關(guān)鍵點(diǎn),結(jié)合先驗(yàn)知識對關(guān)鍵點(diǎn)進(jìn)行聚類和匹配,從而獲得多人姿態(tài)估計(jì)結(jié)果。自頂而下的模式通過將多人目標(biāo)檢測和單人姿態(tài)估計(jì)方法進(jìn)行結(jié)合從而實(shí)現(xiàn)多人姿態(tài)估計(jì)。

表1 二維人體姿態(tài)估計(jì)方法分類Table 1 Classification of two-dimensional human pose estimation methods

圖2 近十年基于深度學(xué)習(xí)的二維人體姿態(tài)估計(jì)研究發(fā)展時(shí)間線Fig.2 Research and development timeline two-dimensional human pose estimation based on deep learning in the past ten years

此外,最近相關(guān)研究提出一種將兩種模式相結(jié)合的多人姿態(tài)估計(jì)算法模式。由于該模式多數(shù)先以自底而上的模式提取所有的人體關(guān)鍵點(diǎn)獲得初步的姿態(tài)估計(jì)結(jié)果,再自頂而下地對人體關(guān)鍵點(diǎn)進(jìn)行精確定位,因此將其稱為先上后下的多人姿態(tài)估計(jì)模式。

2.1 單人姿態(tài)估計(jì)

單人姿態(tài)估計(jì)的深度學(xué)習(xí)方法策略主要分為對網(wǎng)絡(luò)結(jié)構(gòu)的設(shè)計(jì)與對輸出結(jié)果的處理。通常較深的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì),可以提取更具體更深層的特征信息來解決同種類關(guān)鍵點(diǎn)的多尺度分布問題,有利于提高姿態(tài)估計(jì)模型的魯棒性,單人姿態(tài)估計(jì)網(wǎng)絡(luò)結(jié)構(gòu)的設(shè)計(jì)大都采用多階段的卷積網(wǎng)絡(luò)級聯(lián)架構(gòu);而針對如何對姿態(tài)關(guān)鍵點(diǎn)進(jìn)行準(zhǔn)確檢測和定位,對輸出結(jié)果的處理方法則可以分為以坐標(biāo)回歸為主的方法和以特征熱力圖回歸為主的方法。其中,為了同時(shí)提高網(wǎng)絡(luò)對人體姿態(tài)圖像的局部特征和全局特征的提取,在特征熱力圖回歸方法的基礎(chǔ)上出現(xiàn)了許多有關(guān)多尺度特征的優(yōu)化和多分辨率處理的方法。為避免網(wǎng)絡(luò)估計(jì)得到現(xiàn)實(shí)中不存在的問題,基于生成對抗網(wǎng)絡(luò)相關(guān)技術(shù)被應(yīng)用于人體姿態(tài)估計(jì)方法。隨著級聯(lián)網(wǎng)絡(luò)架構(gòu)研究的不斷加深,研究人員提出并改進(jìn)減少人體姿態(tài)估計(jì)網(wǎng)絡(luò)參數(shù)規(guī)模的方法。

2.1.1 坐標(biāo)回歸方法

坐標(biāo)回歸方法通過多階段的卷積網(wǎng)絡(luò)級聯(lián)架構(gòu)進(jìn)行特征提取,在全連接神經(jīng)網(wǎng)絡(luò)上直接進(jìn)行坐標(biāo)回歸,并進(jìn)行多次迭代后得到姿態(tài)關(guān)鍵點(diǎn)的坐標(biāo)估計(jì)結(jié)果。文獻(xiàn)[11]將多階段的卷積網(wǎng)絡(luò)級聯(lián)架構(gòu)與人體姿態(tài)估計(jì)問題相結(jié)合,為人體姿態(tài)估計(jì)在特征提取方法上提出新的可能。文獻(xiàn)[31]是一種多階段卷積網(wǎng)絡(luò)級聯(lián)架構(gòu)與馬爾科夫隨機(jī)場模型[40]相結(jié)合的單人姿態(tài)估計(jì)方法,多階段卷積網(wǎng)絡(luò)級聯(lián)架構(gòu)所輸出的特征信息將被傳輸給馬爾科夫隨機(jī)場模型進(jìn)行信息關(guān)聯(lián)處理,最終仍由全連接網(wǎng)絡(luò)對處理后的特征圖像信息直接回歸估計(jì)出坐標(biāo)位置結(jié)果。

由于人體姿態(tài)信息紛繁復(fù)雜,僅靠直接坐標(biāo)回歸的方法很難得到精確的人體姿態(tài)關(guān)鍵點(diǎn)。雖然直接對關(guān)鍵點(diǎn)坐標(biāo)進(jìn)行回歸求解的方法忽視了人體姿態(tài)關(guān)鍵點(diǎn)之間的特征關(guān)聯(lián)信息,使得算法模型的泛化性能較差,但其多組卷積網(wǎng)絡(luò)級聯(lián)的姿態(tài)估計(jì)架構(gòu)能夠有效提取到豐富的人體姿態(tài)特征信息。這種以深度神經(jīng)網(wǎng)絡(luò)作為人體姿態(tài)特征提取器的方法在隨后的相關(guān)研究中逐漸成為主流并衍生出多種經(jīng)典的人體姿態(tài)估計(jì)網(wǎng)絡(luò)架構(gòu)。

2.1.2 特征熱力圖回歸方法

為獲得特征信息更為豐富的特征響應(yīng)輸出,網(wǎng)絡(luò)需要對輸入圖像在更大的特征范圍上進(jìn)行特征提取,增大網(wǎng)絡(luò)的特征感受野[41]是一種有效策略。通??赏ㄟ^擴(kuò)大池化層、卷積核尺寸和增加卷積層的策略增大網(wǎng)絡(luò)的特征感受野。但是這些策略都有一定的缺陷:擴(kuò)大池化層會導(dǎo)致原始特征信息損失,并對關(guān)鍵點(diǎn)定位的精度造成不可逆的影響;擴(kuò)大卷積核尺寸則會使網(wǎng)絡(luò)參數(shù)成倍增加,影響網(wǎng)絡(luò)運(yùn)行效率;而不斷增加卷積層則會導(dǎo)致網(wǎng)絡(luò)進(jìn)行誤差反向傳播時(shí)的梯度消失問題。因此,在獲得較大特征感受野的基礎(chǔ)上盡量抑制其所產(chǎn)生的副作用是設(shè)計(jì)和改良人體姿態(tài)估計(jì)網(wǎng)絡(luò)架構(gòu)所要攻克的技術(shù)難點(diǎn),目前較為經(jīng)典的設(shè)計(jì)方法有:基于VGGNet[42]的多層卷積池化的下采樣模塊,通過多尺度特征級聯(lián)的方式來彌補(bǔ)池化操作中的特征信息損失;基于ResNet[43]的殘差模塊結(jié)構(gòu),通過前饋連接策略保證反傳梯度,確保網(wǎng)絡(luò)層數(shù)持續(xù)加深。

以VGGNet為特征提取網(wǎng)絡(luò)架構(gòu)基礎(chǔ)的卷積姿態(tài)機(jī)(Convocational Pose Machine,CPM)[12]構(gòu)造了一個由多組卷積網(wǎng)絡(luò)模塊構(gòu)成的級聯(lián)網(wǎng)絡(luò)架構(gòu)。每組卷積模塊通過采用多次卷積操作與池化處理不斷擴(kuò)張感受野尺度,提取獲得特征感受野更大的人體姿態(tài)特征響應(yīng)結(jié)果,結(jié)合之前網(wǎng)絡(luò)模塊的輸出結(jié)果對特征圖像進(jìn)行像素級別的特征信息融合,其卷積核參數(shù)以及各層對特征感受野的擴(kuò)張效果如圖3 所示。

圖3 CPM 網(wǎng)絡(luò)模塊中感受野尺寸變化與多尺度特征融合Fig.3 Receptive field size change and multi-scale feature fusion in the CPM network module

然而,為擴(kuò)大特征感受野進(jìn)行設(shè)計(jì)的多階段級聯(lián)架構(gòu)使得網(wǎng)絡(luò)過深。為防止誤差反向傳播時(shí)出現(xiàn)梯度消失,研究人員提出損失函數(shù)中繼監(jiān)督策略,即對每一組的輸出計(jì)算損失函數(shù),最終評判指標(biāo)取決于各組累加的損失。基于空間的多尺度級聯(lián)卷積神經(jīng)網(wǎng)絡(luò)架構(gòu),不再過分依賴于馬爾科夫模型空間的復(fù)雜聯(lián)系,一定程度上減少了算法復(fù)雜度。這種多尺度特征融合的思想被后續(xù)的相關(guān)研究所繼承。

級聯(lián)沙漏網(wǎng)絡(luò)(Stacked Hourglass Network,SHN)[13]采用以殘差模塊為單元的多段級聯(lián)式沙漏模型。其對U-Net[44]的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)進(jìn)行改進(jìn),設(shè)計(jì)出的四階沙漏模塊用于對圖像中的特征信息在各個尺度上進(jìn)行充分提取。圖4 所示為各個階段的統(tǒng)一沙漏模塊結(jié)構(gòu),通過級聯(lián)多個殘差模塊來同時(shí)增加卷積層的深度以及卷積核的數(shù)量,不斷擴(kuò)大感受野。在沙漏模塊的第四階段得到最低分辨率和最大感受野的特征圖像后,其仿照U-Net 的短連接(shortcut)策略,將模型前半部分的最終輸出對應(yīng)等尺度地傳遞給模型的后半部分。后半部分在分辨率較低的特征圖像上采樣到對應(yīng)尺度,并與相應(yīng)的前端輸出在不改變特征通道數(shù)的前提下等尺度地進(jìn)行疊加。然后再次通過相同的殘差模塊進(jìn)行特征提取,形成與模型前半部分相對稱的沙漏結(jié)構(gòu)。

圖4 SHN 架構(gòu)中的四階沙漏模塊Fig.4 Fourth-order hourglass module in SHN architecture

為防止網(wǎng)絡(luò)過深而造成的梯度消失問題,SHN同樣采用了中繼監(jiān)督的訓(xùn)練策略。各階段獲得相應(yīng)的特征熱力圖后,在訓(xùn)練過程中這些熱力圖響應(yīng)結(jié)果將結(jié)合真實(shí)標(biāo)注信息進(jìn)一步獲得其在各位置的置信度,并與本階段網(wǎng)絡(luò)的輸入圖像和最終輸出圖像進(jìn)行融合,作為下一階段的輸入特征。而在之后各階段的監(jiān)督中也將進(jìn)一步學(xué)習(xí)之前各階段所提取到的特征信息。沙漏網(wǎng)絡(luò)模型因其輸入輸出的等尺度結(jié)構(gòu)極具可嵌入性,被后續(xù)諸多研究作為人體姿態(tài)特征提取器并加以優(yōu)化和借鑒:其中基于沙漏模型提出的金字塔殘差模型(Pyramid Residual Module,PRM)[32]通過多個分支網(wǎng)絡(luò)下采樣獲取多尺度特征信息,并引入膨脹卷積替換池化過程所造成的信息丟失,使得因池化下采樣所損失的原始圖像特征信息能被加以利用。

簡易網(wǎng)絡(luò)架構(gòu)基準(zhǔn)(Simple Baselines)[15]對以上網(wǎng)絡(luò)架構(gòu)進(jìn)行了更簡易的改良。其前端采用ResNet進(jìn)行特征提取,后端采用3 層尺寸為4×4 的轉(zhuǎn)置卷積核來還原網(wǎng)絡(luò)輸入分辨率,最終達(dá)成端到端的人體姿態(tài)估計(jì)效果。由于其在調(diào)參、數(shù)據(jù)增強(qiáng)等方面使用了諸多技巧,如其對最終估計(jì)結(jié)果結(jié)合了特征熱力圖的最大值點(diǎn)朝向次大值點(diǎn)方向的偏移量,使得其在網(wǎng)絡(luò)結(jié)構(gòu)簡易的情況下依然能夠獲得很好的人體姿態(tài)估計(jì)結(jié)果。

2.1.3 多尺度與多特征融合的優(yōu)化策略

人體姿態(tài)估計(jì)不僅需要結(jié)合高級語境特征,還需要結(jié)合具體而細(xì)致的低級特征。由于視角的不同以及關(guān)鍵點(diǎn)類別差異,卷積網(wǎng)絡(luò)對相同姿態(tài)關(guān)鍵點(diǎn)在不同尺度下的特征提取效果會打折扣,甚至出現(xiàn)錯誤的估計(jì)結(jié)果。文獻(xiàn)[33]采用多語境注意力機(jī)制將沙漏模型優(yōu)化為沙漏殘差單元(Hourglass Residual Unit,HRU),使每個沙漏網(wǎng)絡(luò)階段均可輸出多尺度注意力映射圖像與多語義注意力的特征映射圖像,將整體注意力模型得到的全局個體和局部注意力模型得到的人體局部姿態(tài)進(jìn)行組合,實(shí)現(xiàn)多尺度端到端的人體姿態(tài)估計(jì)網(wǎng)絡(luò)架構(gòu)。多尺度結(jié)構(gòu)感知(Multi-Scale Structure-Aware,MSSA)[35]網(wǎng)絡(luò)在沙漏模型的基礎(chǔ)上添加多尺度監(jiān)督來加強(qiáng)語義特征學(xué)習(xí)融合多尺度的特征。此外,結(jié)構(gòu)感知損失模塊可以提高關(guān)鍵點(diǎn)的匹配程度并獲得鄰近關(guān)鍵點(diǎn)間的關(guān)聯(lián)信息,對多尺度輸出進(jìn)行優(yōu)化調(diào)整提升了姿態(tài)關(guān)鍵點(diǎn)的全局一致性。

從特征熱力圖到坐標(biāo)的轉(zhuǎn)換過程同樣也會產(chǎn)生量化誤差,因此,特征熱力圖到關(guān)鍵點(diǎn)坐標(biāo)的解碼過程至關(guān)重要。分布式感知坐標(biāo)的姿態(tài)估計(jì)方法(DARKPose)[39]將輸入人體姿態(tài)圖像進(jìn)行下采樣以降低分辨率。為準(zhǔn)確預(yù)測各關(guān)鍵點(diǎn)在原始圖像中的位置,在得到特征熱力圖的預(yù)測結(jié)果后,需要對分辨率進(jìn)行恢復(fù)后再轉(zhuǎn)換回原始坐標(biāo)空間。該方法能預(yù)測特征熱力圖的先驗(yàn)分布結(jié)構(gòu),并推斷最大的潛在激活位置,從而獲得精準(zhǔn)的坐標(biāo)預(yù)測。

采用卷積或池化操作降低圖像分辨率來提高特征感受野范圍的方法通常在采樣過程中會產(chǎn)生量化誤差,以致級聯(lián)網(wǎng)絡(luò)會將量化誤差逐級傳遞,影響整體精度。高分辨率網(wǎng)絡(luò)(High-Resolution Network,HRNet)[16]給出一種保持高分辨率的新型多層網(wǎng)絡(luò)結(jié)構(gòu),以彌補(bǔ)原始圖像信息因?yàn)樘卣鞲惺芤暗臄U(kuò)大而造成的損失。如圖5 所示,其在始終保持初始特征熱力圖分辨率的前提下,令不同層的級聯(lián)網(wǎng)絡(luò)在不同分辨率下對圖像進(jìn)行特征提取。通過不同層間特征信息的融合來獲得更多的關(guān)聯(lián)信息與語義信息以及精確的人體關(guān)鍵點(diǎn)定位,體現(xiàn)了空間分辨率的重要性。文獻(xiàn)[45]對分辨率中高層獲得的特征熱力圖進(jìn)行特征再提取,進(jìn)一步增加模型的魯棒性和精確度。

圖5 HRNet 網(wǎng)絡(luò)架構(gòu)Fig.5 Architecture of HRNet network

2.1.4 生成對抗網(wǎng)絡(luò)方法與輕量化姿態(tài)網(wǎng)絡(luò)模型

由于人體部位的遮擋和重疊,在姿態(tài)估計(jì)中會產(chǎn)生許多虛假姿態(tài)結(jié)果。參考生成對抗網(wǎng)絡(luò)的思想,通過姿態(tài)發(fā)生器產(chǎn)生人體姿態(tài)結(jié)果,利用關(guān)鍵點(diǎn)間的幾何關(guān)系來加以約束設(shè)計(jì)鑒別器,便可判別人體的真實(shí)姿態(tài)和虛假姿態(tài)。生成姿態(tài)網(wǎng)絡(luò)[14]即采用了這一思路,在其基礎(chǔ)上進(jìn)行改進(jìn)的自對抗訓(xùn)練方法[28]利用沙漏模型級聯(lián)網(wǎng)絡(luò)架構(gòu)分別組建人體姿態(tài)生成器和姿態(tài)判別器。前者用于人體姿態(tài)的模擬生成與估計(jì),后者則結(jié)合人體姿態(tài)樣本的真實(shí)結(jié)果對生成器的姿態(tài)估計(jì)結(jié)果進(jìn)行判別,并將生成對抗誤差反傳回生成器,使生成器能通過學(xué)習(xí)獲得二維人體姿態(tài)結(jié)果。

優(yōu)先選擇參數(shù)規(guī)模較小的網(wǎng)絡(luò)模型作為特征提取網(wǎng)絡(luò)架構(gòu)是一種較為直接而有效的方法??臻g短連接網(wǎng)絡(luò)(Spatial Shortcut Network,SSN)[37]以U-Net為基礎(chǔ)網(wǎng)絡(luò)架構(gòu),通過建立特征信息的遠(yuǎn)程空間依賴關(guān)系提高了網(wǎng)絡(luò)的淺層探測能力。其對特征映射信息的處理主要分為用于特征移位的主模塊和預(yù)測特征間關(guān)系的特征移動模塊中,實(shí)現(xiàn)空間信息的低成本流動。網(wǎng)絡(luò)壓縮也可以實(shí)現(xiàn)姿態(tài)估計(jì)網(wǎng)絡(luò)架構(gòu)的輕量化??焖偃梭w姿態(tài)估計(jì)模型[38]將沙漏模塊的規(guī)??s小一半獲得快速姿態(tài)蒸餾模型,然后采用知識蒸餾的策略使原生級聯(lián)沙漏網(wǎng)絡(luò)來引導(dǎo)學(xué)生網(wǎng)絡(luò)進(jìn)行訓(xùn)練,最終得到的輕量級模型幾乎不損失精度。

2.2 多人姿態(tài)估計(jì)

多人姿態(tài)估計(jì)方法的基本策略按照對全局信息與局部信息執(zhí)行策略的順序不同被分成自頂而下和自底而上兩種模式,以及對兩種思想綜合利用的先上后下模式。

自頂而下的多人姿態(tài)估計(jì)模式借助已有多人目標(biāo)檢測方法對圖像多個人體區(qū)域進(jìn)行檢測和提取,之后再使用單人姿態(tài)估計(jì)方法對逐個人體檢測區(qū)域進(jìn)行關(guān)鍵點(diǎn)的識別和估計(jì)。因?yàn)槭孪冗M(jìn)行多人目標(biāo)檢測的原因,采用自頂而下模式的多人姿態(tài)估計(jì)網(wǎng)絡(luò)所得到的結(jié)果很大程度上避免了多人姿態(tài)估計(jì)結(jié)果的歧義性,但由于其在檢測后還要進(jìn)行多組單人姿態(tài)估計(jì),且受限于多人目標(biāo)檢測方法的時(shí)效性,采用自頂而下策略的多人姿態(tài)方法在實(shí)時(shí)性上仍尚需改進(jìn),其改進(jìn)策略多針對目標(biāo)檢測方法與姿態(tài)估計(jì)方法的匹配關(guān)系。

自底而上的多人姿態(tài)估計(jì)模式則是直接對圖像中所有人體姿態(tài)關(guān)鍵點(diǎn)進(jìn)行檢測和定位,再結(jié)合姿態(tài)關(guān)鍵點(diǎn)之間的先驗(yàn)關(guān)系,使用相關(guān)的算法對人體姿態(tài)關(guān)鍵點(diǎn)進(jìn)行篩選以及相互匹配,最終實(shí)現(xiàn)對多個人體的姿態(tài)估計(jì)。雖然自底而上的模式對所有關(guān)鍵點(diǎn)采取一次性提取的措施可以極大地提升多人姿態(tài)估計(jì)方法的時(shí)間效率,但是在對多組不同點(diǎn)中間進(jìn)行特征關(guān)鍵點(diǎn)匹配時(shí),多個相同種類的關(guān)鍵點(diǎn)間會對算法匹配造成很大的干擾。因此,如何降低相同關(guān)鍵點(diǎn)之間的干擾,并對不同種類的姿態(tài)關(guān)鍵點(diǎn)進(jìn)行最優(yōu)匹配是對自底而上的多人姿態(tài)估計(jì)方法進(jìn)行改進(jìn)與優(yōu)化的難點(diǎn)。

與自頂而下和自底而上的模式不同,先上后下的模式結(jié)合了當(dāng)前兩種多人姿態(tài)估計(jì)模式的特點(diǎn),先自底而上地對圖像進(jìn)行各關(guān)鍵點(diǎn)的特征位置提取,再采用自頂而下的方法對各個人體姿態(tài)估計(jì)進(jìn)行進(jìn)一步的組合與定位。這種采用人體目標(biāo)檢測與關(guān)鍵點(diǎn)提取對多人姿態(tài)聯(lián)合進(jìn)行估計(jì)的策略,可以有效提升最終的定位精確度。因此,如何對兩者進(jìn)行協(xié)調(diào)和結(jié)合是先上后下模式要解決的問題。

2.2.1 自頂而下方法

最初被用于多人姿態(tài)估計(jì)方法的多人目標(biāo)檢測模型為faster R-CNN[47]。Mask R-CNN[17]在其基礎(chǔ)上進(jìn)行檢測框回歸,并使用像素到像素對齊的方式對每個感興趣區(qū)域都增加一個像素級別的實(shí)例分割預(yù)測,在逐像素地獲得對應(yīng)的二進(jìn)制編碼掩膜后,便可對已有的目標(biāo)檢測對象進(jìn)行多人姿態(tài)估計(jì)。這種借助人體目標(biāo)檢測與實(shí)例化分割的姿態(tài)估計(jì)策略保證了多人場景姿態(tài)估計(jì)的準(zhǔn)確性,但對所檢測到的多個人體目標(biāo)進(jìn)行重復(fù)估計(jì)的方法占用了大量的空間資源,在追求高準(zhǔn)確率與高精度的同時(shí)一定程度上犧牲了檢測效率。

Mask R-CNN 的特征提取網(wǎng)絡(luò)為增大特征感受野,而聚合空間特征信息所采用的降采樣操作會影響網(wǎng)絡(luò)輸出的特征響應(yīng)熱力圖與輸入圖像之間的位置對應(yīng)關(guān)系并造成量化誤差。同樣以faster R-CNN作為人體目標(biāo)檢測器的G-RMI[22]人體姿態(tài)估計(jì),則運(yùn)用對關(guān)鍵點(diǎn)的坐標(biāo)定位信息與坐標(biāo)偏移量進(jìn)行結(jié)合的人體姿態(tài)估計(jì)方法。其對特征熱力圖通過雙線性插值方法將關(guān)鍵點(diǎn)間的坐標(biāo)短程偏移量(shortrange offset)與坐標(biāo)定位信息以霍夫投票的形式進(jìn)行高度化的特征局部激活。這種采用關(guān)鍵點(diǎn)位置響應(yīng)與偏移量的聚合方法明顯改善了特征下采樣操作所導(dǎo)致的量化誤差問題。

針對多人姿態(tài)估計(jì)中因遮擋或重疊導(dǎo)致的實(shí)際關(guān)鍵點(diǎn)不可見等問題,級聯(lián)金字塔網(wǎng)絡(luò)(Cascaded Pyramid Network,CPN)[18]通過應(yīng)對困難關(guān)鍵點(diǎn)的檢測定位進(jìn)行優(yōu)化處理。在利用多人目標(biāo)檢測器獲得檢測邊界框后,使用級聯(lián)的特征金字塔網(wǎng)絡(luò)對人體檢測邊界框內(nèi)的信息進(jìn)行關(guān)鍵點(diǎn)檢測。如圖6 所示,CPN 被分成對邊界框中人體圖像信息關(guān)鍵點(diǎn)進(jìn)行粗提取的特征金字塔全局網(wǎng)絡(luò)(GlobalNet),以及用于后續(xù)對不同層間關(guān)鍵點(diǎn)粗提取信息進(jìn)行特征融合后再對關(guān)鍵點(diǎn)綜合精確定位的優(yōu)化網(wǎng)絡(luò)(RefineNet)。對于特征可見的易分辨人體關(guān)鍵點(diǎn)可以通過GlobalNet 直接獲得,而對于因遮擋而不可見的或是因背景復(fù)雜而難以分辨的人體關(guān)鍵點(diǎn),則需要通過RefineNet 進(jìn)一步增大感受野來對GlobalNet定位誤差較大的關(guān)鍵點(diǎn)進(jìn)行修正。

圖6 級聯(lián)金字塔網(wǎng)絡(luò)模塊Fig.6 Module of cascaded pyramid network

多階金字塔網(wǎng)絡(luò)(Multi-Stage Pyramid Networks,MSPN)[19]則是對GlobalNet 進(jìn)行多級堆疊,得到的特征熱力圖金字塔融合了更多尺度特征,即通過加深網(wǎng)絡(luò)深度以擴(kuò)大粗提取階段的特征感受野,并不斷進(jìn)行多尺度特征融合對不同層間的特征信息加以關(guān)聯(lián)。層數(shù)較深的RefineNet 獲得的高層特征信息的感受野較大,可用來推斷不可見的困難關(guān)鍵點(diǎn),而通過多組級聯(lián)后加深的GlobalNet 所提取到的低層特征信息,不是僅對各關(guān)鍵點(diǎn)進(jìn)行粗提取,而是以其較高的分辨率以及較為豐富的多特征融合信息來精確地定位關(guān)鍵點(diǎn)。

然而級聯(lián)金字塔網(wǎng)絡(luò)只考慮采用不同尺度間的特征融合來提升網(wǎng)絡(luò)對困難關(guān)鍵點(diǎn)的檢測性能,并未對通道間的信息進(jìn)行關(guān)聯(lián)融合??臻g信息與增強(qiáng)通道(Enhanced Channel-Wise and Spatial Information,ECWSI)方法[48]以級聯(lián)金字塔網(wǎng)絡(luò)作為基礎(chǔ)網(wǎng)絡(luò)架構(gòu),為增強(qiáng)GlobalNet 各層之間特征圖像的跨通道關(guān)聯(lián),其先用尺寸為1 的卷積核將每層提取的特征維度升至256,再對這些特征連接并使用通道隨機(jī)重組的操作進(jìn)一步融合這些來自不同層級的特征,之后對融合后的特征信息依次進(jìn)行分組并再次映射到原始的特征維度,最終再次使用尺寸為1 的卷積核對融合各層特征的信息進(jìn)行聚合,獲得最終的表示結(jié)果。在學(xué)習(xí)空間位置特征的權(quán)重時(shí),與級聯(lián)金字塔網(wǎng)絡(luò)對目標(biāo)邊進(jìn)行邊界框的特征粗提取方式不同,其利用通道特征隨機(jī)重組的方式對人體目標(biāo)檢測結(jié)果的每個位置進(jìn)行學(xué)習(xí),最后的估計(jì)結(jié)果也較級聯(lián)金字塔網(wǎng)絡(luò)有所提高。

對于更為復(fù)雜的人群擁擠場景,由于人體之間的重疊密度過大,導(dǎo)致檢測器所獲得的定位區(qū)域內(nèi)含有其他人體關(guān)鍵點(diǎn)的信息,且所檢測到的人體姿態(tài)不如單人姿態(tài)估計(jì)規(guī)范,從而出現(xiàn)傾斜或者大范圍區(qū)域不可見的情況。為此,區(qū)間多人姿態(tài)估計(jì)(Regional Multi-Person Estimation,RMPE)方法[20]選用SSD(Single Shot MultiBox Detector)[51]為檢測器,級聯(lián)沙漏模塊為姿態(tài)估計(jì)網(wǎng)絡(luò)架構(gòu),構(gòu)成自頂而下的多人姿態(tài)估計(jì)模型AlphaPose。為解決多人關(guān)鍵點(diǎn)的匹配問題,其在獲得多人檢測結(jié)果后采取并行網(wǎng)絡(luò),并采用空間變換網(wǎng)絡(luò)(Spatial Transform Network,STN)[50]進(jìn)行正則化矯正以便獲得更精確的人體姿態(tài)估計(jì)結(jié)果。

同樣對人體目標(biāo)檢測器輸出的人體檢測結(jié)果進(jìn)行規(guī)范化處理,全局與局部規(guī)范化(Global and Local Normalization,GLN)[21]的優(yōu)化思路并非先對整個人體姿態(tài)圖像進(jìn)行空間信息規(guī)范化后再進(jìn)行關(guān)鍵點(diǎn)檢測,而是先通過簡單的全卷積神經(jīng)網(wǎng)絡(luò)對檢測到的各單人人體姿態(tài)圖像進(jìn)行初步的關(guān)鍵點(diǎn)定位,然后對人體朝向、軀干與四肢采用白化處理的方法進(jìn)行空間特征規(guī)范化處理,并再次使用全卷積神經(jīng)網(wǎng)絡(luò)對各關(guān)鍵點(diǎn)進(jìn)行定位上的微調(diào),進(jìn)而獲得精確的姿態(tài)估計(jì)結(jié)果。

2.2.2 自底而上方法

人體姿態(tài)關(guān)鍵點(diǎn)之間的連接可以被視為加權(quán)的圖模型,因此針對多人姿態(tài)估計(jì)問題,在通過特征提取網(wǎng)絡(luò)獲得所有的關(guān)鍵點(diǎn)響應(yīng)之后,可以采用圖優(yōu)化的方法完成各關(guān)鍵點(diǎn)間的匹配連接。文獻(xiàn)[23]構(gòu)建一種DeepCut 的多人姿態(tài)估計(jì)網(wǎng)絡(luò)架構(gòu),其采用自適應(yīng)的fast R-CNN,首先對人體關(guān)鍵點(diǎn)的局部候選區(qū)域進(jìn)行初步的特征提取,所有被提取檢測獲得的候選點(diǎn)都將被視為節(jié)點(diǎn),對提取到的所有候選點(diǎn)進(jìn)行全連接,然后將屬于同一人的節(jié)點(diǎn)歸為一類,對所檢測的節(jié)點(diǎn)標(biāo)記,確定其所屬關(guān)鍵點(diǎn)類別,通過對其連接權(quán)重采用整數(shù)線性規(guī)劃(Integer Linear Programming,ILP)進(jìn)行求解,最終將對應(yīng)的關(guān)鍵點(diǎn)聚類為人體姿態(tài),但采用目標(biāo)檢測器提取關(guān)鍵點(diǎn)策略和線性規(guī)劃的關(guān)鍵點(diǎn)連接優(yōu)化策略的計(jì)算復(fù)雜度非常大,導(dǎo)致DeepCut 實(shí)際處理人體姿態(tài)估計(jì)問題的速度過低。文獻(xiàn)[24]對文獻(xiàn)[23]方法進(jìn)行相應(yīng)改進(jìn)并提出DeeperCut 架構(gòu),其特征提取部分改用ResNet 進(jìn)行關(guān)鍵候選點(diǎn)提取,采用圖像成對匹配策略,通過候選點(diǎn)之間的歐式距離進(jìn)行判斷,將眾多相距過于接近的候選區(qū)域內(nèi)的節(jié)點(diǎn)進(jìn)行合并壓縮,減少了候選區(qū)節(jié)點(diǎn)的數(shù)量并有效提升了模型效率。

另外,采用目標(biāo)檢測器進(jìn)行關(guān)鍵點(diǎn)位置信息提取的還有姿態(tài)提名網(wǎng)絡(luò)(Pose Proposal Network,PPN)[34],其將YOLO(You Only Look Once)[51]與CPM 相結(jié)合,把姿態(tài)檢測定義為目標(biāo)檢測問題。PPN 將一幅人體關(guān)系復(fù)雜的圖像分解為多幅相對簡單的多人圖像,分別生成多人關(guān)鍵點(diǎn)匹配關(guān)系,實(shí)現(xiàn)了對視頻圖像的實(shí)時(shí)多人姿態(tài)估計(jì)。但通常圖像中人的數(shù)量、位置和尺度大小都是未知的,人與人之間的交互遮擋會影響檢測效果,且運(yùn)行時(shí)間隨著圖像中個體數(shù)量增加,很難做到實(shí)時(shí)檢測。

文獻(xiàn)[25]借鑒CPM 模塊,構(gòu)建OpenPose 并聯(lián)網(wǎng)絡(luò)架構(gòu)。首先運(yùn)用VGG 網(wǎng)絡(luò)對圖像進(jìn)行特征粗提取,以CPM 為基礎(chǔ)組成并聯(lián)網(wǎng)絡(luò)模塊,用以提取人體關(guān)鍵點(diǎn)位置特征與所定義關(guān)鍵點(diǎn)的連接特征。每組支路網(wǎng)絡(luò)分別進(jìn)行6 次網(wǎng)絡(luò)級聯(lián),獲得關(guān)鍵點(diǎn)定位信息的局部置信度圖(Part Confidence Maps,PCMs)以及關(guān)鍵點(diǎn)間關(guān)聯(lián)信息的局部親和域(Part Affinity Fields,PAFs)。然后根據(jù)候選關(guān)鍵點(diǎn)響應(yīng)值與對應(yīng)肢體連接向量采用匈牙利算法[52]進(jìn)行多組最優(yōu)二分圖匹配,選擇最小數(shù)量的邊來獲得人體姿態(tài)的骨架而非使用關(guān)鍵點(diǎn)的全連接圖,將匹配問題進(jìn)一步分解為多組二分匹配子問題,并獨(dú)立確定相鄰部位節(jié)點(diǎn)的匹配關(guān)系,最終獲得所有人體姿態(tài)估計(jì)的結(jié)果。

為防止多階段級聯(lián)所造成網(wǎng)絡(luò)訓(xùn)練中梯度誤差消失的情況,兩組支路都采取了中繼監(jiān)督的策略,在各階段的每個分支結(jié)尾,分別對所獲得的關(guān)鍵點(diǎn)響應(yīng)熱力圖和肢體連接關(guān)系響應(yīng)圖按類別進(jìn)行加權(quán)的歐氏距離誤差計(jì)算。此外,在進(jìn)行下一階段的特征提取之前,各支路前一階段的輸出結(jié)果需要與最初的粗提取特征圖以及同一階段另一支路輸出的特征圖進(jìn)行融合,豐富特征圖各尺度的信息。對于各關(guān)鍵點(diǎn)的PCMs 的標(biāo)注采用高斯函數(shù)作為掩膜,遇到同時(shí)被兩個相同關(guān)鍵點(diǎn)影響的情況則采用具有較大響應(yīng)值一方的策略;而對PAFs 標(biāo)注的設(shè)置則采用向量表示方法,距離信息用來表示關(guān)鍵點(diǎn)間的關(guān)聯(lián)程度,角度信息則表示估計(jì)結(jié)果與真實(shí)結(jié)果間的匹配程度。

后續(xù)相關(guān)的研究[53]針對OpenPose 的特征提取網(wǎng)絡(luò)模塊進(jìn)行調(diào)整優(yōu)化,將原有的并聯(lián)結(jié)構(gòu)改為先進(jìn)行對局部關(guān)聯(lián)特征的提取,再結(jié)合原始粗提取特征進(jìn)行關(guān)鍵點(diǎn)位置特征的提取。這種結(jié)構(gòu)有效地減少了原始并聯(lián)網(wǎng)絡(luò)中的多次特征融合,且因?yàn)橐琅f采用中繼監(jiān)督的策略,使得網(wǎng)絡(luò)由并聯(lián)到級聯(lián)的改動對于訓(xùn)練時(shí)的誤差反向傳播并未造成較大的影響。隨著圖像中人數(shù)的增加,OpenPose 會隨著人數(shù)的增加而呈線性增長,進(jìn)行級聯(lián)改進(jìn)后的算法運(yùn)行時(shí)間則隨著人數(shù)的增加基本保持不變。

為保證定位精度,文獻(xiàn)[36]提出PresonLab 方法,基于ResNet 對所有的人體姿態(tài)關(guān)鍵點(diǎn)進(jìn)行特征提取以及偏移量預(yù)測,引入中程偏移量來應(yīng)對實(shí)例間的特征關(guān)聯(lián)問題。文獻(xiàn)[26]則同時(shí)借鑒了OpenPose 中的PAFs 和描述關(guān)鍵點(diǎn)偏移信息的局部響應(yīng)強(qiáng)度(PIFs)。通過PIFs 獲得類似偏移信息的全部候選點(diǎn),并根據(jù)PAFs 獲得各候選點(diǎn)間的關(guān)聯(lián)信息,以高斯核函數(shù)代替G-RMI 中的雙線性插值方法,匹配獲得各人體的姿態(tài)估計(jì),進(jìn)一步提升關(guān)鍵點(diǎn)定位精度。

采用關(guān)鍵點(diǎn)偏移信息策略的單階段姿態(tài)模型(Single-stage Pose Model,SPM)[28]如圖7 所示。通過對級聯(lián)沙漏網(wǎng)絡(luò)進(jìn)行改進(jìn),獲得結(jié)構(gòu)化姿態(tài)表示模型并在此基礎(chǔ)上進(jìn)行特征信息提取,輸出的關(guān)鍵點(diǎn)特征僅包含一個人體基準(zhǔn)關(guān)鍵點(diǎn)的位置信息,該基準(zhǔn)點(diǎn)分別指向其余各關(guān)鍵點(diǎn)的偏移量。為避免個別關(guān)鍵點(diǎn)偏離基準(zhǔn)點(diǎn)過遠(yuǎn)而造成模型難以收斂,模型輸出進(jìn)行以下具體優(yōu)化:采用關(guān)鍵點(diǎn)分級策略,在類別位置相鄰最近的關(guān)鍵點(diǎn)間通過偏移量建立位置依賴并相互牽制。最終按約束構(gòu)建的多人姿態(tài)估計(jì)網(wǎng)絡(luò)因其關(guān)鍵點(diǎn)間形成多級制約提高了人體關(guān)鍵點(diǎn)的匹配準(zhǔn)確度。

圖7 SPM 網(wǎng)絡(luò)架構(gòu)Fig.7 Architecture of SPM network

除采用偏移量進(jìn)行個人姿態(tài)范圍的約束外,運(yùn)用類似分類網(wǎng)絡(luò)的編碼方式對同屬一個人體下的不同種類關(guān)鍵點(diǎn)進(jìn)行聚類的方法,能夠有效解決多人姿態(tài)估計(jì)中的關(guān)鍵點(diǎn)匹配問題,如圖8 所示。關(guān)聯(lián)編碼方法[27]也是采用級聯(lián)沙漏網(wǎng)絡(luò)提取特征信息獲得各個部位的關(guān)鍵候選點(diǎn),根據(jù)關(guān)聯(lián)信息嵌入方法,對各候選點(diǎn)都輸出一個嵌入式編碼標(biāo)簽,使同屬一人的關(guān)鍵點(diǎn)的嵌入式標(biāo)簽數(shù)值盡可能相近,不同人的盡可能不同,并將多人姿態(tài)估計(jì)問題轉(zhuǎn)化為對特定關(guān)鍵點(diǎn)的聚類問題。

圖8 Associative Embedding 網(wǎng)絡(luò)架構(gòu)Fig.8 Architecture of Associative Embedding network

2.2.3 先上后下方法

近年來,研究人員提出不依賴anchor-free 基準(zhǔn)框的目標(biāo)檢測理論并得到證實(shí)。不同于faster RCNN 等依賴anchor-based 目標(biāo)基準(zhǔn)框的目標(biāo)檢測方法,anchor-free 利用對圖像特征點(diǎn)的定位信息實(shí)現(xiàn)目標(biāo)檢測。對于人體姿態(tài)估計(jì)而言,人體的姿態(tài)關(guān)鍵點(diǎn)可被視為具有至少2 個邊緣點(diǎn)的特殊邊界框。因此,通過將姿態(tài)估計(jì)網(wǎng)絡(luò)的輸出附加到基于anchor-free 的目標(biāo)檢測網(wǎng)絡(luò),能夠更好地解決人體關(guān)鍵點(diǎn)定位任務(wù),即先自底而上后自頂而下的姿態(tài)估計(jì)策略,DirectPose[30]是一種端到端的關(guān)鍵點(diǎn)檢測框架,如圖9 所示。該框架可以直接把輸入圖像映射到所對應(yīng)的人體實(shí)例關(guān)鍵點(diǎn)上,既不依賴先驗(yàn)的人體檢測框,也不需將檢測到的關(guān)鍵候選點(diǎn)進(jìn)行分配,而是在目標(biāo)檢測算法FCOS(Fully Convolutional One-Stage)[54]的基礎(chǔ)上添加關(guān)鍵點(diǎn)對齊模塊,將特征熱力圖響應(yīng)與目標(biāo)關(guān)鍵點(diǎn)對齊,然后采用直接坐標(biāo)回歸的方法得到目標(biāo)關(guān)鍵點(diǎn)的坐標(biāo),最終獲得姿態(tài)估計(jì)結(jié)果。DirectPose 不依賴自頂而下中先驗(yàn)的人體目標(biāo)檢測框,且與自底而上中啟發(fā)式地將檢測到的關(guān)鍵點(diǎn)匹配到對應(yīng)的人體實(shí)例不同。該算法無需對特征響應(yīng)圖進(jìn)行預(yù)測而是直接對坐標(biāo)進(jìn)行回歸,這樣避免了使用特征響應(yīng)圖所帶來的固有編解碼偏差。

圖9 DirectPose 網(wǎng)絡(luò)架構(gòu)Fig.9 Architecture of DirectPose network

為了盡量解決通用的姿態(tài)估計(jì)網(wǎng)絡(luò)結(jié)構(gòu)因遮擋、人體之間接觸以及背景雜亂所導(dǎo)致的錯誤,進(jìn)一步提高多人姿態(tài)估計(jì)的精度和效果,文獻(xiàn)[29]對級聯(lián)沙漏模型的姿態(tài)估計(jì)網(wǎng)絡(luò)模塊進(jìn)行微調(diào),并引入關(guān)鍵點(diǎn)組合方法,獲得先上后下的組合模型(Deeply Learned Compositional Model,DLCM)。模型對自底而上的模式進(jìn)行調(diào)整,定義每個關(guān)鍵點(diǎn)為最低級部件,低級部件可以組合為高級部件,最終組合為一個個完整人體。首先對圖像進(jìn)行低級部件的初步提取,再依次迭代估計(jì)高級部件的特征信息,在進(jìn)行自頂而下過程中的低級部件的特征信息可以從高級部件信息中估計(jì)獲得,最終實(shí)現(xiàn)以高級部件為主的人體關(guān)鍵點(diǎn)關(guān)聯(lián)約束和以低級部件為主的關(guān)鍵點(diǎn)定位。

但是對低級部件組合為高級部件的行為不加以合理的約束會引發(fā)組合爆炸問題。DLCM 根據(jù)沙漏模型網(wǎng)絡(luò)的結(jié)構(gòu)提出一個五階段的卷積網(wǎng)絡(luò)模型,前三階段進(jìn)行自底而上的從低級部件到高級部件的特征復(fù)合,后兩個階段則是自頂而下地將獲得的高級部件特征還原為低級的關(guān)鍵點(diǎn)特征,同時(shí)進(jìn)行基于各級部件的中繼監(jiān)督。此外,在自頂而下的過程中,當(dāng)前部件的特征圖像將結(jié)合自底而上所生成的同級部件的特征圖像后再進(jìn)行下一階段的特征還原。自底而上的改進(jìn)過程有效地解決了關(guān)鍵點(diǎn)的誤匹配問題,且在中繼監(jiān)督中采用了類似OpenPose 中包含方向、尺度等信息的特征響應(yīng)熱力圖,其在應(yīng)對因遮擋等干擾情況時(shí)使得模型的姿態(tài)估計(jì)結(jié)果魯棒性更強(qiáng)。

3 相關(guān)研究方法對比與總結(jié)

縱觀二維人體姿態(tài)估計(jì)在深度學(xué)習(xí)領(lǐng)域從單人姿態(tài)估計(jì)到多人姿態(tài)估計(jì)的發(fā)展情況,在轉(zhuǎn)向多人姿態(tài)估計(jì)研究進(jìn)程中,其分化成自頂而下與自底而上兩大主流模式。前者推動了目標(biāo)檢測領(lǐng)域的發(fā)展,后者則推動新的匹配策略的出現(xiàn),而兩者結(jié)合又產(chǎn)生了先上后下的新姿態(tài)估計(jì)模式。

從改良人體姿態(tài)估計(jì)的方式來區(qū)分,又可分為對姿態(tài)估計(jì)網(wǎng)絡(luò)架構(gòu)的改進(jìn)與對網(wǎng)絡(luò)輸出特征的處理策略的設(shè)計(jì)。前者主要針對網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)的改進(jìn),致力于尋找最優(yōu)的網(wǎng)絡(luò)結(jié)構(gòu),不斷挖掘神經(jīng)網(wǎng)絡(luò)可發(fā)揮的潛能;后者則更加關(guān)注網(wǎng)絡(luò)的輸出表示,突破固有框架尋找能進(jìn)一步提升性能的經(jīng)驗(yàn)和技巧,而損失函數(shù)的選取也會影響到網(wǎng)絡(luò)的收斂性能。

3.1 網(wǎng)絡(luò)架構(gòu)設(shè)計(jì)

如表2 所示,二維人體姿態(tài)估計(jì)方法按姿態(tài)估計(jì)網(wǎng)絡(luò)架構(gòu)可分為以CPM 為主的多階段級聯(lián)式結(jié)構(gòu)、以SHN 為主的沙漏模塊級聯(lián)式結(jié)構(gòu)、以CPN 為主的兩段式結(jié)構(gòu)和以HRNet 為主的多分辨并聯(lián)結(jié)構(gòu)。

表2 經(jīng)典人體姿態(tài)估計(jì)網(wǎng)絡(luò)架構(gòu)對比Table 2 Comparison of canonical human pose estimation network architectures

CPM 衍生出諸如OpenPose 多人姿態(tài)估計(jì)的經(jīng)典方法,構(gòu)建了多階段級聯(lián)姿態(tài)估計(jì)網(wǎng)絡(luò)架構(gòu),PPN則將其與YOLO 相結(jié)合實(shí)現(xiàn)對高幀頻視頻的多人姿態(tài)估計(jì)。而有關(guān)沙漏模型的拓展研究則更多,無論是自頂而下模式中的單人姿態(tài)網(wǎng)絡(luò),還是自底而上模式中的主題網(wǎng)絡(luò)架構(gòu),或是用于知識蒸餾中的教師網(wǎng)絡(luò),除性能優(yōu)良外,其優(yōu)美的設(shè)計(jì)結(jié)構(gòu)也獲得業(yè)界的承認(rèn),類似情況還有目標(biāo)檢測領(lǐng)域的YOLO 和語義分割領(lǐng)域的U-Net。

CPN 特征金字塔架構(gòu)的兩段網(wǎng)絡(luò)結(jié)構(gòu)分別對應(yīng)自頂而下模式中的目標(biāo)檢測和姿態(tài)估計(jì),如MSPN和ECWSI,前者是將前端的特征提取結(jié)構(gòu)GlobalNet進(jìn)行多階段堆疊,提高了檢測精度,后者則在CPN 上添加注意力機(jī)制模塊,實(shí)現(xiàn)了多尺度特征融合的均衡化。而HRNet 的多分辨網(wǎng)絡(luò)并聯(lián)結(jié)構(gòu)則避免了之前網(wǎng)絡(luò)結(jié)構(gòu)中頻繁使用采樣和池化導(dǎo)致尺度信息改變而造成的量化誤差。

3.2 特征處理的輸出表示

如表3 所示,人體姿態(tài)估計(jì)方法可按輸出結(jié)果分為坐標(biāo)回歸輸出表示、特征熱力圖輸出表示和特征熱力圖及其他信息的輸出表示。

表3 人體姿態(tài)估計(jì)輸出特征對比Table 3 Comparison of human pose estimation output features

直接坐標(biāo)回歸輸出表示是最直觀的一種思路,最初將深度學(xué)習(xí)方法用于人體姿態(tài)估計(jì)的DeepPose 便是使網(wǎng)絡(luò)通過有監(jiān)督的訓(xùn)練回歸獲得關(guān)鍵點(diǎn)坐標(biāo)。但由于直接訓(xùn)練所得的關(guān)鍵點(diǎn)回歸網(wǎng)絡(luò)其泛化能力較差,直到DirectPose 在坐標(biāo)回歸方法中引入關(guān)鍵點(diǎn)對齊機(jī)制前,特征熱力圖的表示方式才逐漸占據(jù)主流。CPM 將多階段特征熱力圖通過融合獲得各關(guān)鍵點(diǎn)的特征熱圖。其后的沙漏模塊、CPN 等網(wǎng)絡(luò)結(jié)構(gòu)均采取相同的方法。在評估損失時(shí)其對估計(jì)結(jié)果保證了一定柔性,使得網(wǎng)絡(luò)的泛化性能提高。

而在特征熱力圖的基礎(chǔ)上同時(shí)生成向量場嵌入信息則需要在一定程度上擴(kuò)大網(wǎng)絡(luò)結(jié)構(gòu),OpenPose和PifPaf 中的PAFs 便是通過多階段神經(jīng)網(wǎng)絡(luò)提取出各關(guān)鍵點(diǎn)間關(guān)系向量,類似的還有生成人體關(guān)聯(lián)編碼標(biāo)簽的Associative Embedding 方法。

姿態(tài)網(wǎng)絡(luò)基本以人體的各個關(guān)節(jié)點(diǎn)特征提取為主,DLCM 將姿態(tài)估計(jì)網(wǎng)絡(luò)提取到的粗略關(guān)鍵點(diǎn)估計(jì)結(jié)果進(jìn)行多次迭代提取高階部件信息,通過部件關(guān)聯(lián)輔助其所有關(guān)鍵點(diǎn)的定位。SPM 是獲得各人體的基準(zhǔn)關(guān)鍵點(diǎn)和基準(zhǔn)點(diǎn)與其他關(guān)鍵點(diǎn)的偏移信息來表示人體姿態(tài),而G-RMI 則是引入偏移信息來輔助關(guān)鍵點(diǎn)進(jìn)行精確定位。

3.3 損失函數(shù)選取

損失函數(shù)用于評估預(yù)測值與真實(shí)值之間的差異,能對模型進(jìn)行有效的指導(dǎo)。二維人體姿態(tài)估計(jì)損失函數(shù)的裁定與設(shè)計(jì)需要參考姿態(tài)估計(jì)方法所采用的網(wǎng)絡(luò)結(jié)構(gòu)和預(yù)測結(jié)果,如表4 所示。

表4 不同策略中損失函數(shù)的選取Table 4 Selection of loss function in different strategies

人體姿態(tài)估計(jì)方法按網(wǎng)絡(luò)結(jié)構(gòu)大致可分為單階段與多階段。其中單階段結(jié)構(gòu)的損失函數(shù)僅需對網(wǎng)絡(luò)最終輸出計(jì)算一次便可評估模型,而多階段由于網(wǎng)絡(luò)的不斷加深,若僅對網(wǎng)絡(luò)最終結(jié)果的輸出計(jì)算損失,則因網(wǎng)絡(luò)過深導(dǎo)致的梯度消失問題會使網(wǎng)絡(luò)參數(shù)更新停滯。而在各網(wǎng)絡(luò)階段添加合適的損失函數(shù)可有效緩解該問題,即引入損失函數(shù)對網(wǎng)絡(luò)的中繼監(jiān)督策略。多階段結(jié)構(gòu)姿態(tài)估計(jì)的中繼監(jiān)督損失函數(shù)計(jì)算如式(1)所示:

其中,k是關(guān)鍵點(diǎn)種類數(shù),P是預(yù)測候選點(diǎn)數(shù),T是網(wǎng)絡(luò)結(jié)構(gòu)階段數(shù),y為網(wǎng)絡(luò)輸入樣本x的真實(shí)標(biāo)簽,ψ(·)為網(wǎng)絡(luò)模型,θ為模型相關(guān)參數(shù)。

姿態(tài)估計(jì)方法按輸出預(yù)測結(jié)果可分為回歸坐標(biāo)方式、回歸特征熱力圖方式和回歸特征熱力圖及其他信息的方式?;貧w模型的損失函數(shù)以均方誤差函數(shù)為主,而坐標(biāo)和特征熱力圖在本質(zhì)上輸出的是關(guān)鍵點(diǎn)位置信息,當(dāng)正負(fù)樣本信息均衡時(shí),誤差信息一般多以L2 范數(shù)的形式表示。

此外,在線困難關(guān)鍵點(diǎn)挖掘[55]是針對樣本中的困難關(guān)鍵點(diǎn)進(jìn)行監(jiān)督而不再是所有的關(guān)鍵點(diǎn),其在CPN 等網(wǎng)絡(luò)的訓(xùn)練過程中均被采用。Focal Loss[56]則是為了解決數(shù)據(jù)集中正負(fù)樣本比例嚴(yán)重失衡的問題,其主要是在針對擁擠人群情況下被采用。

4 評測標(biāo)準(zhǔn)

早期數(shù)據(jù)集LSP 和FLIC 主要是對部分肢體關(guān)鍵點(diǎn)進(jìn)行標(biāo)注,故而最早的度量評價(jià)指標(biāo)PCP(Percentage of Correctly estimated body Parts)[57]是依據(jù)肢體的標(biāo)注長度進(jìn)行,如式(2)所示:

如果關(guān)鍵點(diǎn)i的預(yù)測位置與真實(shí)位置間的歐式距離di小于標(biāo)準(zhǔn)肢體長度Lnorm的一定比例k(通常為0.5),則判定預(yù)測準(zhǔn)確(通常表示為PCP@0.5)。PCP用以劃定肢體關(guān)鍵點(diǎn)檢測的閾值,值越高,模型對關(guān)鍵點(diǎn)的定位效果越好。由此改進(jìn)的PDJ(Percentage of Detected Joints)規(guī)定,關(guān)鍵點(diǎn)的預(yù)測位置與真實(shí)位置間的距離小于軀干對角點(diǎn)的長度Ldiag的一定比例,則判定預(yù)測準(zhǔn)確。

MPII定義的PCK(Percentage of Correct Keypoints)規(guī)定,將關(guān)鍵點(diǎn)的預(yù)測位置與真實(shí)位置間的距離小于頭部長度Lhead作為歸一化參考,稱為PCKh,如式(3)所示:

隨著多人姿態(tài)數(shù)據(jù)集的普及,尤其是MSCOCO發(fā)布后,一系列以固定閾值作為判定依據(jù)的評測標(biāo)準(zhǔn)不再適用于對同一幅圖中的人體尺度差異較大的情況。因此,MSCOCO 設(shè)計(jì)了測評標(biāo)準(zhǔn)目標(biāo)關(guān)鍵點(diǎn)相似度(Object Keypoint Similarity,OKS),其定義如式(4)所示:

其中,di是關(guān)鍵點(diǎn)檢測位置與標(biāo)注位置之間的歐式距離,vi>0 代表關(guān)鍵點(diǎn)i在圖上被標(biāo)注,s是尺度參數(shù),ki是控制各關(guān)鍵點(diǎn)響應(yīng)衰減程度的超參數(shù)。

按照不同尺度對人體目標(biāo)中各類關(guān)鍵點(diǎn)進(jìn)行高斯分布,分別定義標(biāo)準(zhǔn)化的閾值評測標(biāo)準(zhǔn)并設(shè)計(jì)目標(biāo)關(guān)鍵點(diǎn)相似度,使用不同的精度閾值來補(bǔ)償關(guān)鍵點(diǎn)的定位信息。

上述兩種有關(guān)人體姿態(tài)估計(jì)的評測標(biāo)準(zhǔn)都針對關(guān)鍵點(diǎn)的歐式距離誤差,其中PCK 更注重建立固定的歸一化閾值標(biāo)準(zhǔn),而OKS 對不同尺度目標(biāo)的相同關(guān)鍵點(diǎn)進(jìn)行歸一化處理。表5 和表6 為不同人體姿態(tài)估計(jì)方法在相關(guān)數(shù)據(jù)集上的測評結(jié)果,其中,“—”表示沒有官方數(shù)據(jù)。

表5 單人姿態(tài)估計(jì)方法在LSP、FLIC 和MPII 數(shù)據(jù)集上的測試結(jié)果Table 5 The test result of single-human pose estimation method on LSP,F(xiàn)LIC and MPII dataset %

表6 多人姿態(tài)估計(jì)方法在MPII 和MSCOCO 數(shù)據(jù)集上的測試結(jié)果Table 6 The test result of multi-human pose estimation method on MPII and MSCOCO dataset

5 發(fā)展與展望

近年來隨著深度學(xué)習(xí)的發(fā)展,國內(nèi)外有關(guān)安防監(jiān)控、醫(yī)療康復(fù)、自動駕駛等應(yīng)用技術(shù)得到廣泛應(yīng)用,一方面推動了二維人體姿態(tài)估計(jì)在深度學(xué)習(xí)領(lǐng)域的創(chuàng)新,另一方面對算法的計(jì)算效能和結(jié)果的預(yù)測精度提出了更高的要求[58]。

1)網(wǎng)絡(luò)模型優(yōu)化

有關(guān)人體姿態(tài)估計(jì)相關(guān)算法的網(wǎng)絡(luò)模型的優(yōu)化將是未來關(guān)于該主題下實(shí)現(xiàn)更少模型參數(shù)的研究方向。原有的網(wǎng)絡(luò)架構(gòu)將隨著模型壓縮,如量化剪枝、知識蒸餾等技術(shù)的應(yīng)用而得到改善[59],隨著NAS(Neural Architecture Search)[60]的提出,以先驗(yàn)知識結(jié)合神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)搜索的技術(shù)將使設(shè)計(jì)架構(gòu)更加自動便利。

2)算法策略創(chuàng)新

遵循自頂而下模式的人體姿態(tài)估計(jì)方法由于過于依賴人體目標(biāo)檢測器的性能和效率,其時(shí)效性略遜于自底而上模式下的人體姿態(tài)估計(jì)方法。而諸如OpenPose 和PifPaf 引入復(fù)合場概念,其設(shè)計(jì)思路更具可解釋性,故而更符合與卷積神經(jīng)網(wǎng)絡(luò)相結(jié)合。在高維向量基礎(chǔ)上預(yù)測人體姿態(tài),設(shè)計(jì)保持期望一致性的關(guān)聯(lián)得分公式,再加之有效的匹配策略,將能夠彌補(bǔ)自底而上模式中人體姿態(tài)估計(jì)精度較低的不足,進(jìn)而提升實(shí)時(shí)的高精度人體姿態(tài)估計(jì)效果。

3)三維姿態(tài)估計(jì)

基于深度學(xué)習(xí)的二維人體姿態(tài)估計(jì)的研究是許多三維人體姿態(tài)估計(jì)研究的鋪墊,其中的人體關(guān)鍵點(diǎn)定位技術(shù)也是三維人體重建的必備技術(shù)。而且目前部分三維人體姿態(tài)估計(jì)依然借鑒了二維人體姿態(tài)估計(jì)的網(wǎng)絡(luò)架構(gòu)及研究思想,如文獻(xiàn)[61]中的網(wǎng)絡(luò)架構(gòu)就是基于級聯(lián)沙漏網(wǎng)絡(luò)進(jìn)行的改進(jìn)。

4)無監(jiān)督訓(xùn)練

近年來采用無監(jiān)督的方式處理二維人體姿態(tài)問題[62]的方法隨著相關(guān)技術(shù)的發(fā)展成為一種新趨勢。因?yàn)槿梭w姿態(tài)可以看成圖像中的特征簇,其視覺連通性具備高維空間獨(dú)立性。若加上光流等輔助信息,則可以通過大量無標(biāo)簽的圖像構(gòu)建人體部件的特征、部件到整體的特征以及人體運(yùn)動的時(shí)序特征,這將是一種解決人體姿態(tài)估計(jì)任務(wù)的新方案。

5)剛體姿態(tài)估計(jì)

基于深度神經(jīng)網(wǎng)絡(luò)的二維圖像人體姿態(tài)估計(jì),要求網(wǎng)絡(luò)所學(xué)到的人體姿態(tài)應(yīng)滿足模型的幾何約束,其本質(zhì)上是一個對高維特征空間的非線性流形學(xué)習(xí)過程。深度神經(jīng)網(wǎng)絡(luò)是一個代數(shù)計(jì)算系統(tǒng),既然可以獲取諸如人體關(guān)鍵點(diǎn)的內(nèi)部關(guān)聯(lián)以及高階耦合的幾何特征等人體復(fù)雜信息,那么對于一些特定剛體部件的關(guān)鍵點(diǎn)定位與姿態(tài)估計(jì)也將在相應(yīng)網(wǎng)絡(luò)與算法中實(shí)現(xiàn)。而海量的剛體姿態(tài)處理需求則能夠推動姿態(tài)估計(jì)相關(guān)研究的發(fā)展與革新。

6 結(jié)束語

基于深度學(xué)習(xí)的二維人體姿態(tài)估計(jì)通過深度卷積神經(jīng)網(wǎng)絡(luò)獲得姿態(tài)關(guān)鍵點(diǎn)局部特征信息,并根據(jù)具體情況選擇合適的關(guān)鍵點(diǎn)特征處理策略進(jìn)行相應(yīng)的特征聚合與特征匹配,實(shí)現(xiàn)對人體特征關(guān)鍵點(diǎn)的定位與姿態(tài)估計(jì)。本文對基于深度學(xué)習(xí)的二維人體姿態(tài)估計(jì)研究進(jìn)展進(jìn)行綜述,分類與評估相關(guān)姿態(tài)估計(jì)方法,并從網(wǎng)絡(luò)架構(gòu)設(shè)計(jì)、輸出特征處理以及損失函數(shù)選取方面進(jìn)行比較與分析。分析結(jié)果表明,卷積神經(jīng)網(wǎng)絡(luò)提取到的人體姿態(tài)特征對于局部定位具有很高的預(yù)測精度,結(jié)合多尺度特征融合方法并在訓(xùn)練過程中引入中繼監(jiān)督策略能夠增加對人體姿態(tài)估計(jì)結(jié)果的整體預(yù)測精度,進(jìn)一步提升模型的魯棒性。多人姿態(tài)估計(jì)通過構(gòu)建合適的特征提取模型與相應(yīng)的特征分配方法,對定位精度與估計(jì)效率進(jìn)行權(quán)衡,而在對多尺度姿態(tài)特征的提取保持高精準(zhǔn)度的同時(shí),穩(wěn)步提升姿態(tài)估計(jì)的檢測效率成為基于深度學(xué)習(xí)的二維人體姿態(tài)估計(jì)在后續(xù)研究中的主要發(fā)展方向,而網(wǎng)絡(luò)模型優(yōu)化、無監(jiān)督學(xué)習(xí)的研究發(fā)展也將對二維人體姿態(tài)估計(jì)從實(shí)驗(yàn)研究到應(yīng)用實(shí)現(xiàn)起到重要的推動作用。

猜你喜歡
級聯(lián)關(guān)鍵點(diǎn)姿態(tài)
聚焦金屬關(guān)鍵點(diǎn)
肉兔育肥抓好七個關(guān)鍵點(diǎn)
攀爬的姿態(tài)
全新一代宋的新姿態(tài)
汽車觀察(2018年9期)2018-10-23 05:46:40
跑與走的姿態(tài)
中國自行車(2018年8期)2018-09-26 06:53:44
級聯(lián)LDPC碼的STBC-OFDM系統(tǒng)
電子制作(2016年15期)2017-01-15 13:39:09
基于級聯(lián)MUSIC的面陣中的二維DOA估計(jì)算法
醫(yī)聯(lián)體要把握三個關(guān)鍵點(diǎn)
LCL濾波器在6kV級聯(lián)STATCOM中的應(yīng)用
電測與儀表(2014年1期)2014-04-04 12:00:34
H橋級聯(lián)型STATCOM的控制策略研究
電測與儀表(2014年1期)2014-04-04 12:00:28
呼伦贝尔市| 惠水县| 崇州市| 望城县| 江都市| 阿拉善右旗| 唐海县| 普安县| 丹阳市| 沅江市| 探索| 正阳县| 长阳| 宜城市| 宜兰县| 长兴县| 星子县| 鄂州市| 平湖市| 梨树县| 松阳县| 大宁县| 通道| 岗巴县| 信阳市| 濮阳县| 连云港市| 黄浦区| 镶黄旗| 井研县| 依安县| 宁陕县| 平度市| 巨鹿县| 安义县| 拉萨市| 昌黎县| 连城县| 上思县| 临沧市| 北海市|