楊彬,李和平,曾慧,*
(1.北京科技大學(xué) 自動(dòng)化學(xué)院,北京100083; 2.北京市工業(yè)波譜成像工程技術(shù)研究中心,北京100083;3.中國(guó)科學(xué)院自動(dòng)化研究所,北京100190)
人體姿態(tài)估計(jì)是指還原給定圖片或者視頻中人體關(guān)節(jié)點(diǎn)位置的過(guò)程,其對(duì)于描述人體姿態(tài),預(yù)測(cè)人體行為起到至關(guān)重要的作用。近年來(lái),隨著深度學(xué)習(xí)技術(shù)的發(fā)展,人體姿態(tài)估計(jì)越來(lái)越廣泛地運(yùn)用到計(jì)算機(jī)視覺(jué)的各個(gè)領(lǐng)域之中,例如人機(jī)交互、行為識(shí)別以及智能監(jiān)控等等。現(xiàn)如今,二維人體姿態(tài)估計(jì)算法的日漸成熟,三維的人體姿態(tài)估計(jì)開(kāi)始受到更多研究者的關(guān)注,其在二維姿態(tài)估計(jì)的基礎(chǔ)上加入了深度信息,這也進(jìn)一步擴(kuò)大了姿態(tài)估計(jì)的應(yīng)用場(chǎng)景。早期的研究過(guò)多關(guān)注于利用人體的幾何約束為主要特征來(lái)估計(jì)三維人體姿態(tài)[1-3],例如使用梯度方向直方圖以及層次物體識(shí)別模型提取特征來(lái)對(duì)三維姿態(tài)進(jìn)行預(yù)測(cè),這種方法保證了輸出結(jié)果的合理性,不過(guò)由于不同個(gè)體之間存在差異,往往難以獲得精確的結(jié)果。當(dāng)前的研究算法大多通過(guò)單幅RGB圖像[4-8]以及利用已知二維姿態(tài)方法[9-15]來(lái)恢復(fù)人體的三維姿態(tài),前者將姿態(tài)估計(jì)由回歸問(wèn)題轉(zhuǎn)化為在離散空間中定位關(guān)節(jié)點(diǎn)位置的問(wèn)題,取得了不錯(cuò)的效果,但其一定程度上會(huì)因遮擋等環(huán)境因素而導(dǎo)致檢測(cè)性能下降。使用二維姿態(tài)恢復(fù)的方法則是尋找由二維關(guān)節(jié)點(diǎn)向三維空間的映射[16-17],這種方法相比其他方法更為直接,且最終的檢測(cè)結(jié)果往往依賴(lài)于二維關(guān)節(jié)點(diǎn)坐標(biāo)是否精確。
以上研究算法大多建立在對(duì)單幀圖像進(jìn)行分析的基礎(chǔ)上,而現(xiàn)實(shí)生活中更多的數(shù)據(jù)源來(lái)自于視頻輸入,視頻作為多幀連續(xù)圖像的組合,包含了更為復(fù)雜的時(shí)序信息。而基于單幀圖像進(jìn)行估計(jì)一定程度上會(huì)導(dǎo)致相鄰幀的檢測(cè)結(jié)果存在巨大差異,因此,基于視頻的三維人體姿態(tài)估計(jì)比單幀圖像檢測(cè)具有更大的挑戰(zhàn)。在時(shí)序分析領(lǐng)域,循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)一直因其善于處理序列化數(shù)據(jù)而有著廣泛地應(yīng)用,英國(guó)著名的人工智能公司Deep Mind于2016年提出的WaveNet[18]通用模型證明一維的卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)同樣對(duì)序列化數(shù)據(jù)特征有著良好的提取能力,另外與RNN相比不容易受到梯度消失和爆炸的影響而且有著更為簡(jiǎn)單的網(wǎng)絡(luò)結(jié)構(gòu)。因此以一維卷積為基礎(chǔ)設(shè)計(jì)深層網(wǎng)絡(luò)來(lái)挖掘分析視頻中的時(shí)序信息可能會(huì)具有更加突出的作用。
本文受到上述啟發(fā),構(gòu)建了一種以視頻中人體二維關(guān)節(jié)點(diǎn)坐標(biāo)作為輸入恢復(fù)得到三維人體姿態(tài)的算法,主要貢獻(xiàn)概括如下:基于一維卷積對(duì)時(shí)序信息的提取能力,設(shè)計(jì)了一種高效網(wǎng)絡(luò),對(duì)視頻中的三維人體姿態(tài)實(shí)現(xiàn)了準(zhǔn)確的估計(jì)。深入研究視頻相鄰幀之間視覺(jué)信息的連續(xù)性,提出了一種新的損失函數(shù),改進(jìn)姿態(tài)估計(jì)結(jié)果的平滑性和有效性。最后在特定數(shù)據(jù)集上進(jìn)行試驗(yàn)并對(duì)比分析,充分驗(yàn)證了本文方法對(duì)視頻中的三維人體姿態(tài)估計(jì)的有效性,研究成果也為一些實(shí)際應(yīng)用提供了技術(shù)支持。
直覺(jué)上,二維關(guān)節(jié)點(diǎn)坐標(biāo)向三維空間的映射可能會(huì)因缺少深度信息而導(dǎo)致錯(cuò)誤姿態(tài),不過(guò)Martinez等[16]提出的基準(zhǔn)方法證明了使用網(wǎng)絡(luò)實(shí)現(xiàn)二維關(guān)節(jié)點(diǎn)恢復(fù)三維姿態(tài)是完全可行的,網(wǎng)絡(luò)能夠很好地依據(jù)關(guān)節(jié)相對(duì)位置來(lái)預(yù)測(cè)深度信息和連接關(guān)系。因此本文設(shè)計(jì)了一種以連續(xù)二維關(guān)節(jié)點(diǎn)坐標(biāo)序列為輸入恢復(fù)視頻相關(guān)三維人體姿態(tài)的方法,如圖1所示。二維關(guān)節(jié)點(diǎn)坐標(biāo)直接由數(shù)據(jù)集的標(biāo)注得到,除此之外,還可以通過(guò)將單幀圖像送入二維姿態(tài)檢測(cè)器得到人體二維關(guān)節(jié)點(diǎn)坐標(biāo),本文方法可以與目前許多高精度二維姿態(tài)檢測(cè)器相結(jié)合,實(shí)現(xiàn)對(duì)于任意圖像或視頻輸入,都能夠準(zhǔn)確恢復(fù)人體的三維姿態(tài)。之后對(duì)得到的二維關(guān)節(jié)點(diǎn)坐標(biāo)序列進(jìn)行歸一化處理,加快網(wǎng)絡(luò)收斂速度。最后將處理過(guò)的序列數(shù)據(jù)送入三維姿態(tài)估計(jì)網(wǎng)絡(luò),訓(xùn)練時(shí)網(wǎng)絡(luò)會(huì)生成與序列數(shù)據(jù)相同數(shù)目的姿態(tài),測(cè)試時(shí)本文只取中間一幀的姿態(tài)作為輸出,因此輸入二維關(guān)節(jié)點(diǎn)坐標(biāo)序列的數(shù)目應(yīng)為奇數(shù)。
圖1 三維姿態(tài)生成過(guò)程Fig.1 Generation process of three-dimensional pose
三維姿態(tài)估計(jì)網(wǎng)絡(luò)主要由4個(gè)具有相同結(jié)構(gòu)的殘差網(wǎng)絡(luò)模塊進(jìn)行串聯(lián)組成,除輸入輸出外,第一層的3×1卷積和最后一層的1×1卷積分別用于將輸入維度進(jìn)行擴(kuò)展以增加網(wǎng)絡(luò)寬度和將維度降至輸出維度。殘差網(wǎng)絡(luò)模塊由卷積層、Batch-Normal(BN)層、ReLU層以及殘差連接組成。
1)卷積層。殘差網(wǎng)絡(luò)模塊在卷積層主要使用3×1的一維卷積和卷積核大小為1×1的點(diǎn)卷積,一維卷積通過(guò)卷積核的滑動(dòng)來(lái)提取時(shí)間序列上的信息,點(diǎn)卷積主要用于改變特征的維度以此來(lái)對(duì)同維度的特征進(jìn)行信息融合。
2)BN層。神經(jīng)網(wǎng)絡(luò)各層的輸出由于經(jīng)過(guò)層內(nèi)操作,其數(shù)據(jù)分布顯然會(huì)與對(duì)應(yīng)層的輸入不同,并且差異會(huì)隨著網(wǎng)絡(luò)層的堆疊而逐漸增大,而B(niǎo)N層主要用于對(duì)每層的輸入進(jìn)行規(guī)范化,用于解決數(shù)據(jù)分布不均而導(dǎo)致的訓(xùn)練深層網(wǎng)絡(luò)模型困難的問(wèn)題。BN層一定程度上起到了正則化的作用,使得訓(xùn)練過(guò)程中能夠使用較高的學(xué)習(xí)速率,更加隨意的對(duì)參數(shù)進(jìn)行初始化,加快訓(xùn)練速度,提高網(wǎng)絡(luò)的泛化性能。
3)ReLU層。ReLU層是一個(gè)非線(xiàn)性的激活單元,主要用于增加網(wǎng)絡(luò)的非線(xiàn)性特征,其單側(cè)抑制特性使得一部分神經(jīng)元的輸出為0,增加稀疏性,減少了參數(shù)間的相互依存關(guān)系,緩解了過(guò)擬合問(wèn)題的發(fā)生。
4)網(wǎng)絡(luò)還借鑒了ResNet[19]網(wǎng)絡(luò)結(jié)構(gòu)中殘差連接的思想,將輸出表述為輸入和輸入的一個(gè)非線(xiàn)性變換的線(xiàn)性疊加,使得各個(gè)層級(jí)提取到的特征可以隨意進(jìn)行組合,保證特征在網(wǎng)絡(luò)中的傳遞,三維姿態(tài)估計(jì)網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。
對(duì)網(wǎng)絡(luò)的設(shè)計(jì)不僅要求模型結(jié)構(gòu)有著良好的性能,還要考慮實(shí)際應(yīng)用中網(wǎng)絡(luò)運(yùn)行所需要的存儲(chǔ)空間以及計(jì)算資源。網(wǎng)絡(luò)模型的空間復(fù)雜度主要指的是參數(shù)的個(gè)數(shù),其中ReLU層作為激活單元并沒(méi)有需要學(xué)習(xí)的參數(shù),單個(gè)BatchNormal層也僅有2個(gè)可以學(xué)習(xí)的參數(shù),因此網(wǎng)絡(luò)模型占用的空間大小近似等于所有卷積層的參數(shù)量之和,網(wǎng)絡(luò)模型的時(shí)間復(fù)雜度主要通過(guò)浮點(diǎn)運(yùn)算次數(shù)(FLoating-Point Operations,F(xiàn)LOPs)來(lái)衡量。使用連續(xù)9幀圖像中人體關(guān)節(jié)點(diǎn)二維坐標(biāo)為輸入,計(jì)算不同數(shù)目的殘差模塊對(duì)于參數(shù)個(gè)數(shù)以及計(jì)算資源的消耗,并比較最終的測(cè)試誤差。
由表1可得,在4個(gè)殘差模塊的使用下得到了最優(yōu)結(jié)果,此后隨著網(wǎng)絡(luò)的進(jìn)一步加深,出現(xiàn)了過(guò)擬合現(xiàn)象,平均測(cè)試誤差開(kāi)始增加,后續(xù)實(shí)驗(yàn)也采用4個(gè)殘差模塊的網(wǎng)絡(luò)結(jié)構(gòu)與其他方法進(jìn)行對(duì)比分析。本文設(shè)計(jì)的輕量級(jí)網(wǎng)絡(luò)模型實(shí)現(xiàn)了對(duì)三維人體姿態(tài)準(zhǔn)確高效的估計(jì),在有效減少參數(shù)的同時(shí)也具有極快的處理速度,能夠更好地應(yīng)用在各種硬件設(shè)備中。
圖2 三維姿態(tài)重建網(wǎng)絡(luò)結(jié)構(gòu)Fig.2 Three-dimensional pose reconstruction network structure
表1 網(wǎng)絡(luò)模型參數(shù)量Table 1 Par ameter number of networ k model
本文網(wǎng)絡(luò)主要是利用已有的數(shù)據(jù),取連續(xù)幀的二維關(guān)節(jié)點(diǎn)坐標(biāo)作為輸入,對(duì)人體關(guān)節(jié)點(diǎn)坐標(biāo)從二維到三維空間的映射進(jìn)行有監(jiān)督學(xué)習(xí)并最終輸出人體三維關(guān)節(jié)點(diǎn)的坐標(biāo),其本質(zhì)上是一個(gè)回歸問(wèn)題。網(wǎng)絡(luò)優(yōu)化的目標(biāo)是使得預(yù)測(cè)得到的三維關(guān)節(jié)點(diǎn)的坐標(biāo)與真值之間的差值最小,因此首先定義姿態(tài)距離(Pose Distance,PD)的損失函數(shù):
式中:T為同時(shí)輸入網(wǎng)絡(luò)連續(xù)幀關(guān)節(jié)點(diǎn)的數(shù)目;N為人體關(guān)節(jié)點(diǎn)的數(shù)目,在實(shí)驗(yàn)中N=17表示Euclidean范數(shù),通過(guò)使用預(yù)測(cè)值與真值的歐氏距離作為衡量關(guān)節(jié)點(diǎn)之間差異的標(biāo)準(zhǔn);(pred)和(gt)分別表示輸入第t幀圖像中第i個(gè)關(guān)節(jié)點(diǎn)的三維坐標(biāo)預(yù)測(cè)值和真實(shí)值。
視頻數(shù)據(jù)承載的信息不僅僅存在于單幀圖像中,其更多的語(yǔ)義信息會(huì)通過(guò)連續(xù)幀來(lái)表達(dá),而傳統(tǒng)的視頻姿態(tài)估計(jì)算法大多基于單幀圖像,然后將結(jié)果整合為視頻輸出,無(wú)法充分利用視頻的時(shí)空結(jié)構(gòu)特性,往往存在輸出不連續(xù)等問(wèn)題。本文隨機(jī)選取任意視頻序列進(jìn)行分析,并通過(guò)計(jì)算兩個(gè)姿態(tài)間各個(gè)關(guān)節(jié)點(diǎn)之間的歐氏距離之和作為姿態(tài)差異,將實(shí)驗(yàn)結(jié)果取平均,根據(jù)圖3可以得出同一視頻段中姿態(tài)差異隨序列增加近似呈線(xiàn)性增長(zhǎng),且相鄰幀保持著微小的差異,通過(guò)網(wǎng)絡(luò)訓(xùn)練來(lái)學(xué)習(xí)這一特性,可以使網(wǎng)絡(luò)能夠依據(jù)當(dāng)前時(shí)刻的輸入預(yù)測(cè)下一時(shí)刻的輸出,同時(shí)也保證后一幀的姿態(tài)預(yù)測(cè)結(jié)果與前一幀相比能夠近似一致,以此來(lái)增加視頻中姿態(tài)估計(jì)的準(zhǔn)確性和平滑性。
民俗學(xué)是一門(mén)面向?qū)嵺`的學(xué)問(wèn),這其中包含兩個(gè)層面的意思:一是研究者要關(guān)注民眾的生活實(shí)踐;二是研究成果要對(duì)民眾實(shí)踐有所助益。其中,研究成果對(duì)民眾有所助益是民俗學(xué)最樸實(shí)的初衷,是民俗學(xué)者的初心之所在。與其他社會(huì)科學(xué)不同,民俗學(xué)特別強(qiáng)調(diào)了解民眾理解民眾,擁有比別的學(xué)科更多的了解老百姓的知識(shí),這是民俗學(xué)者的優(yōu)勢(shì),也是民俗學(xué)的長(zhǎng)處。換句話(huà)說(shuō),我們民俗學(xué)者不局限于一時(shí)一地的民眾知識(shí),我們通過(guò)田野調(diào)查掌握了很多地方老百姓的知識(shí),掌握了不同階層、不同職業(yè)、不同修養(yǎng)的各種人群的知識(shí),最終是為了更好地為他們服務(wù),實(shí)踐民俗學(xué)更是要強(qiáng)調(diào)這種服務(wù)民眾的特殊責(zé)任。
圖3 相鄰幀姿態(tài)差異Fig.3 Pose difference between adjacent frames
基于上述分析,本文設(shè)計(jì)一種名為相似姿態(tài)位 移 約 束(Similar Pose Displacement Constraint,SPDC)的損失函數(shù)來(lái)學(xué)習(xí)視頻中的人體姿態(tài)在時(shí)間維度上的連續(xù)性,計(jì)算公式為
式中:α和λ分別為姿態(tài)距離損失函數(shù)以及相似姿態(tài)位移約束損失函數(shù)的權(quán)重比,本文以姿態(tài)距離損失函數(shù)為主要的優(yōu)化目標(biāo),使輸出的每個(gè)關(guān)節(jié)點(diǎn)坐標(biāo)值都盡可能地回歸到真值附近,并輔以相似姿態(tài)位移約束損失函數(shù)來(lái)充分學(xué)習(xí)相鄰幀的近似一致性,增加檢測(cè)結(jié)果的平滑性。對(duì)α和λ的選取規(guī)則應(yīng)該是α大于λ,經(jīng)過(guò)多次實(shí)驗(yàn)對(duì)比,本文選取α=5以及λ=1作為最優(yōu)的權(quán)重比,最終的損失函數(shù)為兩種不同損失函數(shù)的加權(quán)和。
為了對(duì)本文方法的性能進(jìn)行評(píng)價(jià),在三維人體姿態(tài)數(shù)據(jù)集Human3.6M[20]上進(jìn)行了實(shí)驗(yàn),Human3.6M是目前為止最大也是使用最為廣泛的三維人體姿態(tài)估計(jì)數(shù)據(jù)集,其主要由7位實(shí)驗(yàn)者在4個(gè)不同視角下使用高清攝像機(jī)精確捕捉的360萬(wàn)個(gè)三維人體姿態(tài)組成,視頻的幀率為50 Hz,分辨率大小為1 000×1 000。數(shù)據(jù)集被分割為11個(gè)子類(lèi)別,其中7個(gè)類(lèi)別包含了三維關(guān)節(jié)點(diǎn)標(biāo)注,而且還使用相機(jī)參數(shù)對(duì)三維姿態(tài)的關(guān)節(jié)點(diǎn)數(shù)據(jù)進(jìn)行投影,并獲得準(zhǔn)確的二維姿態(tài)信息,每個(gè)類(lèi)別中都包括走路、打招呼等15個(gè)生活中常見(jiàn)動(dòng)作。
實(shí)驗(yàn)過(guò)程中,使用Human3.6M 提供的二維關(guān)節(jié)點(diǎn)坐標(biāo),選取某幀前后數(shù)目相等的二維關(guān)節(jié)點(diǎn)坐標(biāo)序列作為輸入,訓(xùn)練時(shí)為了保證視頻起始端和末端完整性,對(duì)輸入數(shù)據(jù)采取邊緣填充操作,根據(jù)輸入連續(xù)幀數(shù)目對(duì)起始幀和結(jié)束幀的二維關(guān)節(jié)點(diǎn)數(shù)據(jù)進(jìn)行復(fù)制并填充。此外,本文還對(duì)輸入的二維關(guān)節(jié)點(diǎn)坐標(biāo)根據(jù)圖像大小進(jìn)行歸一化處理。訓(xùn)練時(shí)采用Adam優(yōu)化算法,初始學(xué)習(xí)率設(shè)置為0.001,批處理大小為1024,權(quán)重衰減參數(shù)設(shè)為0.000 65,對(duì)整個(gè)數(shù)據(jù)集迭代50次。
實(shí) 驗(yàn) 使 用 NVIDIA GTX1060 顯 卡,64 位Ubuntu系統(tǒng),Intel i7-6700型號(hào)CPU,并Python3.5環(huán)境配置下使用開(kāi)源深度學(xué)習(xí)框架Pytorch對(duì)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練。使用平均關(guān)節(jié)位置誤差(Mean PerJoint Position Error,MPJPE)作為評(píng)價(jià)標(biāo)準(zhǔn),即計(jì)算網(wǎng)絡(luò)預(yù)測(cè)得到的關(guān)節(jié)點(diǎn)坐標(biāo)與真實(shí)標(biāo)簽17個(gè)人體關(guān)節(jié)點(diǎn)坐標(biāo)之間歐氏距離的平均值。為了與其他實(shí)驗(yàn)方法進(jìn)行公平比較,根據(jù)協(xié)議使用Human3.6M 中的S1、S5、S6、S7、S8子數(shù)據(jù)集用于訓(xùn)練,S9、S11數(shù)據(jù)集用于測(cè)試。
三維人體姿態(tài)估計(jì)結(jié)果如圖4所示,每25幀連續(xù)圖像的二維關(guān)節(jié)點(diǎn)坐標(biāo)作為輸入,采用4個(gè)殘差模塊網(wǎng)絡(luò)結(jié)構(gòu)的條件下,得到了最佳的實(shí)驗(yàn)結(jié)果。
圖4 三維姿態(tài)估計(jì)結(jié)果Fig.4 Three-dimensional pose estimation results
對(duì)于不同數(shù)目連續(xù)幀輸入的實(shí)驗(yàn)分析如圖5所示,當(dāng)輸入序列長(zhǎng)度大于25以后,模型的性能開(kāi)始下降,平均誤差開(kāi)始增加,推測(cè)原因可能因?yàn)楫?dāng)前幀的檢測(cè)結(jié)果只與相鄰幾幀呈高度相關(guān)性,其余幀的存在會(huì)帶來(lái)更多的冗余信息。而且由于輸入維度的增加,網(wǎng)絡(luò)前向傳播所需的時(shí)間也會(huì)成倍增加。
表2 各種三維姿態(tài)誤差Table 2 Various three-dimensional pose errors
圖5 不同輸入序列下的平均誤差Fig.5 Average errors in different input sequences
接下來(lái)對(duì)本文設(shè)計(jì)的網(wǎng)絡(luò)各個(gè)部分進(jìn)行深入分析,表3給出了不同的網(wǎng)絡(luò)設(shè)計(jì)對(duì)最終測(cè)試誤差的影響。Dropout[22]正則化是最簡(jiǎn)單的網(wǎng)絡(luò)正則化方法:通過(guò)任意丟棄網(wǎng)絡(luò)層中的參數(shù)來(lái)減少神經(jīng)元之間復(fù)雜的共適應(yīng)關(guān)系,迫使網(wǎng)絡(luò)去學(xué)習(xí)更加魯棒的特征,緩解過(guò)擬合的發(fā)生,起到正則化的作用。然而加入Dropout反而增加了大約10 mm的誤差,分析原因,可能由于Dropout隨機(jī)刪除卷積層參數(shù),破壞了一維卷積提取時(shí)序信息的連續(xù)特征過(guò)程。與此同時(shí),BN層的加入減少了14.9 mm的測(cè)試誤差,大幅提高了網(wǎng)絡(luò)的泛化性能。另外,殘差連接的設(shè)計(jì)也為本文的網(wǎng)絡(luò)帶來(lái)了0.6 mm誤差的減小。
表3 不同網(wǎng)絡(luò)結(jié)構(gòu)測(cè)試誤差Table 3 Testing err ors of different network structures
最后分析本文所提出的損失函數(shù)對(duì)于網(wǎng)絡(luò)性能的影響,具體方法為同時(shí)訓(xùn)練加入和不加入SPDC損失函數(shù)的網(wǎng)絡(luò),損失函數(shù)曲線(xiàn)如圖6所示。由圖6可見(jiàn),在訓(xùn)練初期,隨著三維點(diǎn)坐標(biāo)回歸的逐漸精確,兩個(gè)網(wǎng)絡(luò)的相似姿態(tài)位移差異同時(shí)減小,但加入SPDC損失函數(shù)的網(wǎng)絡(luò)下降幅度更大。在繼續(xù)迭代的過(guò)程中,加入SPDC損失函數(shù)網(wǎng)絡(luò)的相似姿態(tài)位移差異進(jìn)一步減小且具有更小的震蕩幅度,這說(shuō)明SPDC損失函數(shù)的加入使得網(wǎng)絡(luò)很好地學(xué)習(xí)了視頻幀間的連續(xù)性,增加了視頻三維姿態(tài)估計(jì)輸出的平滑性,另外,SPDC損失函數(shù)的加入最終減少了網(wǎng)絡(luò)0.8 mm的誤差,進(jìn)一步提高了估計(jì)結(jié)果的準(zhǔn)確性。
圖6 損失曲線(xiàn)對(duì)比Fig.6 Loss curves comparison
本文結(jié)合用于提取時(shí)序信息的一維卷積神經(jīng)網(wǎng)絡(luò),提出了一種基于視頻的三維人體姿態(tài)估計(jì)方法。研究結(jié)論如下:
1)本文方法能夠以連續(xù)幀圖像中人體二維關(guān)鍵點(diǎn)坐標(biāo)作為輸入,將已有的二維姿態(tài)準(zhǔn)確地映射到三維空間中。
2)針對(duì)幀間信息缺失的情況,本文又設(shè)計(jì)了一種新的損失函數(shù),對(duì)幀間的近似一致性進(jìn)行學(xué)習(xí),充分利用視頻時(shí)間維度上的相關(guān)性來(lái)估計(jì)視頻中的三維人體姿態(tài)。
3)實(shí)驗(yàn)表明,基于連續(xù)幀輸入的姿態(tài)重建網(wǎng)絡(luò)具有一定的合理性,并且本文方法可以與二維姿態(tài)檢測(cè)器相結(jié)合,具有一定的魯棒性。
下一步的主要研究工作是將本文方法與二維姿態(tài)估計(jì)任務(wù)相結(jié)合,設(shè)計(jì)通用的框架同時(shí)對(duì)二維和三維的人體姿態(tài)進(jìn)行估計(jì),并利用三維的姿態(tài)估計(jì)結(jié)果對(duì)二維的輸出進(jìn)行優(yōu)化。