趙 勇,巨永鋒
ZHAO Yong1,2,JU Yongfeng1
1.長安大學(xué) 電子與控制工程學(xué)院,西安 710064
2.西安郵電大學(xué) 自動(dòng)化學(xué)院,西安 710121
1.School of Electronic and Control Engineering,Chang’an University,Xi’an 710064,China
2.School of Automation,Xi’an University of Posts and Telecommunications,Xi’an 710121,China
人是各種社會(huì)活動(dòng)的主體,因此人體動(dòng)作行為識(shí)別一直都是計(jì)算機(jī)視覺領(lǐng)域一個(gè)非常熱門的研究方向,在視頻監(jiān)控、人機(jī)交互、虛擬現(xiàn)實(shí)和視頻檢索等方面都有著非常廣泛的應(yīng)用。人體是由頭部、軀干、四肢、手和腳等多個(gè)部位通過關(guān)節(jié)相互連接而成的,人類的各種動(dòng)作和行為都是靠人體部位來完成,人體動(dòng)作不同,人體部位的姿態(tài)也不同。因此若能確定人體各部位的定位位置,將給人體動(dòng)作行為的識(shí)別打下良好的基礎(chǔ)。人體姿態(tài)估計(jì)就是這樣一種自動(dòng)確定頭部、軀干和四肢等人體部位,或肩、肘、腕、膝和踝等關(guān)節(jié)在靜態(tài)圖片或視頻幀圖像中的定位位置的過程[1],是人體動(dòng)作行為識(shí)別的一個(gè)基礎(chǔ)問題,受到了眾多研究人員的關(guān)注,并且已經(jīng)提出了多種人體姿態(tài)估計(jì)算法[1-13]。
現(xiàn)有人體姿態(tài)估計(jì)算法主要可分為基于整體和基于模型的兩大類?;谡w的人體姿態(tài)估計(jì)算法將人體視為一個(gè)整體并用圖像特征來描述,通過回歸分析或樣例比較的方式來確定人體部位或關(guān)節(jié)的定位位置。基于模型的人體姿態(tài)估計(jì)算法將人體視為多個(gè)存在關(guān)聯(lián)的個(gè)體,其中每個(gè)個(gè)體為一個(gè)部位或關(guān)節(jié),或者連在一起的多個(gè)人體部位或關(guān)節(jié),利用圖像特征對(duì)個(gè)體建立外觀模型來代替其真實(shí)外觀,并根據(jù)人體部位或關(guān)節(jié)間外觀和空間的相互關(guān)聯(lián)情況建立人體模型,通過優(yōu)化由人體模型構(gòu)造的能量函數(shù)來確定部位或關(guān)節(jié)的定位位置。
基于模型的人體姿態(tài)估計(jì)算法的研究主要集中在部位或關(guān)節(jié)外觀模型和人體模型的建立兩方面。近幾年來,部位或關(guān)節(jié)外觀模型的研究主要集中在深度學(xué)習(xí)方向,與傳統(tǒng)外觀模型利用諸如邊緣、顏色、形狀等手工設(shè)計(jì)的圖像特征[1-6]相比,深度學(xué)習(xí)可以獲取表達(dá)和區(qū)分能力更強(qiáng)的抽象特征,能更準(zhǔn)確地表征真實(shí)人體部位或關(guān)節(jié)的外觀特征。卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)是目前建立部位或關(guān)節(jié)外觀模型時(shí)應(yīng)用最成功的深度學(xué)習(xí)模型[8-13],Jain等[8-9]將訓(xùn)練后的CNN作為關(guān)節(jié)外觀模型,網(wǎng)絡(luò)輸出即為關(guān)節(jié)可能定位與外觀模型的相似度,并考慮到關(guān)節(jié)間空間定位的先驗(yàn)分布,提出了一種基于空間先驗(yàn)的人體模型;Chu等[10]在傳統(tǒng)CNN的卷積層引入幾何變換核表征關(guān)節(jié)間的依賴關(guān)系,將改進(jìn)后的CNN用來建立關(guān)節(jié)外觀模型,并將樹形圖結(jié)構(gòu)人體模型集成進(jìn)CNN進(jìn)行人體姿態(tài)估計(jì);Lifshitz等[11]將兩個(gè)CNN級(jí)聯(lián)起來作為關(guān)節(jié)外觀模型,第一個(gè)為傳統(tǒng)CNN結(jié)構(gòu),用于計(jì)算圖像中每個(gè)像素對(duì)關(guān)節(jié)定位的權(quán)重系數(shù),第二個(gè)在傳統(tǒng)網(wǎng)絡(luò)中添加了一個(gè)反卷積層,用于計(jì)算關(guān)節(jié)可能定位與外觀模型的相似度,并在樹形圖結(jié)構(gòu)模型中添加了投票因子并將其作為人體模型,投票系數(shù)由第一個(gè)CNN計(jì)算出的權(quán)重系數(shù)來確定;Chu等[12]利用CNN提出了一種多情境注意力機(jī)制網(wǎng)絡(luò),通過設(shè)計(jì)的3種多尺度、多語義和全局-局部注意力機(jī)制模型來學(xué)習(xí)圖像上下文信息,在考慮到關(guān)節(jié)間關(guān)聯(lián)的前提下利用條件隨機(jī)場(chǎng)模型建立了人體模型,并將其集成進(jìn)CNN進(jìn)行人體姿態(tài)估計(jì);Ning等[13]對(duì)關(guān)節(jié)間的先驗(yàn)知識(shí)進(jìn)行學(xué)習(xí),并將其映射進(jìn)CNN結(jié)構(gòu),提出了一種知識(shí)導(dǎo)向的深度學(xué)習(xí)網(wǎng)絡(luò),并用于人體姿態(tài)估計(jì)。
人體姿態(tài)估計(jì)中人體部位或關(guān)節(jié)定位位置的估計(jì)除了要考慮可能定位與外觀模型的相似度之外,還需要考慮部位或關(guān)節(jié)之間的外觀和空間位置的約束。雖然文獻(xiàn)[8-9]在建立人體模型時(shí)同時(shí)考慮了關(guān)節(jié)可能定位與關(guān)節(jié)外觀模型的相似度和關(guān)節(jié)間的先驗(yàn)定位分布,但卻將基于同樣先驗(yàn)分布建立的人體模型用于不同待處理圖片進(jìn)行人體姿態(tài)估計(jì),并沒有考慮到不同圖片中關(guān)節(jié)的實(shí)際定位對(duì)先驗(yàn)分布服從程度的不同,而實(shí)際上,對(duì)于服從程度高的圖片,關(guān)節(jié)間的先驗(yàn)分布會(huì)對(duì)關(guān)節(jié)的準(zhǔn)確定位提供有效的幫助,但對(duì)于服從程度較低的圖片,關(guān)節(jié)間的先驗(yàn)分布反而可能會(huì)對(duì)關(guān)節(jié)的準(zhǔn)確定位造成消極的影響。為此,本文提出了一種基于條件先驗(yàn)的人體模型,并將其用于人體姿態(tài)估計(jì)。
本文的貢獻(xiàn)主要有兩方面:(1)設(shè)計(jì)了一種計(jì)算關(guān)節(jié)間空間先驗(yàn)分布的方法;(2)提出了一種基于條件先驗(yàn)的人體模型,在基于空間先驗(yàn)的人體模型中添加了一個(gè)自適應(yīng)調(diào)節(jié)參數(shù),用來調(diào)節(jié)關(guān)節(jié)間空間先驗(yàn)分布在計(jì)算關(guān)節(jié)定位概率時(shí)所起作用的大小,參數(shù)值根據(jù)關(guān)節(jié)可能定位與外觀模型的相似度的大小來確定。
由于圖像內(nèi)容的復(fù)雜多變性,以及關(guān)節(jié)外觀模型并不一定能完全準(zhǔn)確描述關(guān)節(jié)的真實(shí)外觀特征,在進(jìn)行人體姿態(tài)估計(jì)時(shí),除了考慮與關(guān)節(jié)外觀模型的相似度之外,還要考慮關(guān)節(jié)之間的相對(duì)定位位置。雖然關(guān)節(jié)間的定位會(huì)滿足一定的先驗(yàn)分布,但不同圖片中相連關(guān)節(jié)的實(shí)際定位情況并不相同,對(duì)關(guān)節(jié)間定位先驗(yàn)分布的服從程度可能差別很大,如果對(duì)每幅待處理圖片都采用相同的關(guān)節(jié)間定位先驗(yàn)分布的話,服從先驗(yàn)分布程度較低圖片的估計(jì)結(jié)果可能較差。為解決這個(gè)缺陷,本文提出了一種基于條件先驗(yàn)的人體模型,根據(jù)圖片的實(shí)際情況自適應(yīng)調(diào)節(jié)關(guān)節(jié)間空間先驗(yàn)分布在計(jì)算關(guān)節(jié)定位概率時(shí)所起作用的大小。
人體是由頭、軀干、四肢以及手腳等部位通過肩、肘、腕、膝和踝等關(guān)節(jié)連接而成的,但不同關(guān)節(jié)之間有著不同的連接和相對(duì)定位關(guān)系。例如肩關(guān)節(jié)和臉部雖然沒有直接連接,但卻具有相對(duì)固定的定位關(guān)系,肩關(guān)節(jié)和肘關(guān)節(jié)相互連接,而且具有相對(duì)固定的定位關(guān)系,肩關(guān)節(jié)和膝關(guān)節(jié)互不相連,而且沒有相對(duì)固定的定位關(guān)系。
定位關(guān)系相對(duì)固定的關(guān)節(jié)之間的空間先驗(yàn)分布的學(xué)習(xí)可由4個(gè)步驟來完成,圖1以左肩關(guān)節(jié)相對(duì)于臉部中心的空間先驗(yàn)分布為例給出了學(xué)習(xí)過程。
(1)在訓(xùn)練圖像中標(biāo)注左肩關(guān)節(jié)和臉部中心,利用人體上半身檢測(cè)器[14]檢測(cè)出人體上半身正方形框,如圖1(b)所示。
(2)根據(jù)人體上半身的正方形框尺寸與標(biāo)準(zhǔn)尺寸(本文設(shè)置為120×120像素)的比例對(duì)左肩關(guān)節(jié)和臉部中心同時(shí)進(jìn)行縮放,并以左肩關(guān)節(jié)為中心標(biāo)注出64×64大小的左肩區(qū)域,如圖1(c)所示。
(3)將所有訓(xùn)練圖像都按照步驟(2)進(jìn)行縮放和標(biāo)注,然后將標(biāo)注出的左肩關(guān)節(jié)區(qū)域都投影到同一坐標(biāo)系下,即可得到左肩關(guān)節(jié)相對(duì)于人體上半身的先驗(yàn)定位區(qū)域,如圖1(d)所示。
圖1 關(guān)節(jié)間空間先驗(yàn)分布概率學(xué)習(xí)示意圖
(4)將所有訓(xùn)練圖像經(jīng)過縮放后得到的如圖1(c)所示的左肩關(guān)節(jié)和臉部中心都投影到同一坐標(biāo)系,其中所有臉部中心均投影到中心位置。根據(jù)投影到每個(gè)位置的左肩關(guān)節(jié)的多少即可計(jì)算空間先驗(yàn)分布概率,如圖1(e)所示,顏色越深定位概率越低,計(jì)算公式如式(1)所示。
其中,n為投影到x上的左肩關(guān)節(jié)個(gè)數(shù);N為訓(xùn)練圖像總個(gè)數(shù)。
采用相同的方法,所有定位關(guān)系相對(duì)固定的關(guān)節(jié)間的空間先驗(yàn)分布概率都可以學(xué)習(xí)確定,如圖2所示。出于對(duì)稱的原因,將左肘相對(duì)于左肩的先驗(yàn)分布旋轉(zhuǎn)180°即可得到左肩相對(duì)于左肘的先驗(yàn)分布概率。其他的類,如右肩相對(duì)于右肘、左右肘相對(duì)于左右腕、左右胯相對(duì)于左右膝、左右膝相對(duì)于左右踝的空間先驗(yàn)分布可采用同樣方法得到。
圖2 關(guān)節(jié)間空間先驗(yàn)分布
考慮到相鄰關(guān)節(jié)的空間先驗(yàn)分布,文獻(xiàn)[8-9]提出了一種空間先驗(yàn)人體模型。在計(jì)算關(guān)節(jié)定位概率時(shí)除了考慮關(guān)節(jié)可能定位與關(guān)節(jié)外觀模型的相似度之外,還將與相鄰關(guān)節(jié)的空間先驗(yàn)對(duì)關(guān)節(jié)的影響也考慮進(jìn)來。該模型可較為有效地剔除掉相似度雖然很高但與相鄰關(guān)節(jié)間的空間定位與空間先驗(yàn)分布嚴(yán)重不符的關(guān)節(jié)可能定位,從而可以更好地確保估計(jì)出的各關(guān)節(jié)定位更符合真實(shí)人體情況。
其中,p′i(x)為關(guān)節(jié)定位在像素點(diǎn)x時(shí)的定位概率;pi(x)為關(guān)節(jié)定位在像素點(diǎn)x時(shí)與關(guān)節(jié)外觀模型的相似度;U為與關(guān)節(jié)i的定位關(guān)系相對(duì)固定的關(guān)節(jié)集合;bu為U中關(guān)節(jié)u對(duì)關(guān)節(jié)i的消息,類似于置信傳播算法中的局部消息。
其中,pi|u=0為關(guān)節(jié)i位于x,而關(guān)節(jié)u位于y,并將其視為圖像中心時(shí),根據(jù)2.1節(jié)學(xué)習(xí)得到的先驗(yàn)分布而確定的先驗(yàn)概率;pu(y)為關(guān)節(jié)u定位在y時(shí)與外觀模型的相似度。
不同人體關(guān)節(jié)的定位具有很大的隨機(jī)性,關(guān)節(jié)間的真實(shí)定位可能恰好處于空間先驗(yàn)分布概率較低的相對(duì)位置,但文獻(xiàn)[9]將關(guān)節(jié)可能定位和外觀模型的相似度與關(guān)節(jié)間的空間先驗(yàn)分布對(duì)關(guān)節(jié)的影響同等對(duì)待,從而使得計(jì)算得到的關(guān)節(jié)真實(shí)定位概率可能并不是很高。為解決這個(gè)缺陷,本文在文獻(xiàn)[9]所提基于空間先驗(yàn)的人體模型中引入自適應(yīng)調(diào)節(jié)參數(shù)來調(diào)節(jié)關(guān)節(jié)間空間先驗(yàn)分布在計(jì)算關(guān)節(jié)定位概率時(shí)所起的作用,如式(4)所示。通過自適應(yīng)調(diào)節(jié)參數(shù),可以使得在計(jì)算具有較高相似度的關(guān)節(jié)定位概率時(shí)相似度起更大的作用,而對(duì)于相似度較低的關(guān)節(jié)定位,在計(jì)算關(guān)節(jié)定位概率時(shí)關(guān)節(jié)間的空間先驗(yàn)起的作用更大。
其中,μ為自適應(yīng)調(diào)節(jié)參數(shù),如式(5)所示,參數(shù)取值示意圖如圖3所示。
圖3 自適應(yīng)調(diào)節(jié)參數(shù)示意圖
其中,T1和T2為相似度閾值;a1、a2、θ1、θ2均為調(diào)節(jié)因子。據(jù)前所述,當(dāng)關(guān)節(jié)可能定位的相似度較?。ㄐ∮赥1)時(shí),在計(jì)算關(guān)節(jié)定位概率時(shí)關(guān)節(jié)間的空間先驗(yàn)所起的作用更大,而且相似度越小,關(guān)節(jié)間空間先驗(yàn)所起的作用越大。為此本文將參數(shù)θ1的取值范圍設(shè)置為θ1>1,從而使得相似度在[0,T1]范圍內(nèi)變化時(shí),μ逐漸從1+a1減小至1,但為防止過于強(qiáng)化關(guān)節(jié)間空間先驗(yàn)所起的作用,本文將a1的取值范圍設(shè)置為[0,2]。當(dāng)關(guān)節(jié)可能定位的相似度較大(大于T2)時(shí),在計(jì)算關(guān)節(jié)定位概率時(shí)關(guān)節(jié)間的空間先驗(yàn)所起的作用較小,而且相似度越大,關(guān)節(jié)間空間先驗(yàn)所起的作用越小。為此本文將參數(shù)θ2的取值范圍設(shè)置為(0,1),從而使得相似度在[T2,1]范圍內(nèi)變化時(shí),μ逐漸從1減小至1-a2,但為防止過于弱化關(guān)節(jié)間空間先驗(yàn)的作用,本文將a2的取值范圍設(shè)置為[0,0.6]。上式中的參數(shù)T1、T2、a1、a2、θ1和θ2可根據(jù)訓(xùn)練集中關(guān)節(jié)定位準(zhǔn)確度的最大化準(zhǔn)則來確定:
其中,p為對(duì)訓(xùn)練集中所有圖片的關(guān)節(jié)定位準(zhǔn)確度。
對(duì)式(4)進(jìn)行自然對(duì)數(shù)變換,即可得到關(guān)節(jié)定位概率的計(jì)算公式。人體上半身的左肩、左肘、左腕、左胯、左膝和左踝關(guān)節(jié)的計(jì)算公式分別如式(6)~(8)所示,右肩、右肘、右腕、右胯、右膝和右踝關(guān)節(jié)的計(jì)算公式與此類似。
卷積神經(jīng)網(wǎng)絡(luò)在人臉檢測(cè)中已經(jīng)取得了良好的效果,具有很高的檢測(cè)效率。為此,本文在計(jì)算人臉定位概率時(shí)僅利用臉部可能定位與外觀模型的相似度,并不考慮人臉與肩部關(guān)節(jié)的空間先驗(yàn)分布,實(shí)驗(yàn)結(jié)果也證明了考慮人臉與肩部關(guān)節(jié)的空間先驗(yàn)分布反而會(huì)降低人臉檢測(cè)準(zhǔn)確度。
CNN是目前建立部位或關(guān)節(jié)外觀模型時(shí)應(yīng)用最成功的深度學(xué)習(xí)模型,主要包括卷積層和池化層,卷積層為特征提取層,池化層是特征統(tǒng)計(jì)層。卷積層通常包含多個(gè)卷積核,每個(gè)卷積核提取一種特征,采取局部感知和權(quán)值共享的方式來減少參數(shù)數(shù)量。
現(xiàn)有利用CNN建立的關(guān)節(jié)外觀模型大都僅利用最后一個(gè)池化層的輸出視為圖像特征,類似于人類利用整體輪廓來進(jìn)行目標(biāo)識(shí)別,而這與人類在識(shí)別物體時(shí)往往同時(shí)利用局部細(xì)節(jié)和整體輪廓的特性并不相符。為此,本文同時(shí)采用最后一個(gè)卷積層和最后一個(gè)池化層的輸出合在一起視為圖像特征,卷積層輸出用于表達(dá)局部細(xì)節(jié)特征,池化層輸出用于表達(dá)整體輪廓特征。采用的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示,由3個(gè)卷積層、3個(gè)池化層和3個(gè)全連接層組成,具體參數(shù)如表1所示。
圖4 卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
表1 卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)
本文從訓(xùn)練圖像中剪切以關(guān)節(jié)為中心的64×64圖像塊,并將其作為網(wǎng)絡(luò)訓(xùn)練正樣本,將從訓(xùn)練圖像任意剪切出的同樣大小圖像塊作為網(wǎng)絡(luò)訓(xùn)練負(fù)樣本。在將圖像塊引入CNN前,先對(duì)圖像塊進(jìn)行局部響應(yīng)歸一化[15]操作,此舉可有效提高CNN的泛化能力。
網(wǎng)絡(luò)3個(gè)卷積層和前兩個(gè)全連接層中的神經(jīng)元采用具有很強(qiáng)防過擬合能力的修正線性單元(ReLU)[16]作為激活函數(shù),全連接層3的一個(gè)神經(jīng)元采用logistic函數(shù)作為激活函數(shù),神經(jīng)元的輸出即為關(guān)節(jié)的定位概率。
本文采用隨機(jī)梯度下降算法作為卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練算法,設(shè)置目標(biāo)函數(shù)為:
其中,W為網(wǎng)絡(luò)權(quán)值矩陣;N為樣本個(gè)數(shù);fi(W)為CNN全連接層輸出;di為樣本標(biāo)簽,正、負(fù)樣本分別為1和0。
將建立的關(guān)節(jié)外觀模型和基于條件先驗(yàn)的人體模型用于人體姿態(tài)估計(jì),主要包含以下幾個(gè)步驟,圖5以左肩關(guān)節(jié)的定位為例給出了定位過程示意圖。
(1)用人體上半身檢測(cè)算法[14]檢測(cè)人體上半身,并按照其與標(biāo)準(zhǔn)大?。?20×120像素)的比例縮放待處理圖像,然后利用基于CNN的人臉模型檢測(cè)人臉,并標(biāo)注出人臉中心,如圖5(a)所示。
(2)根據(jù)前面學(xué)習(xí)的左肩關(guān)節(jié)相對(duì)于人體上半身的先驗(yàn)定位標(biāo)注出左肩關(guān)節(jié)的定位區(qū)域,如圖5(b)所示。
(3)對(duì)于左肩關(guān)節(jié)的定位區(qū)域,通過滑窗的方式計(jì)算每個(gè)關(guān)節(jié)可能定位與關(guān)節(jié)外觀模型的相似度,如圖5(c)所示,顏色越黑表示相似度越高。
(4)利用基于條件先驗(yàn)分布的人體模型計(jì)算關(guān)節(jié)的定位概率,如圖5(d)所示。
(5)定位概率最大的即為關(guān)節(jié)最終定位,如圖5(e)所示。
圖5 人體姿態(tài)估計(jì)過程示意圖
為方便比較,本文采用人體姿態(tài)估計(jì)領(lǐng)域常用的FLIC圖像集[4]和LSP圖像集[17]構(gòu)造訓(xùn)練和測(cè)試圖像集。FLIC數(shù)據(jù)集是從多部影視作品截取的視頻幀圖像組成,LSP數(shù)據(jù)集由各種運(yùn)動(dòng)員的運(yùn)動(dòng)照片組成,兩個(gè)圖像集中的人體姿態(tài)和背景都是復(fù)雜多變的,尤其是LSP圖像集中的人體姿態(tài)更加復(fù)雜多變。將FLIC圖像集中的3987張圖片和LSP圖像集中的1000張圖片合在一起構(gòu)造訓(xùn)練圖像集,將FLIC圖像集中剩余的1016張圖片和LSP圖像集中剩余的1000張圖片合在一起構(gòu)造測(cè)試圖像集。為增加卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練樣本數(shù)量,本文將訓(xùn)練圖像集中的圖片在3°~7°范圍內(nèi)按順時(shí)針和逆時(shí)針分別隨機(jī)旋轉(zhuǎn)兩個(gè)角度,從而將訓(xùn)練圖像數(shù)量擴(kuò)大為原來的5倍。由于不同訓(xùn)練圖像中人體尺寸大小的不同,在從訓(xùn)練圖像中獲取關(guān)節(jié)樣本時(shí),本文首先檢測(cè)人體上半身,然后根據(jù)其大小與標(biāo)準(zhǔn)大小120×120的比例來縮放圖像,最后從縮放后的訓(xùn)練圖像中剪切出以關(guān)節(jié)為中心的64×64的圖像塊作為訓(xùn)練CNN的正樣本,將從訓(xùn)練圖像隨機(jī)剪切出的同樣大小的圖像塊作為CNN的負(fù)樣本。仿真實(shí)驗(yàn)在英偉達(dá)Tesla M40 GPU硬件平臺(tái)上進(jìn)行,模型訓(xùn)練時(shí)間約為1.5天。
圖6給出了文獻(xiàn)[9]和本文算法對(duì)圖5中待處理圖片的左肩關(guān)節(jié)定位結(jié)果。如圖6(a)所示,圖中人體左肩關(guān)節(jié)實(shí)際定位區(qū)域與外觀模型的相似度很高,但由于左肩關(guān)節(jié)處于其相對(duì)于人臉的先驗(yàn)分布概率較小的位置,而文獻(xiàn)[9]對(duì)任一待處理圖像采用的都是基于相同空間先驗(yàn)的人體模型,從而導(dǎo)致計(jì)算出的左肩關(guān)節(jié)實(shí)際定位區(qū)域的定位概率并不是最大,計(jì)算出的定位概率如圖6(b)所示,出現(xiàn)了定位錯(cuò)誤。而利用本文所提的基于條件先驗(yàn)分布的人體模型計(jì)算左肩關(guān)節(jié)的定位概率時(shí),雖然實(shí)際定位區(qū)域的先驗(yàn)分布概率較小,但由于大幅弱化了空間先驗(yàn)分布的作用,仍然得到了很大的定位概率,如圖6(c)所示,從而實(shí)現(xiàn)了正確定位。
圖6 左肩關(guān)節(jié)定位比較
圖7給出了利用本文基于條件先驗(yàn)的人體模型對(duì)幾幅圖片進(jìn)行人體姿態(tài)估計(jì)的結(jié)果,圖中圓點(diǎn)表示關(guān)節(jié)定位位置。從圖7可以看出,將本文所提基于條件先驗(yàn)的人體模型用于人體姿態(tài)估計(jì)時(shí),處于不同背景和場(chǎng)合下的人體都取得了良好的估計(jì)結(jié)果。
表2和表3分別給出了將本文基于條件先驗(yàn)的人體模型用于人體姿態(tài)估計(jì)和其他一些經(jīng)典人體姿態(tài)估計(jì)算法的估計(jì)準(zhǔn)確度比較結(jié)果。從兩個(gè)表可以看出,將本文基于條件先驗(yàn)的人體模型用于人體姿態(tài)估計(jì)時(shí),人體各個(gè)部位的估計(jì)準(zhǔn)確度都得到了一定程度的提高。
圖7 人體姿態(tài)估計(jì)示例
表2 LSP數(shù)據(jù)集估計(jì)準(zhǔn)確度比較 %
表3 FLIC估計(jì)準(zhǔn)確度比較 %
本文針對(duì)當(dāng)前部分人體模型在利用部位或關(guān)節(jié)空間定位的先驗(yàn)分布建立時(shí)并沒有考慮到不同圖片中部位或關(guān)節(jié)的實(shí)際定位對(duì)先驗(yàn)分布服從程度的不同,提出了一種基于條件先驗(yàn)的人體模型,添加自適應(yīng)調(diào)節(jié)參數(shù)來調(diào)節(jié)先驗(yàn)分布在計(jì)算關(guān)節(jié)定位概率時(shí)所起作用的大小。如何進(jìn)一步完善基于條件先驗(yàn)的人體模型及將其集成進(jìn)CNN將是今后的研究內(nèi)容。