国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于人體姿態(tài)估計(jì)與聚類的特定運(yùn)動(dòng)幀獲取方法

2022-03-21 11:00:50蔡敏敏黃繼風(fēng)周小平
圖學(xué)學(xué)報(bào) 2022年1期
關(guān)鍵詞:關(guān)節(jié)點(diǎn)姿態(tài)聚類

蔡敏敏,黃繼風(fēng),林 曉,周小平

基于人體姿態(tài)估計(jì)與聚類的特定運(yùn)動(dòng)幀獲取方法

蔡敏敏,黃繼風(fēng),林 曉,周小平

(上海師范大學(xué)信息與機(jī)電工程學(xué)院,上海 200234)

運(yùn)動(dòng)視頻中特定運(yùn)動(dòng)幀的獲取是運(yùn)動(dòng)智能化教學(xué)實(shí)現(xiàn)的重要環(huán)節(jié),為了得到視頻中的特定運(yùn)動(dòng)幀以便進(jìn)一步地對(duì)視頻進(jìn)行分析,并利用姿態(tài)估計(jì)和聚類的相關(guān)知識(shí),提出了一種對(duì)運(yùn)動(dòng)視頻提取特定運(yùn)動(dòng)幀的方法。首先選用HRNet姿態(tài)估計(jì)模型作為基礎(chǔ),該模型精度高但模型規(guī)模過(guò)大,為了實(shí)際運(yùn)用的需求,對(duì)該模型進(jìn)行輕量化處理并與DARK數(shù)據(jù)編碼相結(jié)合,提出了Small-HRNet網(wǎng)絡(luò)模型,在基本保持精度不變的情況下參數(shù)量減少了82.0%。然后利用Small-HRNet模型從視頻中提取人體關(guān)節(jié)點(diǎn),將每一視頻幀中的人體骨架特征作為聚類的樣本點(diǎn),最終以標(biāo)準(zhǔn)運(yùn)動(dòng)幀的骨架特征為聚類中心,對(duì)整個(gè)視頻進(jìn)行聚類得到視頻的特定運(yùn)動(dòng)幀,在武術(shù)運(yùn)動(dòng)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)。該方法對(duì)武術(shù)動(dòng)作幀的提取準(zhǔn)確率為87.5%,能夠有效地提取武術(shù)動(dòng)作幀。

特定運(yùn)動(dòng)幀;姿態(tài)估計(jì);數(shù)據(jù)編解碼;運(yùn)動(dòng)特征;聚類

隨著人們生活水平的不斷提高,參與體育運(yùn)動(dòng)的從業(yè)者和愛(ài)好者數(shù)量不斷增加,使得體育運(yùn)動(dòng)發(fā)展迅猛,與此同時(shí)傳統(tǒng)運(yùn)動(dòng)的學(xué)習(xí)方式存在的弊端也逐漸顯現(xiàn)。對(duì)于業(yè)余愛(ài)好者只能通過(guò)教學(xué)視頻來(lái)進(jìn)行模仿學(xué)習(xí),其缺乏互動(dòng)性,不能正確且詳細(xì)地了解自己的學(xué)習(xí)情況。即使是職業(yè)的運(yùn)動(dòng)者,如何及時(shí)并準(zhǔn)確地知曉自己每個(gè)動(dòng)作的規(guī)范程度,目前只能依賴教練的評(píng)價(jià)和指導(dǎo)。但這種一對(duì)一的方式,導(dǎo)致了教練資源的緊張和稀缺,且對(duì)教練的培養(yǎng)需要花費(fèi)大量時(shí)間、人力和物力。這些問(wèn)題在很大程度上的阻礙了體育運(yùn)動(dòng)的進(jìn)一步發(fā)展,以及每個(gè)運(yùn)動(dòng)者在運(yùn)動(dòng)項(xiàng)目上的進(jìn)步。

當(dāng)前運(yùn)動(dòng)智能化指導(dǎo)主要以運(yùn)動(dòng)視頻的自動(dòng)評(píng)價(jià)來(lái)實(shí)現(xiàn),運(yùn)動(dòng)視頻的自動(dòng)評(píng)價(jià)主要有2種方法。一種是直接研究2個(gè)視頻之間整體的相似程度,如文獻(xiàn)[1-3]中將視頻數(shù)據(jù)視為一類特殊的多維時(shí)間序列,利用動(dòng)態(tài)時(shí)間規(guī)整(dynamic time warping,DTW)進(jìn)行整體時(shí)間序列相似度的計(jì)算從而得到評(píng)價(jià)結(jié)果,該方法只能得到總體的情況,并不關(guān)注動(dòng)作本身,不僅缺失了對(duì)動(dòng)作的進(jìn)一步研究,也導(dǎo)致了在實(shí)際應(yīng)用時(shí),其作用范圍十分受限。

另一種是將視頻中得到的特定運(yùn)動(dòng)幀與標(biāo)準(zhǔn)幀之間進(jìn)行相似度比較,能夠得到每個(gè)動(dòng)作的詳細(xì)分析。該方法在一些簡(jiǎn)單運(yùn)動(dòng)上已經(jīng)實(shí)現(xiàn),如文獻(xiàn)[4]中先獲取視頻的關(guān)鍵動(dòng)作幀,做幀對(duì)比完成自動(dòng)評(píng)價(jià),但獲取運(yùn)動(dòng)幀的方法太過(guò)依賴于高爾夫球的運(yùn)動(dòng)特性。對(duì)于復(fù)雜運(yùn)動(dòng)不能依靠該方法獲得想要的運(yùn)動(dòng)幀,其難點(diǎn)在獲取視頻特定運(yùn)動(dòng)幀上,因此本文的關(guān)注點(diǎn)落在視頻的特定運(yùn)動(dòng)幀獲取上。

在獲取視頻特定運(yùn)動(dòng)幀的同時(shí),也需要考慮視頻運(yùn)動(dòng)特征的提取。運(yùn)動(dòng)視頻中人體運(yùn)動(dòng)的位置不固定且具有多變的背景和光照條件,這些因素導(dǎo)致了傳統(tǒng)特征提取效果不理想。隨著人體姿態(tài)估計(jì)的不斷發(fā)展,為視頻運(yùn)動(dòng)特征提供了新思路,利用骨架信息作為人體的動(dòng)作特征,將一系列的動(dòng)作特征組合成視頻的運(yùn)動(dòng)特征來(lái)進(jìn)行表示[5]。

目前人體姿態(tài)估計(jì)技術(shù)分為2種,一種是采用自上而下的方法,先將所有的人體部分從圖片中截取出來(lái),再對(duì)單人圖片進(jìn)行關(guān)節(jié)點(diǎn)檢測(cè)。WEI等[6]提出了一種卷積姿態(tài)機(jī),運(yùn)用卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)得到人體的關(guān)鍵點(diǎn);CHEN等[7]將人體的關(guān)節(jié)點(diǎn)按照檢測(cè)的難度進(jìn)行劃分;SUN等[8]利用HRNet模型將高分辨率子網(wǎng)絡(luò)作為網(wǎng)絡(luò)的第一階段,逐步增加從高分辨率到低分辨率的子網(wǎng)形成多階段并行網(wǎng)絡(luò),達(dá)到豐富高分辨率表征的目的。

另一種自下而上的方法是先檢測(cè)圖像中所有人的關(guān)節(jié)點(diǎn)部位,再利用關(guān)節(jié)點(diǎn)連接器進(jìn)行處理,得到每個(gè)人的關(guān)節(jié)點(diǎn)信息。XIA等[9]提出了將人體關(guān)節(jié)點(diǎn)放置在分割區(qū)域的一定位置,并在部位分割和關(guān)節(jié)點(diǎn)之間建模;CAO等[10]在卷積姿態(tài)機(jī)的基礎(chǔ)上提出了openpose模型,使用部位親和力場(chǎng)來(lái)模擬人體結(jié)構(gòu),解決了使用中間點(diǎn)判斷連接關(guān)系所造成的錯(cuò)連情況。

綜上,本文提出了一種基于姿態(tài)估計(jì)與聚類的特定運(yùn)動(dòng)幀獲取方法,如圖1所示。整體流程分為:①利用輕量化網(wǎng)絡(luò)對(duì)視頻流進(jìn)行姿態(tài)估計(jì),以獲得人體的姿態(tài)序列;②利用得到的姿態(tài)信息完成動(dòng)作特征提取,將得到的運(yùn)動(dòng)特征與標(biāo)準(zhǔn)幀的運(yùn)動(dòng)特征進(jìn)行聚類,完成視頻特定運(yùn)動(dòng)幀的獲取任務(wù)。

圖1 特定運(yùn)動(dòng)幀獲取方法流程圖

1 人體姿態(tài)估計(jì)

姿態(tài)估計(jì)旨對(duì)無(wú)約束圖像或視頻中的人體關(guān)節(jié)進(jìn)行位置檢測(cè)。對(duì)現(xiàn)有模型通常采用熱圖定位的方式進(jìn)行研究,對(duì)每一個(gè)關(guān)節(jié)點(diǎn)生成一張熱圖,將關(guān)節(jié)位置的概率作為熱圖的響應(yīng)值,用響應(yīng)值的大小來(lái)表示關(guān)節(jié)點(diǎn)所在的坐標(biāo),整個(gè)姿態(tài)估計(jì)的流程如圖2所示[11]。先將任意大分辨率的邊界框圖像縮小為預(yù)先規(guī)定的小分辨率圖像;然后送入人體姿態(tài)估計(jì)模型中進(jìn)行熱圖預(yù)測(cè),為了得到原始圖像中的關(guān)節(jié)位置坐標(biāo),需要對(duì)預(yù)測(cè)熱圖進(jìn)行相應(yīng)的分辨率恢復(fù),將其轉(zhuǎn)換回原始坐標(biāo)空間;最后將預(yù)測(cè)的位置稱為最大激活的位置。

圖2 姿態(tài)估計(jì)完整過(guò)程流程圖((a)數(shù)據(jù)處理;(b)人體姿態(tài)估計(jì)模型;(c)模型訓(xùn)練;(d)模型測(cè)試)

本文在人體姿態(tài)估計(jì)模型HRNet的基礎(chǔ)上,對(duì)模型進(jìn)行輕量化處理,同時(shí)使用DARK數(shù)據(jù)編解碼技術(shù)[11],完成Small-HRNet模型的構(gòu)建,在保持檢測(cè)精度基本不變的情況下,模型參數(shù)量減少了82%。

1.1 Small-HRNet模型結(jié)構(gòu)

Small-HRNet網(wǎng)絡(luò)是以HRNet模型為基礎(chǔ)完成的結(jié)構(gòu)設(shè)計(jì),如圖3所示。其改進(jìn)思路是在保持精度的基礎(chǔ)上最大可能地對(duì)原有模型進(jìn)行簡(jiǎn)化。簡(jiǎn)化模型包括:①利用可分離卷積的思想設(shè)計(jì)了Smallblock模塊,將3×3的卷積核替換為3×3的組卷積和1×1卷積的組合運(yùn)算;②減少了原有模型并行子網(wǎng)數(shù),以減少參數(shù)量。

Small-HRNet網(wǎng)絡(luò)結(jié)構(gòu)主要包含3個(gè)階段,stage1,stage2和stage3,由并行連接的子網(wǎng)構(gòu)成,每一個(gè)子網(wǎng)由上而下,每一級(jí)的分辨率均為上一級(jí)的1/2,同時(shí)通道數(shù)增加2倍。stage1是由分辨率最高的一條Bottleneck模塊構(gòu)成的子網(wǎng)組成,如圖3(c)所示;stage2由2條并行的Basicblock模塊子網(wǎng)組成,如圖3(d)所示;stage3則是由3條Smallblock模塊的子網(wǎng)組成,如圖3(e)所示。圖3(b)是不同分辨率特征之間的融合方式示意圖,上述3個(gè)階段相互連接融合使得網(wǎng)絡(luò)的整體呈現(xiàn)出3條子網(wǎng)并行的結(jié)構(gòu),正是這種結(jié)構(gòu)使整個(gè)網(wǎng)絡(luò)在保持高分辨率的同時(shí)增強(qiáng)了多尺度的信息融合。

圖3 Small-HRNet模型示意圖((a)網(wǎng)絡(luò)結(jié)構(gòu);(b)不同分辨率特征融合方式;(c) Bottleneck模塊;(d) Basicblock模塊;(e) Smallblock模塊)

1.2 關(guān)節(jié)點(diǎn)的編碼和解碼

通常在訓(xùn)練姿態(tài)估計(jì)網(wǎng)絡(luò)時(shí),會(huì)從訓(xùn)練代價(jià)的角度出發(fā),將圖像做降采樣處理以縮小圖像分辨率。同時(shí)為了使網(wǎng)絡(luò)能夠利用熱圖為標(biāo)簽進(jìn)行訓(xùn)練,需將基于原圖的坐標(biāo)轉(zhuǎn)換成降采樣后的坐標(biāo),再通過(guò)高斯模糊變成熱圖形式,本文將該過(guò)程稱為坐標(biāo)編碼。反之為了得到關(guān)節(jié)點(diǎn)在原圖中的坐標(biāo),在網(wǎng)絡(luò)進(jìn)行熱圖預(yù)測(cè)后,需先進(jìn)行對(duì)應(yīng)的分辨率恢復(fù),再轉(zhuǎn)換成坐標(biāo)表示,這種從熱圖到坐標(biāo)的轉(zhuǎn)換過(guò)程稱為坐標(biāo)解碼。

在人體姿態(tài)估計(jì)的研究中,大多關(guān)注網(wǎng)絡(luò)的構(gòu)建和改進(jìn),很少研究關(guān)節(jié)點(diǎn)的編碼和解碼過(guò)程。然而在分辨率變化時(shí)可能引入量化誤差,會(huì)對(duì)整個(gè)的預(yù)測(cè)結(jié)果產(chǎn)生比想象中更大的影響,所以本文在關(guān)節(jié)點(diǎn)的編碼和解碼的研究中選用了DARK的編解碼方法[11]。

1.2.1 原有的編碼和解碼方法

在對(duì)原有的坐標(biāo)進(jìn)行編碼之前,需要將原圖降采樣到模型輸入的大小,所以在生成熱圖之前,需要依據(jù)分辨率的變換對(duì)坐標(biāo)進(jìn)行相應(yīng)的變換。

降采樣后的坐標(biāo)為

對(duì)?進(jìn)行量化處理后,得

其中,(,)為關(guān)節(jié)點(diǎn)在原圖中的真實(shí)坐標(biāo);為降采樣率;函數(shù)為量化函數(shù),常用的選項(xiàng)可以為向下、向上取整函數(shù)和四舍五入函數(shù)。

以量化坐標(biāo)″為中心的熱圖,即

其中,(,)為熱圖中的像素位置;為固定的空間方差。

原有的坐標(biāo)解碼方法是由文獻(xiàn)[12]依據(jù)其當(dāng)時(shí)研究的模型性能按照經(jīng)驗(yàn)設(shè)計(jì)的,由熱圖轉(zhuǎn)換而來(lái)的坐標(biāo)位置為

1.2.2 DARK的編碼和解碼方法

DARK的坐標(biāo)編碼和解碼方法研究了預(yù)測(cè)熱圖的分布結(jié)構(gòu),和原有的幾乎沒(méi)有設(shè)計(jì)依據(jù)的編解碼方法有很大的不同。

DARK的坐標(biāo)編碼方法:用非量化之前的?代表量化中心,將式(3)中的″用?替代。

DARK的坐標(biāo)解碼方法:為了獲得亞像素級(jí)的準(zhǔn)確坐標(biāo),假設(shè)預(yù)測(cè)熱圖和真實(shí)熱圖一樣服從二維高斯分布。因此,可將預(yù)測(cè)熱圖表示為

對(duì)式(6)進(jìn)行對(duì)數(shù)變換可得

本文的目標(biāo)只為了估算,高斯分布的一個(gè)極值點(diǎn),該點(diǎn)的一階導(dǎo)數(shù)滿足

為了探索該條件,采用了泰勒定理,選用二次項(xiàng)泰勒級(jí)數(shù)在預(yù)測(cè)熱圖的最大激活處進(jìn)行近似化

其中,″()為在處的二階導(dǎo)數(shù),可定義為

由式(9)~(11)可得

2 特定運(yùn)動(dòng)幀獲取

運(yùn)動(dòng)視頻中特定運(yùn)動(dòng)幀的獲取是一項(xiàng)具有挑戰(zhàn)的任務(wù),因視頻數(shù)據(jù)的維度高且復(fù)雜。視頻具有時(shí)間特性,因可將運(yùn)動(dòng)視頻看作時(shí)序數(shù)據(jù),但每個(gè)時(shí)序點(diǎn)并不是一維數(shù)據(jù)而是圖像,這種復(fù)雜的數(shù)據(jù)形式給處理方法的選擇造成了很大的困難。

本文選用聚類的思想對(duì)視頻數(shù)據(jù)進(jìn)行處理,以解決上述問(wèn)題。先基于人體骨架信息進(jìn)行特征提取,在固定了聚類中心和簇?cái)?shù)之后讓數(shù)據(jù)根據(jù)彼此的相似性進(jìn)行自動(dòng)分類,聚類完成后,選取與聚類中心最相似的運(yùn)動(dòng)幀作為該特定運(yùn)動(dòng)幀。在武術(shù)運(yùn)動(dòng)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)準(zhǔn)確率達(dá)87.5%。

2.1 運(yùn)動(dòng)特征提取

將運(yùn)動(dòng)視頻的每一幀圖像送入Small-HRNet網(wǎng)絡(luò)中進(jìn)行人體姿態(tài)估計(jì),得到人體關(guān)節(jié)點(diǎn)的坐標(biāo)信息,利用坐標(biāo)信息對(duì)運(yùn)動(dòng)特征進(jìn)行提取。每3個(gè)相鄰的人體關(guān)節(jié)點(diǎn)會(huì)形成一個(gè)夾角,利用關(guān)節(jié)點(diǎn)的坐標(biāo)通過(guò)余弦定理可計(jì)算夾角,將一系列的夾角角度作為運(yùn)動(dòng)特征。但是僅僅利用角度大小作為特征信息會(huì)有信息缺失。如圖4所示,左圖中左肩、左肘和左腕3個(gè)相鄰關(guān)節(jié)點(diǎn)(⑤-⑦-⑨)形成的夾角角度與右圖中相同部位形成的大小相等,但是可以清楚地看出,二者顯示的并不是同一動(dòng)作,因此僅用夾角大小作為特征信息并不合適。

為了解決僅用角度大小存在的信息缺失問(wèn)題,在運(yùn)動(dòng)特征中增加了方向信息,實(shí)際增加了2個(gè)向量之間的相對(duì)位置信息,不再直接利用余弦定理完成角度計(jì)算,而是定義了關(guān)節(jié)點(diǎn)的旋轉(zhuǎn)角,將一系列的旋轉(zhuǎn)角作為運(yùn)動(dòng)特征。以左肩、左肘和左腕為例,從左肘到左肩的矢量為,從左肘到左腕的矢量為,且和均為單位矢量,矢量逆時(shí)針旋轉(zhuǎn)到矢量的角度定義為的旋轉(zhuǎn)角。

圖4 不同動(dòng)作具有相同角度示意圖

根據(jù)運(yùn)動(dòng)時(shí)人體關(guān)節(jié)點(diǎn)的重要程度,選取了11個(gè)關(guān)節(jié)點(diǎn)的旋轉(zhuǎn)角作為運(yùn)動(dòng)特征,見(jiàn)表1。

表1 運(yùn)動(dòng)特征所含旋轉(zhuǎn)角信息

2.2 運(yùn)動(dòng)特征聚類

本文將每一幀的運(yùn)動(dòng)特征作為一個(gè)樣本點(diǎn),對(duì)完整視頻形成的所有樣本點(diǎn)進(jìn)行固定聚類中心和簇?cái)?shù)的聚類操作。固定的聚類中心選用的是一系列標(biāo)準(zhǔn)動(dòng)作幀的運(yùn)動(dòng)特征,簇?cái)?shù)與需要獲取的特定運(yùn)動(dòng)幀數(shù)量相等,樣本點(diǎn)和聚類中心的距離可表示為對(duì)應(yīng)關(guān)節(jié)點(diǎn)旋轉(zhuǎn)角之間的歐式距離之和加一個(gè)偏移量,即

其中,為運(yùn)動(dòng)特征中關(guān)節(jié)點(diǎn)旋轉(zhuǎn)角的個(gè)數(shù);為當(dāng)前樣本點(diǎn)的關(guān)節(jié)點(diǎn)旋轉(zhuǎn)角;為和當(dāng)前樣本點(diǎn)第個(gè)旋轉(zhuǎn)角相對(duì)應(yīng)的標(biāo)準(zhǔn)幀的關(guān)節(jié)點(diǎn)旋轉(zhuǎn)角;為偏移量。研究中發(fā)現(xiàn),對(duì)于2個(gè)不同的動(dòng)作會(huì)出現(xiàn)鏡像的情況,即所有的旋轉(zhuǎn)角都一致,但一個(gè)動(dòng)作人臉是正面而另一個(gè)是反面,所以即便使用旋轉(zhuǎn)角還是會(huì)造成錯(cuò)誤。為了解決該問(wèn)題,本文采用了一個(gè)簡(jiǎn)單而有效的方法,判斷左腳和右腳的相對(duì)位置。若右腳的水平坐標(biāo)值比左腳的值小,則說(shuō)明人臉是正面,反之是背面。所以用偏移量來(lái)表示樣本點(diǎn)是否與該聚類中心的動(dòng)作同方向,若相同,為零,否則為無(wú)窮大。

將帶有運(yùn)動(dòng)特征的所有視頻幀進(jìn)行聚類,完成后將距每個(gè)聚類中心最近的視頻幀作為所求的特定運(yùn)動(dòng)幀,并完成其獲取任務(wù)。

從實(shí)驗(yàn)樣本中隨機(jī)抽取5個(gè)視頻,按式(13)計(jì)算其8個(gè)正確運(yùn)動(dòng)幀與每個(gè)標(biāo)準(zhǔn)幀的距離,并得到平均值繪制熱力圖,如圖5所示。從圖中可以看出,正確幀與其相對(duì)應(yīng)的標(biāo)準(zhǔn)幀的距離是最小的,表明旋轉(zhuǎn)角和運(yùn)動(dòng)幀之間有一定的相關(guān)性,可以利用旋轉(zhuǎn)角之間的距離計(jì)算完成運(yùn)動(dòng)特征的聚類。

圖5 標(biāo)準(zhǔn)幀與正確幀之間距離均值的熱力圖

3 實(shí)驗(yàn)結(jié)果與分析

3.1 實(shí)驗(yàn)平臺(tái)

本文實(shí)驗(yàn)所用處理器為英特爾i7-9750H,內(nèi)存為16 G,顯卡為8 G的RTX2070,系統(tǒng)使用的是Ubuntu20.04版本。實(shí)驗(yàn)基于pytorch深度學(xué)習(xí)框架對(duì)人體姿態(tài)估計(jì)模型進(jìn)行搭建,并使用GPU加速訓(xùn)練和識(shí)別過(guò)程。

3.2 人體姿態(tài)估計(jì)實(shí)驗(yàn)結(jié)果與分析

3.2.1 數(shù)據(jù)集

本文選擇在人體姿態(tài)估計(jì)最常用的MPII和COCO2個(gè)基準(zhǔn)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)。MPII數(shù)據(jù)集[13]總共包括25 000張帶有標(biāo)注信息的圖片,其中單人的姿態(tài)標(biāo)注有40 000多個(gè),人體被標(biāo)注為16個(gè)骨骼關(guān)節(jié)點(diǎn)。COCO數(shù)據(jù)集[14]總共包括200 000張帶有標(biāo)注信息的圖片,其中單人標(biāo)注有250 000個(gè),人體被標(biāo)注為17個(gè)關(guān)節(jié)點(diǎn),并對(duì)每個(gè)關(guān)節(jié)點(diǎn)的坐標(biāo)和可見(jiàn)性均進(jìn)行了記錄。

實(shí)驗(yàn)1.選用MPII數(shù)據(jù)集中的訓(xùn)練集樣本22 246個(gè)作為訓(xùn)練樣本,選用其驗(yàn)證集作為測(cè)試樣本,驗(yàn)證集中包含2 958個(gè)樣本MPII的骨骼關(guān)節(jié)點(diǎn)信息,如圖6所示。

圖6 MPII數(shù)據(jù)集的骨骼點(diǎn)信息圖

實(shí)驗(yàn)2.選用COCO數(shù)據(jù)集中的訓(xùn)練集149 813個(gè)樣本作為訓(xùn)練樣本,選用其驗(yàn)證集的6 352個(gè)樣本作為測(cè)試樣本。COCO的骨骼關(guān)節(jié)點(diǎn)信息如圖7所示。

3.2.2 評(píng)價(jià)指標(biāo)

本文在實(shí)驗(yàn)1即MPII數(shù)據(jù)集中使用PCKh評(píng)價(jià)指標(biāo)作為模型評(píng)估的度量。PCK定義為模型檢測(cè)出的關(guān)節(jié)點(diǎn)與正確標(biāo)注的關(guān)節(jié)點(diǎn)之間歸一化的距離,小于事先設(shè)定閾值的一定比例,可稱為PCK@評(píng)價(jià)方法[15]。在MPII數(shù)據(jù)集中歸一化距離以頭部長(zhǎng)度作為歸一化參考,即為PCKh。常用的PCKh評(píng)價(jià)有PCKh@0.2和PCKh@0.5。實(shí)驗(yàn)選用PCKh@0.5作為模型的準(zhǔn)確率評(píng)價(jià)標(biāo)準(zhǔn)。即若模型檢測(cè)的關(guān)節(jié)點(diǎn)與正確標(biāo)注關(guān)節(jié)點(diǎn)之間的像素坐標(biāo)距離小于人體頭部長(zhǎng)度比例的0.5時(shí),表示該關(guān)節(jié)點(diǎn)檢測(cè)正確[15]。其準(zhǔn)確率為

圖7 COCO數(shù)據(jù)集的骨骼點(diǎn)信息圖

其中,為檢測(cè)正確的個(gè)數(shù);為總的檢測(cè)個(gè)數(shù)。

本文在實(shí)驗(yàn)2即COCO數(shù)據(jù)集中使用評(píng)價(jià)指標(biāo)[14]作為模型評(píng)估的度量,即

其中,d為預(yù)測(cè)的關(guān)節(jié)點(diǎn)與正確標(biāo)注的關(guān)節(jié)點(diǎn)之間的歐式距離;為關(guān)節(jié)點(diǎn)的個(gè)數(shù);v為該關(guān)節(jié)點(diǎn)是否可見(jiàn),大于零為可見(jiàn);為目標(biāo)尺度;k為關(guān)節(jié)點(diǎn)的控制衰減常數(shù)。50表示為0.50時(shí)的檢測(cè)準(zhǔn)確度,本文在實(shí)驗(yàn)中選擇平均準(zhǔn)確率來(lái)進(jìn)行模型評(píng)估,為分別等于0.50,0.55,0.60,···,0.90,0.95時(shí)準(zhǔn)確度的均值。

3.2.3 訓(xùn)練策略

實(shí)驗(yàn)在模型訓(xùn)練時(shí)采用部分HRNet的預(yù)訓(xùn)練權(quán)重對(duì)網(wǎng)絡(luò)進(jìn)行初始化,因?yàn)閷?duì)模型的網(wǎng)絡(luò)結(jié)構(gòu)和基礎(chǔ)塊進(jìn)行了修改,所以并不能使用全部的預(yù)訓(xùn)練權(quán)重,當(dāng)初始化模型檢測(cè)效果不理想時(shí),損失函數(shù)值會(huì)變大,且極易造成梯度分散并影響準(zhǔn)確率,因此需選用部分預(yù)訓(xùn)練權(quán)重進(jìn)行初始化。本實(shí)驗(yàn)?zāi)P偷挠?xùn)練參數(shù)見(jiàn)表2,在訓(xùn)練中小于170時(shí),學(xué)習(xí)率定為初始學(xué)習(xí)率0.100,之后的迭代則將學(xué)習(xí)率設(shè)置為最終的0.001。

表2 模型訓(xùn)練參數(shù)

3.2.4 結(jié)果與分析

本文在對(duì)HRNet網(wǎng)絡(luò)進(jìn)行改進(jìn)和輕量化后,在MPII數(shù)據(jù)集和COCO驗(yàn)證集上分別進(jìn)行了對(duì)比實(shí)驗(yàn)。實(shí)驗(yàn)1的結(jié)果見(jiàn)表3,結(jié)果表明本文方法相比HRNet-32和HRNet-32+DARK方法,在保持精確度不變時(shí)參數(shù)量和GFLOPs大幅度下降,參數(shù)量減少了82.1%,GFLOPs降低了53.2%,相較于HRNet-32方法精確度僅下降了0.1%。

表3 不同方法在MPII驗(yàn)證集上的對(duì)比

實(shí)驗(yàn)2的結(jié)果見(jiàn)表4,結(jié)果表明本文方法相比HRNet-32和HRNet-32+DARK方法參數(shù)量減少了82.1%,GFLOPs降低了53.7%,相較于HRNet-32方法精確度下降了1.0%。

表4 不同方法在COCO驗(yàn)證集上的對(duì)比

通過(guò)實(shí)驗(yàn)結(jié)果可以看出,本文使用的Small- HRNet模型同時(shí)采用DARK數(shù)據(jù)編解碼方法,可以大幅度地縮小模型規(guī)模并保持精度基本不變。

圖8為本文實(shí)驗(yàn)的測(cè)試結(jié)果可視化示意圖。圖中本文方法具有一定的魯棒性,即使在人體有遮擋的情況下,也能夠準(zhǔn)確檢測(cè)出人體的關(guān)節(jié)點(diǎn),并得到坐標(biāo)信息進(jìn)行后續(xù)研究。

圖8 可視化結(jié)果示意圖((a) MPII中無(wú)遮擋結(jié)果;(b) MPII中部分遮擋結(jié)果;(c) COCO中無(wú)遮擋結(jié)果;(d) COCO中部分遮擋結(jié)果)

3.3 關(guān)鍵動(dòng)作幀獲取實(shí)驗(yàn)結(jié)果與分析

3.3.1 數(shù)據(jù)集

本文實(shí)驗(yàn)選用了2個(gè)中學(xué)關(guān)于武術(shù)運(yùn)動(dòng)的20個(gè)視頻作為實(shí)驗(yàn)測(cè)試集,選取理由:①武術(shù)動(dòng)作復(fù)雜程度高且動(dòng)作幅度大,相比一般的運(yùn)動(dòng)研究難度更大,可以突出本文實(shí)驗(yàn)方法在復(fù)雜運(yùn)動(dòng)中的有效性;②選用專業(yè)化程度不高的中學(xué)生的武術(shù)視頻,可以驗(yàn)證在出錯(cuò)率較高的實(shí)際場(chǎng)景下本文方法的魯棒性。本文實(shí)驗(yàn)選取了8個(gè)武術(shù)典型動(dòng)作作為實(shí)驗(yàn)動(dòng)作,分別為并步抱拳、沖拳彈踢、馬步?jīng)_拳、弓步?jīng)_拳、正馬步?jīng)_拳、弓步雙沖拳、馬步架打和回身弓步?jīng)_拳,如圖9所示。

圖10為利用Small-HRNet模型對(duì)武術(shù)數(shù)據(jù)集進(jìn)行姿態(tài)估計(jì)的可視化結(jié)果圖,可以看出本文方法在武術(shù)數(shù)據(jù)集上也有良好的效果。因?yàn)檫\(yùn)動(dòng)特征中利用了旋轉(zhuǎn)角,為了方便分析,在數(shù)據(jù)集的可視化中添加了軀干可視化結(jié)果。

圖9 武術(shù)動(dòng)作示意圖((a)并步抱拳;(b)沖拳彈踢;(c)馬步抱拳;(d)弓步?jīng)_拳;(e)正馬步?jīng)_拳;(f)弓步雙沖拳;(g)馬步架打;(h)回身弓步?jīng)_拳)

圖10 武術(shù)數(shù)據(jù)集可視化結(jié)果圖

3.3.2 評(píng)價(jià)指標(biāo)

本文實(shí)驗(yàn)選用準(zhǔn)確率作為評(píng)價(jià)指標(biāo),用預(yù)測(cè)正確的幀數(shù)占整個(gè)實(shí)驗(yàn)幀數(shù)的比例進(jìn)行評(píng)價(jià),但預(yù)測(cè)正確的定義與通常意義的并不相同,實(shí)驗(yàn)中的每幀按每秒30幀進(jìn)行獲取。實(shí)驗(yàn)前將得到每一個(gè)武術(shù)動(dòng)作幀的最優(yōu)幀,實(shí)驗(yàn)后得到預(yù)測(cè)幀,若實(shí)驗(yàn)的預(yù)測(cè)幀出現(xiàn)在最優(yōu)幀的前后3幀之內(nèi),將認(rèn)定該動(dòng)作幀預(yù)測(cè)正確,反之認(rèn)為預(yù)測(cè)錯(cuò)誤。

3.3.3 結(jié)果與分析

本實(shí)驗(yàn)采用COCO數(shù)據(jù)集對(duì)人體關(guān)節(jié)點(diǎn)的標(biāo)注形式完成運(yùn)動(dòng)特征的提取,并利用本文提出的歐式距離加偏移量的方法作為距離度量進(jìn)行聚類操作,實(shí)驗(yàn)結(jié)果見(jiàn)表5。本文提出的方法在武術(shù)數(shù)據(jù)集上的準(zhǔn)確率達(dá)87.5%,比單純利用歐式距離做度量的方法提高了12.5%。實(shí)驗(yàn)表明本文方法能夠較好地提取8種典型武術(shù)動(dòng)作幀。

表5 不同距離度量在武術(shù)數(shù)據(jù)集上的對(duì)比(%)

3.4 局限性分析

圖11(a)為弓步?jīng)_拳的教練標(biāo)準(zhǔn)幀,圖11(b)為某一實(shí)驗(yàn)樣本中該動(dòng)作的預(yù)測(cè)幀,該學(xué)生的左手并未伸直,所以不在所要尋找的正確幀范圍內(nèi)。由于人體相對(duì)于攝像機(jī)的位置不同,視角產(chǎn)生差異從而導(dǎo)致了錯(cuò)誤。可以看出本文方法對(duì)視角十分敏感。

圖11 錯(cuò)誤樣例示意圖((a)教練標(biāo)準(zhǔn)幀;(b)對(duì)應(yīng)預(yù)測(cè)幀)

對(duì)視角敏感的根本原因是本文通過(guò)二維姿態(tài)估計(jì)為基礎(chǔ)提出特定運(yùn)動(dòng)幀的獲取方法,而二維關(guān)鍵點(diǎn)信息天然具有姿態(tài)的不確定性。在復(fù)雜情況下難以反映完整的三維姿態(tài)信息,使得本文的方法在更加復(fù)雜的數(shù)據(jù)集中擴(kuò)展有一定困難。

4 結(jié)束語(yǔ)

本文提出了一種輕量化人體姿態(tài)估計(jì)模型和一種視頻特定動(dòng)作幀的獲取方法。通過(guò)對(duì)網(wǎng)絡(luò)結(jié)構(gòu)和基礎(chǔ)塊的改進(jìn),完成對(duì)現(xiàn)有姿態(tài)估計(jì)模型的輕量化操作,并通過(guò)該輕量化網(wǎng)絡(luò)對(duì)視頻進(jìn)行人體姿態(tài)估計(jì),利用骨骼信息從中提取運(yùn)動(dòng)特征同時(shí)結(jié)合聚類的知識(shí),完成對(duì)視頻特定運(yùn)動(dòng)幀的獲取。實(shí)驗(yàn)結(jié)果表明,本文的輕量化網(wǎng)絡(luò)在基本保持精度不變的情況下大幅度減少了模型參數(shù)。本文的視頻特定動(dòng)作幀獲取方法可以有效地提取出8種典型武術(shù)動(dòng)作幀,均具有很好的實(shí)用性?,F(xiàn)階段只選取了部分的武術(shù)動(dòng)作進(jìn)行研究,且沒(méi)有重復(fù)動(dòng)作,后續(xù)將對(duì)擁有重復(fù)動(dòng)作和更多種類的視頻進(jìn)行特定動(dòng)作幀的獲取研究。

[1] CHAARAOUI A A, CLIMENT-PéREZ P, FLóREZ- REVUELTA F. An efficient approach for multi-view human action recognition based on bag-of-key-poses[C]//The 3rd International Conference on Human Behavior Understanding. Heidelberg: Springer, 2012: 29-40.

[2] CHAARAOUI A A, PADILLA-L PEZ J R, CLIMENT- PéREZ P, et al. Evolutionary joint selection to improve human action recognition with RGB-D devices[J]. Expert Systems With Applications, 2014, 41: 786-794.

[3] CHANDRASEKARAN B, CHITRAKALA S. Robust and adaptive approach for human action recognition based on weighted enhanced dynamic time warping[C]//The 3rd International Symposium on Women in Computing and Informatics. New York: ACM Press, 2015: 412-418.

[4] 季月鵬. 基于視頻人體姿態(tài)估計(jì)的高爾夫揮桿動(dòng)作比對(duì)分析研究[D]. 南京: 南京郵電大學(xué), 2019.

JI Y P. The research on golf swing action comparison based on video human body pose estimation[D]. Nanjing: Nanjing University of Posts and Telecommunications, 2019 (in Chinese).

[5] 郭天曉, 胡慶銳, 李建偉, 等. 基于人體骨架特征編碼的健身動(dòng)作識(shí)別方法[J]. 計(jì)算機(jī)應(yīng)用, 2021, 41(5): 1458-1464.

GUO T X, HU Q R, LI J W, et al. Fitness action recognition method based on human skeleton feature encoding[J]. Journal of Computer Applications, 2021, 41(5): 1458-1464 (in Chinese).

[6] WEI S E, RAMAKRISHNA V, KANADE T, et al. Convolutional pose machines[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2016: 4724-4732.

[7] CHEN Y L, WANG Z C, PENG Y X, et al. Cascaded pyramid network for multi-person pose estimation[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2018: 7103-7112.

[8] SUN K, XIAO B, LIU D, et al. Deep high-resolution representation learning for human pose estimation[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2019: 5686-5696.

[9] XIA F T, WANG P, CHEN X J, et al. Joint multi-person pose estimation and semantic part segmentation[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2017: 6080-6089.

[10] CAO Z, SIMON T, WEI S E, et al. Realtime multi-person 2D pose estimation using part affinity fields[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2017: 1302-1310.

[11] ZHANG F, ZHU X T, DAI H B, et al. Distribution-aware coordinate representation for human pose estimation[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2020: 7091-7100.

[12] NEWELL A, YANG K Y, DAI J. Stacked hourglass networks for human pose estimation[C]//2016 European Conference on Computer Vision. Cham: Springer Intemational Publising, 2016: 483-499.

[13] ANDRIUKA M,PISHCHULIN L,GEHLERM A P, et al. Human pose estimation: new benchmark and state of the art analysis[C]//2014 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2014: 3686-3693.

[14] LIN T Y, MAIRE M, BELONGIE S, et al. Microsoft COCO: common objects in context[C]//2014 European Conference on Computer Vision. Cham: Springer Intemational Publising, 2014: 740-755.

[15] 張世豪. 基于深度學(xué)習(xí)的人體骨骼關(guān)鍵點(diǎn)檢測(cè)方法研究[D]. 桂林: 桂林電子科技大學(xué), 2019.

ZHANG S H. Research on key point detection method of human skeleton based on deep learning[D]. Guilin: Guilin University of Electronic Technology 2019 (in Chinese).

[16] HUANG J J, ZHU Z, GUO F, et al. The devil is in the details: delving into unbiased data processing for human pose estimation[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2020: 5699-5708.

Acquisition method of specific motion frame based on human attitude estimation and clustering

CAI Min-min, HUANG Ji-feng, LIN Xiao, ZHOU Xiao-ping

(School of Information and Electromechanical Engineering, Shanghai Normal University, Shanghai 200234, China)

The acquisition of specific motion frames in motion video was an important part of intelligent teaching. In order to obtain specific motion frames in video for further analysis, a method of extracting specific motion frames from motion video was proposed using the knowledge of pose estimation and clustering. Firstly, the HRNet attitude estimation model was adopted as the basis, which was of high precision but large scale. To meet the needs of practical application, this paper proposed a Small-HRNet network model by combining it with the data encoding of DARK. The parameters were reduced by 82.0% while the precision was kept unchanged. Then, the Small-HRNet model was employed to extract human joint points from the video. The human skeleton feature in each video frame served as the sample point of clustering, and finally the whole video was clustered by the skeleton feature of the standard motion frame as the clustering center to produce the specific motion frame of the video. The experiment was carried out on the martial arts data set, and the accuracy rate of the martial arts action frame extraction was 87.5%, which can effectively extract the martial arts action frame.

specific motion frame; attitude estimation; data encoding and decoding; movement characteristics; clustering

23 June,2021;

TP 391

10.11996/JG.j.2095-302X.2022010044

A

2095-302X(2022)01-0044-09

2021-06-23;

2021-08-15

15 August,2021

國(guó)家自然科學(xué)基金項(xiàng)目(61775139);上海市地方能力建設(shè)項(xiàng)目(19070502900)

National Natural Science Foundation of China (61775139);Shanghai Local Capacity Building Project (19070502900)

蔡敏敏(1997–),女,碩士研究生。主要研究方向?yàn)闄C(jī)器學(xué)習(xí)與計(jì)算機(jī)視覺(jué)。E-mail:caiminminw@163.com

CAI Min-min (1997–), master student. Her main research interests cover machine learning and computer vision. E-mail:caiminminw@163.com

黃繼風(fēng)(1963–),男,教授,博士。主要研究方向?yàn)闄C(jī)器學(xué)習(xí)與機(jī)器視覺(jué)等。E-mail:jfhuang@shnu.edu.cn

HUANG Ji-feng (1963–), professor, Ph.D. His main research interests cover machine learning, machine vision, etc. E-mail:jfhuang@shnu.edu.cn

猜你喜歡
關(guān)節(jié)點(diǎn)姿態(tài)聚類
基于深度學(xué)習(xí)和視覺(jué)檢測(cè)的地鐵違規(guī)行為預(yù)警系統(tǒng)研究與應(yīng)用
關(guān)節(jié)點(diǎn)連接歷史圖與卷積神經(jīng)網(wǎng)絡(luò)結(jié)合的雙人交互動(dòng)作識(shí)別
攀爬的姿態(tài)
全新一代宋的新姿態(tài)
汽車觀察(2018年9期)2018-10-23 05:46:40
跑與走的姿態(tài)
基于DBSACN聚類算法的XML文檔聚類
搞好新形勢(shì)下軍營(yíng)美術(shù)活動(dòng)需把握的關(guān)節(jié)點(diǎn)
基于改進(jìn)的遺傳算法的模糊聚類算法
一種層次初始的聚類個(gè)數(shù)自適應(yīng)的聚類方法研究
自適應(yīng)確定K-means算法的聚類數(shù):以遙感圖像聚類為例
文山县| 乌拉特中旗| 普定县| 肥乡县| 酉阳| 富源县| 邵阳县| 德化县| 阜康市| 濉溪县| 宁明县| 廊坊市| 南和县| 四平市| 新巴尔虎右旗| 民勤县| 古交市| 喀什市| 普安县| 辰溪县| 琼结县| 麻城市| 如皋市| 昆明市| 乐安县| 延边| 绥江县| 新巴尔虎左旗| 深泽县| 阳新县| 西乌珠穆沁旗| 通渭县| 卫辉市| 张掖市| 南京市| 扎囊县| 博客| 诸暨市| 东海县| 新巴尔虎右旗| 浏阳市|