馬驍,閆育東
(1天津體育學(xué)院 體育教育與科學(xué)學(xué)院,天津 300000;2沈陽航空航天大學(xué) 體育部,沈陽 110136;3天津體育學(xué)院 繼續(xù)教育學(xué)院,天津 300000)
籃球作為我國的三大球之一,因具有集體性、對抗性和趣味性等特點(diǎn)而被廣泛普及.在籃球教學(xué)課堂中,學(xué)員人數(shù)較多,且表現(xiàn)出技戰(zhàn)術(shù)繁多、攻防速度較快、對抗競爭較強(qiáng)的特點(diǎn),教練只能粗略觀察學(xué)員的肢體動作來判斷學(xué)員的技術(shù)變化,難以準(zhǔn)確全面地了解每個(gè)學(xué)員對籃球技術(shù)的實(shí)時(shí)掌握情況.因此,通過引入人工智能技術(shù)對每位學(xué)員的動作姿態(tài)進(jìn)行實(shí)時(shí)估計(jì),幫助教練及時(shí)掌握學(xué)員的學(xué)習(xí)進(jìn)度,適時(shí)調(diào)整訓(xùn)練方案,將極大推進(jìn)個(gè)性化教學(xué)的實(shí)現(xiàn)[1].
人體姿態(tài)估計(jì)技術(shù)是計(jì)算機(jī)視覺領(lǐng)域的重要課題,其目的是從輸入的圖像或視頻中定位關(guān)節(jié)位置并構(gòu)建人體姿態(tài)表征.該技術(shù)已被廣泛應(yīng)用于多種運(yùn)動場景來輔助分析和提高運(yùn)動員成績,包括足球、棒球、跳遠(yuǎn)、舞蹈和跳臺滑雪等領(lǐng)域[2].
目前,多人姿態(tài)估計(jì)算法可以分為兩類:自上而下(top-down)和自下而上(bottom-up)的方法[3].大多數(shù)自上而下的方法被認(rèn)為是對單人姿態(tài)估計(jì)算法的直接拓展,此類算法首先需要對每個(gè)人體進(jìn)行檢測和裁剪,然后再分別對每個(gè)人體進(jìn)行姿態(tài)估計(jì)[4].因此,很多針對單人姿態(tài)估計(jì)的算法通過預(yù)先標(biāo)定人體邊界框的方式,從而用于處理多人場景[4].最新的算法通過構(gòu)建一個(gè)端到端的框架來同時(shí)優(yōu)化這兩個(gè)步驟.PAPANDREOU等人使用Faster R-CNN從原始圖像中裁剪人物區(qū)域并引入熱圖和向量場思想將每個(gè)關(guān)節(jié)點(diǎn)作為一個(gè)2D的偏移場[5].LI等人提出了一種端到端的級聯(lián)Transformer回歸模型,首先檢測所有人體的邊界框,然后再估計(jì)每個(gè)人所包含的關(guān)節(jié)位置[6].萬等人提出一種兩階段的姿態(tài)估計(jì)模型,首先使用基于全卷積的模塊獲取關(guān)節(jié)的空間體素表達(dá),然后再由基于全聯(lián)接的模塊回歸出空間人體姿態(tài)坐標(biāo)[7].馬等人以Lite-HRNet為基礎(chǔ)引入多譜注意力機(jī)制,使模型在捕捉不同分辨率特征時(shí)可以獲取更為豐富、有效的特征[2].自下而上的方法不需要使用人體檢測器來標(biāo)注邊界框,首先估計(jì)出圖中所有的關(guān)節(jié)點(diǎn),然后再將這些關(guān)節(jié)點(diǎn)分組到不同的人體中.CAO等人提出了一個(gè)雙分支卷積神經(jīng)網(wǎng)絡(luò)架構(gòu),一支通過預(yù)測置信圖來表示關(guān)節(jié)點(diǎn)位置,另一支通過預(yù)測局部親和場來描述關(guān)節(jié)點(diǎn)間的相關(guān)程度[8].LUO等人展示了一種多層分形網(wǎng)絡(luò),該網(wǎng)絡(luò)通過回歸關(guān)節(jié)點(diǎn)位置熱圖,并推測相鄰節(jié)點(diǎn)間的相關(guān)關(guān)系來定義最為匹配的關(guān)節(jié)對[9].李等人提出一種基于多尺度注意力機(jī)制的高分辨率網(wǎng)絡(luò),通過輕量級金字塔卷積核注意力特征模塊捕捉較為充分的特征信息[10].陳等人提出結(jié)合先驗(yàn)知識和三維姿態(tài)深度信息以提升姿態(tài)估計(jì)的準(zhǔn)確性[11].YANG等人設(shè)計(jì)模型首先根據(jù)關(guān)節(jié)點(diǎn)的歷史運(yùn)動軌跡預(yù)測關(guān)節(jié)點(diǎn)未來的位置,然后再與估計(jì)出的關(guān)節(jié)點(diǎn)信息相聚合,定位出最終的位置[12].然而,現(xiàn)有的人體姿態(tài)估計(jì)算法主要針對日常生活場景的數(shù)據(jù),在行走、遛狗、相互交談等較為簡單的人體姿態(tài)場景中取得了較好的性能.而籃球賽這樣的復(fù)雜場景中存在動作復(fù)雜多變、運(yùn)動模糊、遮擋嚴(yán)重和視頻采集視角變化等特點(diǎn),當(dāng)前姿態(tài)估計(jì)算法難以準(zhǔn)確檢測出籃球運(yùn)動員身體的關(guān)節(jié)點(diǎn).其原因可以分為兩個(gè)方面:(1)由于運(yùn)動模糊、相互遮擋導(dǎo)致運(yùn)動信息缺失,破壞了運(yùn)動的連續(xù)性.然而,現(xiàn)有算法以逐幀的方式讀取視頻信息,難以利用其它時(shí)刻的互補(bǔ)信息來補(bǔ)充缺失的特征.(2)由于拍攝視角變化等原因帶來人體外形的復(fù)雜多變,使傳統(tǒng)算法難以準(zhǔn)確建模人體的空間特征導(dǎo)致模型性能的降低.
針對上述挑戰(zhàn),本文提出了一種基于多尺度時(shí)空關(guān)聯(lián)特征的籃球動作姿態(tài)估計(jì)算法,如圖1所示,包括兩個(gè)主要模塊:(1)基于Transformer的人體時(shí)序特征捕捉模塊,使用堆疊的多頭自注意力模塊對序列層級的時(shí)空特征信息進(jìn)行采集來獲取魯棒的時(shí)序特征.即通過引入多頭注意力機(jī)制,對輸入圖像進(jìn)行序列級建模以獲取更為全面的局部時(shí)序信息,從而對所缺失信息進(jìn)行補(bǔ)充和完善.(2)基于可形變卷積的多尺度人體空間特征融合模塊,通過賦予模型可學(xué)習(xí)的空間形變能力來適應(yīng)人體外形的變化,并使用一個(gè)多尺度特征提取框架來對人體淺層和深層信息進(jìn)行融合以獲取更為充分的空間特征.最后使用卷積層來獲取人體姿態(tài)熱圖.
本文使用自行構(gòu)建的籃球場景人體運(yùn)動數(shù)據(jù)集、姿態(tài)估計(jì)公開基準(zhǔn)數(shù)據(jù)集PoseTrack2017和PoseTrack2018對所提出算法的性能進(jìn)行評估.實(shí)驗(yàn)結(jié)果表明:與現(xiàn)有算法相比,本文算法可表現(xiàn)出更為精準(zhǔn)的姿態(tài)估計(jì)性能.
本文算法的總體流程如圖1所示,該算法屬于自上而下的方法.首先使用基于Fast RCNN的目標(biāo)檢測器獲取視頻中每個(gè)籃球員的邊界框(Bounding Box).我們將每個(gè)邊界框擴(kuò)大30%,以保證可以從相鄰幀中提取來源于同一人體的信息.然后由所設(shè)計(jì)的基于多尺度時(shí)空關(guān)聯(lián)特征的姿態(tài)估計(jì)模型捕捉多尺度時(shí)序關(guān)聯(lián)特征和多層人體空間信息,估計(jì)出更為精準(zhǔn)的人體關(guān)節(jié)點(diǎn).下面將詳細(xì)介紹所提出算法的組件.
圖1 基于多尺度時(shí)空關(guān)聯(lián)特征的姿態(tài)估計(jì)算法整體流程圖Fig.1 Overall pipeline of our proposed framework
籃球比賽場景中人體快速運(yùn)動所導(dǎo)致的模糊、人體間存在的嚴(yán)重遮擋,都會帶來視頻幀的視覺退化問題.而僅使用當(dāng)一幀姿態(tài)所包含的信息無法從根本上解決該問題.因此,我們提出從其他相鄰視頻幀中捕捉互補(bǔ)的視覺信息,實(shí)現(xiàn)對退化信息的補(bǔ)充,從而增強(qiáng)所捕捉運(yùn)動信息的流暢和完整程度,提升對籃球員關(guān)節(jié)點(diǎn)位置估計(jì)的準(zhǔn)確率.
簡單的線性映射不能學(xué)習(xí)注意力特征,在對輸入的多幀圖像進(jìn)行序列級建模時(shí),導(dǎo)致難以合理建模隱藏于局部序列中的時(shí)序特征.針對上述問題,本文提出一個(gè)基于Transformer的人體時(shí)序特征捕捉模塊,通過引入多頭注意力機(jī)制來建立幀間人體信息的局部依賴關(guān)系,從更為相關(guān)的幀中提取時(shí)空信息,實(shí)現(xiàn)對缺失信息的補(bǔ)充.然而,自注意力模塊在任意兩像素點(diǎn)間建立聯(lián)系,將導(dǎo)致模型參數(shù)的急劇增長,所以我們將人體圖像分為由一系列3×3大小的圖像塊所組成的集合.
為提升當(dāng)前幀中某一人體的信息質(zhì)量,我們將前兩幀和后兩幀作為輔助幀,構(gòu)建局部序列來獲取額外的時(shí)空特征信息.首先將輸入序列按照時(shí)間維度進(jìn)行簡單的拼接并 輸 入 基 于Transformer的特征捕捉模塊,然后,由多頭注意力機(jī)制對輸入圖像進(jìn)行序列級建模,從而捕捉更為充分的局部時(shí)序信息.以一個(gè)自注意力頭為例,具體的操作過程如下:
輸入的局部序列被映射為查詢矩陣Q、鍵矩陣K和值矩陣V.在運(yùn)算過程中使用比例因子進(jìn)行適當(dāng)?shù)臍w一化操作,d是輸入向量的維度.上述點(diǎn)積注意力運(yùn)算的過程可以表示為:
對局部序列的線性映射表示為:
其中是經(jīng)Embedding層處理后的局部序列特征,WQ、WK和WV是線性轉(zhuǎn)換函數(shù),Embedding層的操作是由多層感知機(jī)實(shí)現(xiàn).
與傳統(tǒng)的多頭注意力層不同的是,我們并不是直接將每個(gè)注意力頭的輸出進(jìn)行簡單合并.而是再次經(jīng)過一個(gè)注意力層,由模型根據(jù)每個(gè)頭所輸出信息的重要程度進(jìn)行融合,具體過程如下:
其中MA(·)表示此模塊整體的運(yùn)算過程,Hn=Attention(Qn,Kn,Vn)表示一個(gè)注意力頭的輸出特征,n∈[1,2,…,h],h為所包含注意力頭的總數(shù).針對多個(gè)頭的輸出,我們首先使用多層感知機(jī)為每個(gè)特征學(xué)習(xí)一個(gè)權(quán)重表示其重要性,隨后將所有加權(quán)的特征按通道拼接,使用通道注意力機(jī)制為每個(gè)通道學(xué)習(xí)一個(gè)權(quán)重以關(guān)注重要的特征區(qū)域,最后使用卷積層進(jìn)行特征融合.通過這種方式我們可以獲取更為豐富的局部時(shí)序信息,從而對當(dāng)前幀所缺失的信息進(jìn)行補(bǔ)充和完善.
在球場中人體姿態(tài)存在較大形變問題,如何適應(yīng)這些復(fù)雜的形變對于捕捉人體空間特征具有重要影響.然而,傳統(tǒng)的卷積操作自身具有固定的幾何外形,從本質(zhì)上并不具備形變建模能力,無法根據(jù)人體的外觀特征進(jìn)行自適應(yīng)的調(diào)整,制約著估計(jì)精度的提升.因此,我們提出使用可形變卷積賦予模型可學(xué)習(xí)的空間形變能力,針對性地解決球場中人體外形的變化問題.此外,在特征表示中,淺層特征雖然具有準(zhǔn)確的位置信息,但是語義信息相對較少;而深層特征具有大量語義信息,但位置信息較為模糊.所以本文設(shè)計(jì)一個(gè)多尺度特征提取框架來對淺層和深層人體信息進(jìn)行融合來獲取更為充分的空間特征,以進(jìn)一步提升姿態(tài)估計(jì)模型對籃球員外形、尺寸變化的適應(yīng)性和估計(jì)的準(zhǔn)確性.
該模塊以HRNet[13]為基礎(chǔ),對多尺度空間信息進(jìn)行捕捉.HRNet可以捕捉圖像中多種不同尺度的特征信息,具有較強(qiáng)的特征表示能力,并且在圖像分割、目標(biāo)檢測和姿態(tài)估計(jì)等領(lǐng)域表現(xiàn)出較高的性能.然而,其在處理姿態(tài)估計(jì)問題時(shí),僅使用最終輸出的淺層特征進(jìn)行關(guān)節(jié)點(diǎn)估計(jì),忽略其它層次的特征,并沒有將不同層次的信息進(jìn)行有效融合.此外,其在信息融合階段不斷使用上/下采樣調(diào)整特征圖的大小,進(jìn)一步造成部分空間信息的丟失.此外,該模型在多尺度信息融合過程中只是將信息進(jìn)行簡單的拼接,并未考慮不同尺度信息的重要程度,可能會導(dǎo)致關(guān)鍵信息被負(fù)面信息所覆蓋.針對以上問題,本文設(shè)計(jì)基于可形變卷積的多尺度人體空間特征融合模塊,以提升模型的空間特征表示能力.
如圖1所示,本文提出的融合模塊包含有4個(gè)并行的多尺度子網(wǎng),每個(gè)子網(wǎng)由數(shù)個(gè)殘差單元所組成,子網(wǎng)之間采用相應(yīng)的卷積/反卷積模塊來調(diào)整特征圖大小,最后由自適應(yīng)融合模塊有選擇的拼接不同尺度的特征信息,從而達(dá)到更好的融合效果.更為重要的是,使用卷積/反卷積模塊在改變特征圖尺寸時(shí)并不會帶來特征的損失.
隨后,可形變卷積層以特征圖,卷積核偏移O和調(diào)制標(biāo)量N作為輸入,輸出調(diào)制后的特征圖
針對特征融合,以第三層子網(wǎng)中第二種尺度特征交叉融合為例,將操作過程定義為:
其中指的是第四層子網(wǎng)中經(jīng)交叉融合后的第二種尺度的特征圖,和分別表示經(jīng)第三子網(wǎng)處理后的第一、第二和第三種尺度的特征圖第一次交叉融合前的特征圖.conv(·)和Dconv(·)分別表示卷積操作和反卷積操作,這里的每個(gè)不同操作所使用的卷積核大小和步長均是基于輸入和輸出特征圖的尺度大小有針對性的進(jìn)行設(shè)定.
最后一層并行子網(wǎng)最終輸出的四種不同尺度特征圖分別表示為M1、M2、M3和M4,將特征圖經(jīng)線性映射統(tǒng)一調(diào)整為與M2的尺度大小相同,再由一個(gè)注意力層進(jìn)行自適應(yīng)融合,操作過程如下:
其中M′是多尺度人體空間特征融合模塊的最終輸出,θ1和Lin1(·)分別是最后一層子網(wǎng)最終輸出的第一種尺度特征的權(quán)重和相應(yīng)的線性映射.
最后,在含有多尺度人體空間信息的特征圖M′使用卷積層獲取關(guān)節(jié)點(diǎn)熱圖,并使用argmax函數(shù)估計(jì)出每個(gè)關(guān)節(jié)點(diǎn)的位置.
本文使用標(biāo)準(zhǔn)的姿態(tài)估計(jì)損失函數(shù)對所提出的算法進(jìn)行訓(xùn)練[12].其目的是降低預(yù)測的關(guān)節(jié)熱圖和真實(shí)數(shù)據(jù)(Ground Truth)之間的L2距離之和.損失函數(shù)可以定義為:
其中G(j)、P(j)和vj分別表示真實(shí)的熱圖、預(yù)測的熱圖和關(guān)節(jié)j的可見性.本文算法需要估計(jì)的關(guān)節(jié)總數(shù)為15.
本文在自行構(gòu)建的籃球場景人體運(yùn)動數(shù)據(jù)集、姿態(tài)估計(jì)公開基準(zhǔn)數(shù)據(jù)集PoseTrack2017和PoseTrack2018對所提出算法的性能進(jìn)行評估.
2.1.1 數(shù)據(jù)集
籃球數(shù)據(jù)集本文首先通過自行拍攝和網(wǎng)絡(luò)下載的方式收集籃球比賽視頻數(shù)據(jù),包括單人以及多人場景.然后使用HRNet模型[13]自動標(biāo)記人體關(guān)節(jié)點(diǎn),每個(gè)完整的人體由15個(gè)關(guān)節(jié)點(diǎn)所組成.最后再對這些初步標(biāo)記的數(shù)據(jù)進(jìn)行手工校對.該自行構(gòu)建的數(shù)據(jù)集一共包含15000幀圖像,其中12000幀用于訓(xùn)練,3000幀用于測試.
PoseTrack 數(shù)據(jù)集該數(shù)據(jù)集是當(dāng)前用于處理視頻中人體姿態(tài)估計(jì)和運(yùn)動追蹤任務(wù)的最大型公開基準(zhǔn)數(shù)據(jù)集.其中PoseTrack2017數(shù)據(jù)集[12]共包含66,364幀圖像,其中300段視頻用于訓(xùn)練,50段視頻用于驗(yàn)證.PoseTrack2018數(shù)據(jù)集[13]包含共計(jì)153615個(gè)帶有標(biāo)簽的人體數(shù)據(jù),其中593段視頻用于訓(xùn)練,170段用于驗(yàn)證.
2.1.2 評價(jià)指標(biāo)
根據(jù)現(xiàn)有工作[13],本文使用標(biāo)準(zhǔn)的姿態(tài)估計(jì)評價(jià)指標(biāo),關(guān)節(jié)的平均準(zhǔn)確率(Average Precision,AP)來檢測模型性能.首先計(jì)算出各個(gè)關(guān)節(jié)點(diǎn)的準(zhǔn)確率,然后再計(jì)算所有關(guān)節(jié)點(diǎn)估計(jì)準(zhǔn)確率的平均值(Mean Average Precision,MAP)來表示模型的最終性能.
本文使用Pytorch框架實(shí)現(xiàn)所提出的模型,并在兩塊NVIDIA Tesla A30 GPU上對模型進(jìn)行訓(xùn)練和測試.輸入每幀圖片的大小被固定為256×256,在訓(xùn)練的過程中,對圖像進(jìn)行隨機(jī)水平翻轉(zhuǎn)實(shí)現(xiàn)數(shù)據(jù)增強(qiáng).使用Adam優(yōu)化器對模型進(jìn)行訓(xùn)練,初始學(xué)習(xí)率設(shè)為0.001,衰減率為每個(gè)epoch降低10%,共計(jì)訓(xùn)練300個(gè)epoch.Batch Size為32.人體檢測器在COCO數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練,并在PoseTrack2017和2018數(shù)據(jù)集上進(jìn)行微調(diào).向模型輸入連續(xù)的5幀作為局部序列,在消融實(shí)驗(yàn)中詳細(xì)展示了局部序列長度不同帶來的不同姿態(tài)估計(jì)結(jié)果.
2.3.1 籃球數(shù)據(jù)集實(shí)驗(yàn)結(jié)果
本文首先在自行構(gòu)建的籃球數(shù)據(jù)集上,將本文算法與現(xiàn)有4種先進(jìn)的姿態(tài)估計(jì)算法進(jìn)行比較,包括CPM[14]、LSTM-PM[15]、SimpleBaseline(ResNet-50)[16]和HRNet[13].
如表1所示,本文檢測了每個(gè)關(guān)鍵點(diǎn)的AP和所有關(guān)鍵點(diǎn)的MAP.值得注意的是,本文算法取得了75.6的MAP,與現(xiàn)有方法相比表現(xiàn)出最為先進(jìn)的估計(jì)性能,與基于圖片的姿態(tài)估計(jì)算法SimpleBaseline和HRNet相比分別提升了5.2%和3.4%,充分證明了對采集的視頻信息進(jìn)行序列級建模,向模型引入額外的局部時(shí)空信息可以有效提升輸入信息的豐富度和完整度.另外,本文算法對那些難以估計(jì)的關(guān)節(jié)也表現(xiàn)出明顯的精度提升,比如手腕的AP為77.2,腳踝的AP為60.4,與HRNet相比分別提升了3.2%和4.2%.上述結(jié)果再次證明了充分利用局部序列信息和多尺度空間信息的重要性.
表1 本文算法與現(xiàn)有方法在自建籃球數(shù)據(jù)集的結(jié)果比較Tab 1 Performancecomparisonson theself-constructed basketball dataset/%
為了進(jìn)一步驗(yàn)證模型性能,本文對部分姿態(tài)估計(jì)結(jié)果進(jìn)行可視化.如圖2所示,本文算法在存在遮擋、運(yùn)動模糊和背景光線變化等復(fù)雜場景中依舊能實(shí)現(xiàn)較高的姿態(tài)估計(jì)精準(zhǔn)度,并且表現(xiàn)出較好的魯棒性.
圖2 本文算法在自行構(gòu)建的籃球數(shù)據(jù)集上的可視化結(jié)果Fig.2 Visual resultsof our algorithmon theself-constructed basketball dataset
2.3.2 PoseTrack 2017數(shù)據(jù)集實(shí)驗(yàn)結(jié)果
為了進(jìn)一步檢測模型的性能,本文在PoseTrack 2017公開基準(zhǔn)數(shù)據(jù)集上進(jìn)行驗(yàn)證.表2展示了本文算法與其它7種姿態(tài)估計(jì)算法每個(gè)關(guān)鍵點(diǎn)的準(zhǔn)確率和最終的平均準(zhǔn)確率,包括PoseTracker[17]、PoseFlow[18]、JointFlow[19]、FastPose[20]、SimpleBaseline[16]、STEmbedding[21]和HRNet[13].從表2中可以觀察到,本文所設(shè)計(jì)算法表現(xiàn)出最優(yōu)的估計(jì)性能,取得的最終平均準(zhǔn)確率為78.8 MAP,比HRNet提升了1.5%.對于難以估計(jì)的手腕和腳踝關(guān)節(jié),本文算法能實(shí)現(xiàn)較高的預(yù)測精度.圖3中展示了部分姿態(tài)估計(jì)的可視化結(jié)果,從中可以觀察到無論是簡單的單人場景或是復(fù)雜的多人場景,本文算法均能實(shí)現(xiàn)較為精準(zhǔn)的估計(jì).證明本文算法通過捕捉豐富的多尺度特征,有助于估計(jì)精度的提升.
表2 本文算法與現(xiàn)有方法在PoseTrack2017官方驗(yàn)證集的結(jié)果比較Tab 2 Performancecomparisonson the PoseTrack 2017 validation set/%
圖3 本文算法在PoseTrack 2017和2018數(shù)據(jù)集上的可視化結(jié)果Fig.3 Visual resultsof our algorithm on the PoseTrack 2017 and 2018 dataset
2.3.3 PoseTrack 2018數(shù)據(jù)集實(shí)驗(yàn)結(jié)果
本文還在PoseTrack 2018公開基準(zhǔn)數(shù)據(jù)集上與其它6種姿態(tài)估計(jì)算法的性能進(jìn)行比較,包括STAF[22]、AlphaPose[23]、TML++[24]、MDPN[25]、PGPT[26]和Dynamic-GNN[12].實(shí)驗(yàn)結(jié)果如表3所示,與其它方法相比本文算法依舊展示出最為先進(jìn)的性能,且對各個(gè)關(guān)鍵點(diǎn)均能實(shí)現(xiàn)較高的估計(jì)精度.本文算法最終的平均估計(jì)準(zhǔn)確率為78.5 MAP,比之前最優(yōu)的方法提升了0.6%.在圖3中可視化了部分姿態(tài)的估計(jì)結(jié)果,從中可以看到,當(dāng)人體存在運(yùn)動模糊時(shí),本文算法仍可以實(shí)現(xiàn)精準(zhǔn)的估計(jì),證明從多幀姿態(tài)中提取互補(bǔ)信息,有助于緩解信息缺失所帶來的負(fù)面影響.
表3 本文算法與現(xiàn)有方法在PoseTrack2018官方驗(yàn)證集的結(jié)果比較Tab 3 Performance comparisons on the PoseTrack 2018 validation set/%
為了充分了解本文所設(shè)計(jì)的算法架構(gòu),探究各個(gè)組成部分的性能,本文設(shè)計(jì)了如下消融實(shí)驗(yàn).該實(shí)驗(yàn)在PoseTrack 2017數(shù)據(jù)集上進(jìn)行,表4中只記錄了各實(shí)驗(yàn)中所有關(guān)節(jié)點(diǎn)的平均估計(jì)準(zhǔn)確率.
2.4.1 局部序列長度
局部序列長度是一個(gè)超參數(shù),本文算法默認(rèn)使用5幀作為輸入.我們分別將序列長度調(diào)整為3、5、7和9幀進(jìn)行實(shí)驗(yàn).從表4中可以看出,當(dāng)使用3幀和7幀信息時(shí),估計(jì)精度分別是76.1和78.5 MAP.與我們的假設(shè)相一致,較短的局部序列所包含的信息較少,難以對當(dāng)前幀中的信息進(jìn)行有效的補(bǔ)充和完善.相反,人體在較長的局部序列中可能會出現(xiàn)較大的位移,導(dǎo)致模型難以判斷關(guān)節(jié)點(diǎn)的所屬情況,為實(shí)現(xiàn)準(zhǔn)確的姿態(tài)估計(jì)帶來干擾.
2.4.2 基于Transformer的人體時(shí)序特征捕捉模塊
為了驗(yàn)證所提出人體時(shí)序特征捕捉模塊的性能,我們直接將該模塊從算法架構(gòu)中刪除.從表4的第5行和11行可以看出,當(dāng)缺少作為補(bǔ)充的局部時(shí)序信息時(shí),模型的MAP為75.2,與完整模型相比降低了3.6%,估計(jì)精度受到嚴(yán)重的影響.這說明通過引入額外更為魯棒的時(shí)序特征,對圖像進(jìn)行序列級建模,可以有效補(bǔ)充和完善當(dāng)前幀中姿態(tài)的信息,加強(qiáng)信息的流暢程度和完整度,顯著提升姿態(tài)估計(jì)的準(zhǔn)確率.
2.4.3 基于可形變卷積的多尺度人體空間特征融合模塊
我們通過將特征融合模塊中的形變卷積替換為普通卷積、改變子網(wǎng)層數(shù)和刪除特征融合模塊來探求其對性能的影響.如表4中第6行和11行的結(jié)果所示,使用普通卷積同樣會導(dǎo)致估計(jì)性能的下降,模型的MAP從78.8降低為76.5,說明模型失去空間形變能力后,難以適應(yīng)人體外形的變化.如第7、8、9和11行結(jié)果所示,在分別使用2、3、5和4層子網(wǎng)時(shí),由4層子網(wǎng)所組成的模塊表現(xiàn)出最高的估計(jì)精度.如第10行和11行結(jié)果所示,僅使用單一尺度的空間信息很難獲取充分的空間特征,導(dǎo)致模型性能嚴(yán)重下降.
表4 消融實(shí)驗(yàn)Table4 Ablation study
本文提出了一種基于多尺度時(shí)空關(guān)聯(lián)特征的籃球動作姿態(tài)估計(jì)算法,該方法針對籃球場景中球員運(yùn)動模糊、遮擋嚴(yán)重問題,構(gòu)建了一個(gè)基于Transformer的人體時(shí)序特征捕捉模塊通過建模更為魯棒的時(shí)序特征對當(dāng)前幀信息進(jìn)行補(bǔ)充和完善.此外,針對球員外形多變問題,本文提出基于可形變卷積的多尺度人體空間特征融合模塊,通過賦予模型可學(xué)習(xí)的空間形變能力來適應(yīng)這種變化,并通過一個(gè)多尺度特征提取框架來融合淺層和深層人體信息以獲取更為全面的空間特征.實(shí)驗(yàn)結(jié)果表明,該姿態(tài)估計(jì)算法可以在自行構(gòu)建的籃球數(shù)據(jù)集、常用的人體姿態(tài)估計(jì)基準(zhǔn)數(shù)據(jù)集PoseTrack2017和PoseTrack2018均表現(xiàn)出較高的估計(jì)精度.在未來的工作中可以進(jìn)一步結(jié)合現(xiàn)實(shí)場景中的需求,將其用于籃球的教學(xué)中,輔助球員的教學(xué)訓(xùn)練,推進(jìn)個(gè)性化教學(xué)的實(shí)現(xiàn).