宗立波,宋一凡,王熠明,馬 波,王東洋,李英杰,張 鵬
(寧夏大學(xué) 信息工程學(xué)院,銀川 750021)E-mail:pengzhang123@nxu.edu.cn
體育視頻分析技術(shù)在體育比賽中有著廣泛的應(yīng)用,是當(dāng)前計(jì)算機(jī)視覺研究的一個(gè)熱點(diǎn).它是體育賽事中分析和建模的過程.通過分析可以給運(yùn)動(dòng)員、教練員或是體育愛好者提供一定的參考,對(duì)運(yùn)動(dòng)員個(gè)體和團(tuán)隊(duì)的表現(xiàn)進(jìn)行系統(tǒng)評(píng)價(jià).隨著近年計(jì)算機(jī)視覺技術(shù)的發(fā)展,計(jì)算機(jī)視覺和圖像分析在體育應(yīng)用中扮演越來越重要的角色.
對(duì)體育比賽視頻進(jìn)行智能分析主要集中在技術(shù)分析和戰(zhàn)術(shù)分析兩方面.技術(shù)分析主要針對(duì)個(gè)人能力、動(dòng)作規(guī)范性和體能等方面;戰(zhàn)術(shù)分析是針對(duì)指導(dǎo)和進(jìn)行比賽的方法.利用視頻對(duì)體育運(yùn)動(dòng)的技戰(zhàn)術(shù)進(jìn)行分析,是一種有效的提高運(yùn)動(dòng)員的競(jìng)技水平的技術(shù)手段.基于體育視頻的內(nèi)容分析的主要問題可分為:面向場(chǎng)景的分析、針對(duì)視頻結(jié)構(gòu)的分析、對(duì)目標(biāo)進(jìn)行檢測(cè)與跟蹤、檢測(cè)感興趣的事件、分析和理解高級(jí)語義、戰(zhàn)術(shù)策略[1]、動(dòng)作分析等方面.近年來,隨著深度神經(jīng)網(wǎng)絡(luò)在姿態(tài)估計(jì)和動(dòng)作識(shí)別領(lǐng)域的應(yīng)用,姿態(tài)估計(jì)在人體動(dòng)作識(shí)別和推理方面取得了不錯(cuò)的效果,基于姿態(tài)估計(jì)的體育視頻分析快速發(fā)展.對(duì)運(yùn)動(dòng)員的比賽視頻進(jìn)行高分辨率的錄制,將錄制的動(dòng)作經(jīng)過多維度的分解,得到運(yùn)動(dòng)員真實(shí)的動(dòng)作數(shù)據(jù),運(yùn)用分析視頻的算法,科學(xué)的分解微小的動(dòng)作,對(duì)其進(jìn)行對(duì)比和綜合,進(jìn)而對(duì)比賽的表現(xiàn)進(jìn)行評(píng)估;可以將同一動(dòng)作的不同運(yùn)動(dòng)員的圖像進(jìn)行對(duì)比,輔助運(yùn)動(dòng)員找到與標(biāo)準(zhǔn)動(dòng)作的差距,從而加速相應(yīng)動(dòng)作的改進(jìn)和提升,降低訓(xùn)練的重復(fù)率,提高教學(xué)的直觀性和反饋的快速性;另外,還減少了不規(guī)范的動(dòng)作造成的運(yùn)動(dòng)損害.這樣可以促進(jìn)訓(xùn)練和比賽的水平提高.
姿態(tài)估計(jì)的研究進(jìn)展發(fā)展迅速,算法由原來的基于傳統(tǒng)方法的研究,逐步轉(zhuǎn)化為基于深度學(xué)習(xí)的方法.傳統(tǒng)方法在分析時(shí)耗費(fèi)的時(shí)間較少,但是提取的特征不充分,在人體姿態(tài)有較大變化時(shí),估計(jì)的誤差較大.而深度學(xué)習(xí)的方法可以利用神經(jīng)網(wǎng)絡(luò)提取出圖像的深層次特征,在復(fù)雜的條件下,對(duì)姿態(tài)的預(yù)測(cè)更為準(zhǔn)確,這也促進(jìn)了基于深度學(xué)習(xí)方法的進(jìn)一步研究.
國(guó)外專業(yè)運(yùn)動(dòng)組織和國(guó)家運(yùn)動(dòng)隊(duì)使用視頻對(duì)運(yùn)動(dòng)進(jìn)行分析,并將其作為科學(xué)訓(xùn)練的必備手段.在個(gè)人項(xiàng)目中,視頻分析可以在運(yùn)動(dòng)員的軌跡和運(yùn)動(dòng)力學(xué)方面提供直觀的分析,在運(yùn)動(dòng)成績(jī)的提升方面效果突出;在團(tuán)隊(duì)項(xiàng)目中,視頻分析系統(tǒng)可以對(duì)本隊(duì)和比賽對(duì)手的運(yùn)用戰(zhàn)術(shù)進(jìn)行分析,輔助教練選擇合適的戰(zhàn)術(shù),最大程度上提高本隊(duì)的比賽成績(jī).體育視頻分析系統(tǒng)應(yīng)運(yùn)而生,不同的分析系統(tǒng)使用的技術(shù)差異較大,因此首先介紹一下國(guó)內(nèi)外的商用系統(tǒng).
基于體育視頻分析的訓(xùn)練、比賽輔助系統(tǒng)應(yīng)用于職業(yè)體育的各個(gè)方面.TechSmith Corporation公司開發(fā)的Coach′s Eye(1)https://www.coachseye.com/應(yīng)用,使用移動(dòng)設(shè)備或相機(jī)記錄運(yùn)動(dòng)員的狀態(tài),以慢動(dòng)作播放視頻并逐幀分析,并排分析對(duì)比動(dòng)作,使用秒表等高級(jí)分析工具標(biāo)注時(shí)間,高亮顯示動(dòng)作細(xì)節(jié),通過角度測(cè)量,為運(yùn)動(dòng)員提供個(gè)性化的反饋,系統(tǒng)由于采用慢動(dòng)作分析動(dòng)作,在分析效率上需要提高;美國(guó)STATS的SportVU(2)https://www.stats.com/sportvu-football/(球員追蹤分析系統(tǒng))是最早將視頻分析技術(shù)應(yīng)用于體育比賽的系統(tǒng)之一,現(xiàn)在發(fā)展到2.0版本.它利用4K攝像頭采集比賽圖像,基于先進(jìn)的光學(xué)跟蹤技術(shù)和主動(dòng)學(xué)習(xí)框架,使用統(tǒng)計(jì)算法提取球員和球的坐標(biāo),利用AI分析跟蹤數(shù)據(jù)和事件數(shù)據(jù),以整體的視角制定比賽策略,將比賽的數(shù)據(jù)和場(chǎng)外訓(xùn)練數(shù)據(jù)結(jié)合,減少錯(cuò)誤動(dòng)作對(duì)運(yùn)動(dòng)員造成的傷害.系統(tǒng)適用于團(tuán)隊(duì)項(xiàng)目,在追蹤多名球員的時(shí)候,需要較長(zhǎng)的時(shí)間進(jìn)行分析.相較于國(guó)外的體育視頻分析系統(tǒng),國(guó)內(nèi)的系統(tǒng)大多關(guān)注于對(duì)球員的數(shù)據(jù)分析和比賽數(shù)據(jù)的統(tǒng)計(jì).國(guó)內(nèi)的體育視頻分析系統(tǒng)中,創(chuàng)冰DATA(3)http://data.champdas.com/將每場(chǎng)比賽進(jìn)行秒級(jí)數(shù)據(jù)切片,并采用分布式計(jì)算平臺(tái)對(duì)云端的數(shù)據(jù)進(jìn)行多維度統(tǒng)計(jì),在比賽數(shù)據(jù)統(tǒng)計(jì)方面比較準(zhǔn)確,但是缺乏球員的動(dòng)作分析;靈信體育賽事數(shù)據(jù)采集與分析系統(tǒng)(4)http://www.listensport.com/采用高速攝像機(jī)提供的足球和球員軌跡數(shù)據(jù),采集球員運(yùn)動(dòng)信息,運(yùn)用基于靈信體育系統(tǒng)模板匹配方法,對(duì)球員進(jìn)行跟蹤,實(shí)現(xiàn)球員運(yùn)動(dòng)數(shù)據(jù)的統(tǒng)計(jì),系統(tǒng)記錄了球員運(yùn)動(dòng)相關(guān)數(shù)據(jù),通過數(shù)據(jù)分析球員的表現(xiàn),在足球比賽中,對(duì)單個(gè)球員動(dòng)作分析準(zhǔn)確性有待提高.目前主流商用系統(tǒng)中主要是對(duì)運(yùn)動(dòng)員的數(shù)據(jù)進(jìn)行統(tǒng)計(jì)和運(yùn)動(dòng)員個(gè)人表現(xiàn)的分析上,自動(dòng)化程度需進(jìn)一步提高,操作效率和分析的準(zhǔn)確度有待提高.
隨著體育視頻應(yīng)用需求日益旺盛,對(duì)分析技術(shù)的精度要求越來越高,促進(jìn)了體育視頻分析技術(shù)的發(fā)展,研究的對(duì)象也由低層次的特征轉(zhuǎn)向高層次的特征.Hanna等[2]研究了視頻內(nèi)容的自動(dòng)分類,使用視頻中的顏色特征,通過隱馬爾可夫模型(HMM)分類視頻序列.Ouyang等[3]在跳水視頻語義分析中采用本體推理的方法,利用高級(jí)語義挖掘體育視頻信息.Hua等[4]對(duì)棒球進(jìn)行了分析,驗(yàn)證了識(shí)別投球速度對(duì)事件檢測(cè)和視頻內(nèi)容檢索的作用,它可以提取感興趣的視頻,在檢測(cè)事件方面具有良好的效果.Wang等[5]針對(duì)足球視頻中的注釋采用高級(jí)語義粗時(shí)間限制語義匹配,利用圖像處理將視頻和文本事件同步,結(jié)合高級(jí)特征分析視頻.Stein等[6]提出可視化系統(tǒng),使用軌跡和運(yùn)動(dòng)分析技術(shù)對(duì)足球視頻中的區(qū)域、事件和球員進(jìn)行相關(guān)分析,增加了分析的準(zhǔn)確性.Yoon等[7]對(duì)籃球比賽的視頻剪輯進(jìn)行自動(dòng)分類,同時(shí)跟蹤籃球的運(yùn)動(dòng),利用上下文信息跟蹤球員,設(shè)計(jì)球隊(duì)的戰(zhàn)術(shù)策略,結(jié)合多模特征強(qiáng)化了視頻中球員的跟蹤分析和比賽分析.表1展示了當(dāng)前研究的進(jìn)展.
表1 體育視頻關(guān)鍵技術(shù)對(duì)比
近年來,在團(tuán)隊(duì)運(yùn)動(dòng)中對(duì)戰(zhàn)術(shù)水平的研究逐步發(fā)展.Suzuki等[8]利用深度極限學(xué)習(xí)機(jī)(DELM),在足球比賽視頻中對(duì)球隊(duì)?wèi)?zhàn)術(shù)進(jìn)行分析,引入球隊(duì)雙方戰(zhàn)術(shù)相關(guān)性,提高了戰(zhàn)術(shù)估計(jì)的準(zhǔn)確性;Decroos等[9]探討了足球中戰(zhàn)術(shù)分析的不足,使用專業(yè)足球比賽收集的事件流的數(shù)據(jù),利用空間和時(shí)間信息,實(shí)現(xiàn)了自動(dòng)戰(zhàn)術(shù)識(shí)別;Andrienko等人[10]通過將多種信息綜合分析足球比賽中的戰(zhàn)術(shù),利用動(dòng)態(tài)聚合方法,結(jié)合靈活的查詢技術(shù),取得了不錯(cuò)的效果.
在單人運(yùn)動(dòng)中,對(duì)運(yùn)動(dòng)員的分析主要集中在動(dòng)作分析上.Chen等[11]提出了一個(gè)瑜伽訓(xùn)練系統(tǒng),通過集成計(jì)算機(jī)視覺技術(shù),系統(tǒng)通過提取身體輪廓,骨架,主導(dǎo)軸和特征點(diǎn),從前視圖和側(cè)視圖分析訓(xùn)練者的姿勢(shì).然后,根據(jù)瑜伽訓(xùn)練的領(lǐng)域知識(shí),提出了可視化的姿勢(shì)矯正指令,在糾正訓(xùn)練者的姿勢(shì)方面具有較高的準(zhǔn)確性.Meng等[12]為了監(jiān)督和分析職業(yè)運(yùn)動(dòng)中的運(yùn)動(dòng)員訓(xùn)練的運(yùn)動(dòng)姿勢(shì),使用一種深度關(guān)鍵幀提取方法,用于分析舉重運(yùn)動(dòng)訓(xùn)練視頻,并且所提出的DKFE在關(guān)鍵姿態(tài)概率估計(jì)和關(guān)鍵姿態(tài)提取方面優(yōu)于對(duì)比方法.姿態(tài)估計(jì)已成為體育視頻分析中的研究熱點(diǎn),下一節(jié)將介紹人體姿態(tài)的研究進(jìn)展.
在體育視頻分析中,通過慢動(dòng)作播放視頻并逐幀分析,在分析效率上需要提高.近幾年,人體姿態(tài)估計(jì)的研究不斷發(fā)展,在評(píng)估人體動(dòng)作準(zhǔn)確性方面有了優(yōu)秀的表現(xiàn).現(xiàn)在從基于整體部件、基于特征模型和基于單目/多目/多傳感器等方面,回顧現(xiàn)在的人體姿態(tài)估計(jì)算法研究現(xiàn)狀.
基于整體/部件的人體姿態(tài)估計(jì)方法可以分為基于整體的方法和基于部件的方法.其中主要使用深度學(xué)習(xí)方法對(duì)圖像中的人體姿態(tài)進(jìn)行映射關(guān)系的處理.
在基于整體的方法中,Alexander等[13]提出了一種基于深度神經(jīng)網(wǎng)絡(luò)(DNN)的人體姿態(tài)估計(jì)方法,作者將姿態(tài)估計(jì)表示為針對(duì)身體關(guān)節(jié)的基于DNN的回歸問題,通過一系列的DNN回歸量,得到了高精度的姿態(tài)估計(jì)值.與其他方法相比,該方法具有以整體方式推理姿態(tài)的優(yōu)點(diǎn),網(wǎng)絡(luò)架構(gòu)如圖1所示;Fan等[14]使用雙源深度卷積神經(jīng)網(wǎng)絡(luò)(DS-CNN)從單張圖像中估計(jì)2D人體姿態(tài),整合局部部分外觀和每個(gè)局部部分的整體視圖,通過聯(lián)合檢測(cè)確定圖像塊是否包含身體關(guān)節(jié),借助聯(lián)合定位,找到在圖像塊中關(guān)節(jié)的確切位置,該方法利用整體視角進(jìn)行學(xué)習(xí),如圖2所示;Yang等[15]將領(lǐng)域先驗(yàn)知識(shí)納入框架,并且結(jié)合DCNN和可變形混合部分實(shí)現(xiàn)了端到端的人體姿態(tài)估計(jì),可以應(yīng)用于循環(huán)模型或樹形結(jié)構(gòu)模型.基于整體的方法在關(guān)節(jié)點(diǎn)定位上,受歸一化的距離影響較大,需要選擇合適的歸一化距離,強(qiáng)化定位關(guān)節(jié)點(diǎn)的準(zhǔn)確性.
圖1 基于DNN的姿態(tài)回歸的示意圖[13]
圖2 DS-CNN架構(gòu)[14]
由于基于整體的方法需要領(lǐng)域先驗(yàn)知識(shí)的支持,具有一定的局限性,而基于部件的方法可以不需要先驗(yàn)知識(shí),通過將部件整合連接成人體姿態(tài),增加姿態(tài)估計(jì)的準(zhǔn)確度.最先進(jìn)的基于部件的方法在它們的關(guān)聯(lián)方法上是不同的.cao等人[16]將關(guān)節(jié)與部分親和力場(chǎng)和貪婪算法聯(lián)系起來,該方法使用非參數(shù)表示(部分親和字段(PAF))來學(xué)習(xí)將身體部位與圖像中的個(gè)體相關(guān)聯(lián).該體系結(jié)構(gòu)對(duì)全局上下文進(jìn)行編碼,允許貪婪的自下而上解析步驟,無論圖像中的人數(shù)如何,都能保持高精度,同時(shí)實(shí)現(xiàn)實(shí)時(shí)性能,見圖3;Papandreou等人[17]檢測(cè)個(gè)別關(guān)節(jié)并預(yù)測(cè)關(guān)聯(lián)的相對(duì)位移,生成一種基于單鏡頭模型的無框自底向上的多人圖像姿態(tài)估計(jì)和實(shí)例分割方,方法中的PersonLab模型使用基于部件的建模處理語義級(jí)推理和對(duì)象-部件關(guān)聯(lián),基于全卷積架構(gòu),并允許有效的推理,對(duì)出現(xiàn)在場(chǎng)景中多人姿態(tài)估計(jì)具有較好的效果;kocabas等人[18]將多任務(wù)和MultiPoseNet結(jié)合可以聯(lián)合處理人員檢測(cè)、關(guān)鍵點(diǎn)檢測(cè)、人員分割和提出的估計(jì)問題,并且通過姿勢(shì)殘差網(wǎng)絡(luò)為檢測(cè)到的人分配關(guān)節(jié),形成自底向上的多個(gè)體姿態(tài)估計(jì)體系結(jié)構(gòu),在多人場(chǎng)景中效果超過MPII MultiPerson基準(zhǔn)的方法.基于部件的方法中,容易丟失跟蹤的人體信息,并且自底向上方法會(huì)誤檢關(guān)節(jié)點(diǎn),采用將視頻幀間的時(shí)間順序與部件模型結(jié)合方法,可以有效提高檢測(cè)的準(zhǔn)確率,進(jìn)而提高人體姿態(tài)估計(jì)的精度.
圖3 雙分支多級(jí)CNN的體系結(jié)構(gòu)[16]
在基于特征/模型中,傳統(tǒng)的方法分為基于人體特征和基于模型的方法.基于人體特征的方法不需要明確的身體模型,也不需要標(biāo)記身體部位,可以通過圖像輪廓恢復(fù)人體姿勢(shì).
在基于人體特征的方法中,Taylor等[19]采用一種基于鄰域分量分析(NCA)框架學(xué)習(xí)非線性嵌入的方法,每張圖片是由兩個(gè)卷積、子采樣層和一個(gè)全連接層處理,見圖4,通過卷積擴(kuò)展到真實(shí)大小的圖像,解決了視覺上匹配相似姿勢(shì)但具有不同衣服,背景和其他外觀變化的人的復(fù)雜問題;Arjun等[20]提出了一個(gè)兩階段的過濾方法,改進(jìn)低層次特征檢測(cè)器,結(jié)合全局定位改善了不受約束的人體姿態(tài)估計(jì)效果;Rodrigo等[21]在RGB圖像上使用2D多層次的外觀特征表示,利用基于CNN的身體部位檢測(cè)器可以檢測(cè)不同層次的部位,提高了自下而上部位檢測(cè)器的性能.基于人體特征的方法,需要選擇合適的人體特征,同時(shí)需要大量的人體關(guān)節(jié)點(diǎn)的標(biāo)注,在網(wǎng)絡(luò)訓(xùn)練的時(shí)間上花費(fèi)較大,采用弱監(jiān)督的訓(xùn)練方式可以提升訓(xùn)練效率,減少訓(xùn)練時(shí)間.
圖4 卷積NCA回歸(C-NCAR)[19]
由于人體是非剛性的,運(yùn)動(dòng)比較靈活、復(fù)雜,具有不規(guī)則性,基于模型的方法被提出,解決基于特征的不穩(wěn)定性.Yang等[22]采用基于零件模型表示的靜態(tài)圖像中的人體姿態(tài)估計(jì)方法,使用每個(gè)部分的模板混合捕獲零件之間的上下文共現(xiàn)關(guān)系,增強(qiáng)了編碼空間關(guān)系的標(biāo)準(zhǔn)彈簧模型,提高了姿態(tài)估計(jì)的準(zhǔn)確率和速度;Chen等[23]將深度卷積神經(jīng)網(wǎng)絡(luò)(DCNN)和圖形模型結(jié)合,由于局部圖像測(cè)量既可用于檢測(cè)部分(或關(guān)節(jié))以及預(yù)測(cè)它們之間的空間關(guān)系(圖像依賴成對(duì)關(guān)系),采用DCNN來學(xué)習(xí)圖像塊內(nèi)部件的存在及其空間關(guān)系的條件概率,提升了在LSP和FLIC數(shù)據(jù)集上的準(zhǔn)確度;chu等[24]等使用雙向樹結(jié)構(gòu)模型判斷人體各關(guān)節(jié)在特征層面的關(guān)系.基于模型的方法可以對(duì)人體關(guān)節(jié)出現(xiàn)的位置進(jìn)行限制,減少將背景檢測(cè)出關(guān)節(jié)點(diǎn)的幾率,提升關(guān)節(jié)位置檢測(cè)的準(zhǔn)確性.然而卻解決不了關(guān)節(jié)間的遮擋問題,可以引入先驗(yàn)知識(shí)和關(guān)節(jié)點(diǎn)的統(tǒng)計(jì)信息,提高遮擋的關(guān)節(jié)點(diǎn)檢測(cè)率.
根據(jù)采集視頻的方式可以分為單目、多目、多傳感器融合的方法,單目采集的視頻是彩色圖像;多目采集的視頻是3D圖像;多傳感器融合采集的視頻包含彩色圖像和深度圖像.不同的輸入圖像采用了不同的姿態(tài)估計(jì)算法.
3.5.1 基于單目的方法
在基于單目的方法中,將單目視頻作為輸入進(jìn)行人體姿態(tài)估計(jì).代欽等[25]使用單目靜態(tài)圖像作為輸入,對(duì)相鄰像素中類似的圖像進(jìn)行整合,在人體部位搜索時(shí)通過超像素完成,利用可變形部位模型實(shí)現(xiàn)部位識(shí)別,有效降低了在部位識(shí)別中背景的干擾,在姿態(tài)估計(jì)中獲得了較好的結(jié)果;肖澳文等[26]采用的實(shí)驗(yàn)?zāi)P褪褂脝文恳曨l輸入源,通過改進(jìn)的順序化卷積神經(jīng)網(wǎng)絡(luò)提取人體空間信息和紋理特征,確定頭部和四肢關(guān)節(jié)點(diǎn)的位置,將節(jié)點(diǎn)投影到三維空間,降低了人體姿態(tài)估計(jì)的誤差;Pavlakos等[27]使用人體關(guān)節(jié)提供的序數(shù)深度提供的監(jiān)督訓(xùn)練卷積網(wǎng)絡(luò),利用單幅圖像的輸入,有效的提高了準(zhǔn)確度.基于單目的視頻輸入的方法,雖然取得了較好的效果,但是在光照、顏色、紋理的變化中,單目視頻缺少足夠的信息解決問題,尤其是在體育運(yùn)動(dòng)中,運(yùn)動(dòng)員之間由于劇烈運(yùn)動(dòng),造成的遮擋比較嚴(yán)重,對(duì)多人之間的姿態(tài)估計(jì)產(chǎn)生影響,而基于多目的方法可以較好的解決問題.
3.5.2 基于多目的方法
在基于多目的方法中,Steven等[28]提出了一個(gè)用于多個(gè)人的多視圖3D姿態(tài)估計(jì)的管道,其結(jié)合了最先進(jìn)的2D姿勢(shì)檢測(cè)器和利用信任傳播優(yōu)化的3D肢體約束的因子圖.該系統(tǒng)明顯優(yōu)于先前的最新技術(shù),具有更簡(jiǎn)單的肢體依賴模型,增加了人體姿態(tài)估計(jì)的魯棒性;Fang等[29]使用多個(gè)攝像機(jī)的2D姿勢(shì)利用姿勢(shì)語法解決3D姿態(tài)估計(jì)的泛化問題.Dong等[30]使用多路匹配算法在所有視圖中聚類檢測(cè)到的2D姿勢(shì),將得到的聚類在不同視圖上編碼同一人的2D姿勢(shì)及關(guān)鍵點(diǎn)的一致對(duì)應(yīng),進(jìn)而推斷出每個(gè)人的3D姿勢(shì),通過實(shí)驗(yàn)驗(yàn)證了所提出的方法的有效性;Wei等[31]給定一組不同視角的2D關(guān)節(jié)位置,利用視圖一致性的約束提高3D人體姿態(tài)估計(jì)性能;Qiu等[32]結(jié)合多視圖幾何先驗(yàn)的跨視圖融合方案,從多視圖中高性能的恢復(fù)3D人體姿態(tài).基于多目的視頻輸入方法,可以解決輕微遮擋、形變、人體尺度和采集角度等干擾問題,提供較為準(zhǔn)確的3D信息.但是,在體育運(yùn)動(dòng)中,存在的嚴(yán)重遮擋和球員衣服的干擾,使基于多目的人體姿態(tài)估計(jì)效果變差.可以引入如紅外傳感器等的多種傳感器,減少遮擋和干擾,提高體育運(yùn)動(dòng)中的人體姿態(tài)估計(jì)精度.
3.5.3 基于多傳感器的方法
近年來,隨著多傳感器的技術(shù)發(fā)展,提供更加精確的人體姿態(tài)信息的多傳感器技術(shù)應(yīng)用于人體姿態(tài)估計(jì)領(lǐng)域.韓麗等[33]使用運(yùn)動(dòng)捕捉系統(tǒng)通過基于特征平面相似性匹配的方法計(jì)算模型各關(guān)節(jié)的運(yùn)動(dòng)數(shù)據(jù)參數(shù),在人體姿態(tài)分析中具有較高的準(zhǔn)確性和魯棒性;Yang等[34]使用圖像、集合描述符、彩色圖和深度圖等多個(gè)輸入源通過對(duì)抗性學(xué)習(xí)框架預(yù)測(cè)的3D的人體姿態(tài)估計(jì),提高僅具有2D姿勢(shì)注釋的野外圖像的姿態(tài)估計(jì);Tang等[35]使用基于稀疏特征點(diǎn)校準(zhǔn)彩色圖和深度圖,得到三維關(guān)節(jié)點(diǎn)的信息恢復(fù)人體姿態(tài).在基于多傳感器方法中,受室外環(huán)境的影響較大,對(duì)環(huán)境的要求較高,可以應(yīng)用于室內(nèi)體育運(yùn)動(dòng),減少光照條件的干擾.
在本節(jié)中,首先介紹用于姿態(tài)估計(jì)的數(shù)據(jù)集和評(píng)價(jià)指標(biāo).然后將近年比較主流的方法的性能結(jié)果進(jìn)行了對(duì)比分析.
目前研究所用的主流人體姿態(tài)數(shù)據(jù)集包括2D和3D兩類.其中2D人體姿態(tài)數(shù)據(jù)集如表2所示[36].常見數(shù)據(jù)集包括MSCOCO[37],MPII[38],LSP[39],F(xiàn)LIC[40],PoseTrack[41]和AI Challenger[42].
表2 2D人體姿態(tài)數(shù)據(jù)集[36]
現(xiàn)有的3D人體姿態(tài)數(shù)據(jù)集大多來自于室內(nèi)采集,一般對(duì)拍攝環(huán)境有較高的要求,包括 Human3.6 M[43]和MPI-INF-3DHP[44]等,如表3所示.
表3 3D人體姿態(tài)數(shù)據(jù)集
在2D姿態(tài)估計(jì)中,使用的評(píng)價(jià)指標(biāo)是正確估計(jì)的身體部位百分比(PCP)和mAP.
PCP選擇肢體長(zhǎng)度作為基準(zhǔn),評(píng)估頭部,軀干,上臂,下臂,大腿和小腿的檢測(cè)精度.PCK選擇歸一化距離作為基準(zhǔn),評(píng)估七個(gè)關(guān)節(jié)的檢測(cè)精度,包括頭部,肩部,肘部,腕部,髖部,膝部和踝部.PCKh@0.5意味著在頭部尺寸的0.5的閾值內(nèi)認(rèn)為關(guān)節(jié)的檢測(cè)是成功的.mAP反映了所有關(guān)節(jié)的平均PCKh檢出率.
與2D姿態(tài)估計(jì)的評(píng)價(jià)指標(biāo)不同,3D姿態(tài)估計(jì)的評(píng)價(jià)指標(biāo)采用MPJPE(關(guān)節(jié)平均誤差),它以毫米為單位測(cè)量預(yù)測(cè)和真實(shí)關(guān)節(jié)位置之間的平均距離.MPJPE的值越小,3D姿態(tài)估計(jì)越準(zhǔn)確.
從2D和3D方面分別比較了各個(gè)方法的性能.表4中列出的方法顯示了在MPII和LSP數(shù)據(jù)集上通過PCP和mAP評(píng)估的所有關(guān)節(jié)的平均準(zhǔn)確度.
基于表4,在PCP評(píng)價(jià)指標(biāo)下,基于整體的方法,F(xiàn)an等[14]提出的DS-CNN方法取得了最高的準(zhǔn)確度;在基于模型的方法中,Chen等[23]提出的方法利用圖像依賴成對(duì)關(guān)系,提升了在LSP上的準(zhǔn)確率;在mAP的評(píng)價(jià)指標(biāo)下,Cao等[16]采用多分支的CNN取得了優(yōu)秀的準(zhǔn)確度.在2D姿態(tài)估計(jì)中,使用多分支的CNN可以提升檢測(cè)的準(zhǔn)確度.
表4 2D人體姿態(tài)估計(jì)方法的比較
雖然基于2D的姿態(tài)估計(jì)算法取得了不錯(cuò)的效果,但是在體育運(yùn)動(dòng)中,由于人體的身高、衣服和背景遮擋的影響,降低了姿態(tài)估計(jì)的準(zhǔn)確性.基于3D的姿態(tài)估計(jì)可以有效減少上述問題的影響.
3D姿態(tài)估計(jì)的算法性能對(duì)比如表5所示.在基于單目的方法中,Pavlakos等[27]提出的方法在數(shù)據(jù)集上實(shí)現(xiàn)56.2%的MPJPE,由于大多數(shù)的3D數(shù)據(jù)集是在室內(nèi)環(huán)境下采集,不能實(shí)現(xiàn)2D人體數(shù)據(jù)集的可變性,而在體育運(yùn)動(dòng)中,人體的形變更加劇烈,作者使用2D人體姿勢(shì)數(shù)據(jù)集上的序數(shù)深度的附加注釋,減少了對(duì)精確3D真實(shí)值的需求;在基于多目的方法中,Wei等[31]使用視圖不變的3D人體姿態(tài)估計(jì)的方案實(shí)現(xiàn)了56.6%的MPJPE,在體育運(yùn)動(dòng)中,捕捉視角的多樣性和人體姿態(tài)的靈活性對(duì)于姿態(tài)估計(jì)來說是一些挑戰(zhàn),作者通過視圖不變判別網(wǎng)絡(luò)強(qiáng)化對(duì)身體關(guān)節(jié)的約束,顯著提高3D人體姿態(tài)估計(jì)的性能;在基于多傳感器的方法中,Yang等[34]實(shí)現(xiàn)了58.6%的MPJPE,雖然深度卷積神經(jīng)網(wǎng)絡(luò)(DCNN)在受約束的實(shí)驗(yàn)室環(huán)境中的數(shù)據(jù)集上取得了顯著進(jìn)步,但是在體育運(yùn)動(dòng)中很難獲得3D姿勢(shì)注釋,作者使用對(duì)抗性學(xué)習(xí)框架,它將完全注釋的室內(nèi)數(shù)據(jù)集中學(xué)習(xí)的3D人體姿勢(shì)結(jié)構(gòu)提煉為2D姿勢(shì)注釋的室外圖像,可以有效提高室外體育運(yùn)動(dòng)中的姿態(tài)估計(jì)性能.特別值得一提的是Qiu等[32]提出的跨視圖融合方法大幅度改進(jìn)了MPJPE,實(shí)現(xiàn)了26.21%的MPJPE,在室內(nèi)數(shù)據(jù)集上利用可見視圖的特征融合和RPSM,改進(jìn)獨(dú)立計(jì)算的2D姿態(tài),雖然在室外的體育運(yùn)動(dòng)中環(huán)境影響較大,仍然可以將多視圖融合改進(jìn)2D姿態(tài)估計(jì)的思路運(yùn)用在體育運(yùn)動(dòng)中的3D姿態(tài)估計(jì).
表5 3D人體姿態(tài)估計(jì)方法的比較
本文對(duì)最近幾年的體育視頻分析系統(tǒng)和人體姿態(tài)估計(jì)算法進(jìn)行了較全面的綜述.最后給出了未來的研究方向.由于體育運(yùn)動(dòng)的連續(xù)性,姿態(tài)分析與時(shí)間的關(guān)系越來越密切,引入時(shí)序可以有效解決遮擋;體育姿態(tài)數(shù)據(jù)集需求明顯增加,準(zhǔn)確注釋的數(shù)據(jù)集將會(huì)是提升人體姿態(tài)估計(jì)準(zhǔn)確性的重要基礎(chǔ);基于多模態(tài)信息和將幾何先驗(yàn)知識(shí)加入到網(wǎng)絡(luò)特征融合中,促進(jìn)網(wǎng)絡(luò)結(jié)構(gòu)的改進(jìn),提升3D姿態(tài)估計(jì)的準(zhǔn)確率,這是未來體育運(yùn)動(dòng)中3D姿態(tài)估計(jì)的重要方向,為以后體育視頻分析性能的提升提供了新的方法.