国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于注意力模型的籃球視頻事件和關(guān)鍵角色檢測(cè)方法

2021-01-15 08:31:46覃禮榮
關(guān)鍵詞:投籃注意力球員

羅 森 覃禮榮

1(廣西科技師范學(xué)院 廣西 來(lái)賓 546199) 2(梧州學(xué)院 廣西 梧州 543002)

0 引 言

多人視頻(如籃球比賽、足球比賽等)中的重要事件和關(guān)鍵角色檢測(cè)在視頻搜索和視頻分析等領(lǐng)域具有重要用途[1],相關(guān)數(shù)據(jù)集和模型[2]也為視頻中的事件識(shí)別和檢測(cè)帶來(lái)很多幫助。然而,目前很多檢測(cè)局限于單人行動(dòng),即視頻中僅包含一個(gè)人物,執(zhí)行一個(gè)主要活動(dòng)。因此,多人視頻的事件檢測(cè)則更具挑戰(zhàn)性和實(shí)際意義。

近些年,已有一些研究成果,如文獻(xiàn)[3]針對(duì)大量群體,利用個(gè)體信息的上下文結(jié)構(gòu)描述符對(duì)人的行為進(jìn)行描述和檢測(cè)。針對(duì)籃球比賽事件,文獻(xiàn)[4]將網(wǎng)絡(luò)直播文本(Live Text,LT)作為輔助信息,提取文本事件作為事件標(biāo)注的語(yǔ)料,分析并檢測(cè)了籃球視頻的中級(jí)語(yǔ)義特征,利用顏色直方圖和邊緣像素點(diǎn)將鏡頭劃分為遠(yuǎn)鏡頭、特寫鏡頭和場(chǎng)外鏡頭,促進(jìn)對(duì)籃球事件的檢測(cè)和標(biāo)注。文獻(xiàn)[5]利用籃球視頻中的非場(chǎng)景目標(biāo)信息與比賽事件語(yǔ)義之間的對(duì)應(yīng)關(guān)系,設(shè)計(jì)一種籃球視頻事件檢測(cè)算法,提高了籃球重要事件的檢測(cè)準(zhǔn)確率。但該方法沒(méi)有對(duì)籃球數(shù)據(jù)庫(kù)進(jìn)行系統(tǒng)構(gòu)建。

也有一些文獻(xiàn)通過(guò)使用“注意力”模型從一個(gè)固定輸入到一個(gè)固定輸出對(duì)元素進(jìn)行對(duì)齊。如文獻(xiàn)[6]生成一個(gè)圖像-標(biāo)題(I-T),關(guān)注圖像的不同區(qū)域人物角色和行為動(dòng)作;文獻(xiàn)[7]利用時(shí)空結(jié)構(gòu)(S-T)生成一個(gè)視頻-標(biāo)題,關(guān)注視頻內(nèi)的不同幀;文獻(xiàn)[8]將端到端訓(xùn)練的深層網(wǎng)絡(luò)模型運(yùn)用在體育視頻分析中。

由于“注意力”與正在進(jìn)行的活動(dòng)相關(guān)度最高[9],可隨時(shí)間和空間而改變,對(duì)于籃球比賽視頻(角色變化頻繁,與一般視頻區(qū)別較大)多人事件和關(guān)鍵角色檢測(cè)具有一定優(yōu)勢(shì)。因此,本文結(jié)合空間注意力和時(shí)間注意力,提出一種基于注意力模型的方法。該方法可完成對(duì)孤立剪輯的分類,以及在較長(zhǎng)的未剪輯視頻中對(duì)事件進(jìn)行時(shí)間定位的任務(wù),其性能超過(guò)了一般現(xiàn)有方法。

1 籃球數(shù)據(jù)集

本文使用NBA多場(chǎng)籃球比賽視頻剪輯,這些比賽是在不同時(shí)間段、不同場(chǎng)館中進(jìn)行。視頻時(shí)長(zhǎng)通常為1.5~3.0 h。首先,本文對(duì)表1所列舉的11個(gè)關(guān)鍵的事件類型進(jìn)行了手工識(shí)別,考慮了5種投籃類型,每種類型分別包括得分或失敗,最后一種事件類型為搶斷。然后,在視頻中出現(xiàn)“終結(jié)點(diǎn)”的時(shí)候?qū)@些事件的終結(jié)點(diǎn)進(jìn)行標(biāo)注(可以采用機(jī)器視覺(jué)方法)。終結(jié)點(diǎn)通??梢暂^好地識(shí)別(例如:籃球離開(kāi)投籃者的手,落到其他如籃框等地方;某隊(duì)球員突然搶斷,控球方從一方轉(zhuǎn)為另一方)。由于評(píng)價(jià)人員對(duì)一個(gè)事件何時(shí)開(kāi)始難以達(dá)成共識(shí),為了確定開(kāi)始時(shí)間,本文假定每個(gè)事件的時(shí)長(zhǎng)為4 s。4 s足夠?qū)γ總€(gè)事件進(jìn)行分類,同時(shí)也可以很好地進(jìn)行定位。

表1 數(shù)據(jù)集中事件的視頻剪輯數(shù)量及對(duì)應(yīng)的平均人數(shù)

續(xù)表1

按照上述剪輯,所有視頻隨機(jī)劃分為212個(gè)訓(xùn)練視頻,12個(gè)驗(yàn)證視頻和33個(gè)測(cè)試視頻,并將每個(gè)視頻分割到4 s的剪輯中(使用注釋界限),將這些剪輯視頻的幀率下采樣到6幀/s。為了排除球員的特寫鏡頭以及觀眾和即時(shí)回放的鏡頭,本文使用一個(gè)單獨(dú)訓(xùn)練的分類器,將非正面拍攝的鏡頭過(guò)濾掉。由此,共有11 420個(gè)訓(xùn)練剪輯、851個(gè)驗(yàn)證剪輯和2 274個(gè)測(cè)試剪輯,每個(gè)剪輯均包含11個(gè)事件標(biāo)簽之一。

除了對(duì)事件標(biāo)簽和開(kāi)始及終結(jié)時(shí)間進(jìn)行注釋外,本文在測(cè)試集中采集了850個(gè)視頻剪輯上的眾包注釋,其中要求標(biāo)注人員在投籃球員嘗試一次出手的幀上對(duì)籃球位置進(jìn)行標(biāo)記。

本文在來(lái)自訓(xùn)練視頻中的一個(gè)9 000個(gè)幀的子集中,對(duì)所有球員的包圍框進(jìn)行標(biāo)注。使用這些注釋對(duì)一個(gè)多人包圍框檢測(cè)器進(jìn)行了訓(xùn)練,并在本文數(shù)據(jù)集中的所有視頻上運(yùn)行了該訓(xùn)練后的檢測(cè)器。本文再次對(duì)每幀中置信度高于0.5的所有檢測(cè)結(jié)果進(jìn)行訓(xùn)練,得出每剪輯6~8人的檢測(cè)結(jié)果,如表1所示。在表1中,這些事件是有重合的,比如兩分球得分(一次運(yùn)動(dòng)行為得兩分)包括上籃得分和扣籃得分,以及其他兩分球,從表1的統(tǒng)計(jì)數(shù)據(jù)可以看出,兩分球行為(包括兩分球得分和兩分球未得分)的剪輯訓(xùn)練和測(cè)試量明顯高于上籃行為和扣籃行為,所涉及的平均人數(shù)也更高。在數(shù)據(jù)集的統(tǒng)計(jì)中,多人包圍框使用了驗(yàn)證視頻中的實(shí)際包圍框,所達(dá)到的平均重疊率為0.7,召回率為0.8。

2 方法設(shè)計(jì)

本文構(gòu)建的模型可以通過(guò)事件的不同階段中關(guān)注特定人類,推導(dǎo)出一個(gè)事件。首先由相對(duì)應(yīng)的雙向長(zhǎng)短期記憶[10](BLSTM)網(wǎng)絡(luò)處理每個(gè)球員的跟蹤軌跡,其中BLSTM和長(zhǎng)短期記憶(Long Short-Term Memory, LSTM)網(wǎng)絡(luò)都是時(shí)間遞歸神經(jīng)網(wǎng)絡(luò),是為解決遞歸神經(jīng)網(wǎng)絡(luò)[11](Recurrent Neural Network, RNN)存在的長(zhǎng)期依賴問(wèn)題而專門設(shè)計(jì)的。本文方法的基本流程如圖1所示,首先將跟蹤軌跡和事件狀態(tài)分別輸入到LSTM和BLSTM中,隨著事件的不斷發(fā)展,通過(guò)一個(gè)注意力模型,使用BLSTM的隱藏狀態(tài),在每個(gè)時(shí)刻對(duì)“關(guān)鍵”球員進(jìn)行識(shí)別。被關(guān)注的球員可隨著時(shí)間推移而改變。

圖1 本文方法基本流程

2.1 特征提取

每個(gè)視頻幀均由一個(gè)1 024維的特征向量ft表示,是Inception7網(wǎng)絡(luò)的最后一個(gè)全連接層的激活向量。此外,本文計(jì)算了視頻幀中每個(gè)人的空間定位特征,即一個(gè)2 805維的特征向量pti,其中包含著幀t中第i個(gè)球員的包圍盒的外觀信息(1 365維)和空間信息(1 440維)。本文對(duì)視頻幀中的球員區(qū)域進(jìn)行裁剪和調(diào)整大小后輸入Inception7網(wǎng)絡(luò),并對(duì)來(lái)自一個(gè)較低層的響應(yīng)進(jìn)行池化,提取出外觀特征??臻g特征對(duì)應(yīng)于一個(gè)32×32的空間直方圖,結(jié)合一個(gè)空間金字塔來(lái)表示不同尺度的包圍框位置。

2.2 事件分類

本文的目的是訓(xùn)練模型將視頻剪輯分入11個(gè)類別中的一個(gè)類別里。此外,模型還有一個(gè)附帶效果,能夠識(shí)別每幀中的關(guān)鍵球員。

(1)

然后,使用一個(gè)單向LSTM表示在時(shí)間t的事件狀態(tài):

(2)

(3)

如果該視頻屬于分類k,則yk=1,反之,則yk=0。

2.3 注意力模型

本文關(guān)注的是在每個(gè)時(shí)間步上的特征集合。根據(jù)此設(shè)定,需要解決兩個(gè)關(guān)鍵問(wèn)題:1) 雖然本文在每個(gè)幀中有著不同的檢測(cè),但可以通過(guò)一個(gè)目標(biāo)跟蹤方法跨幀對(duì)檢測(cè)結(jié)果進(jìn)行連接,這可能會(huì)帶來(lái)更好的球員特征表示;2) 對(duì)球員的關(guān)注取決于事件的狀態(tài),并且需要隨著事件的演變而發(fā)展。例如,在一次“罰球”的開(kāi)始過(guò)程中,關(guān)注到進(jìn)行投籃的球員是非常重要的。然而,在事件將要終結(jié)時(shí),投籃的成功或失敗則可以通過(guò)對(duì)持球人進(jìn)行觀察來(lái)判斷。

2.3.1帶跟蹤的注意力模型

首先,利用一個(gè)標(biāo)準(zhǔn)方法,將屬于同一個(gè)球員的檢測(cè)結(jié)果關(guān)聯(lián)到跟蹤中。將KLT跟蹤器[12]與二分圖匹配結(jié)合來(lái)關(guān)聯(lián)數(shù)據(jù)。

(4)

在每個(gè)時(shí)間步上,本文選擇在那一時(shí)刻相關(guān)度最高的球員。通過(guò)將處于該時(shí)間步的球員表示為一個(gè)凸組合形式完成選擇:

(5)

(6)

2.3.2不帶跟蹤的注意力模型

由于存在遮擋和快速移動(dòng)的情況,在擁擠場(chǎng)景中對(duì)人類進(jìn)行跟蹤比較困難。在此類設(shè)定中,不帶跟蹤的模型是有利的。因此該模型隨著事件演變,在球員間切換關(guān)注也將更加靈活。為此,本文提出一個(gè)模型,將每幀中的檢測(cè)都視為獨(dú)立于其他的幀?;跓o(wú)跟蹤注意力的球員特征的計(jì)算如下:

(7)

(8)

3 實(shí)驗(yàn)及分析

本節(jié)給出在NBA籃球比賽數(shù)據(jù)集上的三組實(shí)驗(yàn):事件分類,事件檢測(cè),注意力評(píng)價(jià)。

3.1 參數(shù)設(shè)置

在所有BLSTM(包括LSTM)網(wǎng)絡(luò)中使用了256維隱藏狀態(tài),在這些神經(jīng)網(wǎng)絡(luò)之前,利用一個(gè)帶有修正線性單元非線性的256維的嵌入層對(duì)球員特征和幀特征進(jìn)行嵌入。本文對(duì)球員位置特征使用了32×32的bins與空間金字塔池化。所有視頻剪輯的時(shí)長(zhǎng)均為4 s,用于注意力Softmax加權(quán)的τ值設(shè)為0.25。批處理大小為128,學(xué)習(xí)率為0.005,使用RMSProp算法[14],在每一萬(wàn)次迭代后將學(xué)習(xí)率降低0.1個(gè)因子。實(shí)驗(yàn)平臺(tái)是一個(gè)包括20個(gè)GPU的集群,迭代訓(xùn)練10萬(wàn)次。通過(guò)在驗(yàn)證集上進(jìn)行的交叉驗(yàn)證選擇出超參數(shù)。

3.2 事件分類

表2給出了每個(gè)設(shè)定的平均精度均值。使用全局信息以及局部球員信息的方法,性能優(yōu)于僅使用局部球員信息和僅使用全局信息的模型;使用加權(quán)求和對(duì)球員信息進(jìn)行結(jié)合,性能優(yōu)于統(tǒng)一求均值,而基于跟蹤的注意力模型性能稍好于不帶跟蹤的版本。同時(shí),一個(gè)標(biāo)準(zhǔn)的弱監(jiān)督方法,例如多示例學(xué)習(xí)[15](MIL),其有效性看起來(lái)要低于本文提出的模型方法。文獻(xiàn)[4]將直播文本(LT)作為輔助,分析并檢測(cè)了籃球視頻的中級(jí)語(yǔ)義特征,為了簡(jiǎn)化,其將上籃得分和扣籃得分都?xì)w納為兩分球得分,在籃球事件的構(gòu)建上力求簡(jiǎn)單,忽略了很多精彩的事件檢測(cè)。另外本文將文獻(xiàn)[7]多人視頻事件檢測(cè)方法應(yīng)用到籃球視頻事件檢測(cè)中,該方法將視頻幀分為不同的區(qū)域來(lái)檢測(cè)人物角色和行為,其在快速變化的籃球視頻中效果并不好,是所有方法表現(xiàn)最差的一個(gè),其主要原因可能是籃球視頻角色和運(yùn)動(dòng)轉(zhuǎn)換更快,采用一般多人視頻的檢測(cè)分析方法并不適用。

性能表現(xiàn)隨分類不同而變化,所有方法對(duì)例如“扣籃失敗”等的分類結(jié)果均不理想,本文對(duì)這種分類只有很少的數(shù)據(jù)。但是,在面對(duì)基于投籃的事件,例如“罰球”“上籃”和“三分球”等,本文方法性能表現(xiàn)較好,其中對(duì)投籃球員或防守球員的關(guān)注是十分有用的。

表2 孤立的視頻剪輯、事件分類的平均精度均值的比較

3.3 事件檢測(cè)

使用一個(gè)滑動(dòng)窗口方法,即:滑動(dòng)一個(gè)4 s窗口穿過(guò)所有的籃球比賽視頻,并將此窗口分入不相關(guān)類或11個(gè)事件分類之一,使用的步長(zhǎng)為2 s。將與11個(gè)標(biāo)注事件的重疊均不超過(guò)1 s的所有窗口視為不相關(guān)類。在訓(xùn)練、測(cè)試和驗(yàn)證階段使用了相同的設(shè)定。最終在所有的視頻中得出90 200個(gè)不相關(guān)樣本。

表3給出了檢測(cè)結(jié)果??梢钥吹剑⒁饬δP偷男阅軆?yōu)于現(xiàn)有的先進(jìn)方法;與孤立剪輯分類相比較,所有的方法在時(shí)序定位方面均表現(xiàn)稍差。 在所有方法中,對(duì)“搶斷”的分類和檢測(cè)有著顯著的性能差別,這是因?yàn)樵跈z測(cè)設(shè)定中采用了很大數(shù)量的不相關(guān)實(shí)例,這種不相關(guān)事件通常為球員之間互相傳球活動(dòng)。“搶斷”事件與“傳球”非常相似,區(qū)別在于前者的球傳遞到了對(duì)方球隊(duì)球員的手中。

表3 未剪輯視頻、事件檢測(cè)的平均精度均值比較

續(xù)表3

3.4 關(guān)于“注意力”的分析

如上所述,注意力能夠在分類和檢測(cè)等任務(wù)中提高模型的性能。為評(píng)價(jià)注意力模型,本文標(biāo)注了距離球最近的球員以及“投籃者”。

表4給出了在“投籃者”分類上的平均精度。結(jié)果表明,無(wú)跟蹤注意力模型能夠較好地為投籃者挑選一些適當(dāng)?shù)姆诸?,如“罰球得分/失敗”“上籃得分/失敗”“扣籃得分”。這表明注意力在球員檢測(cè)上能夠定位正在投籃的球員。

表4 注意力評(píng)價(jià)的平均精度均值

圖2給出了在樣本視頻中,注意力的可視化表示。每幀中籃球的位置用“☆”表示,每列圖像表示一個(gè)不同類型的事件。圖3給出了被關(guān)注的球員在球場(chǎng)上3種不同類型的事件的空間分布熱度圖,表示隨著事件演變,被關(guān)注球員遍及籃球場(chǎng)上的不同位置。第一行表示“罰籃”的熱度圖。該模型重點(diǎn)關(guān)注一個(gè)事件開(kāi)始時(shí)投籃球員的位置,隨后將注意力分散到其他位置。但是,在上籃事件中,關(guān)注點(diǎn)放在籃下;在罰球事件中,關(guān)注點(diǎn)在罰球線上;而在三分球事件中,關(guān)注點(diǎn)則在三分線外環(huán)。不帶跟蹤的模型將每幀中的檢測(cè)獨(dú)立于其他幀,事件終結(jié)時(shí),注意力會(huì)根據(jù)上一事件狀態(tài)進(jìn)行分散,比如三分球事件結(jié)束關(guān)注點(diǎn)在三分線外,因此,感覺(jué)注意力的范圍更大。而帶跟蹤的模型考慮運(yùn)動(dòng)軌跡和前后幀,并在整個(gè)事件中重點(diǎn)關(guān)注某個(gè)單一球員,對(duì)球員的偏移貫穿著整個(gè)視頻。例如,在罰球時(shí),如圖4所示,該模型注意到處于一個(gè)特定位置的防守球員,與投籃者不同,該球員在整個(gè)事件中一直可見(jiàn)。

圖2 在不同事件的開(kāi)始時(shí)高亮“被關(guān)注”的球員

圖3 注意力(來(lái)自不帶跟蹤模型)分布的可視化表示

圖4 帶跟蹤模型的注意力分布

4 結(jié) 語(yǔ)

針對(duì)多人視頻中的事件分類和檢測(cè),本文提出一個(gè)基于注意力的模型。除了對(duì)事件進(jìn)行識(shí)別之外,還能夠識(shí)別參與事件中的關(guān)鍵人,無(wú)須使用事件注釋的方式進(jìn)行有針對(duì)性的訓(xùn)練。因此,本文方法適用于多人環(huán)境。另外,本文還提出一個(gè)籃球比賽視頻數(shù)據(jù)集,包括密集的事件注釋。實(shí)驗(yàn)結(jié)果表明,所提方法能夠?qū)铝⒓糨嬤M(jìn)行分類,在較長(zhǎng)的未剪輯視頻中對(duì)事件進(jìn)行時(shí)間定位,性能較優(yōu),且可以將注意力放在相關(guān)球員上。

猜你喜歡
投籃注意力球員
讓注意力“飛”回來(lái)
比投籃
我不只是球員
NBA特刊(2018年11期)2018-08-13 09:29:16
今天你投籃了嗎
“揚(yáng)眼”APP:讓注意力“變現(xiàn)”
A Beautiful Way Of Looking At Things
投籃王和蓋帽王
新少年(2015年10期)2015-10-14 10:32:01
黑水县| 胶州市| 长武县| 西乡县| 江安县| 永和县| 南澳县| 湾仔区| 广昌县| 岳阳县| 封丘县| 丰都县| 双辽市| 宁阳县| 洪江市| 芦山县| 西林县| 西城区| 扶风县| 宁波市| 启东市| 集安市| 延庆县| 乐昌市| 平泉县| 大英县| 长兴县| 班玛县| 渑池县| 枣强县| 电白县| 山丹县| 德清县| 水城县| 固安县| 汤原县| 德阳市| 宝坻区| 滁州市| 淳安县| 晋州市|