国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于深度學習的足球球員跟蹤算法研究

2018-08-02 02:49:02馬月潔馮爽王永濱
關鍵詞:球員卷積模板

馬月潔,馮爽,王永濱

(中國傳媒大學協(xié)同創(chuàng)新中心,北京100024)

1 引言

在現(xiàn)代生活中,體育視頻尤其是足球視頻深受廣大觀眾喜愛。球員跟蹤具有很強的實用價值和現(xiàn)實意義。盡管在過去的十年中跟蹤算法取得很大進展[1][2][3],但設計一個能夠處理嚴重遮擋、顯著外觀變化的健壯跟蹤器仍然存在巨大的挑戰(zhàn)。

對于物體跟蹤,很多研究者提出了較為有效的辦法。Henriques[4]制定了核相關濾波器(KCF),運用它訓練一個判別式分類器,使用循環(huán)矩陣生成樣本的方式去訓練分類。DLT[5]和SO-DLT[6]使用輔助圖像數(shù)據(jù)離線訓練深度模型,并在在線跟蹤階段進行微調(diào)。FCNT[7]和DeepSRDCF[8]通過使用在大規(guī)模分類數(shù)據(jù)集上預訓練好的CNN網(wǎng)絡來提取特征,解決了缺少訓練數(shù)據(jù)的問題。MDNet[9]使用視頻代替圖像來預先訓練CNN,以獲得目標的通用表達能力。RTT[10]通過搭建多方向遞歸神經(jīng)網(wǎng)絡模型來發(fā)掘對跟蹤有用的可靠目標部分。

在足球比賽視頻中進行球員的跟蹤存在很大挑戰(zhàn),第一,同隊球員相似度高,肉眼尚且區(qū)分困難;第二,運動員在傳球、運球過程中形變較大,遮擋嚴重。

針對以上問題,本文提出了一種基于全卷積孿生神經(jīng)網(wǎng)絡的球員跟蹤方案。

2 全卷積孿生神經(jīng)網(wǎng)絡

孿生神經(jīng)網(wǎng)絡是一類包含兩個甚至更多個具有相同參數(shù)和權重子網(wǎng)絡的神經(jīng)網(wǎng)絡架構。孿生神經(jīng)網(wǎng)絡擅長處理涉及相似性或兩個可比較事物之間關系的任務。學習跟蹤任意對象可以看作在下一幀中尋找和當前幀目標具有最大相似性的位置,因而能夠使用相似性學習的方式來處理。

2.1 網(wǎng)絡模型

本文通過一個嵌入函數(shù)將模板圖像x1和搜索圖像x2映射到特定的特征空間,并用x1路得到的特征對x2路的特征空間進行卷積,得到一個代表搜索圖像中不同位置與模板圖像相似度值的得分圖。具體框圖如圖1所示。

圖1 網(wǎng)絡模型框圖

圖中灰色部分為嵌入函數(shù)部分,這里采用與Alexnet[11]類似結構,該結構包括五個卷積層,并使用ReLU作為非線性激活函數(shù)。因為網(wǎng)絡沒有全連層,全為卷積結構,且左右兩部分嵌入函數(shù)(子網(wǎng)絡)相同,共享參數(shù)和權重(W),因此我們的模型叫做全卷積孿生神經(jīng)網(wǎng)絡模型。該模型的前兩個卷積層后面增加了最大池化層,最大池化層的加入使網(wǎng)絡在保留主要特征的同時減少了參數(shù)個數(shù),提升了模型速度,并防止過擬合的產(chǎn)生,提高了模型的泛化能力。

我們的網(wǎng)絡體系結構比VGG-Nets[12][13]等體系結構小。這是因為空間信息會隨著網(wǎng)絡的加深而逐漸淡化,不利于目標的精確定位。且圖像的輸入較小,這自然要求降低網(wǎng)絡的層數(shù)。

2.2 算法原理

算法通過比較搜索區(qū)域和目標模板的相似度來實現(xiàn)球員的跟蹤,這種方法類似于基于相關濾波的方法,只不過我們將逐點平移計算相似度的方法改成卷積操作來進行搜索區(qū)域與模板的匹配,然后得到搜索區(qū)域的得分圖,得分圖中得分最高的點對應的位置即為目標的位置。

實驗中首先離線訓練卷積網(wǎng)絡得到匹配函數(shù),離線訓練通過采用隨機梯度下降算法最小化目標損失函數(shù)來完成。具體損失函數(shù)形式如下:

1(y,s)=log(1+e(-ys))

(1)

其中s代表得分圖中每個點的值,而y對應于此點的標簽,其中 +1代表正樣本,-1代表負樣本,以上是得分圖中每一點的損失值。對于得分圖的整體損失,使用所有點損失的平均值,即:

(2)

其中u∈D代表在得分圖中的位置。

然后在在線跟蹤階段,通過匹配函數(shù)選擇與初始幀標定目標最為匹配的位置作為跟蹤的結果。

3 實驗

3.1 實驗步驟

3.1.1 訓練數(shù)據(jù)

由兩部分組成,第一部分是ILSVRC15(Large Scale Visual Recognition Challenge 2015)數(shù)據(jù)集的4417個視頻,其被分為30個類,包含了200多萬個帶標簽的邊界框,在訓練中我們忽略了視頻中對象的類別信息;第二部分是62個2016年歐洲杯足球視頻片段,包含了2萬多個帶標簽的邊界框。

3.1.2 數(shù)據(jù)預處理

模板圖像和搜索圖像是從兩個相隔T幀之外的視頻幀中提取的,兩者都包含對象。為了簡化訓練,實現(xiàn)批量輸入,我們在不破壞圖像縱橫比的基礎上設定模板圖像的大小為127×127像素,搜索圖像的大小為255×255像素。為了讓網(wǎng)絡獲得更多信息,我們添加了一定數(shù)量的上下文信息,更精確地說,邊界框的擴展將滿足以下等式:

s(w+ 2p)×s(h+ 2p)=A

(3)

其中A表示模板圖像或待搜索圖像的大小,w表示邊界框的寬度,h表示邊界框的高度,p表示上下文邊距,s表示比例因子,實驗中我們將上下文邊距設置為平均尺寸 p =(w + h)/4 的一半,具體示例如圖2所示。

圖2 模板圖像和搜索圖像示例

3.1.3 網(wǎng)絡模型訓練學習

在模型訓練過程中,嵌入函數(shù)的參數(shù)初始值符合高斯分布,并根據(jù)改進的Xavier 方法[6]進行縮放。小批量的大小設置為2,學習率使用退火算法從10-2到10-5。

在跟蹤過程中,我們只搜索對象大小約五倍的對象,并在得分圖上添加一個余弦窗口,以懲罰大位移。

3.2 實驗結果與分析

本文算法使用了MatConvNet工具箱[14],運行環(huán)境為 Matlab2014a,Intel(R)Core(TM)i7-4720HQ CPU @2.60GHz 2.59GHz 和 NVIDIA GeForce GTX 960M GPU。

測試數(shù)據(jù)來自2016年歐洲杯足球視頻中17個包含了快速運動,遮擋,光照等難處理情況的視頻片段。評估基于兩個指標:準確率(文中選取的閾值是20像素,即距離中心位置誤差小于20像素則判斷跟蹤準確)和邊界框重疊比(IOU)。

表1是經(jīng)過本文算法得到的實驗統(tǒng)計數(shù)據(jù)結果。

表1 實驗統(tǒng)計數(shù)據(jù)

從表中可以看出,當卷積層數(shù)為5時,跟蹤的準確率最高,達到93%以上,當卷積層數(shù)為2時,跟蹤的準確率次之。經(jīng)過歐洲杯數(shù)據(jù)集微調(diào)過的網(wǎng)絡能更好的適應測試集,擁有更高的跟蹤準確率。

同時本文對不同卷積層進行了可視化操作,如圖3所示,從左到右依次為卷積層(conv)1至5層。從圖中可以看出,conv1、conv 2學習到的特征基本上是邊緣、顏色等底層特征;conv3開始卷積核逐漸學習到紋理,具有辨別性的關鍵特征等。當卷積層數(shù)為2時,網(wǎng)絡學習到底層特征,更適合進行類間的區(qū)分,即解決不同隊球員間的遮擋問題;當卷積層數(shù)為5層時,網(wǎng)絡學習到了更具有辨別性的關鍵特征,更適合進行類內(nèi)的區(qū)分,即同隊隊員的遮擋問題。

4 結論

本文采用離線訓練的方式在大型目標檢測數(shù)據(jù)集和足球視頻集上對全卷積孿生神經(jīng)網(wǎng)絡進行訓練,提取具有深層次信息的CNN特征用于跟蹤。從實驗結果來看,算法對球員的跟蹤是有效的。在將來的工作中,將考慮融合不同卷積層的深度信息,解決現(xiàn)在得分圖每個位置貢獻一致的問題,進一步提升算法的準確率。

圖3 卷積層可視化

猜你喜歡
球員卷積模板
鋁模板在高層建筑施工中的應用
鋁模板在高層建筑施工中的應用
基于3D-Winograd的快速卷積算法設計及FPGA實現(xiàn)
從濾波器理解卷積
電子制作(2019年11期)2019-07-04 00:34:38
我不只是球員
NBA特刊(2018年11期)2018-08-13 09:29:16
基于傅里葉域卷積表示的目標跟蹤算法
鋁模板在高層建筑施工中的應用
城市綜改 可推廣的模板較少
一種基于卷積神經(jīng)網(wǎng)絡的性別識別方法
電視技術(2014年19期)2014-03-11 15:38:20
锡林浩特市| 宜章县| 博白县| 永顺县| 五台县| 秦安县| 炎陵县| 教育| 繁峙县| 崇阳县| 遂宁市| 汉沽区| 安阳市| 洛扎县| 浮山县| 正镶白旗| 茌平县| 渑池县| 岳阳市| 奉化市| 盘锦市| 承德市| 西丰县| 科技| 资源县| 都昌县| 高碑店市| 宜良县| 郸城县| 通化市| 眉山市| 辽源市| 安西县| 珠海市| 航空| 岳阳县| 伊宁县| 鞍山市| 双鸭山市| 郎溪县| 正镶白旗|