張瑞全
(滁州城市職業(yè)學(xué)院 體育部,安徽 滁州 239000)
籃球比賽過程中精準(zhǔn)識(shí)別目標(biāo)運(yùn)動(dòng)員有助于快速捕捉對(duì)手球隊(duì)的陣型與比賽策略.籃球運(yùn)動(dòng)員目標(biāo)檢測(cè)作為構(gòu)建戰(zhàn)術(shù)決策系統(tǒng)的關(guān)鍵性技術(shù),長(zhǎng)期以來備受國(guó)內(nèi)外研究者的關(guān)注,不僅可以實(shí)時(shí)追蹤目標(biāo)球員的行為軌跡,并且為贏得競(jìng)賽提供建設(shè)性與戰(zhàn)略性的指導(dǎo)[1].隨著視覺傳感技術(shù)的更新升級(jí),籃球運(yùn)動(dòng)領(lǐng)域更易實(shí)時(shí)獲取大量高清晰度的動(dòng)態(tài)視頻,為運(yùn)動(dòng)員目標(biāo)檢測(cè)提供有利的數(shù)據(jù)基礎(chǔ).目標(biāo)檢測(cè)是視覺圖像處理領(lǐng)域的關(guān)鍵分支,是通過獲取幀圖像的特征信息實(shí)時(shí)進(jìn)一步分類[2],從而判斷目標(biāo)對(duì)象所屬類型,達(dá)到目標(biāo)檢測(cè)的目的,籃球運(yùn)動(dòng)員目標(biāo)檢測(cè)也是通過這一原理實(shí)現(xiàn),如何在海量幀圖像中識(shí)別出目標(biāo)對(duì)象成為關(guān)鍵[3].相對(duì)于傳統(tǒng)的目標(biāo)檢測(cè)方法,深度學(xué)習(xí)算法可以構(gòu)建深層次的智能學(xué)習(xí)網(wǎng)絡(luò),面對(duì)大規(guī)模的樣本數(shù)據(jù)也可以快速提取有效的目標(biāo)特征,為籃球運(yùn)動(dòng)員目標(biāo)檢測(cè)提供了新的研究方向[4].本文選用深度學(xué)習(xí)算法中的卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)構(gòu)建深層次的籃球運(yùn)動(dòng)員目標(biāo)檢測(cè)模型,對(duì)CNN的圖像特征提取環(huán)節(jié)和模型訓(xùn)練策略進(jìn)行優(yōu)化,形成高性能的改進(jìn)Faster R-CNN算法.
本文提出的改進(jìn)Faster R-CNN 算法是對(duì)傳統(tǒng)CNN算法的多次改進(jìn)與優(yōu)化.實(shí)現(xiàn)籃球運(yùn)動(dòng)員目標(biāo)檢測(cè)的步驟如下:(1)設(shè)定交替出現(xiàn)的Conv+Relu+Pooling 網(wǎng)絡(luò)結(jié)構(gòu),并使用一組網(wǎng)絡(luò)在特定層獲取輸入圖像的卷積特征圖,基于Gabor濾波器對(duì)幀圖像實(shí)施平滑濾波和邊緣特征提取處理[5];(2)以籃球運(yùn)動(dòng)員幀圖像為對(duì)象,通過EdgeBoxes算法基于滑動(dòng)窗口策略提取目標(biāo)建議區(qū)域,將卷積特征池化為統(tǒng)一大小的特征向量,大量縮短建議區(qū)域提取時(shí)間;(3)通過訓(xùn)練完成的支持向量機(jī)分類器(support vector machine,SVM)判斷該初始建議區(qū)域歸類于前景(背景)的概率[6,7],基于分類與回歸網(wǎng)絡(luò)對(duì)建議區(qū)域內(nèi)的目標(biāo)進(jìn)行分類和邊界回歸,精準(zhǔn)實(shí)現(xiàn)籃球運(yùn)動(dòng)員目標(biāo)檢測(cè).網(wǎng)絡(luò)模型整體采用遷移學(xué)習(xí)策略,對(duì)在大規(guī)模幀圖像數(shù)據(jù)集中預(yù)訓(xùn)練完成的網(wǎng)絡(luò)模型實(shí)施監(jiān)督訓(xùn)練和微調(diào),以獲取適用于當(dāng)前目標(biāo)檢測(cè)任務(wù)的網(wǎng)絡(luò)模型結(jié)構(gòu).
此次構(gòu)建的籃球運(yùn)動(dòng)員目標(biāo)檢測(cè)模型設(shè)定交替出現(xiàn)的Conv+Relu+Pooling 網(wǎng)絡(luò)結(jié)構(gòu),輔助使用Ga?bor 濾波器完成籃球運(yùn)動(dòng)員圖像特征提取,設(shè)計(jì)基于Gabor 濾波器的卷基層,獲取輸入圖像的精確卷積特征圖.Gabor函數(shù)擅長(zhǎng)提取圖像的邊緣信息,屬于線性濾波器.空間域中正弦平面波調(diào)制的高斯核函數(shù)構(gòu)成了二維Gabor濾波器[8].Gabor函數(shù)的實(shí)部負(fù)責(zé)圖像平滑,虛部負(fù)責(zé)圖像邊緣的檢測(cè)工作[9,10].
根據(jù)Gabor濾波器的基本定義,方向和頻率是Gabor濾波器的兩大關(guān)鍵性質(zhì)信息,Gabor函數(shù)數(shù)組的非一致“頻率”和“方向”設(shè)定對(duì)于圖像輪廓和細(xì)節(jié)特征的提取更為有利.為提高學(xué)習(xí)特征在“方向”信息上的魯棒性將方向信息編碼到普通卷積核內(nèi),為優(yōu)化學(xué)習(xí)特征在“尺度變化”上的魯棒性,將頻率信息整合至差異性的網(wǎng)絡(luò)層內(nèi)[11].由此,嶄新卷積核的獲取通過操作Gabor 濾波器實(shí)現(xiàn),變化Gabor 濾波器的基本定義得到新的卷積核如
式中:u指方向;v代表頻率;λ(u,v) 表示具備差異性方向與尺度信息的濾波器;Fe,j表示一般性卷積核.
基于元素乘運(yùn)算獲取新的濾波器為
新濾波器內(nèi)容變量影響前向傳播權(quán)重,由于一般性卷積核被保留下來,因此更新一般性卷積核即可發(fā)揮Gabor濾波器對(duì)反向傳播的作用.新Gabor濾波器影響反向傳播表達(dá)式為
式中:Ge,q代表新卷積核;β為待定系數(shù);ε計(jì)算方法為
式中:L為損失函數(shù).
基于Gabor 濾波器更新卷積核為Faster R-CNN 深度學(xué)習(xí)網(wǎng)絡(luò)構(gòu)建新的卷積核,有效濾除輸入籃球運(yùn)動(dòng)員圖像的噪聲和冗余信息,對(duì)輸入圖像實(shí)施網(wǎng)格劃分,提高圖像特征提取的精準(zhǔn)度,為后期獲取精簡(jiǎn)的特征建議區(qū)域創(chuàng)造有利條件.
樣本圖像目標(biāo)建議提取數(shù)量決定了改進(jìn)Faster R-CNN 網(wǎng)絡(luò)的目標(biāo)檢測(cè)精度,參考路雪等人的研究[12],使用EdgeBoxes 算法提取樣本圖像的目標(biāo)建議區(qū)域,以削減改進(jìn)Faster R-CNN 算法模型中感興趣區(qū)域(ROI)池化層的復(fù)雜程度.籃球運(yùn)動(dòng)員目標(biāo)檢測(cè)前需進(jìn)行目標(biāo)標(biāo)注工作,任務(wù)繁瑣復(fù)雜,引入Edge?Boxes算法提取樣本圖像目標(biāo)建議區(qū)域,可減少目標(biāo)標(biāo)注的任務(wù)量,提取過程基于滑動(dòng)窗口策略實(shí)現(xiàn),該過程需注意以下關(guān)鍵問題.
1)搜索步長(zhǎng)、搜索準(zhǔn)確度、建議區(qū)域上限和搜索最低分等變量均由特定的參數(shù)進(jìn)行控制,保證Edge?Boxes提取特征的效果.
2)設(shè)置感興趣區(qū)域池化層.求取運(yùn)動(dòng)員目標(biāo)圖像的感興趣區(qū)域,將樣本圖像輸入Faster R-CNN 網(wǎng)絡(luò)即可提取卷積特征圖,接下來將圖像的卷積特征圖與感興趣區(qū)域作為ROI池化層的輸入,隨后將此層中隨機(jī)且有效的感興趣區(qū)域的特征向特征映射轉(zhuǎn)換[13],特征映射的統(tǒng)一標(biāo)準(zhǔn)具有固定尺寸H×W.
ROI 池化層使傳統(tǒng)CNN 網(wǎng)絡(luò)擺脫了輸入圖像固定尺寸的限制,取而代之的是在ROI 池化層內(nèi)將差異尺寸的特征向量池化成統(tǒng)一規(guī)格.在ROI 池化層內(nèi)進(jìn)行如下具體操作:基于H×W大小的子窗口分割h×w的感興趣區(qū)域窗口,獲取子窗口數(shù)量;將目標(biāo)特征矩陣作為全連接層以求取特征矩陣,目標(biāo)特征矩陣可通過池化層求取各子窗口的方式獲取[14].最后,在兩個(gè)并行的全連接層內(nèi)實(shí)施回歸計(jì)算,獲得網(wǎng)絡(luò)輸出.
EdgeBoxes 算法除了輔助完成Faster R-CNN 深度學(xué)習(xí)網(wǎng)絡(luò)的樣本圖像目標(biāo)建議提取工作以外,還具有精準(zhǔn)選取圖像候選框的作用[15].原理如下:基于EdgeBoxes 算法求取候選框內(nèi)部邊緣數(shù)量并據(jù)此信息排序,從實(shí)際的運(yùn)動(dòng)員目標(biāo)檢測(cè)需求出發(fā)考慮候選框排序情況,選取更為合理的候選框及樣本圖像目標(biāo)建議區(qū)域,有效控制樣本圖像目標(biāo)建議區(qū)域數(shù)量.
在Faster R-CNN 深度學(xué)習(xí)檢測(cè)模型訓(xùn)練階段采用遷移學(xué)習(xí)策略,可解決海量參數(shù)訓(xùn)練學(xué)習(xí)消耗計(jì)算機(jī)內(nèi)存大、識(shí)別分類能力差等問題[16],顯著提升籃球運(yùn)動(dòng)員目標(biāo)檢測(cè)的效率.遷移學(xué)習(xí)是對(duì)成熟且預(yù)訓(xùn)練好的網(wǎng)絡(luò)模型參數(shù)實(shí)施監(jiān)督與微調(diào)的一種策略,使原網(wǎng)絡(luò)模型適用于新的目標(biāo)檢測(cè)的一種方式.本研究對(duì)象樣本規(guī)模遠(yuǎn)遠(yuǎn)低于百萬(wàn)級(jí)數(shù)據(jù)庫(kù),可使用遷移學(xué)習(xí)的方式對(duì)改進(jìn)Faster R-CNN 深度學(xué)習(xí)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練[17,18].具體采用Alex-Net 類型的深度卷積網(wǎng)絡(luò)模型,包含8 層網(wǎng)絡(luò)結(jié)構(gòu),在層次數(shù)量、檢測(cè)精度和計(jì)算量方面均符合籃球運(yùn)動(dòng)員目標(biāo)識(shí)別的要求.基于遷移學(xué)習(xí)策略的Faster R-CNN 深度學(xué)習(xí)網(wǎng)絡(luò)模型訓(xùn)練的過程如圖1.
分析圖1 可知,基于遷移學(xué)習(xí)策略的改進(jìn)Faster R-CNN 關(guān)鍵點(diǎn)在于:首先,模型訓(xùn)練之初須標(biāo)定訓(xùn)練成熟的網(wǎng)絡(luò)模型為遷移學(xué)習(xí)做準(zhǔn)備;其次,每次迭代須計(jì)算模型檢測(cè)誤差,符合條件即可終止迭代并輸出檢測(cè)結(jié)果.
圖1 基于遷移學(xué)習(xí)策略的改進(jìn)Faster R-CNN 深度學(xué)習(xí)網(wǎng)絡(luò)模型訓(xùn)練過程
本文檢測(cè)對(duì)象為籃球運(yùn)動(dòng)員屬于小目標(biāo),基于上述過程描述最終改進(jìn)Fast R-CNN 深度學(xué)習(xí)網(wǎng)絡(luò)模型由以下部分構(gòu)成:7 個(gè)卷積層、1 個(gè)ROI池化層和2 個(gè)全連接層(并行模式),兩個(gè)并行全連接層負(fù)責(zé)求取多任務(wù)損失量,獲取最終的籃球運(yùn)動(dòng)員目標(biāo)檢測(cè)結(jié)果.改進(jìn)Faster R-CNN深度學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu)如圖2.
圖2 改進(jìn)Faster R-CNN 深度學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu)
為驗(yàn)證本研究提出的改進(jìn)Faster R-CNN 深度學(xué)習(xí)網(wǎng)絡(luò)在籃球運(yùn)動(dòng)員目標(biāo)檢測(cè)中的實(shí)際應(yīng)用效果,搭建仿真實(shí)驗(yàn)環(huán)境.實(shí)驗(yàn)開展步驟如下:首先,由籃球比賽現(xiàn)場(chǎng)圖像構(gòu)建籃球運(yùn)動(dòng)員目標(biāo)檢測(cè)的訓(xùn)練集與測(cè)試集,包含8 000幀彩色圖像(訓(xùn)練集與測(cè)試集分別包含6 000幀和2 000幀),圖像均符合深度學(xué)習(xí)算法學(xué)習(xí)與訓(xùn)練標(biāo)準(zhǔn);其次,標(biāo)注圖像中的運(yùn)動(dòng)員目標(biāo),基于百萬(wàn)級(jí)數(shù)據(jù)庫(kù)訓(xùn)練成熟的網(wǎng)絡(luò)作為初始化網(wǎng)絡(luò)模型,基于此次目標(biāo)檢測(cè)的實(shí)際需求對(duì)網(wǎng)絡(luò)模型實(shí)施微調(diào)與修正;最后,在測(cè)試階段求取嶄新網(wǎng)絡(luò)模型檢測(cè)效果,循環(huán)迭代,當(dāng)網(wǎng)絡(luò)檢測(cè)結(jié)果誤差不大于預(yù)設(shè)值后輸出.在方法測(cè)試階段引入Fast R-CNN網(wǎng)絡(luò)模型、R-CNN網(wǎng)絡(luò)模型進(jìn)行籃球運(yùn)動(dòng)員目標(biāo)檢測(cè)對(duì)比測(cè)試.
平均絕對(duì)誤差(Mean Absolute Error,MAE)可用于評(píng)估目標(biāo)檢測(cè)方法對(duì)目標(biāo)建議區(qū)域的預(yù)測(cè)情況,將預(yù)測(cè)結(jié)果與實(shí)際標(biāo)注結(jié)果對(duì)比即可求取檢測(cè)方法的平均絕對(duì)誤差,計(jì)算方法為
式(5)中:預(yù)測(cè)目標(biāo)建議區(qū)域與實(shí)際標(biāo)注結(jié)果分別用r和T表示;二者寬度與高度分別用W和H表示.測(cè)試中記錄三種目標(biāo)檢測(cè)方法的平均絕對(duì)誤差與平均速度,不同目標(biāo)檢測(cè)方法的平均絕對(duì)誤差統(tǒng)計(jì)如圖3.
分析圖3 可知:本文方法的目標(biāo)建議區(qū)域精度明顯優(yōu)于傳統(tǒng)Fast R-CNN 網(wǎng)絡(luò)模型、R-CNN網(wǎng)絡(luò)模型.隨著籃球運(yùn)動(dòng)員目標(biāo)檢測(cè)數(shù)量的增加,本文方法MAE 曲線保持著相對(duì)平穩(wěn)的上升趨勢(shì),當(dāng)籃球運(yùn)動(dòng)員目標(biāo)達(dá)到5 個(gè)時(shí),其MAE 值仍不高于0.1;R-CNN 網(wǎng)絡(luò)模型在初始階段MAE值上升較緩慢,當(dāng)運(yùn)動(dòng)員目標(biāo)達(dá)到3 個(gè)時(shí),該模型MAE 值遠(yuǎn)超過Fast R-CNN 網(wǎng)絡(luò)模型;Fast RCNN 網(wǎng)絡(luò)模型MAE 值始終保持上升趨勢(shì),檢測(cè)目標(biāo)建議區(qū)域的整體效果較差.不同目標(biāo)檢測(cè)方法的平均速度統(tǒng)計(jì)見表1.
圖3 不同目標(biāo)檢測(cè)方法的平均絕對(duì)誤差統(tǒng)計(jì)
表1 不同目標(biāo)檢測(cè)方法的平均速度統(tǒng)計(jì)
結(jié)合表1中平均速度統(tǒng)計(jì)情況可知,本文方法識(shí)別目標(biāo)建議區(qū)域的用時(shí)最短,平均速度整體呈上升趨勢(shì),約在12~18 f·s-1之間;R-CNN 網(wǎng)絡(luò)模型、Fast R-CNN 網(wǎng)絡(luò)模型最高處理速度僅分別為9、10 f·s-1,且兩種傳統(tǒng)網(wǎng)絡(luò)模型平均速度沒有顯著的優(yōu)化趨勢(shì).本文方法的平均檢測(cè)速度遠(yuǎn)遠(yuǎn)超過傳統(tǒng)算法,這是因?yàn)槁?lián)合使用Gabor濾波器與EdgeBoxes 算法完成樣本圖像目標(biāo)建議提取,前者通過頻率與方向處理圖像平滑與邊緣提取問題,降低特征提取難度;后者使用滑動(dòng)窗口策略實(shí)現(xiàn)建議區(qū)域提取過程,設(shè)置ROI池化層不同尺寸的特征向量形成統(tǒng)一規(guī)格,EdgeBoxes 算法求取候選框內(nèi)部邊緣數(shù)量并據(jù)此排序,有效控制樣本圖像目標(biāo)建議區(qū)域數(shù)量,節(jié)約計(jì)算機(jī)系統(tǒng)的內(nèi)存消耗,有效減少算法的運(yùn)行時(shí)間.
召回率是評(píng)價(jià)目標(biāo)檢測(cè)方法的有效方式之一,可以直接考察目標(biāo)檢測(cè)方法的漏檢情況.統(tǒng)計(jì)了三種目標(biāo)檢測(cè)方法的平均召回率,結(jié)果見表2.
表2 不同目標(biāo)檢測(cè)方法的平均召回率統(tǒng)計(jì)
由表2可知,處理101數(shù)量級(jí)的目標(biāo)建議時(shí),三種目標(biāo)檢測(cè)方法的初始平均召回率差距較小,本文方法稍微領(lǐng)先.觀察整體趨勢(shì)可知,R-CNN 網(wǎng)絡(luò)模型平均召回率穩(wěn)步提升,但最終平均召回率僅為0.56,不夠理想,而且所需的目標(biāo)數(shù)量級(jí)較大,對(duì)計(jì)算機(jī)系統(tǒng)運(yùn)行造成一定的負(fù)擔(dān);Fast R-CNN 網(wǎng)絡(luò)模型的平均召回率與目標(biāo)建議數(shù)量級(jí)的關(guān)系與前者方法一致,不同的是僅在102規(guī)模的目標(biāo)建議數(shù)量級(jí)下便獲取了R-CNN 網(wǎng)絡(luò)模型在103目標(biāo)建議數(shù)量級(jí)下的檢測(cè)效果,檢測(cè)效果略優(yōu)于R-CNN 網(wǎng)絡(luò)模型;上述兩種方法的特點(diǎn)是需要較大規(guī)模的目標(biāo)建議數(shù)量才能獲得較好的召回率,相比之下本文方法依賴的目標(biāo)建議數(shù)量級(jí)較小,幾千個(gè)目標(biāo)建議支持下即可達(dá)到理想的召回率,滿足籃球運(yùn)動(dòng)員目標(biāo)檢測(cè)的實(shí)際應(yīng)用.
本文提出一種改進(jìn)Faster R-CNN 算法用于籃球運(yùn)動(dòng)員目標(biāo)檢測(cè).在仿真測(cè)試環(huán)節(jié)取得了較優(yōu)的應(yīng)用效果,平均召回率、檢測(cè)精度較為理想,之所以效果顯著是因?yàn)榇嬖谝韵?點(diǎn)優(yōu)勢(shì).
1)基于EdgeBoxes 算法提取籃球運(yùn)動(dòng)員樣本圖像目標(biāo)建議區(qū)域,提取過程基于滑動(dòng)窗口策略實(shí)現(xiàn);同時(shí)設(shè)定了ROI池化層,池化層將特征向量變換為統(tǒng)一規(guī)格,其作用是令訓(xùn)練過程輸入圖像的大小無(wú)需受限于固定尺寸.改進(jìn)Faster R-CNN 深度學(xué)習(xí)網(wǎng)絡(luò)ROI池化層有效避免了強(qiáng)制縮放圖像尺寸導(dǎo)致的局部建議區(qū)域圖像比例失真、細(xì)節(jié)丟失等問題.
2)改進(jìn)Faster R-CNN 深度學(xué)習(xí)檢測(cè)模型訓(xùn)練階段采用遷移學(xué)習(xí)策略,優(yōu)點(diǎn)是對(duì)成熟且預(yù)訓(xùn)練好的網(wǎng)絡(luò)模型參數(shù)實(shí)施監(jiān)督與微調(diào)令其適用于新的目標(biāo)檢測(cè),無(wú)需重新訓(xùn)練深度學(xué)習(xí)模型,大量節(jié)省了籃球運(yùn)動(dòng)員目標(biāo)檢測(cè)的工作量與時(shí)間.
3)基于Gabor 濾波器實(shí)現(xiàn)籃球運(yùn)動(dòng)員圖像特征提取,由于Gabor 函數(shù)是線性濾波器,擅長(zhǎng)提取圖像的邊緣信息,因此基于Gabor濾波器更新卷積核為Faster R-CNN 深度學(xué)習(xí)網(wǎng)絡(luò)構(gòu)建新的卷積核,濾除輸入籃球運(yùn)動(dòng)員圖像的噪聲和冗余信息,以獲取輸入圖像的精確卷積特征圖,保障了籃球運(yùn)動(dòng)員目標(biāo)檢測(cè)的準(zhǔn)確度.
當(dāng)前該方法在籃球運(yùn)動(dòng)員目標(biāo)檢測(cè)領(lǐng)域獲得了一定的成效,但面對(duì)不斷增大的圖像數(shù)量級(jí)及目標(biāo)檢測(cè)的效率需求,該方法還需適時(shí)進(jìn)行深度優(yōu)化.未來關(guān)于籃球運(yùn)動(dòng)員目標(biāo)檢測(cè)的研究中將著重考慮目標(biāo)識(shí)別的時(shí)效性問題,協(xié)助Faster R-CNN 算法快速得到有效目標(biāo)信息,為籃球比賽隊(duì)員行為追蹤、戰(zhàn)術(shù)分析和智能決策提供數(shù)據(jù)基礎(chǔ).