王智文,王宇航
(1.廣西科技大學計算機科學與通信工程學院,廣西柳州545006; 2.桂林航天工業(yè)學院汽車與交通工程學院,廣西桂林541004)
視頻足球比賽中的團隊行為識別研究綜述
王智文1,王宇航2
(1.廣西科技大學計算機科學與通信工程學院,廣西柳州545006; 2.桂林航天工業(yè)學院汽車與交通工程學院,廣西桂林541004)
對有計劃高協(xié)同性多運動員(智能體)團隊行為的理解和識別,是計算機視覺研究領(lǐng)域的重要研究問題之一.從視頻足球比賽行為識別過程中的目標跟蹤與檢測、行為表示、分類器的構(gòu)建及行為識別等4個方面詳細分析和總結(jié)了團隊行為識別研究國內(nèi)外現(xiàn)有成果;分析了團隊行為識別研究尚待解決的問題及未來研究趨勢,為未來的視頻足球比賽中團隊行為識別及多目標行為識別的研究提供了新思路及文獻參考.
目標跟蹤與檢測;行為表示;分類器的構(gòu)建;遮擋;行為識別策略;團隊行為識別;角色識別
行為識別的目標是識別在現(xiàn)實生活中建立起來的人類共同行為.精確的行為識別具有挑戰(zhàn)性,因為人類行為具有復雜性、高度多樣化特征.足球比賽是一種有計劃的高協(xié)同性多運動員(智能體)的團隊行為.團隊行為的理解和識別是計算機視覺研究領(lǐng)域的重要研究問題之一,有許多方面的應用,如視頻監(jiān)控和監(jiān)測、對象視頻摘要、人機交互、運動員輔助訓練、比賽判罰輔助、視頻檢索和瀏覽及數(shù)字圖書館組織等.雖然單一智能體的行為識別問題已得到廣泛研究,但是多智能體行為識別的研究就相對少得多.足球比賽中的行為識別受光照、視角、多尺度以及遮擋等因素的影響,且要在復雜場景下實時魯棒地識別球隊行為;因此,足球比賽中團隊行為的理解和識別仍然是一個具有挑戰(zhàn)性的研究課題,原因如下:
1)很難找到團隊行為的有效描述,因為團隊行為是由多人協(xié)同完成的行為,團隊中個體的單獨行為和團隊整體行為有一定的關(guān)聯(lián)性.一般不能通過觀察單一智能體的單獨行為來特征化球隊的總行為;
2)當用局部特征來描繪單個人的行為時,需要對很多對象進行跟蹤.此外,團隊行為的環(huán)境、背景往往非?;靵y,存在自遮擋和互遮擋現(xiàn)象;
3)團隊行為中的人數(shù)、相互遮擋和自我遮擋、不規(guī)則的攝像機參數(shù)等干擾因素也給團隊行為的理解和識別帶來更多困難;
圖1 多目標行為識別相關(guān)研究論文統(tǒng)計圖Fig.1 Chart for research papers of multi-object behavior recognition
足球比賽行為識別的相關(guān)研究起源于20世紀末,圖1總結(jié)了從2000年~2010年8月的一些重要期刊和會議上發(fā)表的有關(guān)多運動員行為跟蹤與檢測、行為表示、姿勢估計及行為識別方面的論文數(shù)[1-35].圖1從側(cè)面反映了多運動員行為識別相關(guān)研究發(fā)展過程.由圖1可見,除了多運動員行為跟蹤與檢測方面的研究相對多些外,多運動員行為識別的其它方面研究存在一定的難度,值得更深入、更廣泛研究.
足球比賽多運動員行為識別涉及特征提取、目標跟蹤與檢測、行為表示、分類器的構(gòu)建及行為識別等具體研究內(nèi)容.本文介紹了足球比賽中多運動員行為識別的國內(nèi)外研究情況及其存在的問題,并提出了未來研究發(fā)展趨勢.
足球比賽中的多運動員行為識別過程中的目標跟蹤與檢測,主要是對運動員及球的跟蹤與檢測,屬于多目標跟蹤與檢測范疇.
1.1 多運動員跟蹤與檢測技術(shù)研究
過去20年,多目標跟蹤與檢測問題得到了廣泛研究[1],提出了許多目標檢測與跟蹤算法,但是對學習和識別框架中的整個團隊的行為模式的跟蹤與檢測方面的研究很少.這些算法可以概括為4大類:1)基于特征的;2)基于模型的;3)基于運動的;4)基于數(shù)據(jù)關(guān)聯(lián)的算法.表1總結(jié)了從2000年~2011年7月的一些重要期刊和會議上發(fā)表的有關(guān)行為跟蹤和識別使用特征統(tǒng)計[1-35].
表1 人體行為識別使用特征統(tǒng)計分析Tab.1 Analysis of human behavior recognition using statistical features %
在基于特征算法中,跟蹤目標的某些特征被用來區(qū)分一幀視頻中的跟蹤目標和其它物體.有些算法利用了背景圖像作參考,即所謂的背景幀.利用當前幀減去背景幀所得到的“差額幀”中的所有對象就是計算出的跟蹤目標[2].為了從其它物體中鑒別跟蹤目標,用跟蹤目標的特征來特征化特征狀態(tài)空間中的跟蹤目標.跟蹤目標表示中的參數(shù)化形狀[3-4],顏色分布[5],形狀和顏色[6]可以作為特征.文獻[4]用特征與手動標記的跟蹤目標來訓練神經(jīng)網(wǎng)絡(luò)分類器,然后用訓練好的神經(jīng)網(wǎng)絡(luò)分類器來區(qū)別跟蹤目標與其它對象.文獻[7]用幾何模塊實現(xiàn)圖像到模型的單應矩陣估計,通過提取描述跟蹤目標的位置和局部外觀的興趣點來進行局部跟蹤.橢圓形區(qū)域內(nèi)的顏色直方圖用于跟蹤球場上的運動員[8].這些算法更多地利用了低層圖像信息,獲取特征方式簡單,用一種粗糙的特征來描述整個行為,對于噪聲、視角變化和行為的主體變化很敏感.
基于模型的算法,包括反模型算法,使用特征、高層語義表示和領(lǐng)域知識來區(qū)分跟蹤目標與其它對象[9-13]. SELEN等[14]用人類姿勢統(tǒng)計模型來完善行人跟蹤系統(tǒng).SHAO和LI[15]在密集人群中用基于力學模型的現(xiàn)場結(jié)構(gòu)來跟蹤個體目標.文獻[16]用激光范圍搜索器和動態(tài)RFID傳感器的組合來解決跟蹤與識別問題,用概率模型進行實時跟蹤.這些算法的缺陷是難于建立精確的行為表示模型,各種不同的比賽不能共享模型,且受限于姿勢估計算法的發(fā)展.
基于特征與模型的算法主要有3要素:目標表示、特征提取和對象區(qū)分.建立目標表示的原則是從其它物體中區(qū)分目標,并可以很容易地提取用于表示的特征;因此,目標表示可以包括外觀特征、運動特征,而模型是用來解決不同問題的.初始化過程中建立的表示隨著幀的變化而不斷更新.算法利用了隱含的假設(shè),即在同一幀內(nèi)目標與其它物體之間有“某種不同”.算法的缺陷是特征的選取及特征對行為識別的影響難于估計,模型的適應性需要提高.
基于運動算法依賴于提取隨幀(或時間)變化的運動的一致性來分割運動對象[11,17].文獻[18]通過消除陰影為足球運動員檢測取得良好的分割效果.雖然運動的一致性涉及一些幀,基于運動的算法通過水平目標還不是水平軌跡來區(qū)分目標和其它物體.這些方法的缺陷是很難找到遮擋目標的位置.
基于數(shù)據(jù)關(guān)聯(lián)算法的目的是解決數(shù)據(jù)關(guān)聯(lián)問題,是一個尋找檢測對象與已知路徑之間的正確對應問題[17,19-22].數(shù)據(jù)關(guān)聯(lián)問題有4種基本解決方法:1)近鄰法是一種在高度混亂的環(huán)境下能有效計算但跟蹤不可靠的算法[19];2)文獻[19-21]中的跟蹤操作是解決數(shù)據(jù)關(guān)聯(lián)問題的一種技術(shù).當前跟蹤操作包括由WANG和KL?SER等[22]提出的軌跡分裂、軌跡合并和軌跡刪除[19-20];3)聯(lián)合概率數(shù)據(jù)關(guān)聯(lián),即利用聯(lián)合概率目標測量執(zhí)行“排除”原則以防止2個或更多的跟蹤器鎖定相同目標[6,20];4)多假設(shè)跟蹤[19-21]是一種基于多種掃描方法的跟蹤技術(shù).這些算法需要較高的內(nèi)存和過多的計算,從而使問題的復雜度指數(shù)增長[19].
總之,上面文獻提出的目標跟蹤算法或多或少都存在一些缺陷;因此,研究更可靠更有效的目標跟蹤算法還將成為今后研究的熱點研究方向.
1.2 足球跟蹤與檢測技術(shù)研究
球的跟蹤是比球員跟蹤更難的問題,因為圖像中球尺寸小、方向變化突然.相對于一般的目標檢測與跟蹤,有多種專門用于足球定位與檢測的算法.文獻[6]報道了成功檢測和跟蹤固定攝像機記錄的足球比賽視頻中的球,但這些方法運用到BSV時,效果都欠佳.POPOOLA等[7]設(shè)計了檢測BSV中的球的算法,該算法只使用球的形狀和顏色屬性來區(qū)分球與其他物體,但沒有提供詳細的實驗性能分析.
MARYAM等[5]提出了一種跟蹤BSV中的球的算法,利用卡爾曼濾波的模板匹配程序來跟蹤球并使用反投影法來預測可能發(fā)生的遮擋.然而,該算法需要手動輸入球的出發(fā)位置且沒有跟蹤結(jié)果報告.
D’Orazio等[4]使用改進的圓形霍夫變換(circle Hough transform CHT)與神經(jīng)網(wǎng)絡(luò)分類器來從實時視頻選定的幀中檢測足球.當球在視頻中足夠大、顏色單一、變形不嚴重時,這種方法可以取得良好的檢測效果.此外,改進的圓形霍夫變換與神經(jīng)網(wǎng)絡(luò)分類器無法識別一些似球的非球.由于球不夠大、顏色是黑白相間的、沒有明顯的紋理,以前檢測球的方法并不適用.一些研究提出了基于球路徑分析的足球檢測方法.文獻[1]提出用基于軌跡的檢測和跟蹤算法來定位足球視頻直播中的球.文獻[2]提出了對固定相機拍攝的圖像序列中的模糊小球進行跟蹤的方法.球跟蹤的過程是對每m幀進行批處理,以產(chǎn)生僅包含球區(qū)的像素的積累圖像.對積累圖像用粒子過濾器將球與噪聲區(qū)分開來,并確定球是否可見,如圖2所示,其中圓圈標定的為球的正確跟蹤,六邊形標定的為球的不正確跟蹤.文獻[3]用球員之間、場線和球的時空關(guān)系來估計球的路線.文獻[4]用固定攝像頭來檢測三維球的軌跡并解釋球滾動、控球狀態(tài)下的球飛出及球出球場的4個不同運動階段.文獻[5]提出用視域非常狹隘的16 PAL制式攝像機來跟蹤球員和球,提取三維球的軌跡,并計算出球員相當于越位線的坐標和位置.這些算法在檢測非球(類似于球的圓形物體)方面均存在一定的困難,如何提高非球的識別率是今后研究的一個方面.
圖2 基于軌跡的球跟蹤Fig.2 Ball tracking based on trajectory
1.3 目標顏色特征強化跟蹤技術(shù)研究
色彩特征不僅可以用來提高目標跟蹤能力,而且還可以被用來分開屬于不同球隊的球員,如圖3所示.文獻[2]用顏色分類和分割來獲取斑塊對應球隊和裁判的運動服.通過將圖像像素映射到各自的顏色類,利用色彩分類集來尋找感興趣的區(qū)域,然后用形態(tài)算子來分組像素.文獻[3]用混合顏色空間來檢測空間,最佳區(qū)分屬于對手球隊球員的像素.文獻[3]提出多攝像機跟蹤球員的方法.通過交叉被分割的斑塊的RGB直方圖來分類球員服裝類別,通過半監(jiān)督策略獲得了5種模式的直方圖,該策略在比賽開始前對球員觀察樣本進行標簽.文獻[4]為足球視頻中的球員控球狀態(tài)開發(fā)了一個半自動化系統(tǒng).支持向量機的顏色直方圖用于團隊識別.對于每類人,作者事先手動確定一種區(qū)別于其他人的顏色.為每一顏色建立幾個顏色素材庫用來評估落入預置的顏色素材的像素分布.通過支持向量機,這種分配形成的顏色直方圖用來評估團隊.文獻[5]從由攝像機通過圖像和球場之間的單應性標定、旋轉(zhuǎn)及縮放攝像機自我標定的單筒足球視頻中估計球員和球的位置.顏色特征強化跟蹤技術(shù)的過程中需要注意色彩的失真對目標的區(qū)分度明顯的下降情況,針對該情況進行研究也是一個不錯的研究方向.
1.4 遮擋問題解決技術(shù)研究
在足球比賽過程中,由于背景的復雜變化,運動目標經(jīng)常會出現(xiàn)部分或全部被遮擋的情況.為了解決遮擋條件下多目標跟蹤問題,文獻[6]通過圖形表示來實施跟蹤.用形態(tài)算子和前、后向圖形表示來分割斑塊,從而處理遮擋問題.文獻[7]提出用協(xié)同多相機跟蹤來解決遮擋和錯誤信息傳播等問題.在球場上放置4個攝像機用于同步來解決一些遮擋事件,如圖4所示.每個目標在每個視角中由一個專用的基于粒子過濾的局部跟蹤器跟蹤.不同視角的跟蹤器通過置信傳播與其它跟蹤器互動.這樣,在一個視角運行的局部跟蹤器利用了從其它視角傳遞的附加信息,從而解決運動員之間的互遮擋和自遮擋問題.該方法雖然能夠解決一定的遮擋問題,但運動員之間的互遮擋和自遮擋問題非常嚴重的情況下,解決遮擋問題的效率明顯降低.研究出一套更加切實可行的解決遮擋問題的方法是研究的一個方向.
圖3 基于色彩特征的球員和裁判跟蹤Fig.3 Players and referees tracking based on color feature
圖4 解決遮擋的協(xié)同多相機跟蹤示意圖Fig.4 Cooperative multi camera tracking for solving the occlusion
圖5 時空興趣點表示的行為示意圖(左圖為發(fā)球,右圖為踢球)Fig.5 Space-time interest points represent the behaviors, serve the ball(left),kick the ball(right)
足球比賽行為表示是足球比賽行為識別和理解的關(guān)鍵問題之一,行為表示的好壞直接影響行為識別的識別率.研究者對行為表示進行了廣泛研究,其中比較典型的研究有: PEHLIVAN等[8]利用減背景法推導出時間模板的表示.該行為表示方法簡單,但容易受噪聲影響.KEREN為視頻數(shù)據(jù)的簡潔表示提出了時空(ST)興趣點,并探討了利用時空興趣點來描述人的行為的優(yōu)勢[9],如圖5所示.
ST特征不需要分割或跟蹤個體行為的實施.利用這個性質(zhì),時空特征在行為識別方面取得了相當大的成功[10].WEINLAND等[11]提取時空興趣點將視頻序列表示為時空詞的集合,并用概率潛在語義分析(pLSA)模型來識別人的行為.pLSA不能很好地描述文件的產(chǎn)生式模型.因為沒有辦法依據(jù)它給一個新觀察到的現(xiàn)象賦予一個概率值;另外,pLSA模型中的參數(shù)隨訓練樣本數(shù)線性增加,這表明該模型很容易過度擬合.HOLZER等[12]也使用ST特征,但他們更喜歡用碼書和詞袋來表示.然而,上述提到的現(xiàn)有行為識別方法大多數(shù)研究單個人的行為識別.MORRIS等[13]把足球視頻作為實驗數(shù)據(jù),但也只是識別了單個人的行為.SELEN等把光流作為行為特征來識別足球視頻中的團隊行為.研究局限于足球視頻且只能處理3類團隊行為[14],且易受噪聲干擾.文獻[14]采用時間序列的因果關(guān)系來描述成對行為,但難以推廣到多目標的行為識別中來.文獻[1]用一個完整的四維對象-實時交互張量來描述團隊行為模式,通過學習并優(yōu)化張量來減少內(nèi)核,使它凝聚到一個可區(qū)別的時空互動矩陣中.在視覺變化情況下,作為團隊行為模式的簡潔描述的時間互動矩陣被證實是穩(wěn)定的.更重要的是給定一個黎曼度量,所有時空互動矩陣集形成一個黎曼流形,可用它來建立概率框架特征化團隊行為模式每個類.但實現(xiàn)起來比較困難.文獻[15]提出目標之間結(jié)構(gòu)化的相互作用模型,使用基于目標的原語和低階時空關(guān)系集成的概率框架,從含噪聲的感知數(shù)據(jù)中識別出高度結(jié)構(gòu)化的多人行為.基于模型的目標識別和概率計劃識別的表示構(gòu)成4個主要假設(shè): 1)在智能體之間進行團隊活動時,單個智能體目標是指定的時空關(guān)系的天然的原子表示單位;2)在高度結(jié)構(gòu)化的多智能體的行為識別過程中,行為的時間結(jié)構(gòu)的高層次描述使用較少的低階時空關(guān)系集和邏輯限制,就足以表達智能體之間的關(guān)系;3)貝葉斯網(wǎng)絡(luò)為不確定的視覺感知特征的多種來源,提供了一種適當?shù)娜诤蠙C制;4)可以用自動生成的貝葉斯網(wǎng)絡(luò)來融合不確定時態(tài)信息和計算對象軌跡數(shù)據(jù)集.文獻[16]引入一個能明確對動態(tài)團隊成員進行編碼和證明計劃識別形式的適用性的新的多智能體的計劃表示法.從多智能體的計劃表示法中提取的局部時間依賴性,能夠顯著地修剪潛在有效的團隊計劃的假設(shè)集.
對于一個局部時空感興趣區(qū)域,局部描述子通過用一個特征向量來表示該區(qū)域.圖像或者整個足球比賽視頻的內(nèi)容,可以表示為一組在不同的尺度和位置下的特征向量集合.為了能有效地利用局部特征向量來進行足球比賽行為的識別,客觀上要求這些描述子具有比較強的區(qū)分能力(High Distinctive),同時又能夠不受光照,輕微形變等干擾因素的影響.將HoG描述子推廣到3D的計算方法如圖6所示,其中涉及到的關(guān)鍵步驟有:直方圖計算、方向量化、梯度計算.
圖6 足球比賽視頻3D局部時空特征描述子圖Fig.6 3D local spatio-temporal feature descriptor for soccer video
分類器的優(yōu)劣直接影響行為識別的識別率.目前,足球比賽行為識別使用的分類器有:最近鄰(nearest neighbor,NN)歐幾里德神經(jīng)網(wǎng)絡(luò)分類器;支持向量機(SVM)分類器;DTIM神經(jīng)網(wǎng)絡(luò)的NN分類器;最大后驗概率(MAP)分類器;貝葉斯網(wǎng)絡(luò)框架分類器和基于先驗知識和人工神經(jīng)網(wǎng)絡(luò)的樹結(jié)構(gòu)混合分類器等.NN歐幾里德神經(jīng)網(wǎng)絡(luò)分類器把所有時空互動矩陣看作是歐幾里德空間的元素,但忽略了DTIM的內(nèi)在幾何特性.支持向量機分類器考慮到歐幾里德空間中的非線性現(xiàn)象,但用內(nèi)核技巧繞過它來追求超強的線性能力.同時,DTIM神經(jīng)網(wǎng)絡(luò)的NN分類器利用了數(shù)據(jù)空間的幾何本質(zhì),但忽略了統(tǒng)計觀.DTIM建立了包括有識別能力的時空交互矩陣的概率密度,描述了團隊行為多目標之間的協(xié)調(diào)和互動關(guān)系.文獻[17]對每個團隊行為類,為DTIM學習一個多模態(tài)密度函數(shù).設(shè)計多行為的最大后驗概率(MAP)分類器來識別新的行為.對象間時空關(guān)系的建模與識別(如團隊行為模式)大多采用貝葉斯網(wǎng)絡(luò)框架進行處理[18].貝葉斯網(wǎng)絡(luò)框架雖然在單個對象行為的建模方面取得了成功,但是用它來處理團隊行為時存在網(wǎng)絡(luò)的復雜性高等缺陷.如果用貝葉斯網(wǎng)絡(luò)同時識別個人行為和團隊行為模式需要密集型計算,所以不適應于足球團隊行為的識別.相對于網(wǎng)絡(luò)的狀態(tài)空間和特征空間的大小,用于訓練的數(shù)據(jù)量明顯不夠;因此,不僅概率依賴性很可能是過度擬合,而且必要的先驗知識很難從可用的數(shù)據(jù)中學到.文獻[19]使用基于先驗知識和人工神經(jīng)網(wǎng)絡(luò)的樹結(jié)構(gòu)混合分類器對足球團隊行為進行識別,并使用了3個參考分類器.文獻[20]用Elman神經(jīng)網(wǎng)絡(luò)(ENN)實現(xiàn)足球步態(tài)模式分類.目前提出的分類器都只能滿足一定條件下對某些簡單行為的分類,對一些復雜行為(特別是多運動員協(xié)作的團隊行為)的分類效率低下;因此,研究混合分類器來分類復雜行為是今后研究的一個重要研究方向.
為了成功識別足球比賽行為,必須滿足3個目標.首先,能夠觀察到感興趣的智能體,記錄和跟蹤他們的行為;其次,可以確定每一個智能體的身份是唯一的;最后,智能體的團隊行為可以得到識別.行為識別方面的研究主要涉及行為識別策略、團隊行為識別和運動員在足球比賽團隊行為中的角色識別3個方面的研究.
4.1 足球比賽行為識別策略
識別策略是行為識別系統(tǒng)的另一個重要組成部分.文獻中有大量的研究提到這個問題,過去幾年取得許多令人印象深刻的結(jié)果,如隱馬爾可夫模型(HMMs),自動回溯行為平均模型(ARMA),條件隨機域(CRFs)模型,有限狀態(tài)機模型(FSM)及其變形模型,半馬爾可夫模型,1-最近鄰與標準學習模型,行為網(wǎng)模型LDCRF模型[21].Wang等[22]介紹了FCRF在視覺領(lǐng)域中的應用,并闡述了它與HMM模型及普通CRF相比存在的優(yōu)勢.CHO等[23]用潛在的姿態(tài)估計器取代傳統(tǒng)的隨機域模型對標準的CRF進行改進,提高了其對連續(xù)行為識別的性能.MORRIS和TRIVEDI提出了一種用隱變量描述圖形的貝葉斯模型,這些隱變量隱藏在時空路徑數(shù)據(jù)庫中.LIU等[24]提出通過動態(tài)軌跡來進行行為識別的貝葉斯框架.
4.2 團隊行為識別
足球比賽行為識別屬于多運動員團隊行為識別.比較有意義的團隊行為識別研究有:YUX等[25]開發(fā)的識別多智能體行為的系統(tǒng).使用時序邏輯、高層次描述符和貝葉斯網(wǎng)絡(luò)來分類10種不同的足球比賽行為.通過從美國足球比賽收集的實時數(shù)據(jù)集來評價該系統(tǒng).
Liu等[26]為多智能體行為識別開發(fā)了觀察分解的隱馬爾可夫模型(ODHMM).在ODHMM模型中,團隊觀察被分為用于獲取團隊中與單個智能體相關(guān)的特征的子觀察.通過使用獨立的假設(shè),ODHMMs可以識別團隊人數(shù)可能變化序列中的團隊行為.此外,ODHMM用角色參數(shù)擴展了傳統(tǒng)的HMMs模型以保持智能體和他們角色之間的關(guān)系.實驗結(jié)果表明,使用ODHMMs的多智能體行為建模優(yōu)于建立在人工數(shù)據(jù)集基礎(chǔ)上的離散隱馬爾可夫模型.
REDDY等[27]開發(fā)了團隊任務和行為同時識別的STABR算法.首先,用模板匹配從單個智能體的空間關(guān)系中識別出可能的球隊任務集;其次,在一段時間內(nèi)不遵循預先定義、參數(shù)化的行為模式的球隊被篩選掉.STABR算法在模擬軍事領(lǐng)域中的團隊行為識別方面具有良好的性能評價.
與HMMs有關(guān)的CRF被SHIMAWAKI等用于行為識別[28].放寬了狀態(tài)轉(zhuǎn)移過程中的獨立性強的假設(shè),避免了針對性的圖形模型的基本限制.結(jié)果表明,在簡單測試場景下進行行為識別,CRFs優(yōu)于HMMs.CRFs的缺陷是需要用更多的時間來從觀察中估計模型.
文獻[29]結(jié)合概率框架在高維圖像空間中進行特征提取和描述,在嵌入的低維空間中進行行為建模與識別,使用KPCA來發(fā)現(xiàn)行為空間的內(nèi)在結(jié)構(gòu),提高了算法的識別效率和魯棒性.
文獻[30]提出將六個固定攝像機適當?shù)胤胖迷谧闱驁鰞蓚?cè)(每側(cè)3個),以減少遠景和遮擋誤差.對由同步相機獲得的圖像進行處理,檢測球員和球的實時位置,對多視圖進行分析評估越位事件,考慮到該球場中所有球員的位置,確定傳球球員,并確定是否發(fā)生了主動的越位狀態(tài).
文獻[31]結(jié)合時空特征點和概率求和框架來進行團隊行為識別.首先,提取時空興趣點的特征來描述團隊行為;然后,利用K均值聚類算法來將行為特征聚類為行為碼本;最后,通過計算概率和來分類測試視頻.使用時空特征來識別團隊行為時可采用兩類空間模型:1)可以對團隊成員和外部標志之間的靜態(tài)關(guān)系進行編碼的團隊模型;2)用空間不變HMM來表示隨時間不斷變化的智能體團隊的分布.基于HMM模型的時空識別模型取得了良好的識別結(jié)果.但是處理實際數(shù)據(jù)集時存在脆弱性.
在多運動員團隊行為識別方面,上面參考文獻提出的方法都有一定的局限性.如何構(gòu)建一種通用模型用于識別不同的團隊行為是目前研究的難點及今后研究的一個重要方向.
4.3 角色識別
足球比賽行為是多運動員協(xié)同完成的有計劃的行為,識別球員在行為中充當?shù)慕巧兄谡麄€足球比賽行為的識別.多智能體系統(tǒng)框架通過使用預定義團隊組織的知識認真分配智能體的角色來執(zhí)行團隊任務,如BEETZ等[31].然而,在團隊行為識別系統(tǒng)中,角色往往是未知的,需要從行為觀察中進行推斷.
VANDENBROUCKE等[32]開發(fā)了L-TEAM架構(gòu),使用有監(jiān)督機器學習方法自動學習多智能體系統(tǒng)的組織角色.通過推斷組織角色的知識,框架中的智能體協(xié)商各自在給定任務中應擔當?shù)慕巧?學習方法消除了其它框架中需手動確定球隊角色組織的需要,如文獻[33].
串話是通過聽取球隊中的智能體之間的對話,在分布式和開放的多智能體系統(tǒng)中監(jiān)測協(xié)作行為的方法.在許多監(jiān)控應用中,目的是確定是否球隊正向共同的目標邁進.串話系統(tǒng)已經(jīng)發(fā)展到能夠完成諸如團隊協(xié)作計劃識別,建立和維護團隊編隊和角色識別等復雜任務[34].
WANG等[35]提出用基于規(guī)則的系統(tǒng)來識別智能體在團隊中的社會角色,通過可以傳感團隊中的所有智能體之間的通信的串話智能體來分配智能體的社會角色.該系統(tǒng)已成功地驗證不遵循眾所周知的協(xié)議人為產(chǎn)生的組織.
BARROS等開發(fā)了一個能夠識別和再生最關(guān)鍵智能體的容錯多智能體框架.臨界性取決于多智能體系統(tǒng)中每個智能體的行為和角色的識別.同樣通過串話方法來進行角色分配.
多運動員行為識別過程中,單個運動員在團隊行為中所扮演的角色對整個團隊行為識別有著極其重要的影響;因此,提出更加智能有效的角色識別方法是今后研究的一個重要研究方向.
如何選擇足球比賽行為的運動特征來表達運動是足球比賽行為識別和理解的關(guān)鍵問題之一.一般是盡可能選擇較多的特征,或者是在連續(xù)特征的典型匹配過程中引入行為識別模型的簡化約束條件來減少、消除歧義性.但如果特征選擇過多、特征向量維數(shù)過大,則會增加計算的復雜度;而選擇特征過少,又不足以識別與理解足球比賽行為,而引入行為識別模型的簡化約束條件與一般的圖像條件卻又是不吻合的;因此,借鑒人類的學習、識別與理解機理,定義一個動態(tài)特征模型,首先提取有關(guān)足球比賽行為的主要特征,當這些特征不足以完成識別與理解時,系統(tǒng)逐步提取候選的細節(jié)特征.對于足球比賽運動特征描述來說,不同復雜程度的運動通常會采用不同的運動表示方法,即使是同一動作在不同的場合,由于速度不一致等原因都會產(chǎn)生不同的時空關(guān)系.如何表征這些細微的時空變化并沒有一個很好的辦法;因此,行為表示還有待于進一步研究.
雖然在現(xiàn)階段已經(jīng)開展了較多的視角不變的動作識別研究工作,可仍有很多問題亟待解決.一方面,大多數(shù)的方法依賴魯棒的語義特征點檢測或者是點對應,而這些實現(xiàn)起來比較困難;另一方面,視角不變的方法通常會存在信息的損耗,導致用于識別不同行為的區(qū)分信息的缺失.如何使得行為的表示可以容忍視角的變化,同時又保留足夠的可以用于動作識別的可區(qū)分信息,這是一個關(guān)鍵研究問題.
目前多目標行為識別雖然取得一定的進展,但多目標行為識別研究局限于簡單、固定視角且已切分好的行為,對不同動作連續(xù)變化的長運動序列的足球比賽行為研究比較少,而且魯棒性差.在噪聲、亮度和光照變化強烈,以及視角變化的復雜環(huán)境中識別正確率大大降低;因此,建立更適合的多目標行為表示方法及采用更先進的識別技術(shù),是足球比賽行為識別研究努力的方向.
時間互動矩陣依賴于點軌跡的正確獲取,從而導致了對一個不完整或錯誤的軌跡更魯棒的描述問題.超出了經(jīng)驗視覺穩(wěn)定描述的嚴格不變觀點的方法,仍然是一個挑戰(zhàn).檢測和分割特殊的團隊行為模式,特別涉及對象數(shù)目的變化,也是下一個研究興趣點.基于概率模型的非線性流形的研究仍處于起步階段;因此,值得進一步研究.
由于足球視頻中有復雜的背景,運動目標快速移動可能造成視頻畫面模糊不清.因此,利用超分辨率圖像處理方法對足球視頻進行增強,有助于提高行為識別率.這也是值得進一步研究的問題.此外,足球視頻圖像去噪也是足球行為識別中值得研究的問題之一.
HMMs只輸出一種未知行為與認知的模式行為之間的概率,不解釋某種行為是什么.所以仍需要尋找和開發(fā)新技術(shù),以利于在提高行為識別性能的同時,又能有效地降低計算的復雜度.
隨著多目標行為識別研究成為計算機視覺和模式研究領(lǐng)域的研究熱點,足球比賽中多運動員行為識別的研究將成為多目標行為識別研究的重要內(nèi)容.本文以足球比賽行為識別過程中的目標跟蹤與檢測、行為表示、分類器的構(gòu)建及行為識別為主線,對國內(nèi)外足球比賽行為識別研究現(xiàn)狀進行了系統(tǒng)的總結(jié),同時對足球比賽行為識別的研究趨勢進行了展望,為未來的足球比賽行為識別及多目標行為識別的研究提供了新思路及文獻參考.
[1]YILMAZ A,JAVED O,SHAH M.Object Tracking:A Survey[J].ACM Computing Surveys,2006,38(4):1-45.
[2]WANG L,YUNG NELSON H C.Extraction of Moving Objects From Their Background Based on Multiple Adaptive Thresholds and Boundary Evaluation[J].IEEE Transactions on Intelligent Transportation Systems,2010,11(1):40-51.
[3]MATTHEW F,DAVID S,PAN Z X,et al.Recognizing Human Motions Through Mixture Modeling of Inertial Data[J].Pattern Recognition,2015,48(8):2394-2406.
[4]D’ORAZIO T,GUARANGNELLA C,LEO M,et al.A New Algorithm for Ball Recognition Using Circle Hough Transform and Neural Classifier[J].Pattern Recognition,2004,37(2):393-408.
[5]MARYAM Z,ROBERT B.Semantic Human Activity Recognition:A Literature Review[J].Pattern Recognition,2015,48,(8):2329-2345.
[6]RASMUSSEN C,HAGER G D.Probabilistic Data Association Methods for Tracking Complex Visual Objects[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2001,23(6):560-576.
[7]POPOOLA O P,WANG K J.Video-Based Abnormal Human Behavior Recognition-A Review[J].IEEE Transactions on Systems,Man and Cybernetics Part C:Applications and Reviews,2012:1-14.
[8]PEHLIVAN S,DUYGULU P.A New Pose-Based Representation for Recognizing Actions from Multiple Cameras[J].Computer Vision &Image Understanding,2011,115(2):140-151.
[9]KEREN D K,OSADCHY M,GOTSMAN C.Antifaces:A Novel Fast Method for Image Detection[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2001,23(7):747-761.
[10]KOLLER D,DANILIDIS K,NAGEL H.Model-Based Object Tracking in Monocular Image Sequences of Road Traffic Scenes[J],International Journal of Computer Vision,1993,10(3):257-281.
[11]WEINLAND D,RONFARD R,BOYER E.A Survey of Vision-Based Methods for Action Representation,Segmentation and Recognition[J].Computer Vision&Image Understanding,2011,115(2):224-241.
[12]HOLZER S,ILIC S,NAVAB N.Multi-Layer Adaptive Linear Predictors for Real-Time Tracking[J].IEEE Transactions on PatternAnalysis and Machine Intelligence,2012,35(1):105-117.
[13]MORRIS B T,TRIVEDI M M.Trajectory Learning for Activity Understanding:Unsupervised,Multilevel,and Long-Term Adaptive Approach[J].IEEE Transactions on Pattern Analysis&Machine Intelligence,2011,33(11):2287-2301.
[14]SELEN P,David A F.Recognizing Activities in Multiple Views with Fusion of Frame Judgments[J].Image and Vision Computing,2014,32(4):237-249.
[15]SHAO Z P,LI Y F.Integral Invariants for Space Motion Trajectory Matching and Recognition[J].Pattern Recognition,2015,48(8): 2418-2432.
[16]TUCKER B,F(xiàn)RANK D,ADAM F,et al.How Multirobot Systems Research Will Accelerate Our Understanding of Social Animal Behavior[J].Proceedings of the IEEE,2006,94(7):1445-1462.
[17]KEREM A,KARON E M.Recognizing Affect in Human Touch of a Robot[J].Pattern Recognition Letters,2015,66(15):31-40.
[18]STIKIC M,LARLUS D,EBERT S,et al.Weakly Supervised Recognition of Daily Life Activities with Wearable Sensors[J].IEEE Transactions on Pattern Analysis&Machine Intelligence,2011,33(12):2521-2537.
[19]COX I J.A Review of Statistical Data Association Techniques for Motion Correspondence[J].International Journal of Computer Vision,1993,10(1):53-66.
[20]RASMUSSEN C,HAGER G D.Probabilistic Data Association Methods for Tracking Complex Visual Objects[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2001,23(6):560-576.
[21]WANG Zu-chao,LU Min,YUAN Xiao-ru,et al.Visual Traffic Jam Analysis Based on Trajectory Data[J].IEEE transactions on visualization and computer graphics,2013,19(12):2159-2168.
[22]WANG Heng,KL? SER A,SCHMID C,et al.Dense Trajectories and Motion Boundary Descriptors for Action Recognition[J]. International Journal of Computer Vision,2013,103(1):60-79.
[23]CHO S Y,SOOY K,HYE B.Recognizing Human-Human Interaction Activities Using Visual and Textual Information[J].Pattern Recognition Letters,2013,34(15):1840-1848.
[24]LIU Y,LIANG D W,HUANG Q M,et al.Extracting 3D Information from Broadcast Soccer Video[J].Image and Vision Computing,2006,24(10):1146-1162.
[25]YUX,LEONG H W,XU C,et al.Trajectory-Based Ball Detection and Tracking in Broadcast Soccer Video[J].IEEE Transactions on Multimedia,2006,8(6):1164-1178.
[26]LIU Hao-wei,MATTHAI P,MARTIN P,et al.Recognizing Object Manipulation Activities Using Depth and Visual Cues[J]. Journal of Visual Communication and Image Representation,2014,25(4):719-726.
[27]REDDY K,SHAH M.Recognizing 50 Human Action Categories of Web Videos[J].Machine Vision and Applications,2013,24 (5):971-981.
[28]SHIMAWAKI T,SAKIYAMA T,MIURA J,et al.Estimation of Ball Route under Overlapping with Players and Lines in Soccer Video Image Sequence[C].18th International Conference on Pattern Recognition,ICPR 2006,US:Institute of Electrical and Electronics Engineers Inc,2006:359-362.
[29]REN J,ORWELL J,JONES G,et al.Real Time Modeling if 3-D Soccer Ball Trajectories from Multiple Fixed Camera[J].IEEE Trans.Circuits Syst.Video Technol.,2008,18(3):350-362.
[30]ZHANG K,SONG H.Real-Time Visual Tracking via Online Weighted Multiple Instance Learning[J].Pattern Recognition,2013,46(1):397-411.
[31]BEETZ M,HUENE N H,BANDOUCH J,et al.Camera-Based Observation of Football Games for Analyzing Multi-Agent Activities[C].Fifth International Joint Conference on Autonomous Agents and Multiagent Systems,AAMAS,New York:Association for Computing Machinery,2006:42-49.
[32]VANDENBROUCKE N,MACAIRE L,POSTAIRE J G.Color Image Segmentation by Pixel Classification in an Adapted Hybrid Color Space.Application to Soccer Image Analysis[J].Computer Vision and Image Understanding,2003,90(2):190-216.
[33]XU M,ORWELL J,LOWEY L,et al.Architecture and Algorithms for Tracking Football Players with Multiple Cameras[J].IEE Proceedings:Vision,Image and Signal Processing,2005,15(2):232-241.
[34]FIGUEROA P J,LEITE N,BARROS R M.Tracking Soccer Players Aiming Their kinematic Motion Analysis[J].Computer Vision and Image Understanding,2006,101(2):122-135.
[35]WANG Zhi-wen,LI Shao-zi.Face Recognition Using Skin color Segmentation and Template Matching Algorithms[J].Information Technology Journal,2011,10(12):2308-2314.Review for team behavior recognition in the video soccer game
WANG Zhi-wen1,WANG Yu-hang2
(1.College of Information and Computing Science,Guangxi University of Science and Technology,Liuzhou 545006,China;2.School of Automobile and Traffic Engineering,Guilin University of Aerospace Technology,Guilin 541004,China)
Recognition and understanding of team’s behavior which is planned and highly cooperative and multiplayer(agent)participating is an important field of computer vision research.This paper analyzes and summarizes the existing domestic and international research achievements in the area of the team’s behavior recognition from four aspects of target tracking and detection,representation of behavior,construction of classification and behavior recognition in the process of the football game.The problems waiting to be solved and some research trends in the field of team’s behavior recognition in the future are also analyzed in this paper.It may provide some novel insights and literature
for the research of recognition of soccer and multi-objective behavior in the future.
target tracking and detection;representation of behavior;construction of classification;occlusion; behavior recognition strategy;team’s behavior recognition;role identification
TP309
A
2095-7335(2016)02-0037-09
10.16375/j.cnki.cn45-1395/t.2016.02.007
(學科編輯:黎婭)
2015-12-13
國家自然科學基金項目(61462008,61365009);廣西自然科學基金項目(2013GXNSFAA019336);廣西科技大學博士基金項目(院科博12Z14)資助.
王智文,博士,教授,研究方向:機器學習與計算機視覺、移動目標檢測與識別,E-mail:wzw69@126.com.