盧陽 孫恩情 邢延超
摘要:為快速瀏覽精彩的乒乓球回合,該文以背景重建為基礎,在時間上運用多時間步長進行視頻的自動鏡頭分割,在空間上通過膚色分析和四肢提取來檢測并跟蹤乒乓球與運動員的運動軌跡,并以此評價擊球回合質量,自動提取最精彩的回合。實驗證明,該文具有良好的使用性和可靠性。
關鍵詞:鏡頭分割;背景重建;運動軌跡
中圖分類號:TP311 文獻標識碼:A 文章編號:1009-3044(2014)35-8527-02
1 概述
面度眾多乒乓球比賽視頻,人們希望能快速瀏覽其中的精彩回合。乒乓球比賽中鏡頭切換頻繁,利用普通視頻剪輯工具處理效率太低。因此設計一個能自動提取并評價回合精彩程度的系統(tǒng)具有顯著的實用價值。
運動精彩鏡頭提取有多種方法,如音視頻融合檢測[1],基于音軌分析的檢測[2],基于情感激勵檢測方法等[3]。 文獻[4]對乒乓球和運動員進行了運動跟蹤以實現(xiàn)對鏡頭的評價,文獻[5]進一步融合了音頻信息對乒乓球精彩鏡頭進行檢測。該文以背景重建為基礎對運動員和乒乓球進行跟蹤。首先是鏡頭檢測,然后通過運動和膚色信息分析改進背景重建算法,接下來完成對運動員的跟蹤,最后融合乒乓球和運動員運動以提高評價可靠性。
2 鏡頭分割與分類
為提高鏡頭檢測可靠性,該文采用多時間步長聯(lián)合分析,其中時間步長取1、4和8??煽康溺R頭變化在相鄰多個步長的曲線上都是明顯的,因此將多條曲線相乘得到第四條曲線。這條乘積曲線反映了三個尺度的聯(lián)合結果,具有更明顯的峰谷特性,同時還能避免瞬時遮擋等突發(fā)干擾的影響。然后再通過合并相鄰峰值消除突發(fā)干擾。
比賽視頻由多個鏡頭的內容編輯而成,比較常見的鏡頭類型包括:主機位比賽鏡頭、接發(fā)球特寫鏡頭、教練席鏡頭、運動員席鏡頭、觀眾席鏡頭、裁判鏡頭等。用鏡頭分割的結果,考慮到比賽內容的連續(xù)性,取鏡頭中間一幀作為關鍵幀。然后,利用無監(jiān)督的聚類方法[7]對這些關鍵幀進行聚類,用戶在聚類的基礎上選定要保留的場景種類。
3 比賽鏡頭背景重建
乒乓球比賽主機位相對固定,可重建球場背景。但簡單的時間平均得到的背景會包含運動員信息,圖1.a和1.b是6秒和30秒視頻片段重建結果,明顯能看出運動員的影響。該文在重建過程中,將運動區(qū)域和膚色區(qū)域排除在外,可得到更可靠的重建結果,如圖1.c所示。
利用重建背景與當前幀相減后取差值較大像素即可得到前景對象。圖2.a和圖2.b分別對應圖1.b和圖1.c的處理結果。圖2.a中明顯可見背景不準確的影響,會增加處理難度。如果運動員衣服顏色和背景一致,也會存在空洞現(xiàn)象,對后續(xù)處理產生一定的影響。
4 前景分析及評價
4.1乒乓球軌跡跟蹤
乒乓球線路和速度變化是反映比賽精彩程度的重要依據(jù)。該文首先計算幀間差并確定幀間內容變化區(qū)域、定位候選乒乓球對象。然后中央位置處候選乒乓球作為跟蹤起點,采用貝葉斯決策框架實現(xiàn)跟蹤。該框架采用卡爾曼濾波器對動態(tài)建模并跟蹤,采用增量貝葉斯算法來更新外觀參數(shù),最后取具有最大后驗概率的候選乒乓球最為當前幀中乒乓球的最佳位置。
4.2運動員動作檢測
為提高評價質量,通過分析運動員動作來判斷精彩程度。乒乓球運動員四肢運動較多,在整體運動的基礎上結合前景檢測、膚色提取對四肢的運動進行跟蹤,作為評價精彩程度的重要依據(jù)。在實現(xiàn)過程中選擇先得到候選四肢,然后利用Bayesian決策來跟蹤。
在形態(tài)處理基礎上對軸線尺寸、位置、顏色做出限制,得到候選四肢。膚色像素比例越高,屬于四肢的置信度越高。在軸線尺寸上,下肢尺寸比較突出,檢測結果穩(wěn)定;上肢則隨其姿態(tài)變化較多。具體數(shù)值需根據(jù)球臺尺寸和運動員位置調整。用于跟蹤的主要是運動信息和外觀信息,系統(tǒng)利用Bayesian決策框架[4]將其組合起來。使用四個Kalman濾波器對四肢分別構建動態(tài)模型。決定狀態(tài)隨時間進展的卡爾曼模型和測量模型分別為:
[Xk+1=AXk+wk] (1)
[Zk+1=HkXk+vk] (2)
[Xk]是包含位置和速度的狀態(tài)向量,[Zk]是測度。[wk]是過程噪聲,[vk]是度量噪聲,都是白噪聲??柭鼮V波器假設在每一步的后驗概率密度都是高斯的,均值和方差參數(shù)是[θ=vxe,vye,σxe,σye]。[vxe]、[vye]是速率估計值,[σxe]、[σye]是速度方差估計值。每一幀更新該混合模型以最大化后驗估計。對每個外觀特征的高斯分布的均值和方差參數(shù)更新如下:
[μk=μk-1+μ(k)-μ(k-L+1)L-1] (3)
[k=k-1+∑(k)∑(k-L+1)L-1] (4)
4.3 回合精彩度評價
將每回合比賽中乒乓球和運動員運動信息映射到與人的感覺一致的精彩度需要專業(yè)知識和經驗。該文利用一些普遍原則來定義精彩度,主要基于球的軌跡和速度、運動員位置和速度、回合持續(xù)時長等來定義精彩度,并取每回合成功跟蹤部分中那些最大值的平均值。
5 實驗結果分析
共處理了奧運會、世界杯等15場比賽,每場取一局。比賽鏡頭查全率為100%,其它鏡頭查全率為97%,誤檢率為3.5%。為了測量跟蹤性能,我們使用兩個最常用的準則:查全率(recall)和精度(precision)。表1給出了跟蹤性能。我們設置Bayesian似然度閾值以確保較高的精度,以使得絕大多數(shù)能夠被跟蹤過程預測到,最終的乒乓球軌跡的形狀對missing的球不敏感(如果不是連續(xù)丟失跟蹤)。大多數(shù)丟失的情況發(fā)生在乒乓球和邊線重合,或與運動員的衣服混淆。從表1,可以觀察到大多數(shù)臺內球跟蹤結果比臺外球更可靠。
6 總結
觀眾總是關注體育比賽的精彩級別,該文提出了一個多級評估策略來評價乒乓球比賽的興奮程度。與已有精彩程度提取方法不同,我們主要用基于具有顯式語義含義的高級特征(包括球的位置、運動員和球運動軌跡)的運動-外觀組合框架。為了對觀看者的經驗建模(可能需要數(shù)據(jù)挖掘),將使用SVM分類器,利用更多的標記過的比賽大量視頻訓練。為組合不同級別的知識,適合用Bayesian網絡來發(fā)現(xiàn)這些知識之間的深入關系。
參考文獻:
[1] Yu Song, Wenhong Wang. Unified Sports Video Highlight Detection Based on Multi-feature Fusion [C].Third International Conference on Multimedia and Ubiquitous Engineering, pp: 83-87, Qingdao China, 4-6 June 2009 .
[2] Regunathan Radhakrishan,Ziyou Xiong,Divakaran, A.. Ishikawa, Y. Generation of Sports Highlights Using a Combination of Supervised and Unsupervised Learning in Audio Domain [C].Fourth International Conference on Information, Communications & Signal Processing, vol.2, pp: 935-939, Singapore, 15-18 Dec, 2003.
[3] 于俊清,何歡歡,何云峰.利用情感激勵提取足球視頻精彩鏡頭[J].計算機研究與發(fā)展,2010(10).
[4] Wei Chen, Yu-Jin Zhang. Tracking Ball and Players with Applications to Highlight Ranking of Broadcasting Table Tennis Video [C].IMACS Multiconference on Computational Engineering in Systems Applications, vol(2), pp: 1896-1903, Beijing China, 4-6 Oct,2006.
[5] 鄭福澤.視頻技術在乒乓球比賽技戰(zhàn)術分析中的應用研究[D].北京:北方工業(yè)大學,2006.
[6] Bin Zhang, Wei Chen, Weibei Dou, Yu-jin Zhang. Content-based Table Tennis Games Highlight Detection Utilizing Audiovisual Clues [C].Fourth International Conference on Image and Graphics, pp: 833-838, Sichuan China, 22-24 Aug 2007.
[7] Bailey, Ken. Numerical Taxonomy and Cluster Analysis, Typologies and Taxonomies. p.34,1994.