華正春
摘 要: 為改善中國足球的競技能力,提高運(yùn)動員訓(xùn)練效果,提出基于數(shù)據(jù)挖掘技術(shù)的足球最優(yōu)飛行軌跡估計方法。首先采用決策樹方法對歷史足球飛行軌跡數(shù)據(jù)構(gòu)造樹形架構(gòu),并在決策樹上進(jìn)行數(shù)據(jù)特征分類,提取足球飛行速度的大小、方向等分類結(jié)果,然后利用卡爾曼濾波估計足球飛行狀態(tài),通過時序解析和碰撞測試挖掘出足球最優(yōu)飛行軌跡。實(shí)驗(yàn)結(jié)果表明,該方法估計結(jié)果與足球?qū)嶋H飛行軌跡的軌跡相似度高,可以應(yīng)用于實(shí)際中。
關(guān)鍵詞: 數(shù)據(jù)挖掘技術(shù); 最優(yōu)飛行軌跡; 決策樹; 卡爾曼濾波
中圖分類號: TN911.1?34; G843 文獻(xiàn)標(biāo)識碼: A 文章編號: 1004?373X(2017)19?0123?03
Football optimal flight path estimation based on data mining technology
HUA Zhengchun
(Guangxi Teachers Education University, Nanning 530023, China)
Abstract: In order to improve the competitive ability of Chinese football and training effect of athletes, a football optimal flight path estimation method based on data mining technology is proposed. The decision?making tree method is used to construct the history football flight path data for the tree?form architecture. The data characteristics are classified on decision?making tree to extract the classification results such as the magnitude and direction of football flight speed. The Kalman filtering is adopted to estimate the football flight state, by which the football optimal flight path is mined by means of temporal analysis and intersection test. The experimental results indicate that the estimation result of the proposed method has high path similarity with the practical football flight path, and can be applied to the practical application.
Keywords: data mining technology; optimal flight path; decision?making tree; Kalman filtering
0 引 言
足球是中國體育競技業(yè)中綜合實(shí)力比較薄弱的一個項(xiàng)目,在歷屆足球聯(lián)賽中,中國足球在戰(zhàn)術(shù)、防守、進(jìn)攻上都遠(yuǎn)落后于強(qiáng)隊(duì),運(yùn)動員往往不能對傳球、接球、截球等操作做出正確判斷,從而錯失得分良機(jī)。
近年來,數(shù)據(jù)挖掘技術(shù)不斷成熟,應(yīng)用軟件、開發(fā)工具為這一技術(shù)帶來了新的知識獲取方法,如決策樹、遺傳算法、MBR(Memory?Based Reasoning,記憶基礎(chǔ)推理)和神經(jīng)網(wǎng)絡(luò)等[1]。隨著數(shù)據(jù)研究領(lǐng)域的不斷拓寬,體育競技業(yè)也進(jìn)行了一些數(shù)據(jù)研究工作,但有效的科研成果非常少。人為估計足球飛行軌跡不是在短時間內(nèi)就能擁有的能力,如果能夠借助數(shù)據(jù)挖掘技術(shù)分析歷屆足球聯(lián)賽球員的個人行為,獲取隱含在行為之內(nèi)的因果聯(lián)系,就可以縮短這種能力的練就時間,實(shí)施智能化球隊(duì)訓(xùn)練與管理,提高球員個人素質(zhì)。所以,提出基于數(shù)據(jù)挖掘技術(shù)的足球最優(yōu)飛行軌跡估計方法。
1 數(shù)據(jù)挖掘技術(shù)
數(shù)據(jù)挖掘技術(shù)是指在龐大且雜亂的數(shù)據(jù)體系中,使用特殊手段發(fā)現(xiàn)深度埋藏在數(shù)據(jù)體系內(nèi)部的關(guān)鍵知識[2]。數(shù)據(jù)挖掘技術(shù)的基本使命如圖1所示,包括分類、聚類解析、關(guān)聯(lián)、時序解析、估計和誤差解析,這六項(xiàng)使命可并行使用,也可相互關(guān)聯(lián)使用。
分類作為最根本的數(shù)據(jù)挖掘使命,其原理是按照事先規(guī)劃好的特征類別將數(shù)據(jù)樣本訓(xùn)練好,最后完成數(shù)據(jù)特征的分門別類,以構(gòu)造特征模型用于數(shù)據(jù)驗(yàn)證。
聚類解析的鼻祖是分類,是從分類使命中衍生出來的根據(jù)數(shù)據(jù)相似度進(jìn)行分類的一個分支,但聚類解析的分類類別不需要進(jìn)行事先規(guī)劃,而是直接使用現(xiàn)實(shí)數(shù)據(jù)相似度進(jìn)行解釋[3],細(xì)化程度低于分類使命,能夠構(gòu)造宏觀特征模型,用來表征數(shù)據(jù)之間的特征關(guān)聯(lián)程度。
關(guān)聯(lián)使命主要對動態(tài)數(shù)據(jù)特征的關(guān)聯(lián)規(guī)則進(jìn)行定義,在零售業(yè)、電網(wǎng)故障識別中比較常用,可以衡量現(xiàn)實(shí)數(shù)據(jù)之間的隱含規(guī)則。支持度和可信度是關(guān)聯(lián)使命的解析標(biāo)準(zhǔn),能夠增強(qiáng)數(shù)據(jù)與現(xiàn)實(shí)情況的契合程度。
時序解析與估計是數(shù)據(jù)挖掘技術(shù)中的特殊使命,都利用動態(tài)的歷史數(shù)據(jù)特征對未來數(shù)據(jù)特征進(jìn)行解釋。誤差解析是對歷史數(shù)據(jù)和標(biāo)準(zhǔn)數(shù)據(jù)之間差別進(jìn)行比較的數(shù)據(jù)挖掘使命,可以提高數(shù)據(jù)挖掘技術(shù)的可靠性。
2 數(shù)據(jù)挖掘技術(shù)的足球最優(yōu)飛行軌跡估計
2.1 決策樹
若想要進(jìn)行有關(guān)足球最優(yōu)飛行軌跡的估計工作,決策樹將通過貪婪方法構(gòu)造樹形架構(gòu),在樹干上分配分類規(guī)律,訓(xùn)練出樹杈連接點(diǎn),令樹杈連接點(diǎn)進(jìn)行子分裂,將足球歷史飛行軌跡數(shù)據(jù)特征沿著樹杈依次向下按照時序排列[4]。在上述估計過程中,決策樹的分裂方法是非常重要的,在搜尋分類結(jié)果時,每一個樹杈連接點(diǎn)都是一個交叉口,分裂結(jié)果與搜尋結(jié)果的關(guān)聯(lián)性很強(qiáng),分裂方法不同,有可能出現(xiàn)不同的搜尋結(jié)果,這在進(jìn)行足球最優(yōu)飛行軌跡估計時容易出現(xiàn)特征歧義,導(dǎo)致估計結(jié)果不合實(shí)際[5]。在貪婪方法中,ID3是一種概念學(xué)習(xí)方法,它使用信息熵進(jìn)行數(shù)據(jù)特征樣本訓(xùn)練,在樹杈連接點(diǎn)分裂之前將最大信息增益設(shè)成分裂標(biāo)準(zhǔn),以對每個樹杈連接點(diǎn)的分裂問題做出最優(yōu)解答[6],實(shí)現(xiàn)足球歷史飛行軌跡數(shù)據(jù)特征的最優(yōu)分類。不斷更新最大信息增益,直至決策樹架構(gòu)構(gòu)造完成。
所謂信息熵就是信息期望值,ID3用最大信息增益表示足球最優(yōu)飛行軌跡估計期望,信息增益設(shè)為[P,][P]的表達(dá)式為:
[P=iK(i)lnK(i)Q(i)] (1)
式中:[K(i)]是第[i]個歷史數(shù)據(jù)特征分布概率;[Q(i)]是第[i]個歷史數(shù)據(jù)概率分布密度。
樹杈連接點(diǎn)集合表示為[D。]用式(1)計算出每個樹杈連接點(diǎn)的最大信息增益,表示為[pi,]那么樹杈連接點(diǎn)的分裂規(guī)律可以表示為:
[Info(D)=-i=1mpilog2pi] (2)
式中[log2pi]表示最大信息增益對數(shù)。
圖2是決策樹在足球最優(yōu)飛行軌跡估計中的應(yīng)用流程。如果集合[D]中只有一種特征類別[T,]那么決策樹只進(jìn)行一次最大信息增益[P]的計算,并只用一個分裂規(guī)律同時進(jìn)行一次分裂[7]。當(dāng)決策樹構(gòu)造成功后,足球歷史飛行軌跡數(shù)據(jù)的分類結(jié)果也就產(chǎn)生了,對分類結(jié)果進(jìn)行解析可實(shí)現(xiàn)最優(yōu)飛行軌跡的估計。
2.2 足球飛行軌跡數(shù)據(jù)特征的獲取
足球受到人腳部力量和萬有引力的驅(qū)使在空中發(fā)生旋轉(zhuǎn)和移動,因?yàn)樵诿總€方向均有速度產(chǎn)生,無法匯聚求解,所以集合[D]中必須存在的數(shù)據(jù)特征是足球飛行的速度大小[v(i)]和方向[d(i)],統(tǒng)稱為飛行速率[8],用轉(zhuǎn)置矩陣[v(i),d(i)T]表示。為了方便觀察足球飛行軌跡,令:
[v(i)=d(i+1)-d(i)] (3)
[d(i+1)=d(i)+Δtv(i)] (4)
式中[Δt]是一個觀察周期。式(3),式(4)表示在一個觀察周期內(nèi)足球飛行速度是保持不變的,那么足球動力學(xué)模型表達(dá)式可表示為:
[v(i+1)-v(i)=00-g+v(i)-kv(i)-qwzkwyqwz-kv(i)-kwx-qwy-qwx-qv(i)] (5)
式中:[g]是重力加速度;[k,q]是[K(i)]及[Q(i)]中的參數(shù);[wx,wy,wz]分別是速度在[x,y,z]軸上的分量。
2.3 足球飛行狀態(tài)估計
對決策樹的分類結(jié)果進(jìn)行足球飛行狀態(tài)估計需要使用卡爾曼濾波[9]的狀態(tài)轉(zhuǎn)移函數(shù)和觀察函數(shù),表示如下:
[X(i)=fX(i-1),u(i-1),σ(i-1)] (6)
[Y(i)=hX(i),v(i)] (7)
式中:[X(i)]是足球?qū)崟r飛行狀態(tài);[Y(i)]是實(shí)時飛行狀態(tài)的觀察值;[f[]]表示狀態(tài)轉(zhuǎn)移;[h[]]表示轉(zhuǎn)移狀態(tài)下的觀察估計值;[u]是狀態(tài)閾值;[σ]是飛行速率矩陣偏差。
由于[f[]]和[h[]]不能進(jìn)行協(xié)方差運(yùn)算,致使數(shù)據(jù)挖掘技術(shù)不能進(jìn)行誤差解析和未來足球飛行軌跡狀態(tài)估計,所以引進(jìn)雅可比矩陣進(jìn)行一階偏導(dǎo)變形:
[F(i)=?f?XX0ji-1,u(i-1)] (8)
[H(i)=?h?XX0ji-1] (9)
式中,[X0ji-1]表示第[j]個周期的足球飛行狀態(tài)估計函數(shù),這個函數(shù)是不斷更新的,使用前一個周期的估計值和現(xiàn)有周期的觀察值之差作為更新信息[Pj-1i],有:
[Pj-1i=X(j-1)-Y(i)] (10)
可知第[j+1]個周期的足球飛行狀態(tài)估計函數(shù)可表示為:
[X0j+1i=X0ji-1+Pj-1i] (11)
由式(11)可知,在進(jìn)行足球飛行狀態(tài)估計時,要保留所有觀察值中隱含的軌跡信息,以確保能夠在足量的飛行狀態(tài)中選擇出最優(yōu)飛行估計信息,提高所提基于數(shù)據(jù)挖掘技術(shù)(決策樹)的足球最優(yōu)飛行軌跡估計方法的準(zhǔn)確率。
2.4 足球最優(yōu)飛行軌跡估計
如圖3所示的足球最優(yōu)飛行軌跡估計流程依次通過決策樹分類、足球飛行狀態(tài)觀察與估計、時序解析和碰撞測試,最終得到最優(yōu)軌跡估計值。時序解析是指根據(jù)時間序列將足球飛行狀態(tài)估計結(jié)果中列出的經(jīng)常發(fā)生事項(xiàng)提取出來引進(jìn)時間窗,令時間窗在原有時間序列上流通,經(jīng)過訓(xùn)練挖掘隱含在數(shù)據(jù)內(nèi)部的關(guān)鍵知識點(diǎn)。
碰撞測試是在足球飛行狀態(tài)估計結(jié)果中引進(jìn)力的作用的一個綜合過程,包含萬有引力、摩擦力、風(fēng)力、運(yùn)動員腳部推力等。對每個關(guān)鍵知識點(diǎn)進(jìn)行碰撞測試,當(dāng)所有關(guān)鍵知識點(diǎn)均完成測試,視為到達(dá)碰撞邊緣。將足球飛行狀態(tài)估計結(jié)果[X0ji-1]中的關(guān)鍵知識點(diǎn)轉(zhuǎn)化成足球飛行速度在[x,y,z]軸上的負(fù)分量,設(shè)為轉(zhuǎn)置矩陣[(w-x,w-y,w-z)T,]那么碰撞測試之后的最優(yōu)軌跡估計結(jié)果可表示為:
[v+rx=[v-rx,w-y]b1v+ry=[v-ry,w-x]b2v+rz=b3w-zd+rx=[v-ry,w-x]b4d+ry=[v-rx,w-y]b5d+rz=b6w-z] (12)
式中:[v+r,][v-r]是碰撞速度在坐標(biāo)軸上的正、負(fù)分量;[d+r]是碰撞位移在坐標(biāo)軸上的正分量,下角標(biāo)分別對應(yīng)[x,][y,z]軸;常數(shù)參數(shù)[b1~b6]可通過關(guān)聯(lián)多組足球歷史飛行軌跡數(shù)據(jù)特征,利用最小二乘法擬合而成。
3 實(shí)驗(yàn)結(jié)果與分析
軌跡結(jié)構(gòu)是指能夠全面解釋事物內(nèi)外部特征的軌跡數(shù)據(jù)[10]。軌跡結(jié)構(gòu)相似度是解釋兩種軌跡結(jié)構(gòu)相似程度的數(shù)據(jù)指標(biāo)。足球飛行中實(shí)際速度大小和方向與其估計值的軌跡結(jié)構(gòu)相似度表示如下:
[sim(vi,v0)=13vv+vmin+vmax] (13)
[sim(di,d0)=disinθ, 0°≤θ≤90°d0, 90°<θ≤180°] (14)
式中:[vv,][vmin,vmax]分別是估計值與實(shí)際值之間平均、最小和最大速度大小的差值;[di,d0]分別是方向估計值和實(shí)際值;夾角[θ]是估計值和實(shí)際值之間的偏量。
使用本文提出的基于數(shù)據(jù)挖掘技術(shù)的足球最優(yōu)飛行軌跡估計方法在一段時長為3 h的歷史足球比賽視頻上進(jìn)行最優(yōu)飛行軌跡估計,實(shí)際飛行軌跡已經(jīng)給出,計算出估計值與實(shí)際值的軌跡結(jié)構(gòu)相似度,如圖4,圖5所示。從圖中能夠看出,實(shí)際值和估計值的軌跡結(jié)構(gòu)相似度非常高,基本高于0.95,特別是速度大小的相似程度一直保持在0.97以上,說明所提方法可在實(shí)際應(yīng)用中取得好的效果。
4 結(jié) 論
數(shù)據(jù)挖掘技術(shù)在金融業(yè)、刑偵業(yè)、工業(yè)、農(nóng)業(yè)等領(lǐng)域均得到了一定應(yīng)用。本文提出一種基于數(shù)據(jù)挖掘技術(shù)(決策樹)的足球最優(yōu)飛行軌跡估計方法,目標(biāo)是提高中國足球競技能力,令運(yùn)動員能夠合理估計足球飛行軌跡,及時對我方與對方球員的行為規(guī)律做出正確判斷。實(shí)驗(yàn)結(jié)果表明本文方法是可靠的,具有非常高的軌跡結(jié)構(gòu)相似度。
參考文獻(xiàn)
[1] 竇昀翬.探索數(shù)據(jù)挖掘技術(shù)在甲醇價格預(yù)測模型中因素分析的應(yīng)用[J].上海化工,2015,40(9):39?42.
[2] 尚岑,王東雨,宇文姝麗.數(shù)據(jù)挖掘技術(shù)在健康數(shù)據(jù)分析中的應(yīng)用[J].醫(yī)學(xué)信息學(xué)雜志,2016,37(5):54?58.
[3] 宋園,劉乾,王燦,等.RoboCup2D日志文件數(shù)據(jù)挖掘研究及應(yīng)用[J].大慶師范學(xué)院學(xué)報,2015,35(6):31?34.
[4] 閔芳,楊功廷,張昱.基于決策樹C4.5算法的足球賽事預(yù)測[J].科技和產(chǎn)業(yè),2014,14(6):94?96.
[5] 張?zhí)烊?,于天彪,趙海峰,等.數(shù)據(jù)挖掘技術(shù)在全斷面掘進(jìn)機(jī)故障診斷中的應(yīng)用[J].東北大學(xué)學(xué)報(自然科學(xué)版),2015,36(4):527?532.
[6] 杜春杰,劉鴻優(yōu).高水平職業(yè)足球運(yùn)動員比賽技戰(zhàn)術(shù)表現(xiàn)特征研究:以西班牙男子足球甲級聯(lián)賽為例[J].體育學(xué)刊,2016,23(4):110?116.
[7] 傅鴻浩,張廷安.足球運(yùn)動中的唯象理論實(shí)證研究:以國家(地區(qū))經(jīng)濟(jì)實(shí)力與運(yùn)動成績關(guān)系為例[J].體育科學(xué),2016,36(7):79?88.
[8] 夏磊,張樂君,國林,等.節(jié)點(diǎn)相似度標(biāo)簽傳播在社會網(wǎng)絡(luò)中的應(yīng)用研究[J].計算機(jī)工程與應(yīng)用,2014,50(14):103?109.
[9] 秦鋒,田杰,程澤凱.基于偏最小二乘法的RoboCup傳球研究[J].計算機(jī)工程,2014,40(9):275?279.
[10] 李明,姚遠(yuǎn)耀.數(shù)據(jù)挖掘技術(shù)在物流供應(yīng)鏈合作伙伴選擇中的應(yīng)用[J].物流技術(shù),2015,34(2):152?154.