董 琦,高 峰
(北京郵電大學(xué)體育部,北京 100876)
?
利用支持向量機(jī)方法預(yù)測(cè)2016年里約奧運(yùn)會(huì)中國(guó)獎(jiǎng)牌數(shù)目
董 琦,高 峰
(北京郵電大學(xué)體育部,北京 100876)
摘 要:奧運(yùn)會(huì)獎(jiǎng)牌數(shù)目預(yù)測(cè)是體育研究中的一個(gè)十分重要的問(wèn)題,獲獎(jiǎng)獎(jiǎng)牌數(shù)目是一種波動(dòng)劇烈、噪聲高、復(fù)雜且難以預(yù)測(cè)的、非線性、不確定的時(shí)間序列數(shù)據(jù),而支持向量機(jī)中的回歸方法為其提供了一種有效的解決思路。采用支持向量機(jī)非線性擴(kuò)展樣本對(duì)時(shí)間序列模型定階,通過(guò)分析新樣本加入訓(xùn)練集后支持向量集的變化情況,從而構(gòu)建一個(gè)支持向量機(jī)的奧運(yùn)金牌預(yù)測(cè)的模型。該模型通過(guò)對(duì)以往獲獎(jiǎng)獎(jiǎng)牌數(shù)的仿真預(yù)測(cè),其結(jié)果表明,該模型的預(yù)測(cè)效果與傳統(tǒng)時(shí)間序列預(yù)測(cè)效果相比,具有預(yù)測(cè)模型的主觀度低,預(yù)測(cè)精度高,其預(yù)測(cè)穩(wěn)定性更好的特點(diǎn)。且本文的方案具有較傳統(tǒng)操作相對(duì)簡(jiǎn)單,便于編程實(shí)現(xiàn)等許多優(yōu)點(diǎn)。該方法的提出,表明基于支持向量機(jī)的研究在體育學(xué)研究領(lǐng)域中具有一定的理論及應(yīng)用價(jià)值。
關(guān)鍵詞:時(shí)間序列;支持向量機(jī);里約奧運(yùn)會(huì);預(yù)測(cè)
投稿日期:2015-01-12
奧運(yùn)會(huì)是全世界體育頂級(jí)盛會(huì),其所獲得的獎(jiǎng)牌數(shù)目以及國(guó)家排名先后,不僅僅代表一個(gè)國(guó)家競(jìng)技體育運(yùn)動(dòng)水平,同時(shí)也體現(xiàn)了一個(gè)國(guó)家的經(jīng)濟(jì)和社會(huì)的綜合國(guó)力。在即將到來(lái)的2016年巴西里約奧運(yùn)會(huì),中國(guó)軍團(tuán)能取得怎樣的成績(jī),成為普遍關(guān)注的焦點(diǎn)。為此,本文采用支持向量回歸方法為其提供了一種有效、新的解決思路,數(shù)據(jù)來(lái)源為新中國(guó)重返奧運(yùn)會(huì)后歷屆奧運(yùn)會(huì)所取得的有限成績(jī)數(shù)據(jù),并結(jié)合統(tǒng)計(jì)學(xué)的方法,預(yù)測(cè)出即將在2016年里約奧運(yùn)會(huì)上的獎(jiǎng)牌數(shù)目。
由于體育比賽中的隨機(jī)因素很多,對(duì)獎(jiǎng)牌數(shù)目獲得多少有顯著影響。其獲獎(jiǎng)獎(jiǎng)牌數(shù)目具有噪聲高和很強(qiáng)的不確定性,且表現(xiàn)出復(fù)雜的非線性。隨著非線性技術(shù)的發(fā)展,科學(xué)界又涌現(xiàn)出新的解決方法。當(dāng)前,用于體育比賽金牌預(yù)測(cè)的主要方法有神經(jīng)網(wǎng)絡(luò)模型、時(shí)間序列模型,以及以基于計(jì)量經(jīng)濟(jì)學(xué)原理建立的經(jīng)驗(yàn)?zāi)P汀?/p>
在現(xiàn)有研究中,主要是以傳統(tǒng)的時(shí)間序列預(yù)測(cè)為主,如辨別分析預(yù)測(cè)法、馬爾可夫預(yù)測(cè)法和時(shí)間序列法等。這些傳統(tǒng)的時(shí)間預(yù)測(cè)法具有明顯的缺點(diǎn):這些方法是線性特性,所以不能完全考慮到非線性的特征,這樣的結(jié)果就是預(yù)測(cè)精度低且偶然性大。
根據(jù)計(jì)量經(jīng)濟(jì)學(xué)原理建立起來(lái)的經(jīng)驗(yàn)?zāi)P停词歉鶕?jù)一個(gè)國(guó)家的相關(guān)經(jīng)濟(jì)因素在奧運(yùn)成績(jī)中的影響,所建立起來(lái)的模型有Ball(1972)、Grimes A Ray 等(1974)和Levine N(1974),以及根據(jù)柯布-道格拉斯生產(chǎn)函數(shù)所建立多元非線性模型。但是,如果直接把經(jīng)濟(jì)學(xué)模型直接運(yùn)用到體育成績(jī)的預(yù)測(cè)中,而不考慮到體育成績(jī)預(yù)測(cè)的特殊性,那么其預(yù)測(cè)結(jié)果存在較大的爭(zhēng)議性。
運(yùn)用神經(jīng)網(wǎng)絡(luò)模型來(lái)進(jìn)行預(yù)測(cè),往往具有最終結(jié)果依賴于初始值,最終結(jié)果容易陷入到局部最優(yōu)、收斂速度低等問(wèn)題。目前,支持向量機(jī)(Support Vector Machines,SVM)的研究已經(jīng)在理論和算法上對(duì)回歸問(wèn)題取得了突破性的進(jìn)展。但是,該方法在預(yù)測(cè)中還未得到具體的研究。可以說(shuō),在預(yù)測(cè)領(lǐng)域,支持向量機(jī)有許多具體的研究問(wèn)題。
針對(duì)體育比賽成績(jī)的研究發(fā)現(xiàn),首先,由于在體育比賽中存在多種偶然因素,體育比賽中獎(jiǎng)牌的獲得是一個(gè)非線性動(dòng)力學(xué)過(guò)程,表現(xiàn)出復(fù)雜的非穩(wěn)定性和非線性;其次,體育比賽中獲得的獎(jiǎng)牌數(shù)目存在著樣本點(diǎn)不可逆性、離散,以及數(shù)目有限等。由于體育比賽獎(jiǎng)牌的預(yù)測(cè)是一個(gè)非線性動(dòng)力學(xué)過(guò)程,難以直接表示出該非線性動(dòng)力學(xué)方程的一些自身的特性。簡(jiǎn)單地說(shuō),就是指難以用解析方法或者是明確的公式把這種規(guī)律現(xiàn)象給表達(dá)出來(lái)。但是,獎(jiǎng)牌數(shù)目預(yù)測(cè)所具有的這種特性和處理方式,正是支持向量機(jī)所具備的特性。所以,基于以上觀點(diǎn)的考慮,本文采用支持向量機(jī)對(duì)2016年里約奧運(yùn)會(huì)中國(guó)獎(jiǎng)牌數(shù)目進(jìn)行預(yù)測(cè)。
2.1 支持向量機(jī)(SVM)的基本原理
支持向量機(jī)是在統(tǒng)計(jì)學(xué)習(xí)的理論基礎(chǔ)上進(jìn)一步發(fā)展起來(lái)的,在很大程度上解決了統(tǒng)計(jì)學(xué)習(xí)中的學(xué)習(xí)和維數(shù)問(wèn)題,以及局部極小點(diǎn)問(wèn)題等。支持向量機(jī)的解決思路是:把輸入空間通過(guò)非線性變換到高維空間,從而可以在高維空間中尋找輸入與輸出之間的線性關(guān)系。由于支持向量機(jī)有著堅(jiān)實(shí)的理論基礎(chǔ),因此能夠解決小樣本、非線性、高維數(shù)等問(wèn)題。
2.2 支持向量機(jī)(SVM)的理論模型
通常,以向量的形式給出樣本,同時(shí)把輸入空間限定于Rn的子集。這樣,求解線性回歸的問(wèn)題,就轉(zhuǎn)換成求解線性函數(shù)的問(wèn)題。
解決這樣的問(wèn)題最有效的方法是最小二乘法。通過(guò)最小二乘法可以求得參數(shù)。其中,
就是平方損失函數(shù),其作用就是計(jì)算選擇相關(guān)參數(shù)后,所帶來(lái)的損失。參數(shù)的具體計(jì)算方法如下。
利用這些符號(hào),損失函數(shù)可寫做:
即得標(biāo)準(zhǔn)方程為:
嶺回歸算法通過(guò)最小化懲罰損失函數(shù):
要使得公式(0.10)成立,則需要滿足條件:
這樣就得到一個(gè)預(yù)測(cè)函數(shù):
2.3 基于支持向量機(jī)(SVM)的獎(jiǎng)牌數(shù)目時(shí)間序列預(yù)測(cè)模型
由于在體育比賽中獲得獎(jiǎng)牌數(shù)目是一個(gè)時(shí)間序列,那么在預(yù)測(cè)模型的建立過(guò)程中,就必須把時(shí)間序列的時(shí)滯性加以考慮。通常解決時(shí)滯問(wèn)題的辦法是:從最低階數(shù)開(kāi)始對(duì)預(yù)測(cè)模型開(kāi)始建模,通過(guò)檢驗(yàn)的辦法來(lái)獲得最高階數(shù)。
具體解決步驟如下:對(duì)于一個(gè)多輸入單輸出回歸模型,有N個(gè)樣本、一個(gè)因變量(獎(jiǎng)牌數(shù)目)、m-1個(gè)自變量(特征),依次對(duì)2個(gè)相鄰模型SVM,通過(guò)F檢驗(yàn)方法,來(lái)判斷模型階次增加是否合適正確。
對(duì)2個(gè)相鄰SVM(n)和SVM(n+1)模型而言,有統(tǒng)計(jì)量Fi為:
其中,它們分別服從自由度為m和(N-mn-(m-1))的F分布,且QSVR(n)和QSVR(n+1)分別為SVR(n)和QSVR(n+1)的剩余離差平方和,若則SVR(n)模型是合適的;反之,繼續(xù)拓展階數(shù)。
這樣,把上述模型的最高階數(shù)確定以后,即階數(shù)確定為n的SVM模型(n)個(gè)特征。為了進(jìn)一步提高預(yù)測(cè)精度,本文結(jié)合留一法的前向浮動(dòng)特征篩選算法和支持向量機(jī)SVM,來(lái)做如下的步驟。
特征全集用B={xj: j=1,2,…,k}表示,B中的m個(gè)特征組成的特征子集用Am表示,評(píng)價(jià)函數(shù)MSE (Am)和 MSE(Ai)i =1,2,…,m-1的值都已知。具體算法如下:(1)設(shè)置m=0,A0為空集,利用前向篩選方法尋找2個(gè)特征組成特征子集Am(m=2);(2)使用前向特征篩選方法從未選擇的特征子集(B-Am)中選擇特征子集(B-Am)中選擇特征xm+1,得到子集Am+1;(3)如果迭代次數(shù)達(dá)到預(yù)設(shè)值則退出,否則執(zhí)行4;(4)選擇特征子集Am+1中最不重要的特征;(5)在特征子集中尋找最不重要的特征xr。
如果xm+1是最不重要的特征即對(duì)任意j≠m+1,J(Am+1-xm+1)≤J(Am+1-xj)成立,那么令m=m+1,則返回(2)(理由:由于xm+1是最不重要的特征,所以無(wú)需從Am中排除原來(lái)的特征。)如果最不重要的特征是xr(r=1,2,…,m)且MSE成立,排除xr,且令如果m=2,設(shè)置Am=,返回(5),否則轉(zhuǎn)向步驟(5)。
在上述的計(jì)算過(guò)程中,采用均方誤差(Mean Squared Error,MSE)作為評(píng)價(jià)指標(biāo)。MSE定義如下:
其中,真值為yi,預(yù)測(cè)值為,預(yù)測(cè)樣本數(shù)為n。
整個(gè)算法流程圖如圖1所示。
圖1 支持向量機(jī)流程圖
3.1 數(shù)據(jù)來(lái)源
因?yàn)榈?3屆奧運(yùn)會(huì)受到以前蘇聯(lián)為首國(guó)家的抵制,導(dǎo)致該屆獎(jiǎng)牌數(shù)據(jù)缺乏可信性。因此,本文采用的數(shù)據(jù)是以中國(guó)自第23屆重返奧運(yùn)會(huì)以來(lái)公布的第24屆~第30屆的獎(jiǎng)牌數(shù)目以及轉(zhuǎn)換的分?jǐn)?shù)為依據(jù)。獎(jiǎng)牌的分?jǐn)?shù)是按表1的規(guī)則計(jì)算。
3.2 中國(guó)歷屆奧運(yùn)會(huì)獎(jiǎng)牌分布
自第24屆奧運(yùn)會(huì)中國(guó)歷屆所獲獎(jiǎng)牌數(shù)目及獎(jiǎng)牌得分情況表如表2所示。
下面繪制出中國(guó)參加奧運(yùn)會(huì)自第24 屆~第30屆的獎(jiǎng)牌數(shù)目情況圖。從圖2可以看出,我國(guó)在奧運(yùn)會(huì)金牌、銀牌、銅牌上面,除去第29屆奧運(yùn)會(huì)東道主因素外,所有境外奧運(yùn)都呈現(xiàn)出上升趨勢(shì)。
表2 中國(guó)歷屆奧運(yùn)會(huì)所獲獎(jiǎng)牌數(shù)目及獎(jiǎng)牌得分情況表
圖2 中國(guó)歷屆奧運(yùn)會(huì)所獲獎(jiǎng)牌數(shù)目情況圖
表3 中國(guó)歷屆奧運(yùn)會(huì)所獲獎(jiǎng)牌數(shù)目預(yù)測(cè)情況表
表4 中國(guó)歷屆奧運(yùn)會(huì)所獲獎(jiǎng)牌數(shù)目預(yù)測(cè)誤差情況表
3.3 模型的建立與評(píng)價(jià)
核函數(shù)確立對(duì)于支持向量機(jī)方法起著至關(guān)重要的作用。目前,常見(jiàn)的支持向量機(jī)的核函數(shù)有:多項(xiàng)式核函數(shù),sigmoid核函數(shù),徑向基核函數(shù)線性核函數(shù)
當(dāng)前的研究表明,對(duì)于核函數(shù)一般無(wú)法自行構(gòu)造。但是,一般情況下,如果缺失先驗(yàn)函數(shù)時(shí),選擇高斯核函數(shù)的效果優(yōu)于其他的核函數(shù)。基于如上考慮,本文采用的核函數(shù)為高斯核函數(shù)。由重構(gòu)相空間嵌入相點(diǎn)構(gòu)成樣本集,得到用于向量學(xué)習(xí)的樣本為x,y。取前15個(gè)數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),后3個(gè)數(shù)據(jù)作為檢驗(yàn)數(shù)據(jù),由重構(gòu)相空間嵌入相點(diǎn)構(gòu)成訓(xùn)練樣本集,根據(jù)這18個(gè)點(diǎn)在相空間的軌跡,用支持向量機(jī)進(jìn)行尋優(yōu),構(gòu)造出一個(gè)最優(yōu)模型,并根據(jù)此模型來(lái)預(yù)測(cè)2016年里約奧運(yùn)會(huì)上中國(guó)獎(jiǎng)牌獲獎(jiǎng)數(shù)目。此模型采用平均平方誤差(MSE)作為預(yù)測(cè)性能優(yōu)劣評(píng)價(jià)指標(biāo)。
3.4 對(duì)比模型
預(yù)測(cè)模型的預(yù)測(cè)精度,一般是利用預(yù)測(cè)模型所得到的模擬值與實(shí)際值的擬合來(lái)進(jìn)行判斷。如果擬合度高,則說(shuō)明該預(yù)測(cè)模型的精度高,預(yù)測(cè)效果好。本文采用指數(shù)平滑法(α=0.5)、指數(shù)平滑法(α=0.9)。在預(yù)測(cè)第i樣本時(shí),取前i-1個(gè)樣本y值進(jìn)行建模,以擬合MSE最小亞模型預(yù)測(cè)值,從而構(gòu)建出最終預(yù)測(cè)模型。
圖3 預(yù)測(cè)第31屆里約奧運(yùn)會(huì)中國(guó)所獲獎(jiǎng)牌數(shù)目預(yù)測(cè)情況的時(shí)序圖
表5 不同方法的MSE值
3.5 結(jié)果與分析
表3是預(yù)測(cè)第31屆里約奧運(yùn)會(huì)中國(guó)所獲獎(jiǎng)牌數(shù)目預(yù)測(cè)情況表。
表4預(yù)測(cè)倫敦奧運(yùn)會(huì)中國(guó)所獲獎(jiǎng)牌數(shù)目預(yù)測(cè)時(shí),所計(jì)算出的誤差值。
圖3是預(yù)測(cè)第31屆里約奧運(yùn)會(huì)中國(guó)所獲獎(jiǎng)牌數(shù)目預(yù)測(cè)情況的時(shí)序圖。
表5是列出了不同時(shí)間序列法預(yù)測(cè)的MSE值。從表5中可以得出,支持向量機(jī)的預(yù)測(cè),明顯要好于傳統(tǒng)的預(yù)測(cè)方法。從數(shù)值結(jié)果分析可得,支持向量機(jī)在預(yù)測(cè)2016年里約奧運(yùn)會(huì)上中國(guó)獲獎(jiǎng)牌數(shù)目上不僅是可行的,而且與傳統(tǒng)的方法比較結(jié)果顯示這種方法也有一定的優(yōu)勢(shì)。利用這種方法預(yù)測(cè)獎(jiǎng)牌數(shù)目為決戰(zhàn)2016年里約奧運(yùn)會(huì)的中國(guó)健兒在訓(xùn)練期間制訂預(yù)期目標(biāo)提供了一定的參考價(jià)值。
由于支持向量機(jī)具有結(jié)構(gòu)風(fēng)險(xiǎn)小、非線性的特征,且融合了時(shí)間序列分析和回歸分析的優(yōu)點(diǎn),解決了過(guò)學(xué)習(xí)、維度問(wèn)題和最終結(jié)果容易限于局部最優(yōu)的問(wèn)題。最為關(guān)鍵的一點(diǎn)是在計(jì)算機(jī)上,借助于MATLAB的SVM工具箱,程序?qū)崿F(xiàn)容易。這表明,將基于支持向量應(yīng)用到2016年里約奧運(yùn)會(huì)上中國(guó)獲獎(jiǎng)獎(jiǎng)牌數(shù)目預(yù)測(cè)研究上,能夠動(dòng)態(tài)地挖掘出最優(yōu)競(jìng)技體育實(shí)力的評(píng)估,對(duì)于競(jìng)技體育的預(yù)測(cè)模型能達(dá)到最優(yōu)化,且具有較傳統(tǒng)操作相對(duì)簡(jiǎn)單等許多優(yōu)點(diǎn)。最后,在預(yù)測(cè)結(jié)果中表明本文所提出的方法能有效地降低預(yù)測(cè)模型的主觀性,在獎(jiǎng)牌預(yù)測(cè)中精度更高、穩(wěn)定性更好,這說(shuō)明基于支持向量機(jī)的研究必將在體育學(xué)等領(lǐng)域中得到廣泛的應(yīng)用。
參考文獻(xiàn):
[1] 王國(guó)凡,趙武,劉徐軍,等. 基于GA和回歸分析的奧運(yùn)會(huì)成績(jī)預(yù)測(cè)研究[J].中國(guó)體育科技,2011,47(1):4-8.
[2] 王國(guó)凡,唐學(xué)峰. 奧運(yùn)會(huì)獎(jiǎng)牌預(yù)測(cè)國(guó)內(nèi)、外研究動(dòng)態(tài)及發(fā)展趨勢(shì)[J].中國(guó)體育科技,2009,45(6):3-7.
[3] 王國(guó)凡,薛二劍,唐學(xué)峰.對(duì)大型國(guó)際綜合性運(yùn)動(dòng)會(huì)獎(jiǎng)牌數(shù)的預(yù)測(cè)研究——以北京奧運(yùn)會(huì)為例[J].天津體育學(xué)院學(xué)報(bào),2010,25(1):86-90.
[4] 楊新斌,黃曉娟. 基于支持向量機(jī)的股票價(jià)格預(yù)測(cè)研究[J].計(jì)算機(jī)仿真,2010, 27 (9):302-305.
[5] 向昌盛,周子英.基于支持向量機(jī)的混沌時(shí)間序列預(yù)測(cè)[J].吉首大學(xué)學(xué)報(bào):自然科學(xué)版,2009,30(6):35-39.
作者簡(jiǎn)介:董琦(1979~),副教授,博士。研究方向:體育教學(xué)與訓(xùn)練。
doi:10.3969/j.issn.1674-151x.2016.03.001
中圖分類號(hào):G811.2
文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1674-151X(2016)02-001-04