国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

中考體育成績(jī)預(yù)測(cè)方法研究

2021-07-14 07:58吳春連
中文信息 2021年5期
關(guān)鍵詞:線性中考向量

吳春連

(萬達(dá)信息股份有限公司,上海 200041)

引言

在《體育總局教育部關(guān)于印發(fā)深化體教融合 促進(jìn)青少年健康發(fā)展意見的通知》發(fā)布后,各省市積極響應(yīng)政策,同時(shí)廣大家長、學(xué)生對(duì)加強(qiáng)體育運(yùn)動(dòng)的響應(yīng)效果也逐步凸顯,并加強(qiáng)了被納入中考的體育項(xiàng)目的學(xué)習(xí),以期在中考中獲得良好的表現(xiàn)。本文采用歷年學(xué)生的體育成績(jī)數(shù)據(jù)訓(xùn)練了幾種擬合模型,從而對(duì)學(xué)生中考體育成績(jī)進(jìn)行預(yù)測(cè)。

一、擬合模型介紹

首先給出中考體育成績(jī)預(yù)測(cè)問題的形式化定義。假設(shè)有n個(gè)學(xué)生,每個(gè)學(xué)生都有自己日常的體育數(shù)據(jù),用m維向量x來記錄,向量中的每一個(gè)維度都表示具體的某一種體育特征,包括身高、體重、BMI、肺活量等等;學(xué)生對(duì)應(yīng)的中考成績(jī)用y表示,其中y可以為學(xué)生的中考體育總成績(jī)或者具體某一項(xiàng)考試的成績(jī)。所有n個(gè)學(xué)生的數(shù)據(jù)可以表示為{(x1,y1),(x2,y2),…,(xn,yn)}

本項(xiàng)目的目標(biāo)是學(xué)習(xí)一個(gè)擬合函數(shù)f,在給定一個(gè)學(xué)生u的日常體育特征Xu時(shí),預(yù)測(cè)他的中考體育成績(jī),即uy?=f(Xu),并期望uy?u盡可能接近于他的真實(shí)成績(jī)yu。

下面介紹本文研究的一些經(jīng)典的機(jī)器學(xué)習(xí)方法、其建模形式、適用問題以及需要設(shè)定的參數(shù)等情況。

1.最近鄰模型

K-近鄰模型屬于比較簡(jiǎn)單的一種模型,經(jīng)常被用于作為機(jī)器學(xué)習(xí)的基準(zhǔn)方法。即在訓(xùn)練集中,根據(jù)輸入特征,找到與目標(biāo)對(duì)象最接近的K個(gè)鄰居,將他們輸出值的平均值作為目標(biāo)對(duì)象的預(yù)測(cè)值。K-近鄰模型沒有具體的學(xué)習(xí)參數(shù),主要依靠訓(xùn)練集的數(shù)據(jù),來推測(cè)新樣本的情況。該模型的優(yōu)點(diǎn)是結(jié)構(gòu)簡(jiǎn)單,訓(xùn)練成本較低。其中,需要確定的參數(shù)主要包括選擇合適的距離函數(shù),以及確定最優(yōu)的K值。該模型適用于訓(xùn)練數(shù)據(jù)較為豐富,且數(shù)據(jù)存在局部性模式的情況。該模型也存在一些缺陷,例如,模型的預(yù)測(cè)速度受訓(xùn)練數(shù)據(jù)的總量、K值的大小、距離函數(shù)的復(fù)雜程度影響較大。而且如果數(shù)據(jù)中存在較多噪聲,有些數(shù)據(jù)點(diǎn)附近訓(xùn)練數(shù)據(jù)樣本較少等情況,則擬合效果較差。

2.線性擬合模型

線性擬合模型是最簡(jiǎn)單的一種擬合模型。該模型假設(shè)輸入特征x和預(yù)測(cè)的目標(biāo)y存在線性關(guān)系。輸出的預(yù)測(cè)值可以用輸入的特征進(jìn)行加權(quán)估計(jì)得到。公式為=wx+b,其中,是預(yù)測(cè)值,w是權(quán)值向量,b是偏置,x是自變量向量。在定義完預(yù)測(cè)模型之后,需要根據(jù)訓(xùn)練樣本,估計(jì)模型中的參數(shù)w和b。預(yù)測(cè)模型的目標(biāo)是最小化預(yù)測(cè)值和真實(shí)值之間的偏差,因此,可以定義損失函數(shù)為

其中,n表示訓(xùn)練樣本數(shù)量。如果將的估計(jì)函數(shù)代入到該公式中,就可得到損失函數(shù)L(w,b)=最小化該損失函數(shù),就可得到模型的參數(shù)。對(duì)于最小化該損失函數(shù),可以有兩種方法,包括最小二乘法和梯度下降法。最小二乘法是根據(jù)求導(dǎo),使得導(dǎo)數(shù)為0的方式,獲得極值,最終得到參數(shù)的解析解梯度下降法是使用迭代的方式,首先對(duì)預(yù)測(cè)模型求導(dǎo),然后得出迭代公式,根據(jù)如下的公式對(duì)權(quán)重和偏置進(jìn)行不斷迭代,即可得到參數(shù)其中,和分別表示損失函數(shù)對(duì)于權(quán)值和偏置的導(dǎo)數(shù),α是學(xué)習(xí)速率,需要設(shè)定為小于1的值。線性擬合模型的優(yōu)點(diǎn)是假設(shè)輸入和輸出是線性關(guān)系,模型較為簡(jiǎn)單,模型過擬合的風(fēng)險(xiǎn)較小,所需要的訓(xùn)練數(shù)據(jù)也較少。模型需要確定的參數(shù)是權(quán)值向量和偏置。該模型適用于輸入和輸出存在明顯線性關(guān)系的場(chǎng)景。同時(shí),也存在模型較為簡(jiǎn)單,難以建模復(fù)雜非線性依賴的缺陷等。

3.多項(xiàng)式擬合模型

為了解決線性模型難以建模復(fù)雜依賴的問題,可以向線性模型中加入特征的冪次項(xiàng)。具體操作是,根據(jù)原始特征向量x,分別求出其2次、3次等指數(shù)結(jié)果。然后擬合公式=p0+p1X1+p2X2+…+pqXq。

其中,p0,p1,…,pq是需要學(xué)習(xí)的參數(shù)。在定義完預(yù)測(cè)公式之后,與線性模型類似,可以定義如下的損失函數(shù),最小化該損失函數(shù),即可得到其中的參數(shù){p0,p1,…,pq}L=

需要注意的是該模型雖然有指數(shù)項(xiàng),但是只需要根據(jù)原始特征求出來x1,x2,…,xn的值,就可以把多項(xiàng)式擬合問題,轉(zhuǎn)化為線性擬合的問題。該模型的優(yōu)勢(shì)在于可以建模輸入和輸出的非線性關(guān)系。需要確定的參數(shù)包括各項(xiàng)權(quán)值。該模型相比于線性模型參數(shù)更多,需要的訓(xùn)練數(shù)據(jù)也更多,可能存在更大的過擬合風(fēng)險(xiǎn)。

4.支持向量回歸(Support Vector Regression,SVR)模型

線性模型較為簡(jiǎn)單;而多項(xiàng)式模型也只是加入了指數(shù)項(xiàng),提升了其建模非線性關(guān)系的能力,但是局限性也比較大。SVR模型通過引入核函數(shù),進(jìn)一步提升了模型擬合復(fù)雜關(guān)系的能力。SVR模型是支持向量機(jī)模型的變種。支持向量機(jī)(support vector machine,SVM)是針對(duì)分類任務(wù)提出的模型。SVR模型思想與其類似,是尋找一些支持向量,確保預(yù)測(cè)值相對(duì)于真實(shí)值不會(huì)偏離到支持向量劃定的界限之外。SVR的推導(dǎo)過程是從線性模型開始的,然后引入了核函數(shù)提升其建模非線性關(guān)系的能力。首先定義線性擬合函數(shù)=wx+b,SVR的思想是只要真實(shí)值和預(yù)測(cè)值偏差不太大即算預(yù)測(cè)正確,設(shè)ε為擬合精度控制參數(shù),期望-ε<y<+ε。

考慮到SVM中的線性不可分的情況,引入松弛變量和,得出SVR的優(yōu)化問題引入拉格朗日乘子,經(jīng)過對(duì)偶和求解,得出預(yù)測(cè)函數(shù)其中,α,為拉格朗日乘子,即為待求參數(shù)。然后引入核函數(shù),得到預(yù)測(cè)公式其中,K(Xu,Xi)是核函數(shù),表示對(duì)象u和i相似的程度。核函數(shù)可以使用非線性核增加模型建模非線性關(guān)系的能力。核函數(shù)有很多種選擇,下面介紹幾種常用的核函數(shù):

● 線性核函數(shù)是使用內(nèi)積的形式,計(jì)算出兩個(gè)特征向量的相似程度,公式為K(x,z)=XTZ,其中,X和Z分別表示一個(gè)向量,XT表示向量X的轉(zhuǎn)置。

● 多項(xiàng)式核函數(shù)使用多項(xiàng)式的形式,計(jì)算兩個(gè)特征向量之間的關(guān)聯(lián)性K(x,z)=(axTz+c)d,其中,a和d是兩個(gè)可以設(shè)置的超參數(shù)。

● 高斯核使用高斯函數(shù)來計(jì)算兩個(gè)特征向量之間的相似性。

SVR模型是針對(duì)非線性關(guān)系建模的一種有效的模型。需要求的參數(shù)包括拉格朗日乘子,核函數(shù)的選擇,以及核函數(shù)中的超參數(shù)等。SVR模型需要根據(jù)數(shù)據(jù)分布的特點(diǎn)選擇合適的核函數(shù)。

二、訓(xùn)練數(shù)據(jù)分析

訓(xùn)練數(shù)據(jù)分類兩類,一類是預(yù)測(cè)的目標(biāo)數(shù)據(jù),包括中考體育總成績(jī),以及學(xué)生中考體育專項(xiàng)成績(jī),另一類是輸入特征包括學(xué)生在初三年級(jí)的體質(zhì)健康測(cè)試成績(jī)和日常體育成績(jī)。

1.數(shù)據(jù)分布分析

本文分析的預(yù)測(cè)目標(biāo)數(shù)據(jù)分別為體育總分、1000米、800米、50米、實(shí)心球、仰臥起坐、立定跳遠(yuǎn),各項(xiàng)數(shù)據(jù)的平均分分別為27.72、78.08、81.49、82.21、84.61、92.07和89.65,標(biāo)準(zhǔn)差分別為3.05、23.31、20.36、18.05、19.50、11.31、18.18??偡侄际墙咏?0分,差別不大,其他各專項(xiàng)數(shù)據(jù)分布如下圖:

輸入特征數(shù)據(jù)為體育行為數(shù)據(jù)和體質(zhì)健康數(shù)據(jù),包括學(xué)生體育行為成績(jī)、身高、體重、BMI、肺活量、50米跑、坐位體前屈、仰臥起坐、體質(zhì)健康總分。各項(xiàng)平均分分別為85.11、164.86、57.00、92.27、86.61、8.56、74.04、68.30、80.34。各項(xiàng)標(biāo)準(zhǔn)差分布為13.77、7.52、12.23、13.53、14.64、0.92、17.58、25.79、9.99。各項(xiàng)數(shù)據(jù)分布直方圖如下:

由上述分布情況可以看出,身高、體重、50米跑、體質(zhì)健康總分都是比較符合高斯分布的。而且每個(gè)項(xiàng)目的數(shù)據(jù)分布、數(shù)據(jù)范圍都不同,需要進(jìn)行歸一化處理,才能作為模型的輸入,否則可能降低預(yù)測(cè)的準(zhǔn)確性。

2.數(shù)據(jù)相關(guān)性分析

本文還分析了輸入特征與預(yù)測(cè)目標(biāo)之間的關(guān)聯(lián)性。只有強(qiáng)關(guān)聯(lián)性的特征,才會(huì)對(duì)預(yù)測(cè)任務(wù)有幫助。本文采用了皮爾森相關(guān)系數(shù)來衡量各個(gè)特征與預(yù)測(cè)目標(biāo)之間的相關(guān)性強(qiáng)弱。分析結(jié)果表明中考1000米成績(jī)與體重、BMI、50米跑、體質(zhì)健康總分的相關(guān)性較大,實(shí)心球和體質(zhì)健康總分以及50米跑成績(jī)相關(guān)性較大,仰臥起坐與50米跑和體質(zhì)健康總分相關(guān)性較大,立定跳遠(yuǎn)和仰臥起坐以及體質(zhì)健康總分的相關(guān)性較大。

三、模型超參設(shè)置和預(yù)測(cè)結(jié)果分析

1.模型超參設(shè)置

本文通過實(shí)驗(yàn)尋求各擬合模型的最佳超參。對(duì)于K近鄰擬合方法,當(dāng)K值為10時(shí)獲得了該方法的最好效果;對(duì)于線性擬合模型,設(shè)置梯度下降的學(xué)習(xí)速率為0.01;對(duì)于多項(xiàng)式擬合模型最終指數(shù)的值設(shè)置為2時(shí)獲得了最好的預(yù)測(cè)效果;對(duì)于SVR模型需要確定的超參數(shù)包括核函數(shù)類型的選擇以及核函數(shù)中的超參數(shù)設(shè)置。本文測(cè)試了線性核、多項(xiàng)式核、徑向基核,其中徑向基核獲得了最好的預(yù)測(cè)效果。

2.預(yù)測(cè)結(jié)果分析

為了訓(xùn)練所設(shè)計(jì)的模型,并驗(yàn)證其預(yù)測(cè)效果,將中考體育成績(jī)、體質(zhì)健康和體育行為的歷史數(shù)據(jù)分為兩部分,隨機(jī)選擇其中90%的數(shù)據(jù)作為訓(xùn)練集,剩余10%的數(shù)據(jù)作為測(cè)試集。預(yù)測(cè)的目標(biāo)包括中考體育總成績(jī)和體育專項(xiàng)成績(jī)。為了比較不同模型的預(yù)測(cè)精度,本項(xiàng)目使用MAE指標(biāo)來評(píng)價(jià)各個(gè)模型。在模型訓(xùn)練好之后,使用模型在測(cè)試集上進(jìn)行預(yù)測(cè),并根據(jù)計(jì)算公式得到MAE的值。其中,m是測(cè)試樣本的個(gè)數(shù);X(i)為真實(shí)值,這里每個(gè)要預(yù)測(cè)的Xt都是一個(gè)預(yù)測(cè)樣本的真實(shí)值;為模型預(yù)測(cè)的結(jié)果;|·|表示求絕對(duì)值。MAE的值越小,說明預(yù)測(cè)模型的預(yù)測(cè)效果越好。實(shí)驗(yàn)表明,K近鄰、線性模型、多項(xiàng)式模型、SVR模型預(yù)測(cè)中考總成績(jī)的MAE值分別為1.62、1.41、1.40和1.32。由此可知,SVR模型獲得了最好的預(yù)測(cè)效果。本文還對(duì)各體育專項(xiàng)進(jìn)行了預(yù)測(cè)實(shí)驗(yàn),結(jié)果表明,SVR模型在1000米,800米,50米、實(shí)心球和坐位體前屈項(xiàng)目上獲得了較好的預(yù)測(cè)效果。以下散點(diǎn)圖展示了中考體育總成績(jī)及各專項(xiàng)成績(jī)的真實(shí)值與預(yù)測(cè)值之間的相關(guān)性。

四、結(jié)語

在本文研究的所有的預(yù)測(cè)模型中使用了徑向基核函數(shù)的SVR模型獲得了最好的預(yù)測(cè)效果。預(yù)測(cè)結(jié)果和真實(shí)值具有明顯的正相關(guān)性,說明本文設(shè)計(jì)的預(yù)測(cè)模型是十分有效的。從而可以為學(xué)生選擇中考體育項(xiàng)目提供一定的數(shù)據(jù)參考,為體育總成績(jī)的預(yù)估提供依據(jù)。

猜你喜歡
線性中考向量
漸近線性Klein-Gordon-Maxwell系統(tǒng)正解的存在性
向量的分解
因式分解中考都考啥
聚焦“向量與三角”創(chuàng)新題
二階線性微分方程的解法
垂直平分線,中考怎樣考?
向量垂直在解析幾何中的應(yīng)用
向量五種“變身” 玩轉(zhuǎn)圓錐曲線
具有θ型C-Z核的多線性奇異積分的有界性