国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于機器學(xué)習(xí)的縱向缺失值處理方法在體育科學(xué)研究中的應(yīng)用
——以運動對大學(xué)生執(zhí)行控制影響的縱向研究為例

2021-07-26 02:12孫志遠(yuǎn)陳愛國史一凡
南京體育學(xué)院學(xué)報 2021年7期
關(guān)鍵詞:向量機器條件

孫志遠(yuǎn),陳愛國,2,熊 軒,朱 昊,史一凡

(1.揚州大學(xué)體育學(xué)院,江蘇揚州225127;2.揚州大學(xué)體育運動與腦科學(xué)研究所,江蘇揚州225127)

近年來,隨著體育科學(xué)研究的不斷深入,縱向?qū)嶒炑芯吭隗w育科學(xué)研究中越來越多,但在研究過程中由于外界因素干擾或研究參與者自身原因等,后測數(shù)據(jù)容易缺失。如果不能可靠地處理缺失數(shù)據(jù),將導(dǎo)致分析結(jié)果產(chǎn)生潛在的偏差,甚至?xí)贸稣`導(dǎo)性的結(jié)論[1]。以往采用按照一定規(guī)律,選擇合理的數(shù)據(jù)對缺失數(shù)據(jù)進(jìn)行替換的插補方法來處理缺失值,得到“完全數(shù)據(jù)集”后,再使用數(shù)據(jù)統(tǒng)計方法對數(shù)據(jù)進(jìn)行統(tǒng)計分析與統(tǒng)計推斷[2]。常用的插補方法有回歸替換法、均值替換法和多重替代法等。但插補方法的選擇會受到缺失數(shù)據(jù)的比例、變量間的關(guān)聯(lián)度和時間限制等因素的影響,并且在不同的數(shù)據(jù)缺失模式和分布模式下,選擇不適合的插補方法仍然會使數(shù)據(jù)產(chǎn)生偏離,得出錯誤的結(jié)果[3]。如何科學(xué)可靠地處理后測數(shù)據(jù)的缺失值,成為一個擺在研究者面前需要解決的難題。

機器學(xué)習(xí)是一門多領(lǐng)域交叉學(xué)科,專門研究計算機如何模擬或?qū)崿F(xiàn)人類的學(xué)習(xí)行為,以獲取新的知識或技能,重新組織已有的知識結(jié)構(gòu)使之不斷改善自身的性能[4]。隨著人工智能浪潮的到來,作為人工智能核心的機器學(xué)習(xí)被廣泛應(yīng)用于各個學(xué)科領(lǐng)域。臨床醫(yī)學(xué)使用機器學(xué)習(xí)算法建立疾病診斷、療效判斷預(yù)測模型[5];電氣工程領(lǐng)域通過機器學(xué)習(xí)算法對短期電力負(fù)荷進(jìn)行預(yù)測[6];經(jīng)濟(jì)學(xué)把機器學(xué)習(xí)應(yīng)用于復(fù)雜經(jīng)濟(jì)和金融網(wǎng)絡(luò)中[7]。機器學(xué)習(xí)在預(yù)測中的可靠性受到各大領(lǐng)域的強烈響應(yīng)。相比之下,在將機器學(xué)習(xí)如何應(yīng)用于處理體育科學(xué)研究中的后測數(shù)據(jù)缺失值方面尚無針對性研究;與常用的一些插補法處理缺失值相比,機器學(xué)習(xí)建立的預(yù)測模型適合任意缺失模式,對數(shù)據(jù)的分布類型要求較低,模型的擬合效果好,且穩(wěn)健性好,偏差?。?]。因此,基于機器學(xué)習(xí)建立應(yīng)用于體育科學(xué)研究中后測數(shù)據(jù)缺失值的預(yù)測模型是非常有必要的。

本研究以運動對大學(xué)生執(zhí)行控制影響的縱向研究為例,全面地介紹如何應(yīng)用機器學(xué)習(xí)來處理體育科學(xué)研究中的后測數(shù)據(jù)缺失值。執(zhí)行控制是指在認(rèn)知過程中有意識地對自動的、占主導(dǎo)地位的優(yōu)勢反應(yīng)的抑制,包括阻止與情境不適宜的優(yōu)勢反應(yīng)進(jìn)入,終止被部分激活但與目標(biāo)無關(guān)的信息進(jìn)入,抑制不相關(guān)信息的激活[9-10]。執(zhí)行控制作為個體認(rèn)知、情緒和社會功能的核心,對其身心健康發(fā)展有著極其重要的作用[11-13]。尋找改善執(zhí)行控制的有效途徑已成為各個學(xué)科和社會共同關(guān)注的熱點問題。近些年的研究發(fā)現(xiàn),基線有氧適能和基線執(zhí)行控制與后測執(zhí)行控制有著密切的關(guān)系[14-17]。基于此,本研究選擇通過基線有氧適能和基線執(zhí)行控制對后測執(zhí)行控制的缺失值進(jìn)行預(yù)測。

綜上所述,本研究選擇機器學(xué)習(xí)算法建立預(yù)測模型,以基線有氧適能和基線執(zhí)行控制為模型特征,對后測執(zhí)行控制的缺失值進(jìn)行預(yù)測,旨在探索縱向缺失值處理的新方法,為機器學(xué)習(xí)應(yīng)用于體育研究中后測數(shù)據(jù)缺失值的處理提供實踐基礎(chǔ)。

1 方法

1.1 數(shù)據(jù)來源

研究對象為通過網(wǎng)絡(luò)和發(fā)放調(diào)查問卷的方式在揚州某大學(xué)招募的89名(男/女:36/53)在校大學(xué)生。所有研究參與者填寫了身體活動問卷和SCL-90癥狀自評量表,并進(jìn)行了心肺功能檢查,色覺和(矯正)視力正常,研究參與者的生理和心理狀況正常,適合參加本研究。

隨機將所有的研究參與者分為實驗組和對照組,在實驗期間,實驗組進(jìn)行10周有氧運動,對照組進(jìn)行常規(guī)活動。最大攝氧量是能夠反映人體有氧適能水平最直接的指標(biāo)[15],研究選用功率自行車(Elmed EGT 1000)來測量最大攝氧量[16]。使用陳愛國[17]開發(fā)的執(zhí)行控制評價和測量方法,通過Flanker任務(wù)對執(zhí)行控制進(jìn)行測試。評價指標(biāo)為不一致條件下的平均反應(yīng)時減去一致條件下的平均反應(yīng)時,差值越小,執(zhí)行控制越好。

1.2 機器學(xué)習(xí)算法的選擇

研究選擇機器學(xué)習(xí)中的支持向量計算法來建立預(yù)測模型。支持向量機采用結(jié)構(gòu)風(fēng)險最小化原則,在小樣本條件下仍然可以獲得良好的擬合能力[18]。支持向量機模型的最終預(yù)測結(jié)果由少數(shù)支持向量決定,對異常值不敏感,具有較好的“魯棒性”[19],算法也相對簡單。支持向量機還可以通過可靠的已知算法得到目標(biāo)函數(shù)的全局最小值,將學(xué)習(xí)問題表示為凸顯優(yōu)化問題[20]。

2 支持向量機預(yù)測模型

2.1 支持向量機算法

支持向量機算法求解回歸問題是在高維特征空間中進(jìn)行的,高維特征空間中的數(shù)據(jù)是輸入數(shù)據(jù)通過非線性變換后的映射[21]。

設(shè)給定訓(xùn)練集為{(x1,y1),(x2,y2),...,(xn,yn)},n表示訓(xùn)練集數(shù)據(jù)數(shù)量,xi為輸入特征向量,yi為輸出值。設(shè)定目標(biāo)函數(shù):

式中:w和b為支持向量機的參數(shù)。

引入松弛變量ζ≥0和ζ*≥0將目標(biāo)函數(shù)進(jìn)行轉(zhuǎn)換:

約束條件為:

令L(w,b,ζi,ζ*,α,α*,μ,μ*)對w,b,ζi和ζ*i的偏導(dǎo)為零并代入式(3),可得:

支持向量機回歸函數(shù)可以表示為:

可以用核函數(shù)代替內(nèi)積,轉(zhuǎn)換為:

式中: ),(ixxK表示核函數(shù)。

采用高斯徑向基函數(shù)作為核函數(shù),具體表示為:

最終的回歸函數(shù)表示為:

2.2 建模的工作流程

(1)劃分訓(xùn)練集和測試集

將所有樣本集隨機劃分為訓(xùn)練集和測試集,其中訓(xùn)練集為總樣本的80%(n=71),測試集為總樣本的20%(n=18)。

(2)數(shù)據(jù)預(yù)處理

采用標(biāo)準(zhǔn)化方法對數(shù)據(jù)進(jìn)行預(yù)處理,該方法可以加快收斂速度,解決數(shù)據(jù)無量綱化的問題。

式中,x′(i)為第i個樣本的標(biāo)準(zhǔn)化值;x(i)為第i個樣本的實際值。為總樣本的平均值;σ為總樣本的標(biāo)準(zhǔn)差。

(3)根據(jù)訓(xùn)練集建立支持向量機模型,選擇模型評價指標(biāo)

選用均方誤差(RMSE)和決定系數(shù)(R2)來評價后測執(zhí)行控制缺失值預(yù)測模型的性能。

RMSE表示為:

式中,m為樣本總數(shù),y為實際值,y′為預(yù)測值。RMSE越接近零模型性能越高。

R2表示為:

式中,y為實際值,y′為預(yù)測值為實際值的平均值。R2越接近1表示模型性能越高。

(4)使用網(wǎng)格搜索確定模型最優(yōu)參數(shù)

網(wǎng)格搜索通過交叉驗證方法,將估計函數(shù)中每一個參數(shù)的所有可能取值都分別生成一個列表,然后把每個列表中的值都進(jìn)行組合,所有的組合結(jié)果就生成了“網(wǎng)格”,以此將學(xué)習(xí)算法優(yōu)化至最佳。在擬合函數(shù)嘗試了所有的組合結(jié)果后,返回一個最合適的學(xué)習(xí)器,自動調(diào)整至最佳參數(shù)組合。

(5)輸入測試集對后測執(zhí)行控制缺失值預(yù)測模型的性能進(jìn)行測試和分析。

綜上可知,建立基于機器學(xué)習(xí)的后測執(zhí)行控制缺失值預(yù)測模型的工作流程如圖1所示。

圖1 后測執(zhí)行控制缺失值預(yù)測模型的工作流程Fig.1 The workflow of prediction model of missing values on executive control at post-test

3 結(jié)果

執(zhí)行控制的評價指標(biāo)是不一致條件下的平均反應(yīng)時減去一致條件下的平均反應(yīng)時得出的差值。因此,執(zhí)行控制的缺失意味著一致條件下的平均反應(yīng)時或者不一致條件下的平均反應(yīng)時存在缺失。本研究將執(zhí)行控制缺失值的預(yù)測模型分為一致條件下的平均反應(yīng)時預(yù)測模型和不一致條件下的平均反應(yīng)時預(yù)測模型,通過這兩個模型更加細(xì)致精確地預(yù)測執(zhí)行控制的缺失值。此外,為了展現(xiàn)出后測執(zhí)行控制缺失值預(yù)測模型的優(yōu)越性,選擇插補方法中常用的回歸替換法和均值替換法與預(yù)測結(jié)果進(jìn)行對比。

3.1 一致條件下的平均反應(yīng)時預(yù)測結(jié)果

圖2為預(yù)測模型對測試集數(shù)據(jù)中一致條件下的平均反應(yīng)時預(yù)測的結(jié)果。從圖2可以看出,一致條件下的平均反應(yīng)時的實際值和預(yù)測值有多點近乎重合,相差很小。預(yù)測模型獲得了理想的預(yù)測結(jié)果,驗證了該模型的有效性。

圖2 一致條件下的平均反應(yīng)時預(yù)測結(jié)果Fig.2 The predicted results of average reaction time under congruent conditions

表1為預(yù)測模型、回歸替換和均值替換三種方法對一致條件下的平均反應(yīng)時缺失值進(jìn)行處理后的結(jié)果對比。從表1可以看出,預(yù)測模型方法的最大絕對誤差為20.86 ms,最大誤差率為4.87%,平均絕對誤差為11.32 ms,平均誤差率為2.41%,都低于回歸替換法和均值替換法?;貧w替換法的各項誤差指標(biāo)全部低于均值替換法。

表1 不同方法處理一致條件下的平均反應(yīng)時缺失值的結(jié)果比較Table 1 Comparison of the results of the missing values of the average reaction time under congruent conditions by different methods

3.2 不一致條件下的平均反應(yīng)時預(yù)測結(jié)果

圖3為預(yù)測模型對測試集數(shù)據(jù)中不一致條件下的平均反應(yīng)時預(yù)測的結(jié)果。從圖3可以看出,不一致條件下的平均反應(yīng)時的實際值與預(yù)測值同樣相差很小,擬合效果很好。預(yù)測模型可以描述測試集中數(shù)據(jù)的變化趨勢。

圖3 不一致條件下的平均反應(yīng)時預(yù)測結(jié)果Fig.3 The prediction result of average reaction time under incongruent conditions

表2為預(yù)測模型、回歸替換和均值替換三種方法對不一致條件下的平均反應(yīng)時缺失值進(jìn)行處理后的結(jié)果對比。從表2可以看出,預(yù)測模型方法有著很大的優(yōu)越性,其最大絕對誤差為44.54 ms,最大誤差率為7.19%,平均絕對誤差為16.6 ms,平均誤差率為3.02%,在各項誤差指標(biāo)上都比回歸替換方法和均值替換方法低。當(dāng)數(shù)據(jù)發(fā)生較大的波動時,均值替換法不能很好描述這種變化趨勢,從而產(chǎn)生了較大的絕對誤差。

表2 不同方法處理不一致條件下的平均反應(yīng)時缺失值的結(jié)果比較Table 2 Comparison of the results of the missing values of the average reaction time under incongruent conditions by different methods

3.3 模型評價指標(biāo)

表3為一致條件下的平均反應(yīng)時預(yù)測模型和不一致條件下的平均反應(yīng)時預(yù)測模型的RMSE和R2。結(jié)果表明,兩個模型的決定系數(shù)分別達(dá)到0.96和0.95,都大于0.85,這證明兩個模型都很可靠。因為一致條件下的平均反應(yīng)時實際樣本值本身較小,所以在決定系數(shù)相差不大的情況下,不一致條件下的平均反應(yīng)時預(yù)測模型的均方誤差高于一致條件下的平均反應(yīng)時預(yù)測模型的均方誤差。

表3 模型評價指標(biāo)Table 3 Model evaluation index

4 結(jié)論

本研究以運動對大學(xué)生執(zhí)行控制影響的縱向研究為例,提出和驗證了一種基于機器學(xué)習(xí)的縱向缺失值處理新方法,可以有效地解決體育科學(xué)研究中的后測數(shù)據(jù)缺失值問題,為今后機器學(xué)習(xí)應(yīng)用于體育科學(xué)研究中的后測數(shù)據(jù)缺失值處理提供了實踐基礎(chǔ)。

猜你喜歡
向量機器條件
機器狗
向量的分解
機器狗
排除多余的條件
聚焦“向量與三角”創(chuàng)新題
選擇合適的條件
未來機器城
為什么夏天的雨最多
向量垂直在解析幾何中的應(yīng)用
向量五種“變身” 玩轉(zhuǎn)圓錐曲線
墨竹工卡县| 施甸县| 张家港市| 常宁市| 洞口县| 开化县| 乾安县| 开江县| 平泉县| 襄城县| 大荔县| 涿鹿县| 龙井市| 东辽县| 绩溪县| 德化县| 闵行区| 进贤县| 宜都市| 信阳市| 响水县| 芮城县| 堆龙德庆县| 永昌县| 芷江| 资源县| 扎兰屯市| 镇巴县| 高州市| 平陆县| 许昌市| 扎囊县| 鞍山市| 民县| 乌拉特中旗| 遵义市| 青铜峡市| 荃湾区| 绿春县| 娄底市| 乌拉特中旗|