孫志遠(yuǎn),陳愛國,2,熊 軒,朱 昊,史一凡
(1.揚州大學(xué)體育學(xué)院,江蘇揚州225127;2.揚州大學(xué)體育運動與腦科學(xué)研究所,江蘇揚州225127)
近年來,隨著體育科學(xué)研究的不斷深入,縱向?qū)嶒炑芯吭隗w育科學(xué)研究中越來越多,但在研究過程中由于外界因素干擾或研究參與者自身原因等,后測數(shù)據(jù)容易缺失。如果不能可靠地處理缺失數(shù)據(jù),將導(dǎo)致分析結(jié)果產(chǎn)生潛在的偏差,甚至?xí)贸稣`導(dǎo)性的結(jié)論[1]。以往采用按照一定規(guī)律,選擇合理的數(shù)據(jù)對缺失數(shù)據(jù)進(jìn)行替換的插補方法來處理缺失值,得到“完全數(shù)據(jù)集”后,再使用數(shù)據(jù)統(tǒng)計方法對數(shù)據(jù)進(jìn)行統(tǒng)計分析與統(tǒng)計推斷[2]。常用的插補方法有回歸替換法、均值替換法和多重替代法等。但插補方法的選擇會受到缺失數(shù)據(jù)的比例、變量間的關(guān)聯(lián)度和時間限制等因素的影響,并且在不同的數(shù)據(jù)缺失模式和分布模式下,選擇不適合的插補方法仍然會使數(shù)據(jù)產(chǎn)生偏離,得出錯誤的結(jié)果[3]。如何科學(xué)可靠地處理后測數(shù)據(jù)的缺失值,成為一個擺在研究者面前需要解決的難題。
機器學(xué)習(xí)是一門多領(lǐng)域交叉學(xué)科,專門研究計算機如何模擬或?qū)崿F(xiàn)人類的學(xué)習(xí)行為,以獲取新的知識或技能,重新組織已有的知識結(jié)構(gòu)使之不斷改善自身的性能[4]。隨著人工智能浪潮的到來,作為人工智能核心的機器學(xué)習(xí)被廣泛應(yīng)用于各個學(xué)科領(lǐng)域。臨床醫(yī)學(xué)使用機器學(xué)習(xí)算法建立疾病診斷、療效判斷預(yù)測模型[5];電氣工程領(lǐng)域通過機器學(xué)習(xí)算法對短期電力負(fù)荷進(jìn)行預(yù)測[6];經(jīng)濟(jì)學(xué)把機器學(xué)習(xí)應(yīng)用于復(fù)雜經(jīng)濟(jì)和金融網(wǎng)絡(luò)中[7]。機器學(xué)習(xí)在預(yù)測中的可靠性受到各大領(lǐng)域的強烈響應(yīng)。相比之下,在將機器學(xué)習(xí)如何應(yīng)用于處理體育科學(xué)研究中的后測數(shù)據(jù)缺失值方面尚無針對性研究;與常用的一些插補法處理缺失值相比,機器學(xué)習(xí)建立的預(yù)測模型適合任意缺失模式,對數(shù)據(jù)的分布類型要求較低,模型的擬合效果好,且穩(wěn)健性好,偏差?。?]。因此,基于機器學(xué)習(xí)建立應(yīng)用于體育科學(xué)研究中后測數(shù)據(jù)缺失值的預(yù)測模型是非常有必要的。
本研究以運動對大學(xué)生執(zhí)行控制影響的縱向研究為例,全面地介紹如何應(yīng)用機器學(xué)習(xí)來處理體育科學(xué)研究中的后測數(shù)據(jù)缺失值。執(zhí)行控制是指在認(rèn)知過程中有意識地對自動的、占主導(dǎo)地位的優(yōu)勢反應(yīng)的抑制,包括阻止與情境不適宜的優(yōu)勢反應(yīng)進(jìn)入,終止被部分激活但與目標(biāo)無關(guān)的信息進(jìn)入,抑制不相關(guān)信息的激活[9-10]。執(zhí)行控制作為個體認(rèn)知、情緒和社會功能的核心,對其身心健康發(fā)展有著極其重要的作用[11-13]。尋找改善執(zhí)行控制的有效途徑已成為各個學(xué)科和社會共同關(guān)注的熱點問題。近些年的研究發(fā)現(xiàn),基線有氧適能和基線執(zhí)行控制與后測執(zhí)行控制有著密切的關(guān)系[14-17]。基于此,本研究選擇通過基線有氧適能和基線執(zhí)行控制對后測執(zhí)行控制的缺失值進(jìn)行預(yù)測。
綜上所述,本研究選擇機器學(xué)習(xí)算法建立預(yù)測模型,以基線有氧適能和基線執(zhí)行控制為模型特征,對后測執(zhí)行控制的缺失值進(jìn)行預(yù)測,旨在探索縱向缺失值處理的新方法,為機器學(xué)習(xí)應(yīng)用于體育研究中后測數(shù)據(jù)缺失值的處理提供實踐基礎(chǔ)。
研究對象為通過網(wǎng)絡(luò)和發(fā)放調(diào)查問卷的方式在揚州某大學(xué)招募的89名(男/女:36/53)在校大學(xué)生。所有研究參與者填寫了身體活動問卷和SCL-90癥狀自評量表,并進(jìn)行了心肺功能檢查,色覺和(矯正)視力正常,研究參與者的生理和心理狀況正常,適合參加本研究。
隨機將所有的研究參與者分為實驗組和對照組,在實驗期間,實驗組進(jìn)行10周有氧運動,對照組進(jìn)行常規(guī)活動。最大攝氧量是能夠反映人體有氧適能水平最直接的指標(biāo)[15],研究選用功率自行車(Elmed EGT 1000)來測量最大攝氧量[16]。使用陳愛國[17]開發(fā)的執(zhí)行控制評價和測量方法,通過Flanker任務(wù)對執(zhí)行控制進(jìn)行測試。評價指標(biāo)為不一致條件下的平均反應(yīng)時減去一致條件下的平均反應(yīng)時,差值越小,執(zhí)行控制越好。
研究選擇機器學(xué)習(xí)中的支持向量計算法來建立預(yù)測模型。支持向量機采用結(jié)構(gòu)風(fēng)險最小化原則,在小樣本條件下仍然可以獲得良好的擬合能力[18]。支持向量機模型的最終預(yù)測結(jié)果由少數(shù)支持向量決定,對異常值不敏感,具有較好的“魯棒性”[19],算法也相對簡單。支持向量機還可以通過可靠的已知算法得到目標(biāo)函數(shù)的全局最小值,將學(xué)習(xí)問題表示為凸顯優(yōu)化問題[20]。
支持向量機算法求解回歸問題是在高維特征空間中進(jìn)行的,高維特征空間中的數(shù)據(jù)是輸入數(shù)據(jù)通過非線性變換后的映射[21]。
設(shè)給定訓(xùn)練集為{(x1,y1),(x2,y2),...,(xn,yn)},n表示訓(xùn)練集數(shù)據(jù)數(shù)量,xi為輸入特征向量,yi為輸出值。設(shè)定目標(biāo)函數(shù):
式中:w和b為支持向量機的參數(shù)。
引入松弛變量ζ≥0和ζ*≥0將目標(biāo)函數(shù)進(jìn)行轉(zhuǎn)換:
約束條件為:
令L(w,b,ζi,ζ*,α,α*,μ,μ*)對w,b,ζi和ζ*i的偏導(dǎo)為零并代入式(3),可得:
支持向量機回歸函數(shù)可以表示為:
可以用核函數(shù)代替內(nèi)積,轉(zhuǎn)換為:
式中: ),(ixxK表示核函數(shù)。
采用高斯徑向基函數(shù)作為核函數(shù),具體表示為:
最終的回歸函數(shù)表示為:
(1)劃分訓(xùn)練集和測試集
將所有樣本集隨機劃分為訓(xùn)練集和測試集,其中訓(xùn)練集為總樣本的80%(n=71),測試集為總樣本的20%(n=18)。
(2)數(shù)據(jù)預(yù)處理
采用標(biāo)準(zhǔn)化方法對數(shù)據(jù)進(jìn)行預(yù)處理,該方法可以加快收斂速度,解決數(shù)據(jù)無量綱化的問題。
式中,x′(i)為第i個樣本的標(biāo)準(zhǔn)化值;x(i)為第i個樣本的實際值。為總樣本的平均值;σ為總樣本的標(biāo)準(zhǔn)差。
(3)根據(jù)訓(xùn)練集建立支持向量機模型,選擇模型評價指標(biāo)
選用均方誤差(RMSE)和決定系數(shù)(R2)來評價后測執(zhí)行控制缺失值預(yù)測模型的性能。
RMSE表示為:
式中,m為樣本總數(shù),y為實際值,y′為預(yù)測值。RMSE越接近零模型性能越高。
R2表示為:
式中,y為實際值,y′為預(yù)測值為實際值的平均值。R2越接近1表示模型性能越高。
(4)使用網(wǎng)格搜索確定模型最優(yōu)參數(shù)
網(wǎng)格搜索通過交叉驗證方法,將估計函數(shù)中每一個參數(shù)的所有可能取值都分別生成一個列表,然后把每個列表中的值都進(jìn)行組合,所有的組合結(jié)果就生成了“網(wǎng)格”,以此將學(xué)習(xí)算法優(yōu)化至最佳。在擬合函數(shù)嘗試了所有的組合結(jié)果后,返回一個最合適的學(xué)習(xí)器,自動調(diào)整至最佳參數(shù)組合。
(5)輸入測試集對后測執(zhí)行控制缺失值預(yù)測模型的性能進(jìn)行測試和分析。
綜上可知,建立基于機器學(xué)習(xí)的后測執(zhí)行控制缺失值預(yù)測模型的工作流程如圖1所示。
圖1 后測執(zhí)行控制缺失值預(yù)測模型的工作流程Fig.1 The workflow of prediction model of missing values on executive control at post-test
執(zhí)行控制的評價指標(biāo)是不一致條件下的平均反應(yīng)時減去一致條件下的平均反應(yīng)時得出的差值。因此,執(zhí)行控制的缺失意味著一致條件下的平均反應(yīng)時或者不一致條件下的平均反應(yīng)時存在缺失。本研究將執(zhí)行控制缺失值的預(yù)測模型分為一致條件下的平均反應(yīng)時預(yù)測模型和不一致條件下的平均反應(yīng)時預(yù)測模型,通過這兩個模型更加細(xì)致精確地預(yù)測執(zhí)行控制的缺失值。此外,為了展現(xiàn)出后測執(zhí)行控制缺失值預(yù)測模型的優(yōu)越性,選擇插補方法中常用的回歸替換法和均值替換法與預(yù)測結(jié)果進(jìn)行對比。
圖2為預(yù)測模型對測試集數(shù)據(jù)中一致條件下的平均反應(yīng)時預(yù)測的結(jié)果。從圖2可以看出,一致條件下的平均反應(yīng)時的實際值和預(yù)測值有多點近乎重合,相差很小。預(yù)測模型獲得了理想的預(yù)測結(jié)果,驗證了該模型的有效性。
圖2 一致條件下的平均反應(yīng)時預(yù)測結(jié)果Fig.2 The predicted results of average reaction time under congruent conditions
表1為預(yù)測模型、回歸替換和均值替換三種方法對一致條件下的平均反應(yīng)時缺失值進(jìn)行處理后的結(jié)果對比。從表1可以看出,預(yù)測模型方法的最大絕對誤差為20.86 ms,最大誤差率為4.87%,平均絕對誤差為11.32 ms,平均誤差率為2.41%,都低于回歸替換法和均值替換法?;貧w替換法的各項誤差指標(biāo)全部低于均值替換法。
表1 不同方法處理一致條件下的平均反應(yīng)時缺失值的結(jié)果比較Table 1 Comparison of the results of the missing values of the average reaction time under congruent conditions by different methods
圖3為預(yù)測模型對測試集數(shù)據(jù)中不一致條件下的平均反應(yīng)時預(yù)測的結(jié)果。從圖3可以看出,不一致條件下的平均反應(yīng)時的實際值與預(yù)測值同樣相差很小,擬合效果很好。預(yù)測模型可以描述測試集中數(shù)據(jù)的變化趨勢。
圖3 不一致條件下的平均反應(yīng)時預(yù)測結(jié)果Fig.3 The prediction result of average reaction time under incongruent conditions
表2為預(yù)測模型、回歸替換和均值替換三種方法對不一致條件下的平均反應(yīng)時缺失值進(jìn)行處理后的結(jié)果對比。從表2可以看出,預(yù)測模型方法有著很大的優(yōu)越性,其最大絕對誤差為44.54 ms,最大誤差率為7.19%,平均絕對誤差為16.6 ms,平均誤差率為3.02%,在各項誤差指標(biāo)上都比回歸替換方法和均值替換方法低。當(dāng)數(shù)據(jù)發(fā)生較大的波動時,均值替換法不能很好描述這種變化趨勢,從而產(chǎn)生了較大的絕對誤差。
表2 不同方法處理不一致條件下的平均反應(yīng)時缺失值的結(jié)果比較Table 2 Comparison of the results of the missing values of the average reaction time under incongruent conditions by different methods
表3為一致條件下的平均反應(yīng)時預(yù)測模型和不一致條件下的平均反應(yīng)時預(yù)測模型的RMSE和R2。結(jié)果表明,兩個模型的決定系數(shù)分別達(dá)到0.96和0.95,都大于0.85,這證明兩個模型都很可靠。因為一致條件下的平均反應(yīng)時實際樣本值本身較小,所以在決定系數(shù)相差不大的情況下,不一致條件下的平均反應(yīng)時預(yù)測模型的均方誤差高于一致條件下的平均反應(yīng)時預(yù)測模型的均方誤差。
表3 模型評價指標(biāo)Table 3 Model evaluation index
本研究以運動對大學(xué)生執(zhí)行控制影響的縱向研究為例,提出和驗證了一種基于機器學(xué)習(xí)的縱向缺失值處理新方法,可以有效地解決體育科學(xué)研究中的后測數(shù)據(jù)缺失值問題,為今后機器學(xué)習(xí)應(yīng)用于體育科學(xué)研究中的后測數(shù)據(jù)缺失值處理提供了實踐基礎(chǔ)。