周義 陳婕 孟翔 汪小蕓 張豹
收稿日期:2023-06-27
基金項目:貴州省2022年省級大學(xué)生創(chuàng)新創(chuàng)業(yè)訓(xùn)練計劃項目(S202214440127)
DOI:10.19850/j.cnki.2096-4706.2024.04.009
摘? 要:體質(zhì)測試作為反饋大學(xué)生體質(zhì)健康水平的根本途徑,為高校開展學(xué)生健康干預(yù)工作提供了數(shù)據(jù)支撐,但如何對體測數(shù)據(jù)進行科學(xué)分析及合理使用也變得尤為重要。文章通過數(shù)據(jù)挖掘技術(shù)研究大學(xué)生體測數(shù)據(jù),分別采用決策樹、樸素貝葉斯、貝葉斯神經(jīng)網(wǎng)絡(luò)對體測數(shù)據(jù)進行預(yù)測,結(jié)果顯示,貝葉斯神經(jīng)網(wǎng)絡(luò)的預(yù)測準(zhǔn)確率最高。利用CART決策樹對體測數(shù)據(jù)進行分類,由此可得到最優(yōu)決策樹,由最優(yōu)決策樹分析影響大學(xué)生體質(zhì)水平的重要因素,進一步探討體測成績對大學(xué)生身體素質(zhì)的影響和作用,從而提高大學(xué)生參與校園運動的熱情和興趣。
關(guān)鍵詞:數(shù)據(jù)挖掘;決策樹;樸素貝葉斯;貝葉斯神經(jīng)網(wǎng)絡(luò);校園運動
中圖分類號:TP391? 文獻標(biāo)識碼:A? 文章編號:2096-4706(2024)04-0041-05
Research on Campus Sports Based on Data Mining
ZHOU Yi, CHEN Jie, MENG Xiang, WANG Xiaoyun, ZHANG Bao
(Science College, Guizhou Institute of Technology, Guiyang? 550003, China)
Abstract: Physical fitness testing, as the fundamental way to provide feedback on the physical health level of college students, provides data support for universities to carry out student health intervention work. However, it has become particularly important to scientifically analyze and reasonably use physical fitness data. This paper uses data mining techniques to study the physical measurement data of college students, and uses decision trees, naive Bayes, and Bayesian neural networks to predict the physical measurement data. The results show that Bayesian neural networks have the highest prediction accuracy. By using the CART decision tree to classify physical testing data, the optimal decision tree can be obtained. It analyzes the important factors that affect the physical fitness level of college students through the optimal decision tree, further explore the impact and role of physical testing scores on the physical fitness of college students, and thereby enhance their enthusiasm and interest in participating in campus sports.
Keywords: data mining; Decision Tree; naive Bayes; Bayesian Neural Networks; campus sports
0? 引? 言
隨著數(shù)據(jù)挖掘技術(shù)的更新迭代,使用數(shù)據(jù)挖掘工具對高校學(xué)生的體測數(shù)據(jù)進行挖掘和處理已成為一種新的發(fā)展趨勢。在我國,對此展開了多方面的研究,比如利用Clementine 12.0數(shù)據(jù)挖掘軟件分析高校學(xué)生體測中各項指標(biāo)之間的關(guān)聯(lián)規(guī)則[1],從而對各個指標(biāo)的影響因素做出判斷。本文運用Jupyter Lab數(shù)據(jù)挖掘軟件對大學(xué)生體測數(shù)據(jù)進行分類分析。由于高校學(xué)生體測數(shù)據(jù)的數(shù)量較為龐大,而數(shù)據(jù)挖掘工具在此方面的應(yīng)用也并未成熟,尤其是缺乏高效的數(shù)據(jù)挖掘算法,基于此,本文擬對大學(xué)生體測數(shù)據(jù)進行特征分析,并運用決策樹算法、樸素貝葉斯算法以及貝葉斯神經(jīng)網(wǎng)絡(luò)算法,有效降低數(shù)據(jù)計算量,提升預(yù)測準(zhǔn)確度,并將這些算法應(yīng)用到對大學(xué)生體測數(shù)據(jù)的挖掘分析之中,從多維角度實現(xiàn)對大學(xué)生身心狀況的測試和評價。這有助于引導(dǎo)大學(xué)生轉(zhuǎn)變“重文輕體”的思想觀念,提高大學(xué)生身體素質(zhì),促進學(xué)生德智體美勞全面發(fā)展[2]。
1? 基于分類算法的數(shù)據(jù)挖掘
數(shù)據(jù)挖掘是一個從紛亂龐雜到協(xié)調(diào)有序的有效信息提取過程,是充分挖掘數(shù)據(jù)價值的過程[3],也是統(tǒng)計分析的延伸和擴展,涉及多種技術(shù)和方法,如神經(jīng)網(wǎng)絡(luò)、決策樹、模糊算法、關(guān)聯(lián)規(guī)則法等。隨著數(shù)據(jù)挖掘技術(shù)在諸多領(lǐng)域的廣泛應(yīng)用,數(shù)據(jù)挖掘理論逐漸形成,并以數(shù)據(jù)挖掘過程規(guī)范和數(shù)據(jù)挖掘技術(shù)為核心內(nèi)容。數(shù)據(jù)挖掘的應(yīng)用涵蓋商業(yè)、醫(yī)療、金融、教育、政府等多個領(lǐng)域,可以應(yīng)用于市場營銷分析、疾病預(yù)測和診斷、信用評估和風(fēng)險管理、教育評估和決策支持、政府決策和公共服務(wù)等方面。數(shù)據(jù)挖掘的持續(xù)發(fā)展,不僅為我們提供了更多富有價值的信息,也為我們提供了更多的機會。
1.1? CART決策樹
CART決策樹是一種可以從復(fù)雜、不規(guī)則數(shù)據(jù)中找出最優(yōu)數(shù)據(jù)的分類模型,其形式主要是建立一個二分枝模型,從而對復(fù)雜的數(shù)據(jù)進行最優(yōu)決策分類,并通過分類實現(xiàn)數(shù)據(jù)預(yù)測。該算法的分類主要是通過計算Gini系數(shù)選取屬性集中的某個屬性,將當(dāng)前待分類的樣本集分為兩個子樣本集,并循環(huán)往復(fù)此步驟,直至當(dāng)前待分類的樣本集被判定為葉節(jié)點或達到停止分類的條件[4-6]。
CART決策樹選取的分裂屬性為基尼系數(shù),假設(shè)類的總數(shù)為J,P表示特征,Pj表示第j個特征在樣本總數(shù)中所占的比例,則基尼系數(shù)的計算式為:
(1)
樣本集合M的基尼系數(shù)為:
(2)
其中,| M |表示集合M總樣本數(shù),| Cj |表示集合M中屬性為j的樣本子集數(shù),基尼系數(shù)Gini(M)表示集合M的不確定性。
1.2? 樸素貝葉斯
樸素貝葉斯的目標(biāo)是通過訓(xùn)練數(shù)據(jù)集學(xué)習(xí)聯(lián)合概率分布P(X,Y),并由貝葉斯定理將聯(lián)合概率轉(zhuǎn)化為先驗概率分布和條件概率分布之積[7]。給定數(shù)據(jù)集T = {(x1, y1), (x2, y2), …, (xn, yn)},其中N表示樣本總數(shù),xi = (xi(1), xi(2), …, xi(n))T是一個n維向量,yi ∈ {c1, c2, …, ck},k表示標(biāo)簽類別數(shù)。首先計算先驗概率:
(3)
再給出條件概率:
(4)
由式(2)可以看出,條件概率有指數(shù)級的參數(shù)數(shù)目,直接計算的工作量巨大,而貝葉斯關(guān)于條件概率提出一個條件獨立的假設(shè),即:
(5)
對于給定數(shù)據(jù)x = (x(1), x(2), …, x(M))T,聯(lián)立(1)(3)可得:
(6)
在分類時,樸素貝葉斯通過學(xué)習(xí)到的模型將后驗概率最大的類作為x的類輸出[8],最終的分類函數(shù)為:
(7)
1.3? 貝葉斯神經(jīng)網(wǎng)絡(luò)
隨著深度學(xué)習(xí)的不斷發(fā)展,神經(jīng)網(wǎng)絡(luò)因其強大的非線性擬合能力而備受關(guān)注。其中,貝葉斯神經(jīng)網(wǎng)絡(luò)是一種將貝葉斯理論和神經(jīng)網(wǎng)絡(luò)融合在一起進行數(shù)據(jù)挖掘的方法。它的優(yōu)點在于將不確定性考慮在內(nèi)使模型更加可靠。具體來說,貝葉斯神經(jīng)網(wǎng)絡(luò)是在貝葉斯原理的基礎(chǔ)上引入了神經(jīng)網(wǎng)絡(luò)的權(quán)值,在權(quán)值的后驗概率下進一步優(yōu)化目標(biāo)函數(shù),并利用權(quán)值的最大后驗概率來計算神經(jīng)網(wǎng)絡(luò)的權(quán)值,進而構(gòu)建一種新型的貝葉斯神經(jīng)網(wǎng)絡(luò)建模。這個模型在處理小數(shù)據(jù)集、避免過擬合和提高模型泛化能力方面具有優(yōu)勢。一個神經(jīng)網(wǎng)絡(luò)模型可以視為一個條件分布模型P( y | x, w),其中y表示標(biāo)簽數(shù)據(jù),x表示輸入數(shù)據(jù),w表示神經(jīng)網(wǎng)絡(luò)的權(quán)值,D表示數(shù)據(jù)集,將輸入數(shù)據(jù)轉(zhuǎn)換為高斯分布以獲得更高可能性的參數(shù)。
(8)
通過最大似然估計(MLE)方法最大化后驗概率獲得參數(shù)點估計:
(9)
在最大似然估計中,將w取不同值概率視為相等,即并不對w做出先驗估計。如果為w引入先驗估計,就變成最大后驗估計(MAP)[9]:
(10)
按照已知的先驗分布,基于貝葉斯原理對神經(jīng)網(wǎng)絡(luò)的不確定因素進行分析,得到網(wǎng)絡(luò)結(jié)構(gòu)的后驗概率,使得后驗概率最大的網(wǎng)絡(luò)參數(shù)是最優(yōu)的。
2? 數(shù)據(jù)處理
2.1? 數(shù)據(jù)的相關(guān)性分析
由于男、女生的體測項目和成績評判標(biāo)準(zhǔn)有所不同,需按性別將數(shù)據(jù)集分成兩組。在進行具體的分析之前,需要對分類得到的數(shù)據(jù)集進行數(shù)據(jù)的相關(guān)性分析,檢測數(shù)據(jù)集中體測項目與最終成績之間的關(guān)系。本文使用皮爾遜相關(guān)系數(shù)來檢驗不同特征之間的相關(guān)性,假設(shè)有兩個變量X、Y,兩個變量之間的皮爾遜相關(guān)系數(shù)計算式為:
(11)
其中,cov表示變量之間的協(xié)方差,σ表示標(biāo)準(zhǔn)差,E表示期望。相關(guān)系數(shù)的符號“+”“-”分別表示正相關(guān)、負相關(guān),值的大小代表了兩個變量之間影響關(guān)系的強弱程度。
從表1男性相關(guān)性分析中可以看出,各個項目之間的相關(guān)性不是太強,有益于神經(jīng)網(wǎng)絡(luò)訓(xùn)練。此外,圖中最后一列,即總分等級與各測試項目之間的相關(guān)系數(shù)中,1 000米測試與總分等級的相關(guān)性最大,表明1 000米測試對總分等級的影響因子最大,而立定跳遠、引體向上和50米測試對總分等級的影響也較大。
從表2女性相關(guān)性分析中可以看出,50米測試和800米測試之間存在較強的相關(guān)性,而其余各個項目之間的相關(guān)性并不是太強。此外,圖中最后一列,即總分等級與各測試項目之間的相關(guān)系數(shù)中,800米測試和50米測試的成績與總分等級的相關(guān)性很大,表明對于女生來說,短、長跑測試對總分等級的影響因子最大。
2.2? 數(shù)據(jù)的歸一化處理
歸一化是將數(shù)據(jù)的絕對數(shù)值轉(zhuǎn)化為相對數(shù)值的一種線性尺度變換過程。通常,神經(jīng)網(wǎng)絡(luò)的隱層采用Sigmoid轉(zhuǎn)換函數(shù),為提高訓(xùn)練速度和靈敏性以及有效避開Sigmoid函數(shù)的飽和區(qū),一般要求輸入數(shù)據(jù)的值在0~1之間[10]。為確保所構(gòu)建的模型具備一定的外推功能,需要將預(yù)處理數(shù)據(jù)的值控制在0.2~0.8之間?;诖?,本文采用標(biāo)準(zhǔn)差方法對樣本數(shù)據(jù)進行歸一化處理,即:
(12)
其中,μ表示向量x的均值,σ表示向量x的標(biāo)準(zhǔn)差,使原始體測數(shù)據(jù)在0~1之間變化。
3? 模型預(yù)測結(jié)果分析及比較
3.1? 歸一化數(shù)據(jù)與原始數(shù)據(jù)對比
貝葉斯神經(jīng)網(wǎng)絡(luò)輸入歸一化是對神經(jīng)網(wǎng)絡(luò)輸入數(shù)據(jù)進行處理的方法。樣本數(shù)據(jù)歸一化處理后,模型在訓(xùn)練集上的準(zhǔn)確率經(jīng)過500次迭代后,收斂至90%左右,而未經(jīng)歸一化處理的原始數(shù)據(jù),經(jīng)過500次迭代后仍未收斂。因此,在求解精度上,歸一化處理后的數(shù)據(jù)經(jīng)過模型計算優(yōu)于未歸一化的數(shù)據(jù)[11],模型測試結(jié)果表明,輸入向量各分量經(jīng)歸一化處理后,預(yù)測效果優(yōu)于轉(zhuǎn)化前的數(shù)據(jù),如圖1所示。
圖1? 歸一化與未歸一化數(shù)據(jù)對比
3.2? CART決策樹結(jié)果分析
文中使用JupyterLab實現(xiàn)CART決策樹的編程,將大學(xué)生體測原始數(shù)據(jù)導(dǎo)入處理,獲得男、女生最優(yōu)決策樹,結(jié)果如圖2、圖3所示。
從圖2來看,在男生體測數(shù)據(jù)的訓(xùn)練集中有7 748
個數(shù)據(jù),劃分為4個類別,數(shù)量分別為2 483、5、
5 043、213,對應(yīng)的標(biāo)簽分別是不及格、優(yōu)秀、及格、良好,其中及格的數(shù)量最多。此外,Gini系數(shù)表示樣本的不確定性,Gini的值越大,表明樣本集合的不確定性越大[12]。而決策樹會把Gini系數(shù)下降最快的特征作為根節(jié)點,所以選擇1 000米測試作為第一個根節(jié)點,表明1 000米測試是影響男生體測成績的第一要素,而立定跳遠和引體向上也是影響男生體測成績的重要因素。
從圖3來看,在女生體測數(shù)據(jù)的訓(xùn)練集中有2 195
個數(shù)據(jù),劃分為4個類別,數(shù)量分別為312、1、
1 747、135,對應(yīng)的標(biāo)簽分別是不及格、優(yōu)秀、及格、良好,其中及格的數(shù)量最多。而決策樹會把Gini系數(shù)下降最快的特征作為根節(jié)點,所以選擇800米測試作為第一個根節(jié)點,表明800米測試是影響女生體測成績的第一要素,而50米測試也是影響女生體測成績的重要因素。
3.3? 決策樹、樸素貝葉斯與貝葉斯神經(jīng)網(wǎng)絡(luò)比較
在本實驗中,選用決策樹、樸素貝葉斯和貝葉斯神經(jīng)網(wǎng)絡(luò)三種分類器進行對比。選擇數(shù)據(jù)集中80%的樣本作為訓(xùn)練樣本集,剩下20%的樣本用作測試樣本集,將選區(qū)的訓(xùn)練集數(shù)據(jù)作為輸出,帶入貝葉斯神經(jīng)網(wǎng)絡(luò)中,用訓(xùn)練好的網(wǎng)絡(luò)對測試集數(shù)據(jù)進行分類,并分析分類效果。最后,將相同的訓(xùn)練集數(shù)據(jù)和測試集數(shù)據(jù)分別帶入決策樹和高斯樸素貝葉斯進行性能對比,實驗結(jié)果如表3和表4所示。
從結(jié)果可以看出,取同樣的數(shù)據(jù)和特征,在預(yù)測男、女生的體測成績中,貝葉斯神經(jīng)網(wǎng)絡(luò)的準(zhǔn)確率達到93%以上,比決策樹和樸素貝葉斯的準(zhǔn)確率都高;從精確率上看,貝葉斯神經(jīng)網(wǎng)絡(luò)的預(yù)測結(jié)果也高于決策樹和樸素貝葉斯。說明貝葉斯神經(jīng)網(wǎng)絡(luò)在分類準(zhǔn)確率和精確率兩個方面均優(yōu)于決策樹和樸素貝葉斯。
貝葉斯神經(jīng)網(wǎng)絡(luò)適用于具有復(fù)雜輸入輸出關(guān)系的數(shù)據(jù)挖掘,且預(yù)測時不需要建立精確的數(shù)學(xué)模型。通過對實驗數(shù)據(jù)的歸一化處理,顯著提高了網(wǎng)絡(luò)模型的求解效率,同時,該模型能夠通過分析大樣本數(shù)據(jù)來確定影響學(xué)生體測成績的關(guān)鍵因素,并對這些因素之間的相關(guān)性進行定量分析,具有較好的泛化能力。與決策樹相比,貝葉斯神經(jīng)網(wǎng)絡(luò)不僅具備優(yōu)良的非線性性能,還具備貝葉斯后驗概率的真實性。
表3? 不同算法對于男生體測成績預(yù)測結(jié)果的對比
算法 指標(biāo)
準(zhǔn)確率 精確率 召回率
決策樹 0.868 4 ± 0.007 2 81.32 83.13
樸素貝葉斯 0.889 0 ± 0.004 7 88.82 80.29
貝葉斯神經(jīng)網(wǎng)絡(luò) 0.934 5 ± 0.004 3 88.91 81.45
表4? 不同算法對于女生體測成績預(yù)測結(jié)果的對比
算法 指標(biāo)
準(zhǔn)確率 精確率 召回率
決策樹 0.883 4 78.43 78.43
樸素貝葉斯 0.908 9 86.04 82.55
貝葉斯神經(jīng)網(wǎng)絡(luò) 0.938 1 90.41 85.46
4? 通過數(shù)據(jù)挖掘進行體質(zhì)分析
模型預(yù)測結(jié)果表明,該高校學(xué)生體測成績良好及優(yōu)秀率不足2.85%。從整體上來看,該高校學(xué)生的體質(zhì)健康水平有待進一步提高。
結(jié)合男生相關(guān)性分析和最優(yōu)決策樹,1 000米測試對男生成績影響最大,而引體向上和立定跳遠次之。1 000米作為男生體能、耐力和爆發(fā)力的測試,主要檢驗?zāi)猩男姆喂δ?、下肢力量以及肌肉發(fā)展水平是否達到正常水準(zhǔn)。結(jié)合相關(guān)性和Gini系數(shù)來看,Gini系數(shù)低的因素相關(guān)性也較差,說明在日常訓(xùn)練中男生應(yīng)根據(jù)自身的不足,補足短板,進行專項的體能和耐力訓(xùn)練,全面提升自己的體質(zhì)健康水平。
在女生的體測項目中,起決定性作用的是800米和50米測試,表明一部分女生在有氧、無氧耐力上與標(biāo)準(zhǔn)水平還有一定的差距,而這類女生可以考慮適當(dāng)增加身體鍛煉的頻次以及提升鍛煉的效果,比如加強日常跑步訓(xùn)練,進行跳繩等有氧鍛煉。如果女生能夠在這兩個項目中取得優(yōu)異成績,那么女生體測的及格率將會大大提高。
5? 結(jié)? 論
學(xué)生的體質(zhì)健康水平一直以來都是高校重點關(guān)注的一項指標(biāo),而體測數(shù)據(jù)不僅是學(xué)生體質(zhì)健康水平的一種直觀反映,更是高校學(xué)子身體機能的綜合體現(xiàn)。本文通過數(shù)據(jù)挖掘技術(shù)探索體測成績與高校學(xué)生身體素質(zhì)的關(guān)系,利用決策樹、樸素貝葉斯、貝葉斯神經(jīng)網(wǎng)絡(luò)進行了相應(yīng)處理,再利用CART決策樹得到最優(yōu)分類模型,提取出當(dāng)前學(xué)生的體測成績并進行了分析,進而有效干預(yù)高校學(xué)生身體素質(zhì)的發(fā)展,為進一步采取相應(yīng)措施提供可循依據(jù)。
參考文獻:
[1] 張雪琴,江帆,席本玉.基于數(shù)據(jù)挖掘的學(xué)生體質(zhì)健康測試平臺設(shè)計及應(yīng)用研究 [J].電子設(shè)計工程,2022,30(13):87-90+95.
[2] 趙東健.教學(xué)型職業(yè)院校體育實踐課思政進課堂的實現(xiàn)途徑研究 [J].青少年體育,2022(6):34-35+42.
[3] 朱曉飛.移動Wi-Fi網(wǎng)絡(luò)環(huán)境下學(xué)生上網(wǎng)行為數(shù)據(jù)分析及應(yīng)用 [D]. 新鄉(xiāng):河南師范大學(xué),2020.
[4] 于淼,陳穎,丁康,等.基于CART決策樹模型的北京市春季氣傳花粉濃度與植被空間結(jié)構(gòu)關(guān)系研究 [J].北京林業(yè)大學(xué)學(xué)報,2023,45(1):121-131.
[5] 張艷可,王金亮,蘇懷,等.基于CART決策樹的雙尺度流域單元地貌分類研究——以北回歸線(云南段)地區(qū)為例 [J].地理與地理信息科學(xué),2021,37(2):84-92.
[6] 張睎偉,王磊,汪西原.基于CART決策樹的沙地信息提取方法研究 [J].干旱區(qū)地理,2019,42(5):1133-1140.
[7] 王子涵,楊秀芝,段現(xiàn)銀,等.基于貝葉斯神經(jīng)網(wǎng)絡(luò)的機床熱誤差建模 [J].制造技術(shù)與機床,2022(1):141-145.
[8] 貢保才讓,色差甲,慈禎嘉措,等.基于Naive Bayes的藏文人名性別自動識別 [J].青海師范大學(xué)學(xué)報:自然科學(xué)版,2017,33(4):11-15.
[9] 向新明.面向貝葉斯神經(jīng)網(wǎng)絡(luò)的概率計算電路設(shè)計 [D].成都:電子科技大學(xué),2021.
[10] 葉子健,劉士文,景冰璇,等.基于神經(jīng)網(wǎng)絡(luò)和支持向量機的體測分析模型 [J].科學(xué)技術(shù)創(chuàng)新,2021(34):55-57.
[11] 馬湧,孫彥廣.貝葉斯神經(jīng)網(wǎng)絡(luò)在蒸氣管網(wǎng)預(yù)測中的應(yīng)用 [J].中國冶金,2014,24(6):53-57.
[12] 張居營.大話Python機器學(xué)習(xí) [M].北京:中國水利水電出版社,2019.
作者簡介:周義(2000—),男,漢族,貴州畢節(jié)人,本科在讀,研究方向:數(shù)據(jù)挖掘;通訊作者:張豹(1988—),男,漢族,安徽阜陽人,講師,碩士研究生,研究方向:數(shù)據(jù)安全。