国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

樸素貝葉斯分類算法在大學生體質分析中的應用

2018-02-03 00:45杜云梅劉東
體育學刊 2018年1期
關鍵詞:樸素貝葉斯分類器

杜云梅 劉東

摘 要:基于大數(shù)據(jù)對大學生體質進行分類預測,有助于大學體育治理體系的建設,樸素貝葉斯模型是一種操作簡單且性能較好的機器學習分類算法。基于樸素貝葉斯分類算法,采用廣州商學院2014、2015年學生體測數(shù)據(jù)及其評分結果作為源數(shù)據(jù),構建大學生體質分類器。應用此分類器可對大學生的體質狀況實現(xiàn)一定概率意義上正確的判斷,從而可以對體質存在隱患概率比較大的學生給出主動性預警,以便大學體育對學生進行群體性的體質判斷、進行個性化的有效干預,從而促進學生健康發(fā)展,提高大學生整體體質水平。分類器模型用Python編碼實現(xiàn),最后用與訓練數(shù)據(jù)不重疊的歷史體質數(shù)據(jù)檢測分類器的準確率,結果顯示,基于樸素貝葉斯算法的體質分類器達到了78%的正確率。

關 鍵 詞:學校體育;大學生體質分析;運動干預;樸素貝葉斯分類算法;大數(shù)據(jù)

中圖分類號:G80-05 文獻標志碼:A 文章編號:1006-7116(2018)01-0117-05

Abstract: Based on big data, the authors carried out classification and prediction on university student fitness, which is conducive to university sports governance system construction; the Na?ve Bayes model is a machine learning classification algorithm that is simple to operate and provided with good performance. Based on Naive Bayes classification algorithm, and using the physical test data of classes 2014 and 2015 students of Guangzhou Business College and their score results as source data, the authors established a university student fitness classifier. By applying such a classifier, researchers can, in a certain sense of probability, correctly determine newly or previously enrolled university students fitness condition, thus give a proactive early warning to those students whose fitness has a relatively high probability of hidden troubles, so that university physical education can carry out group fitness determination and individualized effective intervention on the students, thus promoting student healthy development and improving university students overall fitness level. The classifier mode was realized by using Python coding, in the end, the classifiers accuracy rate was verified by using historical fitness data that did not overlap with training data, and the result showed that the fitness classifier based on na?ve Bayes algorithm reached a correct rate of 78%.

Key words: school physical education;university student fitness analysis;sports intervention;Naive Bayes classifier algorithm;big data

2007年中共中央國務院《關于加強青少年體育增強青少年體質的意見》[1]印發(fā)實施,2012年教育部等出臺《關于教育部加強學校體育工作的若干意見》[2],2014年重新修訂了《國家學生體質健康標準》[3],2016年《“健康中國2030”規(guī)劃綱要》更將青少年體質問題上升到國家戰(zhàn)略層面[4]。各級政府、各類學校和社會各界凝共識、聚合力、謀發(fā)展,協(xié)同加強學校體育治理體系建設。

但根據(jù)1985年開始的每5年一次的學生體質調研數(shù)據(jù),大學生體質健康下滑趨勢依然未得到遏制,甚至在很多指標上不如中學生[5-7]。各大學有必要結合新技術新理論推進體育教學改革,加強體育干預體系建設。

最近10年來,數(shù)據(jù)積累的急劇增加和針對數(shù)據(jù)的全鏈條技術整體成熟,催生了大數(shù)據(jù)以及接踵而來的人工智能的熱潮。利用體質數(shù)據(jù)監(jiān)測與人工智能分析技術,對疾病預防和健康趨勢分析都具有積極的意義。國家也將健康醫(yī)療大數(shù)據(jù)應用發(fā)展納入了國家大數(shù)據(jù)戰(zhàn)略布局[8-9]。

本研究正是嘗試應用大數(shù)據(jù)與人工智能技術,對體質監(jiān)測數(shù)據(jù)進行建模與分析。基于樸素貝葉斯分類算法,構建大學生體質分類器,應用此分類器可對大學生的體質狀況實現(xiàn)一定概率意義上正確的判斷,從而對體質存在隱患概率比較大的學生給出主動性預警,以便大學體育對學生進行群體性的體質判斷,為促進大學生體質健康發(fā)展提供數(shù)據(jù)與決策支撐。endprint

1 樸素貝葉斯分類器

大學生的體質屬于什么類別,其實就是一個分類問題,從數(shù)學角度來說,分類問題可做如下定義:已知集合:C={y1,y2,…,yn}和I={x1,x2,…,xm,…},確定映射規(guī)則y=f(x),使得任意xi∈I有且僅有一個yj∈C使得yj= f(xi)成立。樸素貝葉斯(Naive Bayes)是一種基于貝葉斯定理與特征條件獨立假設的機器學習分類算法。它的思想基礎是對于給出的待分類項,求解在此項出現(xiàn)的條件下各個類別出現(xiàn)的概率,哪個最大,就認為此待分類項屬于哪個類別。

樸素貝葉斯模型是流行的十大挖掘算法之一,之所以備受人們關注,是因為它操作簡單且性能較好,由于計算的高效性和高精度,樸素貝葉斯分類模型在文本分類領域得到了廣泛的應用[10-13]。

P(A|B)表示事件B已經發(fā)生的前提下事件A發(fā)生的概率,叫做事件B發(fā)生下事件A的條件概率。其基本求解公式為:P(A|B)= ?,F(xiàn)實中經常遇到這種情況:P(A|B)可以很容易直接得出,而P(B|A)則很難直接得出,但我們更關心P(B|A),貝葉斯定理便是基于條件概率,通過P(A|B)來求P(B|A)。貝葉斯定理即:P(B|A)= ,其中,分母P(A),可以根據(jù)全概率公式分解為:P(A)= 。

給定訓練數(shù)據(jù)集(X,Y),其中每個樣本X都包括n維特征,即X=(x1,x2,x3,…,xn),類標記集合含有k種類別,即Y=(y1,y2,…,yk)。如果現(xiàn)在來了一個新樣本x,要判斷它的類別,從概率的角度來看,這個問題就是給定x,它屬于哪個類別的概率最大。那么問題就轉化為求解P(y1|x),P(y2|x),…,P(yk|x)中最大的那個,即求后驗概率最大的輸出:argmaxykP(yk|x)。根據(jù)貝葉斯定理P(yk|x)= ,根據(jù)全概率公式,可以進一步地分解上式中的分母:

可以看出,樸素貝葉斯分類器的分類原理是通過某對象的先驗概率,利用貝葉斯公式計算出其后驗概率,即該對象屬于某一類的概率,選擇具有最大后驗概率的類作為該對象所屬的類。根據(jù)上述分析,構造樸素貝葉斯分類器主要可以分為4個步驟:

1)確定特征屬性與類別集合:設X(x1,x2,……,xm)為一個待分類處理項,而每個xi為X的一個特征屬性向量。類別集合Y=(y1,y2,……,yn),每個yk為一個分類項,該集合是預先已得到的。

2)獲取訓練集:收集并準備訓練數(shù)據(jù),對連續(xù)型變量要進行離散化或分布處理。另外,樸素貝葉斯是有監(jiān)督的機器學習算法,需要有屬性標記。

3)分類模型訓練:輸入特征屬性和訓練樣本,計算P(yk),P(xi|yk),即計算每個類別在訓練樣本中的出現(xiàn)頻率及每個特征屬性劃分對每個類別的條件概率估計,生成分類器。

4)驗證與應用:使用分類器對待分類項進行分類,對于待分類項X,如果存在P(yk|X)=max(P(yk)∏P(xi|yk),則X∈yk。

算法的核心部分就是訓練集的準備和模型的學習訓練過程,訓練之后所形成的分類器可直接應用。

2 體質分類器的構造

參照上述的構造步驟,針對大學生體質問題,應用樸素貝葉斯算法構造體質分類器的具體過程如下:

2.1 屬性定義

參照國家學生體質健康標準,設定了12項體質特征:性別、年齡、年級、籍貫、身高、體質量、身體質量指數(shù)(BMI)、肺活量、速度素質、爆發(fā)力素質、柔韌性素質、耐力素質、力量素質。

設定分類集合為:優(yōu)秀、良好、及格、不及格。

2.2 數(shù)據(jù)預處理

以廣州商學院2014年和2015年學生的真實體測數(shù)據(jù)作為源數(shù)據(jù)。

首先,按照《國家學生體質健康標準(2014年修訂)》中的評分標準,編寫計算機程序算出每個學生的單項評分、學年總分并評定等級,去除有缺失值的數(shù)據(jù)條目,最后得到21 664條有效記錄,形成有體質分類結果的完整數(shù)據(jù)集。廣州商學院學生的體質分布如圖1所示,其中不及格占10.97%,及格占78.36%,良好占10.50%,優(yōu)秀的只有0.2%左右,學生體質狀態(tài)不容樂觀,雖然絕大部分學生的體質處于及格線上,但達到優(yōu)秀等級的非常少。

接著,為后面分類器運算的方便,進一步將體質特征中性別的“男/女”分別轉換為數(shù)值1/2,將體質指數(shù)的“優(yōu)秀/良好/及格/不及格”分別轉換為數(shù)值1/2/3/4,將身高、體質量兩個數(shù)據(jù)項換算合并為BMI一個數(shù)據(jù)項。

除了年齡、年級和籍貫屬性是離散型數(shù)據(jù)不需進一步處理,其他屬性都是連續(xù)型變量,需要進行離散化處理,本研究采用的辦法是參考國家體質評分標準,劃分特征的取值區(qū)間,在分類器的訓練過程中,計算的是區(qū)間概率。

另外,采用了Laplace平滑處理來解決零概率問題。在計算實例的概率時,如果某個量在觀察樣本庫(訓練集)中沒有出現(xiàn)過,會導致整個實例的概率結果是0,在體質分類的問題中,當一個特征取值區(qū)間沒有在訓練樣本中出現(xiàn),該取值區(qū)間的概率就為0,使用連乘計算體質概率時也為0,這是不合理的,不能因為一個事件沒有觀察到就武斷地認為該事件的概率是0。在計算實例的概率時用加1的方法估計沒有出現(xiàn)過的現(xiàn)象的概率。

2.3 訓練集

在Python中編碼實現(xiàn)2.2節(jié)所述的數(shù)據(jù)預處理,得到的數(shù)據(jù)集存儲為csv文件,第一行為索引行,包括12個體質特征和體質等級,后面每一行是每個同學的體質特征和等級取值,值之間以逗號分隔。該文件就是接下來分類器訓練的數(shù)據(jù)輸入,為保證模型檢驗的客觀性,本研究采用切片法,將其中的80%作為訓練數(shù)據(jù),另外的20%留作檢驗數(shù)據(jù)。

2.4 分類器訓練

在特征選取和訓練數(shù)據(jù)基礎上,可以構造多種不同目的的分類器。這里有代表性地列舉了兩個分類器。第1個分類器是樸素貝葉斯算法的正向應用,即已知部分屬性來預測體質分類。為了演示貝葉斯的工作過程,這個分類器只選取了4個特征以方便演示樸素貝葉斯的分類原理。第2個分類器反過來把體質分類結果作為一個特征項,來預測屬性的取值區(qū)間。endprint

1)分類器1。

特征:性別,身高,體質量,肺活量。其中,性別(x1)有兩個取值(男,女);年級(x2)有兩個取值(大一大二,大三大四);用身高、體質量換算成BMI(x3),分成4個取值區(qū)間(≤17.1,17.2~23.9,24.0~27.9,≥28.0);肺活量(x4),按以下值(3 400,3 350,3 300,3 150,3 000,2 900,2 800,2 700,2 600,2 500,2 400,

2 300,2 200,2 100,2 000,1 960,1 920,1 880,

1 840,1 800)分成20個取值區(qū)間。

分類:體質級別(優(yōu)秀y1,良好y2,及格y3,不及格y4)。

待分類項:例如身高160 cm、體質量48 kg、肺活量2 400 mL的大一女生,體質最可能是什么級別?這個問題即是給定條件X=(女,1,18.75,2 400),條件概率P(y1|X)P(y2|X)P(y3|X)P(y4|X)中最大的那個,就是分類器預測那個類別。根據(jù)特征條件獨立的假設,P(y1|X)=P(y1|x1,x2,x3,x4)=P(y1)P(x1|y1)P(x2|y1)P(x3|y1)

P(x4|y1)/P(x1,x2,x3,x4)。這些都可以通過訓練集中數(shù)據(jù)計算出來。

2)分類器2。

特征:性別,年級,身高,體質量,肺活量,速度,爆發(fā)力,體質等級。

分類:耐力級別。

待分類項:如一個身高160 cm、體質量48 kg、肺活量2 700 mL,50 m跑成績10.2 s的大一女生想要得到優(yōu)秀體質級別,800 m跑要達到什么水平?

分類器的原理不再贅述,都能在Python中編碼實現(xiàn),用到Pandas、Sklearn和Numpy等外部庫,采用GaussianNB實現(xiàn)模型。

2.5 分類器檢驗

將2.2節(jié)中得到的數(shù)據(jù)集用切片法切出數(shù)據(jù)總量的另外20%作為檢驗數(shù)據(jù),采用了Precision、Recall、Fb-score和Accuracy四個評價指標,其中Precision(精度)是精確性的度量,表示被分為正例的示例中實際為正例的比例;Recall(召回率)是覆蓋面的度量,度量有多個正例被分為正例,F(xiàn)b-score是準確率和召回率的調和平均:Fb=[(1+b2)×P×R]/(b2×P+R)。Accuracy(正確率)表示被分為正例的條目數(shù)與檢驗數(shù)據(jù)條目數(shù)的比例。檢測結果表1所示。從檢驗結果可以看出,分類器的綜合正確率達到77.98%。

2.6 體質分類器在體育教學實踐中的應用

用訓練數(shù)據(jù)訓練得到的分類器可以直接使用,輸入學生的幾項體質特征值,就可以得到相應的分類結果,可以作為對學生體質狀況的預測。

分類器1:

給定條件X=(女,1,160,45,2 400)

給出的結果是y3即身高160 cm、體質量45 kg、肺活量2 400 mL的大一女生,歷史數(shù)據(jù)顯示如果不加干預的話,其體質檢測結果最可能是“不及格”。

可以將全部學生的體質進行分類預測,按照分類結果將學生分成不同的組別,對于體質檢測結果較大可能為“不及格”的那部分同學,可以制定特別的干預計劃,加強體質鍛煉。

分類器2:

給定條件:X=(女,1,160,48,2 700,10.2)

結果為[103],即160 cm、體質量48 kg、肺活量2 700 mL、50 m跑成績10.2 s的大一女生800 m要跑到3 min 3 s以內,才最有可能得到“優(yōu)秀”體質等級。如果現(xiàn)在的800 m跑不能達到這個成績,為達到“優(yōu)秀”體質等級,就要加強耐力訓練。

隨著學生各項測試數(shù)據(jù)的積累,在此分類器的輔助下,可以以目標為導向,即要讓學生的體質分類結果達到“優(yōu)秀”,應該讓學生加強哪方面能力的鍛煉;進一步,可以按學生有待加強的能力進行分組,對不同組制定不同的鍛煉計劃與干預措施。

3 展望

本研究用樸素貝葉斯算法,構建了大學生體質分類器,應用該分類器可以對每個在校學生的體質狀態(tài)進行預測,為個性化的運動指導與干預提供依據(jù);也可以對學生群體進行客觀的體質分析,發(fā)現(xiàn)不同群體的體質短板。檢驗結果顯示,本分類器能達到78%的綜合正確率,具有一定的可信度。

本研究采用了廣州商學院2年的學生數(shù)據(jù)做試驗,當加入越來越多的訓練數(shù)據(jù)時,模型會變得越來越準確。而全國的學生體測數(shù)據(jù)都是依照《國家學生體質健康標準》,所以數(shù)據(jù)項與數(shù)據(jù)結構基本一致,從而可以很容易的將其他省市高校學生體測數(shù)據(jù)納入到本分類模型的訓練集中。當有了更多高校數(shù)據(jù)時,還可以按省市、按南北方等不同地域對學生體質狀況進行橫向的對比分析等。

另外,在此體質分類模型給出的預測與判斷基礎上,學校體育部門可以有針對性地對學生進行個性化的體育鍛煉指導與干預,跟進采集下一年的體測數(shù)據(jù),就可以對學生體質進行時間縱向上的體質變化分析、運動干預的有效性分析等。

因為整個數(shù)據(jù)預處理與分類器訓練過程都用Python編碼,所以擴展數(shù)據(jù)后的訓練集準備與模型更新可由程序自動完成。而且在樸素貝葉斯分類下可以構造出更多結構相似、目的不同的分類器,以滿足學校體育對學生體質的促進和監(jiān)督的需求。

參考文獻:

[1] 中共中央,國務院. 關于加強青少年體育增強青少年體質的意見[EB/OL]. [2017-07-02]. www.gov.cn/jrzg/

2007-05/24/content_625090.htm.

[2] 教育部,發(fā)展改革委,財政部,等. 關于進一步加強學校體育工作的若干意見[EB/OL]. [2017-07-02]. www.gov.cn/zwgk/2012-10/29/content_2252887.htm.endprint

[3] 教育部關于印發(fā)《國家學生體質健康標準(2014年修訂)》的通知[EB/OL]. [2017-07-02]. http://www.moe.edu.cn/

s78/A17/twys_left/moe_938/moe_792/s3273/201407/t20140708_171692.html.

[4] 中共中央,國務院. “健康中國2030”規(guī)劃綱要[EB/OL]. [2017-07-02]. http://news.xinhuanet.com/ health/

2016-10/25/c_1119786029.htm.

[5] 國家體育總局,教育部,科技部,等. 2014年國民體質監(jiān)測公報[EB/OL]. (2015-11-25) [2017-0702]. http://www.sport.gov.cn/n16/n1077/n1227/7328132.html.

[6] 國家體育總局,教育部,科技部,等. 2010年國民體質監(jiān)測公報[EB/OL]. (2011-09-02) [2017-07-02]. http://www.sport.gov.cn/n16/n1077/n297454/2052709.html.

[7] 教育部發(fā)布30年來我國學生體質與健康“大數(shù)據(jù)”[EB/OL]. [2017-07-02]. http://www.jyb.cn/china/gnxw/

201407/t20140729_592098.html.

[8] 國務院印發(fā)關于促進大數(shù)據(jù)發(fā)展行動綱要[EB/OL].

[2017-07-02]. http://business.sohu.com/20150906/n42046

3676.shtml.

[9] 國務院辦公廳關于促進和規(guī)范健康醫(yī)療大數(shù)據(jù)應用發(fā)展的指導意見[EB/OL]. [2017-07-02]. http://www.gov.

cn/zhengce/content/2016-06/24/content_5085091.htm.

[10] 楊雷,曹翠玲,孫建國,等. 改進的樸素貝葉斯算法在垃圾郵件過濾中的研究[J]. 通信學報,2017,38(4):140-148.

[11] 劉秋陽,林澤鋒,欒青青. 基于樸素貝葉斯算法的垃圾短信智能識別系統(tǒng)[J]. 電腦知識與技術:學術交流,2016,12(12):190-192.

[12] 賈志鵬. 基于樸素貝葉斯分類器的校園信息智能推薦算法[J]. 軟件工程,2016,19(12):30-32.

[13] 謝小軍,陳光喜. 基于多屬性聯(lián)合的樸素貝葉斯分類算法[J]. 計算機技術與發(fā)展,2016,26(12):77-81.endprint

猜你喜歡
樸素貝葉斯分類器
隔離樸素
樸素的安慰(組詩)
他是那樣“笨拙”和樸素——30多年后,我們?yōu)槭裁催€需要讀路遙?
最神奇最樸素的兩本書
BP-GA光照分類器在車道線識別中的應用
貝葉斯公式及其應用
加權空-譜與最近鄰分類器相結合的高光譜圖像分類
結合模糊(C+P)均值聚類和SP-V-支持向量機的TSK分類器
基于貝葉斯估計的軌道占用識別方法
一種基于貝葉斯壓縮感知的說話人識別方法