王 錦,嚴(yán)德菊,呂佳潞
(西華師范大學(xué), 四川 南充 637000)
隨著時(shí)代的進(jìn)步、科技的發(fā)展、各種各樣的智能設(shè)備的興起,數(shù)據(jù)的增長越來越快,數(shù)據(jù)規(guī)模越來越大。然而,雖然總的數(shù)據(jù)量比較大,但是數(shù)據(jù)利用率卻不高,人們希望能夠好好利用這些數(shù)據(jù),并從中獲取有價(jià)值的知識來提高人們的工作效率,指導(dǎo)大家的工作和生活。數(shù)據(jù)挖掘技術(shù)可以針對過去的數(shù)據(jù),挖掘出隱藏在數(shù)據(jù)背后的信息。而聚類分析是一種常見的數(shù)據(jù)挖掘和數(shù)據(jù)分析方法,是數(shù)據(jù)挖掘領(lǐng)域重要的研究內(nèi)容之一[1-2],按照不同的標(biāo)準(zhǔn),聚類算法可以分成很多類,K-means算法屬于其中之一。因此將K-means算法應(yīng)用到小學(xué)生體質(zhì)監(jiān)測中,以南充某小學(xué)學(xué)生體質(zhì)監(jiān)測數(shù)據(jù)為例進(jìn)行分析,通過對小學(xué)生體質(zhì)監(jiān)測結(jié)果的分析,讓老師和家長更加了解學(xué)生的身體狀況,找出原因,從而有針對地采取措施改善學(xué)生體質(zhì),促進(jìn)學(xué)生的健康成長。
(一)K-means算法的基本思想K-means算法是Mac Queen J在1967年提出來的一種聚類算法[3]。K-means算法思想是先隨機(jī)選擇K個(gè)簇中心,然后按照最近原則把所有數(shù)據(jù)對象分到各個(gè)簇。然后按照均值重新計(jì)算各個(gè)簇的簇心,直到簇心不再發(fā)生改變,算法結(jié)束,輸出聚類結(jié)果。K-means聚類算法是一種基于劃分的且目前被人們廣泛使用的聚類算法。
(二)K-means算法步驟第一步,選擇合適的類的數(shù)量k,然后隨機(jī)選k個(gè)點(diǎn)當(dāng)作聚類的初始聚類中心;第二步,計(jì)算每個(gè)數(shù)據(jù)點(diǎn)到這k個(gè)聚類中心點(diǎn)的距離,然后將各個(gè)數(shù)據(jù)點(diǎn)放到與它最近的聚類里;第三步,再次計(jì)算新的聚類中心(數(shù)據(jù)的平均值處);第四步,返回第二步繼續(xù)執(zhí)行,當(dāng)聚類中心不再變化的時(shí)候結(jié)束。
一是IBM公司推出的統(tǒng)計(jì)產(chǎn)品與服務(wù)解決方案(Statistical Product and Service Solutions,SPSS),SPSS可以應(yīng)用于數(shù)據(jù)挖掘、統(tǒng)計(jì)學(xué)分析、預(yù)測分析和決策支持任務(wù)的相關(guān)服務(wù)和軟件的集合。二是懷卡托智能分析環(huán)境(Weka),它是在JAVA環(huán)境下開源的軟件,其源代碼可以在官網(wǎng)下載,Weka主要功能有對數(shù)據(jù)對象進(jìn)行預(yù)處理、聚類分析、關(guān)聯(lián)分析等。三是美國MathWorks公司推出的MATLAB,它是一款商業(yè)數(shù)學(xué)軟件,它可以用于算法開發(fā),數(shù)值計(jì)算,數(shù)據(jù)分析等。
(一) 研究對象與研究方法以南充市人民南路小學(xué)2~6年級(因1年級學(xué)生學(xué)籍暫未錄入不參加測評)參加體質(zhì)監(jiān)測的學(xué)生體測數(shù)據(jù)為研究對象。運(yùn)用儀器和人工相結(jié)合的方法對人民南路小學(xué)2~6年級學(xué)生的身高、體質(zhì)量、肺活量、50 m等項(xiàng)目進(jìn)行測量。用 Excel 軟件錄入測量數(shù)據(jù)并統(tǒng)計(jì),對統(tǒng)計(jì)好的數(shù)據(jù)采用聚類分析法進(jìn)行分析。
(二) 聚類分析過程一是數(shù)據(jù)準(zhǔn)備與預(yù)處理。測評收集到的數(shù)據(jù),其中有些信息對當(dāng)前研究內(nèi)容是無意義的,比如家庭住址、出生日期、民族等,需把這些數(shù)據(jù)剔除。同時(shí),將身高和體質(zhì)量兩項(xiàng)內(nèi)容合并計(jì)算成體質(zhì)量指數(shù)BMI,并保留一位小數(shù),將數(shù)據(jù)格式改成符合要求的形式。二是算法應(yīng)用。將以上文件放到Weka里面進(jìn)行分析,可以看到體測項(xiàng)目的數(shù)據(jù)直方圖,然后再選擇“Cluster”界面,點(diǎn)“Choose”選擇simpleKMeans,修改“numClusters”的值,“numClusters”的值即代表K-means中k的值,然后觀察聚類效果,即“Clusterer output”中的一行:within cluster sum of squared errors: 后面的值,此值越小代表聚類的同一個(gè)類的距離越小。為了觀察聚類效果,可以多試幾次,然后得到最后的聚類散點(diǎn)圖,部分散點(diǎn)圖如圖1所示。
由于直方圖(如圖2所示)在整體效果更一目了然,而聚類后的散點(diǎn)圖在數(shù)據(jù)維度關(guān)系更清晰,結(jié)合圖1、圖2可以看出:第一,體質(zhì)量指數(shù)BMI相對集中。大部分學(xué)生的BMI值都在正常范圍,偏胖的約占總數(shù)的7 %,偏瘦所占比例更小些,并且BMI大于31.2的嚴(yán)重肥胖學(xué)生中女生要多于男生,說明該校小學(xué)生的 BMI 值大體來說是正常的,營養(yǎng)不良的很少,偏胖的比偏瘦的多。第二,肺活量偏低。肺活量低于661 ml的約占總數(shù)的11 %,但肺活量高低與性別的關(guān)系不是特別明顯,這說明小學(xué)生的整體呼吸能力比較低,也與學(xué)生平時(shí)缺乏運(yùn)動分不開。家長可在生活中注意培養(yǎng)孩子愛運(yùn)動的習(xí)慣,利用上下學(xué),周末等時(shí)間進(jìn)行鍛煉。第三,速度素質(zhì)較差。50 m短跑主要考察的是爆發(fā)性運(yùn)動能力,50 m短跑耗時(shí)大于11.1 s的占總數(shù)的8.9 %,且不及格的學(xué)生中,女生人數(shù)多于男生。可見平時(shí)運(yùn)動量不夠,學(xué)生的速度素質(zhì)較差[4]。學(xué)校家長應(yīng)鼓勵(lì)學(xué)生多進(jìn)行體育鍛煉,比如晨跑、飯后散步、走路上下學(xué)等。第四,坐位體前屈成績較好。女生做位體前屈成績優(yōu)于男生,這與坐位體前屈測試的是韌帶和肌肉彈性有很大關(guān)系。第五,一分鐘跳繩差距較為明顯。一分鐘跳繩10個(gè)以內(nèi)的有11個(gè)人,20個(gè)以內(nèi)的有30個(gè)人,而一分鐘可以跳100個(gè)以上的也有接近40個(gè)人,跳繩個(gè)數(shù)少的學(xué)生中的男生占多數(shù),個(gè)數(shù)比較多的女生占多數(shù)。
(一) 學(xué)校方面在提倡素質(zhì)教育的大環(huán)境下,沒能真正做到素質(zhì)教育,目前大部分小學(xué)還是以考試成績的好壞來評價(jià)學(xué)生和教師。學(xué)校要認(rèn)識到體育運(yùn)動的重要性,盡量保證體育課的時(shí)間和課堂質(zhì)量,提倡學(xué)生利用課間堅(jiān)持做到每天運(yùn)動1~2 h,比如每天上午30 min的陽光課間操,一定要要求學(xué)生走出教室,去感受陽光和運(yùn)動帶來的快樂。
(二) 家庭方面父母的行為、思想觀念、說話方式都深深地影響著孩子,現(xiàn)在很多學(xué)生家長都過度關(guān)注學(xué)生的文化課成績,在他們心里孩子的成績是第一位的。家長一定要在關(guān)注孩子智力和能力發(fā)展的同時(shí),多注意他們的身心健康,讓他們在輕松自在、無憂無慮的環(huán)境中學(xué)習(xí)。家長可以周末帶孩子參加戶外體育鍛煉或選擇步行送孩子上學(xué),還可以在方便的時(shí)間帶孩子晨練,午后或是晚飯后出去散散步,既鍛煉了身體又加強(qiáng)了父母和孩子之間的溝通,增進(jìn)親子感情。
(三) 學(xué)生自己小學(xué)生對體質(zhì)健康的認(rèn)識不夠,缺乏主動鍛煉的意識,即便是學(xué)校安排的體育課在學(xué)生眼里更多的是可以自由活動的課?,F(xiàn)在的孩子從小受父母寵溺,怕苦怕累怕臟,不愿意鍛煉,有時(shí)間還不如打打游戲、刷刷視頻來的輕松。而這種生活方式本身是不夠健康的,學(xué)生可以通過網(wǎng)絡(luò)、書本、雜志等多了解體質(zhì)健康方面的知識,提高對健康的認(rèn)識,加強(qiáng)鍛煉。
淮南職業(yè)技術(shù)學(xué)院學(xué)報(bào)2020年4期