朱 春
(蕪湖職業(yè)技術(shù)學(xué)院 體育教學(xué)部,安徽 蕪湖241003)
隨著現(xiàn)代社會(huì)的發(fā)展,高校尤其重視大學(xué)生的體質(zhì)測(cè)試。對(duì)體質(zhì)測(cè)試的數(shù)據(jù)加以分析[1]能夠有效得到大學(xué)生體質(zhì)問(wèn)題的信息,在未來(lái)階段對(duì)大學(xué)生定制相應(yīng)的教學(xué)方案[2],因此,對(duì)于體質(zhì)測(cè)試的數(shù)據(jù)研究工作十分重要,但對(duì)于現(xiàn)階段高校的教學(xué)工作者來(lái)說(shuō),對(duì)這些數(shù)據(jù)的采集、整理與分析[3]僅能通過(guò)教師手動(dòng)上傳,對(duì)于海量體質(zhì)測(cè)試數(shù)據(jù)[4-6],教師無(wú)法全部精準(zhǔn)快速地整理與匯總,無(wú)法高效地提取體質(zhì)異常數(shù)據(jù)。
為此,相關(guān)學(xué)者對(duì)大學(xué)生體質(zhì)異常數(shù)據(jù)提取方法進(jìn)行了研究,取得了一定的進(jìn)展。文獻(xiàn)[7]基于改進(jìn)平均影響值對(duì)遺傳數(shù)據(jù)疾病進(jìn)行分類并提取疾病數(shù)據(jù)特征。構(gòu)建遺傳病數(shù)據(jù)的logistic回歸模型,利用多層感知技術(shù)對(duì)SVM訓(xùn)練器進(jìn)行改進(jìn),實(shí)現(xiàn)遺傳病特征分類,通過(guò)平均影響值實(shí)現(xiàn)疾病數(shù)據(jù)特征提取。但是,此方法特征提取覆蓋率較低。文獻(xiàn)[8]提出高斯核密度估計(jì)的人體健康數(shù)據(jù)異常值檢測(cè)方法,利用t-分布鄰域嵌入算法進(jìn)行穩(wěn)定性特征提取,利用GKDELOF法實(shí)現(xiàn)健康異常值檢測(cè)。該方法可以更好解決大學(xué)生多樣性體質(zhì)差異導(dǎo)致數(shù)據(jù)產(chǎn)生稀疏性現(xiàn)象,但是在對(duì)異常數(shù)據(jù)提取方面存在提取速度較慢的問(wèn)題。而聚類方法是一種能夠依據(jù)數(shù)據(jù)本身的屬性進(jìn)行分區(qū)的技術(shù),使同一簇內(nèi)的數(shù)據(jù)越小越好,不同簇內(nèi)的數(shù)據(jù)越大越好,即滿足聚類的過(guò)程。針對(duì)數(shù)據(jù)采取聚類分析能夠使復(fù)雜結(jié)構(gòu)的數(shù)據(jù)變得統(tǒng)一化,使數(shù)據(jù)提取過(guò)程更加簡(jiǎn)便。因此,本研究基于聚類分析的大學(xué)生體質(zhì)異常數(shù)據(jù)提取方法,通過(guò)Relief算法調(diào)整特征的距離,利用K-means算法獲取所提取的大學(xué)生體質(zhì)異常數(shù)據(jù)。
通過(guò)對(duì)大學(xué)生體質(zhì)正常數(shù)據(jù)以及其中的異常數(shù)據(jù)兩部分?jǐn)?shù)據(jù)進(jìn)行研究。根據(jù)時(shí)間將兩種數(shù)據(jù)構(gòu)建鏈接,并進(jìn)行數(shù)據(jù)清洗,之后進(jìn)行數(shù)據(jù)挖掘[9]。在數(shù)據(jù)清洗過(guò)程中,主要包含兩部分檢查,分別是對(duì)空值與無(wú)效值的檢查,并刪除存在兩者的數(shù)據(jù)。當(dāng)鏈接建立后,有效去除了信息冗余數(shù)值,這是由于數(shù)據(jù)的數(shù)量與維度都存在各種形式的不同,通過(guò)公式(1)描述歸一化形式:
(1)
公式(1)中,異常數(shù)據(jù)的樣本值由x描述,樣本的最大值由xmax描述,樣本的最小值由xmin描述,最終歸一化處理的數(shù)據(jù)形式由q描述。
對(duì)處理后的數(shù)據(jù)進(jìn)行特征選擇,即將歸一化后的數(shù)據(jù)進(jìn)行“降維”。選取Relief算法,調(diào)整特征的距離,將不相似的樣本隔開(kāi),將類似的樣本靠近,即分類的成果受特征影響較大時(shí),則將該特征的權(quán)重提升。該算法在進(jìn)行特征選擇時(shí),能夠依據(jù)數(shù)據(jù)的統(tǒng)計(jì)特性,提升特征選擇的速度并降低開(kāi)銷,更適用于大數(shù)據(jù)集。在最終計(jì)算時(shí),能夠獲取每個(gè)特征相應(yīng)的權(quán)重,該特征的相關(guān)性與權(quán)重相關(guān)。為獲取相關(guān)特征子集,可以依據(jù)給定權(quán)重閾值,使權(quán)重小于該閾值的特征得到篩選。該算法對(duì)各式特征權(quán)重閾值進(jìn)行了給定,以獲取各式的特征子集,以使下一步聚類分析更加方便,并對(duì)最終聚類受到各式特征權(quán)重閾值的改變進(jìn)行了分析。
圖1 大學(xué)生體質(zhì)全部數(shù)據(jù)形式
在對(duì)大學(xué)生體質(zhì)數(shù)據(jù)進(jìn)行管理時(shí),當(dāng)出現(xiàn)異常數(shù)據(jù)時(shí),僅通過(guò)一條異常信息很難準(zhǔn)確判斷異常數(shù)據(jù)的特征。因此,聚合相似異常情況的數(shù)據(jù),將單條信息匯集為一類信息,以使得異常數(shù)據(jù)的特征能夠有效地表示出來(lái)。
將數(shù)據(jù)劃分為兩大類別,分別為正常數(shù)據(jù)與異常數(shù)據(jù),由于大學(xué)生體質(zhì)異常的情況存在不同形式,因此在異常數(shù)據(jù)中,還劃分了3類范圍更小的數(shù)據(jù)集。并通過(guò)N1描述正常數(shù)據(jù),異常數(shù)據(jù)中的數(shù)據(jù)集,分別由A1、A2、A3描述,如圖1所示。由于A1與正常數(shù)據(jù)更為接近,能夠較快發(fā)現(xiàn)正常數(shù)據(jù)與異常數(shù)據(jù)的區(qū)別,因此,在剖析閾值時(shí),首先采集類簇A1,通過(guò)該種形式,不僅能夠明顯劃分兩類數(shù)據(jù),還能夠?qū)⒏〉念惔赝诰虺鰜?lái),并在異常數(shù)據(jù)中實(shí)現(xiàn)更為細(xì)化的聚類。采用K-means算法進(jìn)行聚類,該算法依據(jù)距離進(jìn)行計(jì)算,且計(jì)算過(guò)程簡(jiǎn)便、速度更快,同時(shí)還能夠給定各式的k值,使最終聚類結(jié)果不同[15]。為挖掘更小的類簇,可以采取修改k值的形式,但該算法在挑選初始點(diǎn)與干擾數(shù)據(jù)時(shí)較為細(xì)致,當(dāng)目標(biāo)函數(shù)未發(fā)生變化或不大于某個(gè)所設(shè)閾值時(shí),該算法即結(jié)束。通過(guò)公式(2)描述目標(biāo)函數(shù):
(2)
公式(2)中,第i個(gè)簇的質(zhì)心由ci描述;在簇ci內(nèi),質(zhì)心與樣本x的間隔由dist(ci,x)描述;所給定的聚類數(shù)量由k描述。
由于K值的選取受用戶主觀意向影響,具備隨機(jī)性,為此,對(duì)K-means算法的所選取的K值進(jìn)行改進(jìn)。
1.3.1 改進(jìn)K值的選取
依據(jù)K-means的聚類結(jié)果,對(duì)如下兩部分總統(tǒng)計(jì)量進(jìn)行計(jì)算,分別是總X值與V值。其中,全部聚類變量的離差平方和之和,用X表示,即采用公式(3)進(jìn)行計(jì)算:
(3)
公式(3)中,第i個(gè)簇由ci描述;ci中的點(diǎn)由x描述;第i個(gè)簇的均值通過(guò)ci表示;兩個(gè)對(duì)象的間距由dist表示。
在不同類別之間,聚類變量離差平方和之和,通過(guò)V描述,并采用公式(4)進(jìn)行計(jì)算:
(4)
圖2 K值選取流程圖
公式(4)中,簇的大小用mi表示,第i個(gè)簇的均值用ci表示,總均值用c描述,dist的含義與上述一致。當(dāng)K值已知時(shí)(該值代表聚類數(shù)量),該聚類算法設(shè)想擁有較小的總X值與更大的總V值,表示其組內(nèi)數(shù)據(jù)擁有較高的聚集能力,組間數(shù)據(jù)擁有較好的分割性能,即擁有總V/總X的值越高,性能越強(qiáng)。
為使最終計(jì)算結(jié)果不被樣本n以及聚類數(shù)量K改變,將總V/總X計(jì)算形式調(diào)整為公式(5):
(5)
公式(5)中,復(fù)雜性由(n-k)/(k-1)描述,其比率越高越優(yōu)秀,該公式為Calinski-Harabasz公式,具有運(yùn)算效率高等特點(diǎn),因此采用該公式來(lái)確定最終的適應(yīng)K值。
1.3.2 選取K值的流程
選取K值的過(guò)程如圖2所示。依據(jù)枚舉方式,依次對(duì)K值進(jìn)行設(shè)定,分別為2~10,并反復(fù)進(jìn)行1 000次操作,以防止局部最優(yōu)解現(xiàn)象發(fā)生,并對(duì)K值的Calinski-Harabasz值形式進(jìn)行計(jì)算,最終取Calinski-Harabasz值中最大形式相應(yīng)的K值作為最后所選取的K值。
為驗(yàn)證研究中所提出方法的可行性,將其應(yīng)用于某高校大學(xué)生某次體質(zhì)測(cè)驗(yàn)中,對(duì)該次體質(zhì)測(cè)驗(yàn)中的數(shù)據(jù)進(jìn)行分析,并選取文獻(xiàn)[7]基于平均影響值的特征提取方法與文獻(xiàn)[8]高斯核密度估計(jì)異常值提取方法作為對(duì)比方法對(duì)男生女生的標(biāo)準(zhǔn)差與平均數(shù)進(jìn)行分析,通過(guò)SPSS內(nèi)ONEWAY模塊對(duì)此進(jìn)行驗(yàn)證,并在計(jì)算機(jī)內(nèi)采用SPSS FOR WINDOWS6.0操作所有數(shù)據(jù)。
表1 男女生的平均數(shù)與標(biāo)準(zhǔn)差檢驗(yàn)
根據(jù)表1可知,所提方法對(duì)大學(xué)生體質(zhì)中的異常數(shù)據(jù)提取較為清晰,根據(jù)標(biāo)準(zhǔn)差可知所提方法所提取的體質(zhì)數(shù)據(jù)中的范圍。分析3種方法在異常數(shù)據(jù)提取過(guò)程中的準(zhǔn)確率與誤報(bào)率,分析結(jié)果如表2所示。
表2 不同方法提取的準(zhǔn)確率與誤報(bào)率
根據(jù)表2可知,文獻(xiàn)[7]的方法方法的提取數(shù)據(jù)準(zhǔn)確率最低,為86.78%,但該方法的誤報(bào)率要小于文獻(xiàn)[8]的方法,文獻(xiàn)[8]的方法具有最高的數(shù)據(jù)提取誤報(bào)率,為17.70%,而所提方法的準(zhǔn)確率一直保持最高,且誤報(bào)率同時(shí)保持最低,因此選取研究中所提方法能夠有效減少誤報(bào)的發(fā)生,具有更高的異常數(shù)據(jù)提取準(zhǔn)確度。
圖3 不同方法異常數(shù)據(jù)提取覆蓋率
分析在不同體質(zhì)數(shù)據(jù)量下對(duì)異常數(shù)據(jù)提取的覆蓋率,并通過(guò)兩種對(duì)比方法進(jìn)行對(duì)比,分析結(jié)果如圖3所示。根據(jù)圖3可知,隨著數(shù)據(jù)量的增多,對(duì)異常數(shù)據(jù)提取覆蓋率逐漸下降,文獻(xiàn)[7]的方法最低覆蓋率僅為62%,在3種方法中的覆蓋率最低,而文獻(xiàn)[7]方法的覆蓋率高于文獻(xiàn)[8]的方法,該方法在數(shù)據(jù)量為500個(gè)時(shí),覆蓋率為86%,當(dāng)數(shù)據(jù)量達(dá)到4 000個(gè)時(shí),該方法的覆蓋率為74%,但依然低于研究中所提方法的覆蓋率,研究中所提方法的覆蓋率最高為94%~89%,因此,研究中所提方法的異常數(shù)據(jù)提取效果最好較高。
分析3種方法在不同數(shù)據(jù)量下對(duì)異常數(shù)據(jù)提取的內(nèi)存開(kāi)銷,分析結(jié)果如圖4所示。根據(jù)圖4可知,隨著數(shù)據(jù)量的增長(zhǎng),3種方法在異常數(shù)據(jù)提取過(guò)程中內(nèi)存開(kāi)銷逐漸增加,且上升趨勢(shì)較為穩(wěn)定,3種方法在數(shù)據(jù)量較少時(shí),內(nèi)存開(kāi)銷均未有較大差別,都保持在4.0~5.0 kB之間,其中文獻(xiàn)[8]的方法在提取過(guò)程中所占據(jù)的內(nèi)存開(kāi)銷最高,在數(shù)據(jù)量為4 000個(gè)時(shí)內(nèi)存開(kāi)銷達(dá)到8.5 kB,而文獻(xiàn)[7]的方法的最高內(nèi)存開(kāi)銷為7.5~8.0 kB之間,而研究中所提方法隨著數(shù)據(jù)量的提升,最高內(nèi)存開(kāi)銷僅達(dá)到5.6~6.0 kB之間,因此,采用此方法進(jìn)行異常數(shù)據(jù)提取,能夠有效降低內(nèi)存開(kāi)銷。
分析不同方法在提取異常數(shù)據(jù)時(shí)的時(shí)間開(kāi)銷,分析結(jié)果如圖5表示。
圖4 不同方法的內(nèi)存開(kāi)銷
圖5 提取異常數(shù)據(jù)時(shí)的時(shí)間開(kāi)銷
根據(jù)圖5可知,隨著數(shù)據(jù)量的增長(zhǎng),3種方法在提取異常數(shù)據(jù)時(shí)的時(shí)間開(kāi)銷也逐步提升,文獻(xiàn)[8]在數(shù)據(jù)量為4 000個(gè)時(shí)時(shí)間開(kāi)銷最高,而在數(shù)據(jù)量為500個(gè)時(shí),文獻(xiàn)[7]的時(shí)間開(kāi)銷最高,當(dāng)數(shù)據(jù)量達(dá)到1 000個(gè)時(shí),文獻(xiàn)[8]的時(shí)間開(kāi)銷提升較快,成為3種方法中最耗時(shí)的方法,研究中所提方法時(shí)間開(kāi)銷量增加較為穩(wěn)定,數(shù)據(jù)量由0增加到4 000個(gè)時(shí),時(shí)間開(kāi)銷始終控制在0.5 ms以內(nèi),始終保持最低的時(shí)間開(kāi)銷,采用此方法能夠有效降低異常數(shù)據(jù)提取的時(shí)間。
圖6 異常數(shù)據(jù)提取數(shù)量
選取該高校中5種類別的體質(zhì)數(shù)據(jù)作為測(cè)量大學(xué)生體質(zhì)的項(xiàng)目,每個(gè)項(xiàng)目中包含800個(gè)數(shù)據(jù)量,從中分析文中所提方法對(duì)異常數(shù)據(jù)的提取數(shù)量,分析結(jié)果如圖6所示。根據(jù)圖6可知,經(jīng)研究中所提方法所提取的異常數(shù)據(jù)量,在800 m/1 000 m跑的大學(xué)生體質(zhì)異常數(shù)據(jù)最高,在全部800個(gè)數(shù)據(jù)中占375個(gè),座位體前屈占比最少,具體有175條異常數(shù)據(jù),說(shuō)明較多大學(xué)生的體質(zhì)測(cè)試中800 m/1 000 m跑中容易產(chǎn)生異常數(shù)據(jù),實(shí)驗(yàn)結(jié)果顯示,所提方法可有效獲取高校中大學(xué)生體質(zhì)異常數(shù)據(jù),可為相關(guān)教師提供數(shù)據(jù)支撐,以便后續(xù)開(kāi)展針對(duì)性提升策略。
基于聚類分析的大學(xué)生體質(zhì)異常數(shù)據(jù)提取方法,通過(guò)Relief算法篩選體質(zhì)異常數(shù)據(jù)冗余特征值,通過(guò)Calinski-Harabasz公式獲取的設(shè)定K值,最終獲取最佳聚類結(jié)果實(shí)現(xiàn)異常數(shù)據(jù)的提取。在未來(lái)階段,可以此為基礎(chǔ)繼續(xù)加深研究,通過(guò)聚類方法實(shí)現(xiàn)大學(xué)生體質(zhì)異常數(shù)據(jù)更加精準(zhǔn)細(xì)致的提取過(guò)程。