林楠,王建,張兵兵,張建威,李巍,邢曦文
(大連醫(yī)科大學現(xiàn)代教育技術中心,遼寧 大連 116044)
關鍵字:學生成績;多維數(shù)據(jù);數(shù)據(jù)挖掘;K-means聚類算法
隨著國家教育信息化政策的不斷深化,醫(yī)學院校教育信息化的發(fā)展與建設也在不斷加強,先進的信息化技術和方法對醫(yī)學院校教育教學管理的各個方面都產(chǎn)生了深遠影響。
將傳統(tǒng)數(shù)據(jù)分析方法與大數(shù)據(jù)復雜算法相融合的數(shù)據(jù)挖掘技術引入到醫(yī)學院校教育教學管理中,對現(xiàn)有的大量多維度的教學管理數(shù)據(jù)進行多種角度、多種結合、多種維度的挖掘分析,找到對本校教育教學管理具有潛在價值的信息數(shù)據(jù),為學校教育管理人員提供決策輔助起到了至關重要的作用[1-2]。
在醫(yī)學院校本科生教學管理中,與學生相關的綜合信息數(shù)據(jù)是非常重要的一部分[3]。隨著教學信息量的大幅度增加,簡單的學生成績查詢、留存、統(tǒng)計等管理方法已經(jīng)無法對積累下來的海量數(shù)據(jù)進行深層的科學分析及預測。因此,采用數(shù)據(jù)挖掘技術,突出醫(yī)學院校專業(yè)特點,以本校部分本科學生的學習成績和多維數(shù)據(jù)(包括圖書借閱信息、校園一卡通消費行為信息、學生身體健康信息、師資力量信息等)作為研究對象,進行數(shù)據(jù)處理,采用聚類算法中的K-means算法分析了本校本科學生學習成績與多維數(shù)據(jù)之間的關系,根據(jù)本校實際教學管理工作進行具體分析并給出相關結論。
采用數(shù)據(jù)庫中的醫(yī)學本科生的業(yè)務數(shù)據(jù)(如學生成績數(shù)據(jù)等)及對數(shù)據(jù)挖掘分析有益的其它外部數(shù)據(jù)。
根據(jù)需求明確數(shù)據(jù)選擇,在專屬數(shù)據(jù)服務器上搭建了與數(shù)據(jù)挖掘目標有關的數(shù)據(jù)表,確定了表的具體結構。包括學生基本信息表(主要包括:姓名、性別、民族、年級、專業(yè)、學院、班級等信息)、圖書借閱基本信息表、學生成績信息表(主要包括:學號、學年、學期、課程類別、成績、學分、課程名稱等信息)、學生體質信息表(主要包括:姓名、性別、身高、體重、BMI評價等信息)等。
對已選擇的數(shù)據(jù)(本科生成績信息、本科生借閱信息、消費信息,本科生體質信息)進行數(shù)據(jù)清洗、屬性規(guī)約和數(shù)據(jù)變換的預處理操作。
(1)數(shù)據(jù)清洗。通過對所選本科生數(shù)據(jù)的分析,發(fā)現(xiàn)數(shù)據(jù)中存在許多缺失值(記錄為空或記錄為0)。由于原始醫(yī)學生信息數(shù)據(jù)量過大,且類似數(shù)據(jù)所占百分比較小,且對于該問題的分析效果影響不大,所以對這部分數(shù)據(jù)做丟棄刪除操作。
(2)屬性規(guī)約。醫(yī)學本科生原始數(shù)據(jù)中的值屬性太多,去除與建模不相關、弱相關或冗余的值屬性數(shù)據(jù)。
(3)數(shù)據(jù)變換。數(shù)據(jù)變化的主要作用是縮減該數(shù)據(jù)的維度,即從最初始的特征里面找到確確實實有效的特征,用來縮小挖掘數(shù)據(jù)時要顧慮的特征個數(shù)或變量的個數(shù)。依照需求的傾向,探求有效的特征來表現(xiàn)數(shù)據(jù),采用壓縮或變動控件的方式來縮減要顧慮的有用變量數(shù)量。
k-means算法[4](如圖1所示)是把一組包含多個范本的特征矩陣劃分成K個沒有交集的簇,從直觀角度來說,簇就是許多組聚在一起的數(shù)據(jù)。
圖1 K-means 算法示意圖
同一個簇中的數(shù)據(jù)可以視為是同一個類別,簇就是聚類結果表現(xiàn)。簇中所有數(shù)據(jù)的均值μ和j通常被稱為這個簇的“質心”,在一個二維平面中,一個簇有橫縱兩個坐標,簇的質心的橫縱坐標分別代表該簇數(shù)據(jù)點的橫豎坐標均值,同理可推廣至高維空間[5]。
采用傳統(tǒng)模型的屬性分析方法可以分析出目標學生群,但是由于分析得過于細化,分析出的學生群體過多,不僅會使數(shù)據(jù)挖掘分析效率降低還會影響我們對教學指導的針對性總結[6]。因此,本文將構建SCB模型來分析醫(yī)學院校學生用戶群體,識別出各類不同學生群體加以指導。
本文將學生成績(S)、學生消費情況(C)、學生圖書借閱信息(B)三個指標信息作為建模指標,命名為SCB模型,如表1所示。
表1 指標含義
使用K-means聚類算法對于已有的醫(yī)學生數(shù)據(jù),按照數(shù)據(jù)樣本之間的間隔大小,先確定劃分的K個簇(所有數(shù)據(jù)的集合,簇中對象是相似的),簇內聯(lián)系盡量緊密,簇間間隔盡可能大一些。用數(shù)據(jù)表達式表示,則最小化平方誤差E(平方誤差被用來評價模型,即值越小越接近質心,效果越好)
上述過程得到學生特征分析中的成績指標(S)、消費指標(C)和借閱指標(B),如表2所示,根據(jù)不同閾值設定優(yōu)勢特征和弱勢特征,學生群1在SCB的屬性大于閾值則定義為優(yōu)勢特征,學生群3在SCB的屬性小于閾值,則定義為劣勢特征。
表2 學生群體特征描述表
每個群體都有不同的表現(xiàn)特征,總結表2中的聚類結果,將所有群體的優(yōu)劣特征定義四個等級的類別:重要保持、重點發(fā)展、重點考察、重點監(jiān)督。
重要保持:這類醫(yī)學生的學習成績優(yōu)異,學習能力及學習主觀能動性強,對專業(yè)知識和本學科知識的把握能力較強。因此,對于這類醫(yī)學生需重點培養(yǎng)和提高學生“思學做”三位一體的能力,既要加強醫(yī)學理論和科學研究的創(chuàng)新性培養(yǎng),又要注重醫(yī)學實踐技術的動手操作能力,培養(yǎng)醫(yī)學生發(fā)現(xiàn)問題、主動思考的能力,并將所學的醫(yī)學理論與實際操作相結合。
重點發(fā)展:這類醫(yī)學生成績良好,但自主學習意識不強,是能夠通過積極正向引導而提高學習積極性的學生群體,具有很強的潛力價值。要知道,此類醫(yī)學生是具有較強的學習和實際操作能力的,只是在本專業(yè)的學習興趣上勢頭不足。對于這類學生,教學教育一定要注重對方式方法的研究,將重點放在興趣培養(yǎng)等主觀能動性激勵上,只有切實提高此類醫(yī)學生的學習積極性,才能幫助此類醫(yī)學生在專業(yè)上有所進步。
重點考察:這類醫(yī)學生成績徘徊在及格邊緣,只能基本掌握專業(yè)內容,對專業(yè)知識興趣不大,可以說是既沒有良好的學習習慣,也沒有想要鉆研醫(yī)學的精神。對這類醫(yī)學生群體首先要做的是培養(yǎng)良好的學習習慣,得讓他們先“坐”下來、“靜”下來,必要的時候,需要教育工作者用“外力”來推動此類醫(yī)學生學習,其次才是通過養(yǎng)成良好的學習習慣,逐步引導其對醫(yī)學的興趣和學習熱情,只有這樣才能針對性地解決此類醫(yī)學生的問題。
重點監(jiān)督:這類醫(yī)學生成績較差,沒有自主學習意識,甚至對本專業(yè)知識根本不感興趣。針對這類醫(yī)學生群體不能把目光只局限在知識學習上,要透過現(xiàn)象發(fā)現(xiàn)此類問題的本質,即教育工作者需要從多個角度、多個方面來考慮,包括學生的心理因素情況、學生的身體情況、興趣的引導情況、自身主觀能動性情況等,必要時可以考慮轉換專業(yè)。
本文通過對醫(yī)學院校學生的多維數(shù)據(jù)挖掘分析,將數(shù)據(jù)信息化手段引入高校教育教學,既保證了數(shù)據(jù)分析的科學性,又通過模型建設為多元化的本科醫(yī)學生數(shù)據(jù)評價提供了新的思路。同時,也為學校個性化教育的建立實施提供了理論基礎和數(shù)據(jù)支撐,幫助學校做出正確決策或調整策略,進一步深入學校教育教學管理和教育業(yè)務信息系統(tǒng)信息化建設,不斷提升學校數(shù)據(jù)信息化理念,著力解決機制不完善、內容單一等漏洞,得出一些可以推廣的理念和經(jīng)驗[7-8]。