陳萍
(廣東青年職業(yè)學(xué)院計(jì)算機(jī)工程系,廣東廣州 510507)
基于聚類技術(shù)的網(wǎng)絡(luò)學(xué)習(xí)行為數(shù)據(jù)分析研究
陳萍
(廣東青年職業(yè)學(xué)院計(jì)算機(jī)工程系,廣東廣州 510507)
在“互聯(lián)網(wǎng)+”時(shí)代,網(wǎng)絡(luò)學(xué)習(xí)已經(jīng)成為學(xué)校教育教學(xué)的重要組成部分。文章選取某高職院?!队?jì)算機(jī)應(yīng)用基礎(chǔ)》網(wǎng)絡(luò)課程為分析對(duì)象,運(yùn)用聚類技術(shù)對(duì)高職院校學(xué)生在線學(xué)習(xí)行為進(jìn)行數(shù)據(jù)分析,建立學(xué)生特征分類模型,為教師優(yōu)化教學(xué)提供決策參考、為學(xué)生推送學(xué)習(xí)建議,以提高網(wǎng)絡(luò)教學(xué)的效果。
聚類技術(shù);網(wǎng)絡(luò)學(xué)習(xí)行為;計(jì)算機(jī)應(yīng)用基礎(chǔ);數(shù)據(jù)分析
隨著移動(dòng)互聯(lián)網(wǎng)、云計(jì)算、大數(shù)據(jù)為特征的新一代信息技術(shù)的快速發(fā)展,學(xué)生獲取知識(shí)的方式也與時(shí)俱進(jìn),結(jié)合在線學(xué)習(xí)和面授教學(xué)的混合式學(xué)習(xí)方式正在高職院校日益興起。作為一名高職教師,作者積極參與學(xué)院的網(wǎng)絡(luò)教學(xué)資源建設(shè),運(yùn)用網(wǎng)絡(luò)信息技術(shù)手段進(jìn)行教學(xué)。同時(shí),在教學(xué)實(shí)踐中產(chǎn)生了一些困惑:學(xué)生的考試成績(jī)與其在線學(xué)習(xí)行為、特征是否有關(guān)聯(lián)呢?什么樣的學(xué)習(xí)行為是有效的?教師該如何優(yōu)化網(wǎng)絡(luò)課程,為學(xué)生提供更具有個(gè)性化的教學(xué)服務(wù)?同時(shí),發(fā)現(xiàn)學(xué)院的教學(xué)管理信息系統(tǒng)、網(wǎng)絡(luò)自主學(xué)習(xí)平臺(tái)積累了大量的教學(xué)數(shù)據(jù),比如學(xué)生的基本信息、登陸數(shù)據(jù)、闖關(guān)學(xué)習(xí)、測(cè)試及學(xué)習(xí)交流等數(shù)據(jù)。因此,希望借助聚類技術(shù)等數(shù)據(jù)挖掘方法,對(duì)學(xué)生在線學(xué)習(xí)數(shù)據(jù)進(jìn)行分析,探索問(wèn)題的答案。
2.1 基本概念
數(shù)據(jù)挖掘(Data Mining)是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的,但又潛在有用的信息和知識(shí)的過(guò)程[1]。近年來(lái),信息化引領(lǐng)著教育模式不斷創(chuàng)新,在線學(xué)習(xí)系統(tǒng)、智能手機(jī)應(yīng)用、社交網(wǎng)絡(luò)、MOOC課程等提供了大量的數(shù)據(jù),教育數(shù)據(jù)挖掘及分析也成為教育領(lǐng)域的熱點(diǎn)。
聚類分析是數(shù)據(jù)挖掘應(yīng)用的主要技術(shù)之一,可作為發(fā)現(xiàn)數(shù)據(jù)分布和模式的獨(dú)立工具。例如,在保健業(yè),聚類分析腰椎間盤突出患者有哪些不良的生活習(xí)慣,可以幫助預(yù)防和保??;在證券業(yè),可以聚類分析客戶的投資熱點(diǎn)板塊。聚類分析屬于動(dòng)態(tài)分類的方法,分類的數(shù)目是未知的,把數(shù)據(jù)集分為若干不同類別,使同類數(shù)據(jù)盡可能相似,異類數(shù)據(jù)盡可能相異。
2.2 K-means聚類算法
聚類分析包含許多算法,其中基于距離的方法最直觀,劃分聚類算法就是其中的一種,劃分聚類算法中最常用的方法是K-means聚類算法,其他許多方法都是在此基礎(chǔ)上演變的。聚類算法K-means是一種被廣泛應(yīng)用于科學(xué)研究的經(jīng)典算法,許多統(tǒng)計(jì)分析工具軟件包都使用它來(lái)進(jìn)行聚類分析。算法的核心思想是通過(guò)迭代,把數(shù)據(jù)集劃分為聚類性能最優(yōu)的不同類別。算法主要步驟如下:
(1)在包含m個(gè)數(shù)據(jù)對(duì)象的數(shù)據(jù)集中,任意選p個(gè)作為聚類中心的初始點(diǎn)。
(2)計(jì)算每個(gè)數(shù)據(jù)對(duì)象與聚類中心初始點(diǎn)的距離,并把它劃分到距離最近的初始點(diǎn)所表示的類別中。
(3)重新計(jì)算每個(gè)有變化聚類的均值。
(4)循環(huán)執(zhí)行(2)到(3)直到每個(gè)聚類比較穩(wěn)定,即誤差平方和標(biāo)準(zhǔn)函數(shù)的值為最優(yōu)。
(5)輸出聚類的最終結(jié)果。
3.1 確定挖掘目標(biāo)
近幾年,高職院校的《計(jì)算機(jī)應(yīng)用基礎(chǔ)》課程普遍采用“網(wǎng)絡(luò)自主學(xué)習(xí)平臺(tái)+線下課堂教學(xué)”的混合式教學(xué)模式,課堂教學(xué)的學(xué)時(shí)大量縮減。作為公共必修課,學(xué)院往往要求非計(jì)算機(jī)專業(yè)學(xué)生要通過(guò)計(jì)算機(jī)I級(jí)考證,而學(xué)生個(gè)體之間存在較大的差異性,因此,要提高考證通過(guò)率,教師要引導(dǎo)學(xué)生有效地進(jìn)行網(wǎng)絡(luò)自主學(xué)習(xí)。
已有研究,網(wǎng)絡(luò)學(xué)習(xí)行為與網(wǎng)絡(luò)學(xué)習(xí)效果有密切相關(guān)[2]。因此,通過(guò)網(wǎng)絡(luò)學(xué)習(xí)平臺(tái)獲取學(xué)生的學(xué)習(xí)行為數(shù)據(jù),應(yīng)用聚類技術(shù),建立學(xué)習(xí)者特征模型,有利于教師掌握學(xué)生的學(xué)習(xí)特征,從而優(yōu)化教學(xué)策略。
3.2 數(shù)據(jù)采集
本研究選取某高職院?!队?jì)算機(jī)應(yīng)用基礎(chǔ)》網(wǎng)絡(luò)自主學(xué)習(xí)平臺(tái)2015級(jí)新生的數(shù)據(jù)作為數(shù)據(jù)源,保存為excel格式,格式如表1所示;選取由廣東省高等學(xué)校教學(xué)考試管理中心提供的學(xué)生期末考證成績(jī)表,保存為excel格式,如表2所示。
表1 自主學(xué)習(xí)情況表
表2 考證成績(jī)表
3.3 數(shù)據(jù)預(yù)處理
根據(jù)原始數(shù)據(jù)表,采用Microsoft SQL Server 2008建立數(shù)據(jù)庫(kù)。數(shù)據(jù)表包括:
(1)自主學(xué)習(xí)情況表(study_student),該數(shù)據(jù)表主要包含的字段有student_ID(學(xué)號(hào))、name(姓名)、major(專業(yè))、class(班級(jí))、cgcs(闖關(guān)次數(shù))、cgds(闖關(guān)點(diǎn)數(shù))、passds(通過(guò)點(diǎn)數(shù))等信息。
(2)考證成績(jī)表(score_student),該數(shù)據(jù)表主要包含的字段有department(系別)、major(專業(yè))、class(班級(jí))、student_ID(學(xué)號(hào))、kzcj(考證成績(jī))等信息。
為了有效挖掘,需要對(duì)以上數(shù)據(jù)表進(jìn)行數(shù)據(jù)清理,避免出現(xiàn)包含噪聲、不完整、不一致的數(shù)據(jù)。例如采用忽略元組法將缺考、休學(xué)、退學(xué)、轉(zhuǎn)學(xué)學(xué)生的相應(yīng)記錄刪除;個(gè)別學(xué)生由于某些原因,沒(méi)有正確錄入分?jǐn)?shù)的,把分?jǐn)?shù)補(bǔ)錄正確。通過(guò)數(shù)據(jù)預(yù)處理,采集到1359條有效數(shù)據(jù)記錄。
根據(jù)聚類分析挖掘需要,把自主學(xué)習(xí)情況表(study_student)和考證成績(jī)表(score_student)結(jié)合生成一張新的數(shù)據(jù)表,并根據(jù)經(jīng)驗(yàn)選擇網(wǎng)絡(luò)學(xué)習(xí)行為,將對(duì)分析影響較小的一些冗余字段(如姓名、考試時(shí)間、考場(chǎng)、系別等)和意義相似的重復(fù)字段(如闖關(guān)點(diǎn)數(shù))刪除,得到挖掘目標(biāo)數(shù)據(jù)表。kmeans聚類算法不適合處理離散型屬性,因此數(shù)據(jù)集采用連續(xù)性描述屬性,建立挖掘模型結(jié)構(gòu)如表3所示。
表3 學(xué)生網(wǎng)絡(luò)學(xué)習(xí)行為聚類分析的建模數(shù)據(jù)結(jié)構(gòu)
3.4 聚類分析的應(yīng)用
采用Microsoft SQL Server 2008 Analysis Service(SSAS)的K-means算法進(jìn)行挖掘,算法運(yùn)行的硬件平臺(tái):Intel Core I3-3220、4G內(nèi)存,軟件平臺(tái):Windows7、SQL Server 2008。將考證成績(jī)(kzcj)作為主要預(yù)測(cè)對(duì)象,闖關(guān)次數(shù)(cgcs)和通過(guò)點(diǎn)數(shù)(passds)作為輸入對(duì)象,建立聚類挖掘模型。
用K-means聚類算法進(jìn)行數(shù)據(jù)挖掘,得到網(wǎng)絡(luò)學(xué)習(xí)行為的主要分類,如圖1所示。在分類剖面圖中,每個(gè)分類屬性以及屬性的分布顯而易見(jiàn),列標(biāo)題處顯示各分類的統(tǒng)計(jì)數(shù)據(jù)。菱形圖顯示連續(xù)屬性,表示每個(gè)分類的平均偏差和標(biāo)準(zhǔn)偏差。在7個(gè)分類中,學(xué)生人數(shù)最多的是分類1、分類2、分類3。分類1中網(wǎng)絡(luò)學(xué)習(xí)行為cgcs和passds的值適中,分類2中cgcs和passds的值較大,分類4中cgcs和passds的值偏低。
圖1 聚類挖掘分類剖面圖
3.5 聚類挖掘結(jié)果分析
通過(guò)分析學(xué)生網(wǎng)絡(luò)學(xué)習(xí)行為分類剖面圖,歸納出以下幾種存在顯著差異的網(wǎng)絡(luò)學(xué)習(xí)行為特征:
A類:學(xué)習(xí)積極型。此類的典型代表是分類2,人數(shù)較多;學(xué)生在學(xué)習(xí)方面積極追求上進(jìn),闖關(guān)次數(shù)和通過(guò)點(diǎn)數(shù)非常高,考證成績(jī)優(yōu)良。分類2的特征表現(xiàn)為:闖關(guān)次數(shù)(cgcs)的值介于89到135之間,平均值為112.01;通過(guò)點(diǎn)數(shù)(passds)的值介于80到93之間,平均值是88.6;考證平均成績(jī)?yōu)?1.23分。
B類:學(xué)習(xí)中等型。此類的典型代表是分類1,人數(shù)最多;學(xué)生在學(xué)習(xí)方面表現(xiàn)一般,各項(xiàng)指標(biāo)適中,考證成績(jī)也一般。分類1的特征表現(xiàn)為:闖關(guān)次數(shù)(cgcs)的值介于36到76之間,平均值為55.69;通過(guò)點(diǎn)數(shù)(passds)的值介于27到64之間,平均值為45.59;考證平均成績(jī)?yōu)?2.07分。
C類:學(xué)習(xí)危機(jī)型。此類的典型代表是分類5和分類6,學(xué)生的闖關(guān)次數(shù)和通過(guò)點(diǎn)數(shù)偏低,學(xué)習(xí)效率偏低,考試不及格率偏高。分類5的特征表現(xiàn)為:闖關(guān)次數(shù)(cgcs)的值介于13到33之間,平均值為23.1;通過(guò)點(diǎn)數(shù)(passds)的值介于9到26之間,平均值為17.71;考證平均成績(jī)?yōu)?4.43分,考試不及格率較高,達(dá)到40.24%。分類6的考試不及格率次高,達(dá)到33.9%,具體特征為:闖關(guān)次數(shù)(cgcs)的值介于28到41之間,平均值為34.62;通過(guò)點(diǎn)數(shù)(passds)的值介于24到32之間,平均值為28.25;考證平均成績(jī)?yōu)?6.65分。
D類:學(xué)習(xí)消極型。此類的典型代表是分類4,學(xué)生學(xué)習(xí)積極性非常低,闖關(guān)次數(shù)和通過(guò)點(diǎn)數(shù)非常低,考試成績(jī)不及格可能性最高,達(dá)到70.95%。具體特征表現(xiàn)為:闖關(guān)次數(shù)(cgcs)的值介于0到17之間,平均值為8.89;通過(guò)點(diǎn)數(shù)(passds)的值介于0到12之間,平均值是6.11;考證平均成績(jī)?yōu)?2.52分。
通過(guò)學(xué)生網(wǎng)絡(luò)學(xué)習(xí)行為特征的分析,教師可及時(shí)發(fā)現(xiàn)學(xué)生學(xué)習(xí)上的問(wèn)題并“因材施教”。
(1)針對(duì)A類層次學(xué)生,給予高度的贊揚(yáng),向他們推薦一些與專業(yè)結(jié)合的,注重能力和技能的培養(yǎng)的綜合實(shí)訓(xùn)案例,甚至推薦拓展學(xué)習(xí)課程,比如計(jì)算機(jī)二級(jí)課程辦公軟件高級(jí)、Photoshop圖像處理等。
(2)針對(duì)B類層次學(xué)生,找準(zhǔn)切入點(diǎn),適當(dāng)給予激勵(lì)。中等生往往有“比上不足,比下有余”的心理,教師要善于發(fā)現(xiàn)他們身上的閃光點(diǎn),也是激勵(lì)他們進(jìn)取的切入點(diǎn),引導(dǎo)學(xué)生進(jìn)行自主學(xué)習(xí)與協(xié)作學(xué)習(xí),注重實(shí)踐動(dòng)手能力的提高。教師可提供反應(yīng)學(xué)科前沿的相關(guān)案例,激發(fā)學(xué)生思考;提供綜合能力測(cè)試題,鼓勵(lì)他們多做多練,爭(zhēng)取穩(wěn)中有提升和突破。
(3)針對(duì)C類層次學(xué)生,要增強(qiáng)他們的危機(jī)意識(shí),避免考試不及格。教師需要定期檢查和督促他們的學(xué)習(xí)進(jìn)度,向他們推薦一些重點(diǎn)知識(shí)點(diǎn),提供重點(diǎn)習(xí)題、重點(diǎn)復(fù)習(xí)資料,傳授學(xué)習(xí)方法與技巧,爭(zhēng)取提高考試通過(guò)率。
(4)針對(duì)D類層次學(xué)生,給予嚴(yán)肅的批評(píng)教育,并提供課程導(dǎo)學(xué)資料、基礎(chǔ)練習(xí)和復(fù)習(xí)資料,安排優(yōu)秀學(xué)生給予“一對(duì)一”學(xué)習(xí)幫扶,幫助學(xué)生逐步建立學(xué)習(xí)的自信心。
通過(guò)觀察四類學(xué)生特征,可以預(yù)見(jiàn):加強(qiáng)網(wǎng)絡(luò)自主學(xué)習(xí)、加強(qiáng)知識(shí)點(diǎn)的在線闖關(guān)測(cè)試對(duì)學(xué)生考證所起的積極作用較大。
有學(xué)者指出:網(wǎng)絡(luò)課程結(jié)構(gòu)體系相對(duì)完整,學(xué)生網(wǎng)上學(xué)習(xí)時(shí)間和次數(shù)就會(huì)增長(zhǎng)[3]。因此,教師要優(yōu)化網(wǎng)絡(luò)平臺(tái)的學(xué)習(xí)資源,設(shè)計(jì)分層次學(xué)習(xí)資源,以滿足不同層次學(xué)生的學(xué)習(xí)需求;跟蹤學(xué)科動(dòng)態(tài),增強(qiáng)課程的吸引力,提高學(xué)生學(xué)習(xí)興趣;設(shè)計(jì)計(jì)算機(jī)水平摸底考試,幫助學(xué)生認(rèn)識(shí)自己的信息技術(shù)起點(diǎn)水平,制定學(xué)習(xí)目標(biāo)和計(jì)劃,選擇合適的學(xué)習(xí)方法,有計(jì)劃地自主學(xué)習(xí);激勵(lì)學(xué)生爭(zhēng)當(dāng)積極型學(xué)習(xí)分子,及時(shí)發(fā)現(xiàn)和解決疑惑知識(shí)點(diǎn),切忌臨考抱佛腳。
本文采用了聚類分析方法對(duì)學(xué)生網(wǎng)絡(luò)學(xué)習(xí)行為進(jìn)行分析,讓教師更深入地了解學(xué)生,為“因材施教”提供決策參考,輔助修正學(xué)生不良的網(wǎng)絡(luò)學(xué)習(xí)行為,向?qū)W生推薦好的網(wǎng)絡(luò)學(xué)習(xí)策略、學(xué)習(xí)資源。數(shù)據(jù)挖掘的方法很多,在實(shí)際應(yīng)用中,還可以用其他方法或者多種方法結(jié)合起來(lái)進(jìn)行分析研究。實(shí)踐表明,對(duì)大量的數(shù)據(jù)進(jìn)行挖掘和分析,可以幫助我們更好地提升網(wǎng)絡(luò)教學(xué)效果。
[1]Han,M Kamber.Data Mining:Concepts and Techniques[M].San Mateo,CA:Morgan Kaufmann,2001.
[2]傅鋼善,王改花.基于數(shù)據(jù)挖掘的網(wǎng)絡(luò)學(xué)習(xí)行為與學(xué)習(xí)效果研究[J].電化教育研究,2014(9):53.
[3]孫瑩,程華,萬(wàn)浩.基于數(shù)據(jù)挖掘的遠(yuǎn)程學(xué)習(xí)者網(wǎng)上學(xué)習(xí)行為研究[J].中國(guó)遠(yuǎn)程教育,2008(5):44-47.
Analysis of Network Learning Behavior Data Based on Clustering Technology
Chen Ping
(Guangdong Youth Vocational College,Guangzhou 510507,Guangdong)
tract】 In the era of"Internet+",online learning has become an important part of school education.This paper takes the course of Foundation of Computer Application as the analysis object;uses the clustering technology to analyze the online learning behavior data of higher vocational college students;establishes the classification model of student characteristics,to provide decision-making reference for teachers and learning advice for students,to improve the effect of network teaching.
words】 clustering technology;network learning behavior;foundation of computer application;data analysis
TP311
A
1008-6609(2017)04-0031-03
陳萍(1976-),女,廣東湛江人,碩士,講師,研究方向?yàn)閿?shù)據(jù)庫(kù)應(yīng)用、計(jì)算機(jī)教育等。
廣東青年職業(yè)學(xué)院校級(jí)科研項(xiàng)目,項(xiàng)目編號(hào):Y B 201401。