石振強(qiáng)
摘要:數(shù)據(jù)挖掘在教育領(lǐng)域的應(yīng)用隨著數(shù)據(jù)的增多變得極為重要,該文主要針對(duì)在線評(píng)測(cè)系統(tǒng)中學(xué)習(xí)者相關(guān)數(shù)據(jù)集進(jìn)行分析與研究,構(gòu)造多個(gè)學(xué)習(xí)者特征,并以此對(duì)學(xué)習(xí)者進(jìn)行聚類分析,從而得出不同學(xué)習(xí)者之間的特點(diǎn),并對(duì)每類學(xué)習(xí)者進(jìn)行深入分析,挖掘出隱含信息。一方面教育者可以針對(duì)不同類別的學(xué)習(xí)者采取不同的教育策略,另一方面使學(xué)習(xí)者更好地了解自己,發(fā)現(xiàn)不足的原因。將挖掘到的知識(shí)應(yīng)用到教育環(huán)境中,不僅完善了在線教育平臺(tái),同時(shí)也使學(xué)習(xí)者和教育者達(dá)到了雙贏的目的。
關(guān)鍵詞:教育數(shù)據(jù)挖掘;在線評(píng)測(cè)系統(tǒng);學(xué)習(xí)者;特征;聚類分析
中圖分類號(hào):TP391 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2018)06-0154-03
1概述
隨著開源教育平臺(tái)的興起,教育數(shù)據(jù)挖掘技術(shù)融入教學(xué)已成為一種趨勢(shì),將教育系統(tǒng)的數(shù)據(jù)通過數(shù)據(jù)挖掘技術(shù)轉(zhuǎn)換為有用的知識(shí),并將挖掘到的知識(shí)再次應(yīng)用到教育環(huán)境中去,提供更多更客觀的反饋信息,一方面使教育者能夠更好地調(diào)整和優(yōu)化教學(xué)策略、改進(jìn)教學(xué)過程、完善課程開發(fā),基于學(xué)習(xí)者的學(xué)習(xí)情況來實(shí)現(xiàn)教學(xué)內(nèi)容組織、創(chuàng)新以及構(gòu)建教學(xué)模式等;另一方面可以使學(xué)習(xí)者更好地了解自己,有助于自己更好的學(xué)習(xí)。
本文中主要研究XXX大學(xué)在線評(píng)測(cè)系統(tǒng)(Online Judge,以下簡(jiǎn)稱OJ),此系統(tǒng)是學(xué)習(xí)者通過在線提交代碼,系統(tǒng)即時(shí)檢測(cè)代碼的正確性并給出判定結(jié)果。OJ中,存儲(chǔ)著學(xué)習(xí)者的相關(guān)數(shù)據(jù),通過分析這些數(shù)據(jù),更深入的了解學(xué)習(xí)者,以便針對(duì)不同類別學(xué)習(xí)者提供不同的教學(xué)方法。本文主要是通過分析學(xué)習(xí)者數(shù)據(jù),建立特征,得出不同類別學(xué)習(xí)者的特點(diǎn),使教學(xué)者有針對(duì)性做出策略。
2數(shù)據(jù)挖掘介紹
數(shù)據(jù)挖掘,就是從大量無序的數(shù)據(jù)中發(fā)現(xiàn)隱含的、有效的、有價(jià)值的、可理解的模式,進(jìn)而發(fā)現(xiàn)有用的知識(shí),并得出時(shí)間的趨向和關(guān)聯(lián),為用戶提供問題求解層次的決策支持能力。
隨著開源教育平臺(tái)的興起,平臺(tái)上的數(shù)據(jù)分析變得異常重要,將數(shù)據(jù)挖掘應(yīng)用在教育領(lǐng)域成為一種趨勢(shì)。如通過研究大規(guī)模教育數(shù)據(jù)中,可以為教育者提供更多潛在的不易發(fā)現(xiàn)的信息,以解決某教育中存在的問題,或者來預(yù)測(cè)學(xué)習(xí)者所需要的服務(wù)。
3問題提出
學(xué)習(xí)者數(shù)據(jù)存儲(chǔ)在數(shù)據(jù)庫(kù)中,因此在選取數(shù)據(jù)時(shí),可以直接從數(shù)據(jù)庫(kù)中導(dǎo)出數(shù)據(jù),然后在其中提取具有研究?jī)r(jià)值的完整的數(shù)據(jù)集。
如何更深入的了解學(xué)習(xí)者,挖掘出不同學(xué)習(xí)者之間的差異,以及如何找出需要進(jìn)行考前預(yù)警的學(xué)習(xí)者,是本文研究的重點(diǎn)。
3.1山東某大學(xué)在線評(píng)測(cè)系統(tǒng)學(xué)習(xí)者群體的數(shù)據(jù)介紹
自2011年以來,注冊(cè)用戶的提升和題目的增加,使OJ系統(tǒng)的學(xué)習(xí)者數(shù)據(jù)集更加完備,便于研究和學(xué)習(xí)分析。
OJ系統(tǒng)中的學(xué)習(xí)者主要涉及計(jì)算機(jī),軟件,網(wǎng)絡(luò),物聯(lián)網(wǎng),電科,數(shù)字媒體,信息安全,數(shù)學(xué)等專業(yè),學(xué)習(xí)者按時(shí)完成專業(yè)老師安排的作業(yè)和規(guī)定的考試,表1是五個(gè)年級(jí)學(xué)習(xí)者數(shù)據(jù)的匯總,表示學(xué)習(xí)者的對(duì)題目的提交情況。最終選取了2014級(jí),2015級(jí),2016級(jí)學(xué)習(xí)者數(shù)據(jù)。
3.2問題解決的角度
由于數(shù)據(jù)繁雜,各個(gè)年紀(jì)的學(xué)習(xí)者提交記錄都存儲(chǔ)在一個(gè)數(shù)據(jù)表中,學(xué)習(xí)者的分類僅僅依靠成績(jī)是不夠的,而且也是片面的,影響學(xué)習(xí)者做題的因素很多,所以對(duì)于學(xué)習(xí)者進(jìn)行有效的分析至關(guān)重要,對(duì)于教學(xué)者也有很好的幫助,可以對(duì)于不同學(xué)習(xí)者采取不同的教育方式。
不同于以往僅僅按照成績(jī)將學(xué)習(xí)者進(jìn)行優(yōu)良中差的分類,本文采取多個(gè)學(xué)習(xí)者特征,建立一個(gè)基于在線評(píng)測(cè)系統(tǒng)的學(xué)習(xí)者模型??朔藛我环诸悩?biāo)準(zhǔn)所得最終結(jié)果的片面化的弊端。
4學(xué)習(xí)者數(shù)據(jù)集的預(yù)處理
4.1數(shù)據(jù)集成
2011年以來,隨著題目數(shù)量的增加,在教學(xué)方面,題目數(shù)據(jù)的涵蓋的內(nèi)容越豐富,越有利于學(xué)習(xí)者學(xué)習(xí),從而才能更好地針對(duì)學(xué)習(xí)者的數(shù)據(jù)集進(jìn)行分析。所以,本文選取2014級(jí),2015級(jí),2016級(jí)的學(xué)習(xí)者數(shù)據(jù)。
數(shù)據(jù)集成主要將很多數(shù)據(jù)的屬性集合在一起,本文中主要將數(shù)據(jù)從數(shù)據(jù)庫(kù)中導(dǎo)出,按照學(xué)號(hào)的特點(diǎn),針對(duì)不同的年級(jí),不同的專業(yè),不同的班級(jí),依次整理,下圖是將2014級(jí)學(xué)習(xí)者的信息進(jìn)行集成。
表2 2014級(jí)總提交記錄
圖中包括提交號(hào),題號(hào),用戶,提交時(shí)間,用戶IP,競(jìng)賽號(hào),判題情況,代碼長(zhǎng)度,判題時(shí)間等,涵蓋了學(xué)習(xí)者在本系統(tǒng)的所有屬性。
4.2數(shù)據(jù)清理
數(shù)據(jù)清理試圖填充缺失的值,光滑噪聲并識(shí)別利群點(diǎn),糾正圖中數(shù)據(jù)的不一致性。去掉不合理的、異常的數(shù)據(jù),比如只注冊(cè)者、注冊(cè)學(xué)號(hào)不合法、學(xué)習(xí)者補(bǔ)考數(shù)據(jù)、缺失數(shù)據(jù)等。
對(duì)于學(xué)習(xí)者數(shù)據(jù)中,一些重要的屬性缺少屬性值,對(duì)于本部分的空缺,可以使用數(shù)據(jù)清理技術(shù)來填充。填補(bǔ)缺失值補(bǔ)全主要有下面幾個(gè)方法:
1)忽略缺失數(shù)據(jù);
2)人工填寫缺失值:此方式比較費(fèi)時(shí),數(shù)據(jù)量較小的情況下可以行得通;
3)使用均值填充;
4)使用最有可能的一個(gè)值進(jìn)行填充:通過回歸或者使用貝葉斯形式化的基于推理的工具或者決策樹歸納確定。
本文中的數(shù)據(jù)清理,選取學(xué)習(xí)者參與度較高的十四次程序設(shè)計(jì)基礎(chǔ)作業(yè)。
①因某種原因缺失作業(yè)較多學(xué)習(xí)者直接刪除,只缺少兩次甚至更少的學(xué)習(xí)者,通過其前幾次作業(yè)的做題情況,使用第四種方式填充。此方式主要用于學(xué)習(xí)者的做題時(shí)間。包括平均做題時(shí)間和每次作業(yè)的第一次提交時(shí)間。
②非法用戶、不按照學(xué)號(hào)形式注冊(cè)一律刪除。
③缺失值補(bǔ)全主要采用第四種方式進(jìn)行填充。
④刪除數(shù)據(jù)量過少的用戶,比如只登錄過幾次,或者提交次數(shù)過少。
⑤偏差檢測(cè),發(fā)現(xiàn)噪聲、離群點(diǎn)和需要考察的不尋常的數(shù)據(jù)。
通過數(shù)據(jù)清理,數(shù)據(jù)更加規(guī)范,合理。
4.3特征構(gòu)造
特征之間存在較高的相關(guān)度,而且很多特征可以通過計(jì)算減少特征的個(gè)數(shù)。
在線評(píng)測(cè)系統(tǒng)中,與學(xué)習(xí)者相關(guān)的重要特征主要為:提交次數(shù),正確提交次數(shù),做題個(gè)數(shù),正確率,做題時(shí)間(單位做題時(shí)間),作業(yè)提交首次時(shí)間平均值。
1)提交次數(shù):選取學(xué)習(xí)者學(xué)年總的提交次數(shù),通過統(tǒng)計(jì)每位學(xué)習(xí)者的提交的信息,包括其所有提交記錄:錯(cuò)誤次數(shù)、運(yùn)行錯(cuò)誤次數(shù)、正確次數(shù)、編譯錯(cuò)誤次數(shù)等
2)正確提交次數(shù):每一級(jí)學(xué)習(xí)者正確提交的次數(shù)
3)正確率:提交正確的題目個(gè)數(shù)與提交的題目個(gè)數(shù)之比;
4)正確做題個(gè)數(shù):選取程序設(shè)計(jì)基礎(chǔ)課程十三次作業(yè)中,學(xué)習(xí)者總的完成題目個(gè)數(shù)。
5)單位做題時(shí)間:選取第i次作業(yè)中第一次提交時(shí)間與最后一次正確提交時(shí)間之差,與此次作業(yè)中完成的題目數(shù)之比。
6)作業(yè)首次提交時(shí)間與作業(yè)開始時(shí)間間隔平均值:計(jì)算所有作業(yè)首次正確提交時(shí)間與作業(yè)開始時(shí)間間隔的平均值。
4.4特征描述
數(shù)據(jù)處理完成后,對(duì)于評(píng)測(cè)系統(tǒng)中學(xué)習(xí)者的數(shù)據(jù)集的各個(gè)特征所代表的含義如下:
正確做題數(shù)目:代表了學(xué)習(xí)者在在線評(píng)測(cè)系統(tǒng)中的完成度。
登錄次數(shù):代表了學(xué)習(xí)者在在線評(píng)測(cè)系統(tǒng)中的參與度。
總提交次數(shù):代表了學(xué)習(xí)者在在線評(píng)測(cè)系統(tǒng)中的嘗試次數(shù)。
正確率:代表了學(xué)習(xí)者在在線評(píng)測(cè)系統(tǒng)中的通過率。
平均做題時(shí)間:代表了學(xué)習(xí)者在在線評(píng)測(cè)系統(tǒng)中的做題效率。
首次正確提交時(shí)間:代表了學(xué)習(xí)者在在線評(píng)測(cè)系統(tǒng)中的積極度。
5聚類分析
聚類分析僅根據(jù)在提交記錄數(shù)據(jù)集中發(fā)現(xiàn)的描述學(xué)習(xí)者及其關(guān)系的信息,將學(xué)習(xí)者分組。其目標(biāo)是,組內(nèi)的學(xué)習(xí)者相互之間是相似的(相關(guān)的),而不同組中的學(xué)習(xí)者是不同的(不相關(guān)的)。組內(nèi)的學(xué)習(xí)者相似性越大,不同學(xué)習(xí)者組間差別越大,聚類就越好。
5.1算法實(shí)現(xiàn)
根據(jù)本文研究數(shù)據(jù),對(duì)個(gè)樣本點(diǎn)進(jìn)行一聚類,這里取n:
1)準(zhǔn)備數(shù)據(jù)集,選取2014年學(xué)習(xí)者的數(shù)據(jù)集(處理完成);
2)隨機(jī)選取個(gè)點(diǎn)作為數(shù)據(jù)集的聚類中心;
3)計(jì)算每個(gè)點(diǎn)到數(shù)據(jù)集聚類中心的距離,并聚類到離該點(diǎn)最近的聚類中去,此處距離采用歐式距離;
4)計(jì)算每個(gè)聚類中所有樣本點(diǎn)的坐標(biāo)平均值,并將這個(gè)平均值作為新的聚類中心;
5)重復(fù)3),計(jì)算每個(gè)點(diǎn)到聚類中心的距離,并聚類到離該點(diǎn)最近的聚類中去;
6)重復(fù)4),計(jì)算每個(gè)聚類中所有樣本點(diǎn)的坐標(biāo)平均值,并將這個(gè)平均值作為新的聚類中心。
5.2算法評(píng)估
聚類分析是無監(jiān)督的,并不像有監(jiān)督的算法可以有全面的評(píng)估函數(shù),對(duì)于聚類結(jié)果的好壞,本文使用輪廓系數(shù)來評(píng)估聚類結(jié)果的好壞。此方式也較為通用。
輪廓系數(shù)的檢驗(yàn)標(biāo)準(zhǔn)如下:
1)輪廓系數(shù)接近1,則說明樣本x聚類合理;
2)輪廓系數(shù)接近-1,則說明樣本x更應(yīng)該分類到另外的簇;
3)若輪廓系數(shù)近似為0,則說明樣本x在兩個(gè)簇的邊界上。
多次實(shí)驗(yàn)得出:當(dāng)聚類個(gè)數(shù)取到5時(shí),得到一個(gè)相對(duì)較好的聚類結(jié)果,所以本文選取聚類個(gè)數(shù)為5,即將學(xué)習(xí)者聚為5類。
5.3結(jié)果分析
通過選取的特征將學(xué)習(xí)者聚為5類,下面將詳細(xì)分析各類的特點(diǎn)。
第一類,屬于很積極的學(xué)習(xí)者,平均做題時(shí)間一般,努力型學(xué)習(xí)者。
第二類,很積極,平均做題時(shí)間快,聰明型學(xué)習(xí)者。但是一類二類學(xué)習(xí)者的通過率都很一般,詳細(xì)分析得出結(jié)論:因?yàn)檫@兩類學(xué)習(xí)者完成度高,由于做題數(shù)目很多,導(dǎo)致其通過率一般。
第三類,學(xué)習(xí)者表現(xiàn)最為不同,完成度低,但是通過率高,而且平均做題時(shí)間最快。對(duì)于此類學(xué)習(xí)者,進(jìn)行了詳細(xì)的分析。發(fā)現(xiàn)此類學(xué)習(xí)者存在作弊嫌疑,因?yàn)樽鲱}數(shù)目很少,正確率很高,但是發(fā)現(xiàn)他們的做題時(shí)間很快,深入分析發(fā)現(xiàn)他們每道題之間的間隔時(shí)間也很短。故此類學(xué)習(xí)者有作弊嫌疑。并且參考此類學(xué)習(xí)者,最終的成績(jī)往往不及格,應(yīng)該對(duì)此類學(xué)習(xí)者進(jìn)行考前預(yù)警。
第四類和第五類可以對(duì)比說明,前者屬于沉穩(wěn)型,后者屬于做題快而且通過率高,高效型學(xué)習(xí)者。
6總結(jié)與展望
根據(jù)上述分析,本文得出五類學(xué)習(xí)者之間的差異。并對(duì)每類進(jìn)行了更加深人的分析,針對(duì)每類學(xué)習(xí)者的情況,教育者可以更深入地了解學(xué)習(xí)者。有助于幫助教育者對(duì)于每類學(xué)習(xí)者采取不同的教育策略。同時(shí)可以使學(xué)習(xí)者更好地了解自己,在平時(shí)的學(xué)習(xí)中得到及時(shí)的反饋。數(shù)據(jù)挖掘技術(shù)應(yīng)用在教育環(huán)境中,并將挖掘出的知識(shí)反饋到教育環(huán)境中,促進(jìn)了教育事業(yè)的發(fā)展。
信息時(shí)代,必將有更多的先進(jìn)的技術(shù)應(yīng)用到教育領(lǐng)域,通過分析教育數(shù)據(jù),可以得到更多隱藏的信息,也勢(shì)必得到更多有用的知識(shí)。從教育環(huán)境中挖掘知識(shí),最終再反饋給教育環(huán)境,這樣有效的循環(huán),最終受益的還是學(xué)習(xí)者和教育者。