摘? 要:隨著信息化技術(shù)的不斷發(fā)展,智慧校園數(shù)據(jù)庫(kù)系統(tǒng)中積累了大量的數(shù)據(jù),而如何從這些數(shù)據(jù)中挖掘提取出有價(jià)值的、未知的信息,將對(duì)提高教學(xué)管理質(zhì)量具有重要意義。文章以高校智慧校園數(shù)據(jù)庫(kù)系統(tǒng)中存儲(chǔ)各類數(shù)據(jù)為數(shù)據(jù)源,提出建立一種交互可視化的學(xué)生成績(jī)預(yù)警模型,并利用數(shù)據(jù)挖掘的關(guān)聯(lián)規(guī)則技術(shù)對(duì)現(xiàn)有的教學(xué)歷史數(shù)據(jù)進(jìn)行分析和挖掘,為加強(qiáng)教學(xué)過(guò)程中的指導(dǎo)性,提高教學(xué)質(zhì)量,為同學(xué)們合理調(diào)整學(xué)習(xí)計(jì)劃、分配學(xué)習(xí)時(shí)間提供了科學(xué)的參考依據(jù)。
關(guān)鍵詞:數(shù)據(jù)挖掘;關(guān)聯(lián)規(guī)則;成績(jī)預(yù)警;大數(shù)據(jù)
中圖分類號(hào):TP391? 文獻(xiàn)標(biāo)識(shí)碼:A? 文章編號(hào):2096-4706(2023)18-0181-04
Research on Student Achievement Early Warning Modeling Based on Data Mining
LI Yanli
(Ordos Vocational College, Ordos? 017000, China)
Abstract: With the continuous development of information technology, there is a large amount of data accumulated in the smart campus database system. How to extract valuable and unknown information from the data will be of great significance for improving the quality of teaching management. This paper uses various types of data stored in the smart campus database system as the data source, proposes to establish an interactive and visual student achievement early warning model, and uses the association rule technology of data mining to analyze and mine existing teaching historical data. It provides a scientific reference basis for strengthening guidance in the teaching process, improving teaching quality, and providing students with a reasonable adjustment of learning plans and allocation of learning time.
Keywords: data mining; association rule; achievement early warning; Big Data
0? 引? 言
近年來(lái),學(xué)院教務(wù)管理系統(tǒng)堆放了海量的學(xué)生信息數(shù)據(jù)和學(xué)生成績(jī)數(shù)據(jù),一卡通系統(tǒng)中堆放了各類的消費(fèi)數(shù)據(jù)、圖書(shū)借閱數(shù)據(jù),以及校園網(wǎng)使用等日志數(shù)據(jù),目前上述的數(shù)據(jù)一般被用于記錄和查詢,或者較簡(jiǎn)單的統(tǒng)計(jì)分析,而它們隱藏的未知的價(jià)值信息還有待于提取和挖掘。本文提出建立一種利用數(shù)據(jù)挖掘技術(shù)挖掘基于智慧校園數(shù)據(jù)庫(kù)的學(xué)生成績(jī)預(yù)警模型,重點(diǎn)嘗試應(yīng)用數(shù)據(jù)挖掘中的經(jīng)典關(guān)聯(lián)規(guī)則技術(shù)對(duì)現(xiàn)存的教務(wù)數(shù)據(jù)庫(kù)數(shù)據(jù)進(jìn)行分析和挖掘。
1? 學(xué)生成績(jī)預(yù)警模型
本文所研究的成績(jī)預(yù)警模型將被分成數(shù)據(jù)采集處理階段、訓(xùn)練階段、測(cè)試階段以及預(yù)警階段四個(gè)階段,如圖1所示。
數(shù)據(jù)采集處理階段:數(shù)據(jù)采集階段將采用ETL 工具采集各類數(shù)據(jù),包括有學(xué)生教務(wù)系統(tǒng)數(shù)據(jù)、一卡通消費(fèi)數(shù)據(jù)、圖書(shū)館借閱數(shù)據(jù)以及校園網(wǎng)日志數(shù)據(jù),數(shù)據(jù)處理階段從上述數(shù)據(jù)庫(kù)中依次提取學(xué)生的行為特征,包括科目成績(jī)高低、圖書(shū)借閱行為次數(shù)、食堂超市消費(fèi)次數(shù)、上網(wǎng)流量和時(shí)長(zhǎng)等,并利用數(shù)據(jù)挖掘技術(shù)對(duì)提取到的這些特征與學(xué)生的成績(jī)間的相關(guān)性分析,提取出影響學(xué)生科目成績(jī)的關(guān)鍵因素。
訓(xùn)練階段:預(yù)警模型接受學(xué)生成績(jī)訓(xùn)練數(shù)據(jù)以及用戶設(shè)置的約束項(xiàng)參數(shù)值(支持度、置信度、興趣度),輸出成績(jī)預(yù)警規(guī)則庫(kù);
測(cè)試階段:輸入學(xué)生成績(jī)測(cè)試數(shù)據(jù),測(cè)試成績(jī)預(yù)警規(guī)則集的準(zhǔn)確率,用戶根據(jù)準(zhǔn)確率高低,判斷返回訓(xùn)練階段重新導(dǎo)出規(guī)則庫(kù),或者進(jìn)入下一步;
預(yù)警階段:用戶通過(guò)主觀興趣度約束,選擇目標(biāo)課程,預(yù)警模型從已有規(guī)則庫(kù)中篩選出感興趣的規(guī)則集,發(fā)布預(yù)警信息。并且預(yù)警信息使用具體科目名稱替換了訓(xùn)練階段的代碼表示,即使普通用戶也能理解。
1.1? 數(shù)據(jù)采集處理階段
1.1.1? 數(shù)據(jù)采集
本預(yù)警平臺(tái)處理的數(shù)據(jù)來(lái)源有一卡通數(shù)據(jù)庫(kù)系統(tǒng)、圖書(shū)館借閱數(shù)據(jù)庫(kù)系統(tǒng)、校園網(wǎng)日志數(shù)據(jù)庫(kù)系統(tǒng)以及教務(wù)系統(tǒng)成績(jī)數(shù)據(jù)庫(kù)系統(tǒng)。上述四個(gè)數(shù)據(jù)庫(kù)系統(tǒng)中的數(shù)據(jù)又稱為多源數(shù)據(jù),需進(jìn)行整合。本文建議采用數(shù)據(jù)倉(cāng)庫(kù)ETL(Extract-Transform-Load)技術(shù)進(jìn)行采集。同時(shí),為了保護(hù)學(xué)生的個(gè)人信息,本文建議使用MD5 加密技術(shù)對(duì)學(xué)生的學(xué)號(hào)進(jìn)行加密。數(shù)據(jù)采集階段的主要設(shè)計(jì)思路如下:
教務(wù)系統(tǒng)的采集字段:學(xué)號(hào)、性別、年齡、科目、成績(jī);
一卡通消費(fèi)數(shù)據(jù)的采集字段:學(xué)號(hào)、交易金額、交易類型、交易時(shí)間;
圖書(shū)借閱數(shù)據(jù)的采集字段:學(xué)號(hào)、圖書(shū)名、圖書(shū)ID、借閱日期;
網(wǎng)絡(luò)數(shù)據(jù)采集字段:學(xué)號(hào)、上線時(shí)間、下線時(shí)間、流量。
目前經(jīng)典關(guān)聯(lián)規(guī)則的研究對(duì)象起源于交易型數(shù)據(jù)庫(kù),挖掘?qū)ο髮傩孕铻椴紶栃蛿?shù)據(jù)。
1.1.2? 數(shù)據(jù)處理
通過(guò)ETL技術(shù)的應(yīng)用,已收集到所需的學(xué)生各類數(shù)據(jù)信息,不過(guò)這些原始數(shù)據(jù)大多都是記錄型數(shù)據(jù),無(wú)法直接被利用。需要對(duì)原始數(shù)據(jù)進(jìn)行行為特征的提取,然后再利用機(jī)器學(xué)習(xí)的模型對(duì)提取到的特征數(shù)據(jù)信息進(jìn)行數(shù)據(jù)分析和挖掘,從而得到有價(jià)值的數(shù)據(jù)信息。
目前,教務(wù)系統(tǒng)數(shù)據(jù)庫(kù)中的成績(jī)數(shù)據(jù)一般是數(shù)值數(shù)據(jù)(百分制)或者類別數(shù)據(jù)(五分制)。為滿足挖掘需求,需將成績(jī)數(shù)據(jù)轉(zhuǎn)換為可挖掘的對(duì)象。建議可將五分制成績(jī)轉(zhuǎn)換為數(shù)值數(shù)據(jù),再將數(shù)值數(shù)據(jù)統(tǒng)一劃分到對(duì)應(yīng)區(qū)間,即對(duì)應(yīng)類別。通常,這種轉(zhuǎn)換和統(tǒng)一劃分可能需要涉及科目缺考處理、同一科目多次成績(jī)處理、數(shù)據(jù)離散化處理、分制轉(zhuǎn)換處理以及數(shù)據(jù)集成與更迭處理等過(guò)程。最后可將成績(jī)劃分為低分、中分、高分三個(gè)區(qū)間,如0—75(L),76—85(M),86—100(H)。
圖書(shū)館的價(jià)值是學(xué)生可借閱或現(xiàn)場(chǎng)閱覽書(shū)籍或在圖書(shū)館進(jìn)行自習(xí),由于系統(tǒng)中主要記錄的是借閱圖書(shū)信息,現(xiàn)場(chǎng)閱覽信息沒(méi)有采集,本文將重點(diǎn)關(guān)注以學(xué)期為單位的借閱次數(shù),并將借閱頻繁度分為低、中、高三個(gè)區(qū)間,作為一個(gè)行為特征。
校園一卡通數(shù)據(jù)庫(kù)系統(tǒng)中記錄了學(xué)生的各類消費(fèi)數(shù)據(jù),如食堂吃飯消費(fèi)、超市消費(fèi)、打水消費(fèi)等,這些消費(fèi)記錄是學(xué)生在校生活的記錄。對(duì)于該消費(fèi)數(shù)據(jù),本文將以學(xué)期為單位統(tǒng)計(jì)學(xué)生一學(xué)期的食堂消費(fèi)總金額、超市消費(fèi)總金額(然后把消費(fèi)金額轉(zhuǎn)化為相應(yīng)的區(qū)間段)和學(xué)期總消費(fèi)次數(shù),作為關(guān)注的行為特征。另外,據(jù)觀察,學(xué)生是否吃早餐將影響其學(xué)習(xí)效果,也可將學(xué)期內(nèi)的早餐次數(shù)作為一個(gè)關(guān)注的行為特征。
校園網(wǎng)日志數(shù)據(jù)中,可將學(xué)生的上網(wǎng)時(shí)長(zhǎng)以及上網(wǎng)流量(需將記錄型數(shù)據(jù)進(jìn)行離散化處理)作為關(guān)注的兩個(gè)行為特征。
1.2? 訓(xùn)練階段
作為預(yù)警模型最重要的模塊,預(yù)警規(guī)則挖掘模塊的具體流程如圖2所示,其中生成頻繁項(xiàng)目集的過(guò)程采用了經(jīng)典的Apriori算法。
支持度、置信度的設(shè)置和使用同經(jīng)典的Apriori算法,但在實(shí)際使用過(guò)程中,我們發(fā)現(xiàn)僅僅使用支持度和置信度作為衡量標(biāo)準(zhǔn),有時(shí)會(huì)產(chǎn)生無(wú)意義的規(guī)則、規(guī)則集,為避免該情況,本文引入了客觀興趣度約束。目前對(duì)于客觀興趣度的度量算法有許多研究,比如Gini指標(biāo)(Gini Index)、PS公式以及確信度(Conviction)等。本文引入的客觀興趣度RI的計(jì)算方法如下:
RI = (confidence ( X=>Y ) - support ( Y ) )/
max{confidence ( X=>Y ),support ( Y ) }
RI計(jì)算結(jié)果基于挖掘數(shù)據(jù)集中關(guān)聯(lián)規(guī)則X=>Y的客觀興趣度,其計(jì)算結(jié)果在-1和1之間。如果某條規(guī)則RI小于0,則該規(guī)則無(wú)意義;如果某條規(guī)則RI大于0,則該規(guī)則有意義,RI值越接近于1,則該規(guī)則的實(shí)際使用意義就越大。
1.3? 測(cè)試階段
測(cè)試階段預(yù)警規(guī)則準(zhǔn)確率判斷標(biāo)準(zhǔn):
把采集處理過(guò)的數(shù)據(jù)集分為訓(xùn)練數(shù)據(jù)集(DTraning)和測(cè)試數(shù)據(jù)集(DTest)兩部分,R = {r1, r2, …, rn}為預(yù)警規(guī)則挖掘模塊計(jì)算出的強(qiáng)規(guī)則集。
測(cè)試階段,預(yù)警準(zhǔn)確率計(jì)算方法如下:
PR (r) = {T:X ∪ Y ? T,T ? DTest}/
{T:X ? T,T ? DTest}×100%
其中,PR (r)表示某條關(guān)聯(lián)規(guī)則r(X≥Y)的預(yù)警準(zhǔn)確率,PR (R)表示強(qiáng)規(guī)則集R(R = {r1, r2, …, rn})的預(yù)警準(zhǔn)確率。
1.4? 預(yù)警階段
預(yù)警階段,本文為進(jìn)一步精準(zhǔn)挖掘?qū)ο螅淹诰驅(qū)ο蠓殖捎幸饬x的、無(wú)意義的兩大類,引入了主觀興趣度約束。具體實(shí)施中,本文采用模板匹配的方式來(lái)精準(zhǔn)尋找用戶感興趣的規(guī)則或規(guī)則集。
強(qiáng)規(guī)則樣式:x1,x2,x3…=>y1,y2,y3…
模板樣式:X1,X2,X3…=>Y1,Y2,Y3…
如果強(qiáng)規(guī)則是模板樣式的實(shí)例,則匹配成功;反之則匹配失敗。
主觀興趣度約束首選選取感興趣的課程,然后逐條檢測(cè)規(guī)則X=>Y中是否包含選取的課程(X、Y都需檢測(cè)),如果包含則符合條件,反之則舍棄。例如主觀興趣度約束中選用了課程Q1和Q2,那么將產(chǎn)生如下4個(gè)模板有待匹配:
Q1,*=>*;*=>Q1,*;Q2,*=>*;*=>Q2,*(*表示任意一門(mén)課程或者包含該課程的組合體)
在算法實(shí)施過(guò)程之中,為了提升挖掘效率,規(guī)避規(guī)則的重復(fù)挖掘,將對(duì)挖掘出的強(qiáng)規(guī)則集逐條匹配生成的模板,匹配模板成功,則導(dǎo)出該規(guī)則,然后開(kāi)始下一條規(guī)則的匹配;匹配模板失敗,則繼續(xù)匹配下一個(gè)模板,若所有模板都匹配失敗,則丟棄該規(guī)則,實(shí)施下一條規(guī)則的匹配。
2? 模型設(shè)計(jì)與實(shí)現(xiàn)
在模型的實(shí)際實(shí)現(xiàn)過(guò)程中,由于一卡通等數(shù)據(jù)的保密性要求,本文集中采集某學(xué)院某系部某級(jí)的學(xué)生成績(jī),其中一部分作為訓(xùn)練數(shù)據(jù)集,在訓(xùn)練階段基于支持度、置信度、客觀興趣度約束的設(shè)置挖掘出有意義的強(qiáng)規(guī)則集;另一部分?jǐn)?shù)據(jù)作為測(cè)試數(shù)據(jù)集,對(duì)訓(xùn)練階段挖掘出的強(qiáng)規(guī)則集進(jìn)行測(cè)試,判斷預(yù)警模型的準(zhǔn)確率高低,驗(yàn)證該模型的可行性。最后選擇待預(yù)警課程,輸出預(yù)警信息。圖3為采用VC和SQL server設(shè)計(jì)并生成的系統(tǒng)主界面,以及通過(guò)相應(yīng)設(shè)置生成的預(yù)警信息。
2.1? 規(guī)則數(shù)與準(zhǔn)確率分析
在訓(xùn)練階段,分別設(shè)置minsupp為0.2、0.25、0.3和0.35,設(shè)置minconf為0.7、0.8、0.9、0.95,設(shè)置RI大于0,表1列舉了在各參數(shù)條件下提取出的強(qiáng)規(guī)則數(shù)目以及基于客觀興趣度約束的規(guī)則數(shù)和相應(yīng)的準(zhǔn)確率。觀察得到,強(qiáng)規(guī)則數(shù)目以及基于RI的規(guī)則數(shù)隨著minsupp、minconf設(shè)置的增加而不斷減少,minconf增加到0.9以上后,挖掘出的強(qiáng)規(guī)則集都滿足客觀興趣度約束。
從表1可以得到,本文所研究的預(yù)警模型在上述測(cè)試和訓(xùn)練數(shù)據(jù)源上的預(yù)警準(zhǔn)確率大于70%。而隨著支持度、置信度設(shè)置的不斷提升,最后的準(zhǔn)確率可達(dá)到92%。觀察又可得到,支持度的設(shè)置對(duì)預(yù)警準(zhǔn)確率的影響并不線性,而隨著置信度的不斷提升,預(yù)警準(zhǔn)確率則呈總體上升趨勢(shì)。分析判斷本文在訓(xùn)練階段挖掘的強(qiáng)規(guī)則集,在測(cè)試階段雖然支持度較低,但置信度偏高。
2.2? 興趣度分析
圖4是在minsupport = 0.2,minconfidence = 0.7,RI>0時(shí)導(dǎo)出的基于興趣度的規(guī)則集,此時(shí)minsupport,minconfidence設(shè)置均較小,導(dǎo)出的規(guī)則集相對(duì)較全面。觀察可發(fā)現(xiàn)興趣度的分布較集中,主要集中于0.1~0.2,其中只有個(gè)別規(guī)則達(dá)到了0.6。
因此論文只分析了客觀興趣度大于零的情況,沒(méi)有分析其具體變化對(duì)規(guī)則集、預(yù)警準(zhǔn)確率的影響。客觀興趣度代表了規(guī)則前項(xiàng)與規(guī)則后項(xiàng)的相關(guān)性,是一種統(tǒng)計(jì)意義上的規(guī)則。用戶可以在最后的預(yù)警信息發(fā)布階段重點(diǎn)關(guān)注興趣度相對(duì)較高的規(guī)則集。
2.3? 體育課程分析
設(shè)置minsupport = 0.2,minconfidence = 0.7,RI>0,由表1可知其預(yù)警規(guī)則數(shù)為22,預(yù)警準(zhǔn)確率為73.1%,并在預(yù)警階段只選擇一門(mén)課程,圖5是預(yù)警課程選擇體育時(shí),最后產(chǎn)生的預(yù)警信息。
觀察此預(yù)警信息,我們可以發(fā)現(xiàn)體育的預(yù)警信息集中于中間(Middle)成績(jī)段,這是因?yàn)轶w育成績(jī)的分布較集中,兩端成績(jī)較少。一個(gè)更重要的發(fā)現(xiàn)是體育相關(guān)規(guī)則集的置信度都很低,只有一條規(guī)則的置信度大于80%,而同樣的參數(shù)設(shè)置下,其他科目都有達(dá)到90%以上甚至100%的置信度。這說(shuō)明體育與其他科目的相關(guān)性都較低,這是由于體育是學(xué)生身體素質(zhì)的體現(xiàn),而其他科目成績(jī)是學(xué)生的思維、頭腦、學(xué)習(xí)能力、學(xué)習(xí)方法等方面的體現(xiàn)。
3? 結(jié)? 論
本文面向現(xiàn)實(shí)需求,提出建立一種利用數(shù)據(jù)挖掘技術(shù)挖掘基于智慧校園數(shù)據(jù)庫(kù)的學(xué)生成績(jī)預(yù)警模型,重點(diǎn)嘗試應(yīng)用數(shù)據(jù)挖掘中的經(jīng)典關(guān)聯(lián)規(guī)則技術(shù)對(duì)現(xiàn)存的教務(wù)數(shù)據(jù)庫(kù)數(shù)據(jù)進(jìn)行分析和挖掘。根據(jù)實(shí)驗(yàn)所得,文所研究的預(yù)警模型在測(cè)試和訓(xùn)練數(shù)據(jù)源上的預(yù)警準(zhǔn)確率大于70%。而隨著支持度、置信度設(shè)置的不斷提升,警準(zhǔn)確最高可達(dá)到92%。本文重點(diǎn)分析了三種類型的預(yù)警規(guī)則,還有很多信息有待挖掘與分析。利用挖掘得到的規(guī)則,找到各學(xué)科間的隱藏相關(guān)性,從而通過(guò)合理安排教學(xué)計(jì)劃和課程內(nèi)容,達(dá)到課程安排合理化,相關(guān)學(xué)科共同促進(jìn)、共同提高的目的;通過(guò)利用各科目間的相關(guān)性、學(xué)習(xí)知識(shí)間的相關(guān)性以及學(xué)習(xí)興趣的可遷移性,促使學(xué)生從優(yōu)勢(shì)學(xué)科著手,提升稍遜一籌的科目,最終達(dá)到優(yōu)勢(shì)互補(bǔ)、均衡發(fā)展的目的,輔助學(xué)院制定更加科學(xué)的人才培養(yǎng)方案,改善課程結(jié)構(gòu),優(yōu)化教學(xué)體系,提升學(xué)院的人才培養(yǎng)質(zhì)量。
不過(guò)在實(shí)驗(yàn)過(guò)程中也發(fā)現(xiàn),本文挖掘出的預(yù)警規(guī)則有時(shí)只是一種統(tǒng)計(jì)學(xué)概念上的規(guī)律,而有些研究者認(rèn)為明顯不相關(guān)的課程卻存在較強(qiáng)的相關(guān)性,剖析其根由,或許是上述課程間在思維邏輯、教學(xué)方式、自學(xué)方法等方面存在相似性??偟亩?,該模型及其方法在實(shí)踐上是有效的。
參考文獻(xiàn):
[1] 蘇新寧,楊建林.數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘 [M].北京:清華大學(xué)出版社,2006:149.
[2] 尹茂竹.基于大數(shù)據(jù)的高校學(xué)生學(xué)業(yè)成績(jī)預(yù)警分析 [D].天津:天津商業(yè)大學(xué),2018.
[3] 郭鵬.基于校園一卡通數(shù)據(jù)的學(xué)生消費(fèi)行為與成績(jī)的關(guān)聯(lián)性研究 [D].楊凌:西北農(nóng)林科技大學(xué),2019.
[4] 劉云久,徐丹,孫超,等.基于機(jī)器學(xué)習(xí)的水電趨勢(shì)預(yù)警系統(tǒng)設(shè)計(jì) [J].水電站機(jī)電技術(shù),2021,44(3):11-13+19+119.
[5] DATTA S,BOSE S. Mining and ranking association rules in support,confidence,correlation,and dissociation framework [C]//Proceedings of the 4th International Conference on Frontiers in Intelligent Computing:Theory and Applications(FICTA).Springer,2015:141-152.
作者簡(jiǎn)介:李艷麗(1985.12—),女,漢族,湖北鐘祥人,講師,碩士,研究方向:數(shù)據(jù)挖掘、計(jì)算機(jī)網(wǎng)絡(luò)。