李鐵波
(吉林交通職業(yè)技術(shù)學(xué)院, 長(zhǎng)春 130000)
隨著信息技術(shù)的不斷發(fā)展,校園中各項(xiàng)服務(wù)管理平臺(tái)不斷增加,使得積累的數(shù)據(jù)呈海量增長(zhǎng),包括學(xué)生消費(fèi)規(guī)律、生活習(xí)慣以及學(xué)習(xí)情況等行為數(shù)據(jù),已經(jīng)形成了一個(gè)比較完整的校園大數(shù)據(jù)環(huán)境[1]。為實(shí)現(xiàn)校園數(shù)據(jù)的高效管理和共享,充分利用學(xué)生在校行為數(shù)據(jù)建設(shè)數(shù)字校園、智慧校園,使得校園信息化水平得以提升,需要采用數(shù)據(jù)挖掘方法優(yōu)化學(xué)生管理,根據(jù)學(xué)生的行為特性分析其行為規(guī)律,及時(shí)指導(dǎo)學(xué)生行為向全面、健康方向發(fā)展。因此,對(duì)學(xué)生行為進(jìn)行挖掘分析已成為學(xué)生管理的關(guān)鍵問(wèn)題。文獻(xiàn)[2]建立了學(xué)生校園行為分析預(yù)警系統(tǒng),通過(guò)挖掘?qū)W生行為和心理問(wèn)題,幫助管理者進(jìn)行宏觀決策,輔助教學(xué)安全管控;文獻(xiàn)[3]對(duì)學(xué)生網(wǎng)絡(luò)行為指標(biāo)和成績(jī)數(shù)據(jù)進(jìn)行挖掘,采用線性支持向量機(jī)、梯度上升樹(shù)和KNN等算法檢驗(yàn)了學(xué)生學(xué)習(xí)能力對(duì)學(xué)習(xí)成績(jī)的影響程度,并給出了需要對(duì)學(xué)生進(jìn)行干預(yù)的閾值;文獻(xiàn)[4]采用矩陣模式合并不同的數(shù)據(jù),并采用Hadoop分布式處理平臺(tái)提高大數(shù)據(jù)處理效率;文獻(xiàn)[5]采用決策樹(shù)、關(guān)聯(lián)規(guī)則、邏輯回歸3種數(shù)據(jù)挖掘方法對(duì)學(xué)生上網(wǎng)行為相關(guān)屬性與學(xué)生學(xué)習(xí)質(zhì)量之間的關(guān)系進(jìn)行了研究,實(shí)現(xiàn)了較好的預(yù)期效果。
基于此,針對(duì)目前學(xué)生信息化管理過(guò)程中存在的問(wèn)題,建立了基于校園大數(shù)據(jù)的學(xué)生行為分析與預(yù)測(cè)平臺(tái),圍繞大數(shù)據(jù)環(huán)境下學(xué)生消費(fèi)規(guī)律、生活習(xí)慣、學(xué)習(xí)情況等行為數(shù)據(jù),利用決策樹(shù)、神經(jīng)網(wǎng)絡(luò)以及樸素貝葉斯組合預(yù)測(cè)模型,分析學(xué)生行為特點(diǎn)和規(guī)律,對(duì)學(xué)生行為進(jìn)行預(yù)測(cè)和預(yù)警,便于學(xué)校掌握學(xué)生生活與學(xué)習(xí)動(dòng)態(tài),及時(shí)做好引導(dǎo),實(shí)現(xiàn)對(duì)學(xué)生的有效管理。
數(shù)據(jù)挖掘指在海量數(shù)據(jù)中提取隱含的具有潛在利用價(jià)值的信息,并通過(guò)分析為人們提供決策作用的過(guò)程。數(shù)據(jù)挖掘是一個(gè)不斷往復(fù)優(yōu)化的過(guò)程,主要包括數(shù)據(jù)預(yù)處理、數(shù)據(jù)挖掘以及模型評(píng)估,其流程如圖1所示。數(shù)據(jù)預(yù)處理是將雜亂的、不符合規(guī)則的數(shù)據(jù)進(jìn)行清洗和篩選,為數(shù)據(jù)挖掘提供數(shù)據(jù)基礎(chǔ);數(shù)據(jù)挖掘是在處理好的數(shù)據(jù)中提取有用信息的過(guò)程,是數(shù)據(jù)挖掘的核心環(huán)節(jié);最后要對(duì)模型進(jìn)行評(píng)估,以檢測(cè)結(jié)果是否達(dá)到預(yù)期要求[6]。
圖1 數(shù)據(jù)挖掘流程
對(duì)已有的信息進(jìn)行數(shù)據(jù)挖掘分類分析,可以得到預(yù)測(cè)模型。不同的模型,所用算法也各不相同,隨著研究的不斷深入,各種算法不斷被完善和優(yōu)化。根據(jù)研究?jī)?nèi)容,現(xiàn)只對(duì)決策樹(shù)、神經(jīng)網(wǎng)絡(luò)以及樸素貝葉斯算法進(jìn)行分析對(duì)比。
1) 決策樹(shù)分類方法、
決策樹(shù)是一種基于信息增益理論的預(yù)測(cè)模型,代表對(duì)象屬性與對(duì)象值之間的一種映射關(guān)系,是目前應(yīng)用最廣泛的數(shù)據(jù)分類算法之一。決策樹(shù)是一種樹(shù)形結(jié)構(gòu),包含了若干個(gè)節(jié)點(diǎn)和分支,分別代表某個(gè)屬性上的測(cè)試和測(cè)試輸出。決策樹(shù)分類精度高,易于理解和實(shí)現(xiàn),但不適合類別較多的數(shù)據(jù)結(jié)構(gòu)。常見(jiàn)的決策樹(shù)算法有ID3、C4.5/C5.0等[7],主要用于事件的預(yù)測(cè)分析,預(yù)測(cè)過(guò)程通常分兩步:一是構(gòu)建決策樹(shù),由訓(xùn)練樣本進(jìn)化而成;二是決策樹(shù)的剪技。對(duì)決策樹(shù)進(jìn)行檢驗(yàn)、校正,測(cè)試各節(jié)點(diǎn)的屬性值,對(duì)輸入數(shù)據(jù)進(jìn)行分類,然后用該類的屬性值完成預(yù)測(cè)對(duì)象的估計(jì)。例如預(yù)測(cè)用戶是否具有償還貸款的能力,可用圖2表示。
2) 神經(jīng)網(wǎng)絡(luò)分類方法
神經(jīng)網(wǎng)絡(luò)以海量數(shù)據(jù)并行處理和計(jì)算為基礎(chǔ),具有自學(xué)習(xí)和高速尋找優(yōu)化解的能力,通常用作數(shù)據(jù)分類、聚類及預(yù)測(cè)。BP神經(jīng)網(wǎng)絡(luò)是一種按誤差逆?zhèn)鞑ニ惴ㄓ?xùn)練的多層前饋網(wǎng)絡(luò),能學(xué)習(xí)和存貯大量的輸入和輸出映射關(guān)系,是目前應(yīng)用最廣泛的神經(jīng)網(wǎng)絡(luò)模型之一,其表達(dá)式為[8]:
H=fj(∑wijxi+θj)
(1)
式中:wij為網(wǎng)絡(luò)權(quán)重;θj為神經(jīng)網(wǎng)絡(luò)閾值;fj為激勵(lì)函數(shù);xi為網(wǎng)絡(luò)的輸入。
圖2 決策樹(shù)結(jié)構(gòu)模型
神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)和記憶具有不穩(wěn)定性,為完成對(duì)復(fù)雜非線性映射功能, BP神經(jīng)網(wǎng)絡(luò)采用有師學(xué)習(xí)方式進(jìn)行訓(xùn)練,如圖3所示,訓(xùn)練中以誤差最小為原則,逐層修正各閾值和權(quán)重系數(shù)。
圖3 BP神經(jīng)網(wǎng)絡(luò)訓(xùn)練過(guò)程
3) 樸素貝葉斯(NB)分類算法
樸素貝葉斯是一種簡(jiǎn)單的概率分類算法,是求解每個(gè)待分類實(shí)例在各個(gè)類別中的后驗(yàn)概率。設(shè)X表示屬性集,包含d個(gè)屬性,Y表示類變量,P(Y|X)為Y的后驗(yàn)概率,P(X|Y)表示類別Y的條件概率,P(Y)稱為先驗(yàn)概率?,F(xiàn)有一類別的標(biāo)號(hào)為y,以特征屬性間的相互獨(dú)立為前提,類條件概率可表示為:
(2)
由此可推導(dǎo)出樸素貝葉斯公式[9]:
(3)
算法流程如下:
① 設(shè)x=(a1,a2,…,an)為待分類樣本,aj=(j=1,2…,n)為樣本各屬性取值;
② 選取訓(xùn)練樣本,用n維向量X表示數(shù)據(jù)樣本,類標(biāo)簽集合為C=(c1,c2,…,cm);
③ 計(jì)算各屬性在給定類標(biāo)記下的條件概率;
④ 確定后驗(yàn)概率的大小;
⑤ 預(yù)測(cè)屬性集所屬類別。
針對(duì)上述分類算法的特點(diǎn),將決策樹(shù)、神經(jīng)網(wǎng)絡(luò)以及樸素貝葉斯3種分類算法進(jìn)行結(jié)合,構(gòu)建組合預(yù)測(cè)模型?,F(xiàn)構(gòu)造Lagrange函數(shù)[10]如下:
(α1xi+α2yi+α3zi-yi)2+
(α1xi+α2yi+α3zi-zi)2+
λ(α1xi+α2yi+α3zi-1)
(4)
式中:xi,yi,zi分別為3種模型的預(yù)測(cè)值;αk為模型的權(quán)重系數(shù),k=1,2,3;λ為L(zhǎng)agrange函數(shù)算子。變換后得到:
(5)
組合模型的預(yù)測(cè)流程為:
① 劃分?jǐn)?shù)據(jù)集,其中訓(xùn)練集樣本占60%,測(cè)試集樣本占40%;
② 分別選用3種分類算法對(duì)訓(xùn)練集進(jìn)行建模;
③ 在單一模型中對(duì)測(cè)試集中的樣本數(shù)據(jù)進(jìn)行預(yù)測(cè),得到預(yù)測(cè)結(jié)果;
④ 將步驟3中的預(yù)測(cè)結(jié)果代入式(4),計(jì)算權(quán)重系數(shù),建立組合預(yù)測(cè)模型;
⑤ 根據(jù)式(5)得出組合預(yù)測(cè)結(jié)果,具體流程如圖4所示。
圖4 組合模型預(yù)測(cè)流程
Spark是專為大規(guī)模數(shù)據(jù)處理而設(shè)計(jì)的快速通用的計(jì)算引擎,能更好地適用于數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)等需要迭代的算法[11-12]。針對(duì)上述問(wèn)題,建立了基于Spark的學(xué)生行為分析與預(yù)測(cè)平臺(tái),為提高數(shù)據(jù)處理效率,平臺(tái)采用分布式并行計(jì)算框架,如圖5所示。
圖5 平臺(tái)架構(gòu)與流程
平臺(tái)以校園各管理平臺(tái)中學(xué)生的消費(fèi)、考勤、成績(jī)以及圖書(shū)借閱等數(shù)據(jù)作為數(shù)據(jù)來(lái)源。首先,將經(jīng)過(guò)預(yù)處理后的學(xué)生數(shù)據(jù)存儲(chǔ)到分布式系統(tǒng) HDFS中,為確保數(shù)據(jù)轉(zhuǎn)換方便,以及數(shù)據(jù)與關(guān)系型數(shù)據(jù)庫(kù)中數(shù)據(jù)類型保持一致;其次,將數(shù)據(jù)進(jìn)行聚類分析,關(guān)聯(lián)規(guī)則挖掘,完成對(duì)學(xué)生行為分類、行為分析等工作,從而通過(guò)分析學(xué)生行為特征,預(yù)測(cè)學(xué)生生活規(guī)律和習(xí)慣。
預(yù)處理是整個(gè)數(shù)據(jù)挖掘過(guò)程中關(guān)鍵的步驟,包括對(duì)數(shù)據(jù)的采集、過(guò)濾、分析以及特征提取等幾個(gè)過(guò)程。其中數(shù)據(jù)采集是為了獲取學(xué)生行為數(shù)據(jù),通過(guò)校園“一卡通”等各管理平臺(tái)獲得;采集后的數(shù)據(jù)往往雜亂無(wú)章,需要進(jìn)行清洗過(guò)濾,以去除重復(fù)數(shù)據(jù)、異常值和缺失值,為數(shù)據(jù)挖掘提供良好的數(shù)據(jù)基礎(chǔ);數(shù)據(jù)分析是對(duì)過(guò)濾后的數(shù)據(jù)進(jìn)行進(jìn)一步認(rèn)識(shí)和管理;特征提取是將原始數(shù)據(jù)進(jìn)行變換,以此降低數(shù)據(jù)挖掘的復(fù)雜度,獲得準(zhǔn)確、有效的數(shù)據(jù)挖掘結(jié)果。通過(guò)分析數(shù)據(jù)可用性以及評(píng)價(jià)學(xué)生在校行為的指標(biāo),構(gòu)建學(xué)生行為特征庫(kù),如圖6所示。
圖6 學(xué)生在校行為特征指標(biāo)
1) 消費(fèi)規(guī)律
對(duì)學(xué)生在學(xué)校的消費(fèi)行為進(jìn)行分析,提取包括學(xué)生消費(fèi)習(xí)慣、月平均消費(fèi)額、學(xué)期消費(fèi)額、單筆最高消費(fèi)以及消費(fèi)頻次等在校消費(fèi)記錄作為數(shù)據(jù)特征來(lái)源,從而找出學(xué)生的消費(fèi)規(guī)律和消費(fèi)水平。
2) 學(xué)習(xí)情況
為了分析學(xué)生的努力程度和學(xué)習(xí)成績(jī),以課堂考勤率、圖書(shū)閱讀量、學(xué)習(xí)時(shí)長(zhǎng)、學(xué)習(xí)習(xí)慣以及課程通過(guò)率等作為數(shù)據(jù)特征來(lái)源進(jìn)行分析,從而了解學(xué)生平時(shí)的學(xué)習(xí)情況,掌握學(xué)習(xí)動(dòng)態(tài)。
3) 生活習(xí)慣
為了對(duì)學(xué)生的生活習(xí)慣進(jìn)行有效評(píng)價(jià),將學(xué)生的作息時(shí)間、身體鍛煉情況、上網(wǎng)時(shí)間以及活動(dòng)地點(diǎn)等作為評(píng)價(jià)指標(biāo),對(duì)采集的數(shù)據(jù)進(jìn)行分析,從而了解學(xué)生平時(shí)的生活習(xí)慣規(guī)律。
采用吉林交通職業(yè)技術(shù)學(xué)院數(shù)字化校園“一卡通”記錄以及各部門管理系統(tǒng)中的數(shù)據(jù)作為數(shù)據(jù)來(lái)源,包括10 000名在校學(xué)生從2016年10月到2018年10月的學(xué)生校園消費(fèi)記錄、圖書(shū)館借閱與自習(xí)記錄、校園網(wǎng)絡(luò)訪問(wèn)記錄、課堂學(xué)習(xí)與成績(jī)記錄以及體育鍛煉記錄數(shù)據(jù)等。首先,通過(guò)Sqoop工具將數(shù)據(jù)進(jìn)行轉(zhuǎn)換后導(dǎo)入到HDFS 中并完成對(duì)數(shù)據(jù)清洗等預(yù)處理;其次,對(duì)準(zhǔn)備好的數(shù)據(jù)進(jìn)行分析,建立學(xué)生行為特征庫(kù);最后,利用特征庫(kù)中的各項(xiàng)指標(biāo)為學(xué)校提供管理學(xué)生的決策。由于篇幅有限,這里只對(duì)與學(xué)生學(xué)習(xí)有關(guān)的數(shù)據(jù)進(jìn)行處理,以分析學(xué)生的努力程度。在Spark 平臺(tái)上依據(jù)努力程度可將學(xué)生劃分為8組,分析得到學(xué)生各指標(biāo)的平均值如表1所示。
由表1可見(jiàn):第2、3及6組的大部分學(xué)生學(xué)習(xí)比較刻苦,學(xué)習(xí)成績(jī)也比較高,占總?cè)藬?shù)的54.47%。只有少數(shù)的學(xué)生努力程度不夠,成績(jī)較差,占總?cè)藬?shù)的5.04%。其余部分的學(xué)生雖然成績(jī)合格,但努力程度還不夠,如果加以督促成績(jī)會(huì)有更大進(jìn)步。分析結(jié)果與真實(shí)情況基本一致,表明用所提出的方法進(jìn)行學(xué)生行為分析合理有效。
采用所構(gòu)建的組合預(yù)測(cè)模型對(duì)學(xué)生行為進(jìn)行分析預(yù)測(cè),通過(guò)平均相對(duì)誤差反映學(xué)生行為特征預(yù)測(cè)結(jié)果與真實(shí)值之間的關(guān)系,并與單一預(yù)測(cè)方法進(jìn)行對(duì)比。測(cè)試數(shù)據(jù)規(guī)模分別為200、500、1 000、2 000、5 000以及 10 000 名學(xué)生。預(yù)測(cè)平均相對(duì)誤差如圖7所示,學(xué)生典型行為特征指標(biāo)的平均相對(duì)誤差如圖8所示。
表1 學(xué)生努力程度分析結(jié)果
圖7 預(yù)測(cè)平均相對(duì)誤差
圖8 學(xué)生行為各指標(biāo)平均相對(duì)誤差
可見(jiàn),與傳統(tǒng)預(yù)測(cè)方法相比,本文提出的基于多算法組合的學(xué)生行為預(yù)測(cè)模型預(yù)測(cè)精度較高,平均相對(duì)誤差不超過(guò)5%,具有很好的預(yù)測(cè)效果。隨著預(yù)測(cè)學(xué)生人數(shù)的增加,平均相對(duì)誤差變化不大,預(yù)測(cè)精度基本保持穩(wěn)定,從而表明此預(yù)測(cè)模型的可擴(kuò)展性較高。各個(gè)學(xué)生行為特征指標(biāo)上的相對(duì)誤差分布比較均勻,說(shuō)明在各維度的學(xué)生行為特征上的平均相對(duì)誤差都比較小,適合多維學(xué)生行為的預(yù)測(cè)。
1) 探討了數(shù)據(jù)挖掘相關(guān)理論,對(duì)典型數(shù)據(jù)挖掘算法進(jìn)行分析,為提出新的預(yù)測(cè)模型提供基礎(chǔ)。
2) 利用學(xué)生校園行為數(shù)據(jù),構(gòu)建基于Spark的學(xué)生行為分析和預(yù)測(cè)平臺(tái),建立了以消費(fèi)規(guī)律、生活習(xí)慣以及學(xué)習(xí)情況等在校行為為指標(biāo)的評(píng)價(jià)體系,從而建立能夠描述學(xué)生個(gè)人行為的特征庫(kù),分析表明,所建平臺(tái)可有效預(yù)測(cè)學(xué)生在校行為,預(yù)測(cè)結(jié)果與實(shí)際情況相吻合。
3) 利用決策樹(shù)、神經(jīng)網(wǎng)絡(luò)以及樸素貝葉斯算法建立組合預(yù)測(cè)模型,對(duì)典型的學(xué)生行為作為實(shí)例進(jìn)行預(yù)測(cè)。預(yù)測(cè)結(jié)果表明:與傳統(tǒng)預(yù)測(cè)方法相比,所建組合模型預(yù)測(cè)精度高,可擴(kuò)展性好,平均誤差不超過(guò)5%,學(xué)??梢愿鶕?jù)學(xué)生的行為特性分析掌握學(xué)生生活與學(xué)習(xí)動(dòng)態(tài),以及時(shí)發(fā)現(xiàn)問(wèn)題,有效預(yù)警。