楊春光
摘要:在當(dāng)今社會中,“大數(shù)據(jù)”這個名詞的出現(xiàn),越來越影響著我們的生活,在教育領(lǐng)域中“大數(shù)據(jù)”的應(yīng)用更是逐漸被重視,該文正是將“大數(shù)據(jù)”的處理融入教育中,通過功能需求、技術(shù)需求及數(shù)據(jù)需求進(jìn)行深入分析和整合,然后再根據(jù)規(guī)則權(quán)重的不同分為消極類型和積極類型,與此同時按照分類規(guī)則設(shè)計公式分配不同的最小置信度和最小支持度,對其中的關(guān)聯(lián)規(guī)則進(jìn)行設(shè)計及分析,避免因?yàn)閿?shù)據(jù)不充足而造成不平衡等問題。
關(guān)鍵詞:關(guān)聯(lián)規(guī)則;學(xué)業(yè)預(yù)警;成績分析;成績預(yù)測
1概述
大數(shù)據(jù)時代的到來標(biāo)志著社會的發(fā)展來到了新的階段,各行各業(yè)在不同的領(lǐng)域當(dāng)中都在積極的適應(yīng)并改變以往的傳統(tǒng)模式,對相關(guān)數(shù)據(jù)進(jìn)行收集、整理、分析用以尋求各自的發(fā)展。在教育領(lǐng)域也不例外。教育領(lǐng)域的數(shù)據(jù)收集主要包括學(xué)生學(xué)習(xí)成績、日常表現(xiàn)、對任課教師的評價以及對相關(guān)課程的評價等。通過作用度、支持度、可信度、期望可信度等來表達(dá)其屬性。
2需求分析
2.1功能需求
本研究實(shí)現(xiàn)的功能有以下幾點(diǎn):
(1)成績預(yù)測
通過對大一新生的相關(guān)數(shù)據(jù)收集,在分析和預(yù)測過程中一旦發(fā)現(xiàn),有考試不通過的可能性,就會提前對相應(yīng)的同學(xué)進(jìn)行通知,提醒其要在最后復(fù)習(xí)階段要更加努力學(xué)習(xí),以免在期末考試中無法通過。
(2)提前預(yù)警
在國內(nèi)的各大高校當(dāng)中,都會有考試不及格的同學(xué),這些同學(xué)面臨課程重修。在重修的過程當(dāng)中,不僅加大了任課教師的教學(xué)負(fù)擔(dān),同時學(xué)生也會造成一些經(jīng)濟(jì)上沒必要的損失。通過本文的數(shù)據(jù)收集、分析利用數(shù)據(jù)挖掘技術(shù)和關(guān)聯(lián)規(guī)則技術(shù)幫助同學(xué)們提前準(zhǔn)確定位到有可能出現(xiàn)重修的同學(xué),讓該類同學(xué)提早做好復(fù)習(xí)和學(xué)習(xí)準(zhǔn)備,讓任課教師也著重提前關(guān)注和警示此類學(xué)生,做到預(yù)測、提醒以及幫助。
(3)學(xué)生成績分析
教育教學(xué)過程中,最重要最廣泛被看中的就是考試分?jǐn)?shù),分?jǐn)?shù)可以反映出學(xué)生學(xué)習(xí)努力的多少,教師授課的水平等。因此對于學(xué)生成績的數(shù)據(jù)收集和整理分析更加尤為重要。以往并不是沒有對學(xué)生成績進(jìn)行分析,只是以往的數(shù)據(jù)分析過于簡單,直接,僅僅包括成績的增長、下降和排名等,無法滿足目前的教學(xué)需要。
2.2數(shù)據(jù)需求
數(shù)據(jù)來自于不同的來源,當(dāng)談?wù)摬煌愋偷臄?shù)據(jù),考慮每個變量的測量水平。
(1)區(qū)間變量的均值是有意義的,如平均成績。
(2)分類:由一組水平的變量,如性別、成績劃分。
2.3技術(shù)需求
通過使用預(yù)測建模技術(shù),我們就可以驗(yàn)證并肯定輸入變量在進(jìn)行預(yù)測結(jié)果變量是正確、有效并且是可用的。如果高校管理機(jī)構(gòu)想嘗試預(yù)測學(xué)生是否可以通過新學(xué)年期末考試,那么其可以通過確定學(xué)生的往年期末成績和平時課堂成績來進(jìn)行評估和測定,這樣有利于預(yù)測期末成績的通過情況。輸入變量和結(jié)果變量的區(qū)分,可用設(shè)定角色的方法為數(shù)據(jù)集進(jìn)行確定。設(shè)定的模型角色的性子包括姓名,性別,地址,及其他所需要素的情況。若使用時出現(xiàn)多余要素的情況,便可排除多余要素,需要使用設(shè)定的角色模型確定可用變量的作用。識別結(jié)果變量可使用目標(biāo)模型識別,輸入變量可用輸入模式識別。
3使用關(guān)聯(lián)規(guī)則挖掘有重修風(fēng)險的學(xué)生
3.1設(shè)計目標(biāo)
為薄弱學(xué)生選擇重修風(fēng)險較大的課程,從我們的經(jīng)驗(yàn)和實(shí)驗(yàn)發(fā)現(xiàn),得分方法是更合適的,不是給每個學(xué)生分配一個明確的類,評分模型分配一個概率估計每個學(xué)生表達(dá)的可能性并做出預(yù)警。
3.2關(guān)聯(lián)規(guī)則設(shè)計
(1)關(guān)系表
關(guān)聯(lián)規(guī)則挖掘的數(shù)據(jù),需要每個數(shù)值屬性離散化后間隔關(guān)聯(lián)規(guī)則挖掘。離散化后,可以將每個數(shù)據(jù)集作為一組對和一個類標(biāo)簽。每一個數(shù)據(jù)成為一個事務(wù),現(xiàn)有的關(guān)聯(lián)規(guī)則挖掘算法可以應(yīng)用于數(shù)據(jù)集。對于得分,我們有一個固定的兩類屬性。
(2)使用關(guān)聯(lián)規(guī)則用于學(xué)生得分
由于每個規(guī)則有附加的支持度和置信度,因此容易設(shè)計一個模式用于得分?jǐn)?shù)據(jù)。當(dāng)出現(xiàn)無數(shù)據(jù)的情況下,則不適合利用關(guān)聯(lián)規(guī)則做設(shè)計。分配高分的前提要求是,有眾多符合置信度規(guī)則的積極類數(shù)據(jù)。相反,消極類則分配低分。因此,通過加權(quán)平均的方式我們得到以下公式(如圖1,分?jǐn)?shù)s值在0與1之間)。
POS積極類項(xiàng)集,NEG消極類項(xiàng)集,con:原始的積極類規(guī)則置信度。w積極類規(guī)則i的權(quán)重,w消極類規(guī)則j的權(quán)重,con消極類規(guī)則i轉(zhuǎn)換為積極類規(guī)則的置信度。
3.3關(guān)聯(lián)規(guī)則分析
從記錄中隨機(jī)選擇50條左右,選擇的屬性有性別、高中成績、作業(yè)完成率、出勤率、課程類別、職務(wù)、課外活動、期末成績共八類。
(1)離散化數(shù)據(jù)
A.性別屬性離散化:A1(男)、A2(女)
B.高中成績數(shù)據(jù)離散:B1(優(yōu)異)、B2(良好)、B3(普通)
C.作業(yè)完成率離散化:c1(較好)、C2(一般)、C3(較差)
D.出勤率離散化:D1(較好)、D2(一般)、D3(較差)
E.課程類別離散化:E1(專業(yè)課)、E2(公共基礎(chǔ)課)、E3(選修課)
F.職務(wù)離散化:F1(學(xué)生會及社團(tuán))、F2(班級干部)、F3(學(xué)生)
G.課外活動:G1(網(wǎng)絡(luò)游戲)、G2(網(wǎng)絡(luò)聊天、電影、購物等休閑)、G3(戶外活動)
H.期末成績:重修風(fēng)險的學(xué)生分?jǐn)?shù)點(diǎn)為45分,因此分為兩類H1(≥45)、H2(<45)
為使得數(shù)據(jù)挖掘獲得有益的信息,設(shè)定的最小支持度為14%,最小置信度為80%,根據(jù)上述計算,最小頻繁計數(shù)為7,獲得的頻繁項(xiàng)集如表2所示。
找出大于最小支持度的頻繁項(xiàng)集計算該頻繁項(xiàng)集的最小置信度,公式如下:
如果該值大于設(shè)置的最小置信度,則視為強(qiáng)關(guān)聯(lián)規(guī)則。以期末成績?yōu)槟繕?biāo)屬性,得到的關(guān)聯(lián)規(guī)則為:
C3AD3AE1AGl=>H2.colffidence=7/7=100%
C3AD2AE1AG2=>H2.confidence=6/7=85.7%
C3ADlAE2AGl=>H2.confidence=5/7=71.4%
滿足條件的前兩條規(guī)則為:
(1)規(guī)則1:作業(yè)完成率C3(較差)、出勤率D3(較差)、課程類別E1(專業(yè)課)、課外活動G1(網(wǎng)絡(luò)游戲),這些學(xué)生的期末成績H2(低于45分)。通過數(shù)據(jù)分析得出以下結(jié)論,重修風(fēng)險較大的學(xué)生有著以下共同特點(diǎn),出勤率較低、完成作業(yè)情況不好、同時酷愛網(wǎng)絡(luò)游戲,將大量時間和精力都放在玩上面,沒有努力學(xué)習(xí),因此影響到考試成績,存在重大的重修風(fēng)險,通過數(shù)據(jù)分析量化出來。
(21規(guī)則2:作業(yè)完成率c3(較差)、出勤率D2(一般)、課程類別E1(專業(yè)課)、課外活動G2(網(wǎng)絡(luò)休閑類),這些學(xué)生的期末成績H2(低于45分)。除了規(guī)則1中已經(jīng)分析過的原因之外,發(fā)現(xiàn)出勤率提高一些對整體成績幫助并不大,沒有一個好的出勤率必然無法保證作業(yè)的完成率,也必然會由于專業(yè)課的難度而無法深入的理解內(nèi)容,因此課程重修的風(fēng)險較大。
4結(jié)論
此次研究通過篩選出一些有重修風(fēng)險的學(xué)生,通過使用數(shù)據(jù)挖掘技術(shù)對數(shù)據(jù)進(jìn)行分析,不僅可以提前對此類學(xué)生進(jìn)行警示和幫助,也同時為廣大教師減輕了后期的教學(xué)負(fù)擔(dān),針對于此類學(xué)生可以提早做出相應(yīng)的準(zhǔn)備和給予幫助,對于學(xué)校的教育教學(xué)提供了有力支持。endprint