張凱
摘 要:近年來,許多職校教育工作者利用數(shù)據(jù)挖掘技術去研究教學數(shù)據(jù)庫中的相關數(shù)據(jù),并獲得很多有價值的信息。本文使用數(shù)據(jù)挖掘做關聯(lián)規(guī)則技術來研究學生不及格科目間的關聯(lián)性并給出成績預警的理論化模型來為教學管理者及早發(fā)現(xiàn)“學困生”提供一個途徑。
關鍵詞:數(shù)據(jù)挖掘;關聯(lián)規(guī)則;算法
大家都知道,一個高等數(shù)學不及格的學生有可能概率分析也不及格。針對這種現(xiàn)象帶給我們的啟示是:我們是不是能從大量的學生成績數(shù)據(jù)庫中挖掘出成績間的關聯(lián)問題,構建出一個比較完善的預警機制。目前,很多學校針對“學困生”進行監(jiān)管和幫扶,如果我們能根據(jù)“學困生”前期的課程成績分析出他有可能哪門課程不及格,由此對他進行介入監(jiān)管,那么這樣將會是一件非常有意義的工作。
一、關聯(lián)規(guī)則概述
關聯(lián)是指兩個或多個變量取值上存在某種規(guī)律性??蓪﹃P聯(lián)規(guī)則進行以下形式化描述:設假設I={I1,I2...Im}是m個不同的項的集合。給定一個數(shù)據(jù)庫D,其中每一個事務(Transaction)t是I的非空子集,即,每一個交易都與一個唯一的標識符TID(Transaction ID)對應。關聯(lián)規(guī)則在D中的支持度(support)是D中事務同時包含X、Y的百分比,即概率;置信度(confidence)是D中事務已經包含X的情況下,包含Y的百分比,即條件概率。如果滿足最小支持度閾值和最小置信度閾值,則認為關聯(lián)規(guī)則是有效的。這些閾值是根據(jù)挖掘需要人為設定。
二、建立分析數(shù)據(jù)源
對不及格學生進行數(shù)據(jù)挖掘的前提是有大量有效的數(shù)據(jù)。我從天津市機電工業(yè)學校14級中職生原始數(shù)據(jù)表進行挖掘,并對其進行了預處理。
(一)對無用記錄和字段進行刪除
進行數(shù)據(jù)挖掘之前要篩選出有用的數(shù)據(jù),這里我們數(shù)據(jù)挖掘的目的是對不及格的學生進行分析,所以我們第一步要刪除及格學生的全部記錄,以及涉及到的相關字段。由于原始表中不是所有的字段都對數(shù)據(jù)挖掘有用,我們通過投影操作只選擇學號、課程號、成績三個字段。
對照中職生培養(yǎng)方案中的教學計劃我們挑選出10門主干課程進行挖掘研究,并給這十個課程用A~J進行標識,如表1所示。并且在原始表中保留10個值的記錄,其他記錄做刪除處理。
(二)創(chuàng)建預處理數(shù)據(jù)表
因為表中數(shù)據(jù)已經為全部不及格學生的成績了,所以不需要再進行離散化操作,只要對不及格成績的課程進行簡單標識即可。為了更加明晰,將“課程號”字段及“成績”字段進行合并為“課程成績”字段,其結果表示的是不及格課程所對應的標識。例如,用A表示“線性代數(shù)不及格”。數(shù)據(jù)表形式如圖3。
通過上述預處理操作可以得到如圖3的待處理數(shù)據(jù),但是我們需要的數(shù)據(jù)表應該為按照學號的順序進行排列的數(shù)據(jù)表,因此我們要先創(chuàng)建表結構,并將相關數(shù)據(jù)進行同值歸并的原則填充到里面。在進行數(shù)據(jù)輸入時要將“學號”字段對應的“課程成績”字段的值放入數(shù)據(jù)表中,生成只包含不及格成績的數(shù)據(jù)表。
三、建立和分析成績預警模型
使用WEKA軟件對不及格成績的數(shù)據(jù)表進行挖掘,得出關聯(lián)結果如表3所示。在這里設置最小置信度為0.1,最小支持度為0.4,得到關聯(lián)規(guī)則生成的預警系統(tǒng)模型圖5。
一是H,I,J間有極高強關聯(lián)性。這三門課程是數(shù)據(jù)結構,數(shù)據(jù)庫原理和數(shù)據(jù)庫應用。當一個學生其中任意兩門不及格時,另外一門不及格的概率有70%。因此,這就指導我們教務人員在排課程的時候要注意不要同一學期安排這3門課程,讓學生避免出現(xiàn)同時掛科的現(xiàn)象。例如,可以把造成成績預警中置信度最高的數(shù)據(jù)結構安排在第二學期,將數(shù)據(jù)庫應用和數(shù)據(jù)原理分別安排在第三學期和第四學期。通過實踐發(fā)現(xiàn),這對早期發(fā)現(xiàn)“學困生”起到了積極的作用,并且對其學習態(tài)度糾正起到了正向的作用。
二是該模型不但可以在學生出現(xiàn)一門不及格的情況下對其本人發(fā)出預警,還能提示后續(xù)課程學習時哪些課程有可能不及格需要重點進行學習。
三是I課程在預警中產生的次數(shù)最多,由此我們可以看出來數(shù)據(jù)庫原理是計算機專業(yè)在低年級比較容易發(fā)生問題的一個關鍵課程。因此在教學管理中要將該課程作為重點課程進行質量監(jiān)督和定期檢查。
四是在最小置信度為0.1,最小支持度為0.4的條件下,并沒有出現(xiàn)A==>B和C==>D這種規(guī)則,這似乎有些不合常理,但也說明像語文、數(shù)學、英語等基礎學科只要努力學習就可以擺脫原來成績的影響。由于進校時學生入學成績有高有低,有的學生可能初中的時候基礎比較薄弱,從預警模型分析可以得出,對后面課程學習沒有絕對的影響,只要努力學習完全可以擺脫后進生隊伍。這對鼓勵那些進校分數(shù)較低的學生提供了科學的理論依據(jù)。
四、結束語
本文對不及格學生數(shù)據(jù)庫應用數(shù)據(jù)關聯(lián)規(guī)則進行數(shù)據(jù)挖掘并建立成績預警模型進行監(jiān)管,對提早發(fā)現(xiàn)“學困生”起到了積極的作用。
參考文獻:
[1]潘潔珠,吳共慶,胡學鋼等.基于領域知識的預警規(guī)則發(fā)現(xiàn)研究[J].計算機技術與發(fā)展,2012,18(7):66-68,73.
[2]李舒,陳麗君.高校學生成績管理系統(tǒng)的設計與實現(xiàn)[J].遼寧大學學報(自然科學版),2013,33(3):283-285.
[3]李吳,周振華.基于數(shù)據(jù)挖掘的高校學生成績預警系統(tǒng)[J].大慶石油學院學報,20ll,4(35):91-95.
[4]董軍凱.數(shù)據(jù)挖掘技術在成績分析中的應用[J].科技資訊,2009(22):72—74.