吳修國(guó) 孫濤
摘 ? 要:教育大數(shù)據(jù)挖掘通過(guò)對(duì)教育領(lǐng)域的各種海量數(shù)據(jù)進(jìn)行分析,發(fā)現(xiàn)其中存在的規(guī)律,從而指導(dǎo)教育教學(xué)管理水平。文章在對(duì)現(xiàn)有研究存在的問(wèn)題進(jìn)行分析基礎(chǔ)上,首先給出教育大數(shù)據(jù)挖掘的學(xué)業(yè)預(yù)警研究框架;之后,通過(guò)對(duì)大學(xué)生在校成績(jī)數(shù)據(jù)進(jìn)行整合管理,基于關(guān)聯(lián)規(guī)則算法給出大學(xué)生不及格課程之間的關(guān)聯(lián)關(guān)系,以此為大學(xué)生學(xué)業(yè)提出預(yù)警(課程不及格以及留級(jí))提示。研究結(jié)果表明,該方法為管理者有針對(duì)性地對(duì)預(yù)警學(xué)生進(jìn)行幫助和干預(yù)提供了數(shù)據(jù)支撐,具有較強(qiáng)的應(yīng)用價(jià)值,可有效提升高校教學(xué)管理水平和管理質(zhì)量。
關(guān)鍵詞:教育大數(shù)據(jù);數(shù)據(jù)挖掘;關(guān)聯(lián)規(guī)則;學(xué)業(yè)預(yù)警
中圖分類(lèi)號(hào):G642.47 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1673-8454(2020)07-0055-04
一、引言
近年來(lái),隨著高校規(guī)模不斷擴(kuò)大以及外界因素的影響,大學(xué)生的學(xué)習(xí)能力與素質(zhì)基礎(chǔ)出現(xiàn)了不同程度的下降。據(jù)統(tǒng)計(jì),每年各高校都有部分學(xué)生因?yàn)檎n程掛科等原因,無(wú)法順利畢業(yè),對(duì)學(xué)生個(gè)人、家庭以及學(xué)校而言都是難以挽回的損失。學(xué)業(yè)預(yù)警是學(xué)校對(duì)在校大學(xué)生的學(xué)業(yè)表現(xiàn)(包括成績(jī)、出勤、作業(yè)情況等)進(jìn)行評(píng)估之后,根據(jù)其學(xué)業(yè)表現(xiàn)情況,對(duì)學(xué)生下一步的學(xué)習(xí)進(jìn)行及時(shí)提醒的一種監(jiān)督管理制度。一方面,學(xué)業(yè)預(yù)警可以幫助學(xué)生合理規(guī)劃后續(xù)課程的學(xué)習(xí);另一方面,也可以有效提升教育教學(xué)管理水平,促進(jìn)和諧高校質(zhì)量建設(shè)。與此同時(shí),隨著教育信息化的不斷深入,各個(gè)高校都開(kāi)發(fā)了相應(yīng)的教學(xué)管理信息平臺(tái),存儲(chǔ)了大量與教學(xué)相關(guān)的數(shù)據(jù)(比如上課出勤情況、去圖書(shū)館自習(xí)時(shí)間等),稱(chēng)為教育大數(shù)據(jù)(Education Big Data,EBD)。[1]如何找到隱藏在這些數(shù)據(jù)中的某些關(guān)聯(lián)關(guān)系、挖掘出有價(jià)值的信息,從而對(duì)以后的教學(xué)活動(dòng)提供有效指導(dǎo),不論對(duì)學(xué)習(xí)者還是教學(xué)管理者來(lái)說(shuō)都具有十分重要的意義。目前,學(xué)生以及教學(xué)管理人員,可以通過(guò)校內(nèi)的信息管理平臺(tái)方便地查找到每個(gè)人的課程成績(jī)情況,然而,這僅僅屬于教育數(shù)據(jù)利用的初級(jí)階段。對(duì)隱藏在數(shù)據(jù)中的價(jià)值沒(méi)有進(jìn)行充分的利用,難以對(duì)學(xué)生學(xué)習(xí)以及教師的教學(xué)活動(dòng)進(jìn)行有效指導(dǎo)。例如,對(duì)學(xué)生而言,無(wú)法得到下一步課程學(xué)習(xí)的有效建議;而對(duì)教學(xué)管理者而言,也不能根據(jù)現(xiàn)有的成績(jī),對(duì)任課教師的教學(xué)方法、教學(xué)內(nèi)容、教學(xué)模式給出指導(dǎo)性意見(jiàn),沒(méi)有數(shù)據(jù)的支持,無(wú)法確保建議的有效性和合理性,因此無(wú)法保證教學(xué)的效果。[2]
數(shù)據(jù)挖掘技術(shù)的發(fā)展為教育大數(shù)據(jù)的研究與應(yīng)用提供了重要的工具。越來(lái)越多的研究者從不同視角、利用不同方法逐漸展開(kāi)數(shù)據(jù)挖掘的研究,他們提出了許多數(shù)據(jù)挖掘方法與技術(shù),同時(shí)也為不同領(lǐng)域的決策者提供了決策依據(jù)。然而,數(shù)據(jù)挖掘在教育領(lǐng)域尚未得到廣泛應(yīng)用。作為教育管理者,通過(guò)對(duì)學(xué)生歷史數(shù)據(jù)的分析,一旦發(fā)現(xiàn)學(xué)生某門(mén)課程的成績(jī)出現(xiàn)問(wèn)題時(shí),要及時(shí)對(duì)他進(jìn)行提醒,并采取有效措施避免問(wèn)題的發(fā)生,而不是等到問(wèn)題發(fā)生后再去采取措施進(jìn)行補(bǔ)救,這是我們教育的本質(zhì)所在。由此可見(jiàn),在進(jìn)行基本的教學(xué)信息管理時(shí)所產(chǎn)生的教育大數(shù)據(jù),不管是涉及學(xué)生還是教學(xué)管理者,重心應(yīng)該是發(fā)現(xiàn)隱藏其中的有價(jià)值信息,為決策提供數(shù)據(jù)支持,這相比過(guò)去只靠經(jīng)驗(yàn)并進(jìn)行判斷而言,無(wú)疑是一個(gè)重大創(chuàng)新??梢?jiàn),大數(shù)據(jù)不僅是技術(shù)手段,更是一種思維方式,為教育帶來(lái)深刻變革。[3]為此,本文通過(guò)整合管理學(xué)生在校成績(jī)數(shù)據(jù),基于關(guān)聯(lián)規(guī)則算法給出大學(xué)生不及格課程之間的關(guān)聯(lián)關(guān)系,以此為大學(xué)生學(xué)業(yè)提出預(yù)警(課程不及格以及留級(jí))提示。
二、基于教育大數(shù)據(jù)挖掘的大學(xué)生學(xué)業(yè)預(yù)警研究框架
1.問(wèn)題分析
學(xué)業(yè)預(yù)警是高校加強(qiáng)學(xué)生學(xué)習(xí)管理、提升教育教學(xué)管理水平的重要手段。國(guó)外的研究始于20世紀(jì)90年代,目的是幫助在校學(xué)生按時(shí)完成學(xué)業(yè)。美國(guó)的普渡大學(xué)(Purdue University)、賓州滑石大學(xué)(Slippery Rock University of Pennsylvania)將學(xué)生在校表現(xiàn)情況作為學(xué)業(yè)預(yù)警的數(shù)據(jù)來(lái)源,取得了不錯(cuò)的效果。相比較而言,我國(guó)的大學(xué)生學(xué)業(yè)預(yù)警研究起步較晚,早期的研究主要以制度創(chuàng)新來(lái)應(yīng)對(duì)學(xué)生學(xué)業(yè)問(wèn)題。近年來(lái),有部分研究者依據(jù)大學(xué)第一學(xué)期的成績(jī)以及高考成績(jī),預(yù)測(cè)和解釋有學(xué)業(yè)風(fēng)險(xiǎn)的學(xué)習(xí)表現(xiàn),從而幫助實(shí)施學(xué)業(yè)預(yù)警。[3][4]總體來(lái)看,目前的預(yù)警研究尚存在以下一些問(wèn)題:①預(yù)警的方法、機(jī)制比較簡(jiǎn)單。往往以學(xué)生成績(jī)作為預(yù)警的重要依據(jù),對(duì)課程之間的關(guān)系考慮較少。②缺乏相應(yīng)的數(shù)據(jù)支撐,預(yù)警效果一般。預(yù)警沒(méi)有考慮學(xué)生成績(jī)之外的學(xué)業(yè)表現(xiàn),比如課堂出勤情況、圖書(shū)館借書(shū)情況等。③沒(méi)有對(duì)學(xué)業(yè)問(wèn)題進(jìn)行深入分析。往往是就事論事,沒(méi)有從全局的視角對(duì)學(xué)生學(xué)業(yè)進(jìn)行客觀評(píng)估。
基于教育信息化技術(shù)的發(fā)展,在進(jìn)行數(shù)據(jù)管理的同時(shí),也能保存大量與學(xué)業(yè)相關(guān)的信息,通過(guò)這些信息可以對(duì)學(xué)生學(xué)習(xí)進(jìn)行可靠評(píng)價(jià),為教育和管理者提供服務(wù),幫助管理者做出科學(xué)的決策。[4][5]當(dāng)前許多研究者以教育數(shù)據(jù)為基礎(chǔ)提出了許多建設(shè)性成果,但直接將其應(yīng)用在學(xué)業(yè)預(yù)警研究中,尚存在以下問(wèn)題:①缺乏個(gè)性化的學(xué)業(yè)預(yù)警,只依賴(lài)于當(dāng)次考試成績(jī)進(jìn)行粗放式預(yù)警的方法,無(wú)法有效地對(duì)學(xué)生學(xué)業(yè)進(jìn)行指導(dǎo)。對(duì)每個(gè)學(xué)生而言,知識(shí)背景、學(xué)習(xí)能力、興趣點(diǎn)等存在很大差異,需要有個(gè)性化的預(yù)警措施。②不論在模型上還是算法上,尚沒(méi)有基于數(shù)據(jù)挖掘的預(yù)警研究,尤其是針對(duì)管理學(xué)科偏重于理論這一特點(diǎn),使現(xiàn)有的數(shù)據(jù)挖掘工具無(wú)法直接應(yīng)用,迫切需要結(jié)合學(xué)生專(zhuān)業(yè)特點(diǎn),從多個(gè)維度挖掘分析學(xué)生學(xué)業(yè)數(shù)據(jù),特別是那些學(xué)業(yè)成績(jī)不良的數(shù)據(jù),從而為高校人才培養(yǎng)提供決策支持。③缺乏針對(duì)管理學(xué)科學(xué)業(yè)的預(yù)警機(jī)制,一旦發(fā)現(xiàn)問(wèn)題不知道如何及時(shí)有效地補(bǔ)救。科學(xué)合理的預(yù)警對(duì)于可能會(huì)出現(xiàn)學(xué)業(yè)或就業(yè)困難的學(xué)生而言,可以起到預(yù)警作用;而對(duì)于未來(lái)發(fā)展可能比較好的學(xué)生,學(xué)校可以提前有意識(shí)地培養(yǎng)。
基于上述分析,本文針對(duì)大學(xué)生教育多年來(lái)積累的大量數(shù)據(jù)信息,引入數(shù)據(jù)挖掘技術(shù)中關(guān)聯(lián)規(guī)則、聚類(lèi)分析、決策樹(shù)等挖掘算法,對(duì)學(xué)生課程、學(xué)業(yè)計(jì)劃、課程成績(jī)等數(shù)據(jù)間的相關(guān)性和依存性進(jìn)行分析,挖掘出的結(jié)果將為學(xué)生學(xué)業(yè)預(yù)警等提供有效的決策支持。
2.基于教育大數(shù)據(jù)挖掘的大學(xué)生學(xué)業(yè)預(yù)警研究框架
基于教育大數(shù)據(jù)挖掘的大學(xué)生學(xué)業(yè)預(yù)警研究,主要包括不及格課程之間的關(guān)聯(lián)關(guān)系挖掘、延期畢業(yè)學(xué)生特征挖掘以及畢業(yè)學(xué)分績(jī)點(diǎn)預(yù)測(cè)等。如圖1所示。
(1)首先,提出大學(xué)生學(xué)業(yè)的綜合評(píng)價(jià)考核體系的指標(biāo)模型(基本屬性、學(xué)習(xí)情況屬性、社會(huì)活動(dòng)情況屬性、主觀評(píng)價(jià)屬性等);其次,根據(jù)不同復(fù)雜程度和目標(biāo),選取相應(yīng)的數(shù)據(jù)挖掘方法,比如關(guān)聯(lián)規(guī)則、決策樹(shù)等;最后,提出大學(xué)生學(xué)業(yè)預(yù)警機(jī)制模型,對(duì)出現(xiàn)的預(yù)警及時(shí)進(jìn)行處理。
(2)基于教育大數(shù)據(jù)的大學(xué)生學(xué)業(yè)預(yù)警算法設(shè)計(jì),主要包括:①以教學(xué)運(yùn)行數(shù)據(jù)為基礎(chǔ),利用數(shù)據(jù)挖掘中的關(guān)聯(lián)規(guī)則方法,對(duì)學(xué)生教學(xué)成績(jī)庫(kù)進(jìn)行挖掘作業(yè),從而發(fā)現(xiàn)課程之間,尤其是先導(dǎo)課程與后續(xù)課程之間的成績(jī)相關(guān)性,特別是那些一旦先行課程沒(méi)有學(xué)好、勢(shì)必會(huì)影響后續(xù)學(xué)習(xí)的課程,及時(shí)對(duì)學(xué)生學(xué)習(xí)提出預(yù)警。②以學(xué)生基本屬性數(shù)據(jù)、社會(huì)行為數(shù)據(jù)、學(xué)業(yè)成績(jī)等為基礎(chǔ),運(yùn)用K-Means聚類(lèi)算法進(jìn)行挖掘,總結(jié)延時(shí)畢業(yè)學(xué)生的總體特征。③以已經(jīng)畢業(yè)學(xué)生學(xué)業(yè)數(shù)據(jù)、課堂表現(xiàn)數(shù)據(jù)等為基礎(chǔ),利用決策樹(shù)分類(lèi)理論分析出學(xué)生學(xué)分績(jī)點(diǎn)特征,對(duì)現(xiàn)有在校學(xué)生的未來(lái)畢業(yè)學(xué)分績(jī)點(diǎn)進(jìn)行大體上的預(yù)測(cè),對(duì)達(dá)不到畢業(yè)學(xué)分要求的學(xué)生進(jìn)行預(yù)警。高校大學(xué)生學(xué)業(yè)預(yù)警機(jī)制與援助保障體系構(gòu)建主要包括預(yù)警與援助機(jī)制建設(shè)、援助工作方案、預(yù)警平臺(tái)發(fā)布以及反饋保障等。[6]
(3)大學(xué)生學(xué)業(yè)預(yù)警系統(tǒng)設(shè)計(jì)?;贘ava平臺(tái)設(shè)計(jì)并實(shí)施基于數(shù)據(jù)挖掘的大學(xué)生學(xué)業(yè)預(yù)警平臺(tái)設(shè)計(jì),基本功能模塊包括數(shù)據(jù)預(yù)處理、關(guān)聯(lián)課程學(xué)習(xí)預(yù)警、延時(shí)畢業(yè)學(xué)生預(yù)警、畢業(yè)學(xué)分績(jī)點(diǎn)預(yù)警、精準(zhǔn)個(gè)體幫扶等。
(4)高校大學(xué)生學(xué)業(yè)預(yù)警機(jī)制與援助保障體系構(gòu)建。主要包括預(yù)警與援助機(jī)制建設(shè)、援助工作方案、預(yù)警平臺(tái)發(fā)布以及反饋保障等。
三、基于教育大數(shù)據(jù)挖掘的不及格課程關(guān)聯(lián)規(guī)則分析
關(guān)聯(lián)規(guī)則是由Agrawal等人在1993年提出的,用于發(fā)現(xiàn)大量數(shù)據(jù)中項(xiàng)集之間的重要關(guān)聯(lián)或相關(guān)聯(lián)系。[7][8]本節(jié)以山東財(cái)經(jīng)大學(xué)管理科學(xué)與工程學(xué)院大學(xué)生掛科課程數(shù)據(jù)為挖掘?qū)ο?,利用關(guān)聯(lián)規(guī)則挖掘找出課程之間的隱含聯(lián)系,為后續(xù)課程學(xué)習(xí)提供預(yù)警信息。
1.數(shù)據(jù)預(yù)處理
本研究主要通過(guò)對(duì)學(xué)生掛科課程進(jìn)行數(shù)據(jù)分析,目的是發(fā)現(xiàn)它們之間存在的相互聯(lián)系,以此對(duì)學(xué)生課程學(xué)習(xí)進(jìn)行有效指導(dǎo)。主要的研究數(shù)據(jù)是從學(xué)校教務(wù)處教務(wù)管理信息系統(tǒng)數(shù)據(jù)庫(kù)中獲取學(xué)生歷史成績(jī)數(shù)據(jù),該數(shù)據(jù)包含大量編碼,需要借助于相關(guān)編碼表進(jìn)行解析。原始數(shù)據(jù)如表1所示。
學(xué)生歷史成績(jī)表包含字段較多,本文只選取了一些關(guān)鍵字段,分別是考試學(xué)年、考試學(xué)期、取得學(xué)年、取得學(xué)期、姓名、學(xué)號(hào)、課程代碼、課程名稱(chēng)、考試成績(jī)以及課程標(biāo)志。其中的考試學(xué)年、考試學(xué)期、取得學(xué)年、取得學(xué)期反映了大學(xué)生考試的通過(guò)情況:考試學(xué)年和考試學(xué)期表示該學(xué)生第一次參加該門(mén)課程考試的學(xué)年和學(xué)期(1表示第1學(xué)期;2表示第2學(xué)期);取得學(xué)年、取得學(xué)期表示學(xué)生最后一次參加該課程考試的學(xué)年和學(xué)期??荚嚦煽?jī)分為百分制和五級(jí)制兩種方式。課程標(biāo)志包括正常、重修、補(bǔ)考、緩考和缺考等。
在數(shù)據(jù)預(yù)處理階段,主要包括數(shù)據(jù)清理、數(shù)據(jù)整合、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)規(guī)約以及數(shù)據(jù)離散化和概念分層等幾個(gè)部分。在數(shù)據(jù)清理階段,主要是將異常數(shù)據(jù)和重復(fù)數(shù)據(jù)清除,以解決孤立點(diǎn)和數(shù)據(jù)不一致等情況帶來(lái)的問(wèn)題。對(duì)一些由于退學(xué)、休學(xué)等原因造成學(xué)生數(shù)據(jù)缺失等情況,采用了人工填補(bǔ)、平均值和牛頓差值等方法進(jìn)行數(shù)據(jù)補(bǔ)充,保證數(shù)據(jù)完整性。
2.掛科課程關(guān)聯(lián)挖掘框架設(shè)計(jì)
圖2給出了基于FP-Growth算法的大學(xué)生課程關(guān)聯(lián)規(guī)則挖掘模型。算法的基本過(guò)程主要包括頻繁模式挖掘以及關(guān)聯(lián)規(guī)則發(fā)現(xiàn)。在頻繁模式挖掘階段,將每一門(mén)不及格課程作為一個(gè)項(xiàng),所有學(xué)生的不及格課程構(gòu)成項(xiàng)集;將每個(gè)學(xué)生的不及格課程作為一個(gè)事務(wù),利用關(guān)聯(lián)規(guī)則的兩個(gè)測(cè)度,度量最小支持度和最小置信度,對(duì)得到的頻繁項(xiàng)集和關(guān)聯(lián)規(guī)則進(jìn)行篩選。在這個(gè)過(guò)程中,鏈接和剪枝是兩個(gè)重要的操作。
3.挖掘結(jié)果與分析
通過(guò)FP-Growth算法得到頻繁項(xiàng)集如表2所示。以第一行為例,Key=C06310002表示該課程號(hào)的頻繁項(xiàng)集,([C06310081],13)表示C06310081共出現(xiàn)了13次,([C06330085,C06340068],7)則表示C06330085和C06340068一共出現(xiàn)了7次。
快速發(fā)現(xiàn)感興趣的關(guān)聯(lián)規(guī)則還是比較困難的;同時(shí),大量的頻繁項(xiàng)集中必然夾雜很大比例的無(wú)效關(guān)聯(lián)規(guī)則和弱關(guān)聯(lián)規(guī)則,需要對(duì)挖掘到的頻繁項(xiàng)集進(jìn)一步處理。合并所有鍵值相同的對(duì),去掉大部分無(wú)效關(guān)聯(lián)規(guī)則和弱關(guān)聯(lián)規(guī)則;同時(shí),在保留有限關(guān)聯(lián)規(guī)則前提下,將支持度設(shè)為0.12,置信度設(shè)為0.6,對(duì)挖掘到的頻繁模式進(jìn)行處理,共篩選出120條規(guī)則,部分如表3所示。
由以上規(guī)則可以看出哪些課程不及格,容易導(dǎo)致其他相關(guān)課程也出現(xiàn)不及格的情況,比如[數(shù)據(jù)結(jié)構(gòu)]→[運(yùn)籌學(xué)],支持度表示數(shù)據(jù)結(jié)構(gòu)和運(yùn)籌學(xué)均出現(xiàn)不及格的情況占總體不及格課程的16.1%,置信度表示數(shù)據(jù)結(jié)構(gòu)出現(xiàn)不及格情況的學(xué)生中80%的學(xué)生運(yùn)籌學(xué)課程也出現(xiàn)了不及格情況。究其原因,一方面可能是學(xué)生的學(xué)習(xí)態(tài)度不端正,放松了對(duì)專(zhuān)業(yè)知識(shí)的學(xué)習(xí),這就需要專(zhuān)業(yè)教師加強(qiáng)學(xué)生基礎(chǔ)知識(shí)的教學(xué),輔導(dǎo)員及時(shí)督促學(xué)生掌握理論基礎(chǔ)知識(shí);另一方面可能數(shù)據(jù)結(jié)構(gòu)作為先導(dǎo)課程有一定難度,學(xué)??蓢L試適當(dāng)調(diào)整培養(yǎng)方案,鞏固基礎(chǔ)知識(shí),加深學(xué)生對(duì)專(zhuān)業(yè)知識(shí)的理解。[9-11]
參考文獻(xiàn):
[1]顧云鋒,吳鐘鳴,管兆昶等.基于教育大數(shù)據(jù)的學(xué)習(xí)分析研究綜述[J].中國(guó)教育信息化,2018(7):5-10.
[2]周慶,肖逸楓.基于數(shù)據(jù)挖掘技術(shù)的高校學(xué)生學(xué)業(yè)預(yù)警分析[J].中國(guó)教育技術(shù)裝備, 2018(6):42-45.
[3]Delen D. A comparative analysis of machine learning techniques for student retention management[J].Decision Support Systems,2010,49(4):498-506.
[4]Hu Y H, Lo C L, Shih S P. Developing early warning systems to predict students online learning performance[J].Computers in Human Behavior,2014(36):469-478.
[5]蘇兆兆,欒靜.高校本科生就餐數(shù)據(jù)挖掘分析[J].電腦知識(shí)與技術(shù),2018(5):24-26.
[6]邊高峰.基于數(shù)據(jù)挖掘的普通高校受資助學(xué)生精準(zhǔn)識(shí)別研究及對(duì)策[J].科教導(dǎo)刊(下旬),2018(5):183-184.
[7]趙峰,劉博妍.基于改進(jìn)Apriori算法的大學(xué)生成績(jī)關(guān)聯(lián)分析[J].齊齊哈爾大學(xué)學(xué)報(bào)(自然科學(xué)版),2018(1):11-15.
[8]陳喜華,黃海寧,黃沛杰.基于Apriori算法的學(xué)生成績(jī)分析在課程關(guān)聯(lián)性的應(yīng)用研究[J].北京城市學(xué)院學(xué)報(bào),2018(4):66-71.
[9]傅亞莉.基于Apriori算法的高職院校課程相關(guān)性分析[J].長(zhǎng)春工程學(xué)院學(xué)報(bào)(自然科學(xué)版),2013(4):108-111.
[10]方毅,張春元.基于數(shù)據(jù)挖掘的多策略研究生教育課程成績(jī)分析方法研究[J].計(jì)算機(jī)工程與科學(xué),2009(6):106-108.
[11]袁路妍,李鋒.改進(jìn)的關(guān)聯(lián)規(guī)則Apriori算法在課程成績(jī)分析中的應(yīng)用[J].中國(guó)教育信息化,2017(17).
(編輯:王天鵬)