王文晶,閆俊伢
(山西大學(xué)商務(wù)學(xué)院 信息學(xué)院,山西 太原 030031)
學(xué)業(yè)預(yù)警是指教學(xué)部門依據(jù)人才培養(yǎng)目標(biāo)以及學(xué)生學(xué)分計(jì)算方法,通過數(shù)據(jù)庫中學(xué)生的成績情況進(jìn)行分析,根據(jù)學(xué)分計(jì)算方法綜合評(píng)估學(xué)生,將學(xué)生當(dāng)前的學(xué)習(xí)情況及時(shí)反饋給學(xué)生和輔導(dǎo)員,有助于輔導(dǎo)員工作的順利開展以及學(xué)生學(xué)業(yè)的完成。本文討論如何根據(jù)現(xiàn)有課程績點(diǎn)推測(cè)未上課程績點(diǎn),可為學(xué)生選課提供建議,能夠做到提前預(yù)警,并為教學(xué)管理者提供決策參考。人工智能時(shí)代,將數(shù)據(jù)挖掘技術(shù)引入學(xué)業(yè)預(yù)警,有效推動(dòng)學(xué)習(xí)預(yù)警研究。本課題將運(yùn)用數(shù)據(jù)挖掘中的Apriori算法,挖掘出學(xué)生的考試成績與課程之間的關(guān)聯(lián)規(guī)則,運(yùn)用機(jī)器學(xué)習(xí)中的神經(jīng)網(wǎng)絡(luò)算法構(gòu)建預(yù)測(cè)模型,最終對(duì)課程成績做一定的預(yù)測(cè),從而為學(xué)業(yè)預(yù)警工作提供預(yù)警信息。
隨著計(jì)算機(jī)和大數(shù)據(jù)技術(shù)的發(fā)展,學(xué)生的成績基本實(shí)現(xiàn)電子存儲(chǔ)與查詢,但是海量的成績數(shù)據(jù)卻沒有深入挖掘其隱含的教學(xué)管理、教學(xué)策略價(jià)值。當(dāng)前我院學(xué)生可在學(xué)生終端機(jī)隨時(shí)查看自己已修課程和學(xué)分,卻無法知道自己當(dāng)前的學(xué)習(xí)狀態(tài)以及將來學(xué)習(xí)成績的趨勢(shì)。目前本院教學(xué)管理者,通過教務(wù)系統(tǒng)中對(duì)目前成績的評(píng)估信息,對(duì)學(xué)生進(jìn)行指導(dǎo),無法預(yù)測(cè)某課程績點(diǎn)。
近年來,將興起的數(shù)據(jù)挖掘技術(shù)應(yīng)用于學(xué)業(yè)預(yù)警,已經(jīng)成為國內(nèi)高校學(xué)生管理的熱點(diǎn)。目前有利用數(shù)據(jù)挖掘算法對(duì)學(xué)生課程績點(diǎn)進(jìn)行預(yù)測(cè)畢業(yè)平均績點(diǎn),還有將學(xué)業(yè)狀態(tài)作為特征向量,運(yùn)用支持向量機(jī)得到非線性預(yù)測(cè)模型,從而預(yù)測(cè)出學(xué)分績點(diǎn)低的同學(xué),還有使用遺傳優(yōu)化神經(jīng)網(wǎng)絡(luò)構(gòu)造成績預(yù)測(cè)模型,這些研究都為學(xué)業(yè)預(yù)警提供了很好的研究基礎(chǔ)[1]。
目前,學(xué)業(yè)預(yù)警沒有統(tǒng)一的方法,不同的國內(nèi)學(xué)者標(biāo)準(zhǔn)和分類也不相同,并且學(xué)業(yè)預(yù)警在不同的國家也有很大的差異。2012年美國教育部頒布《通過教育數(shù)據(jù)挖掘和學(xué)習(xí)分析促進(jìn)教與學(xué)》,2015年我國國務(wù)院頒布《促進(jìn)大數(shù)據(jù)發(fā)展行動(dòng)綱要》,明確提出教育教學(xué)與人才培養(yǎng)的戰(zhàn)略高度應(yīng)該是教育大數(shù)據(jù)[2]。
國外對(duì)于基于數(shù)據(jù)挖掘的學(xué)習(xí)預(yù)警研究,分別從橫截面、縱貫面和技術(shù)進(jìn)行。對(duì)預(yù)警指標(biāo)的選擇體現(xiàn)為橫截面:Sen等(2012)對(duì)土耳其5000名中學(xué)生學(xué)習(xí)成績挖掘后,將獎(jiǎng)學(xué)金、平均績點(diǎn)分等指標(biāo)作為預(yù)警指標(biāo)??v貫面研究預(yù)警開始時(shí)間:Lee等(2015)通過對(duì)287名美國大學(xué)本科生的課程數(shù)據(jù)進(jìn)行挖掘,第三周開始的成績效果與期末成績相關(guān)。技術(shù)層體現(xiàn)在預(yù)警模型的選擇以及改進(jìn)和評(píng)估:Marbouti等(2016)通過挖掘本科生的課堂測(cè)驗(yàn)、考試、作業(yè)等,使用樸素貝葉斯、人工神經(jīng)網(wǎng)絡(luò)等組合為一個(gè)模型,得到了好的預(yù)測(cè)效果[3]。
通過文獻(xiàn)對(duì)國內(nèi)外情況進(jìn)行研究對(duì)比,結(jié)果如表1所示。
表1 學(xué)習(xí)預(yù)警文獻(xiàn)的研究數(shù)據(jù)分析
通過研究國內(nèi)外關(guān)于數(shù)據(jù)挖掘的學(xué)習(xí)預(yù)警發(fā)現(xiàn):近幾年該方面的論文數(shù)量呈現(xiàn)上升趨勢(shì);數(shù)據(jù)挖掘技術(shù)采用的模型沒有固定模型,比較多樣化;研究點(diǎn)主要為模型選擇、預(yù)警指標(biāo)、預(yù)警起始時(shí)間。當(dāng)前學(xué)業(yè)預(yù)警的主流研究方向?yàn)槭褂脵C(jī)器學(xué)習(xí)算法構(gòu)造學(xué)業(yè)預(yù)警模型并預(yù)測(cè)。
目前研究以課程數(shù)據(jù)成績?yōu)榛A(chǔ),成績基本上為百分制,通過研究課程之間的關(guān)聯(lián)性,從而對(duì)目標(biāo)課程進(jìn)行預(yù)測(cè),均未涉及到課程學(xué)分評(píng)價(jià)體系。并且,研究內(nèi)容均未考慮到專業(yè)課程的整體性和關(guān)聯(lián)性以及系統(tǒng)性,導(dǎo)致分析缺乏合理性和科學(xué)性,這是目前研究的一個(gè)缺口。
根據(jù)國際通行的學(xué)生質(zhì)量綜合評(píng)價(jià)考核體系指標(biāo)平均績點(diǎn)制GPA(grade point average,GPA),本文對(duì)構(gòu)建的模型進(jìn)行測(cè)試及驗(yàn)證,欲達(dá)到測(cè)試的準(zhǔn)確度。一方面,教學(xué)管理者,利用前導(dǎo)關(guān)聯(lián)課程的績點(diǎn)關(guān)系,預(yù)測(cè)出學(xué)生后續(xù)課程績點(diǎn),從而做出初期預(yù)警工作,讓決策具有較強(qiáng)的說服力、科學(xué)性、合理性。學(xué)生收到預(yù)警信息后,及時(shí)改變相關(guān)聯(lián)課程的學(xué)習(xí)方法和態(tài)度,從而提高目標(biāo)課程績點(diǎn)。另一方面,課題的相關(guān)成果,可將來做為人工智能實(shí)驗(yàn)室建設(shè)的教學(xué)實(shí)驗(yàn)資源,同時(shí)在《應(yīng)用型本科院校模型化虛擬實(shí)驗(yàn)教學(xué)研究》教學(xué)改革項(xiàng)目支撐下,正在研究虛擬仿真神經(jīng)網(wǎng)絡(luò)模型,預(yù)警的相關(guān)結(jié)果將在模型中得以驗(yàn)證。課程成果,也可作為省級(jí)精品建設(shè)課程《數(shù)據(jù)庫原理與應(yīng)用》中的數(shù)據(jù)庫案例和實(shí)驗(yàn)指導(dǎo)教材。
大數(shù)據(jù)興起之后,課程績點(diǎn)預(yù)測(cè)是應(yīng)用型本科院校提升人才培養(yǎng)質(zhì)量的新型教育管理方式。本課題的研究是教學(xué)實(shí)踐的實(shí)際需求,又是教學(xué)研究中的一大熱點(diǎn)。通過本課題的研究,為本院學(xué)業(yè)預(yù)警保障體系提供一種智能化、信息化策略,同時(shí)其研究成果對(duì)指導(dǎo)本院提升人才培養(yǎng)質(zhì)量也具有一定的借鑒意義[4]。
1)本文研究數(shù)據(jù)來源于本學(xué)院近10年信息學(xué)院所有專業(yè)從入學(xué)到本科四年的期末考試成績,所有成績均從學(xué)校教務(wù)系統(tǒng)中導(dǎo)出,作為分析數(shù)據(jù)。對(duì)學(xué)校的教務(wù)系統(tǒng)中的源數(shù)據(jù)進(jìn)行導(dǎo)出,然后將其載入數(shù)據(jù)倉庫,其中一部分作為訓(xùn)練數(shù)據(jù),另一部分作為驗(yàn)證數(shù)據(jù)。同時(shí)需對(duì)數(shù)據(jù)倉庫中的數(shù)據(jù)進(jìn)行準(zhǔn)確性測(cè)試、除噪、清除錯(cuò)誤數(shù)據(jù)。
2)定義課程績點(diǎn)計(jì)算規(guī)則。根據(jù)GPA,結(jié)合我院學(xué)生課程成績和綜合測(cè)評(píng)的依據(jù),經(jīng)過試卷調(diào)查以及分析,最終確定本學(xué)院的課程績點(diǎn)計(jì)算方法及規(guī)則。
3)構(gòu)建課程數(shù)據(jù)“畫像”。學(xué)生所有專業(yè)課程都是有關(guān)聯(lián)的,一門課程分?jǐn)?shù)低導(dǎo)致后續(xù)課程會(huì)受影響。在深入研究信息學(xué)院課程體系的基礎(chǔ)上,為分析課程之間的關(guān)聯(lián),構(gòu)造知識(shí)單元、知識(shí)點(diǎn)、課程三個(gè)層次的專業(yè)知識(shí)有相同節(jié)點(diǎn),節(jié)點(diǎn)之間弧線表現(xiàn)課程學(xué)習(xí)的先后順序,將課程網(wǎng)絡(luò)劃分為具有共同特征的課程組。
4)提取課程關(guān)聯(lián)規(guī)則。在課程組基礎(chǔ)上,通過Apriori算法對(duì)關(guān)聯(lián)課程進(jìn)行分析,按照支持度從高到低排序,選擇幾門置信度較高的課程設(shè)置為關(guān)聯(lián)課程,前導(dǎo)課程為規(guī)則中的前置條件,預(yù)測(cè)課程設(shè)為后置條件。這一過程,將課程之間、課程和學(xué)分績點(diǎn)之間的關(guān)系模型構(gòu)建出,通過分析并確定出課程間的關(guān)聯(lián)系數(shù),最終確定模型的輸入和輸出,即輸入為什么課程的成績和績點(diǎn),預(yù)測(cè)輸出課程為什么樣的后續(xù)課程成績。
5)構(gòu)建、訓(xùn)練及預(yù)測(cè)學(xué)分績點(diǎn)預(yù)測(cè)模型。第一,構(gòu)建神經(jīng)網(wǎng)絡(luò)模型。通過MATLAB中的神經(jīng)網(wǎng)絡(luò)工具箱,對(duì)模型的輸入層、隱含層、輸出層神經(jīng)元個(gè)數(shù)、參數(shù)進(jìn)行計(jì)算并進(jìn)行合適的參數(shù)設(shè)置;第二,訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型。使用采集數(shù)據(jù)中的訓(xùn)練集,將樣本的課程成績、課程組名稱作為輸入數(shù)據(jù),某些課程績點(diǎn)作為輸出,對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,比較實(shí)際輸出和期望輸出差值,若誤差在設(shè)定的范圍內(nèi),則模型符合要求,否則調(diào)整相關(guān)參數(shù),重復(fù)訓(xùn)練,直到誤差符合設(shè)定值,停止迭代;第三,模型預(yù)測(cè)。使用數(shù)據(jù)集中的測(cè)試集進(jìn)行測(cè)試,即給定課程組中的課程、學(xué)生、績點(diǎn),通過模型輸出目標(biāo)課程的績點(diǎn)預(yù)測(cè)值。對(duì)比預(yù)測(cè)值和真實(shí)值之間差距,分析實(shí)驗(yàn)結(jié)果。
關(guān)鍵問題:
1)模型建立的工具。模型建立的工具選擇,既通過Microsoft SQL Server中的數(shù)據(jù)挖掘功能,利用原始數(shù)據(jù)構(gòu)造模型,對(duì)庫中已有學(xué)生進(jìn)行績點(diǎn)和成績預(yù)測(cè),也可選擇MATLAB自帶的神經(jīng)網(wǎng)絡(luò)工具箱,進(jìn)行建模和數(shù)據(jù)分析。
2)課程關(guān)聯(lián)規(guī)則分析。根據(jù)本學(xué)院的課程績點(diǎn)計(jì)算規(guī)則、專業(yè)知識(shí)網(wǎng)絡(luò)和課程數(shù)據(jù)畫像,運(yùn)用Apriori算法挖掘出課程成績和課程之間的關(guān)聯(lián)性,即如何自定義評(píng)估標(biāo)準(zhǔn),包括支持度和置信度,最終通過支持度和置信度選擇前導(dǎo)課程和預(yù)測(cè)課程。
3)確定模型的輸入和輸出項(xiàng)。選擇將課程成績?cè)O(shè)為輸入,畢業(yè)時(shí)平均學(xué)分績點(diǎn)結(jié)果設(shè)為輸出,還是選擇利用關(guān)聯(lián)規(guī)則分析挖出課程關(guān)聯(lián)規(guī)則,將課程組、成績、績點(diǎn)作為輸入項(xiàng)目,目標(biāo)課程績點(diǎn)為輸出向量,對(duì)比哪一種方案更加合理。
本文首先在課程內(nèi)容和課程成績基礎(chǔ)上,需要實(shí)現(xiàn)的是將學(xué)生的百分制成績數(shù)據(jù)轉(zhuǎn)化為課程績點(diǎn),運(yùn)用關(guān)聯(lián)規(guī)則分析Apriori算法挖掘課程之間的關(guān)聯(lián)性,從而確定模型的輸入和輸出;其次搭建神經(jīng)網(wǎng)絡(luò)模型,模型的訓(xùn)練是通過數(shù)據(jù)集中的訓(xùn)練集進(jìn)行訓(xùn)練;最后,利用模型對(duì)本院課程成績(測(cè)試集)做一定預(yù)測(cè)并分析數(shù)據(jù),從而為學(xué)業(yè)預(yù)警工作提供相關(guān)預(yù)測(cè)信息。本課題設(shè)計(jì)方案如圖1所示。
圖1 設(shè)計(jì)方案圖
目前高校教學(xué)管理上較多應(yīng)用百分制作為學(xué)生預(yù)警分析,本課題使用GPA作為學(xué)分制下評(píng)價(jià)學(xué)生成績好壞的依據(jù),通過創(chuàng)建和分析課程專業(yè)網(wǎng)絡(luò)圖,對(duì)課程之間的關(guān)聯(lián)性進(jìn)行分析。將課程內(nèi)容和學(xué)分績點(diǎn)緊密聯(lián)系,結(jié)合起來分析成績績點(diǎn),使得預(yù)測(cè)課程成績結(jié)果更加合理和準(zhǔn)確。
1)課題的可行性
首先,課題的數(shù)據(jù)通過本院教務(wù)系統(tǒng)可獲得,即實(shí)現(xiàn)全面綜合的高質(zhì)量大樣本數(shù)據(jù)的獲取。其次,本項(xiàng)目團(tuán)隊(duì)成員專業(yè)方向與課題一致,并且參與的項(xiàng)目都與本課題相關(guān)聯(lián),研究起來有更強(qiáng)的可操作性和專業(yè)性,通過深入的分析研究,會(huì)獲得有建設(shè)性的預(yù)期成果。
2)教研與教學(xué)管理相結(jié)合
本課題數(shù)據(jù)源真實(shí),通過學(xué)院的成績績點(diǎn)計(jì)算規(guī)則對(duì)百分制成績進(jìn)行預(yù)處理,將課程內(nèi)容和課程成績結(jié)合進(jìn)行分析,通過數(shù)據(jù)挖掘算法將本院課程間的數(shù)據(jù)關(guān)聯(lián)性挖掘出,將數(shù)據(jù)挖掘技術(shù)應(yīng)用于本校教學(xué)管理中。
數(shù)據(jù)的預(yù)測(cè)模型,利用機(jī)器學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)搭建預(yù)測(cè)模型,該模型不但降低目標(biāo)值陷入局部極小,而且也提高模型的收斂速度,最終模型計(jì)算出全局最優(yōu)解,將人工智能中的機(jī)器學(xué)習(xí)(虛擬仿真)模型應(yīng)用于本院的教學(xué)研究中。希望通過本課題的研究,將大數(shù)據(jù)技術(shù)應(yīng)用于教學(xué)管理中,從而促進(jìn)教育技術(shù)的發(fā)展。