摘 要:隨著大數(shù)據(jù)時代的到來,各高職院校的學(xué)生數(shù)據(jù)不斷增長。當(dāng)前,國內(nèi)高校的學(xué)生成績散亂地存儲在教務(wù)系統(tǒng)中的現(xiàn)象十分普遍,高校較差的文件歸檔整理能力,容易導(dǎo)致嚴(yán)重的資源浪費和空置。文章基于數(shù)據(jù)挖掘技術(shù)的決策樹算法,利用國內(nèi)某高職院校電子商務(wù)專業(yè)學(xué)生成績進(jìn)行數(shù)據(jù)挖掘,提取數(shù)據(jù)中的隱性有用信息,獲取該專業(yè)的核心課程與其它課程之間的關(guān)聯(lián)關(guān)系,幫助高校教師和管理人員更好地掌握學(xué)生的學(xué)習(xí)情況,改進(jìn)教學(xué),為其合理地設(shè)置課程提供參考依據(jù)。
關(guān)鍵詞:高職院校;數(shù)據(jù)挖掘;決策樹算法;核心課程;關(guān)聯(lián)分析
中圖分類號:TP319 文獻(xiàn)標(biāo)識碼:A 文章編號:2096-4706(2019)02-0151-03
Abstract:With the arrival of the big data era,the student data in higher vocational colleges has been increasing. At present,the scores of students in many domestic colleges and universities are just stored in the educational administration system in disorder,which leads to serious waste of resources and vacancy due to poor filing ability. This paper will find out the relationship between the core courses and other courses of the major,using the decision tree algorithm to make data mining for the score of the electric business students in a higher vocational college,and mining students’scores deeply and extracting useful information hidden in the data,which can help teachers and administrators to master the students’learning situation better and improve the teaching,and provide a reference for scheduling the courses more reasonably.
Keywords:higher vocational colleges;data mining;decision tree algorithm;core course;association analysis
0 引 言
在信息時代迅速發(fā)展的歷程中,數(shù)字化、信息化的內(nèi)在動力正在深刻地影響著社會的發(fā)展,數(shù)據(jù)已成為推動我國科技和經(jīng)濟發(fā)展的重要力量。大數(shù)據(jù)的核心價值影響力正逐步拓展至金融分析、教育、交通運輸、醫(yī)療救助、文化等眾多領(lǐng)域,并得到了廣泛的關(guān)注和應(yīng)用。近年來高職院校學(xué)生成績數(shù)據(jù)也在呈爆發(fā)式增長,而許多學(xué)校教務(wù)系統(tǒng)的數(shù)據(jù)管理還只停留在對數(shù)據(jù)進(jìn)行簡單的查詢、統(tǒng)計階段。因此,應(yīng)用數(shù)據(jù)挖掘技術(shù)對數(shù)據(jù)進(jìn)行更深入的挖掘分析,成為高校教學(xué)管理的迫切需求。就國外應(yīng)用情況而言,數(shù)據(jù)挖掘技術(shù)已被逐步應(yīng)用到高校管理及教育實踐中,具體體現(xiàn)在學(xué)生教務(wù)系統(tǒng)管理、平臺管理、校友系統(tǒng)管理等方面。在國內(nèi),數(shù)據(jù)挖掘技術(shù)整體使用較國外晚,但近年來其應(yīng)用發(fā)展較快。數(shù)據(jù)挖掘技術(shù)可以幫助高校完成學(xué)生綜合素質(zhì)測評,教師測評,課程合理設(shè)置和教學(xué)方法選擇,試卷評閱和試題質(zhì)量評價等大數(shù)據(jù)量的工作。教育數(shù)據(jù)挖掘(Educational Data Mining,EDM)[1]是綜合運用統(tǒng)計學(xué)、人工智能學(xué)、管理信息系統(tǒng)、模式識別以及數(shù)據(jù)挖掘技術(shù)等對大數(shù)據(jù)進(jìn)行集中分析和統(tǒng)計,通過數(shù)學(xué)建模方式,及時發(fā)現(xiàn)學(xué)生學(xué)習(xí)過程中具體內(nèi)容、學(xué)習(xí)成果及學(xué)習(xí)行為等之間的量化關(guān)系,以實現(xiàn)對學(xué)生后期學(xué)習(xí)的綜合預(yù)判。教育數(shù)據(jù)挖掘也可以幫助高校改進(jìn)教學(xué),如提高學(xué)生學(xué)習(xí)成效,挖掘課程間的內(nèi)在聯(lián)系,及時幫助教師不斷改進(jìn)和優(yōu)化具體的教學(xué)方法,以提升教學(xué)針對性,幫助教學(xué)管理人員快速制定決策,從而為改進(jìn)教學(xué)和提升教學(xué)質(zhì)量提供依據(jù)[2]。
1 教育基礎(chǔ)數(shù)據(jù)挖掘的環(huán)節(jié)
教育大數(shù)據(jù)挖掘具體流程涵蓋:數(shù)據(jù)前期準(zhǔn)備、數(shù)據(jù)采集、結(jié)果闡述環(huán)節(jié)。
(1)數(shù)據(jù)前期準(zhǔn)備:確定挖掘?qū)ο螅鸭⒄斫虒W(xué)管理中的源數(shù)據(jù),使數(shù)據(jù)挖掘可以就明確的對象進(jìn)行分析,以得出相關(guān)結(jié)論。它包括數(shù)據(jù)集成、遴選和預(yù)處理:1)數(shù)據(jù)集成:也稱為“數(shù)據(jù)清洗”,通常占整體工作量的30%以上。整理數(shù)據(jù),及時處理和糾正數(shù)據(jù)中存在的紕漏,實現(xiàn)“數(shù)據(jù)清理”。及時過濾、篩選其中的錯誤數(shù)據(jù)、重復(fù)統(tǒng)計數(shù)據(jù);2)數(shù)據(jù)遴選:基于數(shù)據(jù)要求,進(jìn)一步縮小圈定范圍,提升數(shù)據(jù)的處理效率;3)數(shù)據(jù)預(yù)處理:將數(shù)據(jù)轉(zhuǎn)置為滿足數(shù)據(jù)挖掘的固有格式,并進(jìn)行必要的數(shù)據(jù)簡化和離散化。
(2)數(shù)據(jù)采集:它是數(shù)據(jù)挖掘過程中最關(guān)鍵的一步,首先應(yīng)選定某個特定的數(shù)據(jù)挖掘算法。數(shù)據(jù)挖掘算法,是根據(jù)數(shù)據(jù)創(chuàng)建數(shù)據(jù)挖掘模型的一組試探法和計算,其包括以下幾種常用算法:關(guān)聯(lián)規(guī)則、決策樹算法、神經(jīng)網(wǎng)絡(luò)方法、分類算法、遺傳算法、聚類分析算法、回歸算法、統(tǒng)計分析方法等[3]。在數(shù)據(jù)挖掘的各種算法研究中,學(xué)者們的研究方向集中在分類、聚類、關(guān)聯(lián)規(guī)則等方法:1)分類:分類是一種有指導(dǎo)的學(xué)習(xí)過程,基于既有數(shù)據(jù)樣本集合及樣本特點建立可以將數(shù)據(jù)及時映射到某一特定類型的分類函數(shù)或者直接劃分至特點的類型中的某一個類型,對未知的統(tǒng)計樣本賦值類型,以實現(xiàn)決策干預(yù)[4]。一般情況下,分類過程可以分為兩個環(huán)節(jié):分類器構(gòu)建及分類器數(shù)據(jù)分類;2)聚類:聚類分析和分類分析之間的差異體現(xiàn)在其屬于一種無監(jiān)督體系下的自我學(xué)習(xí)過程[5],分析前尚不明確相應(yīng)的樣本類型及數(shù)量。它是將物理的或抽象的對象劃分為若干組的過程,一個群體也就是一個類。聚類分析算法以最大化分類的相似度指標(biāo)及最小化分類的相似度指標(biāo)作為聚類分析對象,對應(yīng)條件下形成的數(shù)據(jù)簇可以認(rèn)為是一個完整的數(shù)據(jù)對象,描述其特性的方式主要有兩種,即:顯性和隱性。不依賴預(yù)先定義的類和帶類標(biāo)號的訓(xùn)練樣本;3)關(guān)聯(lián)規(guī)則:主要是從數(shù)據(jù)存儲庫中及時發(fā)現(xiàn)數(shù)據(jù)庫項目或者不同數(shù)據(jù)屬性之間的隱性關(guān)聯(lián)關(guān)系,并借助關(guān)聯(lián)標(biāo)準(zhǔn)進(jìn)行量化描述。它早期出現(xiàn)在市場購物模型中,其主要目的是評價顧客的購買需求及購買意向。當(dāng)前,關(guān)聯(lián)規(guī)則已經(jīng)被推廣使用到其它領(lǐng)域[6],例如,銀行的信用卡使用及跟蹤系統(tǒng),及時獲取消費相關(guān)數(shù)據(jù),發(fā)現(xiàn)特定信用卡客戶群的消費習(xí)慣;網(wǎng)站設(shè)計及維護(hù)人員可以借助Web服務(wù)器及時記錄訪問客戶的數(shù)據(jù),發(fā)現(xiàn)瀏覽者的瀏覽習(xí)慣及不同網(wǎng)站之間的相互關(guān)聯(lián)關(guān)系。
(3)結(jié)果闡述環(huán)節(jié):上述步驟主要是基于用戶的最終決策,以實現(xiàn)對數(shù)據(jù)及相關(guān)信息的及時發(fā)現(xiàn)及處理,并將可用信息合理區(qū)分,提交給決策者。
2 決策樹算法
在分類算法中最重要的算法之一就是決策樹算法,其是數(shù)據(jù)挖掘階段的核心研究內(nèi)容之一,上述算法受到了國內(nèi)外相關(guān)研究者的追捧。決策樹算法(Decision Tree)是常用的分類方法之一,其把所有變量對數(shù)據(jù)的影響用樹枝形狀來描述,詳細(xì)執(zhí)行流程如下:首先,依照標(biāo)準(zhǔn)確定對應(yīng)的根節(jié)點;其次,分析根節(jié)點的屬性,將樣本集合劃分為多個子集合,使用相同的方法從子集中確定節(jié)點,并完成連續(xù)迭代,直至子集合為空集合或者達(dá)到既定的停止運行條件,對應(yīng)的節(jié)點為子節(jié)點,子節(jié)點可以認(rèn)為是某一類型的屬性值;最后,將上述繼承關(guān)系借助樹狀圖的形式表現(xiàn)出來,形成決策樹。當(dāng)前其已經(jīng)廣泛應(yīng)用在信用卡使用損失預(yù)判、國際性貨幣流通兌換時序等方面[7]。
當(dāng)前,已經(jīng)成熟的決策樹算法類型涵蓋:ID3、C4.5、CART、CHAID、SPRINT、SLIQ等算法。J.R.Quinlan早在上世紀(jì)70年代中期就提出了ID3算法[8],其是決策樹算法中常用的算法之一,具有代表性。決策樹算法類似于離散函數(shù)值算法,ID3算法能夠初步滿足數(shù)據(jù)挖掘的需求,但這種算法尚未考慮到?jīng)Q策樹節(jié)點數(shù)量過量的問題,導(dǎo)致決策樹的高度值無法控制。隨著知識量的不斷累積,知識量和決策樹高度呈現(xiàn)出明顯的正相關(guān)關(guān)系,這導(dǎo)致算法效率無法達(dá)到預(yù)期效果。為了切實降低決策樹算法的繁瑣程度,優(yōu)化決策樹的決策效率,人們提出了更加合理的改進(jìn)算法。研究人員努力簡化決策樹,同時在改進(jìn)屬性選擇方法、測試屬性空間的修正、數(shù)據(jù)集合限定、數(shù)據(jù)結(jié)構(gòu)改善等方面均提出了相應(yīng)的標(biāo)準(zhǔn)算法。其中,C4.5算法繼承了ID3算法的優(yōu)勢,并從以下方面進(jìn)行了重點改進(jìn):將信息增益率作為屬性判斷指標(biāo),在構(gòu)造決策樹的過程中對決策樹進(jìn)行精簡;實現(xiàn)屬性連續(xù)及離散化目的;適用于不完整數(shù)據(jù)的處理和分析。但是,C4.5算法也存在諸多缺陷,譬如,在構(gòu)建決策樹時,先對數(shù)據(jù)進(jìn)行多次順序掃描及排序,這將在一定程度上導(dǎo)致算法運行效率低下,僅適用于能夠停駐在內(nèi)存中的數(shù)據(jù)集合[5]。C5.0算法主要面向大數(shù)據(jù)集合,被廣泛應(yīng)用在數(shù)據(jù)庫分析中(其中包含了數(shù)百萬份數(shù)值或者名義領(lǐng)域)。雖然其存在記憶存儲使用率低的問題,但比C4.5算法運行效率高,并且能產(chǎn)生更準(zhǔn)確的規(guī)則。C5.0算法可以更好地掌握學(xué)生的學(xué)習(xí)情況,其在內(nèi)存占用方面的性能也比C4.5算法提高了大約90%。在精度控制層面,C5.0算法一般使用提升方法,部分?jǐn)?shù)據(jù)集合的測試結(jié)果表明,C5.0算法誤差率低于C4.5算法的50%[9]。
本文高職院校課程關(guān)聯(lián)性分析實驗采用決策樹C5.0算法,該算法易于理解,且應(yīng)用領(lǐng)域也最為廣泛。其在可理解度、易訓(xùn)練性、易實施性和通用性等方面優(yōu)于其它分類方法。決策樹算法可應(yīng)用于連續(xù)或者離散數(shù)據(jù)的決策分析中,其可以更加明確地分辨出不同屬性的重要程度,減少計算量,并且可以生成易于常規(guī)用戶理解的準(zhǔn)則。將決策樹算法應(yīng)用在學(xué)校成績管理綜合系統(tǒng)中,可以幫助高校更加高效地完成信息挖掘,獲取其中的隱含數(shù)據(jù)。
3 決策樹C5.0算法在高職院校課程關(guān)聯(lián)性分析中的具體應(yīng)用
3.1 實驗數(shù)據(jù)準(zhǔn)備
本實驗的原始數(shù)據(jù)為福建農(nóng)職院教務(wù)管理系統(tǒng)中電子商務(wù)專業(yè)2015級100個學(xué)生、5個學(xué)期的成績表,其中包括39門課,3900條成績記錄。進(jìn)行數(shù)據(jù)清理后,將其中1名退學(xué)學(xué)生,4名缺考較多學(xué)生的記錄刪除,保留95個學(xué)生、39門課程、3705條成績記錄,實際調(diào)查學(xué)生占所有調(diào)查學(xué)生的95%。在39門課程中,去掉3門選修及7門實訓(xùn)課程,余29門課,95個學(xué)生,共2755條記錄。根據(jù)實際需要,將學(xué)生每學(xué)期的總評成績及格與不及格成績,分別用屬性標(biāo)志,分別用字母“Y”、“N”表示,具體情況如表1所示。
3.2 數(shù)據(jù)采集
根據(jù)該學(xué)院2015級電商專業(yè)培養(yǎng)方案,該專業(yè)的核心課程為:“電子商務(wù)網(wǎng)站建設(shè)”、“網(wǎng)絡(luò)營銷”、“電子商務(wù)案例分析”、“電子商務(wù)法”。根據(jù)培養(yǎng)方案中各課程之間的關(guān)系,利用決策樹C5.0數(shù)據(jù)挖掘算法,建立專業(yè)核心課程與其它課程的決策樹模型,找到專業(yè)核心課程與其它課程的關(guān)聯(lián)。
3.3 結(jié)果闡述環(huán)節(jié)
部分核心課程與其它課程關(guān)聯(lián)的挖掘結(jié)果如圖1、圖2所示。
3.3.1 實驗結(jié)果綜合分析
第一,“網(wǎng)絡(luò)營銷”課程與“電子商務(wù)概論”、“電子商務(wù)案例分析”、“應(yīng)用文寫作”、“電子商務(wù)物流”等課程相關(guān),特別是與“電子商務(wù)概論”課程關(guān)系最為密切。第二,“電子商務(wù)網(wǎng)站建設(shè)”課程與“電子商務(wù)概論”、“網(wǎng)頁設(shè)計與制作”“應(yīng)用文寫作”、“市場調(diào)研與觀測”等課程關(guān)系較密切,特別是“電子商務(wù)概論”課程,大部分“電子商務(wù)概論”課成績不及格的同學(xué)“電子商務(wù)網(wǎng)站建設(shè)”這門課也不及格。第三,“電子商務(wù)法”課程與“電子商務(wù)案例分析”、“電子商務(wù)概論”、“電子商務(wù)數(shù)據(jù)庫設(shè)計與管理”等課程關(guān)系密切。第四,“電子商務(wù)案例分析”與“電子商務(wù)概論”、“電子商務(wù)法”、“應(yīng)用文寫作”等課程有關(guān)系,其中影響最大的是“電子商務(wù)概論”課程。
3.3.2 實驗挖掘后的數(shù)據(jù)應(yīng)用
實驗挖掘出有價值的信息為:幾門核心課程都與“電子商務(wù)概論”、“電子商務(wù)案例分析”課程關(guān)系密切。因此,應(yīng)對學(xué)生重點教授這兩門課程,提高學(xué)生成績,為學(xué)生其它核心課程的學(xué)習(xí)奠定良好的基礎(chǔ)。此外,對于各核心課程與其它課程之間的關(guān)系也應(yīng)予以重視,為教師更好地改進(jìn)教學(xué)及合理地設(shè)置課程提供參考依據(jù)。
4 結(jié) 論
為了更好地提高學(xué)生學(xué)習(xí)成績分析效率和高校教學(xué)質(zhì)量,利用數(shù)據(jù)挖掘技術(shù)構(gòu)建高校學(xué)生成績分析系統(tǒng)較為關(guān)鍵。文章利用決策樹算法對電商專業(yè)的學(xué)生成績進(jìn)行挖掘整理,發(fā)現(xiàn)了該專業(yè)核心課程與其它課程的關(guān)聯(lián),以期為教師更好地改進(jìn)教學(xué)及合理地設(shè)置課程提供參考依據(jù)。由于篇幅和水平有限,本文只采用決策樹算法進(jìn)行了挖掘,并未比較幾種數(shù)據(jù)挖掘算法在學(xué)生成績分析中的應(yīng)用。筆者將不斷學(xué)習(xí),以期就這方面展開更為深入的研究。
參考文獻(xiàn):
[1] 孫曙輝,劉邦奇,李鑫.面向智慧課堂的數(shù)據(jù)挖掘與學(xué)習(xí)分析框架及應(yīng)用 [J].中國電化教育,2018(2):59-66.
[2] 余亮,楊秋燕,趙楠.模型驅(qū)動的教育大數(shù)據(jù)挖掘促進(jìn)教與學(xué)——訪美國猶他州立大學(xué)米米·雷克教授 [J].開放教育研究,2018,24(1):4-9.
[3] 和鐵行,王偉.數(shù)據(jù)挖掘在計算機課程成績分析中的應(yīng)用 [J].浙江醫(yī)學(xué)教育,2017,16(5):4-6+42.
[4] 王金慶.決策樹C4_5算法的改進(jìn)與應(yīng)用 [D].西安:西安理工大學(xué),2017.
[5] Wang X M,Wang J B. Research and Improvement on K-Means Clustering Algorithm [J].Computer & Digital Engineering,2013(756-759):3231-3235.
[6] Buko Dadye H,Rimiru R. Effects of Different Pre-processing Strategies:A Comparative Study on Decisision Tree Algorithms [J].International Journal of Digital Content Technology & Its Applications,2013,7(7):939-948.
[7] 黃炎,王紫玉,黃方亮.數(shù)據(jù)挖掘技術(shù)在高校學(xué)生成績分析中的應(yīng)用與研究 [J].蘭州文理學(xué)院學(xué)報(自然科學(xué)版),2016,30(3):64-68+78.
[8] Baldwin J F,Lawry J,Martin T P. A mass assignment based ID3 algorithm for decision tree.induction [J].International Journal of Intelligent Systems,2015,12(7):523-552.
[9] 李強.創(chuàng)建決策樹算法的比較研究——ID3,C4.5,C5.0算法的比較 [J].甘肅科學(xué)學(xué)報,2006(4):84-87.
作者簡介:潘燕(1981-),女,漢族,福建建陽人,專任教師,高校講師,工程碩士,主要研究方向:軟件工程、數(shù)據(jù)挖掘技術(shù)、三維建模。