李紅剛 殷立新 劉宏偉 李紅彪
摘 要:文章在介紹了數(shù)據(jù)倉(cāng)庫(kù)、聯(lián)機(jī)分析處理(OLAP)的概念基礎(chǔ)上,結(jié)合教學(xué)學(xué)生綜合測(cè)評(píng)系統(tǒng)構(gòu)建數(shù)據(jù)倉(cāng)庫(kù),利用決策樹分類方法實(shí)現(xiàn)數(shù)據(jù)分析的功能。
關(guān)鍵詞:數(shù)據(jù)倉(cāng)庫(kù);聯(lián)機(jī)分析處理;數(shù)據(jù)挖掘
隨著中國(guó)高等教育從精英教育向大眾化教育的轉(zhuǎn)變,必將給學(xué)生的管理帶來(lái)許多問(wèn)題。學(xué)生信息龐大而復(fù)雜,學(xué)生工作管理者越來(lái)越意識(shí)到管理的復(fù)雜性,越來(lái)越難以預(yù)測(cè)學(xué)生的狀態(tài)和發(fā)展。因此,學(xué)校希望學(xué)生的海量數(shù)據(jù)不僅是簡(jiǎn)單地用在備份和查詢上,而是更迫切需要管理信息系統(tǒng)具備協(xié)助測(cè)評(píng)決策的能力。經(jīng)過(guò)大量的分析與研究,數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘技術(shù)是解決這一問(wèn)題非常有效的途徑。數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘技術(shù)在教學(xué)綜合測(cè)評(píng)系統(tǒng)中的應(yīng)用正是建立在此基礎(chǔ)之上。
1 數(shù)據(jù)倉(cāng)庫(kù)、OLAP
(1)根據(jù)數(shù)據(jù)倉(cāng)庫(kù)之父Inmon[1]定義,數(shù)據(jù)倉(cāng)庫(kù)是一個(gè)面向主題的、集成的、不可更新的且隨時(shí)間不斷變化的數(shù)據(jù)集合,用來(lái)支持管理人員的決策。
(2)聯(lián)機(jī)分析處理(On-Line Analytical Processing,OLAP)技術(shù)是用于解決海量數(shù)據(jù)高效分析的先進(jìn)技術(shù)??梢灾饕獞?yīng)用于數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng),能夠用于復(fù)雜的分析操作,側(cè)重決策支持,能夠提供直觀明了的查詢結(jié)果。
(3)多維綜合測(cè)評(píng)聯(lián)機(jī)分析。教學(xué)綜合測(cè)評(píng)系統(tǒng)的數(shù)據(jù)倉(cāng)庫(kù)采用自下而上的構(gòu)建方法。系統(tǒng)使用多維數(shù)據(jù)模型,雪花模式。該模型將數(shù)據(jù)視為數(shù)據(jù)立方體模型,這是多維數(shù)據(jù)存儲(chǔ)的隱喻,允許對(duì)維和事實(shí)定義的數(shù)據(jù)以多維形式進(jìn)行建模和觀察。通過(guò)維度表,我們可以在創(chuàng)建數(shù)據(jù)立方體后以各種角度輕松執(zhí)行數(shù)據(jù)切片,切塊、上卷、下鉆、鉆過(guò)、鉆透等操作。通過(guò)多維數(shù)據(jù)分析,可以隨時(shí)查看任何學(xué)生或年級(jí)的任何一項(xiàng)或綜合測(cè)評(píng)的結(jié)果。這有利于學(xué)校大學(xué)生管理者通過(guò)多維數(shù)據(jù)立方體的展示來(lái)了解每個(gè)學(xué)期和每個(gè)學(xué)生或班級(jí)的各個(gè)方面的發(fā)展,開展有針對(duì)性的教育工作,可以宏觀地掌握學(xué)生的發(fā)展,也為支持學(xué)生的管理和教育發(fā)揮了有效的決策作用[2]。
2 研究的內(nèi)容
利用學(xué)校多年來(lái)的基礎(chǔ)數(shù)據(jù),在建立相對(duì)完整的關(guān)系數(shù)據(jù)庫(kù)的基礎(chǔ)上,創(chuàng)建系統(tǒng)的數(shù)據(jù)倉(cāng)庫(kù),然后進(jìn)行各種OLAP分析。以各測(cè)評(píng)項(xiàng)目為目標(biāo),作為測(cè)評(píng)分析的主題。例如,綜合系統(tǒng)可以基于學(xué)生編號(hào)、學(xué)期、學(xué)年、學(xué)術(shù)水平等方面多維度查詢。評(píng)估結(jié)果可以使用數(shù)據(jù)挖掘—在線分析挖掘(On-line Analytical Mining,OLAM)的多維數(shù)據(jù)挖掘方法來(lái)生成全面評(píng)估多維立方體的視覺嘗試,每個(gè)學(xué)生的學(xué)習(xí)成績(jī)和其他方面都可以在立方體中表達(dá),可以一目了然地看到學(xué)生各方面的情況。教學(xué)綜合測(cè)評(píng)旨在確定學(xué)生入學(xué)與學(xué)生就業(yè)之間的關(guān)系,以確定課程設(shè)置,并找出學(xué)生來(lái)源與學(xué)生成績(jī)和就業(yè)之間的關(guān)系;用人單位選拔優(yōu)秀人才;它可以在畢業(yè)資格審核,學(xué)位授予,重修、輔修、評(píng)定“三好學(xué)生”和獎(jiǎng)學(xué)金中發(fā)揮輔助決策作用[3]。
3 解決方案
Microsoft在SQL Server上提供Analysis Services,這是一種數(shù)據(jù)倉(cāng)庫(kù)解決方案,也是Microsoft決策支持服務(wù)的關(guān)鍵組件。為了使教學(xué)綜合測(cè)評(píng)更加直觀和高效,學(xué)校管理者利用數(shù)據(jù)挖掘系統(tǒng)—DBMiner軟件實(shí)現(xiàn)數(shù)據(jù)立方體的可視化[4-5]。
(1)數(shù)據(jù)倉(cāng)庫(kù)體系結(jié)構(gòu)整個(gè)數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)是一個(gè)包含4個(gè)層次的體系結(jié)構(gòu),具體如圖1所示。
(2)OLAP。使用微軟公司SQLServer上的Analysis Manager來(lái)創(chuàng)建多維數(shù)據(jù)集,設(shè)計(jì)學(xué)生綜合測(cè)評(píng)事實(shí)表與學(xué)生、教師、考試、設(shè)置、成績(jī)、測(cè)評(píng)內(nèi)容、德育等維度表。
(3)將決策樹分類方法應(yīng)用于數(shù)據(jù)挖掘。決策樹提供了一種在什么條件下顯示值得遵守規(guī)則的方法。在沿著決策樹從上到下遍歷的過(guò)程中,在每個(gè)節(jié)點(diǎn)都會(huì)遇到一個(gè)問(wèn)題,對(duì)每個(gè)節(jié)點(diǎn)上問(wèn)題的不同回答導(dǎo)致不同的分支,最后會(huì)到達(dá)一個(gè)葉子結(jié)尾。這個(gè)過(guò)程就是利用決策樹進(jìn)行分類的過(guò)程[6]。
教學(xué)綜合測(cè)評(píng)方面定性指標(biāo)包括德育水平、學(xué)業(yè)水平、課外實(shí)踐能力等。
①根據(jù)相應(yīng)的規(guī)則對(duì)每個(gè)指標(biāo)進(jìn)行分類。綜合素質(zhì):按優(yōu)、良、中、差分為1、2、3、4四個(gè)等級(jí);德育水平:按好、一般、差分為1、2、3級(jí);學(xué)業(yè)水平:按優(yōu)秀、良好、一般、較差、差分為1、2、3、4、5級(jí);課外實(shí)踐能力:按合格、不合格分為1、2級(jí);
②建立決策樹分類規(guī)則如圖2所示。
根據(jù)先前建立的決策樹分類規(guī)則,建立數(shù)據(jù)訓(xùn)練集,并且在由分類規(guī)則和訓(xùn)練數(shù)據(jù)生成的決策樹算法之后,自動(dòng)生成用于預(yù)測(cè)學(xué)術(shù)水平的決策樹。決策樹葉子顏色的深淺直觀表示了事件發(fā)生的概率大小[7-8]。例如,我們可以看到整體質(zhì)量為優(yōu)秀的群體中,學(xué)業(yè)水平為優(yōu)秀的所占比例和良好的所占比例,根據(jù)兩者合計(jì)占有比例,可以觀察是否占有絕對(duì)優(yōu)勢(shì)。因此,我們可以分析和預(yù)測(cè)具有良好綜合素質(zhì)的學(xué)生,學(xué)術(shù)水平也是優(yōu)秀的。
4 結(jié)語(yǔ)
本文對(duì)實(shí)現(xiàn)這些功能所面臨的主要技術(shù)問(wèn)題進(jìn)行了較深入的研究,基于數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)建模技術(shù)的數(shù)據(jù)倉(cāng)庫(kù)應(yīng)用系統(tǒng)的實(shí)現(xiàn)方法,數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的體系結(jié)構(gòu),數(shù)據(jù)裝載和控制機(jī)制分析數(shù)據(jù)挖掘算法等,通過(guò)構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)并利用OLAP和決策樹分類的強(qiáng)大功能,可以實(shí)現(xiàn)強(qiáng)大的基于Web的數(shù)據(jù)分析。用戶可以在Web瀏覽器中對(duì)數(shù)據(jù)執(zhí)行統(tǒng)計(jì)和分析,以實(shí)現(xiàn)數(shù)據(jù)挖掘?;跀?shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘技術(shù)的教學(xué)綜合測(cè)評(píng)系統(tǒng)軟件,在學(xué)校實(shí)際應(yīng)用中取得了良好的效果,大大減輕了教學(xué)、學(xué)工、督導(dǎo)等相關(guān)工作人員的工作量,擴(kuò)大了數(shù)據(jù)統(tǒng)計(jì)的覆蓋面,提升了統(tǒng)計(jì)數(shù)據(jù)的效率和測(cè)評(píng)數(shù)據(jù)的準(zhǔn)確度,為學(xué)校教學(xué)工作起到輔助決策的作用。
[參考文獻(xiàn)]
[1]INMON W H.數(shù)據(jù)倉(cāng)庫(kù)[M].王志海,譯.北京:機(jī)械工業(yè)出版社,2000.
[2]TONY B.SQLServer2000數(shù)據(jù)倉(cāng)庫(kù)與Analysis Services[M].邵勇,譯.北京:中國(guó)電力出版社,2002.
[3]沈兆陽(yáng).SQLServer2000 OLAP解決方案—數(shù)據(jù)倉(cāng)庫(kù)與Analysis Services[M].北京:清華大學(xué)出版社,2001.
[4]孫榮明.數(shù)據(jù)挖掘?qū)虒W(xué)管理的優(yōu)化設(shè)計(jì)[J].電腦知識(shí)與技術(shù),2016(24):3-5.
[5]翟繼友. 基于決策樹的教師教學(xué)質(zhì)量評(píng)價(jià)分析[J].教育評(píng)論,2015(9):65-67.
[6]任鎖平. 基于數(shù)據(jù)挖掘的高職教學(xué)質(zhì)量監(jiān)控評(píng)價(jià)系統(tǒng)設(shè)計(jì)及應(yīng)用[J].電子設(shè)計(jì)工程,2015(16):25-27.
[7]楊國(guó)靜.基于數(shù)據(jù)挖掘的高校教學(xué)數(shù)據(jù)分析研究[D].石家莊:河北師范大學(xué),2015.
[8]彭麗娟.基于數(shù)據(jù)挖掘的高職院校教學(xué)管理系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D].成都:電子科技大學(xué),2014.
Abstract:Based on the concept of data warehouse and online analytical processing(OLAP), a data warehouse is constructed by combining the comprehensive assessment system of teaching students, and the function of data analysis is realized by using the decision tree classification method.
Key words:data warehouse; OLAP; data mining