黃有福
摘要:隨著高職院校招生規(guī)模的不斷擴(kuò)大,招生錄取與新生數(shù)據(jù)的管理僅采用辦公軟件進(jìn)行管理與分析的方式已無法獲取更深層次的有效信息,為了提高管理效率并在制定招生政策與計(jì)劃時(shí)提供科學(xué)的數(shù)據(jù)信息,該文使用數(shù)據(jù)挖掘技術(shù)對招生數(shù)據(jù)進(jìn)行研究,采用關(guān)聯(lián)、聚類、決策樹等方法,對大量的報(bào)考學(xué)生信息進(jìn)行清洗、分析和統(tǒng)計(jì),以此為招生過程中的科學(xué)決策提供有價(jià)值的參考。
關(guān)鍵詞:數(shù)據(jù)挖掘;數(shù)據(jù)倉庫;招生錄取
中圖分類號:TP311 文獻(xiàn)標(biāo)識碼:A 文章編號:1009-3044(2015)31-0003-02
Application of Data Mining Technology in the EnrollmentDataPlatform
HUANG You-fu
(Guangzhou Panyu Polytechnic,Guangzhou 511483, China)
Abstract: With the continuous expansion of enrollment in colleges,management and newborn admissions office using only data management and analysis software has been unable to obtain valid information on a deeper level, in order to improve management efficiency and to develop admissions policies and plans to provide scientific data, we use data mining techniques to study enrollment data, using association, clustering, decision tree method, a large number of applicants for student information for cleaning, analysis and statistics, the admissions processes scientific decision-makingprovide valuable reference.
Key words: data mining;data warehousing;admission
近年來,我國大力發(fā)展職業(yè)教育,并投入了大量的人力和物力,高職教育也得到了前所未有的發(fā)展。但是隨著目前各大高職院校的招生規(guī)模不斷擴(kuò)大,招生方式也在不斷地改革與創(chuàng)新,各高校的生源競爭也日趨激烈,各高校都在努力地去對招生的數(shù)據(jù)進(jìn)行研究,使用數(shù)據(jù)倉庫、數(shù)據(jù)挖掘等技術(shù),將招生過程中收集到的生源信息進(jìn)行提取,采用分類、聚類、關(guān)聯(lián)分析等方法,通過對大量的報(bào)考學(xué)生信息進(jìn)行清洗、分析和統(tǒng)計(jì)。獲取學(xué)生學(xué)習(xí)的需求、專業(yè)需求、就業(yè)需求等信息,找出科學(xué)與規(guī)律,從而更好的制定招生政策,招生計(jì)劃,提高入學(xué)報(bào)告率和生源質(zhì)量,促進(jìn)學(xué)校的發(fā)展。
1數(shù)據(jù)挖掘的定義
數(shù)據(jù)挖掘(Data Mining)是指人們從大量的、模糊的、零碎的、隨機(jī)的、不完整、含有噪聲的應(yīng)用數(shù)據(jù)中,提取出一些有潛在價(jià)值的信息和知識的一系列管理與分析過程。主要的工作流程主要包括:首先對原始數(shù)據(jù)的整理,選擇數(shù)據(jù)并對數(shù)據(jù)進(jìn)行預(yù)處理,然后對預(yù)數(shù)據(jù)的進(jìn)行轉(zhuǎn)換,最后抽取出有用的信息并獲取知識。數(shù)據(jù)挖掘基于數(shù)據(jù)庫對模式進(jìn)行發(fā)現(xiàn),可將模式劃分預(yù)測型模式與描述型模式兩種。
2 數(shù)據(jù)挖掘的常用方法
2.1聚類分析方法
聚類分析的方法是目前數(shù)據(jù)挖掘技術(shù)中一個(gè)很常用的方法,主要源用于統(tǒng)計(jì)學(xué)、生物學(xué)及機(jī)器學(xué)習(xí)等學(xué)科。它是使用簇的集合,通過使用一個(gè)簇內(nèi)的任意兩個(gè)對象之間的相似性,找出對象間的相異性的過程。
2.2決策樹
決策樹分為分類樹和回歸樹兩種,其中分類樹是對離散型數(shù)據(jù)變量進(jìn)行決策,而回歸樹主要應(yīng)用于連接的數(shù)據(jù)變量進(jìn)行決策。它的主要工作過程就類似于數(shù)據(jù)流程圖中的樹型結(jié)構(gòu),把整個(gè)結(jié)構(gòu)分為根結(jié)點(diǎn)、中間結(jié)點(diǎn)和葉結(jié)點(diǎn),在進(jìn)行數(shù)據(jù)分析的過程就是把數(shù)據(jù)進(jìn)行切分,每個(gè)問題對應(yīng)一個(gè)結(jié)點(diǎn)。
2.3關(guān)聯(lián)規(guī)則
關(guān)聯(lián)規(guī)則主要的思想是根據(jù)數(shù)據(jù)的出現(xiàn)的頻率找到出現(xiàn)之間的相互關(guān)系,主要的目的是根據(jù)他們的關(guān)聯(lián)信息找出其中的規(guī)律,并為之所利用。最核心的方法就是基本頻集理論的遞推方法。
2.4統(tǒng)計(jì)分析的方法
常用的統(tǒng)計(jì)分析立法有回歸分析方法、判別分析方法和探索性分析方法三種,它主要是要從大量的數(shù)據(jù)中,使用科學(xué)的統(tǒng)計(jì)方法,推斷出事物之間存在可能的規(guī)律。
3招生數(shù)據(jù)倉庫的建模
本文在創(chuàng)建數(shù)據(jù)倉庫的過程中,主要通過數(shù)據(jù)驅(qū)動的方法,從不同的數(shù)據(jù)源中獲得的數(shù)據(jù)存儲到數(shù)據(jù)倉庫中,根據(jù)決策的主題,實(shí)現(xiàn)招生數(shù)據(jù)的更科學(xué)決策分析,本文主要選用 SQL Server 數(shù)據(jù)庫,從概念建模、邏輯建模及物理建模的三級模式來構(gòu)建數(shù)據(jù)倉庫。
4數(shù)據(jù)挖掘流程
我校是國家級示范性高職院校,招生類型多,招生管理工作復(fù)雜繁瑣,把數(shù)據(jù)挖掘技術(shù)應(yīng)用于招生數(shù)據(jù)的管理中,有利于對考生志愿的合理選擇,同時(shí)也讓更多的學(xué)生及家長了解當(dāng)前的專業(yè)模式,以及對錄取的新生報(bào)到率的預(yù)測,為下一年的設(shè)定招生人數(shù)和專業(yè)設(shè)置提供有價(jià)值的參考資料。數(shù)據(jù)挖掘技術(shù)在本校的招生數(shù)據(jù)管理的主要工作流程如圖1所示:
圖1 數(shù)據(jù)挖掘的流程圖
我們從最原始的學(xué)生填寫的高考志愿信息表中,獲取基礎(chǔ)數(shù)據(jù),從考生的高考成績、學(xué)業(yè)水平成績、高中畢業(yè)考試成績、考生類別、生源地、家族信息等信息中,通過前端處理工具,主要使用Clementin 工具,設(shè)置字段選項(xiàng)、選擇記錄點(diǎn)、對數(shù)據(jù)進(jìn)行抽樣,匯總等建立數(shù)據(jù)倉庫,基于數(shù)據(jù)挖掘所要實(shí)現(xiàn)的目標(biāo)以及數(shù)據(jù)所具有的特點(diǎn),確定合適模型,通過聚類模型實(shí)現(xiàn)挖掘分析。最后評價(jià)數(shù)據(jù)挖掘結(jié)果,確定最佳模型,將其應(yīng)用到具體實(shí)際問題中,與招生工作進(jìn)行結(jié)合從而解釋數(shù)據(jù)挖掘結(jié)果。
5數(shù)據(jù)挖掘在招生平臺的應(yīng)用
建設(shè)招生數(shù)據(jù)管理平臺主要是為了對所有的招生數(shù)據(jù)進(jìn)行科學(xué)的分析,解決招生過程中專業(yè)的設(shè)置,冷熱門專業(yè)分析,錄取分?jǐn)?shù)線分析,考生第一志愿的分析以及招生計(jì)劃的設(shè)置等。
5.1專業(yè)設(shè)置
招生平臺中,可以以專業(yè)類別當(dāng)成維度,采用關(guān)聯(lián)分析,對各專業(yè)進(jìn)行分析,與及對某一專業(yè)和其相關(guān)聯(lián)的或相近專業(yè),使用多維數(shù)據(jù)集與 EXCEL 的數(shù)據(jù)透視表工具結(jié)合,能方便地進(jìn)行OLAP操作及結(jié)果的報(bào)表、圖形等多種方式的可視化展現(xiàn)。
5.2冷熱門專業(yè)分析
以生源所在地的考生為基礎(chǔ),運(yùn)用聚類算法進(jìn)行分析,以發(fā)掘考生填寫志愿的相關(guān)規(guī)律,確定哪些專業(yè)是熱門,哪些專業(yè)是冷門專業(yè),根據(jù)畢業(yè)生的就業(yè)情況以及對當(dāng)前的市場變化趨勢深入了解,持續(xù)地對熱門專業(yè)進(jìn)行支持與挖掘,對冷門專業(yè)進(jìn)行控制。
5.3考生第一志愿分析
第一志愿是志愿填報(bào)中最重要的一環(huán),目前我校在錄取規(guī)則上優(yōu)先錄取第一志愿考生,這樣可以有相應(yīng)專業(yè)人才的穩(wěn)定生源,這批生源在最大程度上有志于自己所填報(bào)的志愿,而且在錄取第一志愿考生時(shí),學(xué)校熱門專業(yè)通過第一志愿錄取即可招滿相應(yīng)的新生。本文通過關(guān)聯(lián)分析的方法,結(jié)合統(tǒng)計(jì)分析和聚類分析,根據(jù)考生的專業(yè)興趣,高考成績,以及興趣愛好等,分析考生第一志愿的情況。
5.4招生計(jì)劃安排
以考生的專業(yè)類別為基礎(chǔ)數(shù)據(jù),對某一類考生的信息進(jìn)行分析,主要包括對考生的填寫志愿的行為分析,有針對性地對考生性質(zhì),考生的志愿愛好,以及考生的高考成績中的單科成績情況進(jìn)行分類分析及關(guān)聯(lián)分析,采用決策樹法,合理地安排專業(yè)招生計(jì)劃。在系統(tǒng)平臺的運(yùn)用中,挖掘出隱含的規(guī)則與特征,把相關(guān)數(shù)據(jù)信息傳遞到各二級學(xué)院,讓二級學(xué)院根據(jù)挖掘的結(jié)果做出合理的招生計(jì)劃安排。
5.5挖掘結(jié)果展現(xiàn)
為了更好的展現(xiàn)考生的各種屬性之間的聯(lián)系,以“專業(yè)”、“成績等級”、“生源地等級”作為前項(xiàng),“報(bào)到狀態(tài)”為后項(xiàng),進(jìn)行關(guān)聯(lián)規(guī)則挖掘。運(yùn)行結(jié)果如圖5所示:
圖2 招生數(shù)據(jù)挖掘結(jié)果
6 結(jié)束語
目前,很多高校都使用了各自的招生數(shù)據(jù)管理系統(tǒng),也深入地掌握了數(shù)據(jù)挖掘技術(shù)對招生數(shù)據(jù)進(jìn)行分析與干預(yù),本文主要是使用關(guān)聯(lián)規(guī)則法、決策樹、統(tǒng)計(jì)分析等數(shù)據(jù)挖掘技術(shù)方法進(jìn)行計(jì)算、分析、研究,構(gòu)建了以考生類別、考生生源地、高考成績、專業(yè)志愿等關(guān)系模型,結(jié)合 Microsoft SQL Server 2005 中的數(shù)據(jù)挖掘功能,通過這個(gè)模型找出了各個(gè)因素與考生專業(yè)選擇、考生報(bào)到率以及對學(xué)校招生政策等的關(guān)聯(lián)關(guān)系,提高學(xué)校的生源質(zhì)量,促進(jìn)學(xué)校的發(fā)展。
參考文獻(xiàn):
[1] 林宇.數(shù)據(jù)倉庫原理與實(shí)踐[M]. 北京: 人民郵電出版社, 2003.
[2] 王光翔.數(shù)據(jù)倉庫技術(shù)在招生決策系統(tǒng)中的應(yīng)用[J].貴州大學(xué)學(xué)報(bào):自然科學(xué)版, 2006, 23(4):359-391.
[3] 陳文偉, 黃金才.數(shù)據(jù)倉庫與數(shù)據(jù)挖掘[M]. 北京: 人郵電出版社, 2004:16-19.
[4] 謝秋麗.基于關(guān)聯(lián)規(guī)則的教學(xué)質(zhì)量評價(jià)數(shù)據(jù)挖掘[J].現(xiàn)代計(jì)算機(jī):專業(yè)版. 2008(6):25-27.
[5] 揚(yáng)華.數(shù)據(jù)挖掘技術(shù)在碩士招生錄取數(shù)據(jù)中的應(yīng)用分析[J].科技展望, 2015(23).