陳小年
摘要:中職學(xué)校教育管理工作涉及面廣,會產(chǎn)生大量的數(shù)據(jù)。如何有效利用這些數(shù)據(jù)是一個十分有趣而又重要的課題。采用數(shù)據(jù)挖掘技術(shù),在這些數(shù)據(jù)中進(jìn)行挖掘,會得到一些有意義的信息,幫助中職學(xué)校的教書育人,完善自身管理建設(shè),提升有效決策水平和能力。該文研究了一所中職學(xué)校的管理工作數(shù)據(jù)及其挖掘意義,并結(jié)合學(xué)生資助這項具體工作的數(shù)據(jù)進(jìn)行實例挖掘,分析其挖掘結(jié)果,并在此基礎(chǔ)上做進(jìn)一步推廣做簡單分析。
關(guān)鍵詞:數(shù)據(jù)挖掘;中職學(xué)校;管理
中圖分類號:TP311 ? ?文獻(xiàn)標(biāo)識碼:A
文章編號:1009-3044(2019)15-0010-03
Abstract: Educational administration in secondary vocational schools involves considerable data from comprehensive ways. How to effectively utilize these data is a topic of interest and importance. With data mining technology, significant information can be dig out from massive data, then benefit the teaching and studying in secondary vocational schools, and help to improve the management and administration of the schools and the efficiency of decision making. This paper is based on research of the data management and data mining in a secondary vocational school, takes financial aid for students as an example to mine the data therein, study the outcome, and makes a preliminary analysis on the possibility and feasibility of promotion.
Key words: Data Mining; Secondary Vocational Schools; management
1 數(shù)據(jù)挖掘概述
數(shù)據(jù)挖掘(Data Mining)是一項非常重要的數(shù)據(jù)透視技術(shù),從存放在數(shù)據(jù)庫、數(shù)據(jù)倉庫或其他信息庫中有噪聲的、不完全的、模糊的大量隨機表層數(shù)據(jù)分析提取出其背后隱含著的難以發(fā)現(xiàn)的、不為人知的有用信息,可能給人們的生產(chǎn)、生活、學(xué)習(xí)、研究帶來意想不到的結(jié)果。數(shù)據(jù)挖掘涉及數(shù)據(jù)庫和數(shù)據(jù)倉庫技術(shù)、機器學(xué)習(xí)、高性能計算、統(tǒng)計學(xué)、模式識別、神經(jīng)網(wǎng)絡(luò)、圖像與信號處理、數(shù)據(jù)可視化以及空間或時間數(shù)據(jù)分析,可謂信息技術(shù)中最有發(fā)展空間、潛力無限的交叉學(xué)科之一。
數(shù)據(jù)挖掘技術(shù)的發(fā)展主要有電子郵件階段、信息發(fā)布階段、電子商務(wù)階段以及全程電子商務(wù)階段等四個階段。
數(shù)據(jù)挖掘常用的方法有分類、回歸分析、聚類、關(guān)聯(lián)規(guī)則、神經(jīng)網(wǎng)絡(luò)方法、Web 數(shù)據(jù)挖掘等。這些方法可以從不同的角度對數(shù)據(jù)進(jìn)行挖掘。
1.1 數(shù)據(jù)挖掘的特點
數(shù)據(jù)挖掘技術(shù)主要有以下幾個特點:
1)基于大量數(shù)據(jù)。小數(shù)據(jù)量當(dāng)然也可以挖掘,而且很多數(shù)據(jù)挖掘的算法也能夠運行在小數(shù)量上并得到結(jié)果。其實,過小的數(shù)據(jù)量人工分析就能總結(jié)出潛在的規(guī)律,而且小數(shù)據(jù)量對真實世界的特性也反映不出來。
2)隱含性。數(shù)據(jù)挖掘得到的結(jié)果不是數(shù)據(jù)表面上的,一眼能看出來的信息,而是深藏在數(shù)據(jù)內(nèi)部及數(shù)據(jù)之間的信息。
3)價值性。數(shù)據(jù)挖掘得到的結(jié)果能夠給挖掘者直接或間接地帶來經(jīng)濟或社會效益。大量成功的挖掘案例證明,數(shù)據(jù)挖掘技術(shù)是提升效益的一大法寶。
4)新奇性。挖掘出來的知識是前所未知的,只有全新知識,才可以幫助挖掘者獲得新的洞察力,否則只是對現(xiàn)有經(jīng)驗知識的一個驗證。
2 中職學(xué)校管理工作數(shù)據(jù)
2.1 數(shù)據(jù)來源
中職學(xué)校日常管理工作中會產(chǎn)生大量的數(shù)據(jù),主要包括:學(xué)生基本信息數(shù)據(jù)之姓名、性別、身份證號、家庭住址、聯(lián)系電話;學(xué)生家庭數(shù)據(jù)的父母姓名、職業(yè)、年齡、收入水平、人口、兄弟姐妹人數(shù)、是否單親、是否貧困、資助需求;學(xué)生校園生活數(shù)據(jù)之住宿房號、水電費、食堂消費;學(xué)生校園學(xué)習(xí)數(shù)據(jù)之在讀專業(yè)、選修課程、成績、出勤情況、對任課教師評價、實習(xí)、獎學(xué)金情況等;學(xué)生就業(yè)數(shù)據(jù)之實習(xí)公司、就業(yè)單位、崗位、行業(yè)、薪酬等;學(xué)生校園活動數(shù)據(jù)之校運會、文娛演出、社團、團組織活動、學(xué)生會團委任職。教師人事信息之基礎(chǔ)人事數(shù)據(jù)、工資、出勤、科研、培訓(xùn)、考核等數(shù)據(jù),學(xué)校教務(wù)活動中各種師資、課室、實驗室、儀器等教學(xué)資源分配安排等數(shù)據(jù),財務(wù)數(shù)據(jù)之項目資金、學(xué)費、住宿費、水電費、保險費、課本費等收支數(shù)據(jù)。
2.2 中職學(xué)校管理數(shù)據(jù)挖掘的意義
當(dāng)前中職學(xué)校管理工作中產(chǎn)生的大量數(shù)據(jù),存儲在各種業(yè)務(wù)系統(tǒng)數(shù)據(jù)庫中,為著某些管理工作服務(wù),但是并沒有得到充分利用。對這些大批量的數(shù)據(jù),進(jìn)行有效的挖掘,可以提取一些非常有用的信息,可以幫助指導(dǎo)學(xué)校制定、優(yōu)化人才培養(yǎng)體系、招生計劃、師資建設(shè)、完善后勤服務(wù)體系、為專業(yè)設(shè)置、課程建設(shè)、校園文化建設(shè)、人才培養(yǎng)等工作,具有重要的指導(dǎo)意義。
1)在學(xué)生資助工作中,分析受資助對象的生源地、修讀專業(yè)類型、年齡、家庭結(jié)構(gòu)、經(jīng)濟狀況等數(shù)據(jù),充分掌握受資助學(xué)生各種結(jié)構(gòu)性關(guān)系,合理分配資助名額,協(xié)調(diào)開展資助工作。
2)在學(xué)校教學(xué)資源網(wǎng)站上,通過學(xué)生訪問課程教學(xué)視頻、微課的播放、下載、停頓等,分析學(xué)生學(xué)習(xí)的興趣點、難點,促進(jìn)教學(xué)改革,優(yōu)化調(diào)整課程開設(shè)情況。
3)對師資數(shù)據(jù)進(jìn)行挖掘分析,探索教師的性別、年齡、專業(yè)、職稱、專長、獎勵、科研、繼續(xù)教育、進(jìn)修提高、學(xué)生評教等情況,幫助合理引進(jìn)師資、優(yōu)化師資隊伍。
4)在學(xué)校招生工作中,收集招生網(wǎng)站訪問者注冊登記、專業(yè)咨詢、網(wǎng)上報名、實際繳費等數(shù)據(jù)情況,挖掘分析出學(xué)生對學(xué)校聲譽、師資、校園、專業(yè)、學(xué)費、就業(yè)等情況的關(guān)注,有效調(diào)整招生宣傳,突出重點,提高吸引力。分析往年招生錄取情況,挖掘各出生源地招生情況、生源質(zhì)量、家庭條件及資助情況,有利于招生工作力量的合理分配。
5)通過財務(wù)系統(tǒng)數(shù)據(jù),及時發(fā)現(xiàn)學(xué)生拖欠學(xué)雜費用,及時控制各項目資金使用情況,加強對學(xué)校財務(wù)風(fēng)險監(jiān)控。
6)通過校園一卡通數(shù)據(jù),分析出學(xué)生在校期間,在飯?zhí)?、商店消費情況,發(fā)現(xiàn)學(xué)生家庭經(jīng)濟收入水平與實際消費情況是否一致,發(fā)現(xiàn)學(xué)生對飯?zhí)貌藘r、菜式的接受程度,有效提高后勤服務(wù)水平。
7)在學(xué)生日常校園管理工作中,分析學(xué)生出勤、出操、文體活動、社團活動、違紀(jì)記錄等日常操行情況,對改進(jìn)學(xué)生管理工作方法手段、優(yōu)化調(diào)整第二課堂開設(shè)等問題提供重要信息。
8)通過圖書館圖書借閱情況,來分析學(xué)生對專業(yè)課程的關(guān)注程度,對那些非專業(yè)知識的興趣度,有利于圖書館優(yōu)化圖書采購計劃,選擇專題活動方向。
3 中職學(xué)校管理數(shù)據(jù)挖掘應(yīng)用實例
3.1 確定挖掘?qū)ο?/p>
我們可以從學(xué)籍系統(tǒng)、資助系統(tǒng)、教學(xué)系統(tǒng)等業(yè)務(wù)系統(tǒng)中來提取學(xué)生學(xué)籍基礎(chǔ)數(shù)據(jù)、校園生活、專業(yè)學(xué)習(xí)數(shù)據(jù)、校園活動數(shù)據(jù)、就業(yè)數(shù)據(jù)、設(shè)計一個挖掘系統(tǒng),來挖掘數(shù)據(jù)之間的內(nèi)在聯(lián)系。本文案例在中職學(xué)校日常管理工作中的眾多數(shù)據(jù)中,選擇學(xué)生資助工作這個主題作為挖掘?qū)ο螅M麖拇罅抠Y助數(shù)據(jù)中挖掘出一些有用的信息,指導(dǎo)將來的學(xué)生資助工作。
3.2 數(shù)據(jù)準(zhǔn)備
數(shù)據(jù)準(zhǔn)備是數(shù)據(jù)挖掘成功與否的一項重要的基礎(chǔ)工作,我們得到的數(shù)據(jù)往往可能具有不完整、含噪聲和不一致等問題,這就需要對數(shù)據(jù)作預(yù)處理。
3.3 數(shù)據(jù)預(yù)處理
1)數(shù)據(jù)采集。數(shù)據(jù)可以來自現(xiàn)有的各種管理信息系統(tǒng),比如學(xué)籍系統(tǒng)、教務(wù)系統(tǒng)、資助系統(tǒng)等,提取所需相關(guān)的最原始數(shù)據(jù),并做一定的整合處理。
2)數(shù)據(jù)清洗。將數(shù)據(jù)庫中重復(fù)的記錄進(jìn)行刪除,只保留一條記錄,避免重復(fù)。如學(xué)生退學(xué)了,該記錄就要從學(xué)生表中刪除。對于數(shù)據(jù)不準(zhǔn)確不一致的,人工可以進(jìn)行糾正清理,如班級名稱不一致,電子商務(wù)1801班和電商1801其實是同一個班級,需要人工手動統(tǒng)一名稱。
3)數(shù)據(jù)集成。數(shù)據(jù)可能來自多張表,需要通過一個關(guān)鍵字將多表連接成一張新表。例如在校學(xué)生都使用學(xué)號作為唯一身份標(biāo)識,通過學(xué)號將學(xué)生的其他屬性合并成一張表,包括學(xué)號、姓名、性別、身份證號碼、是否困難家庭、銀行卡賬號等等信息。
4)數(shù)據(jù)轉(zhuǎn)換。將數(shù)據(jù)集合轉(zhuǎn)換成另一個描述形式,以便適合開展挖掘。在本實例中,對數(shù)據(jù)進(jìn)行泛化處理,將生源地地市為汕頭、汕尾、揭陽、潮州標(biāo)記為粵東,將生源地為茂名、云浮、湛江、陽江標(biāo)記為粵西,將清遠(yuǎn)、韶關(guān)、云浮、梅州、河源標(biāo)記為粵北,將廣州、佛山、珠海、中山、肇慶、江門、深圳、惠州等地標(biāo)記為珠三角,將湖南、廣西、江西等非廣東籍生源標(biāo)記為外省。
5)數(shù)據(jù)降維。數(shù)據(jù)基礎(chǔ)屬性繁多,只有一部分才是我們挖掘目的所關(guān)注的,其他無關(guān)的屬性可以刪除不用,這種相關(guān)性分析即為降維。降維的目的是通過降低挖掘?qū)ο笠?guī)模來降低挖掘工作的復(fù)雜度,其前提要保證最終挖掘結(jié)果不受影響。比如,學(xué)生姓名、電話號碼等屬性對結(jié)果不會有任何影響,可以直接從表中剔除。
3.4 模型構(gòu)建及挖掘
3.4.1 數(shù)據(jù)模型構(gòu)建
本實例采用星型模式來設(shè)計數(shù)據(jù)立方體,包括一個大的包含大量數(shù)據(jù)和冗余度極低的事實表,還有一系列小的維表,每維一個,存儲各立方體的具體信息。本案例的學(xué)生資助明細(xì)表和各個維表的結(jié)構(gòu)如圖1所示。
3.4.2 關(guān)聯(lián)規(guī)則挖掘
本實例采用Apriori算法來挖掘關(guān)聯(lián)規(guī)則。該算法是一種關(guān)聯(lián)規(guī)則的頻繁項集挖掘算法,核心思想是通過候選集生成和情節(jié)的向下封閉檢測兩個階段來挖掘頻繁項集。本實例針對學(xué)生國家助學(xué)金管理數(shù)據(jù)進(jìn)行挖掘,挖掘出來的關(guān)聯(lián)規(guī)則可以有效地指導(dǎo)學(xué)校管理部門有針對性的開展貧困助學(xué)工作。
Apriori算法偽代碼如下:
輸入:數(shù)據(jù)立方體D[A1,A2,...,An];最小支持度閾值sup_min
輸出:頻繁項集L
Count_min=totalcount*sup_min;
L1=find_frequent_1-itemsets(D,count_min);
//通過OLAP引擎得到滿足count_min的頻繁一項集
For (k=2;Lk-1≠?;k++){
Ck=apriori_gen(Lk-1,); ?//Lk-1經(jīng)自連接得到候選集Ck
For each I=(i1,i2,...,ik)∈Ck {
I.count=count_gen(I,D); ?//對每個候選集,通過OLAP引擎獲取記數(shù)
If I.count >=count_min
Lk=Lk∪I;
}
}
Return L=UkLk
經(jīng)過多次試驗,盡量做到既保證不會產(chǎn)生大量無用規(guī)則,也不會漏掉重要規(guī)則,最終設(shè)置最小支持度為15%,最小置信度為30%,得到部分關(guān)聯(lián)規(guī)則如表1和表2所示:
3.4.3 挖掘結(jié)果分析
由挖掘結(jié)果表1來看,生源地是粵東的學(xué)生,農(nóng)村以及縣鎮(zhèn)非農(nóng)的學(xué)生獲得資助資格的數(shù)量很大。在很多人的印象中,粵東地區(qū)經(jīng)濟發(fā)展水平明顯高于粵西,因此粵東地區(qū)困難家庭應(yīng)該比粵西少。這跟大家的直觀印象恰恰相反,一方面粵東地區(qū)經(jīng)濟收入較低的家庭依然很多,另一方面,筆者所在學(xué)校的粵東生源也多于粵西。因此,這給我們的資助工作帶來了重要的情報,資助名額要適當(dāng)?shù)囟嗫紤]粵東生源。同時,也引導(dǎo)招生工作者在粵東招生宣傳時要更多地突出國家助學(xué)金的利好政策,有助于在粵東招錄更多的生源。
由表2來看,外省生源獲得資助并非因為選擇涉農(nóng)專業(yè),則說明家庭困難的很多;外省生源因讀涉農(nóng)專業(yè)而受資助沒有出現(xiàn)在挖掘結(jié)果的強規(guī)則中,則是因為達(dá)不到15%的支持度,則說明外省生源對學(xué)校開設(shè)的涉農(nóng)專業(yè)興趣不大,在面向外省招生宣傳時要注意多突出非涉農(nóng)專業(yè)。同時,粵東粵西生源量大,能獲國家助學(xué)金的并不多,對涉農(nóng)專業(yè)興趣不大。
4 結(jié)束語
存儲著海量數(shù)據(jù)的數(shù)據(jù)倉庫就是一座龐大的“信息金礦”,科學(xué)使用數(shù)據(jù)挖掘技術(shù)進(jìn)行挖掘探索,可以獲取得到更多有趣、有用的信息。在以我們中職教育為代表的教育管理工作中積累起來的數(shù)據(jù)礦藏中包含著各種豐富的數(shù)據(jù),合理地挖掘開發(fā)出來,在學(xué)校工作中的招生、教學(xué)、科研、就業(yè)、日常管理、后勤服務(wù)等教書育人活動中都可以發(fā)揮出重要作用,有效提升管理水平和科學(xué)決策能力,這應(yīng)該是一個值得我們繼續(xù)努力的方向!
參考文獻(xiàn):
[1] 張晶. 數(shù)據(jù)挖掘技術(shù)在藝術(shù)院校計算機能力考核成績分析中的應(yīng)用研究[J]. 電腦知識與技術(shù), 2017(7): 197-199.
[2] 郭琪瑤. 數(shù)據(jù)挖掘技術(shù)在職業(yè)學(xué)校德育管理中的應(yīng)用[J]. 電腦知識與技術(shù), 2010, 9(26): 7303-7305.
[3] 謝琦, 張振興. 基于Apriori算法和OLAP的關(guān)聯(lián)規(guī)則挖掘模型設(shè)計[J]. 計算機應(yīng)用, 2007(6): 4-5
[4] 殷文俊. 數(shù)據(jù)挖掘在高職計算機一級考試成績中的分析研究[J]. 福建電腦, 2017(1): 50-51.
【通聯(lián)編輯:謝媛媛】