葉超
摘? 要:隨著教育信息化的普及,如何有效地利用學(xué)生管理過程中產(chǎn)生的數(shù)據(jù),提高學(xué)生管理水平和效率,成為了新時(shí)代學(xué)生管理過程中亟需解決的問題。文章通過決策樹分析,研究了溫州職業(yè)技術(shù)學(xué)院2013年9月-2018年12月學(xué)生晚歸與當(dāng)時(shí)天氣情況的聯(lián)系。研究發(fā)現(xiàn)在晴天、高溫(29℃以上)、風(fēng)力強(qiáng)(3級(jí)以上)的情況下,更容易發(fā)生晚歸。而在晴天、高溫(29℃以上)、風(fēng)力弱(0-3級(jí))和晴天、低溫(20℃以下)的情況下,發(fā)生晚歸的情況明顯低于平均值。文章的研究結(jié)論可以幫助學(xué)生公寓管理人員,通過天氣預(yù)報(bào)提前識(shí)別可能發(fā)生的晚歸風(fēng)險(xiǎn),有針對(duì)性地進(jìn)行學(xué)生回寢的統(tǒng)計(jì)和檢查。從而降低因晚歸帶來的管理風(fēng)險(xiǎn),提高學(xué)生管理工作的有效性和針對(duì)性。
關(guān)鍵詞:晚歸;數(shù)據(jù)挖掘;決策樹;教育大數(shù)據(jù)
中圖分類號(hào):TP393? ?? ? 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):2095-2945(2020)15-0189-02
Abstract: With the popularization of educational informatization, how to effectively use the data generated in the process of student management to improve the level and efficiency of student management has become an urgent problem to be solved in the process of student management in the new era. Through the Decision Tree analysis, this paper studies the relationship between the late return of students in Wenzhou Vocational and Technical College from September 2013 to December 2018 and the weather conditions at that time. It is found that late return is more likely to occur in sunny days, high temperature (above 29 ℃) and strong wind (above Level 3). However, under the conditions of sunny day, high temperature (above 29 ℃), weak wind (Level 0-3), sunny day and low temperature (below 20 ℃), the occurrence of late return is obviously lower than the average. The conclusions of this paper can help the managers of student apartments to identify the possible risks of late return in advance through the weather forecast, and make targeted statistics and inspection of students' return to bed, so as to reduce the management risk caused by returning late and improve the effectiveness and pertinence of student management.
Keywords: late return; data mining; Decision Tree; education big data
1 概述
隨著現(xiàn)代計(jì)算機(jī)和存儲(chǔ)技術(shù)的發(fā)展,每天產(chǎn)生并被記錄的數(shù)據(jù)越來越多。在教育領(lǐng)域這些龐雜的數(shù)據(jù)涵蓋了學(xué)生學(xué)習(xí)、生活和管理的方方面面,是學(xué)校一筆隱性的資源。但是,由于數(shù)據(jù)本身量大,信息渠道錯(cuò)綜復(fù)雜,導(dǎo)致大量數(shù)據(jù)不被重視,從而被認(rèn)為是“垃圾”而被忽略[1]。與此同時(shí),高校規(guī)模的不斷擴(kuò)張和信息技術(shù)的發(fā)展,對(duì)學(xué)生管理、課堂教學(xué)以及就業(yè)工作都提出了新的挑戰(zhàn)。充分地利用教育領(lǐng)域的大數(shù)據(jù),及時(shí)地預(yù)測(cè)和判斷學(xué)生行為,能為高校在心理健康分析、教學(xué)質(zhì)量評(píng)估和學(xué)生就業(yè)等方面提供決策幫助[2]。
隨著高校內(nèi)全面地推行一卡通,統(tǒng)一了學(xué)生管理信息獲取的渠道,為研究學(xué)生行為數(shù)據(jù)提供了物質(zhì)基礎(chǔ)。2014年12月起,成都電子科技大學(xué)教育大數(shù)據(jù)研究所在教育部的支持下,開始研發(fā)“學(xué)生畫像”系統(tǒng)。該系統(tǒng)通過學(xué)生日常生活數(shù)據(jù),如學(xué)生進(jìn)入圖書館次數(shù)、打水次數(shù)、就餐次數(shù)等,分析學(xué)生學(xué)習(xí)、生活狀態(tài)以及進(jìn)行過宅預(yù)警、抑郁預(yù)警等一系列預(yù)警,幫助教師和輔導(dǎo)員及時(shí)了解學(xué)生動(dòng)態(tài)[2]。
本文收集了溫州職業(yè)技術(shù)學(xué)院2013年9月-2018年12月時(shí)間內(nèi)的學(xué)生晚歸數(shù)據(jù)(晚歸定義:學(xué)生在規(guī)定的門禁時(shí)間之后回到公寓一種違紀(jì)情況),運(yùn)用決策樹分析法,研究晚歸的發(fā)生與當(dāng)天的天氣情況以及自然環(huán)境之間的關(guān)系。以此了解學(xué)生晚歸特點(diǎn),為學(xué)校公寓管理提供決策分析和幫助。
2 數(shù)據(jù)與方法
本文收集了溫州職業(yè)技術(shù)學(xué)院2013年9月-2018年12月時(shí)間內(nèi)的學(xué)生晚歸數(shù)據(jù),總共整理匯總1319期學(xué)生晚歸公告。針對(duì)數(shù)據(jù)有效性進(jìn)行了篩選,最后得到832期晚歸公告,每一期公告代表一天,若該日晚上有學(xué)生晚歸,則記為該日發(fā)生晚歸,若該日無學(xué)生晚歸,則記為該日無晚歸。經(jīng)計(jì)算可知,總計(jì)832天平均發(fā)生晚歸的概率為63%。此外,根據(jù)晚歸數(shù)據(jù),查閱歷史天氣資料,整理匯總出對(duì)應(yīng)時(shí)間的最高氣溫、晴雨情況、風(fēng)力強(qiáng)度等天氣情況作為研究晚歸事件發(fā)生的標(biāo)簽[3]。
數(shù)據(jù)挖掘(DataMing)本質(zhì)上是從海量的數(shù)據(jù)中提取潛在的有用信息[4]。決策樹算法是數(shù)據(jù)挖掘領(lǐng)域的一種重要的數(shù)據(jù)分類方法,其分類規(guī)則是計(jì)算劃分后樣本的信息增益,通過比較信息增益能夠快捷地將實(shí)際問題轉(zhuǎn)化成各種易操作的分類規(guī)則[5]。本文使用Python 3.7實(shí)現(xiàn)決策樹ID3算法,研究晚歸發(fā)生與天氣情況之間的關(guān)系。
3 數(shù)據(jù)分析與討論
為了研究學(xué)生晚歸情況與當(dāng)天天氣情況的關(guān)系,首先要將天氣情況數(shù)據(jù)離散化處理。如表1所示,根據(jù)日常經(jīng)驗(yàn)可以將風(fēng)力分為強(qiáng)弱兩類,將晴雨情況也可以分為晴天和雨天兩類。對(duì)于溫度標(biāo)簽,本文將它分為高中低三類,因此必須找到高溫與中溫、中溫和低溫的兩個(gè)臨界點(diǎn)(a,b)。筆者翻閱了相關(guān)資料發(fā)現(xiàn),對(duì)于氣溫高低的劃分并沒有統(tǒng)一的標(biāo)準(zhǔn)。為了更好地得到更好的分類結(jié)果,本文設(shè)計(jì)一個(gè)6×6溫度矩陣G, 其中Gij=[ai,bj]代表一種最高溫度分類的可能,a=[15℃,16℃,17℃,18℃,19℃,20℃] b=[25℃,26℃,27℃,28℃,29℃,30℃]。
根據(jù)溫度矩陣G,本文分別計(jì)算了上述36種可能的最高溫度分類情況下的決策樹。通過分別計(jì)算每一顆決策樹模型的準(zhǔn)確率,可知Gij=[20℃,29℃]時(shí)模型準(zhǔn)確率達(dá)到最高,從而實(shí)現(xiàn)對(duì)最高溫度的離散化處理,如下表1所示。
如圖1a所示,本文通過Python 3實(shí)現(xiàn)ID3算法,得到晚歸決策樹。分析決策樹可發(fā)現(xiàn),影響某一天晚上是否會(huì)發(fā)生晚歸的最主要因素是當(dāng)天是晴天還是雨天,其次是最高溫度,最后是風(fēng)力強(qiáng)度。該決策樹每一條樹枝的準(zhǔn)確率可通過計(jì)算得到:
P1{X=晚歸│天氣晴∩氣溫高∩風(fēng)力強(qiáng)}=75%、P2{X=無│天氣晴∩氣溫高∩風(fēng)力弱}=46.9%、P3{X=晚歸│天氣晴∩氣溫中}=64.7%、P4{X=無│天氣晴∩氣溫低}=43.4%、P5{X=晚歸│天氣雨}=65.9%
由上文可知,平均晚歸率為63%(即非晚歸率為37%),P1、P2和P4的準(zhǔn)確率分別都高出平均值12.5%、9.9%和6.4%,說明以上三種分類方式能夠有效地識(shí)別晚歸。P3和P5只比平均值高出1-2%,說明這兩種分類方式的效果不明顯。在決策樹模型中,針對(duì)分類效果不明顯的樹枝可以進(jìn)行適當(dāng)?shù)摹凹糁Α?。因此,本文根?zhǔn)確率剪去了如下兩條樹枝:{X=晚歸│天氣晴∩氣溫中}和{X=晚歸│天氣雨}。最終得到“剪枝”后的決策樹,如圖1b所示。
4 結(jié)論
本文運(yùn)用數(shù)據(jù)挖掘的思想方法,對(duì)溫州職業(yè)技術(shù)學(xué)院2013年9月-2018年12月的學(xué)生晚歸數(shù)據(jù)進(jìn)行分析。通過Python實(shí)現(xiàn)決策樹ID3算法,分別研究了晚歸現(xiàn)象與最高溫度、晴雨情況以及風(fēng)力強(qiáng)度的關(guān)系。分析結(jié)果顯示,在晴天、高溫(29℃以上)、風(fēng)力強(qiáng)(3級(jí)及以上)的夜晚,發(fā)生晚歸的概率明顯高于平均值;在晴天、高溫(29℃以上)、風(fēng)力弱(0-3級(jí))和晴天、低溫(20℃以下)的夜晚,學(xué)生晚歸的概率明顯低于平均值。該項(xiàng)研究結(jié)論可以幫助學(xué)生公寓管理人員,通過天氣預(yù)報(bào)提前識(shí)別可能發(fā)生晚歸的風(fēng)險(xiǎn)日期,有針對(duì)性地進(jìn)行學(xué)生回寢的統(tǒng)計(jì)和檢查,提前聯(lián)系個(gè)別尚未回校的學(xué)生。從而降低因晚歸帶來的管理風(fēng)險(xiǎn),提高學(xué)生管理工作的有效性和針對(duì)性。
參考文獻(xiàn):
[1]丁波,孫力.教育數(shù)據(jù)挖掘研究現(xiàn)狀及趨勢(shì)[J].數(shù)字教育,2015(006):13-16.
[2]劉譞.基于學(xué)生行為的成績預(yù)測(cè)模型的研究與應(yīng)用[D].電子科技大學(xué),2017.
[3]魯瑋.數(shù)據(jù)挖掘技術(shù)在高職學(xué)生心理健康數(shù)據(jù)中的應(yīng)用研究[D].安徽大學(xué),2019.
[4]JIAWEIHAN,MICHELINEKAMBER, JIANPEI, et al.數(shù)據(jù)挖掘:概念與技術(shù)[M].2012.
[5]周志華,等.機(jī)器學(xué)習(xí)及其應(yīng)用2011[M].清華大學(xué)出版社,2011.