張翠軒 曹素麗 王淑梅
摘要:隨著校園信息化程度的日益提高。學(xué)校積累了大量的學(xué)生數(shù)據(jù),如何充分利用這些數(shù)據(jù),獲取其中蘊(yùn)藏的價(jià)值,已經(jīng)成為大數(shù)據(jù)時(shí)代面臨的主要任務(wù)?;跀?shù)據(jù)挖掘工具SPSS Modeler和Oracle數(shù)據(jù)庫對(duì)校園“一卡通”數(shù)據(jù)進(jìn)行分析,挖掘出學(xué)生消費(fèi)習(xí)慣、獎(jiǎng)學(xué)金和助學(xué)金之間的關(guān)系,從而使學(xué)校相關(guān)管理部門從中受益。
關(guān)鍵詞:大數(shù)據(jù);數(shù)據(jù)挖掘;數(shù)據(jù)庫;一卡通
中圖分類號(hào):TP393 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2018)28-0001-03
Analysis of Student Behavior Based on SPSS Modeler and Oracle
ZHANG Cui-xuan, CAO Su-li, WANG Shu-mei
(Shijiazhuang Post & Telecommunication Technical College, Shijiazhuang 050021, China)
Abstract: Along with the increasing degree of informatization campus, the school has accumulated a large number of data.How to make full use of these data to obtain the value of them has become the main task in the era of big data. Based on Data Mining tools SPSS Modeler and Oracle DB, the campus data of one card solution are analyzed, and the relationship between students' consumption habits, scholarships and grants is excavated so that the relevant management departments of the school will benefit from it.
Key words: big data;data mining;database;one card solution
目前,校園的數(shù)字化、信息化已經(jīng)普及,校園一卡通作為信息載體,成為學(xué)校信息資源整合的重要組成部分,它將學(xué)校的各個(gè)部門連為一體,動(dòng)態(tài)掌握持卡人的生活和學(xué)習(xí)情況,并與學(xué)校其他信息基礎(chǔ)設(shè)施相配合,極大地提高了學(xué)校的管理效率和水平。
為了順應(yīng)高校信息化發(fā)展,將學(xué)生日常一卡通數(shù)據(jù)、獎(jiǎng)學(xué)金和助學(xué)金數(shù)據(jù)與數(shù)據(jù)庫和數(shù)據(jù)挖掘技術(shù)進(jìn)行整合和分析,主要針對(duì)學(xué)生的消費(fèi)習(xí)慣和學(xué)習(xí)行為進(jìn)行分析,首先通過數(shù)據(jù)清洗、數(shù)據(jù)預(yù)處理、數(shù)據(jù)集成、數(shù)據(jù)轉(zhuǎn)換與數(shù)據(jù)規(guī)約等數(shù)據(jù)預(yù)處理手段提取出一個(gè)小型數(shù)據(jù)倉(cāng)庫,然后采用一種優(yōu)化的K-means算法進(jìn)行聚類分析,將學(xué)生分為幾類,并分析不同類別行為特征,最后運(yùn)用決策樹模型采用Apriori關(guān)聯(lián)規(guī)則算法針對(duì)學(xué)生學(xué)習(xí)相關(guān)行為進(jìn)行關(guān)聯(lián)度分析。
SPSS Modeler充分利用計(jì)算機(jī)系統(tǒng)的運(yùn)算處理能力和圖形展現(xiàn)能力,將方法、應(yīng)用與工具有機(jī)地融為一體,該軟件不但界面友好、操作簡(jiǎn)捷,而且功能強(qiáng)大,是解決數(shù)據(jù)挖掘問題的最理想的工具。
Oracle數(shù)據(jù)庫系統(tǒng)是目前世界上流行的關(guān)系數(shù)據(jù)庫管理系統(tǒng),系統(tǒng)可移植性好、使用方便、功能強(qiáng),適用于各類大、中、小、微機(jī)環(huán)境。它是一種高效率、可靠性好的 適應(yīng)高吞吐量的數(shù)據(jù)庫解決方案。
午餐最能反映學(xué)生的消費(fèi)情況,為了探究學(xué)生助學(xué)金評(píng)定的合理性,本文主要研究午餐消費(fèi)情況與學(xué)生助學(xué)金之間的相關(guān)性;另外,鑒于當(dāng)前大學(xué)生不吃早餐的情況,來探究良好的早餐習(xí)慣和學(xué)習(xí)結(jié)果是否具有一定的關(guān)系,所以這里還要研究早餐習(xí)慣與學(xué)生獎(jiǎng)學(xué)金之間的相關(guān)性。
1數(shù)據(jù)前期處理
為了更好地對(duì)數(shù)據(jù)進(jìn)行分析,有必要對(duì)原始數(shù)據(jù)進(jìn)行充分的處理準(zhǔn)備,主要針對(duì)學(xué)生就餐、獎(jiǎng)學(xué)金和助學(xué)金這3種數(shù)據(jù)。
1.1就餐數(shù)據(jù)
為了解學(xué)生的就餐規(guī)律和習(xí)慣,獲取了2017年1月1日到2017年5月1日的所有就餐數(shù)據(jù),大約200萬條數(shù)據(jù),如表1所示。
2針對(duì)SPSS Modeler的Apriori算法的數(shù)據(jù)預(yù)處理
最早的Apriori算法是阿格拉瓦爾和斯里坎特于1994年提出的,現(xiàn)在是數(shù)據(jù)挖掘中簡(jiǎn)單關(guān)聯(lián)規(guī)則技術(shù)的核心算法。
Apriori算法是為提高關(guān)聯(lián)規(guī)則的產(chǎn)生效率而設(shè)計(jì)的,只能處理分類型變量,無法處理數(shù)值型變量,所以有必要對(duì)整合后的數(shù)據(jù)進(jìn)行預(yù)處理。
數(shù)據(jù)準(zhǔn)備。為了提高效率,這里進(jìn)行了70%的分層抽樣,又根據(jù)Apriori算法的需要,計(jì)算生成新的分類型變量,再通過特征選擇,去除掉不必要的變量,然后對(duì)圖1的數(shù)據(jù)進(jìn)行多級(jí)評(píng)定計(jì)算,定義出A、B、C、D和E這5種級(jí)別,如圖2所示。
3相關(guān)性分析
選擇“建模”選項(xiàng)卡中的“Apriori”節(jié)點(diǎn),將其連接到數(shù)據(jù)流恰當(dāng)位置上,如圖3所示。分析的目的是找到所獲得獎(jiǎng)學(xué)金、助學(xué)金、午餐消費(fèi)以及早餐消費(fèi)次數(shù)的關(guān)系,所以這4項(xiàng)均被選入后項(xiàng)和前項(xiàng)。
在最低條件支持度中,指定前項(xiàng)最小支持度為6%,最小規(guī)則置信度為65%,為防止關(guān)聯(lián)規(guī)則過于復(fù)雜,指定前項(xiàng)包含的最大項(xiàng)目數(shù)為5,分析結(jié)果如圖4所示。
4結(jié)果分析
SPSS Modeler以列表形式列出計(jì)算所得的2條簡(jiǎn)單關(guān)聯(lián)規(guī)則。其結(jié)果具體解讀為:
1)如果學(xué)生吃早餐次數(shù)較多,午餐消費(fèi)比較低,獲得頭等獎(jiǎng)學(xué)金的機(jī)會(huì)就很大,支持度百分比為8.174%,置信度百分比為67.518%。這類學(xué)生起床早、勤快,家庭條件較差或本人比較節(jié)儉,努力學(xué)習(xí)的可能性就很大,從而獲得較高級(jí)別的獎(jiǎng)學(xué)金。
2)如果學(xué)生家庭經(jīng)濟(jì)狀況比較困難,得到的是C類助學(xué)金,而且學(xué)習(xí)成績(jī)相對(duì)較好,這類學(xué)生午餐消費(fèi)就很低。
3)如果學(xué)生家庭條件非常困難,助學(xué)金得到的是最高級(jí)別,而且午餐消費(fèi)很低,這類學(xué)生反而沒有獲得獎(jiǎng)學(xué)金。
上面前兩條關(guān)聯(lián)規(guī)則是當(dāng)今大學(xué)生的普遍現(xiàn)象,但是看到第3條的時(shí)候很令人意外,和相關(guān)輔導(dǎo)員交流之后才發(fā)現(xiàn),原來這類學(xué)生大都來自偏遠(yuǎn)地區(qū),學(xué)習(xí)基礎(chǔ)不好,到大學(xué)后學(xué)習(xí)上跟起來就比較吃力,所以學(xué)習(xí)成績(jī)不好。
綜上所述,學(xué)校管理部門應(yīng)在以下方面做出管理策略:
1)教學(xué)部門應(yīng)該對(duì)偏遠(yuǎn)地區(qū)的學(xué)生學(xué)習(xí)給予更多幫助,必要時(shí)單獨(dú)輔導(dǎo)。
2)學(xué)生管理部門在評(píng)定助學(xué)金時(shí)要嚴(yán)格把關(guān),參考學(xué)生消費(fèi)數(shù)據(jù),盡量獎(jiǎng)助學(xué)金發(fā)放到最需要的學(xué)生手中。
3)鼓勵(lì)學(xué)生吃早餐,不僅能夠提高身體素質(zhì),更能養(yǎng)成勤快的習(xí)慣,促進(jìn)學(xué)習(xí)成績(jī)的提高。
5結(jié)論
通過對(duì)校園一卡通數(shù)據(jù)、獎(jiǎng)學(xué)金和助學(xué)金數(shù)據(jù)的分析,由于篇幅有限,不再一一列出分析過程,總共得出了下面這些結(jié)論:
1)助學(xué)金和就餐消費(fèi)的關(guān)聯(lián)性。
2)助學(xué)金和獎(jiǎng)學(xué)金的關(guān)聯(lián)性。
3)早餐情況數(shù)據(jù)分析。
4)早餐和身體健康狀況的關(guān)聯(lián)性。
5)早餐和獎(jiǎng)學(xué)金狀況的關(guān)聯(lián)性。
6)學(xué)生籍貫和窗口(菜品)關(guān)聯(lián)性。
7)獎(jiǎng)學(xué)金和籍貫的關(guān)聯(lián)性。
8)助學(xué)金和籍貫的關(guān)聯(lián)性。
9)孤僻人群的發(fā)現(xiàn)。
10)消費(fèi)與性別的關(guān)聯(lián)性。
11)消費(fèi)水平與系部關(guān)聯(lián)性。
12)餐廳各個(gè)窗口就餐人數(shù)排名。
13)餐廳各個(gè)窗口收入金額排名。
這些結(jié)論對(duì)于教務(wù)部門、學(xué)生管理部門、后勤管理部門等都有很好的指導(dǎo)意義,其實(shí),預(yù)先有很多種假設(shè),但是通過挖掘卻發(fā)現(xiàn)沒有相應(yīng)的結(jié)果,當(dāng)然沒有規(guī)律的結(jié)論也是一種結(jié)論,當(dāng)然也會(huì)出現(xiàn)一些預(yù)想不到的規(guī)律,這也許就是數(shù)據(jù)挖掘的魅力所在。
遺憾的是,目前校園“一卡通”的數(shù)據(jù)還不是很全面,不能覆蓋所有學(xué)生行為,隨著校園信息化的發(fā)展,校園“一卡通”必將更準(zhǔn)確反映學(xué)生在校的各種消費(fèi)和學(xué)習(xí)行為,對(duì)應(yīng)的數(shù)據(jù)分析將更加具有指導(dǎo)意義。
參考文獻(xiàn):
[1] 薛薇.基于SPSS Modeler的數(shù)據(jù)挖掘(第二版)[M].北京:中國(guó)人民大學(xué)出版社,2014.
[2] Jiawei Han Micheline Kamber Jian Pei.數(shù)據(jù)挖掘概念與技術(shù)[M].北京:機(jī)械工業(yè)出版社,2016.
[3] 谷斌.數(shù)據(jù)倉(cāng)庫與數(shù)據(jù)挖掘?qū)崉?wù)[M].北京:北京郵電大學(xué)出版社,2014.
[4] Levin N,Zahavi J.Predictive modeling using segmentation.Joural of Interactive Markeing,2001,15(2):2-23
[5] 秦靖.Oracle從入門到精通[M].北京:機(jī)械工業(yè)出版社,2011.
[6] www.oracle.com網(wǎng)站.
[7] http://bbs.pinggu.org/人大經(jīng)濟(jì)論壇.
【通聯(lián)編輯:王力】