高建平 董東
摘要:針對(duì)高校一卡通系統(tǒng)中大量消費(fèi)數(shù)據(jù)和圖書館系統(tǒng)的訪問數(shù)據(jù),設(shè)計(jì)并實(shí)現(xiàn)了學(xué)生日常行為聚類模型,根據(jù)行為習(xí)慣將學(xué)生劃分為五大類,利用Microsoft順序聚類算法實(shí)現(xiàn)了學(xué)生行為序列的挖掘,發(fā)現(xiàn)了“體弱”人群存在不規(guī)律飲食習(xí)慣等有意義的行為序列模式,最后針對(duì)體弱人群在兩個(gè)模式上的共性和差異進(jìn)行總結(jié)。
關(guān)鍵詞:一卡通;智慧校園;校園數(shù)據(jù);數(shù)據(jù)挖掘;行為分析
中圖分類號(hào) ?TP311 ? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2020)25-0052-03
Abstract: In order to find interesting patterns from a large amount of consumption data accumulated in campus card systems and history data from library access control systems, a daily behavior clustering model for college students was designed and implemented. It is found that students can be divided into five categories based on behavioral habits. Moreover, by the Microsoft sequential clustering algorithm for mining of student behavior sequences, several meaningful patterns of behavioral sequences, such as "weak" people have irregular eating habits, is discovered, and finally the commonalities and differences between the two groups of weak people are compared.
Key words: campus card; smart campus; campus data; data mining; behavioural analysis
1 引言
一卡通系統(tǒng)在高校應(yīng)用范圍越來越廣,使得一卡通產(chǎn)生大量真實(shí)反映學(xué)生在校情況的數(shù)據(jù),毫無疑問這些數(shù)據(jù)蘊(yùn)含著有價(jià)值的信息。面向校園數(shù)據(jù)的挖掘分析也逐漸成為及時(shí)把握學(xué)生情況,正確引導(dǎo)學(xué)生學(xué)習(xí)生活,提高高校管理水平的重要研究方向。
2018年6月7日,國(guó)家標(biāo)準(zhǔn)《智慧校園總體框架》的發(fā)布[1],將“智慧校園”(Smart Campus)定義為“物理空間和信息空間有機(jī)銜接,使任何人、任何時(shí)間、任何地點(diǎn)都能便捷地獲得資源和服務(wù)?!备咝R仓鸩綇臄?shù)字化校園邁向智慧校園,通過校園內(nèi)一切可以利用的數(shù)據(jù)來為高校和師生提供服務(wù),真正實(shí)現(xiàn)以人為本,可見校園數(shù)據(jù)是實(shí)現(xiàn)智慧校園建設(shè)的基本條件[2]。校園信息系統(tǒng)[3]是一個(gè)封閉的環(huán)境,數(shù)據(jù)只準(zhǔn)寫入,不允許修改,歷來以準(zhǔn)確性和真實(shí)性為準(zhǔn)繩,而且還存在著相互校驗(yàn)的可能,校園數(shù)據(jù)來源于多個(gè)業(yè)務(wù)系統(tǒng)并經(jīng)過長(zhǎng)時(shí)期的數(shù)據(jù)沉淀,數(shù)據(jù)總量存在顯著的海量特性,同時(shí)存在顯著的人、財(cái)、物、時(shí)間等多維特征,各有不同的數(shù)據(jù)尺度又呈復(fù)雜的關(guān)聯(lián)性,所以校園數(shù)據(jù)具備充分的數(shù)據(jù)挖掘分析的潛力和應(yīng)用建設(shè)的基礎(chǔ),以校園數(shù)據(jù)為抓手,在校園數(shù)據(jù)分析的建設(shè)和應(yīng)用方面,能夠產(chǎn)生顯著的應(yīng)用效果。
因此本文主要通過大量校園數(shù)據(jù)及對(duì)智慧校園的建設(shè)需求,設(shè)計(jì)并實(shí)現(xiàn)了學(xué)生日常行為聚類模型和行為序列模型,發(fā)現(xiàn)了有價(jià)值的行為模式,并從不同模型中發(fā)現(xiàn)體弱人群的共性和差異,為高校提出可靠的管理建議。
2 數(shù)據(jù)預(yù)處理
數(shù)據(jù)清洗的干凈程度決定數(shù)據(jù)質(zhì)量,高質(zhì)量的數(shù)據(jù)會(huì)提高后期數(shù)據(jù)挖掘和分析的效率。
2.1 數(shù)據(jù)采集
數(shù)據(jù)來源是數(shù)據(jù)挖掘分析的基礎(chǔ)。通過在一卡通管理平臺(tái)和制卡中心的專業(yè)實(shí)習(xí)體驗(yàn)及對(duì)智慧校園的建設(shè)需求,確定數(shù)據(jù)來源和主題。本文主要是由S高校提供的數(shù)據(jù),具體來源于一卡通管理平臺(tái)和圖書館系統(tǒng)。主題是2017級(jí)學(xué)生的行為數(shù)據(jù),采集的源數(shù)據(jù)主要包括:學(xué)生信息表、消費(fèi)記錄表、學(xué)生部門表、圖書館訪問表。
2.2 數(shù)據(jù)清洗
針對(duì)數(shù)據(jù)中存在的缺失值(空值)、不滿足業(yè)務(wù)需求和約束、數(shù)據(jù)不一致、重復(fù)行和鍵值、表和字段名稱晦澀難懂等問題,通過指定值替換空值或不一致的值、修改不滿足業(yè)務(wù)約束的值、刪除不滿足業(yè)務(wù)需求、去除重復(fù)行、清晰易懂的表和字段的名稱替換晦澀難懂的名稱、驗(yàn)證數(shù)據(jù)行數(shù)不變等技術(shù),完成數(shù)據(jù)清洗轉(zhuǎn)換與驗(yàn)證[4]。經(jīng)過清洗后,消費(fèi)記錄表由11708467行減少到7112272行數(shù)據(jù),圖書館訪問數(shù)據(jù)由11738025行減少到854664行數(shù)據(jù),學(xué)生部門表239行,學(xué)生信息表7427行。
3 數(shù)據(jù)挖掘模型設(shè)計(jì)和方法
數(shù)據(jù)挖掘分析模型包括數(shù)據(jù)挖掘結(jié)構(gòu)和數(shù)據(jù)挖掘算法。其中數(shù)據(jù)挖掘結(jié)構(gòu)中定義了作為輸入的事例表,數(shù)據(jù)挖掘算法是從訓(xùn)練集中尋找知識(shí),算法要求定義輸入列和預(yù)測(cè)列[5]。
3.1 挖掘工具
本文主要采用SQL Server 2008數(shù)據(jù)庫(kù),挖掘工具是由商業(yè)智能解決方案(Business Intelligence Development Studio)提供的組件SQL Server Analysis Service(SSAS)。SSAS提供了包括Microsoft聚類分析、關(guān)聯(lián)分析、時(shí)序等在內(nèi)的9種數(shù)據(jù)挖掘技術(shù),其中重點(diǎn)利用的數(shù)據(jù)挖掘技術(shù)為Microsoft聚類和Microsoft順序聚類。SSAS不僅僅提供了一組行業(yè)標(biāo)準(zhǔn)的數(shù)據(jù)挖掘算法,而且通過數(shù)據(jù)挖掘設(shè)計(jì)器能夠創(chuàng)建、管理和可視化瀏覽數(shù)據(jù)挖掘模型,在挖掘模型查看器中通過多種分類關(guān)系圖查看聚類和順序聚類的結(jié)果。
3.2 挖掘算法
數(shù)據(jù)挖掘算法的選擇是挖掘型分析的核心。根據(jù)數(shù)據(jù)的特點(diǎn)和結(jié)構(gòu),選擇合適的算法對(duì)數(shù)據(jù)進(jìn)行挖掘分析。
3.2.1 K-Means算法與Microsoft聚類分析
通過分析學(xué)生日常行為數(shù)據(jù),發(fā)現(xiàn)數(shù)據(jù)量大且數(shù)據(jù)類型普遍是數(shù)值型,因此綜合考慮選擇動(dòng)態(tài)聚類算法中最普及的K-Means算法。通過大量未分類的學(xué)生日常行為數(shù)據(jù),利用K-Means算法自動(dòng)串行聚成不同的組,從而將學(xué)生劃分為不同的類別,配合使用Microsoft聚類算法的分類圖觀察聚類結(jié)果,將分類進(jìn)行特征標(biāo)注和挖掘分析。
3.2.2 Microsoft順序聚類分析
Microsoft順序聚類算法將馬爾科夫鏈和聚類結(jié)合,主要目的是發(fā)現(xiàn)異常的序列。針對(duì)學(xué)生每天的行為進(jìn)行排序形成學(xué)生行為序列,進(jìn)而發(fā)現(xiàn)異常的行為序列模式,主要挖掘過程包括建立數(shù)據(jù)源、數(shù)據(jù)視圖和數(shù)據(jù)挖掘模型,最后通過觀察挖掘模型和鉆取等操作發(fā)現(xiàn)行為序列的疑點(diǎn)。
3.3 模型設(shè)計(jì)
3.3.1 學(xué)生日常行為聚類模型
從不同的日常行為出發(fā),利用PIVOT函數(shù)實(shí)現(xiàn)不同行為次數(shù)和金額屬性的行轉(zhuǎn)列,最終完成包括就餐、淋浴、購(gòu)物、就醫(yī)、圖書館訪問等日常行為的次數(shù)或金額[6],共計(jì)9種挖掘?qū)傩?,形成學(xué)生日常行為事實(shí)表,然后結(jié)合學(xué)生基本信息屬性進(jìn)行聚類,發(fā)現(xiàn)學(xué)生的日常行為習(xí)慣,從而將學(xué)生劃分為有特點(diǎn)的幾類,并對(duì)聚類結(jié)果進(jìn)行分析[7]。具體設(shè)計(jì)方案如下:
(1)創(chuàng)建學(xué)生日常行為聚類的數(shù)據(jù)源和數(shù)據(jù)視圖;
(2)定義挖掘結(jié)構(gòu):
數(shù)據(jù)挖掘技術(shù):K-Means算法和Microsoft聚類分析;
數(shù)據(jù)源視圖:學(xué)生日常行為聚類,通過學(xué)生序號(hào)建立兩個(gè)表之間的關(guān)聯(lián);
事例表:學(xué)生日常行為表,學(xué)生序號(hào)作為事例鍵;
輸入列:就餐次數(shù)和金額、購(gòu)物次數(shù)和金額、淋浴次數(shù)和金額、醫(yī)療消費(fèi)次數(shù)和金額、圖書館訪問次數(shù)、性別、所在學(xué)院、學(xué)生類別。
3.3.2 學(xué)生行為序列模型
從不同行為次序出發(fā),將學(xué)生從早到晚的刷卡行為進(jìn)行排序,即每個(gè)學(xué)生每天均對(duì)應(yīng)一個(gè)行為序列,最后利用Microsoft順序聚類算法發(fā)現(xiàn)有意義的學(xué)生行為序列模式[8]。首先根據(jù)每個(gè)學(xué)生每天在不同時(shí)段對(duì)應(yīng)的行為利用SQL語句進(jìn)行排序,形成學(xué)生行為序列,其次將學(xué)生序號(hào)與刷卡日期組合形成新的字段作為一次行為的編號(hào)。最終形成學(xué)生行為序列嵌套表和刷卡學(xué)生行為信息事實(shí)表,且兩表之間是一對(duì)多關(guān)系。具體設(shè)計(jì)方案如下:
(1)創(chuàng)建學(xué)生行為序列分析的數(shù)據(jù)源和數(shù)據(jù)視圖;
(2)定義挖掘結(jié)構(gòu):
數(shù)據(jù)挖掘技術(shù):Microsoft順序聚類分析;
數(shù)據(jù)源視圖:學(xué)生行為序列分析,通過刷卡碼與刷卡ID建立兩個(gè)表之間的關(guān)聯(lián);
事例表:刷卡學(xué)生信息表,刷卡ID作為事例鍵;
嵌套表:學(xué)生行為序列表,行為序列作為嵌套鍵;
輸入列及預(yù)測(cè)列:行為序列、刷卡碼。
4 數(shù)據(jù)挖掘分析
4.1 日常行為聚類結(jié)果分析
如圖1所示,通過篩選敏感度變量和狀態(tài)來觀察各個(gè)分類的特征,并將劃分好的類別進(jìn)行特征標(biāo)注,方便觀察和分析。
如圖2所示,通過進(jìn)一步觀察分類特征圖發(fā)現(xiàn)體弱人群中女生最多,且因S高校中研究生人數(shù)與本科生懸殊較大,此類人群中研究生群體特征顯著。
根據(jù)以上對(duì)學(xué)生日常行為聚類結(jié)果的綜合分析,將學(xué)生劃分為以下五類:
(1)高消費(fèi)人群:消費(fèi)較高,無論是就餐還是購(gòu)物消費(fèi)均為最高,很少去圖書館,喜歡洗澡并且洗澡花費(fèi)的金額較多,這類人群中本科生最多且多為女生;
(2)喜“宅”人群:消費(fèi)很低,無論是就餐、購(gòu)物、淋浴、醫(yī)療消費(fèi)均很低,可見這類人群消費(fèi)較少,幾乎不出門,這類人群中博士生和研究生居多,且多為男性,可見此類人群中很可能有較多“宅男”類型的博士生和研究生;
(3)學(xué)霸人群:愛去圖書館,就餐次數(shù)和消費(fèi)比較高,喜歡洗澡,且多為女生。可見此類人群中女學(xué)霸居多,并且飲食和起居生活都十分規(guī)律;
(4)體弱人群:醫(yī)療次數(shù)和金額均為最高,不愛洗澡且就餐毫無規(guī)律,此類人群中研究生特征最為突出;
(5)一般人群:各個(gè)變量的平均值占比較高的人群,說明無論是就餐、淋浴、購(gòu)物、圖書館訪問、醫(yī)療等消費(fèi)金額和次數(shù)均為平均水平,此類人群的消費(fèi)很正常,生活和學(xué)習(xí)也十分規(guī)律。
針對(duì)“體弱”人群的聚類結(jié)果可以推斷出:
(1)不規(guī)律就餐和洗浴的學(xué)生經(jīng)常去醫(yī)務(wù)室;
(2)研究生群體普遍身體素質(zhì)偏弱。
4.2 行為序列聚類結(jié)果分析
如圖3所示,通過篩選明暗度變量和狀態(tài),將五種行為序列人群分別進(jìn)行特征標(biāo)注(最可能去或最不可能去)。
如圖4所示,通過進(jìn)一步觀察學(xué)生行為序列聚類結(jié)果和刷卡行為.samples屬性狀態(tài)的圖例進(jìn)行綜合分析,發(fā)現(xiàn)以下挖掘結(jié)果:
(1)存在最可能去餐廳就餐但不愛去圖書館和醫(yī)務(wù)室的人群;
(2)此類人群的行為序列中餐廳就餐最多且十分規(guī)律。
針對(duì)此類人群的聚類分析結(jié)果可推斷出:
(1)規(guī)律飲食的人群普遍不會(huì)去醫(yī)務(wù)室;
(2)規(guī)律飲食與身體健康有著密不可分的聯(lián)系。
5 結(jié)論
本文利用學(xué)生消費(fèi)數(shù)據(jù)和圖書館訪問數(shù)據(jù)設(shè)計(jì)并實(shí)現(xiàn)了聚類挖掘模型,通過聚類發(fā)現(xiàn)學(xué)生的日常行為習(xí)慣從而將學(xué)生劃分為五類:一般、高消費(fèi)、“宅”、學(xué)霸、體弱,發(fā)現(xiàn)了不就餐不洗浴的同學(xué)往往經(jīng)常去醫(yī)務(wù)室、研究生群體偏體弱等模式;通過Microsoft順序聚類分析實(shí)現(xiàn)學(xué)生行為序列的挖掘,發(fā)現(xiàn)了規(guī)律飲食的人群普遍不會(huì)去醫(yī)務(wù)室等學(xué)生行為序列模式。最后通過對(duì)比兩個(gè)模型的挖掘結(jié)果,發(fā)現(xiàn)其分別從規(guī)律和不規(guī)律飲食兩個(gè)相反行為習(xí)慣推出結(jié)論,但均證實(shí)“體弱”人群存在不規(guī)律飲食習(xí)慣??梢婐B(yǎng)成良好的飲食習(xí)慣有益于增強(qiáng)體質(zhì),同時(shí)高校應(yīng)加強(qiáng)對(duì)不規(guī)律飲食人群的關(guān)注和管理,正確引導(dǎo)學(xué)生加強(qiáng)鍛煉的同時(shí)也更應(yīng)注重自身的飲食習(xí)慣。
參考文獻(xiàn):
[1] 國(guó)家市場(chǎng)監(jiān)督管理總局中國(guó)國(guó)家標(biāo)準(zhǔn)化管理委員會(huì).智慧校園總體框架:GB/T 36342-2018[S].北京:中國(guó)標(biāo)準(zhǔn)出版社,2018.6.
[2] 潘勝玲.智慧校園數(shù)據(jù)中心建設(shè)研究[J].電子世界,2020(2):41-42.
[3] 李增福.高職院校校園管理信息系統(tǒng)結(jié)構(gòu)體系構(gòu)建[J].科技資訊,2019,17(17):111,115.
[4] 董東,王艷君,陳玉哲.審計(jì)分析:從關(guān)系到大數(shù)據(jù)[M].北京:清華大學(xué)出版社,2019.
[5] 審計(jì)署,數(shù)據(jù)挖掘技巧(審計(jì)技巧叢書),北京:中國(guó)時(shí)代經(jīng)濟(jì)出版社,2016.5.
[6] 蘇兆兆,欒靜.高校本科生就餐數(shù)據(jù)挖掘分析[J].電腦知識(shí)與技術(shù),2018,14(5):24-26.
[7] 游香薷,王業(yè),楊抒,等.學(xué)生消費(fèi)行為的聚類分析優(yōu)化研究和應(yīng)用[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2017,26(6):232-237.
[8] 李蒙.基于校園大數(shù)據(jù)的學(xué)生行為挖掘方法應(yīng)用研究[D].西安:西安電子科技大學(xué),2019.
【通聯(lián)編輯:王力】