姜 楠 許維勝
(同濟(jì)大學(xué)電子與信息工程學(xué)院,上海 201804)
基于數(shù)據(jù)挖掘技術(shù)的學(xué)生校園消費(fèi)行為分析
姜 楠 許維勝
(同濟(jì)大學(xué)電子與信息工程學(xué)院,上海 201804)
校園一卡通系統(tǒng)通過對各種信息、資源的有效集成、整合和優(yōu)化,能夠?qū)崿F(xiàn)學(xué)校對信息的有效配置和充分利用。文章采用數(shù)據(jù)挖掘技術(shù)針對學(xué)生校園消費(fèi)活動(dòng)的管理分析方面進(jìn)行深入研究,首先通過數(shù)據(jù)預(yù)處理技術(shù)提取相關(guān)消費(fèi)特征,并采用一種優(yōu)化的K-means聚類算法,將學(xué)生分為幾類,分析行為特征,以便高校學(xué)生工作人員分門別類的進(jìn)行學(xué)生管理,最后將聚類結(jié)果輸入決策樹分類模型進(jìn)行評估,以評價(jià)聚類結(jié)果。
數(shù)據(jù)挖掘;k-means算法;一卡通消費(fèi)數(shù)據(jù);行為特征;決策樹
隨著學(xué)校數(shù)字化和信息化的深入發(fā)展,校園一卡通系統(tǒng)得到了廣泛應(yīng)用和高度重視,是高校信息化程度的重要標(biāo)志。高校管理是以學(xué)生為主體的一種客戶關(guān)系管理,通過提取一卡通數(shù)據(jù)庫中相關(guān)學(xué)生數(shù)據(jù)進(jìn)行用戶行為分析,來挖掘其中潛在有用的信息和知識,極大地推動(dòng)了學(xué)生管理工作的高效運(yùn)行,且實(shí)現(xiàn)了校園各種信息和資源的高度集中和融合。數(shù)據(jù)挖掘作為一種從海量數(shù)據(jù)中挖掘潛在知識的技術(shù),已經(jīng)在科學(xué)研究、商業(yè)等很多領(lǐng)域得到廣泛應(yīng)用。將數(shù)據(jù)挖掘技術(shù)應(yīng)用于高校人力資源管理,能充分發(fā)揮現(xiàn)有數(shù)據(jù)的作用為決策服務(wù)。國外對學(xué)生一卡通數(shù)據(jù)分析起步較早,且進(jìn)展迅速。例如加拿大湖首大學(xué)的學(xué)生行為分析系統(tǒng),可以根據(jù)學(xué)生最近發(fā)生的行為定期向?qū)W生發(fā)送一封郵件來指導(dǎo)學(xué)生下一步的學(xué)習(xí)計(jì)劃和生活計(jì)劃,該系統(tǒng)已經(jīng)可以高效的對學(xué)生行為進(jìn)行分析并及時(shí)報(bào)告輔導(dǎo)員進(jìn)行處理。而就國內(nèi)來說,已經(jīng)有學(xué)者將數(shù)據(jù)挖掘技術(shù)運(yùn)用于商業(yè),如梁穎等人基于數(shù)據(jù)挖掘技術(shù)對消費(fèi)者進(jìn)行行為的分析[1],廖珣提出基于K-means算法和CBR方法對高校就業(yè)預(yù)測的分析[2],葉煉對電信客戶進(jìn)行基于數(shù)據(jù)倉庫的行為分析[3],曾智等人對YOUCITY網(wǎng)站用戶行為進(jìn)行分析,通過模式識別方法對固定的模型去分析用戶,得到最接近用戶的模型就是用戶的類別[4]。廣大高校內(nèi)部所用的學(xué)生管理系統(tǒng)大部分沒有針對學(xué)生數(shù)據(jù)進(jìn)行集成,而針對高校學(xué)生行為分析的方案也較少。
K-means聚類算法作為一種經(jīng)典的數(shù)據(jù)挖掘算法,也存在其固有缺陷,比如K值的確定和初始聚類中心的確定。目前,已有Kanfman L等通過輪廓系數(shù)來測量不同類的分離度。楊善林運(yùn)用距離代價(jià)函數(shù)作為空間聚類有效性檢驗(yàn)函數(shù),即當(dāng)距離代價(jià)函數(shù)達(dá)到最小值時(shí),空間聚類結(jié)果為最優(yōu)[5]。Huang提出一種基于K-means的變量自動(dòng)加權(quán)聚類算法,使得聚類問題中的變量選擇得到改進(jìn)。Dhillon等人則通過調(diào)整迭代過程中重新計(jì)算聚類中心的方法使其性能得到提高[6]。
某大學(xué)校園一卡通系統(tǒng)的數(shù)據(jù)庫采用的是分布式處理和“客戶端/服務(wù)器”架構(gòu),大量數(shù)據(jù)經(jīng)由不同客戶端上傳到服務(wù)器的數(shù)據(jù)庫中,包含消費(fèi)數(shù)據(jù)、門禁數(shù)據(jù)、成績數(shù)據(jù)等不同的子數(shù) 庫。本文針對消費(fèi)數(shù)據(jù)庫中的數(shù)據(jù)采用數(shù)據(jù)挖掘的技術(shù)進(jìn)行消費(fèi)習(xí)慣分析,數(shù)據(jù)處理流程如圖1所示。
圖1 數(shù)據(jù)處理流程
原始消費(fèi)數(shù)據(jù)儲存于oracle數(shù)據(jù)庫中,從概念上分析包含:商戶和管理帳戶數(shù)據(jù)字典,全局設(shè)置數(shù)據(jù)字典,系統(tǒng)管理和運(yùn)行環(huán)境設(shè)置數(shù)據(jù)字典,流水帳戶數(shù)據(jù)字典,報(bào)表部分?jǐn)?shù)據(jù)字典五大項(xiàng)。因此需要對數(shù)據(jù)進(jìn)行預(yù)處理,包括數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)轉(zhuǎn)換和數(shù)據(jù)歸約,將所得結(jié)果構(gòu)成一個(gè)小型數(shù)據(jù)倉庫,便于后續(xù)聚類分析。
本篇針對消費(fèi)數(shù)據(jù)庫中的消費(fèi)相關(guān)數(shù)據(jù)采用K-means聚類方法對學(xué)生消費(fèi)習(xí)慣劃分類別,通過相關(guān)屬性分析,采用圖2中屬性作為K-means算法的輸入屬性。
K-means算法有兩個(gè)初始參數(shù):初始聚類中心和聚類數(shù)目K,其中初始聚類中心的選擇直接影響聚類結(jié)果的好壞。
圖2 K-means輸入屬性
本文采用了一種解決初始聚類中心選擇的優(yōu)化方法,這種方法是通過改變初始聚類中心來尋求一個(gè)類內(nèi)密集程度最高的情況作為分析結(jié)果,類內(nèi)密集程度越高,說明類內(nèi)點(diǎn)越密集,聚類結(jié)果越好。
將類內(nèi)點(diǎn)的密度程度作為目標(biāo)函數(shù),計(jì)算公式如下:
p是所有數(shù)據(jù)的平方誤差總和,從而使同一聚類中的對象相似度較高;而不同聚類中的對象相似度較小。
最終經(jīng)過優(yōu)化的K-means算法的主要流程如下:
(1)選擇數(shù)據(jù)質(zhì)量較好的訓(xùn)練樣本空間數(shù)據(jù)集;
(2)輸入K值和選取初始聚類中心參數(shù);
(3)執(zhí)行傳統(tǒng)的K-means算法模型;
(4)依據(jù)模型驗(yàn)證計(jì)算ip;
(5)改變初始聚類中心參數(shù),重復(fù)步3、4 直到p值最小,輸出與最小p值相對應(yīng)的結(jié)果,即類內(nèi)密集程度。
3.1 輸入數(shù)據(jù)
本篇通過上文所述數(shù)據(jù)預(yù)處理技術(shù)將原始消費(fèi)數(shù)據(jù)進(jìn)行了一系列的轉(zhuǎn)換與篩選,最終得到可供K-means算法輸入的待測數(shù)據(jù),男生數(shù)據(jù)393組,女生數(shù)據(jù)111組。
圖3 原始數(shù)據(jù)不同屬性分布情況
由圖3可以看出,男生用卡次數(shù)、食堂消費(fèi)均值均高于女生,但女生超市消費(fèi)額比男生高,且男生、女生就餐地點(diǎn)也不同,因此本文將男、女生分開進(jìn)行分析是必要且可行的。此外,額外飲品消費(fèi)情況略少,不足以作為特征,因此刪掉該屬性更利于聚類結(jié)果。本文采用一種優(yōu)化的K-means聚類算法,離散化的輸入數(shù)據(jù)更有利于產(chǎn)生較優(yōu)的結(jié)果。根據(jù)直方圖均衡化的無指導(dǎo)離散法將屬性按值域劃分出五個(gè)區(qū)間,即很高(2)、高(1)、中(0)、低(-1)、很低(-2)五種水平,轉(zhuǎn)換為離散值,作為輸入數(shù)據(jù),便于分析。由圖4可以看出,待輸入數(shù)據(jù)分布情況均符合高斯分布。
圖4 待測女生數(shù)據(jù)不同屬性分布情況
3.2 結(jié)果分析
經(jīng)實(shí)驗(yàn),K=4,聚類結(jié)果最好,輸入K,改變初始聚類中心循環(huán)直到p值最小結(jié)束。在本文中改變隨機(jī)初始聚類中心的參數(shù)可以改變隨機(jī)初始中心,最終對應(yīng)p最小的結(jié)果(類內(nèi)密集程度最大)即為最優(yōu)的聚類結(jié)果, p即所有數(shù)據(jù)樣本的平方誤差總和。
表1 尋求最優(yōu)聚類結(jié)果(男)
表2 尋求最優(yōu)聚類結(jié)果(女)
從表1得出,男生數(shù)據(jù)第一組結(jié)果最佳,迭代次數(shù)為6,所有樣本數(shù)據(jù)的總方差p為最小值,因此最終采用第一組聚類結(jié)果。從表2得出,女生數(shù)據(jù)第四組結(jié)果最好,迭代次數(shù)為6,方差之和p為最小值,因此最終采用第四組聚類結(jié)果。所得聚類中心點(diǎn)如表3和表4所示,聚類中心點(diǎn)特征代表該類別人群特征的均值水平。男生數(shù)據(jù)394組,女生數(shù)據(jù)111組。
表3 聚類中心(男)
男生聚類結(jié)果分析:
第I類:該類人群常去就餐地點(diǎn)為食堂代碼24,即學(xué)苑食堂,用卡次數(shù)處于正常水平偏上水平,即食堂就餐次數(shù)較多,但食堂消費(fèi)額水平最低,超市、水果店等消費(fèi)水平在四種類群中屬于正常水平。
第II類:該類人群常去就餐地點(diǎn)也為學(xué)苑食堂,用卡次數(shù)最少,食堂消費(fèi)額屬于正常水平,但超市消費(fèi)額屬于四類人群中最高水平。
第III類:該類人群常去就餐地點(diǎn)也為學(xué)苑食堂,用卡次數(shù)屬于四類人群中最高水平,食堂消費(fèi)額也位于最高水平,應(yīng)屬于常在食堂消費(fèi)的人群,相反,超市消費(fèi)額最少。
第IV類:該類人群常去就餐地點(diǎn)為食堂代碼20,即西區(qū)食堂,不同于其他三類人群,用卡次數(shù)處于四類人群中正常偏下水平,食堂消費(fèi)額正常,超市消費(fèi)額略多。
表4 聚類中心(女)
女生聚類結(jié)果分析:
第I類:該類人群常去就餐地點(diǎn)偏向食堂代碼24,即學(xué)苑食堂,用卡次數(shù)最多,且食堂消費(fèi)額與超市消費(fèi)額都處于最低水平。
第II類:該類人群常去就餐地點(diǎn)平均值處于20與24中間,即一四食堂和學(xué)苑食堂,不同與其他人群,用卡次數(shù)最少,但食堂消費(fèi)額和超市消費(fèi)額均屬于四類人群中最高水平。
第III類:該類人群常去就餐地點(diǎn)為學(xué)苑食堂,用卡次數(shù)屬于四類人群中最低水平,食堂消費(fèi)額處于正常水平,超市消費(fèi)額處于最少水平。
第IV類:該類人群常去就餐地點(diǎn)為學(xué)苑食堂,不同于其他三類人群,用卡次數(shù)處于正常水平,食堂消費(fèi)額正常,但超市消費(fèi)額略多,僅次于第二類人群。
將男生聚類后數(shù)據(jù),即含有類標(biāo)的數(shù)據(jù)輸入到?jīng)Q策樹模型中,并采用十折交叉驗(yàn)證法得出正確分類率為99.4924%,輸入女生數(shù)據(jù)得到正確分類率為99.0991%,由決策樹模型驗(yàn)證得知,所得聚類結(jié)果較好。
4.2 解決方法
(1)針對上述PC硬件性能問題,經(jīng)測試,我們加強(qiáng)筆記本PC配置:8G DDR3內(nèi)存+Intel i5 CPU,再升級加裝千元以下的SSD固態(tài)硬盤。將虛擬機(jī)文件置于SSD固態(tài)硬盤中,VMWARE虛擬機(jī)開啟(平均分配512MB內(nèi)存)4臺左右,同時(shí)Dynamips虛擬網(wǎng)絡(luò)設(shè)備開啟10臺(平均分配128MB內(nèi)存)左右,對真實(shí)PC及虛擬機(jī)的性能影響在可承受范圍內(nèi)。
另外,利用軟件橋接特性,直接橋接物理網(wǎng)絡(luò),便可將虛擬機(jī)分布在多臺真實(shí)PC上,減少單臺真實(shí)PC的硬件資源負(fù)擔(dān)。
(2)針對網(wǎng)絡(luò)設(shè)備虛擬軟件的版本問題,本文使用的軟件其實(shí)能夠滿足絕大部分網(wǎng)絡(luò)原理的實(shí)驗(yàn)需求。有理由相信,隨著部分虛擬化軟件開源化,軟件研發(fā)人員會(huì)推陳出新、將軟件拓展得更強(qiáng)大。
虛擬化技術(shù)存在于企業(yè)級高端應(yīng)用中,也可以存在于眾人工作學(xué)習(xí)的PC上。虛擬化技術(shù),依托的是虛擬化軟件來實(shí)現(xiàn)功能。利用現(xiàn)有資源PC,在主機(jī)虛擬化軟件虛擬實(shí)現(xiàn)的windows/linux/unix等guest os上部署各種“真實(shí)”應(yīng)用,依托網(wǎng)絡(luò)設(shè)備虛擬化軟件虛擬創(chuàng)建路由器、交換機(jī)、安全設(shè)備等,按照實(shí)際需求,并基于現(xiàn)實(shí)、仿照現(xiàn)實(shí)對主機(jī)/網(wǎng)絡(luò)設(shè)備完成各種參數(shù)調(diào)試,把各種虛擬網(wǎng)絡(luò)整合起來,得到一套精簡的、功能完善的、與現(xiàn)實(shí)相似的虛擬網(wǎng)絡(luò)系統(tǒng)集成環(huán)境、虛擬實(shí)驗(yàn)室。利用單臺真實(shí)PC,可在搭建的虛擬實(shí)驗(yàn)室中進(jìn)行技能學(xué)習(xí)、知識培訓(xùn)、技術(shù)原理實(shí)驗(yàn)、方案演練、對整個(gè)IT系統(tǒng)環(huán)境模擬仿真、為進(jìn)軍企業(yè)級高端虛擬化技術(shù)夯實(shí)基礎(chǔ)。PC虛擬化具有眾多優(yōu)勢,對IT入門者來說,無疑是個(gè)低投資高回饋的選擇方案。
[1] 馬博峰.VMware.Citrix和Microsoft虛擬化技術(shù)詳解與應(yīng)用實(shí)踐[M].北京:機(jī)械工業(yè)出版社,2012.
[2] (美)呂斯特.虛擬化技術(shù)指南[M].北京:機(jī)械工業(yè)出版社, 2011.
[3] 梁廣民,王隆杰.思科網(wǎng)絡(luò)實(shí)驗(yàn)室CCNA(路由技術(shù))實(shí)驗(yàn)指南[M].北京:電子工業(yè)出版社, 2009.
[4] 蔡延榮.網(wǎng)絡(luò)協(xié)議分析[M].北京:機(jī)械工業(yè)出版社,2009.
Students consumption behavior analysis based on the data mining technologies
With effective integration and optimization to variety of resources, the campus card system (CCS) makes efficient allocation and full use of campus information. management analysis of students’ consumption activities is studied through data mining. We use date preprocessing techniques to extract relevant consumer characteristics and an optimized k-means clustering algorithm to divide students into several categories. At last we use the decision tree algorithm to judge the clustering results. The analysis of the behavior characteristics can lead to a better management of students for college staffs.
Data mining; k-means; e-card consumer data; behavior characteristics; decision tree
TP311.13
A
1008-1151(2015)01-0026-03
2014-12-15
姜楠(1989-),女,同濟(jì)大學(xué)電子與信息工程學(xué)院控制工程專業(yè)2012級碩士,意大利博洛尼亞大學(xué)工程學(xué)院自動(dòng)化專業(yè)2012級碩士,研究方向?yàn)閿?shù)據(jù)分析與數(shù)據(jù)挖掘;許維勝(1966-),男,同濟(jì)大學(xué)電子與信息工程學(xué)院博士生導(dǎo)師,研究方向?yàn)橹悄茏詣?dòng)化理論及應(yīng)用。