范媛 蔡敏
摘要:該研究以中國(guó)石油大學(xué)(北京)的校園卡系統(tǒng)消費(fèi)數(shù)據(jù)為數(shù)據(jù)源,建立數(shù)據(jù)倉(cāng)庫(kù),通過(guò)數(shù)據(jù)清洗和數(shù)據(jù)挖掘得到學(xué)生在食堂的消費(fèi)數(shù)據(jù)。通過(guò)使用聚類算法對(duì)學(xué)生消費(fèi)數(shù)據(jù)進(jìn)行分類,進(jìn)而將學(xué)生的消費(fèi)水平分為四類。以馬氏距離作為判別距離建立學(xué)生消費(fèi)水平判別分析模型,利用該模型判斷學(xué)生的消費(fèi)水平,通過(guò)對(duì)學(xué)生消費(fèi)水平的分析研究,可以在學(xué)校有關(guān)部門(mén)進(jìn)行決策時(shí)提供有效依據(jù)。
關(guān)鍵詞:校園卡系統(tǒng);大數(shù)據(jù);聚類算法;判別分析;消費(fèi)模型
中圖分類號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2020)08-0005-03
開(kāi)放科學(xué)(資源服務(wù))標(biāo)識(shí)碼(OSID):
校園卡系統(tǒng)具有身份識(shí)別和電子錢(qián)包等功能,實(shí)現(xiàn)了校內(nèi)統(tǒng)一身份認(rèn)證和消費(fèi)統(tǒng)一管理,校園卡使用數(shù)據(jù)完全記錄了使用者在校內(nèi)的消費(fèi)情況和行為軌跡,通過(guò)對(duì)校園卡數(shù)據(jù)的挖掘分析,對(duì)高校數(shù)據(jù)決策具有十分重要的意義。目前各大高校均展開(kāi)了對(duì)校園卡大數(shù)據(jù)的挖掘分析,來(lái)為有關(guān)部門(mén)進(jìn)行學(xué)生管理提供真實(shí)、有效的數(shù)據(jù)支撐[1]。校園卡系統(tǒng)內(nèi)積累的大量消費(fèi)數(shù)據(jù),對(duì)其進(jìn)行挖掘分析可以掌握學(xué)生在校消費(fèi)的偏好和規(guī)律,將對(duì)學(xué)校優(yōu)化資源配置、數(shù)據(jù)化決策等提供重要參考。該研究通過(guò)建立學(xué)生消費(fèi)水平判別模型,將學(xué)生消費(fèi)水平分為4類,可為貧困生認(rèn)定提供判定依據(jù)[2],為深入研究學(xué)生消費(fèi)水平提供有效方法。
1 數(shù)據(jù)倉(cāng)庫(kù)建立
該研究用于進(jìn)行分析的數(shù)據(jù)是以中國(guó)石油大學(xué)(北京)2018級(jí)本科生消費(fèi)數(shù)據(jù)作為數(shù)據(jù)源,抽取學(xué)生就餐率較高的2018年11月、12月和2019年3月份的消費(fèi)數(shù)據(jù)共計(jì)32萬(wàn)多條進(jìn)行分析,由于數(shù)據(jù)量龐大,為了不增加數(shù)據(jù)庫(kù)的壓力并且滿足數(shù)據(jù)分析和數(shù)據(jù)挖掘的需求,數(shù)據(jù)分析過(guò)程不與校園卡系統(tǒng)數(shù)據(jù)庫(kù)直接建立關(guān)系,而是通過(guò)soL數(shù)據(jù)庫(kù)建立數(shù)據(jù)倉(cāng)庫(kù)[3]進(jìn)行分析。
1.1 數(shù)據(jù)源確認(rèn)
通過(guò)采集校園卡系統(tǒng)內(nèi)學(xué)生消費(fèi)數(shù)據(jù)作為數(shù)據(jù)源進(jìn)行分析,進(jìn)而可以掌握學(xué)生的消費(fèi)習(xí)慣,消費(fèi)水平等情況,在不增加校園卡系統(tǒng)數(shù)據(jù)庫(kù)壓力的前提下將學(xué)生的消費(fèi)流水?dāng)?shù)據(jù)提取到指定數(shù)據(jù)庫(kù)中,把數(shù)據(jù)處理成可用的數(shù)據(jù)。
1.2數(shù)據(jù)預(yù)處理
校園卡消費(fèi)數(shù)據(jù)中包含了大量信息,包括時(shí)間、地點(diǎn)、商戶、消費(fèi)金額、人賬信息等,根據(jù)分析需求對(duì)消費(fèi)數(shù)據(jù)進(jìn)行清洗,去除包含噪聲的無(wú)意義數(shù)據(jù)以及無(wú)用的字段,并對(duì)清洗后的數(shù)據(jù)進(jìn)行數(shù)據(jù)轉(zhuǎn)換[4]。
1.3 建立數(shù)據(jù)倉(cāng)庫(kù)概念模型
對(duì)校園卡系統(tǒng)內(nèi)學(xué)生消費(fèi)數(shù)據(jù)進(jìn)行分析,一般按照消費(fèi)次數(shù)、消費(fèi)金額、消費(fèi)時(shí)間、消費(fèi)地點(diǎn)等字段進(jìn)行分析,建立的數(shù)據(jù)倉(cāng)庫(kù)所需要的數(shù)據(jù)包括:學(xué)生基本信息、消費(fèi)信息、校園卡系統(tǒng)終端數(shù)據(jù),數(shù)據(jù)挖掘的關(guān)鍵性能指標(biāo)是學(xué)生校園卡消費(fèi)流水信息。
1.4 建立邏輯模型
邏輯模型的建立主要用于劃分?jǐn)?shù)據(jù)維度,對(duì)學(xué)生基本信息、消費(fèi)流水、消費(fèi)終端信息等數(shù)據(jù)進(jìn)行分類儲(chǔ)存、數(shù)據(jù)簡(jiǎn)化、同屬類別歸并。邏輯模型如圖1所示。
1.5 建立物理模型
建立物理模型的目的是構(gòu)建合理的數(shù)據(jù)庫(kù)物理結(jié)構(gòu),通過(guò)合理規(guī)劃數(shù)據(jù)庫(kù)的結(jié)構(gòu)、字段、索引、存儲(chǔ)等,來(lái)實(shí)現(xiàn)模型的建立,從而可以清楚地對(duì)學(xué)生消費(fèi)數(shù)據(jù)進(jìn)行分析。物理模型如表1所示。
2 數(shù)據(jù)挖掘
在此次學(xué)生消費(fèi)水平分析中,通過(guò)對(duì)校園卡消費(fèi)數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗,抽取出分析所需的字段,再通過(guò)數(shù)據(jù)清洗與轉(zhuǎn)換將抽取出的數(shù)據(jù)進(jìn)行處理轉(zhuǎn)換為用于數(shù)據(jù)挖掘的形式[5]。
數(shù)據(jù)來(lái)源于校園卡系統(tǒng)學(xué)生消費(fèi)數(shù)據(jù),將數(shù)據(jù)中可壓縮的、可合并的、含噪聲的以及可刪除的字段進(jìn)行數(shù)據(jù)清洗與數(shù)據(jù)合并,通過(guò)約減相關(guān)性保持?jǐn)?shù)據(jù)原貌,達(dá)到盡可能地減少數(shù)據(jù)量的目標(biāo)[6j。在不同的應(yīng)用場(chǎng)景中,按照不同的關(guān)鍵詞進(jìn)行數(shù)據(jù)合并,在分析學(xué)生的消費(fèi)水平時(shí),選取學(xué)號(hào)作為關(guān)鍵詞進(jìn)行數(shù)據(jù)合并。該研究利用MATLAB對(duì)消費(fèi)數(shù)據(jù)進(jìn)行處理,得到了學(xué)生在3個(gè)月的月消費(fèi)數(shù)據(jù)。
3 建立學(xué)生消費(fèi)水平模型
3.1 聚類分析
K-means聚類算法是聚類分析中應(yīng)用最廣泛的聚類算法之一,是一種發(fā)現(xiàn)給定數(shù)據(jù)集k個(gè)簇的算法[7-8]。
針對(duì)學(xué)生消費(fèi)水平的研究中,取學(xué)生平均單筆消費(fèi)額和總消費(fèi)次數(shù)為評(píng)價(jià)指標(biāo)如表2所示。由于這兩項(xiàng)指標(biāo)的量綱和數(shù)量級(jí)不同,為了便于決策評(píng)價(jià),故對(duì)原始數(shù)據(jù)進(jìn)行極差規(guī)格化變換處理。
極差規(guī)格化變換是從數(shù)據(jù)矩陣的每一個(gè)變量中找出其最大值和最小值,這兩者之差稱為極差,然后從每個(gè)變量的每個(gè)原始數(shù)據(jù)中減去該變量中的最小值,再除以極差,就得到規(guī)格化數(shù)據(jù)。即:
經(jīng)過(guò)規(guī)格化變換后,數(shù)據(jù)矩陣中的每列即每個(gè)變量的最大數(shù)值為1,最小值為0,其余數(shù)值取值均在0-1之間;并且變換后的數(shù)據(jù)都不再具有量綱。根據(jù)上述公式變換后的評(píng)價(jià)指標(biāo)數(shù)據(jù)如表3所示。
通過(guò)聚類算法對(duì)極差規(guī)格化變換后評(píng)價(jià)指標(biāo)進(jìn)行聚類。確實(shí)聚類數(shù)目為4,得到各類的中心結(jié)果以及各類的類內(nèi)元素與中心的距離和(如表4所示)學(xué)生消費(fèi)水平的分類結(jié)果(如表5所示),聚類結(jié)果示意圖如圖2所示。
通過(guò)聚類分析結(jié)果可得類別A的學(xué)生消費(fèi)水平特點(diǎn)為:消費(fèi)次數(shù)低于均值,但平均消費(fèi)金額高于均值;B類的學(xué)生消費(fèi)水平特點(diǎn)為:消費(fèi)次數(shù)處于均值水平,平均消費(fèi)金額低于均值;C類的學(xué)生消費(fèi)水平特點(diǎn)為:消費(fèi)次數(shù)高于均值,平均消費(fèi)金額低于均值水平;D類的學(xué)生消費(fèi)水平特點(diǎn)為:消費(fèi)次數(shù)高于均值,平均消費(fèi)金額高于均值水平。由此可推斷出學(xué)生家庭經(jīng)濟(jì)狀況,A類消費(fèi)水平的學(xué)生很少在食堂吃飯,并且單筆消費(fèi)金額高,可認(rèn)定為家庭條件良好,B類消費(fèi)水平的學(xué)生經(jīng)常在食堂吃飯,但單筆消費(fèi)金額較低,認(rèn)定為家庭條件一般貧困,C類消費(fèi)水平的學(xué)生基本在食堂消費(fèi),單筆消費(fèi)金額低于平均水平,認(rèn)定為家庭條件貧困,D類消費(fèi)水平的學(xué)生在食堂消費(fèi)次數(shù)高于均值,且單筆消費(fèi)金額較高,認(rèn)定為家庭條件較好。
3.2 判別分析模型
根據(jù)距離判別分析原理,選用馬氏距離作為判別距離[9],針對(duì)學(xué)生在校食堂消費(fèi)水平建立了學(xué)生消費(fèi)水平距離判別的分析模型,利用該模型判別學(xué)生的消費(fèi)水平。
式(8)即是學(xué)生消費(fèi)水平判別分析模型,通過(guò)該模型可對(duì)學(xué)生消費(fèi)情況進(jìn)行判別。將學(xué)生消費(fèi)水平數(shù)據(jù)代入式(8)中,即可判斷其所屬類別。將訓(xùn)練樣本數(shù)據(jù)回代判斷結(jié)果如表6中所示。選取10組學(xué)生消費(fèi)數(shù)據(jù)作為待判樣本,以此模型對(duì)待判樣本進(jìn)行判別,得到結(jié)果如表7所示。
(5)判別準(zhǔn)則評(píng)價(jià)
通過(guò)3.2.4中訓(xùn)練樣本回代,樣本總量為80組,正確判別數(shù)為78,誤判數(shù)為2,計(jì)算得到誤判概率為2.5%,可見(jiàn)此模型合理,達(dá)到了對(duì)學(xué)生消費(fèi)水平進(jìn)行有效分類的效果。
4 結(jié)論
該研究通過(guò)構(gòu)建數(shù)據(jù)倉(cāng)庫(kù),得到有效的學(xué)生校園卡消費(fèi)數(shù)據(jù)。通過(guò)聚類算法將學(xué)生的消費(fèi)水平分為四類,可根據(jù)消費(fèi)水平判定學(xué)生家庭經(jīng)濟(jì)情況.為貧困生資助提供數(shù)據(jù)支持;利用以馬氏距離作為判別距離的判別算法建立學(xué)生學(xué)費(fèi)水平判別模型,用以判別學(xué)生消費(fèi)水平的分類是否有效。
參考文獻(xiàn):
[1]張艷分,盧小清,劉禹等.基于大數(shù)據(jù)平臺(tái)的大學(xué)生校園行為探析[J].中國(guó)教育信息化,2019(1):39-42,46.
[2]張林.基于差分隱私保護(hù)技術(shù)的高校貧困生認(rèn)定系統(tǒng)設(shè)計(jì)[J].計(jì)算機(jī)技術(shù)與自動(dòng)化,2017(3):151-156.
[3]田雨露.基于校園一卡通系統(tǒng)的決策支持和數(shù)據(jù)分析研究[D].北京化工大學(xué),2018.
[4]萬(wàn)曉燕.基于聚類劃分的大數(shù)據(jù)處理方法研究[J].智庫(kù)時(shí)代,2019(39):280,283.
[5] Nguyen T V,Zhou L,Loong A Y,et al-Predicting customerdemand for remanufactured products:A data-mining approach[J]. European Journal of Operational Research, 2019(8): InPress.
[6]潘曉英,趙倩,趙普.時(shí)空屬性關(guān)系標(biāo)簽的頻繁軌跡模式挖掘[J].計(jì)算機(jī)工程與應(yīng)用,2019,55(10):83-89.
[7]陸近,郭躍近.一種含噪聲處理的K-means聚類算法[J].計(jì)算機(jī)應(yīng)用于軟件,2015,32(10):265-268.
[8]鄒晨紅,袁滿.模糊綜合評(píng)判的系統(tǒng)聚類算法研究[J].吉林大學(xué)學(xué)報(bào):信息科學(xué)版,2018,36(5):441-448
[9]張華平.常用判別分析方法的綜合比較[J].統(tǒng)計(jì)與決策,2015(22):77-78.
[10] Wang B X,Zou H.A Multicategory Kernel Distance Weight-ed Discrimination Method for Multiclass Classification[J].Technometrics,2019,61(3).
[11] LIN T,Chen G,Ouyang W L.et al-Hyper-spherical dis-tance discrimination: A novel data description method foraero-engme rolling bearing fault detection[J].Mechanical Sys-tems and Signal Processing,2018,109(9).
[12]相詩(shī)堯,邢會(huì)敏,徐東晶.空間點(diǎn)所屬空間體的距離判別法分析[J].測(cè)繪科學(xué),2016,41(6):40-43,112.
【通聯(lián)編輯:王力】
作者簡(jiǎn)介:范媛(1980-),女,河北南和人,碩士,工程師,主要從事高校一卡通和信息化建設(shè);蔡敏(1995-),女,甘肅慶陽(yáng)人,碩士在讀,化工過(guò)程機(jī)械專業(yè)。