国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于關(guān)聯(lián)規(guī)則的畢業(yè)生就業(yè)現(xiàn)狀與在校表現(xiàn)分析

2016-07-04 19:09田然劉嘉敏歐思華胡曉清
亞太教育 2016年19期
關(guān)鍵詞:Apriori算法數(shù)據(jù)可視化關(guān)聯(lián)規(guī)則

田然 劉嘉敏 歐思華 胡曉清

摘 要:基于對某獨立學(xué)院畢業(yè)生的調(diào)查問卷,通過Apriori算法進行關(guān)聯(lián)規(guī)則分析并實現(xiàn)數(shù)據(jù)可視化,挖掘畢業(yè)生平均學(xué)分績點,畢業(yè)半年后月收入和現(xiàn)狀滿意度之間的潛在關(guān)系,從而給學(xué)校相關(guān)部門以及在校生提供參考。

通過關(guān)聯(lián)分析,我們得出以下結(jié)論:平均學(xué)分績點在[3,4)的畢業(yè)生普遍對現(xiàn)狀感到不滿意;畢業(yè)生的平均學(xué)分績點越低,則畢業(yè)生半年后的月收入就呈較低的趨勢。對此,我們給出相應(yīng)建議:在對畢業(yè)生進行就業(yè)指導(dǎo)時,可按績點進行分批培訓(xùn)給不同層次的學(xué)生進行對應(yīng)的輔導(dǎo),適當對平均學(xué)分績點在[1,2)和[3,4)范圍內(nèi)的學(xué)生加強輔導(dǎo)、勸導(dǎo)以及指導(dǎo),增強對現(xiàn)狀的滿意度,使其更好的應(yīng)對嚴峻的就業(yè)形勢。

關(guān)鍵詞:關(guān)聯(lián)規(guī)則;Apriori算法;數(shù)據(jù)可視化

中圖分類號:G420文獻標志碼:A文章編號:2095-9214(2016)07-0235-02

一、引言

近年來,我國大學(xué)生就業(yè)難問題愈發(fā)嚴重。本文在這一背景下以某獨立學(xué)院2010級畢業(yè)生為例,對其在校表現(xiàn)與就業(yè)現(xiàn)狀進行關(guān)聯(lián)性分析。旨在找出兩者間的關(guān)系,給學(xué)校相關(guān)部門和在校生提出一些切實可行的建議。

二、基于Apriori算法的靜態(tài)關(guān)聯(lián)規(guī)則基本原理

Apriori算法是一種先驗概率算法,它利用了頻集特性的先驗知識,采取層次順序搜索的循環(huán)方法來完成頻繁項集的挖掘工作[1]。本文利用R語言中arules包及其相關(guān)包對我校畢業(yè)生半年后月收入,在校各類滿意度和平均學(xué)分績點進行關(guān)聯(lián)規(guī)則挖掘和數(shù)據(jù)可視化展現(xiàn)。

關(guān)聯(lián)規(guī)則的一般表示形式為: X=>Y (規(guī)則支持度,規(guī)則置信度,規(guī)則提升度),其中X為規(guī)則前項,Y為規(guī)則后項,規(guī)則支持度,規(guī)則置信度及規(guī)則提升度是規(guī)則的評價指標。

規(guī)則支持度是該項集出現(xiàn)的次數(shù)除以總的記錄數(shù)。其意義在于度量項集在整個事務(wù)集中出現(xiàn)的頻次。我們在發(fā)現(xiàn)有價值的規(guī)則時,會更多的關(guān)注頻次高的項集。

ConfidenceX=>Y=SupportX∪YSupportX

規(guī)則提升度反映X的出現(xiàn)對Y出現(xiàn)的影響程度,一般大于1才有意義,表示X的出現(xiàn)對Y的出現(xiàn)有促進作用,故規(guī)則提升度越大越好,其表達式如下:

LiftX=>Y=SupportX∪YSupportX*SupportY

三、關(guān)聯(lián)規(guī)則的應(yīng)用

置信度和支持度閥值的設(shè)定直接影響到關(guān)聯(lián)規(guī)則結(jié)果輸出的數(shù)量。若置信度和支持度的閥值設(shè)置得越小,生成的關(guān)聯(lián)規(guī)則越多,而關(guān)聯(lián)規(guī)則所體現(xiàn)的項集之間的關(guān)聯(lián)更傾向于偶然;若置信度和支持度的閥值設(shè)置得太大,就可能無法得到關(guān)聯(lián)規(guī)則,因此需要合理地設(shè)置閥值。若計算出的規(guī)則的置信度大于或等于預(yù)先給定的最小置信度閾值,且支持度大于或等于預(yù)先給定的最小支持度閾值,那么這條規(guī)則就被保留下來,否則刪除。

得出符合條件的全部關(guān)聯(lián)規(guī)則中可能存在冗余的規(guī)則,即規(guī)則1實際上包含了規(guī)則2,且規(guī)則2與規(guī)則1的提升度相等,或低于規(guī)則1的提升度,由此認定規(guī)則2是冗余的。因此我們通過生成關(guān)聯(lián)規(guī)則子矩陣并刪除其每列元素和大于等于1的列將冗余的規(guī)則刪除,得到最終的關(guān)聯(lián)規(guī)則并根據(jù)提升度降序排序。

由于提升度大于1的才有意義,因此,本文提取提升度大于1的三條關(guān)聯(lián)規(guī)則進行分析討論。

本文做了兩個關(guān)聯(lián)分析,第一個關(guān)聯(lián)分析選取大學(xué)生對現(xiàn)狀滿意度為后項,以大學(xué)生平均學(xué)分績點為前項;第二個關(guān)聯(lián)分析是以大學(xué)生畢業(yè)后半年月收入為后項,以大學(xué)生平均學(xué)分績點為前項。

1.現(xiàn)狀滿意度跟平均績點的關(guān)聯(lián)規(guī)則

首先進行第一個關(guān)聯(lián)分析,選取最小置信度閾值為30%,且最小支持度閾值為0.4%,冗余處理后剩下3條關(guān)聯(lián)規(guī)則如表1。

圖1 現(xiàn)狀滿意度與平均績點的關(guān)聯(lián)規(guī)則泡泡圖

圖1中圈的大小表示支持度的值,支持度代表兩種事物同時出現(xiàn)的概率。顏色的深淺代表了提升度的大小。由圖可知,績點[1,2)和[3,4)范圍內(nèi)的畢業(yè)生與對現(xiàn)狀不滿意關(guān)聯(lián)程度較高,績點[2,3)范圍內(nèi)的畢業(yè)生與對現(xiàn)狀滿意關(guān)聯(lián)程度較高。

從表1看到,三條關(guān)聯(lián)規(guī)則的提升度均大于1,說明這三個規(guī)則中,一個學(xué)生出現(xiàn)該平均學(xué)分績點時,他相對于其他績點的學(xué)生對自己的現(xiàn)狀出現(xiàn)該滿意度的可能性較大,而且提升度越大,代表這條關(guān)聯(lián)規(guī)則越有價值。

第一個關(guān)聯(lián)規(guī)則:平均學(xué)分績點=[3,4) =>對自己的現(xiàn)狀是否滿意=不滿意的支持度為0.1633,這說明2014屆畢業(yè)生當中有16.33%的畢業(yè)生平均績點在[3,4)范圍內(nèi)時,同時會對自己的現(xiàn)狀感到不滿意;它的置信度是0.3668,說明平均績點在[3,4)范圍內(nèi)的畢業(yè)生中有36.68%的畢業(yè)生確實對自己現(xiàn)狀感到不滿意。

第二個關(guān)聯(lián)規(guī)則:平均學(xué)分績點=[2,3) =>對自己的現(xiàn)狀是否滿意=滿意的支持度為0.2933,這說明2014屆畢業(yè)生當中有29.33%的畢業(yè)生平均績點在[2,3)范圍內(nèi)時,同時會對自己的現(xiàn)狀感到滿意;而在2014屆平均績點為[2,3)范圍內(nèi)的畢業(yè)生中,對自己的現(xiàn)狀感到滿意的畢業(yè)生占55.80%,即該規(guī)則的置信度為0.5580。

第三個關(guān)聯(lián)規(guī)則:平均學(xué)分績點=[1,2) =>對自己的現(xiàn)狀是否滿意=不滿意的支持度為0.0097,這說明2014屆畢業(yè)生當中有0.97%的畢業(yè)生平均績點在[1,2)范圍內(nèi)時,同時會對自己的現(xiàn)狀感到不滿意;而在2014屆平均績點為[1,2)范圍內(nèi)的畢業(yè)生中,對自己的現(xiàn)狀感到不滿意的畢業(yè)生占35.29%,即該規(guī)則的置信度為0.3529。

平均學(xué)分績點在[3,4)范圍內(nèi)的會對現(xiàn)狀感到不滿意的原因也許是要求過高,成績好的都希望找到一份好工作或者好的出路,但個人感覺并沒有很好,因此對現(xiàn)狀感到不滿意。因此,在對畢業(yè)生進行就業(yè)指導(dǎo)時,可按績點進行分批培訓(xùn)給不同層次的學(xué)生進行對應(yīng)的輔導(dǎo),或者適當對平均學(xué)分績點在[1,2)和[3,4)范圍內(nèi)的學(xué)生加強輔導(dǎo)、勸導(dǎo)以及指導(dǎo),增強對現(xiàn)狀的滿意度。

2.月收入跟績點的關(guān)聯(lián)規(guī)則

注:月收入1類為(0,2500], 2類為(2500,3500], 3類為(3500,4500], 4類為(4500,5500], 5類為5500以上

從表2看到,在設(shè)定最小支持度的閥值為0.004,最小置信度閥值為0.1的條件下,七條關(guān)聯(lián)規(guī)則的提升度均大于1。經(jīng)過冗余處理的數(shù)據(jù),關(guān)聯(lián)規(guī)則并未有所減少,冗余前后都包含10條關(guān)聯(lián)規(guī)則,說明該數(shù)據(jù)并沒有存在冗余的規(guī)則。

第一條關(guān)聯(lián)規(guī)則:說明在2014屆畢業(yè)生中有0.49%的畢業(yè)半年后的月收入屬于5類,同時平均學(xué)分績點落在[1,2)的范圍內(nèi)。且在平均績點在[1,2)范圍內(nèi)的畢業(yè)生中有17.65%的畢業(yè)生月收入屬于5類。相對于其他規(guī)則,其可能性較低,屬于“令人費解的規(guī)則”,其價值不值得深入分析。

第四條關(guān)聯(lián)規(guī)則:說明在2014屆畢業(yè)生中有13.16%的畢業(yè)半年后的月收入屬于3類,同時平均學(xué)分績點落在[3,4)的范圍內(nèi)。且在平均績點在[3,4)范圍內(nèi)的畢業(yè)生中有29.56%的畢業(yè)生月收入屬于3類。

第五條關(guān)聯(lián)規(guī)則:說明在2014屆畢業(yè)生中有17.22%的畢業(yè)半年后的月收入屬于2類,同時平均學(xué)分績點落在[3,4)的范圍內(nèi)。且在平均績點在[3,4)范圍內(nèi)的畢業(yè)生中有38.69%的畢業(yè)生月收入屬于2類。

第四條關(guān)聯(lián)規(guī)則和第五條關(guān)聯(lián)規(guī)則均屬于發(fā)生概率較高的規(guī)則,說明在校成績較為良好的學(xué)生出來就業(yè)時的月收入均屬于中等水平,且該種現(xiàn)象普遍存在于本校。

從整體看,整體的支持度均較高,由此可知,畢業(yè)生的平均學(xué)分績點在一定程度上影響了畢業(yè)生半年后的月收入,并可看出,畢業(yè)生的平均學(xué)分績點越低,則畢業(yè)生畢業(yè)半年后的月收入就越低的趨勢。另一方面,說明我校在開展學(xué)生工作時應(yīng)給予學(xué)生必要的思想工作,適當?shù)馗鷮W(xué)習(xí)成績較差的學(xué)生進行溝通,使其可以應(yīng)對較為嚴峻的就業(yè)形勢。

四、結(jié)論及相關(guān)建議

通過關(guān)聯(lián)分析,我們分別研究了績點與現(xiàn)狀滿意度的關(guān)系,以及月收入與績點的關(guān)系。通過設(shè)定最小閥值消除冗余,提取提升度大于1的關(guān)聯(lián)規(guī)則,我們得出以下結(jié)論,并分別給出相應(yīng)對策:

(1) 平均學(xué)分績點在[3,4)的畢業(yè)生普遍對現(xiàn)狀感到不滿意,在2014屆的畢業(yè)生中達到16.33%的比例。對此,在對畢業(yè)生進行就業(yè)指導(dǎo)時,可按績點進行分批培訓(xùn)給不同層次的學(xué)生進行對應(yīng)的輔導(dǎo),或者適當對平均學(xué)分績點在[1,2)和[3,4)范圍內(nèi)的學(xué)生加強輔導(dǎo)、勸導(dǎo)以及指導(dǎo),增強對現(xiàn)狀的滿意度。

(2)畢業(yè)生的平均學(xué)分績點在一定程度上影響了畢業(yè)生半年后的月收入,畢業(yè)生的平均學(xué)分績點越低,則畢業(yè)生畢業(yè)半年后的月收入就越低的趨勢。其中平均績點落在[3,4)的畢業(yè)生中,畢業(yè)后的月收入多數(shù)落在2類和3類,其在2014屆的畢業(yè)生中分別達到13.16%和17.22%的比例。說明我校在開展學(xué)生工作時應(yīng)給予學(xué)生必要的思想工作,適當?shù)馗凕c落在[3,4)的學(xué)生進行溝通,提供就業(yè)方面的相關(guān)輔導(dǎo),使其可以應(yīng)對較為嚴峻的就業(yè)形勢。

(作者單位:北京理工大學(xué)珠海學(xué)院數(shù)理與土木工程學(xué)院)

北京理工大學(xué)珠海學(xué)院大學(xué)生創(chuàng)新創(chuàng)業(yè)訓(xùn)練計劃項目省級課題

參考文獻:

[1]王星等譯.大數(shù)據(jù)分析:方法與應(yīng)用[M],清華大學(xué)出版社,2013.

[2]陳健等譯.R語言與數(shù)據(jù)挖掘(最佳實踐和經(jīng)典案例)[M],機械工業(yè)出版社,2014.

[3]李洪成等譯.機器學(xué)習(xí)與R語言[M],機械工業(yè)出版社,2015.

[4]范明等譯.數(shù)據(jù)挖掘基礎(chǔ)教程[M],機械工業(yè)出版社,2009.

[5]范明等譯.數(shù)據(jù)挖掘(概念與技術(shù))[M],機械工業(yè)出版社,2012.

[6]范明等譯.數(shù)據(jù)挖掘?qū)д摚ㄍ暾妫M],人民郵電出版社,2013.

猜你喜歡
Apriori算法數(shù)據(jù)可視化關(guān)聯(lián)規(guī)則
可視化:新媒體語境下的數(shù)據(jù)、敘事與設(shè)計研究
基于Hadoop平臺的并行DHP數(shù)據(jù)分析方法
我國數(shù)據(jù)新聞的發(fā)展困境與策略研究