劉 哲, 趙志剛
(沈陽(yáng)師范大學(xué) 計(jì)算機(jī)與數(shù)學(xué)基礎(chǔ)教學(xué)部, 沈陽(yáng) 110034)
?
數(shù)據(jù)挖掘技術(shù)在大學(xué)生就業(yè)分析中的實(shí)證研究
劉 哲, 趙志剛
(沈陽(yáng)師范大學(xué) 計(jì)算機(jī)與數(shù)學(xué)基礎(chǔ)教學(xué)部, 沈陽(yáng) 110034)
近年來(lái),隨著高校招生規(guī)模的不斷擴(kuò)大,我國(guó)高等教育已逐漸步入大眾化教育階段,高校畢業(yè)生所面臨的就業(yè)壓力再次引起人們的關(guān)注。針對(duì)遼寧省內(nèi)高校畢業(yè)生的定量分析及預(yù)測(cè)比較少見(jiàn),提出將數(shù)據(jù)挖掘技術(shù)應(yīng)用到高校就業(yè)分析中。首先提取了省部分高校畢業(yè)生的基本信息庫(kù)、成績(jī)數(shù)據(jù)庫(kù),等級(jí)考試數(shù)據(jù)庫(kù)及就業(yè)信息數(shù)據(jù)庫(kù),并對(duì)數(shù)據(jù)庫(kù)進(jìn)行了抽樣及預(yù)處理;其次應(yīng)用數(shù)據(jù)挖掘技術(shù)中的ID3算法及數(shù)學(xué)統(tǒng)計(jì)方法挖掘出與就業(yè)相關(guān)的分類規(guī)則,通過(guò)分類規(guī)則找出影響畢業(yè)生就業(yè)單位性質(zhì)的主要因素;最后根據(jù)分析給出促進(jìn)高校就業(yè)的決策建議:提高大學(xué)生的基礎(chǔ)與專業(yè)素質(zhì);大學(xué)生要轉(zhuǎn)變就業(yè)觀念,理性調(diào)整期望值;有意識(shí)地積累和利用社會(huì)資本。
大學(xué)生就業(yè); 數(shù)據(jù)挖掘; 決策樹; ID3算法
近年來(lái),高校畢業(yè)生所面臨的就業(yè)壓力再次引起人們的關(guān)注[1]。面對(duì)就業(yè)難題,就業(yè)指導(dǎo)專家通常會(huì)根據(jù)歷年就業(yè)的現(xiàn)象或數(shù)據(jù),對(duì)未來(lái)的就業(yè)趨勢(shì)進(jìn)行預(yù)測(cè)。就業(yè)預(yù)測(cè)可分為定性預(yù)測(cè)和定量預(yù)測(cè)。定性預(yù)測(cè)往往是專家在缺乏統(tǒng)計(jì)數(shù)據(jù)的情況下,做出比較正確的判斷和推測(cè)[2]。沒(méi)有數(shù)據(jù)支撐的預(yù)測(cè)通常精度不高。定量預(yù)測(cè)是根據(jù)調(diào)研的數(shù)據(jù)資料,運(yùn)用數(shù)據(jù)挖掘技術(shù)或數(shù)學(xué)統(tǒng)計(jì)方法,對(duì)預(yù)測(cè)目標(biāo)做出定量測(cè)算的預(yù)測(cè)方法[3-4]。據(jù)文獻(xiàn)[5]所知,我國(guó)正在逐步建立覆蓋全國(guó)高校學(xué)生,集雙向選擇、信息咨詢、決策支持等功能為一體的國(guó)家級(jí)示范性就業(yè)信息公共服務(wù)平臺(tái)[5-6]。鑒于目前遼寧省高校畢業(yè)生的定量分析及預(yù)測(cè)還很少見(jiàn)[7],文中考慮應(yīng)用數(shù)據(jù)挖掘技術(shù)中的分類決策樹方法[8-9],數(shù)學(xué)統(tǒng)計(jì)方法等挖掘出促進(jìn)就業(yè)的有價(jià)值的信息,并提出促進(jìn)高校就業(yè)的政策建議,以供參考。
教育系統(tǒng)存儲(chǔ)的關(guān)于學(xué)生的信息基本都是準(zhǔn)確的,完整的,對(duì)時(shí)間敏感度不高[3]。因此,文中對(duì)某師范院校的畢業(yè)生招生就業(yè)指導(dǎo)中心、教務(wù)處、各學(xué)院教學(xué)管理等職能部門進(jìn)行了科學(xué)詳實(shí)的調(diào)查研究,并通過(guò)學(xué)校的信息化共享平臺(tái)獲取了畢業(yè)生的基本信息庫(kù)、成績(jī)數(shù)據(jù)庫(kù),等級(jí)考試數(shù)據(jù)庫(kù)及就業(yè)信息數(shù)據(jù)庫(kù)。
對(duì)獲得的數(shù)據(jù)進(jìn)行了數(shù)據(jù)預(yù)處理[10]:首先應(yīng)用數(shù)據(jù)清洗技術(shù)對(duì)缺損數(shù)據(jù)、相似重復(fù)信息等進(jìn)行了處理,提高了數(shù)據(jù)質(zhì)量;其次進(jìn)行了相關(guān)性分析,去除與分析無(wú)關(guān)的屬性;最后對(duì)數(shù)據(jù)進(jìn)行了概化操作[11]使數(shù)據(jù)適合數(shù)據(jù)挖掘,為數(shù)據(jù)挖掘做好準(zhǔn)備。處理后的抽樣數(shù)據(jù)如表1所示。
表1 預(yù)處理后的學(xué)生就業(yè)抽樣數(shù)據(jù)
2.1 決策樹的相關(guān)理論基礎(chǔ)
決策樹也稱判定樹,決策樹方法是數(shù)據(jù)挖掘的核心技術(shù)之一[12]。ID3算法是其中最著名的一種[13]。分類決策樹ID3算法通常分為2個(gè)階段,即樹的生成與剪枝。其中生成樹的算法具體處理過(guò)程可以分為3個(gè)步驟[10]:計(jì)算給定樣本分類所需的總信息熵;計(jì)算每個(gè)屬性的信息熵;以及計(jì)算信息增益。
2.2 基于分類決策樹的就業(yè)分析
在基于數(shù)據(jù)庫(kù)系統(tǒng)的決策技術(shù)中,通常應(yīng)用信息論的相關(guān)技術(shù)研究條件屬性對(duì)于決策屬性的影響[14]。文中將“單位性質(zhì)”作為決策屬性,將“畢業(yè)資格”“平均學(xué)分績(jī)點(diǎn)”“等級(jí)考試證書”“政治面貌”“性別”及“貧困生”屬性作為條件屬性。
1) 建立分類決策樹
圖1 分類決策樹
構(gòu)建分類決策樹首先從樣本訓(xùn)練集中選擇“單位性質(zhì)”作為決策屬性,也就是分類決策樹的葉子節(jié)點(diǎn),其次應(yīng)用數(shù)據(jù)挖掘技術(shù)的ID3算法計(jì)算出每個(gè)屬性的信息增益[15]從大到小依次為“畢業(yè)資格”“平均學(xué)分績(jī)點(diǎn)”“等級(jí)考試證書”,“政治面貌”“性別”“貧困生”屬性。根據(jù)高等師范院校女多男少的實(shí)際情況,對(duì)“性別”屬性進(jìn)行了特別的關(guān)注,計(jì)算“性別”屬性的信息增益值僅為0.000 5,比最小的“政治面貌”屬性的信息增益還小幾百倍,即“性別”屬性對(duì)決策樹的影響會(huì)很小,因此忽略“性別”屬性。同樣,也忽略“貧困生”屬性。由于“畢業(yè)資格”屬性的信息增益和“平均分績(jī)點(diǎn)”屬性的信息增益相似,從而得知“平均分績(jī)點(diǎn)”直接影響“畢業(yè)資格”,因此文中選取了“平均學(xué)分績(jī)點(diǎn)”屬性作為條件屬性,并將“等級(jí)考試證書”,“政治面貌”屬性作為條件屬性,即決策樹的條件屬性,如圖1所示。
2) 根據(jù)分類決策樹提取部分分類規(guī)則
規(guī)則1 If平均分績(jī)點(diǎn)=“≥3.0”and等級(jí)考試證書=“有” and政治面貌=“黨員”then 單位性質(zhì)=“事業(yè)單位”;
規(guī)則2 If平均分績(jī)點(diǎn)=“≥3.0”and等級(jí)考試證書=“有” and政治面貌=“非黨員”then 單位性質(zhì)=“國(guó)有企業(yè)”。
……
從生成的分類決策樹及分類規(guī)則中可以看出首先平均分績(jī)點(diǎn)≥2.0的畢業(yè)生基本都能就業(yè),并且平均分績(jī)點(diǎn)的高低是影響就業(yè)工作性質(zhì)的主要因素。平均分績(jī)點(diǎn)≥3.0的畢業(yè)生并且拿到等級(jí)考試證書,在此基礎(chǔ)上若是黨員則到事業(yè)單位就業(yè)的概率非常大;平均分績(jī)點(diǎn)≥3.0的畢業(yè)生并且拿到等級(jí)考試證書,基本都能到國(guó)有企業(yè)就業(yè);平均分績(jī)點(diǎn)<3.0并且≥2.0的畢業(yè)生并且拿到等級(jí)考試證書或者是黨員,基本都能到國(guó)有企業(yè)就業(yè);而平均分績(jī)點(diǎn)<3.0并且≥2.0的畢業(yè)生且沒(méi)有等級(jí)考試證書或者非黨員,只能到其他企業(yè)就業(yè)。
2.3 基于數(shù)據(jù)統(tǒng)計(jì)的就業(yè)分析
依據(jù)分類決策樹得出“平均分績(jī)點(diǎn)”“等級(jí)考試證書”及“政治面貌”屬性對(duì)畢業(yè)生的就業(yè)單位性質(zhì)有影響,那么對(duì)于師范院校的不同專業(yè),不同性別對(duì)就業(yè)單位性質(zhì)是否有影響呢?數(shù)據(jù)分析如下。
1) 對(duì)理科師范類畢業(yè)生的就業(yè)去向進(jìn)行了統(tǒng)計(jì)分析,如圖2所示。圖中數(shù)據(jù)表明師范專業(yè)畢業(yè)生畢業(yè)后不一定都從事教育事業(yè),去企業(yè)就業(yè)的人數(shù)占到近50%,因此可以預(yù)測(cè)未來(lái)畢業(yè)生到企業(yè)就業(yè)的機(jī)會(huì)較大。
2) 對(duì)文科非師范類畢業(yè)生的就業(yè)去向進(jìn)行了統(tǒng)計(jì)分析,如圖3所示。圖中數(shù)據(jù)表明該系畢業(yè)生畢業(yè)后去其他企業(yè)就業(yè)的人數(shù)占到56%,出國(guó)占9%,國(guó)有企業(yè)占14%,事業(yè)單位沒(méi)有,可見(jiàn)該文科專業(yè)到事業(yè)單位就業(yè)機(jī)會(huì)不大。
圖2 某理科師范類畢業(yè)生就業(yè)單位性質(zhì)比例
圖3 某文科非師范類畢業(yè)生就業(yè)單位性質(zhì)比例
圖4 某藝術(shù)類畢業(yè)生就業(yè)單位性質(zhì)比例
3) 對(duì)藝術(shù)類非師范類畢業(yè)生就業(yè)去向的進(jìn)行了統(tǒng)計(jì)分析,如圖4所示。圖中數(shù)據(jù)表明該系畢業(yè)生畢業(yè)后去其他企業(yè)就業(yè)的人數(shù)占到81%,明顯高于其他任何方式的就業(yè)比例。因此,可以從整體上預(yù)測(cè)明年畢業(yè)生到其他企業(yè)就業(yè)的機(jī)會(huì)相當(dāng)大,應(yīng)該多留意企業(yè)就業(yè)信息。如果說(shuō)該專業(yè)只能到其他企業(yè)就業(yè),那么從就業(yè)形式來(lái)講太單一了,該專業(yè)應(yīng)該注重學(xué)生各種能力的培養(yǎng),拓寬就業(yè)渠道,以便抓住更多的就業(yè)機(jī)會(huì)。
4) 對(duì)男生、女生的就業(yè)數(shù)據(jù)進(jìn)行了統(tǒng)計(jì)分析說(shuō)明性別差異對(duì)就業(yè)影響并不明顯。
社會(huì)上普遍認(rèn)為男生和女生就業(yè)不平等。女生由于自身的因素很多工作難以勝任或者難以長(zhǎng)期任職,因此無(wú)論在就業(yè)機(jī)會(huì)、或者在工資水平上女生都是相對(duì)的弱勢(shì)群體。而我校是師范類院校,女生比例占70%以上,因此文中對(duì)我校男生、女生的就業(yè)數(shù)據(jù)進(jìn)行了統(tǒng)計(jì)。統(tǒng)計(jì)顯示,某校某屆畢業(yè)生總數(shù)5 615人,其中男生1564人,占畢業(yè)生總數(shù)的比例為27.85%;而待就業(yè)人數(shù)共213人,其中男生60人,占待就業(yè)人數(shù)比例為28.17%。從統(tǒng)計(jì)數(shù)據(jù)來(lái)看,男生的待業(yè)人數(shù)比例并不比女生待業(yè)人數(shù)比例少,相反還多一點(diǎn),這說(shuō)明性別差異對(duì)師范院校就業(yè)率基本沒(méi)有影響,這與文中2.2節(jié)中計(jì)算的“性別”屬性的信息增益很小,即“性別”屬性對(duì)決策樹的影響將會(huì)很小的結(jié)論相吻合。因此,在以后的統(tǒng)計(jì)分析過(guò)程中可以忽略“性別”屬性的影響。
5) “異?!苯Y(jié)論
根據(jù)數(shù)據(jù)統(tǒng)計(jì)后得出了一個(gè)“異?!钡默F(xiàn)象,如表2特困生就業(yè)信息表所示。畢業(yè)資格為“未通過(guò)”并且平均學(xué)分績(jī)點(diǎn)為不及格的特困生就業(yè)成功率100%。一般認(rèn)為未通過(guò)是影響就業(yè)的重要因素,這顯然不太符合常規(guī)的思維。
表2 特困生就業(yè)信息表
通過(guò)對(duì)畢業(yè)生所在系、工作單位及本人進(jìn)行了走訪,得到以下結(jié)論:事實(shí)表明越來(lái)越多的用人單位更加注重學(xué)生的綜合能力和團(tuán)隊(duì)合作意識(shí),而特困生往往為了生存的需要,提前進(jìn)入社會(huì),這恰好為特困生擴(kuò)大了交際范圍、增加了社會(huì)資本。
根據(jù)數(shù)據(jù)挖掘技術(shù)的就業(yè)分析結(jié)果提出了3點(diǎn)促進(jìn)大學(xué)生就業(yè)建議:
1) 提高大學(xué)生的基礎(chǔ)與專業(yè)素質(zhì)。從就業(yè)指導(dǎo)決策樹看出,單位性質(zhì)為事業(yè)單位或國(guó)有企業(yè)非??粗仄骄鶎W(xué)分績(jī)點(diǎn)高的畢業(yè)生,而平均學(xué)分績(jī)點(diǎn)的高低能夠真實(shí)的反映基礎(chǔ)與專業(yè)素質(zhì)的好壞。因此,學(xué)生在校學(xué)習(xí)期間應(yīng)當(dāng)具有高度的危機(jī)意識(shí),努力提高自身的基礎(chǔ)與專業(yè)理論知識(shí)、專業(yè)技能水平。
2) 大學(xué)生要轉(zhuǎn)變就業(yè)觀念,理性調(diào)整期望值。統(tǒng)計(jì)數(shù)據(jù)顯示師范類畢業(yè)生不一定都到教育單位就業(yè),到其他企業(yè)就業(yè)的畢業(yè)生達(dá)到近50%。說(shuō)明大學(xué)生要轉(zhuǎn)變就業(yè)觀念,要客觀認(rèn)識(shí)就業(yè)形勢(shì),理性調(diào)整期望值,要用長(zhǎng)遠(yuǎn)的眼光看待就業(yè),樹立“先就業(yè)求生存,后擇業(yè)謀發(fā)展”的思想。
3) 有意識(shí)地積累和使用社會(huì)資源。在第2.3部分中提出“異常”分析應(yīng)該引起重視,特困生成功就業(yè)的根本原因就是主觀意識(shí)上就要先就業(yè)以減輕家里的負(fù)擔(dān),因此在校期間無(wú)形中積累了社會(huì)資源。因此,大學(xué)生應(yīng)該先樹立主觀意識(shí),再逐步的積累和使用社會(huì)資源。
[1]程煜,李鵬. 大學(xué)生就業(yè)創(chuàng)業(yè)與“互聯(lián)網(wǎng)+”[J]. 山西高等學(xué)校社會(huì)科學(xué)學(xué)報(bào), 2015,27(7):73-76.
[2]宋志海,徐珮杰. 高校就業(yè)指導(dǎo)工作的誤區(qū)及對(duì)策[J]. 中國(guó)大學(xué)生就業(yè), 2006(4):41-42.
[3]李金華. 論數(shù)據(jù)挖掘技術(shù)在大學(xué)生就業(yè)系統(tǒng)中的應(yīng)用[J]. 電腦編程技巧與維護(hù), 2010(9):40-42.
[4]李春青. 數(shù)據(jù)挖掘技術(shù)在高校信息化管理中的應(yīng)用[J]. 軟件導(dǎo)刊, 2015,2(14):155-156.
[5]方偉. 大學(xué)生就業(yè)工作信息化信探索[J]. 理論前沿, 2013(4):3-6.
[6]國(guó)務(wù)院辦公廳. 國(guó)務(wù)院辦公廳關(guān)于做好2013年全國(guó)普通高等學(xué)校畢業(yè)生就業(yè)工作的通知[EB/OL]. (2013-05-16)[2015-06-22]. http:∥www.gov.cn/zwgk/2013-05/16/content_2404378.htm.
[7]趙巖,張悅. 遼寧省大學(xué)生自主創(chuàng)業(yè)的現(xiàn)狀、問(wèn)題和對(duì)策研究[J]. 遼寧教育行政學(xué)院學(xué)報(bào), 2015(1):47-50.
[8]楊斷利,張銳,王文顯. 基于模糊決策樹的高校就業(yè)數(shù)據(jù)挖掘研究[J]. 河北農(nóng)業(yè)大學(xué)學(xué)報(bào), 2012,35(2):111-114.
[9]張?jiān)茲?龔玲. 數(shù)據(jù)挖掘原理與技術(shù)[M]. 北京:電子工業(yè)出版社, 2004:42-45.
[10]李文峰,黃席樾. C4.5算法在國(guó)防生素質(zhì)分析中的應(yīng)用[J]. 計(jì)算機(jī)應(yīng)用, 2007,26(7):36-39.
[11]閆禹. 數(shù)據(jù)挖掘技術(shù)在高校學(xué)生就業(yè)指導(dǎo)決策中的運(yùn)用[J]. 沈陽(yáng)工業(yè)大學(xué)學(xué)報(bào), 2007,29(3):344-346.
[12]雷松澤,郝艷. 基于決策樹的就業(yè)數(shù)據(jù)挖掘[J]. 西安工業(yè)學(xué)院學(xué)報(bào), 2005,25(5):429-432.
[13]江明華,唐婭琴. 用ID3算法對(duì)高校計(jì)算機(jī)教學(xué)中學(xué)生成績(jī)的分類研究[J]. 計(jì)算機(jī)與數(shù)字工程, 2008,36(5):51-54.
[14]楊帆,劉運(yùn). 基于信息熵和貝葉斯方法的就業(yè)指導(dǎo)輔助決策技術(shù)[J]. 陜西科技大學(xué)學(xué)報(bào), 2009,27(2):99-103.
[15]辛立章,陳春香. 數(shù)據(jù)挖掘技術(shù)在高校畢業(yè)生就業(yè)指導(dǎo)中的應(yīng)用[J]. 電腦知識(shí)與技術(shù), 2007,3(13):1-2.
Analysis and calculation of high school graduate student based on data mining
LIUZhe,ZHAOZhigang
(Fundamental Education Division of Computer and Mathematics, Shenyang Normal University, Shenyang 110034, China)
In recent years, Higher education has become more and more popular in China with the continuous expansion of the universities and colleges. The fact that college graduates are under great pressure in finding jobs is attracting a lot of attention again. Because little quantitative analysis and forecast taking aim at Liaoning Province college graduates has been made, this paper raises that the data mining technology is applied to the analysis of the job obtaining of college graduates. Firstly, some databases about partial college graduates are referred to in this paper, for example, database of graduates’ basic information, scores database, database of level examination and database of employment information. The sampling and pretreatment of the database is carried out. Secondly, the ID3 algorithm is applied to build a decision tree and find out the main factors influencing graduates’ employment property by classification. Finally, the proposals are given according to the analysis to promote the graduates employment, which include basic and professional skills of graduates, change of expectation and conception of selecting their jobs, cultivation of the consciousness of accumulating and utilizing social resources actively.
graduate employment;data mining; decision tree; ID3 algorithm
2015-10-12。
遼寧省經(jīng)濟(jì)社會(huì)發(fā)展立項(xiàng)課題(2015lslktjyx-08); 遼寧省教育廳教學(xué)改革項(xiàng)目(UPRPI2014096)。
劉 哲(1977-),女,遼寧沈陽(yáng)人,沈陽(yáng)師范大學(xué)副教授,碩士。
1673-5862(2016)01-0105-04
TP311
A
10.3969/ j.issn.1673-5862.2016.01.024