林灃
【摘 要】以現(xiàn)有的數(shù)據(jù)挖掘決策樹算法作為理論支撐,從就業(yè)數(shù)據(jù)出發(fā),按照數(shù)據(jù)挖掘的基本步驟和方法,執(zhí)行C4.5決策樹算法對數(shù)據(jù)進(jìn)行分類和預(yù)測,從積累的大量數(shù)據(jù)中得到以就業(yè)類別為屬性的分類規(guī)則,以此為學(xué)校領(lǐng)導(dǎo)機(jī)構(gòu)提供決策支持,提高就業(yè)水平,對就業(yè)指導(dǎo)工作具有一定的現(xiàn)實意義。
【關(guān)鍵詞】C4.5 數(shù)據(jù)挖掘 決策樹 就業(yè)信息庫
【中圖分類號】 G 【文獻(xiàn)標(biāo)識碼】 A
【文章編號】0450-9889(2015)03C-0181-03
隨著高校的大規(guī)模擴(kuò)招,學(xué)生人數(shù)逐年遞增,畢業(yè)生的大量輸出給社會帶來巨大的壓力,學(xué)生就業(yè)管理工作趨向于復(fù)雜化,如何能夠有效地提高畢業(yè)生就業(yè)率在高校中已經(jīng)成為一個急待解決的問題。然而我們通常做的都只是表面的去統(tǒng)計畢業(yè)生的就業(yè)數(shù)據(jù),不進(jìn)行深層次的數(shù)據(jù)分析,得到的往往也只是表面信息。合理利用現(xiàn)代化的信息手段整理過往畢業(yè)生的就業(yè)數(shù)據(jù),從中尋找影響用人單位錄用畢業(yè)生的關(guān)鍵要素才是解決問題的關(guān)鍵所在。
有效利用數(shù)據(jù)挖掘技術(shù)對大學(xué)畢業(yè)生就業(yè)信息進(jìn)行分析,將信息中內(nèi)在的聯(lián)系挖掘出來,這是傳統(tǒng)的、表層的評價方法無法做到的。本文將選取決策樹C4.5算法構(gòu)建就業(yè)決策分類樹抽取規(guī)則知識,原因是就業(yè)數(shù)據(jù)具有分類的預(yù)知性、離散性的特點。
一、決策樹算法
決策樹方法的原始啟蒙來源于概念學(xué)習(xí)系統(tǒng),屬于數(shù)據(jù)挖掘核心技術(shù)算法之一,有一定的優(yōu)勢。它的特點是基于實例數(shù)據(jù),將大量數(shù)據(jù)有目的地分類,把一個復(fù)雜的問題分成更簡單的問題并重復(fù)使用這一技巧,找出潛在的、對決策有利用價值的信息,決策樹算法多數(shù)情況下應(yīng)用在預(yù)測模型中。如果引用信息論中的說法,就是在選擇決策節(jié)點屬性時,用信息增益來進(jìn)行判定。
所謂決策樹,實際上是一種形象的叫法,它是由決策節(jié)點、分支、葉子和連接線組成,其形狀類似倒長的樹型結(jié)構(gòu)。決策樹的節(jié)點一般用矩形表示,代表一個非類別屬性,每個葉子用橢圓形表示,代表一個類別。矩形和橢圓形的連接線代表一條分支,每條分支代表著這個屬性可能出現(xiàn)的值。每一條從根節(jié)點到葉子節(jié)點的路徑則代表著一條分類規(guī)則。
目前眾多決策樹算法中最為著名的是Quinlan在ID3算法的基礎(chǔ)上進(jìn)行改進(jìn)提出來的C4.5算法。C4.5算法的先進(jìn)性體現(xiàn)在:C4.5算法比ID3算法先進(jìn)的方面在于選擇屬性時采用的是信息增益率去替代信息增益,使得在屬性選擇時不會對取值多的屬性帶有更強(qiáng)的偏向性,所得出的計算結(jié)果更準(zhǔn)確;分析連續(xù)型屬性是C4.5算法又一改進(jìn),并且當(dāng)在樣本集中出現(xiàn)空缺的屬性值時,C4.5算法也能進(jìn)行處理,從而提高結(jié)果的準(zhǔn)確性;C4.5算法能夠直接將連續(xù)值屬性進(jìn)行分割,分別計算信息增益率,并選取結(jié)果當(dāng)中信息增益率最大的分割為屬性標(biāo)準(zhǔn),從而轉(zhuǎn)換為離散的二值屬性,完成對連續(xù)型屬性的離散化處理;C4.5算法在構(gòu)造樹的過程中采用后修剪枝葉的方法,能有效的控制決策樹的高度,同時,相對其他的算法而言C4.5生成的決策樹分枝也有所減少。
為了能使用最小的信息構(gòu)造最為簡單的決策樹,在對訓(xùn)練樣本子集進(jìn)行分類時,在選取當(dāng)前節(jié)點的測試屬性時,就必須把具有最高信息增益的屬性找出來。具體方法如下:
假設(shè)有訓(xùn)練樣本數(shù)據(jù)集S,類別屬性C可以取k個不同的值,將訓(xùn)練樣本數(shù)據(jù)集S分為k個不同的類Ci (i=1,2,……,k),Ri為數(shù)據(jù)集S中屬于Ci類的子集,用ri表示子集Ri中的樣本數(shù)量。
用Pi表示任意樣本屬于類別Ci的概率:,|S|表示集合S中的樣本數(shù)量。樣本集合S的平均不確定性和純度的高低是通過信息熵反映的。如果熵值越小,平均不確定性越低,純度越高。
每個屬性的信息增益率都可以由上述的公式計算出來,這樣集合S的決策樹的根節(jié)點就可以根據(jù)計算出來的信息增益率最高的屬性來確定,并以該屬性作為標(biāo)記屬性,對屬性的每一個值創(chuàng)建分枝,并據(jù)此劃分樣本。
二、數(shù)據(jù)預(yù)處理
(一)數(shù)據(jù)準(zhǔn)備
在本研究中,選擇畢業(yè)生的就業(yè)信息作為研究數(shù)據(jù),通過分析畢業(yè)生在校的學(xué)習(xí)情況、專業(yè)及專業(yè)類別等信息,挖掘出用人單位的行業(yè)性質(zhì)。在進(jìn)行構(gòu)造決策樹時,必須對數(shù)據(jù)進(jìn)行規(guī)格化處理,能保證數(shù)據(jù)的高質(zhì)量和一致性。同時還要對用人單位行業(yè)性質(zhì)的文字描述進(jìn)行量化和對學(xué)習(xí)情況等決策屬性進(jìn)行離散化。
(二)數(shù)據(jù)的轉(zhuǎn)換
在所采集的數(shù)據(jù)中選取4項作為實驗樣本。選取學(xué)習(xí)成績、外語水平、實踐能力、就業(yè)方向構(gòu)成四維向量表。數(shù)據(jù)選擇如下:學(xué)習(xí)成績(CJ)采集學(xué)習(xí)成績的平均值分段劃分為三級,中等(CJ<75),良好(75≤CJ≤85),優(yōu)秀(CJ≥85)。外語水平(WY)劃分為兩級,通過全國英語等級B級,通過全國英語等級四級。實踐能力(SJNL)劃分為三級,優(yōu)秀(實踐能力強(qiáng)),一般(實踐能力一般),差(實踐能力差)。就業(yè)方向(JYFX)劃分四級,國有企業(yè)事業(yè)單位(V),外資企業(yè)(X),私營企業(yè)(Y),自主創(chuàng)業(yè)(Z)。
三、構(gòu)造決策樹
選取決策樣本數(shù)據(jù)集,如表1所示:
第一步,將樣本訓(xùn)練集中的分類標(biāo)志屬性選出來,本例中選擇“就業(yè)方向”作為分類標(biāo)志屬性,而“學(xué)習(xí)成績”“外語水平”“實踐能力”則作為決策樹的決策屬性集。將畢業(yè)生就業(yè)數(shù)據(jù)表中“就業(yè)方向”分為4類:C1、C2、C3、C4分別代表國有企業(yè)事業(yè)單位:V;外資企業(yè):X;私營企業(yè):Y;自主創(chuàng)業(yè):Z。畢業(yè)生就業(yè)數(shù)據(jù)表中的20條記錄構(gòu)建決策樹的樣本集S的20個元組,其中C1、C2、C3、C4類分別對應(yīng)的子集的元組個數(shù)分別為r1=5,r2=5,r3=7,r4=3。要得出每一個決策屬性的信息增益率,那么就要計算S的分類期望信息量:
從信息增益率值可以看出值最大的是“實踐能力”屬性,所以將該屬性定為根節(jié)點構(gòu)建決策樹。
其余的分支點,我們可以通過重復(fù)上述的步驟得出,并生成最終的決策樹,如圖1所示。
根據(jù)決策樹可以直接提取分類規(guī)則:
IF實踐能力=優(yōu)秀+英語水平=四級+學(xué)習(xí)成績=優(yōu)秀THEN就業(yè)類別=X/V。
IF實踐能力=優(yōu)秀+英語水平=B級+學(xué)習(xí)成績=優(yōu)秀或良好THEN就業(yè)類別=V。
IF實踐能力=一般+學(xué)習(xí)成績=良好+英語水平=B級THEN就業(yè)類別=X/Y/Z。
IF實踐能力=一般+學(xué)習(xí)成績=中等+英語水平=B級THEN就業(yè)類別=Y。
IF實踐能力=一般+學(xué)習(xí)成績=優(yōu)秀+英語水平=B級THEN就業(yè)類別=X。
IF實踐能力=差+英語水平=B級+學(xué)習(xí)成績=中等THEN就業(yè)類別=V/Y。
IF實踐能力=差+英語水平=B級+學(xué)習(xí)成績=良好THEN就業(yè)類別=Y/Z。
從上述分類規(guī)則中我們可以發(fā)現(xiàn),不同的能力和水平對于提高學(xué)生就業(yè)層次具有非常微妙的影響,如果全面加強(qiáng)學(xué)生成績的培養(yǎng),則提高畢業(yè)生進(jìn)入國企就業(yè)的數(shù)量;如果重視加強(qiáng)實踐能力和外語水平的雙方面培養(yǎng),則能提高進(jìn)入外企就業(yè)的畢業(yè)生數(shù)量。當(dāng)然我們還可以擴(kuò)大訓(xùn)練樣本集,添加更多的數(shù)據(jù),這樣所構(gòu)建的決策樹能反映數(shù)據(jù)之間更多的內(nèi)在聯(lián)系。
在當(dāng)前復(fù)雜的就業(yè)形勢下,文章提出了對就業(yè)數(shù)據(jù)進(jìn)行挖掘,并建立數(shù)據(jù)挖掘模型,利用C4.5決策樹算法,分析畢業(yè)生就業(yè)信息系統(tǒng)中的數(shù)據(jù)。并在通過算法建立的決策樹模型中,最終得到以就業(yè)類別為屬性的分類規(guī)則,進(jìn)一步分析這些分類規(guī)則,能為學(xué)校的就業(yè)提供分析和決策。如能進(jìn)一步完善基于就業(yè)分析模型決策樹的分類器,將決策樹技術(shù)引入高校學(xué)生就業(yè)信息中,尋求影響學(xué)生就業(yè)的主要因素,最終必將推動高校教育管理的改革與發(fā)展。
【參考文獻(xiàn)】
[1] 張駿,王琴.C4.5算法在研究生就業(yè)信息庫中的應(yīng)用研究[J].信息技術(shù),2009(11)
[2] 雷松澤,郝燕.基于決策樹的就業(yè)數(shù)據(jù)挖掘[J].西安工業(yè)學(xué)院學(xué)報,2005(10)
[3] 邱瑾.決策樹在高職學(xué)生就業(yè)數(shù)據(jù)分析中的應(yīng)用研究 [J].柳州職業(yè)技術(shù)學(xué)院學(xué)報,2012(4)
[4] 利珊.數(shù)據(jù)挖掘在就業(yè)分析中的應(yīng)用[J].蘭州工業(yè)高等專科學(xué)校學(xué)報,2011(8)
[5] 張繼美,桂紅兵.R-C4.5決策樹模型在高職就業(yè)分析中的應(yīng)用[J].電腦知識與技術(shù),2011(7)
[6] 何文秀.數(shù)據(jù)挖掘技術(shù)在高校就業(yè)工作中的應(yīng)用研究[J].現(xiàn)代計算機(jī),2008(3)
[7] 常志玲,王嵐.一種新的決策樹模型在就業(yè)分析中的應(yīng)用[J].計算機(jī)工程與科學(xué),2011(5)
【作者簡介】林 灃(1982- ),男,廣西南寧人,廣西機(jī)電職業(yè)技術(shù)學(xué)院講師,工程師,研究方向:數(shù)據(jù)庫,數(shù)據(jù)挖掘。
(責(zé)編 丁 夢)