国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

決策樹技術(shù)在高職學(xué)生就業(yè)信息庫中的應(yīng)用

2015-05-12 05:06:29林灃
廣西教育·C版 2015年3期
關(guān)鍵詞:決策樹學(xué)習(xí)成績類別

林灃

【摘 要】以現(xiàn)有的數(shù)據(jù)挖掘決策樹算法作為理論支撐,從就業(yè)數(shù)據(jù)出發(fā),按照數(shù)據(jù)挖掘的基本步驟和方法,執(zhí)行C4.5決策樹算法對數(shù)據(jù)進(jìn)行分類和預(yù)測,從積累的大量數(shù)據(jù)中得到以就業(yè)類別為屬性的分類規(guī)則,以此為學(xué)校領(lǐng)導(dǎo)機(jī)構(gòu)提供決策支持,提高就業(yè)水平,對就業(yè)指導(dǎo)工作具有一定的現(xiàn)實意義。

【關(guān)鍵詞】C4.5 數(shù)據(jù)挖掘 決策樹 就業(yè)信息庫

【中圖分類號】 G 【文獻(xiàn)標(biāo)識碼】 A

【文章編號】0450-9889(2015)03C-0181-03

隨著高校的大規(guī)模擴(kuò)招,學(xué)生人數(shù)逐年遞增,畢業(yè)生的大量輸出給社會帶來巨大的壓力,學(xué)生就業(yè)管理工作趨向于復(fù)雜化,如何能夠有效地提高畢業(yè)生就業(yè)率在高校中已經(jīng)成為一個急待解決的問題。然而我們通常做的都只是表面的去統(tǒng)計畢業(yè)生的就業(yè)數(shù)據(jù),不進(jìn)行深層次的數(shù)據(jù)分析,得到的往往也只是表面信息。合理利用現(xiàn)代化的信息手段整理過往畢業(yè)生的就業(yè)數(shù)據(jù),從中尋找影響用人單位錄用畢業(yè)生的關(guān)鍵要素才是解決問題的關(guān)鍵所在。

有效利用數(shù)據(jù)挖掘技術(shù)對大學(xué)畢業(yè)生就業(yè)信息進(jìn)行分析,將信息中內(nèi)在的聯(lián)系挖掘出來,這是傳統(tǒng)的、表層的評價方法無法做到的。本文將選取決策樹C4.5算法構(gòu)建就業(yè)決策分類樹抽取規(guī)則知識,原因是就業(yè)數(shù)據(jù)具有分類的預(yù)知性、離散性的特點。

一、決策樹算法

決策樹方法的原始啟蒙來源于概念學(xué)習(xí)系統(tǒng),屬于數(shù)據(jù)挖掘核心技術(shù)算法之一,有一定的優(yōu)勢。它的特點是基于實例數(shù)據(jù),將大量數(shù)據(jù)有目的地分類,把一個復(fù)雜的問題分成更簡單的問題并重復(fù)使用這一技巧,找出潛在的、對決策有利用價值的信息,決策樹算法多數(shù)情況下應(yīng)用在預(yù)測模型中。如果引用信息論中的說法,就是在選擇決策節(jié)點屬性時,用信息增益來進(jìn)行判定。

所謂決策樹,實際上是一種形象的叫法,它是由決策節(jié)點、分支、葉子和連接線組成,其形狀類似倒長的樹型結(jié)構(gòu)。決策樹的節(jié)點一般用矩形表示,代表一個非類別屬性,每個葉子用橢圓形表示,代表一個類別。矩形和橢圓形的連接線代表一條分支,每條分支代表著這個屬性可能出現(xiàn)的值。每一條從根節(jié)點到葉子節(jié)點的路徑則代表著一條分類規(guī)則。

目前眾多決策樹算法中最為著名的是Quinlan在ID3算法的基礎(chǔ)上進(jìn)行改進(jìn)提出來的C4.5算法。C4.5算法的先進(jìn)性體現(xiàn)在:C4.5算法比ID3算法先進(jìn)的方面在于選擇屬性時采用的是信息增益率去替代信息增益,使得在屬性選擇時不會對取值多的屬性帶有更強(qiáng)的偏向性,所得出的計算結(jié)果更準(zhǔn)確;分析連續(xù)型屬性是C4.5算法又一改進(jìn),并且當(dāng)在樣本集中出現(xiàn)空缺的屬性值時,C4.5算法也能進(jìn)行處理,從而提高結(jié)果的準(zhǔn)確性;C4.5算法能夠直接將連續(xù)值屬性進(jìn)行分割,分別計算信息增益率,并選取結(jié)果當(dāng)中信息增益率最大的分割為屬性標(biāo)準(zhǔn),從而轉(zhuǎn)換為離散的二值屬性,完成對連續(xù)型屬性的離散化處理;C4.5算法在構(gòu)造樹的過程中采用后修剪枝葉的方法,能有效的控制決策樹的高度,同時,相對其他的算法而言C4.5生成的決策樹分枝也有所減少。

為了能使用最小的信息構(gòu)造最為簡單的決策樹,在對訓(xùn)練樣本子集進(jìn)行分類時,在選取當(dāng)前節(jié)點的測試屬性時,就必須把具有最高信息增益的屬性找出來。具體方法如下:

假設(shè)有訓(xùn)練樣本數(shù)據(jù)集S,類別屬性C可以取k個不同的值,將訓(xùn)練樣本數(shù)據(jù)集S分為k個不同的類Ci (i=1,2,……,k),Ri為數(shù)據(jù)集S中屬于Ci類的子集,用ri表示子集Ri中的樣本數(shù)量。

用Pi表示任意樣本屬于類別Ci的概率:,|S|表示集合S中的樣本數(shù)量。樣本集合S的平均不確定性和純度的高低是通過信息熵反映的。如果熵值越小,平均不確定性越低,純度越高。

每個屬性的信息增益率都可以由上述的公式計算出來,這樣集合S的決策樹的根節(jié)點就可以根據(jù)計算出來的信息增益率最高的屬性來確定,并以該屬性作為標(biāo)記屬性,對屬性的每一個值創(chuàng)建分枝,并據(jù)此劃分樣本。

二、數(shù)據(jù)預(yù)處理

(一)數(shù)據(jù)準(zhǔn)備

在本研究中,選擇畢業(yè)生的就業(yè)信息作為研究數(shù)據(jù),通過分析畢業(yè)生在校的學(xué)習(xí)情況、專業(yè)及專業(yè)類別等信息,挖掘出用人單位的行業(yè)性質(zhì)。在進(jìn)行構(gòu)造決策樹時,必須對數(shù)據(jù)進(jìn)行規(guī)格化處理,能保證數(shù)據(jù)的高質(zhì)量和一致性。同時還要對用人單位行業(yè)性質(zhì)的文字描述進(jìn)行量化和對學(xué)習(xí)情況等決策屬性進(jìn)行離散化。

(二)數(shù)據(jù)的轉(zhuǎn)換

在所采集的數(shù)據(jù)中選取4項作為實驗樣本。選取學(xué)習(xí)成績、外語水平、實踐能力、就業(yè)方向構(gòu)成四維向量表。數(shù)據(jù)選擇如下:學(xué)習(xí)成績(CJ)采集學(xué)習(xí)成績的平均值分段劃分為三級,中等(CJ<75),良好(75≤CJ≤85),優(yōu)秀(CJ≥85)。外語水平(WY)劃分為兩級,通過全國英語等級B級,通過全國英語等級四級。實踐能力(SJNL)劃分為三級,優(yōu)秀(實踐能力強(qiáng)),一般(實踐能力一般),差(實踐能力差)。就業(yè)方向(JYFX)劃分四級,國有企業(yè)事業(yè)單位(V),外資企業(yè)(X),私營企業(yè)(Y),自主創(chuàng)業(yè)(Z)。

三、構(gòu)造決策樹

選取決策樣本數(shù)據(jù)集,如表1所示:

第一步,將樣本訓(xùn)練集中的分類標(biāo)志屬性選出來,本例中選擇“就業(yè)方向”作為分類標(biāo)志屬性,而“學(xué)習(xí)成績”“外語水平”“實踐能力”則作為決策樹的決策屬性集。將畢業(yè)生就業(yè)數(shù)據(jù)表中“就業(yè)方向”分為4類:C1、C2、C3、C4分別代表國有企業(yè)事業(yè)單位:V;外資企業(yè):X;私營企業(yè):Y;自主創(chuàng)業(yè):Z。畢業(yè)生就業(yè)數(shù)據(jù)表中的20條記錄構(gòu)建決策樹的樣本集S的20個元組,其中C1、C2、C3、C4類分別對應(yīng)的子集的元組個數(shù)分別為r1=5,r2=5,r3=7,r4=3。要得出每一個決策屬性的信息增益率,那么就要計算S的分類期望信息量:

從信息增益率值可以看出值最大的是“實踐能力”屬性,所以將該屬性定為根節(jié)點構(gòu)建決策樹。

其余的分支點,我們可以通過重復(fù)上述的步驟得出,并生成最終的決策樹,如圖1所示。

根據(jù)決策樹可以直接提取分類規(guī)則:

IF實踐能力=優(yōu)秀+英語水平=四級+學(xué)習(xí)成績=優(yōu)秀THEN就業(yè)類別=X/V。

IF實踐能力=優(yōu)秀+英語水平=B級+學(xué)習(xí)成績=優(yōu)秀或良好THEN就業(yè)類別=V。

IF實踐能力=一般+學(xué)習(xí)成績=良好+英語水平=B級THEN就業(yè)類別=X/Y/Z。

IF實踐能力=一般+學(xué)習(xí)成績=中等+英語水平=B級THEN就業(yè)類別=Y。

IF實踐能力=一般+學(xué)習(xí)成績=優(yōu)秀+英語水平=B級THEN就業(yè)類別=X。

IF實踐能力=差+英語水平=B級+學(xué)習(xí)成績=中等THEN就業(yè)類別=V/Y。

IF實踐能力=差+英語水平=B級+學(xué)習(xí)成績=良好THEN就業(yè)類別=Y/Z。

從上述分類規(guī)則中我們可以發(fā)現(xiàn),不同的能力和水平對于提高學(xué)生就業(yè)層次具有非常微妙的影響,如果全面加強(qiáng)學(xué)生成績的培養(yǎng),則提高畢業(yè)生進(jìn)入國企就業(yè)的數(shù)量;如果重視加強(qiáng)實踐能力和外語水平的雙方面培養(yǎng),則能提高進(jìn)入外企就業(yè)的畢業(yè)生數(shù)量。當(dāng)然我們還可以擴(kuò)大訓(xùn)練樣本集,添加更多的數(shù)據(jù),這樣所構(gòu)建的決策樹能反映數(shù)據(jù)之間更多的內(nèi)在聯(lián)系。

在當(dāng)前復(fù)雜的就業(yè)形勢下,文章提出了對就業(yè)數(shù)據(jù)進(jìn)行挖掘,并建立數(shù)據(jù)挖掘模型,利用C4.5決策樹算法,分析畢業(yè)生就業(yè)信息系統(tǒng)中的數(shù)據(jù)。并在通過算法建立的決策樹模型中,最終得到以就業(yè)類別為屬性的分類規(guī)則,進(jìn)一步分析這些分類規(guī)則,能為學(xué)校的就業(yè)提供分析和決策。如能進(jìn)一步完善基于就業(yè)分析模型決策樹的分類器,將決策樹技術(shù)引入高校學(xué)生就業(yè)信息中,尋求影響學(xué)生就業(yè)的主要因素,最終必將推動高校教育管理的改革與發(fā)展。

【參考文獻(xiàn)】

[1] 張駿,王琴.C4.5算法在研究生就業(yè)信息庫中的應(yīng)用研究[J].信息技術(shù),2009(11)

[2] 雷松澤,郝燕.基于決策樹的就業(yè)數(shù)據(jù)挖掘[J].西安工業(yè)學(xué)院學(xué)報,2005(10)

[3] 邱瑾.決策樹在高職學(xué)生就業(yè)數(shù)據(jù)分析中的應(yīng)用研究 [J].柳州職業(yè)技術(shù)學(xué)院學(xué)報,2012(4)

[4] 利珊.數(shù)據(jù)挖掘在就業(yè)分析中的應(yīng)用[J].蘭州工業(yè)高等專科學(xué)校學(xué)報,2011(8)

[5] 張繼美,桂紅兵.R-C4.5決策樹模型在高職就業(yè)分析中的應(yīng)用[J].電腦知識與技術(shù),2011(7)

[6] 何文秀.數(shù)據(jù)挖掘技術(shù)在高校就業(yè)工作中的應(yīng)用研究[J].現(xiàn)代計算機(jī),2008(3)

[7] 常志玲,王嵐.一種新的決策樹模型在就業(yè)分析中的應(yīng)用[J].計算機(jī)工程與科學(xué),2011(5)

【作者簡介】林 灃(1982- ),男,廣西南寧人,廣西機(jī)電職業(yè)技術(shù)學(xué)院講師,工程師,研究方向:數(shù)據(jù)庫,數(shù)據(jù)挖掘。

(責(zé)編 丁 夢)

猜你喜歡
決策樹學(xué)習(xí)成績類別
一種針對不均衡數(shù)據(jù)集的SVM決策樹算法
名落孫山
決策樹和隨機(jī)森林方法在管理決策中的應(yīng)用
電子制作(2018年16期)2018-09-26 03:27:06
基于決策樹的出租車乘客出行目的識別
服務(wù)類別
新校長(2016年8期)2016-01-10 06:43:59
大學(xué)生學(xué)習(xí)動機(jī)與學(xué)習(xí)成績的相關(guān)研究
人間(2015年21期)2015-03-11 15:24:34
基于肺癌CT的決策樹模型在肺癌診斷中的應(yīng)用
論類別股東會
商事法論集(2014年1期)2014-06-27 01:20:42
中醫(yī)類別全科醫(yī)師培養(yǎng)模式的探討
聚合酶鏈?zhǔn)椒磻?yīng)快速鑒別5種常見肉類別
海门市| 新田县| 迁西县| 祁门县| 海盐县| 应用必备| 黄平县| 云龙县| 广德县| 嘉义市| 三原县| 铁岭县| 柘城县| 马山县| 攀枝花市| 墨竹工卡县| 沈阳市| 崇明县| 东乌珠穆沁旗| 商水县| 镇江市| 台北县| 湘阴县| 多伦县| 安乡县| 沁源县| 易门县| 大同县| 商丘市| 科技| 长垣县| 三江| 慈溪市| 旬阳县| 政和县| 腾冲县| 嘉荫县| 涟源市| 枣阳市| 德化县| 五原县|