国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

決策樹在就業(yè)數(shù)據(jù)分析中的應用

2019-08-21 01:17彭少芬
大經(jīng)貿(mào) 2019年6期
關鍵詞:信息熵決策樹

彭少芬

【摘 要】 在就業(yè)中,有許多因素決定著你最終就業(yè)單位的性質(zhì)。為了能有效的分析就業(yè)因素的具體影響,在這里采用決策樹算法,先利用信息熵和各個屬性的信息增益找到劃分點,依次類推直至屬性無法再劃分,在進行分析。

【關鍵詞】 決策樹 ID3算法 信息熵 信息增益

1.前 言

自各大高校對于研究生進行擴招以來,畢業(yè)生數(shù)量急劇攀升。就業(yè)競爭越來越大,就業(yè)問題也日益突出,必須解決,否則不僅影響到學生的本身利益,也會影響到經(jīng)濟和社會的可持續(xù)發(fā)展,學校一般都建立了學生管理系統(tǒng),保存有大量的學生就業(yè)歷史數(shù)據(jù),我們通過分析這些數(shù)據(jù),從中找出影響就業(yè)的主要因素。從而為各大高校和學生就業(yè)培養(yǎng)提供有效建議。

2.決策樹算法

決策樹學習的目的是產(chǎn)生一棵泛化能力強,即處理未知樣本能力強的決策樹。決策樹屬性劃分原則是希望隨著劃分過程的進行,決策樹的分支結點所包含的樣本盡可能屬于同一類別,即結點的純度越來越高。

構造樹的步驟:

訓練樣本的信息值。

第一棵樹,屬性,各葉節(jié)點的信息值。

第一棵樹,屬性,導致的信息增益。

依次,計算每棵樹導致的信息增益。

選擇獲得最大信息增益的屬性進行劃分。

以此類推,遞歸,繼續(xù)劃分

當所有葉節(jié)點都是純的,劃分過程終止

屬性停止劃分條件:

當前結點所包含的樣本屬于同一類,無需劃分。

當前屬性集為空,或所有樣本在所有屬性上取值相同,無法劃分

當前結點包含的樣本集合為空,不能劃分。

3.決策樹算法的實際運用

3.1相關數(shù)據(jù)及說明

我們找到最能影響就業(yè)的主要因素有:專業(yè)成績,政治面貌,獎勵情況,社會實踐經(jīng)驗、科研能力。在這里將就業(yè)單位作為決策變量。

就業(yè)單位分為企業(yè)和事業(yè)單位。

專業(yè)成績?nèi)∑骄?,成績低?0分為差,60-80分為一般,80分以上為優(yōu)良。

獎勵情況分為三個等級,多(獲得多次科研或?qū)W習等相關獎學金),少(獲得少數(shù)獎項),無(沒有獲得過任何獎項)。

科研能力分為兩個等級,優(yōu)秀(發(fā)表過多篇文章等),少(發(fā)表少量文章等)

社會實踐經(jīng)驗分為三個等級,多(在外實習次數(shù)多等)、少(偶爾在校做小項目),無(無任何實習經(jīng)驗)。

隨機抽取了某班10個畢業(yè)研究生就業(yè)信息情況并對數(shù)據(jù)做了處理得到下表:

3.2訓練樣本的信息值(基于類的劃分)

訓練樣本(用來創(chuàng)建樹的數(shù)據(jù)集)在包含4個事業(yè)單位和6個企業(yè)的根節(jié)點上,對應于信息熵為:

3.3屬性信息增益值

然后,我們要計算出當前4個屬性的每個屬性的信息增益值,用“專業(yè)成績”劃分之后所獲得的三個分支節(jié)點的信息熵為:

于是根據(jù)公式算出屬性“專業(yè)成績”的信息增益為:

類似的,我們可計算出其他三個屬性的信息增益:

顯然,屬性“科研能力”的信息增益最大,于是它被選為劃分屬性,下圖是基于“科研能力”對根節(jié)點進行劃分的結果,各分支結點所包含的樣例子集顯示在結點中。

然后,決策樹學習算法將對每個分支結點做進一步劃分,以上圖科研能力少的樣例集合為例,里面有{甲,乙,戊,己,庚,葵}6個樣例,可用屬性集合為{專業(yè)成績,獎勵情況,社會實踐經(jīng)驗}?;诳蒲心芰ι儆嬎愠龈鲗傩缘男畔⒃鲆?。首先算出專業(yè)成績的信息增益。

基于科研能力少的專業(yè)成績信息熵:

所以可算出基于科研能力少的專業(yè)成績信息增益為:

同理,我們可計算出其他屬性基于科研能力少的信息增益。

3.4決策樹的生成

“專業(yè)成績”取得了最大的信息增益,可選專業(yè)成績作為劃分屬性。類似的,對每個分直節(jié)點進行上述操作,最終得到的決策樹如下圖所示。

3.5結論

從上面的決策樹我們可以看出,科研能力優(yōu)秀的人基本都進了事業(yè)單位,因為事業(yè)單位比較注重科研能力,專業(yè)成績對就業(yè)單位也有影響,專業(yè)成績差和一般的更多進入企業(yè),社會經(jīng)驗豐富的學生進企業(yè)的多。學生要是畢業(yè)后更傾向于進入事業(yè)單位,應側(cè)重加強專業(yè)素養(yǎng)和科研能力的培養(yǎng),如果要是想到企業(yè)發(fā)展,應多多側(cè)重專業(yè)成績,好好學習專業(yè)知識,側(cè)重社會實踐經(jīng)驗的培養(yǎng),學??梢愿鶕?jù)學生的傾向制定相應的培養(yǎng)方案,提高就業(yè)率。

4.結語

在目前就業(yè)形勢嚴峻的環(huán)境下,本文提出了基于ID3算法來構造決策樹的方法。實驗表明,該算法所構造的決策樹結構簡單、更加準確使用,而且具有較高的可理解性。具有很好的實際利用價值。為我們作出最終決策和制定有效措施提供了非常有利的參考依據(jù)。

【參考文獻】

[1] 安瑞鈺,郝琪,基于ID3決策樹算法的學科競賽參賽學生選拔——以天津農(nóng)學院數(shù)學建模競賽為例[J].信息與電腦(理論版).2019,(11),24-25.

[2] 韓松來,張輝,周華平.基于關聯(lián)度函數(shù)的決策樹分類算法[J].計算機應用,2005(11):2655-2657.

[3] 王子京,劉毓,決策樹ID3新屬性選擇方法[J].現(xiàn)代電子技術.2018,41(23),9-12.

猜你喜歡
信息熵決策樹
基于信息熵可信度的測試點選擇方法研究
一種針對不均衡數(shù)據(jù)集的SVM決策樹算法
基于小波奇異信息熵的10kV供電系統(tǒng)故障選線研究與仿真
決策樹和隨機森林方法在管理決策中的應用
基于改進決策樹的故障診斷方法研究
基于信息熵的實驗教學量化研究
一種基于信息熵的雷達動態(tài)自適應選擇跟蹤方法
基于決策樹的出租車乘客出行目的識別
基于決策樹的復雜電網(wǎng)多諧波源監(jiān)管
基于信息熵的IITFN多屬性決策方法