国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

數(shù)據(jù)挖掘在高職院校就業(yè)指導(dǎo)中的應(yīng)用研究

2011-03-17 02:47:38陳海宇郭曉偉
關(guān)鍵詞:學(xué)業(yè)成績(jī)決策樹增益

陳海宇,郭曉偉

(羅定職業(yè)技術(shù)學(xué)院電子信息系,羅定 527200)

數(shù)據(jù)挖掘在高職院校就業(yè)指導(dǎo)中的應(yīng)用研究

陳海宇,郭曉偉

(羅定職業(yè)技術(shù)學(xué)院電子信息系,羅定 527200)

提高就業(yè)率是以培養(yǎng)應(yīng)用型人才為宗旨的高職院校重要目標(biāo).將C45算法應(yīng)用于就業(yè)信息統(tǒng)計(jì)分析中,通過(guò)對(duì)就業(yè)數(shù)據(jù)預(yù)處理、就業(yè)決策樹的構(gòu)建和剪枝,從其抽取分類規(guī)則,并指出決定就業(yè)單位類別的決策屬性,得到一些較實(shí)用的預(yù)測(cè)畢業(yè)生就業(yè)動(dòng)態(tài)的規(guī)律,從而更好地服務(wù)于學(xué)生就業(yè)指導(dǎo)工作.

決策樹;數(shù)據(jù)挖掘 ;維度表;規(guī)則

近幾年,各高校的學(xué)生信息庫(kù)逐步建立并得到完善、完整,可以對(duì)這些積累的學(xué)生管理中的數(shù)據(jù)以及通過(guò)技術(shù)實(shí)訓(xùn)、社會(huì)實(shí)踐實(shí)際調(diào)查采集的相關(guān)數(shù)據(jù)進(jìn)行挖掘,使得具有分類的預(yù)知性與離散性的就業(yè)數(shù)據(jù),變成有價(jià)值的知識(shí).利用挖掘的結(jié)果,一方面可以指導(dǎo)在校低年級(jí)學(xué)生的學(xué)習(xí),另一方面可以指導(dǎo)不同類型的畢業(yè)生選擇合適的就業(yè)途徑,提高就業(yè)率.

1 數(shù)據(jù)挖掘與就業(yè)指導(dǎo)工作

數(shù)據(jù)挖掘(Data Mining)是從海量的數(shù)據(jù)中,抽取潛在的、有價(jià)值的規(guī)則或知識(shí)的過(guò)程,其本質(zhì)上是一類深層次的數(shù)據(jù)分析方法[1].

將數(shù)據(jù)挖掘應(yīng)用于高校的就業(yè)工作中,能從眾多的學(xué)生信息庫(kù)、學(xué)生就業(yè)信息庫(kù)中挖掘出學(xué)生就業(yè)的基本規(guī)律,引導(dǎo)教育改革的方向,影響決策者的基本決策.在高等院校中,存在著大量的學(xué)生個(gè)人的教育信息和就業(yè)信息.對(duì)于教育信息,既和教學(xué)相關(guān),如學(xué)業(yè)成績(jī)、外語(yǔ)水平、計(jì)算機(jī)水平、普通話水平、獲獎(jiǎng)情況、實(shí)踐操作能力等,又和非智力因素有關(guān),如學(xué)生的性別、身體狀況、性格特征、心理因素、職業(yè)道德等.畢業(yè)生就業(yè)信息則包括企業(yè)地域、企業(yè)性質(zhì)、職位、行業(yè)、薪資待遇等.利用決策樹數(shù)據(jù)挖掘算法從無(wú)次序、規(guī)律的學(xué)生個(gè)人教育信息和就業(yè)信息中推理出決策樹型的分類規(guī)則,并且該算法具有數(shù)據(jù)分析效率高、直觀易懂的特點(diǎn),更能啟發(fā)相應(yīng)管理者因材施教,增強(qiáng)學(xué)生的綜合競(jìng)爭(zhēng)力,同時(shí)對(duì)畢業(yè)生做一個(gè)有效的就業(yè)指導(dǎo),對(duì)提高學(xué)生的就業(yè)率將會(huì)有事半功倍的效果[2].

把數(shù)據(jù)挖掘技術(shù)應(yīng)用到學(xué)生就業(yè)教育工作中,綜合分析學(xué)生個(gè)人的綜合信息和畢業(yè)后的就業(yè)動(dòng)態(tài),使隱藏在其中的信息外顯.經(jīng)過(guò)對(duì)學(xué)生相關(guān)數(shù)據(jù)進(jìn)行分析,可以顯示:影響學(xué)生就業(yè)的重要教育、個(gè)人因素,以及就業(yè)方向的影響,等每個(gè)教育者都急需知道的問(wèn)題,這是傳統(tǒng)評(píng)價(jià)方法無(wú)法做到的.

2 C45算法原理與決策樹的生成

決策樹是一種常用于預(yù)測(cè)模型的算法,通過(guò)將大量數(shù)據(jù)有目的地分類,從中找到有價(jià)值的、潛在的信息,特別適合大規(guī)模的數(shù)據(jù)處理.其采用自頂向下的方法對(duì)雜亂的學(xué)生綜合信息進(jìn)行決策挖掘,把無(wú)序的數(shù)據(jù)整理成一棵倒掛的樹,從樹根到葉結(jié)點(diǎn)所經(jīng)過(guò)的一條路徑形成一條選取的規(guī)則[3].C45算法是在ID3基礎(chǔ)上發(fā)展起來(lái)的決策樹生成算法,其采用信息增益率作為屬性選擇折度量標(biāo)志,通過(guò)四個(gè)式子對(duì)相關(guān)數(shù)據(jù)進(jìn)行預(yù)處理后,歸納得到?jīng)Q策樹[4].假設(shè)T為事例集合,Ci為事例樣本類標(biāo)號(hào),i=1,2,…m,熵的計(jì)算方法如下式(1)所示.

式一中:freq(Ci T)表示集合 T中屬于類Ci的數(shù)目,|T|表示集合T中的樣本個(gè)數(shù).

若按照非類別屬性X,選取n個(gè)不同值T1,T2,…Tn,產(chǎn)生的決策樹信息量的期望值即條件熵如下式(2).

式中:T是按照屬性X進(jìn)行分區(qū)的集合,|Ti|是基于屬性X的某個(gè)值的子樹中每一類例子的數(shù)目.由此得到對(duì)屬性X作為決策分類屬性的度量值(互信息)即增益大的是要選取的節(jié)點(diǎn),如式(3)所示.

用導(dǎo)致最大信息增益Gain的屬性X作為擴(kuò)展屬性進(jìn)行分枝,信息增益率為GainRatio(X)=Gain(X)/Split(X).C45算法需要對(duì)每個(gè)決策屬性的信息增益率進(jìn)行算,并通過(guò)屬性的每一個(gè)取值建立由樹節(jié)點(diǎn)引出的分枝,生成一棵完全的樹后,要對(duì)決策樹進(jìn)行剪枝策略,刪去最不可靠的樹枝,消除訓(xùn)練集中的噪聲,從而提高分類識(shí)別的速度和數(shù)據(jù)準(zhǔn)確分類的能力.修剪后的決策樹,可以進(jìn)行決策規(guī)則的提取,每條分類規(guī)則都是走一條從根結(jié)點(diǎn)到葉結(jié)點(diǎn)的路徑,用IF-T HEN形式表示[5],路徑上的分支結(jié)點(diǎn)及邊表示相應(yīng)的條件取值,而葉結(jié)點(diǎn)表示由此取值得到的結(jié)論.

3 在就業(yè)指導(dǎo)工作中的應(yīng)用分析

3.1 數(shù)據(jù)準(zhǔn)備和預(yù)處理

采用自頂向下企業(yè)數(shù)據(jù)倉(cāng)庫(kù)可以從總體上把握整個(gè)數(shù)據(jù)倉(cāng)庫(kù)的規(guī)模、粒度的級(jí)別和元數(shù)據(jù)管理,是一種系統(tǒng)的解決方法,并能夠最大限度地減少集成問(wèn)題[6].構(gòu)建星型模式(Star Schema)的數(shù)據(jù)倉(cāng)庫(kù),它通過(guò)使用一個(gè)包含主題的事實(shí)表和多個(gè)包含事實(shí)的非正規(guī)化描述的維度表來(lái)執(zhí)行典型的決策支持查詢,是一種關(guān)系型數(shù)據(jù)庫(kù)結(jié)構(gòu),模式的中間是事實(shí)表,周圍是維度表,數(shù)據(jù)在事實(shí)表中維護(hù),維度數(shù)據(jù)在維度表中維護(hù).每個(gè)維度表通過(guò)一個(gè)關(guān)鍵字(一般情況下為主鍵)與事實(shí)表關(guān)聯(lián)[7].

在C45算法中,采用近三年學(xué)校畢業(yè)生就業(yè)信息情況進(jìn)行分類過(guò)半數(shù)據(jù)作為訓(xùn)練模型,其余的數(shù)據(jù)作為測(cè)試數(shù)據(jù)集用來(lái)測(cè)試模型準(zhǔn)確度,如圖1所示,實(shí)例中使用了學(xué)生就業(yè)統(tǒng)計(jì)表、學(xué)生綜合測(cè)評(píng)表、學(xué)生自然情況表、學(xué)生獎(jiǎng)罰情況表、社會(huì)實(shí)踐情況表等,建立多維數(shù)據(jù)集后,方便在綜合測(cè)評(píng)情況、獲獎(jiǎng)情況、受處分情況、課外實(shí)踐情況下進(jìn)行分析和選擇.

圖1 星型模式的多維數(shù)據(jù)集

學(xué)生就業(yè)統(tǒng)計(jì)表中,包括學(xué)生學(xué)號(hào)、姓名、工作單位等屬性.目的是挖掘出哪些素質(zhì)以及素質(zhì)的水平與哪一種類型工作相關(guān)聯(lián),在學(xué)生綜合測(cè)評(píng)、學(xué)生獲獎(jiǎng)情況表和社會(huì)實(shí)踐情況表中提出若干素質(zhì)項(xiàng),如:學(xué)業(yè)成績(jī)、技能水平(包括外語(yǔ)水平、計(jì)算機(jī)水平、普通話水平,取得資格考證)、實(shí)踐能力、性格特征(包括外向開朗樂(lè)觀有很強(qiáng)的責(zé)任心為優(yōu),外向開朗樂(lè)觀為良,而內(nèi)向沒(méi)責(zé)任感的則為差)等作為決策屬性.對(duì)工作單位屬性進(jìn)行量化,分為三種:學(xué)校(A)、公司企業(yè)(B)、自主創(chuàng)業(yè)(C)等,而每個(gè)工作單位分為三種工作種:中學(xué)教師(A1)、小學(xué)教師(A2)、大型公司企業(yè)(B1)、小型公司企業(yè)(B2)、創(chuàng)辦工廠(C1)、開店鋪(C2)等.

給出如表1所示的本校學(xué)生就業(yè)統(tǒng)計(jì)記錄數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)集,并進(jìn)行分析,從而得出什么行業(yè)、什么層次的就業(yè)條件適合具備什么能力的學(xué)生.教育管理者根據(jù)導(dǎo)出的規(guī)則更好地對(duì)學(xué)生進(jìn)行就業(yè)指導(dǎo)教育;并且以此為依據(jù)進(jìn)行教育教學(xué)的改革與加強(qiáng)具體某專業(yè)的學(xué)生必須進(jìn)行哪些方面技能與實(shí)踐的培養(yǎng),從整體提高學(xué)生就業(yè)層次、學(xué)校的就業(yè)率.

3.2 用C45算法構(gòu)造就業(yè)決策樹

在學(xué)生就業(yè)統(tǒng)計(jì)數(shù)據(jù)中選取屬性:學(xué)業(yè)成績(jī)、技能水平、實(shí)踐能力、性格特征作為決策屬性把工作單作為類別識(shí).科、就業(yè)數(shù)據(jù)訓(xùn)練樣本集S中,共有20個(gè)元組,其中選取A1中學(xué)教師A2小學(xué)教師、B1大型公司企業(yè)、C1創(chuàng)辦工廠四個(gè)類別進(jìn)行分析,該四類所對(duì)應(yīng)的子集中元組個(gè)數(shù)分別為:R1=5、R2=8、R3=3、R4=2,則利用公式計(jì)算集合S分類的期望信息量.

表1 就業(yè)數(shù)據(jù)訓(xùn)練樣本集

然后計(jì)算每一個(gè)決策性的期望信息量(熵值),其中i=1,2,3,4,5,6則對(duì)屬性“學(xué)業(yè)成績(jī)”,當(dāng)學(xué)業(yè)成績(jī)=“優(yōu)”.

屬性“學(xué)業(yè)成績(jī)”的信息增益為:

Gain(學(xué)業(yè)成績(jī))=I(R1,R2,R3,R4)-E(學(xué)業(yè)成績(jī))=1.8164-1.2881=0.5283.

屬性“學(xué)業(yè)成績(jī)”的信息增益率為:Ratio(學(xué)業(yè)成績(jī))=Gain(學(xué)業(yè)成績(jī))/E(學(xué)業(yè)成績(jī))=0.4101

同理計(jì)算得到每一個(gè)決策屬性的信息增益和信息增益率如表2所示.

表2 就業(yè)信息的屬性信息增益和信息增益率

從上表2可知,屬性GainRatio(學(xué)業(yè)成績(jī))=0.4101具有最大的信息增益率值,所以選擇該屬性作為決策樹的根節(jié)點(diǎn)進(jìn)行測(cè)試.重復(fù)上述,生成一棵決策樹,可以采用前修剪方法和后剪枝方法對(duì)其采取剪枝策略,后剪枝方法比較常用,是指輸入為一個(gè)未剪枝的樹T,輸出為剪枝后的決策樹T1,T1是修剪了T中一個(gè)或多個(gè)子樹后獲得的樹.實(shí)質(zhì)是把就業(yè)訓(xùn)練集中的孤立點(diǎn)與噪聲消除,經(jīng)過(guò)修剪后得到的就業(yè)決策樹的屬性如圖2所示.

決策樹圖2中,通過(guò)訓(xùn)練集得到?jīng)Q策樹分類模型對(duì)新數(shù)據(jù)進(jìn)行分類,可以比較容易地對(duì)學(xué)生就業(yè)的動(dòng)態(tài)進(jìn)行判斷,從圖中可以看出,專業(yè)成績(jī)是學(xué)生就業(yè)方向中的關(guān)鍵,其次是技能水平.

3.3 決策樹中提取規(guī)則知識(shí)

修剪后的決策樹,對(duì)其根到葉子結(jié)點(diǎn)的每條路徑創(chuàng)建一個(gè)規(guī)則,以IF-THEN形式的分類規(guī)則描述.由決策樹提取的分類規(guī)則沿著其給定路徑上的每個(gè)屬性和屬性像關(guān)聯(lián)值形成規(guī)則條件IF的一個(gè)合取項(xiàng),則葉結(jié)點(diǎn)包含類預(yù)測(cè),形成結(jié)論 THEN部分.關(guān)鍵的第一層次單位類別,就業(yè)決策樹中只提取A1、A2、B1、C1類的規(guī)則,從圖2中可提出對(duì)應(yīng)規(guī)則:

圖2 修剪后的就業(yè)決策樹

規(guī)則1 if學(xué)業(yè)成績(jī)=“優(yōu)”and技能水平=“一級(jí)”then在各地中學(xué)就業(yè);

規(guī)則2 if技能水平=“二級(jí)以上”and性格特征=“優(yōu)、良”then在大型公司企業(yè)就業(yè);

規(guī)則3 if實(shí)踐能力=“強(qiáng)”and專業(yè)成績(jī)=“良”then自主創(chuàng)業(yè);

規(guī)則4 if技能水平=“一級(jí)”and性格特征=“差”then在各地小學(xué)就業(yè);

根據(jù)以上規(guī)則可以知道,如果要提學(xué)生各類別的就業(yè)層次,對(duì)于三種不同類型的就業(yè)單位,要求有差別.若是教育類專業(yè)學(xué)生想提高就業(yè)層次需要加強(qiáng)專業(yè)素質(zhì)培養(yǎng),還需增強(qiáng)技能水平的訓(xùn)練;對(duì)于非教育類學(xué)生,若外語(yǔ)專業(yè)學(xué)生則需要加強(qiáng)計(jì)算機(jī)和其它技能的培養(yǎng),若計(jì)算機(jī)專業(yè)學(xué)生則需加強(qiáng)提高外語(yǔ)水平.實(shí)質(zhì)上對(duì)于以大型公司與企業(yè)為就業(yè)目標(biāo)的學(xué)生來(lái)說(shuō),需加強(qiáng)綜合技能水平和實(shí)踐能力的培養(yǎng);如果是進(jìn)行自主創(chuàng)業(yè)的學(xué)生,則需要有更強(qiáng)的實(shí)踐能力,也需要一定的知識(shí)支持,才能取得創(chuàng)業(yè)的成功.

4 結(jié) 論

決策樹是數(shù)據(jù)挖掘中的一個(gè)常用的算法工具,而C45算法是數(shù)據(jù)挖掘中的核心算法,在ID3基礎(chǔ)上改進(jìn)而生成的,適用范圍比較廣,構(gòu)造簡(jiǎn)單、能正確分類、頻率較高的決策樹算法.根據(jù)就業(yè)數(shù)據(jù)具有分類的預(yù)知性與離散性的特點(diǎn),選擇決策樹C45算法通過(guò)數(shù)據(jù)轉(zhuǎn)換與預(yù)處理,參數(shù)和類選定,構(gòu)造和修剪決策樹,建構(gòu)成就業(yè)決策樹,生成分規(guī)則后,完成分類數(shù)據(jù)挖掘,為供決策者提供決策幫助.經(jīng)過(guò)實(shí)驗(yàn),效果較好,在今后的學(xué)習(xí)中,將考慮更完善地對(duì)其它屬性如院校的知名度、所學(xué)專業(yè)、學(xué)生的職業(yè)道德、應(yīng)聘技巧等進(jìn)行深入研究,給以教師更多的就業(yè)指導(dǎo)提示,學(xué)生就業(yè)方向的選擇.

[1]毛國(guó)君,段立娟,王 實(shí),等,數(shù)據(jù)挖掘原理與算法[M].北京:清華大學(xué)出版社,2006.

[2]馬秀紅,宋建社,董晟飛.數(shù)據(jù)挖掘中決策樹的探討[J].計(jì)算機(jī)工程與應(yīng)用,2004,40(1):185.

[3]楊學(xué)兵,張 俊.決策樹算法及其核心技術(shù)[J].計(jì)算機(jī)技術(shù)與發(fā)展,2007,17(1):20-22.

[4]李 楠,段隆振,陳 萌.決策樹C45算法在數(shù)據(jù)挖掘中的分析及其應(yīng)用[J].計(jì)算機(jī)與現(xiàn)代化,2008,160(12).

[5]Han J.Datamining Techniques[R].Canada Montreal Proe 1996 ACM-SIGMOD Int Conf on Management of Data,1996.

[6]王曙燕,耿國(guó)華,周明全.數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘技術(shù)的研究與應(yīng)用[J].計(jì)算機(jī)應(yīng)用研究,2005,(9):194-195,205.

[7]黎 婭,郭江娜.決策樹的剪枝策略研究[J].河南科學(xué),2009,27(3):320-323.

The Application of Data Mining in Higher Vocational Career Guidance

CHEN Hai-yu,GUO Xiao-wei

(Electronic Information Department,Luoding Vocational Technical College,Luoding 527200,China)

T o raise the employment rate is the important goal of vocational colleges whose purpose is to train practical talents.C45 algorithm is applied to the statistical analysis of employment information through the pre-employment data,employment,decision tree construction and pruning,its classification rule extraction.The decision attributes of employment unit category are decided and some of the more practical graduate employment laws are predicted to better serve the student employment guidance.

decision tree;data mining;dimension table;rule

TE258;T P183

A

1671-119X(2011)02-0056-04

2011-01-11

陳海宇(1978-),女,碩士,講師,研究方向:計(jì)算機(jī)應(yīng)用、軟件工程.

猜你喜歡
學(xué)業(yè)成績(jī)決策樹增益
基于回歸分析模型的學(xué)生學(xué)業(yè)成績(jī)差異研究
基于增益調(diào)度與光滑切換的傾轉(zhuǎn)旋翼機(jī)最優(yōu)控制
基于單片機(jī)的程控增益放大器設(shè)計(jì)
電子制作(2019年19期)2019-11-23 08:41:36
一種針對(duì)不均衡數(shù)據(jù)集的SVM決策樹算法
基于Multisim10和AD603的程控增益放大器仿真研究
電子制作(2018年19期)2018-11-14 02:37:02
決策樹和隨機(jī)森林方法在管理決策中的應(yīng)用
電子制作(2018年16期)2018-09-26 03:27:06
基于決策樹的出租車乘客出行目的識(shí)別
學(xué)業(yè)成績(jī)與習(xí)得性無(wú)助:有調(diào)節(jié)的中介效應(yīng)
大學(xué)生上網(wǎng)情況與學(xué)業(yè)成績(jī)關(guān)系的實(shí)證研究
基于肺癌CT的決策樹模型在肺癌診斷中的應(yīng)用
文安县| 德保县| 阿瓦提县| 洱源县| 宜宾县| 大安市| 麻城市| 科技| 铁力市| 隆昌县| 芮城县| 闵行区| 通山县| 天峨县| 大竹县| 福贡县| 元谋县| 天等县| 宜丰县| 连平县| 台前县| 邳州市| 高碑店市| 合江县| 鸡东县| 元江| 筠连县| 抚松县| 普安县| 张家口市| 怀集县| 恭城| 盖州市| 年辖:市辖区| 棋牌| 丹阳市| 惠州市| 施秉县| 仁寿县| 九江市| 定襄县|