国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

數(shù)據(jù)挖掘技術(shù)在學(xué)生信息管理系統(tǒng)中應(yīng)用研究

2014-02-17 02:08李慶梅
電腦知識與技術(shù) 2014年2期
關(guān)鍵詞:決策樹增益數(shù)據(jù)挖掘

李慶梅

摘要:該文的主要工作是針對我校目前各部門、各院系學(xué)生信息沒有被有效的集成、不能被很好的共享這一現(xiàn)狀,開發(fā)一個適應(yīng)我校新形勢下的學(xué)生管理信息系統(tǒng)。該系統(tǒng)是一個面向用戶、面向網(wǎng)絡(luò)數(shù)據(jù)管理的信息數(shù)據(jù)管理系統(tǒng),利用數(shù)據(jù)庫管理設(shè)計軟件實現(xiàn)學(xué)生的信息管理,使對學(xué)生信息的管理更加容易、提高工作效率、降低管理成本。利用數(shù)據(jù)挖掘技術(shù)提高學(xué)院學(xué)生信息管理系統(tǒng)的智能決策功能,對學(xué)生畢業(yè)就業(yè)指導(dǎo)工作給以幫助和支持,取得了明顯的效果。

關(guān)鍵詞:數(shù)據(jù)挖掘技術(shù);學(xué)生信息管理;決策樹;C4.5

中圖分類號:TP311 文獻標識碼:A 文章編號:1009-3044(2014)02-0241-03

新疆高職院校的辦學(xué)層次較多,有成人???、本科、普通??啤⒈究?,脫產(chǎn)1—2年的教師進修培訓(xùn)等,學(xué)生的年歷、民族、學(xué)歷等成分復(fù)雜。學(xué)院從2009年建立了教務(wù)管理對學(xué)生學(xué)籍、成績等基本信息進行了收集整理和統(tǒng)計,使教學(xué)管理不再是冗雜的數(shù)據(jù),而是按照系統(tǒng)進行性操作得到的一條條記錄,使復(fù)雜管理程序簡單化、信息化,提高了教學(xué)管理的效率和工作質(zhì)量。但在學(xué)生管理方面,學(xué)院采取班級月考核制和操行分學(xué)生綜合評價制度,大多通過手工計分、評分,學(xué)生信息數(shù)據(jù)沒有得到有效充分的利用,在數(shù)據(jù)管理應(yīng)用到學(xué)生日常管理、在校表現(xiàn)評價方面還是個空白。為了做好學(xué)生管理工作,有效的利用現(xiàn)有資源,是學(xué)生管理工作科學(xué)化、規(guī)范化、程序化,促進提高信息處理的速度、正確性。在現(xiàn)有的教務(wù)系統(tǒng)上,整理學(xué)生信息,理清日常學(xué)生管理工作流程流向,使其清晰化、合理化,較早的時間發(fā)現(xiàn)學(xué)生管理存在的問題,解決問題,提高學(xué)生管理工作水平,增強對學(xué)生管理工作的預(yù)見性,依據(jù)數(shù)據(jù)分析,提高了管理效率。

1 數(shù)據(jù)挖掘

1.1決策樹算法

決策樹算法是數(shù)據(jù)挖掘中較常用的一種預(yù)測模型的算法,它對數(shù)據(jù)自動分類從而構(gòu)造樹形結(jié)構(gòu)模型,對決策樹進行分類。它采用信息增益的概念,以確定信息的理論為前提,在最大的信息量的數(shù)據(jù)庫中的字段決定樹中的一個節(jié)點創(chuàng)建,開始節(jié)點是一個結(jié)構(gòu)的根節(jié)點,根據(jù)字段的不同的值進行樹枝的分支。在樹分支的過程中,每個分支中的子集交界處重復(fù)構(gòu)建下一層分支。決策樹已成為常用的分類工具之一,它是將一個訓(xùn)練文件分成一組通用規(guī)則的技術(shù),因為它是在圖模型樹結(jié)構(gòu)的基礎(chǔ)上構(gòu)建,因此,更容易讓人理解。實例實例的集合可以分支成兩個或兩個以上的子集,子集數(shù)的底線是根據(jù)測試結(jié)果來確定,可構(gòu)建所有可能分支的子集。決策樹分類的數(shù)據(jù)可以在兩個階段,構(gòu)建樹和修剪樹。首先,訓(xùn)練數(shù)據(jù)來測試函數(shù)生成不同的值進行比較分析,選擇的一個分支,每個分支繼續(xù)構(gòu)建下一層的節(jié)點和分支,最終創(chuàng)建一個決策樹,然后進行修剪樹枝的過程,把決定樹轉(zhuǎn)換為分類規(guī)則。決策樹算法中最基本的算法是ID3算法,隨后又在ID3的基礎(chǔ)上進行改進,開發(fā)了C4.5,C5.0,SLIQ,SPRINT等算法。決策樹算法的優(yōu)點有容易學(xué)習(xí),便于使用,分類速度較快,精度較高,適用于大規(guī)模的數(shù)據(jù)處理和知識發(fā)現(xiàn)系統(tǒng)中。

1.2 數(shù)據(jù)挖掘的步驟

數(shù)據(jù)挖掘是復(fù)雜的多個步驟相互連接多階段進行數(shù)據(jù)傳輸?shù)倪^程。這些工作包括以下四個階段。首先是對挖掘?qū)ο筮x擇,其次對數(shù)據(jù)進行預(yù)處理,再次進行數(shù)據(jù)挖掘,最后對數(shù)據(jù)挖掘出的規(guī)則進行分析和取舍。下面對數(shù)據(jù)挖掘過程進行具體說明:

1.2.1選擇挖掘?qū)ο?/p>

這個階段的主要目標是以確定它是否符合數(shù)據(jù)挖掘的需要,達到解決客戶提出的問題的要求,理清哪些數(shù)據(jù)需要來自客戶,盡可能多渠道的獲取支持數(shù)據(jù)挖掘的數(shù)據(jù)源,最后,確定挖掘?qū)ο?,預(yù)測評估數(shù)據(jù)挖掘的結(jié)果。

1.2.2 數(shù)據(jù)預(yù)處理

這一階段主要是合理的構(gòu)建數(shù)據(jù)庫的結(jié)構(gòu)、內(nèi)容等,為數(shù)據(jù)挖掘提供高質(zhì)量的數(shù)據(jù)輸入。它包括數(shù)據(jù)選擇、數(shù)據(jù)預(yù)處理和數(shù)據(jù)轉(zhuǎn)換階段。數(shù)據(jù)選擇階段主要工作室將多個文件或多個數(shù)據(jù)庫中的原始數(shù)據(jù)進行合并和處理,設(shè)計者理解、獲取數(shù)據(jù)信息的相關(guān)知識,搜集和選取數(shù)據(jù)挖掘的目標數(shù)據(jù),建立數(shù)據(jù)倉庫。數(shù)據(jù)預(yù)處理階段是要整合與查核數(shù)據(jù),其主要任務(wù)是對數(shù)據(jù)進行清洗充實等,清理錯誤、去除噪聲和與挖掘目標無關(guān)的數(shù)據(jù),清除空白數(shù)據(jù)域和重復(fù)記錄,使數(shù)據(jù)符合挖掘的要求,為下一步分析做準備。數(shù)據(jù)轉(zhuǎn)換階段的主要任務(wù)是對數(shù)據(jù)不同格式數(shù)據(jù)轉(zhuǎn)換和各種數(shù)據(jù)的統(tǒng)一匯總,將數(shù)據(jù)進行編碼,從數(shù)據(jù)庫中不同的字段屬性轉(zhuǎn)換成編碼形式,方便搜索。

1.2.3實際數(shù)據(jù)挖掘工作

這一階段是數(shù)據(jù)挖掘過程的重要階段,它主要任務(wù)是開發(fā)模型與假設(shè),采用各種挖掘方法和挖掘模式對數(shù)據(jù)進行處理,發(fā)現(xiàn)潛在的、有用的規(guī)則等。它包括如何產(chǎn)生假設(shè),選擇合適的方法,挖掘知識的操作以及驗證發(fā)現(xiàn)的知識。

1.2.4結(jié)果分析與表示

這一階段屬于總結(jié)收尾階段,主要工作就讓客戶從數(shù)據(jù)挖掘提取出知識進行評價分析,把最需要的、最有價值的信息總結(jié)歸納,測試模型并檢測數(shù)據(jù)挖掘結(jié)果,利用數(shù)據(jù)挖掘獲得的知識來解決最初客戶所提出的問題。最后,解釋與使用數(shù)據(jù)模型,利用各種可視化技術(shù)再現(xiàn)結(jié)構(gòu)使之更容易方便客戶使用。

2 C4.5算法

C4.5算法采用了信息增益率作為對選擇分支屬性,當計算出每個屬性增益率后,進行比較,選擇最大的屬性作為分支決策屬性,通過每一個取值建立節(jié)點。信息增益率表示了有分支產(chǎn)生的有用的信息的比率,因此這個值越大,分支包含的有用信息越多。事實說明,采用信息增益率比采用信息增益更好,它有效的解決了ID3算法選擇取值多的屬性作為測試屬性的問題。

C4.5算法的整個過程是遞歸過程,停止于沒有新的節(jié)點出現(xiàn)為止。C4.5算法不僅可以處理連續(xù)數(shù)值的屬性,而且可以對定性屬性實現(xiàn)一次分裂,對定量屬性進行多次分裂,當數(shù)據(jù)缺失時,用表示缺失值。當進行測試節(jié)點時,可以刪除節(jié)點的多余參數(shù)。據(jù)于以上功能,C4.5算法具有簡單、高效,結(jié)果可靠等優(yōu)點。

3 依據(jù)C4.5算法構(gòu)造學(xué)生就業(yè)信息分析模型

3.1分析目的

本課題收集了2008級維、漢、哈三種語系的畢業(yè)生數(shù)據(jù),提取畢業(yè)生數(shù)據(jù)庫,因此分院的畢業(yè)生去向在南北疆及烏魯木齊本地,比較具有代表性。以此數(shù)據(jù)作為訓(xùn)練實例數(shù)據(jù)集,具有普遍的意義。旨在構(gòu)建一個學(xué)生就業(yè)信息數(shù)據(jù)分析模型,找出影響學(xué)生就業(yè)去向的關(guān)鍵因素,并用于預(yù)測。

3.2數(shù)據(jù)處理

本課題抽取2008級畢業(yè)生的人文科學(xué)分院語文教育專業(yè)的學(xué)生成績信息,畢業(yè)信息和學(xué)籍信息。針對這些信息進行了數(shù)據(jù)清理、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)加載的功能編程設(shè)計。從畢業(yè)生數(shù)據(jù)庫中提取的基本信息表中,有少數(shù)學(xué)生已經(jīng)退學(xué)或轉(zhuǎn)專業(yè)以及中途參軍入伍的學(xué)生信息將從列表中去除。使用SQL server2008的Analysis Services服務(wù)器建立多維數(shù)據(jù)表。七個維度分別是外漢語成績、專業(yè)課成績、實踐能力、是否學(xué)生干部、單位性質(zhì)。外漢語成績大于等于85為優(yōu)秀,介于60至85之間為合格,小于60為不合格。專業(yè)課成績大于85為優(yōu)秀,小于85為一般,教師口語、計算機基礎(chǔ)、見習(xí)等列為實踐能力成績,大于85為優(yōu)秀,小于85為一般。

將工作單位單位性質(zhì)分為五類:教育機構(gòu)包括中小學(xué)、幼兒園和培訓(xùn)中心的就業(yè)的學(xué)生,單位性質(zhì)編碼39;企業(yè)公司包括自主創(chuàng)業(yè)擇業(yè)的學(xué)生,單位性質(zhì)編碼70;暫緩就業(yè)包括專升本或者成人本科的學(xué)生,單位性質(zhì)編碼為71;特崗教師包括考取地州縣教師崗位的學(xué)生,單位性質(zhì)編碼為50;公職人員包括考取公務(wù)員的學(xué)生,單位性質(zhì)編碼為51。

3.3數(shù)據(jù)分類

根據(jù)決策樹算法的信息增益理論,設(shè)計數(shù)據(jù)挖掘分析器,分析計算得出就業(yè)實例集增益值得柱形圖。此頁面可以對決策樹的算法進行選擇,并且對提取的就業(yè)實例集的數(shù)據(jù)根據(jù)信息增益率的計算公式進行分析計算,在分析圖表中顯示民族、性別、外漢語水平、專業(yè)成績、實踐能力各個屬性的增益率,并用柱形圖進行表示。選出最大屬性的增益率后,復(fù)位后,重新計算下一個節(jié)點屬性增益率的計算,只到遇到所有屬性的增益率全部計算完畢停止計算。

由于屬性“專業(yè)水平”具有最大信息增值率值,故而選擇該屬性作為決策樹的根節(jié)點。對于每一個分枝,重復(fù)上述步驟。

3.4生成分類規(guī)則

數(shù)據(jù)挖掘分析器得出分類規(guī)則:

1) IF專業(yè)成績=優(yōu)秀+外漢語成績=優(yōu)秀+實踐能力=優(yōu)秀+民族=民THEN就業(yè)單位=50

2)IF專業(yè)成績=優(yōu)秀+外漢語成績=優(yōu)秀+實踐能力=一般THEN就業(yè)單位=71

3) IF專業(yè)成績=優(yōu)秀+外漢語成績=合格+實踐能力=優(yōu)秀+民族=漢 THEN就業(yè)單位=39

4) IF專業(yè)成績=一般+外漢語成績=合格+實踐能力=一般 THEN就業(yè)單位=70

5) IF專業(yè)成績=優(yōu)秀+外漢語成績=優(yōu)秀+實踐能力=一般+民族=漢THEN就業(yè)單位=51

6) IF專業(yè)成績=優(yōu)秀+外漢語成績=優(yōu)秀+實踐能力=優(yōu)秀+民族=漢THEN就業(yè)單位=71

3.5情況分析及建議

有(1)說明專業(yè)素質(zhì)好,外漢語水平高,實踐能力強的少數(shù)民族考取特崗的教師的可能性大。由(2)可知我校畢業(yè)學(xué)生學(xué)歷為??茖哟危谛F陂g專業(yè)成績和外漢語成績較好的學(xué)生都會通過復(fù)習(xí)通過專升本或成人高考提高學(xué)歷。由(3)可知實踐能力強的學(xué)生適合教育機構(gòu)的需要,符合我校面向小學(xué)、學(xué)前教育培養(yǎng)教師的目標。另外,漢語水平相對較好的少數(shù)民族畢業(yè)生就業(yè)機會較大。在校期間少數(shù)民族學(xué)生如果擔任學(xué)生干部,漢語水平相對較高。

由就業(yè)決策樹圖可知:專業(yè)成績、外漢語成績和實踐能力是大學(xué)生提高就業(yè)率的重要因素,每一類就業(yè)單位都需要實踐能力強的畢業(yè)生。

綜上所述,提出兩點建議:

1) 加強實踐教學(xué)技能課程的設(shè)置。

2) 重視外漢語的教學(xué),提高教學(xué)質(zhì)量。

4 結(jié)論

本系統(tǒng)使用dephi2000和SQL server 2008開發(fā),SQL server在開發(fā)數(shù)據(jù)庫方面具有強大的功能,dephi能方便快捷的進行B/S模式下學(xué)生信息管理系統(tǒng)的界面和功能開發(fā),用它實現(xiàn)數(shù)據(jù)庫離散化,C4.5算法生成決策樹以及分類規(guī)則,提供學(xué)生就業(yè)指導(dǎo)決策服務(wù)。

參考文獻:

[1] 劉幸東.高校學(xué)生就業(yè)信息的決策支持系統(tǒng)的應(yīng)用研究[D].廣州:中山大學(xué),2006.

[2] 李海瓊.數(shù)據(jù)挖掘技術(shù)在遼寧大學(xué)就業(yè)輔助決策分析系統(tǒng)中的研究與應(yīng)用[D].沈陽:沈陽工業(yè)大學(xué),2009.

[3] 劉鵬,姚正,尹俊杰.一種有效的C4.5改進模型[J].清華大學(xué)學(xué)報,2006(46):996-997.

[4] 劉佳,王新偉.一種改進的C4.5算法及實驗分析[J].計算機應(yīng)用與軟件,2008(12):260-262.

3 依據(jù)C4.5算法構(gòu)造學(xué)生就業(yè)信息分析模型

3.1分析目的

本課題收集了2008級維、漢、哈三種語系的畢業(yè)生數(shù)據(jù),提取畢業(yè)生數(shù)據(jù)庫,因此分院的畢業(yè)生去向在南北疆及烏魯木齊本地,比較具有代表性。以此數(shù)據(jù)作為訓(xùn)練實例數(shù)據(jù)集,具有普遍的意義。旨在構(gòu)建一個學(xué)生就業(yè)信息數(shù)據(jù)分析模型,找出影響學(xué)生就業(yè)去向的關(guān)鍵因素,并用于預(yù)測。

3.2數(shù)據(jù)處理

本課題抽取2008級畢業(yè)生的人文科學(xué)分院語文教育專業(yè)的學(xué)生成績信息,畢業(yè)信息和學(xué)籍信息。針對這些信息進行了數(shù)據(jù)清理、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)加載的功能編程設(shè)計。從畢業(yè)生數(shù)據(jù)庫中提取的基本信息表中,有少數(shù)學(xué)生已經(jīng)退學(xué)或轉(zhuǎn)專業(yè)以及中途參軍入伍的學(xué)生信息將從列表中去除。使用SQL server2008的Analysis Services服務(wù)器建立多維數(shù)據(jù)表。七個維度分別是外漢語成績、專業(yè)課成績、實踐能力、是否學(xué)生干部、單位性質(zhì)。外漢語成績大于等于85為優(yōu)秀,介于60至85之間為合格,小于60為不合格。專業(yè)課成績大于85為優(yōu)秀,小于85為一般,教師口語、計算機基礎(chǔ)、見習(xí)等列為實踐能力成績,大于85為優(yōu)秀,小于85為一般。

將工作單位單位性質(zhì)分為五類:教育機構(gòu)包括中小學(xué)、幼兒園和培訓(xùn)中心的就業(yè)的學(xué)生,單位性質(zhì)編碼39;企業(yè)公司包括自主創(chuàng)業(yè)擇業(yè)的學(xué)生,單位性質(zhì)編碼70;暫緩就業(yè)包括專升本或者成人本科的學(xué)生,單位性質(zhì)編碼為71;特崗教師包括考取地州縣教師崗位的學(xué)生,單位性質(zhì)編碼為50;公職人員包括考取公務(wù)員的學(xué)生,單位性質(zhì)編碼為51。

3.3數(shù)據(jù)分類

根據(jù)決策樹算法的信息增益理論,設(shè)計數(shù)據(jù)挖掘分析器,分析計算得出就業(yè)實例集增益值得柱形圖。此頁面可以對決策樹的算法進行選擇,并且對提取的就業(yè)實例集的數(shù)據(jù)根據(jù)信息增益率的計算公式進行分析計算,在分析圖表中顯示民族、性別、外漢語水平、專業(yè)成績、實踐能力各個屬性的增益率,并用柱形圖進行表示。選出最大屬性的增益率后,復(fù)位后,重新計算下一個節(jié)點屬性增益率的計算,只到遇到所有屬性的增益率全部計算完畢停止計算。

由于屬性“專業(yè)水平”具有最大信息增值率值,故而選擇該屬性作為決策樹的根節(jié)點。對于每一個分枝,重復(fù)上述步驟。

3.4生成分類規(guī)則

數(shù)據(jù)挖掘分析器得出分類規(guī)則:

1) IF專業(yè)成績=優(yōu)秀+外漢語成績=優(yōu)秀+實踐能力=優(yōu)秀+民族=民THEN就業(yè)單位=50

2)IF專業(yè)成績=優(yōu)秀+外漢語成績=優(yōu)秀+實踐能力=一般THEN就業(yè)單位=71

3) IF專業(yè)成績=優(yōu)秀+外漢語成績=合格+實踐能力=優(yōu)秀+民族=漢 THEN就業(yè)單位=39

4) IF專業(yè)成績=一般+外漢語成績=合格+實踐能力=一般 THEN就業(yè)單位=70

5) IF專業(yè)成績=優(yōu)秀+外漢語成績=優(yōu)秀+實踐能力=一般+民族=漢THEN就業(yè)單位=51

6) IF專業(yè)成績=優(yōu)秀+外漢語成績=優(yōu)秀+實踐能力=優(yōu)秀+民族=漢THEN就業(yè)單位=71

3.5情況分析及建議

有(1)說明專業(yè)素質(zhì)好,外漢語水平高,實踐能力強的少數(shù)民族考取特崗的教師的可能性大。由(2)可知我校畢業(yè)學(xué)生學(xué)歷為??茖哟危谛F陂g專業(yè)成績和外漢語成績較好的學(xué)生都會通過復(fù)習(xí)通過專升本或成人高考提高學(xué)歷。由(3)可知實踐能力強的學(xué)生適合教育機構(gòu)的需要,符合我校面向小學(xué)、學(xué)前教育培養(yǎng)教師的目標。另外,漢語水平相對較好的少數(shù)民族畢業(yè)生就業(yè)機會較大。在校期間少數(shù)民族學(xué)生如果擔任學(xué)生干部,漢語水平相對較高。

由就業(yè)決策樹圖可知:專業(yè)成績、外漢語成績和實踐能力是大學(xué)生提高就業(yè)率的重要因素,每一類就業(yè)單位都需要實踐能力強的畢業(yè)生。

綜上所述,提出兩點建議:

1) 加強實踐教學(xué)技能課程的設(shè)置。

2) 重視外漢語的教學(xué),提高教學(xué)質(zhì)量。

4 結(jié)論

本系統(tǒng)使用dephi2000和SQL server 2008開發(fā),SQL server在開發(fā)數(shù)據(jù)庫方面具有強大的功能,dephi能方便快捷的進行B/S模式下學(xué)生信息管理系統(tǒng)的界面和功能開發(fā),用它實現(xiàn)數(shù)據(jù)庫離散化,C4.5算法生成決策樹以及分類規(guī)則,提供學(xué)生就業(yè)指導(dǎo)決策服務(wù)。

參考文獻:

[1] 劉幸東.高校學(xué)生就業(yè)信息的決策支持系統(tǒng)的應(yīng)用研究[D].廣州:中山大學(xué),2006.

[2] 李海瓊.數(shù)據(jù)挖掘技術(shù)在遼寧大學(xué)就業(yè)輔助決策分析系統(tǒng)中的研究與應(yīng)用[D].沈陽:沈陽工業(yè)大學(xué),2009.

[3] 劉鵬,姚正,尹俊杰.一種有效的C4.5改進模型[J].清華大學(xué)學(xué)報,2006(46):996-997.

[4] 劉佳,王新偉.一種改進的C4.5算法及實驗分析[J].計算機應(yīng)用與軟件,2008(12):260-262.

3 依據(jù)C4.5算法構(gòu)造學(xué)生就業(yè)信息分析模型

3.1分析目的

本課題收集了2008級維、漢、哈三種語系的畢業(yè)生數(shù)據(jù),提取畢業(yè)生數(shù)據(jù)庫,因此分院的畢業(yè)生去向在南北疆及烏魯木齊本地,比較具有代表性。以此數(shù)據(jù)作為訓(xùn)練實例數(shù)據(jù)集,具有普遍的意義。旨在構(gòu)建一個學(xué)生就業(yè)信息數(shù)據(jù)分析模型,找出影響學(xué)生就業(yè)去向的關(guān)鍵因素,并用于預(yù)測。

3.2數(shù)據(jù)處理

本課題抽取2008級畢業(yè)生的人文科學(xué)分院語文教育專業(yè)的學(xué)生成績信息,畢業(yè)信息和學(xué)籍信息。針對這些信息進行了數(shù)據(jù)清理、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)加載的功能編程設(shè)計。從畢業(yè)生數(shù)據(jù)庫中提取的基本信息表中,有少數(shù)學(xué)生已經(jīng)退學(xué)或轉(zhuǎn)專業(yè)以及中途參軍入伍的學(xué)生信息將從列表中去除。使用SQL server2008的Analysis Services服務(wù)器建立多維數(shù)據(jù)表。七個維度分別是外漢語成績、專業(yè)課成績、實踐能力、是否學(xué)生干部、單位性質(zhì)。外漢語成績大于等于85為優(yōu)秀,介于60至85之間為合格,小于60為不合格。專業(yè)課成績大于85為優(yōu)秀,小于85為一般,教師口語、計算機基礎(chǔ)、見習(xí)等列為實踐能力成績,大于85為優(yōu)秀,小于85為一般。

將工作單位單位性質(zhì)分為五類:教育機構(gòu)包括中小學(xué)、幼兒園和培訓(xùn)中心的就業(yè)的學(xué)生,單位性質(zhì)編碼39;企業(yè)公司包括自主創(chuàng)業(yè)擇業(yè)的學(xué)生,單位性質(zhì)編碼70;暫緩就業(yè)包括專升本或者成人本科的學(xué)生,單位性質(zhì)編碼為71;特崗教師包括考取地州縣教師崗位的學(xué)生,單位性質(zhì)編碼為50;公職人員包括考取公務(wù)員的學(xué)生,單位性質(zhì)編碼為51。

3.3數(shù)據(jù)分類

根據(jù)決策樹算法的信息增益理論,設(shè)計數(shù)據(jù)挖掘分析器,分析計算得出就業(yè)實例集增益值得柱形圖。此頁面可以對決策樹的算法進行選擇,并且對提取的就業(yè)實例集的數(shù)據(jù)根據(jù)信息增益率的計算公式進行分析計算,在分析圖表中顯示民族、性別、外漢語水平、專業(yè)成績、實踐能力各個屬性的增益率,并用柱形圖進行表示。選出最大屬性的增益率后,復(fù)位后,重新計算下一個節(jié)點屬性增益率的計算,只到遇到所有屬性的增益率全部計算完畢停止計算。

由于屬性“專業(yè)水平”具有最大信息增值率值,故而選擇該屬性作為決策樹的根節(jié)點。對于每一個分枝,重復(fù)上述步驟。

3.4生成分類規(guī)則

數(shù)據(jù)挖掘分析器得出分類規(guī)則:

1) IF專業(yè)成績=優(yōu)秀+外漢語成績=優(yōu)秀+實踐能力=優(yōu)秀+民族=民THEN就業(yè)單位=50

2)IF專業(yè)成績=優(yōu)秀+外漢語成績=優(yōu)秀+實踐能力=一般THEN就業(yè)單位=71

3) IF專業(yè)成績=優(yōu)秀+外漢語成績=合格+實踐能力=優(yōu)秀+民族=漢 THEN就業(yè)單位=39

4) IF專業(yè)成績=一般+外漢語成績=合格+實踐能力=一般 THEN就業(yè)單位=70

5) IF專業(yè)成績=優(yōu)秀+外漢語成績=優(yōu)秀+實踐能力=一般+民族=漢THEN就業(yè)單位=51

6) IF專業(yè)成績=優(yōu)秀+外漢語成績=優(yōu)秀+實踐能力=優(yōu)秀+民族=漢THEN就業(yè)單位=71

3.5情況分析及建議

有(1)說明專業(yè)素質(zhì)好,外漢語水平高,實踐能力強的少數(shù)民族考取特崗的教師的可能性大。由(2)可知我校畢業(yè)學(xué)生學(xué)歷為??茖哟?,在校期間專業(yè)成績和外漢語成績較好的學(xué)生都會通過復(fù)習(xí)通過專升本或成人高考提高學(xué)歷。由(3)可知實踐能力強的學(xué)生適合教育機構(gòu)的需要,符合我校面向小學(xué)、學(xué)前教育培養(yǎng)教師的目標。另外,漢語水平相對較好的少數(shù)民族畢業(yè)生就業(yè)機會較大。在校期間少數(shù)民族學(xué)生如果擔任學(xué)生干部,漢語水平相對較高。

由就業(yè)決策樹圖可知:專業(yè)成績、外漢語成績和實踐能力是大學(xué)生提高就業(yè)率的重要因素,每一類就業(yè)單位都需要實踐能力強的畢業(yè)生。

綜上所述,提出兩點建議:

1) 加強實踐教學(xué)技能課程的設(shè)置。

2) 重視外漢語的教學(xué),提高教學(xué)質(zhì)量。

4 結(jié)論

本系統(tǒng)使用dephi2000和SQL server 2008開發(fā),SQL server在開發(fā)數(shù)據(jù)庫方面具有強大的功能,dephi能方便快捷的進行B/S模式下學(xué)生信息管理系統(tǒng)的界面和功能開發(fā),用它實現(xiàn)數(shù)據(jù)庫離散化,C4.5算法生成決策樹以及分類規(guī)則,提供學(xué)生就業(yè)指導(dǎo)決策服務(wù)。

參考文獻:

[1] 劉幸東.高校學(xué)生就業(yè)信息的決策支持系統(tǒng)的應(yīng)用研究[D].廣州:中山大學(xué),2006.

[2] 李海瓊.數(shù)據(jù)挖掘技術(shù)在遼寧大學(xué)就業(yè)輔助決策分析系統(tǒng)中的研究與應(yīng)用[D].沈陽:沈陽工業(yè)大學(xué),2009.

[3] 劉鵬,姚正,尹俊杰.一種有效的C4.5改進模型[J].清華大學(xué)學(xué)報,2006(46):996-997.

[4] 劉佳,王新偉.一種改進的C4.5算法及實驗分析[J].計算機應(yīng)用與軟件,2008(12):260-262.

猜你喜歡
決策樹增益數(shù)據(jù)挖掘
基于增益調(diào)度與光滑切換的傾轉(zhuǎn)旋翼機最優(yōu)控制
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
基于單片機的程控增益放大器設(shè)計
一種針對不均衡數(shù)據(jù)集的SVM決策樹算法
基于Multisim10和AD603的程控增益放大器仿真研究
決策樹和隨機森林方法在管理決策中的應(yīng)用
基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
基于決策樹的出租車乘客出行目的識別
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
基于肺癌CT的決策樹模型在肺癌診斷中的應(yīng)用
高州市| 米林县| 马公市| 东乌珠穆沁旗| 枞阳县| 博客| 远安县| 石景山区| 仁化县| 晴隆县| 寿光市| 格尔木市| 启东市| 二连浩特市| 马龙县| 蒲城县| 平利县| 离岛区| 长兴县| 长乐市| 呼伦贝尔市| 海宁市| 保定市| 丰镇市| 普定县| 四川省| 清丰县| 财经| 河源市| 吉水县| 遵化市| 赣州市| 鲜城| 金阳县| 海伦市| 通渭县| 阳西县| 会同县| 璧山县| 眉山市| 南漳县|