童 冰
?
數(shù)據(jù)挖掘在學(xué)生就業(yè)指導(dǎo)中的應(yīng)用
童 冰
(漳州職業(yè)技術(shù)學(xué)院 計(jì)算機(jī)工程系,福建 漳州 363000)
通過數(shù)據(jù)挖掘技術(shù)分析與學(xué)生就業(yè)相關(guān)的因素,能夠?yàn)閷W(xué)生就業(yè)指導(dǎo)工作提供指導(dǎo)依據(jù)。本文探討了數(shù)據(jù)挖掘技術(shù)在學(xué)生就業(yè)指導(dǎo)中的應(yīng)用。
數(shù)據(jù)挖掘;學(xué)生就業(yè)指導(dǎo);數(shù)據(jù)預(yù)處理;頻繁項(xiàng)挖掘
在學(xué)生工作管理中,學(xué)生就業(yè)指導(dǎo)是一個(gè)非常重要的方面。如何對(duì)學(xué)生就業(yè)進(jìn)行有效的指導(dǎo),是當(dāng)前高等院校面臨的一個(gè)重要課題。就業(yè)指導(dǎo)人員可以通過本系統(tǒng)對(duì)漳州職業(yè)技術(shù)學(xué)院往屆畢業(yè)生相關(guān)數(shù)據(jù)進(jìn)行挖掘,獲得一些有指導(dǎo)意義的信息,并且根據(jù)這些信息有針對(duì)性地對(duì)學(xué)生進(jìn)行就業(yè)指導(dǎo)。舉個(gè)例子,假如我們從以往的畢業(yè)生的相關(guān)數(shù)據(jù)中挖掘出某專業(yè)的學(xué)生去某地就業(yè)機(jī)率高而且薪酬不錯(cuò),我們就可以根據(jù)這個(gè)信息,有針對(duì)性地組織學(xué)校的該專業(yè)學(xué)生去該地找工作,這樣就大大減少了就業(yè)的盲目性,節(jié)約了找工作的成本并提高了就業(yè)率。
學(xué)生就業(yè)是學(xué)生工作的重要組成部分,有必要對(duì)影響學(xué)生就業(yè)的相關(guān)因素進(jìn)行量化分析,這為學(xué)生工作者在就業(yè)指導(dǎo)方面提供數(shù)據(jù),也能為學(xué)校管理者在招生和專業(yè)設(shè)置等方面提供決策依據(jù)。
基于以上的需求分析,與學(xué)生就業(yè)相關(guān)的數(shù)據(jù)挖掘如下:a)挖掘?qū)W生源地信息與學(xué)生就業(yè)率的關(guān)聯(lián)關(guān)系;b)挖掘?qū)W生的性別與就業(yè)情況的關(guān)聯(lián)關(guān)系;c)挖掘?qū)W生成績(jī)與學(xué)生就業(yè)情況的關(guān)聯(lián)關(guān)系;d)挖掘?qū)W生考勤與就業(yè)情況的關(guān)聯(lián)關(guān)系。
圖1 學(xué)生就業(yè)指導(dǎo)系統(tǒng)數(shù)據(jù)庫建模
(1)學(xué)生基本情況表
表1 學(xué)生基本情況表(Student)
(2)學(xué)生課程表
表2 學(xué)生課程表(Course)
(3)學(xué)生成績(jī)表
表3 學(xué)生成績(jī)表(SelCourse)
(4)學(xué)生就業(yè)情況表
表4 學(xué)生就業(yè)情況表(Work)
(5)學(xué)生考勤表
表5 學(xué)生考勤表(Kaoqing)
本系統(tǒng)的頁面表示層功能采用基于.NET技術(shù)的ASP. NET來完成,以SQL server 2005作為后臺(tái)數(shù)據(jù)庫服務(wù)器。在系統(tǒng)中設(shè)置學(xué)生就業(yè)統(tǒng)計(jì)分析功能:點(diǎn)擊“學(xué)生就業(yè)統(tǒng)計(jì)分析”功能按鈕,將出現(xiàn)下拉列表,列表內(nèi)容如下:
a)挖掘?qū)W生源地信息與學(xué)生就業(yè)率的關(guān)聯(lián)關(guān)系;b)挖掘?qū)W生的性別與就業(yè)情況的關(guān)聯(lián)關(guān)系;c)挖掘?qū)W生成績(jī)與學(xué)生就業(yè)情況的關(guān)聯(lián)關(guān)系;d)挖掘?qū)W生考勤與就業(yè)情況的關(guān)聯(lián)關(guān)系。
當(dāng)選擇上述列表a項(xiàng)時(shí),將出現(xiàn)條件選擇界面,在兩個(gè)下拉列表框中分別選擇年級(jí)(可選擇某屆畢業(yè)生或所有歷屆的畢業(yè)生)和專業(yè)后,點(diǎn)擊確定按鈕,將列出所有符合條件的學(xué)生生源地與學(xué)生就業(yè)率統(tǒng)計(jì)數(shù)據(jù)的關(guān)聯(lián)關(guān)系的列表。
當(dāng)選擇上述列表b項(xiàng)時(shí),將出現(xiàn)條件選擇界面,在兩個(gè)下拉列表框中分別選擇年級(jí)(可選擇某屆畢業(yè)生或所有歷屆的畢業(yè)生)和專業(yè)后,點(diǎn)擊確定按鈕,將列出所有符合條件的學(xué)生性別與學(xué)生的就業(yè)情況的關(guān)聯(lián)關(guān)系的列表。
當(dāng)選擇上述列表c項(xiàng)時(shí),將出現(xiàn)條件選擇界面,在兩個(gè)下拉列表框中分別選擇年級(jí)(可選擇某屆畢業(yè)生或所有歷屆的畢業(yè)生)和專業(yè)后,點(diǎn)擊確定按鈕,將列出所有符合條件的學(xué)生成績(jī)與學(xué)生就業(yè)情況的關(guān)聯(lián)關(guān)系的列表。
當(dāng)選擇上述列表d項(xiàng)時(shí),將出現(xiàn)條件選擇界面,在兩個(gè)下拉列表框中分別選擇年級(jí)(可選擇某屆畢業(yè)生或所有歷屆的畢業(yè)生)和專業(yè)后,點(diǎn)擊確定按鈕,將列出所有符合條件的學(xué)生考勤與就業(yè)情況的關(guān)聯(lián)關(guān)系的列表。
根據(jù)學(xué)生就業(yè)管理的需求分析,結(jié)合數(shù)據(jù)挖掘的專業(yè)知識(shí),這個(gè)模塊的共分為數(shù)據(jù)預(yù)處理,頻繁項(xiàng)挖掘,關(guān)聯(lián)規(guī)則分析三個(gè)部分。如圖2所示。
從前面的數(shù)據(jù)設(shè)計(jì)來看,該子系統(tǒng)存在5個(gè)數(shù)據(jù)表。由于就業(yè)信息跟學(xué)生的其他信息是分布在不同的數(shù)據(jù)表中的,如果不進(jìn)行處理,就無法對(duì)其進(jìn)行挖掘。如果我們要挖掘?qū)W生的生源地跟學(xué)生就業(yè)信息的關(guān)聯(lián)就必須先使用結(jié)構(gòu)化查詢語言把學(xué)生的基本情況表跟學(xué)生就業(yè)情況表先進(jìn)行連接,生成一個(gè)新的數(shù)據(jù)庫表。數(shù)據(jù)預(yù)處理流程如圖3所示。
圖2 學(xué)生就業(yè)指導(dǎo)系統(tǒng)模塊組成
圖3 數(shù)據(jù)預(yù)處理流程
頻繁項(xiàng)挖掘的方法有很多,在實(shí)現(xiàn)的過程采用了時(shí)間和空間效率較高FP-growth算法進(jìn)行挖掘。它的基本思想是: 首先將數(shù)據(jù)庫中的所有頻繁項(xiàng)集壓縮到一顆頻繁模式樹(FP-Tree),但仍保留項(xiàng)集關(guān)聯(lián)信息,然后以長(zhǎng)度為1的頻繁項(xiàng)為基礎(chǔ),形成條件模式基,挖掘出包含該長(zhǎng)度為1的頻繁項(xiàng)所有頻繁模式項(xiàng)。整個(gè)算法的實(shí)現(xiàn)過程如下:
(1)掃描整個(gè)數(shù)據(jù)庫,統(tǒng)計(jì)得到所有長(zhǎng)度為1的頻繁項(xiàng)的支持?jǐn)?shù),然后按支持?jǐn)?shù)的降序?qū)﹂L(zhǎng)度為1的頻繁項(xiàng)進(jìn)行排序。
(2)將數(shù)據(jù)表中的每一條記錄當(dāng)作一個(gè)數(shù)據(jù)挖掘的一個(gè)事務(wù),將再對(duì)每個(gè)事務(wù)中的每個(gè)數(shù)據(jù)項(xiàng)按第(1)步里的順序進(jìn)行排序。
(3)再將上面排序好的事務(wù)更新到FP-tree上,F(xiàn)P-tree 結(jié)構(gòu)如下:
a.它由一棵根節(jié)點(diǎn)為null 的和一系列代表頻繁項(xiàng)的節(jié)點(diǎn)構(gòu)成的樹, 以及一個(gè)數(shù)據(jù)項(xiàng)頭表組成。
b.樹上的節(jié)點(diǎn)都包含三個(gè)屬性: 項(xiàng)名(item_name), 計(jì)數(shù)器(count), 以及節(jié)點(diǎn)鏈(node_link)。其中, 項(xiàng)名是指該節(jié)點(diǎn)所代表的項(xiàng); 計(jì)數(shù)器用于記錄經(jīng)過此節(jié)點(diǎn)的事務(wù)的數(shù)目;節(jié)點(diǎn)鏈指向具有相同項(xiàng)名的下一個(gè)節(jié)點(diǎn), 如果沒有下一個(gè)節(jié)點(diǎn)就為空。
c. 在數(shù)據(jù)項(xiàng)頭表中的每一個(gè)條目由兩個(gè)域組成, 即項(xiàng)名(item_name)和節(jié)點(diǎn)鏈頭, 其中節(jié)點(diǎn)鏈頭指向FP-Tree樹中具有相同項(xiàng)名的節(jié)點(diǎn)鏈中第一個(gè)節(jié)點(diǎn)。
(4)根據(jù)FP-tree挖掘得到頻繁項(xiàng)。整個(gè)過程如下: 首先從數(shù)據(jù)項(xiàng)頭表中找出每個(gè)長(zhǎng)度為1 的頻繁模式,在通過FP-tree構(gòu)造它的條件模式基, ,然后構(gòu)造它的(條件) FP-tree ,并遞歸地對(duì)該樹進(jìn)行挖掘。
該過程的流程圖如圖4所示。
關(guān)聯(lián)規(guī)則分析的流程圖如圖5所示。
圖4 頻繁項(xiàng)挖掘處理流程
圖5 關(guān)聯(lián)規(guī)則分析的流程圖
本文以開發(fā)學(xué)生就業(yè)指導(dǎo)系統(tǒng)為例,闡述了數(shù)據(jù)挖掘技術(shù)在學(xué)生就業(yè)指導(dǎo)中的應(yīng)用。表明將數(shù)據(jù)挖掘技術(shù)應(yīng)用在高校信息化建設(shè)的各個(gè)方面具有參考意義與實(shí)用價(jià)值。
[1]鄧納姆(Dunham,M.H.),郭崇慧,田鳳占,靳曉明.數(shù)據(jù)挖掘教程[M].北京:清華大學(xué)出版社,2005.
[2]蘇新寧,等.數(shù)據(jù)倉庫和數(shù)據(jù)挖掘[M].北京:清華大學(xué)出版社,2006.
Implementation of Data Mining in Employment Guidance
TONG Bing
(Computer Department of Zhangzhou Institute of Technology, Zhangzhou 363000,China)
The factors related to graduates’ employment analyzed by data mining technique give the basis for graduates’ employment guidance. The article is about how data mining technique work in graduates’ employment guidance.
data mining, employment guidance;data preprocessing;mining of frequent items
2010-07-20
童冰(1979-),女,浙江嵊州人,助教,華中科技大學(xué)在職碩士研究生,研究方向:計(jì)算機(jī)應(yīng)用技術(shù)。
TP274
B
1673-1417(2010)03-0011-06