鐘靜 羅南超
摘要:文章使用八爪魚采集器在智聯(lián)招聘網(wǎng)上采集了成都范圍內(nèi)有關(guān)計(jì)算機(jī)科學(xué)與技術(shù)專業(yè)工作招聘的技能要求,通過數(shù)據(jù)預(yù)處理、關(guān)聯(lián)規(guī)則來處理采集到的大量數(shù)據(jù),挖掘出各職位和對(duì)應(yīng)能力要求之間的關(guān)聯(lián)程度,以便此專業(yè)學(xué)生找工作時(shí)了解自己應(yīng)該掌握的技能側(cè)重點(diǎn)以及學(xué)校對(duì)工作單位所需要的人才的技能進(jìn)行有針對(duì)性的培養(yǎng)。
關(guān)鍵詞:招聘信息;文本挖掘;關(guān)聯(lián)規(guī)則
中圖分類號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2019)06-0001-02
目前很多高校呈現(xiàn)出培養(yǎng)的畢業(yè)生掌握的技能和企業(yè)所需要的人才掌握的技能無法匹配,導(dǎo)致大量大學(xué)生畢業(yè)卻無法和企業(yè)招聘條件接軌,沒有實(shí)際操作能力只能去各種技術(shù)補(bǔ)習(xí)機(jī)構(gòu)培訓(xùn)后才能找到心儀的工作,企業(yè)也無法快速找到和自己需求匹配的畢業(yè)生們。我們各個(gè)高??梢詮倪@些招聘信息中提煉出自己學(xué)校有關(guān)專業(yè)的就業(yè)崗位的用人需求,設(shè)置對(duì)口的專業(yè)課程,以此來為用人單位培養(yǎng)對(duì)口人才;同時(shí)也解決了企業(yè)難以找到對(duì)口畢業(yè)生的難題。本文對(duì)“智聯(lián)招聘”成都地區(qū)計(jì)算機(jī)科學(xué)與技術(shù)專業(yè)相關(guān)工作崗位的招聘信息進(jìn)行了挖掘,并且提煉出這些崗位招聘信息里面出現(xiàn)頻率較高的技能做了統(tǒng)計(jì),以便學(xué)校為本專業(yè)的學(xué)生設(shè)置合適的課程。
1數(shù)據(jù)挖掘處理
1.1數(shù)據(jù)來源
本文利用八爪魚采集器于2017年12月對(duì)智聯(lián)招聘網(wǎng)近一個(gè)月成都范圍內(nèi)各工作崗位對(duì)計(jì)算機(jī)科學(xué)與技術(shù)專業(yè)人才所需要掌握的技能等各方面進(jìn)行采集,總共得到招聘信息11205條,其中每條招聘信息包括職位名稱、能力要求、知識(shí)要求等內(nèi)容,通過數(shù)據(jù)庫(kù)函數(shù)對(duì)數(shù)據(jù)進(jìn)行去重處理,最終得到8248條可用數(shù)據(jù)。
1.2數(shù)據(jù)預(yù)處理[1]
采集的數(shù)據(jù)中包含大量文本信息,所以通過數(shù)據(jù)庫(kù)函數(shù)對(duì)這些文本進(jìn)行數(shù)據(jù)預(yù)處理。
1.2.1 循環(huán)刪除,避免日志文件暴增
循環(huán)刪除的偽代碼如下,該方法仍有一些局限性,耗時(shí)過長(zhǎng),并且會(huì)長(zhǎng)期使數(shù)據(jù)庫(kù)處于簡(jiǎn)單恢復(fù)模式下:
--ALTER DATABASE database_name SET RECOVERY SIMPLE ; while @index<@EndIndex begin delete table_name where index<=@index; set @index+=@Increment end
1.2.2 將數(shù)據(jù)插入到臨時(shí)表中,把原表drop
把原始表中的數(shù)據(jù)通過select語句篩選出來,然后批量插入導(dǎo)新表中,這種方式利用了大容量日志(Bulk Logged)操作的優(yōu)勢(shì)。由于 SELECT INTO,INSERT SELECT 是大容量日志操作,select命令不會(huì)產(chǎn)生大量日志文件,因此,執(zhí)行插入比執(zhí)行刪除的效率更高。最后,執(zhí)行drop命令,刪除整個(gè)原始表,幾乎不消耗任何時(shí)間。
--ALTER DATABASE database_name SET RECOVERY BULK_LOGGED ; insert into new_table select column_list from original_table where filter_retain drop table original_table
把臨時(shí)表重命名,執(zhí)行 sp_rename 或手動(dòng)重命名,其中 @objtype 參數(shù)是可選的,默認(rèn)值是NULL,對(duì)表重命名,設(shè)置參數(shù) @objtype='object':
sp_rename [ @objname = ] 'object_name' , [ @newname = ] 'new_name' [ , [ @objtype = ] 'object_type' ]
1.2.3 對(duì)分區(qū)表執(zhí)行分區(qū)轉(zhuǎn)移操作
SQL Server的分區(qū)表實(shí)際上是一系列物理上獨(dú)立存儲(chǔ)的“表”(也叫分區(qū))構(gòu)成的。被剝離的分區(qū),通過drop命令刪除,這種方法,耗時(shí)最短,資源消耗最小,效率最高。
alter table original_table SWITCH PARTITION source_partition_number TO temporary_table drop table temporary_table
1.3應(yīng)用關(guān)聯(lián)規(guī)則處理數(shù)據(jù)
2結(jié)語
綜合數(shù)據(jù)采集及關(guān)聯(lián)規(guī)則的結(jié)果,我們可以找到計(jì)算機(jī)科學(xué)與技術(shù)專業(yè)學(xué)生畢業(yè)后在成都范圍內(nèi)就職崗位的用人需求,這樣有助于同學(xué)們根據(jù)自己畢業(yè)后理想的工作崗位進(jìn)行課程的重點(diǎn)學(xué)習(xí),也有助于學(xué)院根據(jù)此結(jié)果對(duì)課程設(shè)置進(jìn)行調(diào)整以適應(yīng)社會(huì)用人單位需求。而且文章較文獻(xiàn)[5]具有更強(qiáng)的針對(duì)性,具體落實(shí)到某一個(gè)專業(yè),而不是參雜了很多其他應(yīng)用例子,給讀者直截了當(dāng)?shù)挠∠蟆_@個(gè)基于Web招聘信息的計(jì)算機(jī)科學(xué)與技術(shù)專業(yè)人才技能需求挖掘成功后,不僅針對(duì)計(jì)算機(jī)科學(xué)與技術(shù)這個(gè)專業(yè),或者成都這個(gè)范圍內(nèi)的工作崗位用人需求,也可以針對(duì)其他專業(yè)以及全國(guó)各地的工作崗位用人需求,以解決現(xiàn)存的這個(gè)產(chǎn)出和需求對(duì)接不上的嚴(yán)峻問題。在各個(gè)高校的“產(chǎn)出”與工作單位的“需求”的對(duì)接工作上可以起到很好的銜接作用。
參考文獻(xiàn):
[1] 悅光陰.大數(shù)據(jù)操作刪除去重.http://www.cnblogs.com/ljhdo/
[2] 劉暢.基于Web文本挖掘的數(shù)據(jù)分析崗位需求研究[J].中國(guó)管理信息化,2018,21(10):76-79.
[3] 李玉潔,楊威.淺析行動(dòng)導(dǎo)向教學(xué)法中數(shù)據(jù)挖掘的應(yīng)用[J].知識(shí)經(jīng)濟(jì),2016(11):97.
[4] 王小玉,王亞東,馮麗.關(guān)聯(lián)規(guī)則的挖掘[J].信息技術(shù),2003(1):55-57.
[5] 鐘曉旭.基于Web招聘信息的文本挖掘系統(tǒng)研究[D].合肥:合肥工業(yè)大學(xué),2010.
.