国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于Hadoop 平臺(tái)的招聘數(shù)據(jù)分析

2019-08-12 03:43武曉軍陳怡丹趙青杉
現(xiàn)代計(jì)算機(jī) 2019年19期
關(guān)鍵詞:分詞薪資矩陣

武曉軍,陳怡丹,趙青杉

(1.忻州師范學(xué)院計(jì)算機(jī)系,忻州034000;2.河南廣播電視大學(xué)信息工程學(xué)院,鄭州450008)

0 引言

隨著互聯(lián)網(wǎng)的快速發(fā)展,大量的人才招聘信息發(fā)布到互聯(lián)網(wǎng)上,形成了大量的具有異構(gòu)性的非結(jié)構(gòu)化數(shù)據(jù)。對(duì)這些數(shù)據(jù)做有效的分析對(duì)行業(yè)的發(fā)展具有一定的引導(dǎo)作用。非結(jié)構(gòu)化數(shù)據(jù)在數(shù)據(jù)處理階段具有一定的困難,大量數(shù)據(jù)在分析階段具有分析能力的不足,性能不足等缺點(diǎn)。文獻(xiàn)[1]就3 個(gè)招聘平臺(tái)數(shù)據(jù)近8 萬條計(jì)算機(jī)行業(yè)招聘數(shù)據(jù)進(jìn)行聚類分析,并統(tǒng)計(jì)每一種崗位的市場需求,并計(jì)算出與崗位相關(guān)的其他維度信息的相關(guān)系數(shù)。文獻(xiàn)[2]就4 個(gè)招聘網(wǎng)站數(shù)據(jù)進(jìn)行分析,對(duì)招聘信息采用二維隱馬爾科夫模型進(jìn)行分割,得到招聘信息中崗位、企業(yè)名稱、企業(yè)類型等關(guān)鍵詞。文獻(xiàn)[3]對(duì)爬取的50 萬條數(shù)據(jù)進(jìn)行分析,通過數(shù)據(jù)預(yù)處理、特征詞選取、詞袋構(gòu)造,利用奇異值分解法(SVD)對(duì)文本矩陣降維,利用聚類算法挖掘行業(yè)信息。文獻(xiàn)[4]利用Hadoop 平臺(tái)進(jìn)行網(wǎng)絡(luò)輿情數(shù)據(jù)分析。文獻(xiàn)[5]利用Hadoop 平臺(tái)對(duì)葡萄酒數(shù)據(jù)信息進(jìn)行分析,文獻(xiàn)[6]基于Hadoop 平臺(tái)對(duì)商業(yè)銀行數(shù)據(jù)進(jìn)行分析。Hadoop技術(shù)逐步成為比較完整的分析技術(shù),針對(duì)傳統(tǒng)數(shù)據(jù)分析的計(jì)算能力弱,并行性低等問題,提出了基于Hadoop平臺(tái)的招聘數(shù)據(jù)分析與研究,對(duì)近2000 萬條計(jì)算機(jī)行業(yè)招聘數(shù)據(jù)進(jìn)行分析。

1 相關(guān)技術(shù)

1.1 HDFS分布式文件系統(tǒng)

HDFS 文件系統(tǒng)采用了主從架構(gòu),由一個(gè)主節(jié)點(diǎn)和部分?jǐn)?shù)據(jù)節(jié)點(diǎn)組成。主節(jié)點(diǎn)主要負(fù)責(zé)文件系統(tǒng)中數(shù)據(jù)元的存儲(chǔ)管理工作,具體包括存儲(chǔ)地址的選擇、命名空間及各節(jié)點(diǎn)的訪問權(quán)限和各數(shù)據(jù)塊間的關(guān)系等。數(shù)據(jù)節(jié)點(diǎn)負(fù)責(zé)具體數(shù)據(jù)塊的存儲(chǔ)于管理工作。具體包括數(shù)據(jù)塊的創(chuàng)建,數(shù)據(jù)的讀寫以及向主節(jié)點(diǎn)反饋信息。當(dāng)需要存儲(chǔ)的數(shù)據(jù)文件較大時(shí),HDFS 會(huì)將文件數(shù)據(jù)分割為獨(dú)立的數(shù)據(jù)塊,由主節(jié)點(diǎn)主導(dǎo),將數(shù)據(jù)塊發(fā)送到數(shù)據(jù)節(jié)點(diǎn)中并存儲(chǔ),各數(shù)據(jù)節(jié)點(diǎn)種數(shù)據(jù)塊的儲(chǔ)信息存儲(chǔ)則保存在主節(jié)點(diǎn)中。主節(jié)點(diǎn)負(fù)責(zé)調(diào)用執(zhí)行數(shù)據(jù)節(jié)點(diǎn),數(shù)據(jù)節(jié)點(diǎn)不定期將更新的數(shù)據(jù)反饋給主節(jié)點(diǎn)。

1.2 MapReduce編程模型

MapReduce 執(zhí)行過程包含兩個(gè)階段,Map 階段與Reduce 階段[7],Map 為映射階段,Reduce 為歸約階段。首先由主節(jié)點(diǎn)輸入文件,執(zhí)行Split 操作,再執(zhí)行Map操作將文件解析為<key,value>格式,并將中間數(shù)據(jù)存入節(jié)點(diǎn)的緩存空間,定期存寫入本地磁盤且被劃分為R 個(gè)區(qū),每個(gè)區(qū)對(duì)應(yīng)于一個(gè)Reduce 作業(yè),執(zhí)行Reduce操作前可對(duì)分區(qū)數(shù)據(jù)進(jìn)行排序以及合并。所有數(shù)據(jù)均來自底層文件系統(tǒng),執(zhí)行過程產(chǎn)生的臨時(shí)數(shù)據(jù)存儲(chǔ)于當(dāng)前節(jié)點(diǎn)的文件系統(tǒng)中,執(zhí)行結(jié)果最終存儲(chǔ)于底層分布式文件系統(tǒng)中。

2 分析系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)

2.1 分析平臺(tái)系統(tǒng)架構(gòu)

將大數(shù)據(jù)技術(shù)與數(shù)據(jù)挖掘技術(shù)應(yīng)用到招聘數(shù)據(jù)的分析中,實(shí)現(xiàn)了基于Hadoop 平臺(tái)的招聘數(shù)據(jù)分析平臺(tái),如圖1 所示,分析平臺(tái)包括數(shù)據(jù)采集、文本處理、分析與展示四大模塊。

圖1 平臺(tái)架構(gòu)圖

信息采集模塊主要是利用網(wǎng)絡(luò)爬蟲從各大在線招聘平臺(tái)等Web 頁面采集相關(guān)招聘信息,需要保證數(shù)據(jù)的全面性與準(zhǔn)確性。數(shù)據(jù)采集成功以后需要對(duì)數(shù)據(jù)進(jìn)行基本去噪與基本格式化處理,并使用統(tǒng)一接口將格式化數(shù)據(jù)存儲(chǔ)于數(shù)據(jù)庫中。

爬取的數(shù)據(jù)多數(shù)為文本格式數(shù)據(jù),部分?jǐn)?shù)據(jù)存在關(guān)鍵字段數(shù)據(jù)為空以及重復(fù)行的問題,采集的數(shù)據(jù)組存在部分噪聲特征,對(duì)詞頻統(tǒng)計(jì)、文本聚類與相關(guān)性分析有一定的影響。對(duì)部分缺失的文本數(shù)據(jù)進(jìn)行補(bǔ)充,對(duì)不同網(wǎng)站相同數(shù)據(jù)進(jìn)行去重,保證數(shù)據(jù)的完整性與唯一性。在數(shù)據(jù)處理模塊主要進(jìn)行特征模塊的提取、特征詞集合的生成、文本向量化、文本向量集的生成、最后生成文本數(shù)據(jù)庫。

經(jīng)過數(shù)據(jù)特征提取與文本向量化處理之后得到數(shù)據(jù)的文本數(shù)據(jù)庫,將數(shù)據(jù)發(fā)送至其他節(jié)點(diǎn)進(jìn)行存儲(chǔ),數(shù)據(jù)分析模塊主要利用數(shù)據(jù)挖掘技術(shù)進(jìn)行分析,分別從數(shù)據(jù)統(tǒng)計(jì)角度與不同維度相關(guān)性規(guī)則挖掘進(jìn)行分析。

2.2 數(shù)據(jù)處理

(1)分詞

采集到的招聘數(shù)據(jù)中部分屬性需要進(jìn)行數(shù)值化,例如工作經(jīng)驗(yàn)字符類型:1 年、3 年、不需要,可根據(jù)正則表達(dá)式進(jìn)行轉(zhuǎn)化,轉(zhuǎn)化為1、3、0;薪水字符類型:5K、8K、10K 等,可轉(zhuǎn)化為數(shù)值型5、8、10。

對(duì)文本中包含中文與英文進(jìn)行分詞操作。英文數(shù)據(jù)采用正則表達(dá)式進(jìn)行分詞,中文數(shù)據(jù)采用jieba 分詞模塊進(jìn)行分詞,基于前綴詞典實(shí)現(xiàn)高效的詞圖掃描,并生成可能生詞情況所構(gòu)成的有向無環(huán)圖(DAG),再采用動(dòng)態(tài)規(guī)劃算法查找最大概率的路徑,得到詞頻較最大的分詞組合。對(duì)于未被錄入詞典的詞,采用基于漢字成語能力的HMM 模型,中文分詞結(jié)果如圖2 所示。

圖2 中文分詞

(2)分詞過濾

理想條件下,中文分詞之后即可對(duì)分詞進(jìn)行特征提取,但是由于中文的多音、多義等特點(diǎn),對(duì)特征的提取有一定的困難,主要表現(xiàn)在未被錄入詞典的詞以及部分沒有實(shí)意的介詞,連詞,符號(hào)等字符。對(duì)于詞頻過高或者過低的停用詞來說,沒有實(shí)際的意義,對(duì)文本主題沒有影響或者影響較小的詞予以過濾,減小信息的存儲(chǔ)量,提高信息處理效率,例如“你”、“我”“我們”、“如果”、“因此”等。一般的高頻詞語噪聲詞具有一定的相關(guān)性,只有在少數(shù)情境下,高頻詞才會(huì)被重視。假設(shè)TFi表示分詞i 的詞頻,nij表示分詞i 在文本j 中出現(xiàn)的次數(shù),則有

2.3 文本向量化

(1)特征提取

通過文本的特征提取可以使文本向量化,其中特征值的權(quán)重與聚類的結(jié)果有很大的關(guān)系,深度影響著分析結(jié)果。逆向文檔頻率(Inverse Documentation Frequency,IDF)根據(jù)分詞在文本中的重要程度與文本集中出現(xiàn)的頻率有效提取特征的方法。文本分詞出現(xiàn)的頻率較低,則其區(qū)分能力強(qiáng),分詞的權(quán)重值越大,其信息熵越大,權(quán)重為TF?IDF(ti,dj)=TFi,j×IDFi,其中ti為文本d 中的某一特征項(xiàng),wi為該特征項(xiàng)的權(quán)值。。逆向文檔頻率如式(1)所示,N 表示文本總數(shù),ni表示分詞在文本中出現(xiàn)的次數(shù)。每一個(gè)文本用向量表示,每一個(gè)特征項(xiàng)可表示向量的一個(gè)維度,特征項(xiàng)在文本中的權(quán)重值用向量取值表示例如文本的空間向量為V(d)=(wi)n×1。

(2)語義空間降維

將文本分詞抽取特征詞之后可形成多個(gè)特征項(xiàng),可構(gòu)建一個(gè)特征詞詞典。招聘文本根據(jù)特征詞典對(duì)應(yīng)的坐標(biāo)可轉(zhuǎn)化為一個(gè)同維度文本向量,可構(gòu)建詞匯-文本矩陣。文本矩陣元素個(gè)數(shù)較大,計(jì)算量大,所得特征也無法準(zhǔn)確詮釋自然語言的表達(dá)。為了解決文本特征向量的高維問題,需要對(duì)高維向量進(jìn)行降維處理。對(duì)任意矩陣均可采用奇異值分解[8],假設(shè)文本矩陣為Am×n, 按 照 奇 異 值 分 解 定 理 可 得Am×n=Um×m∑m×n,其中U 為m×m 的酉矩陣,每一個(gè)非零元素表示詞的重要程度,∑為m×n 的對(duì)角矩陣,表示特征詞與文本的相關(guān)性,VT為n×n 的酉矩陣,可視為文本矩陣。在對(duì)角矩陣中通過刪除奇異值小的元素,保留奇異值大的元素,得到A 文本矩陣的近似矩陣 Ak×k矩 陣,從 而 達(dá) 到 對(duì) 矩 陣 的 降 維,其中

3 實(shí)驗(yàn)與結(jié)果分析

實(shí)驗(yàn)平臺(tái)采用4 臺(tái)普通PC 集成搭建,Master 節(jié)點(diǎn)為4 核8 線程,8G 內(nèi)存,IP 為172.16.0.15,安裝zookeeper 與yarn 軟件,主機(jī)名為Hadoop1;3 臺(tái)Slave 節(jié)點(diǎn)均為2 核4 線城,4G 內(nèi)存,IP 分別為172.16.0.18-172.16.0.20,主機(jī)名分別為Hadoop2-Hadoop4,安裝zookeeper 與yarn 軟件。配置所有節(jié)點(diǎn)免密通信,且保持所有節(jié)點(diǎn)時(shí)鐘同步。

3.1 關(guān)聯(lián)規(guī)則挖掘

關(guān)聯(lián)規(guī)則挖掘時(shí),需要對(duì)招聘信息中城市級(jí)別進(jìn)行劃分,分為一線城市、二線城市、三線城市;需求將公司規(guī)模分為50 人以下、50 人-100 人、100-300 人、300人-500 人、500 人以上;將工資待遇轉(zhuǎn)化為月薪分為5K 以下、5K-8K、8K-12K、12K-20K、20K 以上;學(xué)歷分為博士研究生、碩士研究生及以上、本科及以上、??疲粚⒐ぷ髂晗薹譃? 年、2 年、3 年-4 年、5 年-7 年及10年以上。關(guān)聯(lián)規(guī)則挖掘采用FP-Growth[9]算法直接從頻繁模式樹中獲取頻繁項(xiàng)集,將最小可信度值作為閾值,得出各維度之間的關(guān)聯(lián)規(guī)則,整個(gè)過程不需要產(chǎn)生候選集,避免了頻繁的I/O 操作。

關(guān)聯(lián)規(guī)則挖掘部分結(jié)果如表1 所示,可知在一線城市,如果擁有兩年工作經(jīng)驗(yàn),近92%的企業(yè)開出的薪資在8K-12K 之間。如碩士畢業(yè)生且有工作經(jīng)驗(yàn),在一線城市,有88.75%的企業(yè)愿意開出12K-20K 之間的薪資。大數(shù)據(jù)專業(yè)的碩士畢業(yè)生主要需求地為一線城市。在二線城市,公司規(guī)模大部分維持在50-100 人的中小型企業(yè),如果為本科學(xué)歷,82.72%可能會(huì)拿到5K-8K 之間的薪資。

表1 部分關(guān)聯(lián)規(guī)則分析結(jié)果

3.2 統(tǒng)計(jì)分析

平臺(tái)部分統(tǒng)計(jì)數(shù)據(jù)如圖3-圖5 所示。有圖3 可知,目前近一半的Java 類崗位的學(xué)歷要求為本科及以上,34.4%的Java 類崗位的學(xué)歷要求為專科,碩士學(xué)歷從事Java 類編程崗位的相對(duì)較少。由圖4 可知,Java類崗位需要10 年以上工作經(jīng)驗(yàn)的比例較小僅為0.5%,大部分崗位需求的工作經(jīng)驗(yàn)保持在1 年-4 年之內(nèi),占比為69.6%,針對(duì)于應(yīng)屆畢業(yè)生的崗位不需要工作經(jīng)驗(yàn)。圖5 展示了不同語言編程崗位的中人數(shù)與工資數(shù)量的統(tǒng)計(jì),由圖5 可知,市場需求較大的為Java 語言開發(fā)崗位,且Java 與前端的高薪資崗位較多。圖6展示了不同崗位需求與薪資的關(guān)系,由圖可知,目前Java 與前端的崗位需求較大。

圖3 Java類崗位學(xué)歷要求統(tǒng)計(jì)

圖4 Java類崗位入職經(jīng)驗(yàn)統(tǒng)計(jì)

圖5 薪資與市場需求統(tǒng)計(jì)圖

4 結(jié)語

本文將離線招聘數(shù)據(jù)的分析搬遷到Hadoop 平臺(tái)上,設(shè)計(jì)與實(shí)現(xiàn)了數(shù)據(jù)分析平臺(tái),平臺(tái)包括數(shù)據(jù)采集模塊、處理模塊、分析模塊、展示模塊。利用FP-Growth關(guān)聯(lián)規(guī)則算法對(duì)崗位、所需技能、薪資、工作經(jīng)驗(yàn)等特征維度進(jìn)行關(guān)聯(lián)規(guī)則挖掘,同時(shí)利用統(tǒng)計(jì)分析法對(duì)就業(yè)分布、薪資、市場比例等進(jìn)行分析,形成可視化統(tǒng)計(jì)數(shù)據(jù)。

猜你喜歡
分詞薪資矩陣
不簡單以“住房薪資”引才——遵循“一步一重天”的人才發(fā)展規(guī)律
分詞在英語教學(xué)中的妙用
結(jié)巴分詞在詞云中的應(yīng)用
結(jié)巴分詞在詞云中的應(yīng)用
多項(xiàng)式理論在矩陣求逆中的應(yīng)用
矩陣
矩陣
矩陣
聚焦現(xiàn)在完成進(jìn)行時(shí)
贺兰县| 洛阳市| 焉耆| 房山区| 综艺| 松潘县| 浙江省| 扶风县| 娱乐| 通化县| 桂平市| 大竹县| 南部县| 普兰县| 南宫市| 颍上县| 黄冈市| 蕉岭县| 建阳市| 柳林县| 彰化市| 巴彦县| 广宗县| 秦安县| 保山市| 衡阳县| 达拉特旗| 白朗县| 开化县| 三河市| 习水县| 张家港市| 东乌| 大田县| 宁津县| 康定县| 辛集市| 长宁区| 金山区| 霍林郭勒市| 峡江县|