国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

Keras神經(jīng)網(wǎng)絡(luò)大數(shù)據(jù)崗位薪酬分類(lèi)模型

2021-10-08 00:46孫含笑
計(jì)算機(jī)時(shí)代 2021年9期
關(guān)鍵詞:機(jī)器學(xué)習(xí)信息熵大數(shù)據(jù)

孫含笑

摘? 要: 影響大數(shù)據(jù)人才就業(yè)收入的因素紛繁復(fù)雜,難以確定其關(guān)鍵影響條件,影響了潛在從業(yè)者的就業(yè)選擇以及從業(yè)人員的自我提升方向。針對(duì)這一社會(huì)熱點(diǎn)問(wèn)題,建立基于信息熵的機(jī)器學(xué)習(xí)模型-分類(lèi)決策樹(shù),分析影響收入的關(guān)鍵因素,進(jìn)而提出一種基于Keras搭建的新型高精準(zhǔn)率神經(jīng)網(wǎng)絡(luò)收入分類(lèi)模型。該模型能夠精準(zhǔn)地確定影響大數(shù)據(jù)人才收入的主要因素,為大數(shù)據(jù)行業(yè)相關(guān)人員提供從業(yè)指導(dǎo)與幫助。

關(guān)鍵詞: 大數(shù)據(jù); 信息熵; 機(jī)器學(xué)習(xí); 分類(lèi)決策樹(shù); 神經(jīng)網(wǎng)絡(luò)

中圖分類(lèi)號(hào):TP391.4? ? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A? ? ?文章編號(hào):1006-8228(2021)09-26-03

Abstract: The factors that affect the employment income of big data employees are complex, which makes it difficult to determine the key influencing conditions, and affects the employment choice of potential practitioners and the direction of self promotion of employees. In view of this hot social issue, this paper establishes an information entropy based machine learning model, the classification decision tree, to analyze the key factors affecting income, and thereafter proposes a new high precision neural network revenue classification model based on Keras. The model can accurately determine the main factors affecting the income of big data employees, and provide guidance and help for the relevant personnel in big data industry.

Key words: big data; information entropy; machine learning; classification decision tree; neural network

0 引言

數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù),簡(jiǎn)稱(chēng)大數(shù)據(jù)。大數(shù)據(jù)是一個(gè)新學(xué)科。這幾年“大數(shù)據(jù)”成為發(fā)展最快的行業(yè)。大數(shù)據(jù)人才短缺成為掣肘大數(shù)據(jù)行業(yè)發(fā)展的重要因素之一,培養(yǎng)適合社會(huì)需求的大數(shù)據(jù)人才是高等教育亟待解決的問(wèn)題[1]。面對(duì)現(xiàn)狀,國(guó)內(nèi)眾多高校開(kāi)設(shè)了大數(shù)據(jù)專(zhuān)業(yè),源源不斷地向國(guó)家輸入大數(shù)據(jù)人才。而大數(shù)據(jù)人才在就業(yè)后的工資收入也成為熱議,基于2020年大數(shù)據(jù)就業(yè)統(tǒng)計(jì),研究了北京、上海、廣州、深圳等四個(gè)一線城市,以及南京、西安、鄭州、杭州等四個(gè)二線城市的大數(shù)據(jù)人才就業(yè)數(shù)據(jù),以期通過(guò)現(xiàn)有的數(shù)據(jù)獲得一個(gè)好的收入分類(lèi)模型。

在現(xiàn)有的機(jī)器學(xué)習(xí)[2]分類(lèi)模型當(dāng)中,首先考慮決策樹(shù)分類(lèi)[3]模型。決策樹(shù)方法最早產(chǎn)生于上世紀(jì)六十年代到七十年代末,由JRoss Quinlan提出了ID3算法[4],此算法的目的在于減少樹(shù)的深度。ID3算法在進(jìn)行特征選擇時(shí),ID3算法優(yōu)先選擇信息增益最大的特征,即優(yōu)先選擇對(duì)整個(gè)系統(tǒng)貢獻(xiàn)最大的特征。通過(guò)決策樹(shù)算法構(gòu)建決策樹(shù),可以發(fā)現(xiàn)影響收入高低的主要因素。因?yàn)閭鹘y(tǒng)的機(jī)器學(xué)習(xí)算法準(zhǔn)確率沒(méi)有神經(jīng)網(wǎng)絡(luò)算法模型的準(zhǔn)確率高,所以通過(guò)現(xiàn)有的數(shù)據(jù)集構(gòu)建一個(gè)基于Keras的神經(jīng)網(wǎng)絡(luò)算法模型[5],以達(dá)到準(zhǔn)確的分類(lèi)效果。

1 研究目的與框架

1.1 研究目的

對(duì)于大數(shù)據(jù)人才的收入狀況有許多影響因素,在眾多因素當(dāng)中,通過(guò)建立決策樹(shù)分類(lèi)模型,得到影響就業(yè)收入的主要因素。為了使得模型的分類(lèi)準(zhǔn)確率更高,采用更為智能的神經(jīng)網(wǎng)絡(luò)模型建立分類(lèi)器。

1.2 研究設(shè)計(jì)示意圖

研究和試驗(yàn)設(shè)計(jì)框架示意圖如圖1所示。

2 研究的設(shè)計(jì)與實(shí)現(xiàn)

2.1 爬取數(shù)據(jù)及數(shù)據(jù)清洗

登錄就業(yè)網(wǎng)以及招聘網(wǎng)站,爬取2020年大數(shù)據(jù)人才的就業(yè)信息和招聘信息,對(duì)得到的數(shù)據(jù)查找缺失值以及進(jìn)行數(shù)據(jù)清洗。

2.2 數(shù)據(jù)分析

基于2020年大數(shù)據(jù)崗位就業(yè)和招聘數(shù)據(jù),研究了北京、上海、廣州、深圳等四個(gè)一線城市,以及南京、西安、鄭州、杭州等四個(gè)二線城市,共計(jì)八個(gè)城市的大數(shù)據(jù)崗位就業(yè)和招聘情況數(shù)據(jù),由于目前三四線城市大數(shù)據(jù)人才需求量不大,對(duì)模型的最終影響在此忽略不計(jì)。據(jù)統(tǒng)計(jì),一線城市大數(shù)據(jù)崗位招聘公司數(shù)量要遠(yuǎn)遠(yuǎn)高于二線城市,如圖2所示。

此外,通過(guò)對(duì)招聘數(shù)據(jù)的統(tǒng)計(jì)發(fā)現(xiàn),大數(shù)據(jù)崗位要求的學(xué)歷以本科為主要人群,如圖3所示。

2.3 特征選取

2.3.1 特征提取方法簡(jiǎn)述

通過(guò)對(duì)2020年大數(shù)據(jù)人才的就業(yè)情況分析,爬取影響就業(yè)收入的特征有:①工作崗位;②工作資歷;③學(xué)歷;④公司規(guī)模;⑤工作城市;⑥城市一、二線;⑦南北方地域,其中由于公司規(guī)模這個(gè)特征難以考量,因此剔除該特征。在剩下來(lái)的6個(gè)特征中選取主要特征建立模型,篩選方式是通過(guò)ID3算法構(gòu)建決策樹(shù)模型。ID3算法涉及到的概念定義如下:

信息熵是一種反映不確定性的度量方式,通過(guò)信息量的規(guī)模來(lái)體現(xiàn)不確定程度[6]。

ID3算法是基于信息增益來(lái)選擇樹(shù)結(jié)點(diǎn),信息增益越大,則這個(gè)特征的選擇性越好,即這個(gè)特征對(duì)整個(gè)事件的貢獻(xiàn)越大。

2.3.2 模型構(gòu)建及分析

⑴ 模型構(gòu)建

數(shù)據(jù)集:將①工作崗位;②工作資歷;③學(xué)歷;⑤工作城市;⑥城市一、二線;⑦南北方地域等六個(gè)特征作為特征數(shù)據(jù)。

數(shù)據(jù)集標(biāo)簽:將收入作為標(biāo)簽,標(biāo)簽有3個(gè)取值,[“低”,”中”,”高”],劃分的標(biāo)準(zhǔn)為年收入>20萬(wàn)為”高”,10-20萬(wàn)為”中”,<10萬(wàn)為”低”收入。

⑵ 模型建立

model=tree.DecisionTreeClassifier(criterion='entropy')

⑶ 參數(shù)設(shè)置,尋找主要特征

設(shè)置樹(shù)的深度max_depth=4,max_depth=6時(shí),出現(xiàn)在決策樹(shù)的特征為:②③⑤⑥⑦。

樹(shù)的深度max_depth不設(shè)限,也沒(méi)有看到特征①工作崗位出現(xiàn)在決策樹(shù)當(dāng)中,因此,本次實(shí)驗(yàn)丟棄此特征。在多次實(shí)驗(yàn)當(dāng)中,根節(jié)點(diǎn)出現(xiàn)的特征都為③學(xué)歷,因此學(xué)歷是影響收入的關(guān)鍵因素。

2.4 模型建立及評(píng)分

新的數(shù)據(jù)集:②③⑤⑥⑦五個(gè)特征作為特征數(shù)據(jù)。

利用訓(xùn)練集和訓(xùn)練集的標(biāo)簽訓(xùn)練模型,模型仍然采用Sklearn自帶的決策樹(shù)模型:

model=tree.DecisionTreeClassifier(criterion='entropy')

將20%數(shù)據(jù)作為測(cè)試集,得到模型的得分為:

測(cè)試集得分0.8493975903614458;

訓(xùn)練集得分0.8874622356495468。

由結(jié)果可知,現(xiàn)在的決策樹(shù)模型結(jié)果比較理想,準(zhǔn)確率為80%以上。為了得到更為理想的模型,建立神經(jīng)網(wǎng)絡(luò)模型。

2.5 模型改進(jìn)-基于Keras神經(jīng)網(wǎng)絡(luò)模型

Keras是由純python編寫(xiě)的基于theano/tensorflow的深度學(xué)習(xí)框架。Keras是一個(gè)高層神經(jīng)網(wǎng)絡(luò)API,能夠把你的“idea”迅速轉(zhuǎn)換為結(jié)果。

實(shí)驗(yàn)采用神經(jīng)網(wǎng)絡(luò)模型如圖4所示。

本次實(shí)驗(yàn)通過(guò)改變神經(jīng)網(wǎng)絡(luò)隱層和神經(jīng)元的個(gè)數(shù),得到最優(yōu)的模型。

⑴ 模型構(gòu)建

import tensorflow as tf

model.add(tf.keras.layers.Dense(i,input_shape=(j,),

activation='relu'))

model.add(tf.keras.layers.Dense(3,activation='softmax'))

⑵ 尋找最優(yōu)的網(wǎng)絡(luò)層數(shù)及神經(jīng)元個(gè)數(shù)

建立2層神經(jīng)網(wǎng)絡(luò),改變隱藏層神經(jīng)元個(gè)數(shù),模型訓(xùn)的練集及測(cè)試集準(zhǔn)確率如圖5所示。

由圖5可知,當(dāng)隱層神經(jīng)元的個(gè)數(shù)為14的時(shí)候,模型的準(zhǔn)確率最高,測(cè)試集的準(zhǔn)確率高達(dá)91%。接下來(lái)改變神經(jīng)網(wǎng)絡(luò)層數(shù),經(jīng)過(guò)實(shí)驗(yàn)研究發(fā)現(xiàn),多層隱藏層和單層隱藏層實(shí)驗(yàn)結(jié)果相差不大,因此,最終模型定義2層神經(jīng)網(wǎng)絡(luò),隱藏層的神經(jīng)元個(gè)數(shù)為14。

3 結(jié)束語(yǔ)

本文針對(duì)大數(shù)據(jù)從業(yè)人員就業(yè)收入問(wèn)題,搭建了新型神經(jīng)網(wǎng)絡(luò)模型,用以捕捉影響就業(yè)人員收入的關(guān)鍵因素,借助數(shù)據(jù)挖掘技術(shù)發(fā)現(xiàn)提升學(xué)歷是大數(shù)據(jù)從業(yè)者提高收入的關(guān)鍵。通過(guò)分析2020年大數(shù)據(jù)招聘信息數(shù)據(jù),發(fā)現(xiàn)一線城市大數(shù)據(jù)招聘公司要遠(yuǎn)遠(yuǎn)多于二線城市,同時(shí)大數(shù)據(jù)崗位要求的學(xué)歷是以本科生為主。其中,對(duì)處理后的數(shù)據(jù)建立了Keras神經(jīng)網(wǎng)絡(luò)模型,實(shí)現(xiàn)收入分類(lèi)的準(zhǔn)確率達(dá)90%以上,為廣大從業(yè)者及潛在就業(yè)人員提供巨大幫助。但是該模型對(duì)于就業(yè)收入與公司規(guī)模、就業(yè)者年齡等特征的關(guān)系尚不能說(shuō)明,對(duì)此值得進(jìn)一步研究。

參考文獻(xiàn)(References):

[1] 許新剛.高職大數(shù)據(jù)應(yīng)用人才培養(yǎng)研究[J].無(wú)線互聯(lián)科技,2021.18(3):163-164

[2] 安德里亞斯·穆勒.Python機(jī)器學(xué)習(xí)基礎(chǔ)教程[M].人民郵電出版社,2018.

[3] 岳根霞.基于決策樹(shù)算法的醫(yī)療大數(shù)據(jù)填補(bǔ)及分類(lèi)仿真[J].計(jì)算機(jī)仿真,2021.38(1):451-454

[4] 杜威銘.決策樹(shù)ID3算法研究[J].科技視界,2018.12(11):145-146

[5] 蔣子陽(yáng).TensorFlow深度學(xué)習(xí)算法原理與編程實(shí)戰(zhàn)[M].中國(guó)水利水電出社,2019.

[6] 毛伊敏.基于信息熵與遺傳算法的并行關(guān)聯(lián)規(guī)則增量挖掘算法[J].通信學(xué)報(bào),2021.3.

猜你喜歡
機(jī)器學(xué)習(xí)信息熵大數(shù)據(jù)
基于信息熵可信度的測(cè)試點(diǎn)選擇方法研究
基于信息熵的實(shí)驗(yàn)教學(xué)量化研究
一種基于信息熵的雷達(dá)動(dòng)態(tài)自適應(yīng)選擇跟蹤方法
基于網(wǎng)絡(luò)搜索數(shù)據(jù)的平遙旅游客流量預(yù)測(cè)分析
前綴字母為特征在維吾爾語(yǔ)文本情感分類(lèi)中的研究
基于支持向量機(jī)的金融數(shù)據(jù)分析研究
基于大數(shù)據(jù)背景下的智慧城市建設(shè)研究
基于信息熵的IITFN多屬性決策方法
革吉县| 丹寨县| 通道| 和林格尔县| 兴国县| 莒南县| 沙河市| 京山县| 肥乡县| 永新县| 彝良县| 九台市| 鱼台县| 西盟| 石景山区| 乾安县| 绥棱县| 八宿县| 景东| 龙江县| 齐齐哈尔市| 瓦房店市| 江山市| 肇东市| 长白| 泸州市| 宿迁市| 土默特左旗| 塘沽区| 上栗县| 措勤县| 阿尔山市| 华蓥市| 青冈县| 永福县| 咸阳市| 乌鲁木齐市| 盐山县| 德令哈市| 志丹县| 水富县|