国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于數(shù)據(jù)庫知識發(fā)現(xiàn)的員工流失預(yù)測

2019-08-12 12:50吳丹
科技與創(chuàng)新 2019年14期
關(guān)鍵詞:流失率編碼數(shù)據(jù)庫

吳丹

基于數(shù)據(jù)庫知識發(fā)現(xiàn)的員工流失預(yù)測

吳丹

(同濟(jì)大學(xué)經(jīng)濟(jì)與管理學(xué)院,上海 201804)

在當(dāng)前就業(yè)形勢嚴(yán)峻的背景下,不少企業(yè)面臨著嚴(yán)重的員工流失問題。由于員工流失會給企業(yè)帶來重大的經(jīng)濟(jì)損失,因而如何降低員工流失率已成為企業(yè)亟待解決的問題。對以往相關(guān)研究進(jìn)行了梳理總結(jié),并基于文獻(xiàn)總結(jié)提出了一種著重于數(shù)據(jù)處理技巧的數(shù)據(jù)庫知識發(fā)現(xiàn)技術(shù),預(yù)測員工流失情況,以提高預(yù)測準(zhǔn)確度。最后采用實際數(shù)據(jù)集進(jìn)行實證研究,驗證了所提出方法的有效性,并通過實驗識別出影響員工流失的重要因素。

員工流失;數(shù)據(jù)庫知識發(fā)現(xiàn);數(shù)據(jù)處理,機(jī)器學(xué)習(xí)

1 引言

在當(dāng)前經(jīng)濟(jì)發(fā)展滯緩、社會全員就業(yè)難、失業(yè)率高等大經(jīng)濟(jì)環(huán)境下,仍然有不少企業(yè)面臨著嚴(yán)重的員工流失問題,如代加工企業(yè)富士康,其在一年365天中就有將近200天都在招工[1],可見企業(yè)員工流失率有多高。員工流失可以簡單理解為企業(yè)成員主動提出脫離企業(yè)的一種行為,當(dāng)然該種行為對于企業(yè)而言是被動型的。員工流失對于企業(yè)而言并不是簡單人員流失,而會對企業(yè)的人事、財務(wù)、業(yè)務(wù)等多方面造成諸多影響,比如流失員工已投入費用的損失(招聘費用、培訓(xùn)費用等),流失員工所負(fù)責(zé)相關(guān)工作的臨時性中斷,更有甚者,流失員工可能會帶走企業(yè)一些重要客戶或關(guān)鍵技術(shù),從而使企業(yè)被迫承受巨大損失??偠灾邌T工流失率已經(jīng)成為企業(yè)經(jīng)營活動的重要成本之一[2]。在此背景下,企業(yè)人力資源部門如何采取有效措施減少員工流失從而降低企業(yè)經(jīng)營成本將成為部門重要工作之一。當(dāng)然,目前有些企業(yè)已相繼采用提高薪酬、改善工作環(huán)境等措施以提高員工工作滿意度從而減弱其離職意愿。但這些措施具有普遍性,并沒有針對到個人,因而實際有效性還有待考察。相對應(yīng)的,事先甄別出有離職傾向的員工以做進(jìn)一步溝通,剖析其產(chǎn)生離職傾向的深層原因然后對癥下藥似乎更為有效。

數(shù)據(jù)庫知識發(fā)現(xiàn)(KDD)是在計算機(jī)智能化發(fā)展和信息爆炸式增長背景下興起的一門新興技術(shù),其定義為:能夠識別數(shù)據(jù)中有效的、新穎的、潛在有用的信息并最終表示為可解釋的模式,在此定義中,數(shù)據(jù)涉及數(shù)據(jù)集合的概念,模式指某種語言的表達(dá)式,表示為數(shù)據(jù)子集的簡約描述或適用于該子集的模型[3]。數(shù)據(jù)庫知識發(fā)現(xiàn)主要涉及原始數(shù)據(jù)選擇、數(shù)據(jù)預(yù)處理、數(shù)據(jù)挖掘、數(shù)據(jù)評估、模式確定[4]5個步驟。其中,數(shù)據(jù)挖掘是最為重要的一個部分,常涉及運用機(jī)器學(xué)習(xí)模型進(jìn)行聚類、分類以及回歸分析?,F(xiàn)如今,數(shù)據(jù)庫知識發(fā)現(xiàn)技術(shù)已被廣泛應(yīng)用于多個領(lǐng)域,如圖像識別、自然語言處理、量化投資等,因而本文也將基于員工基本信息采用該一技術(shù)預(yù)測員工流失情況,預(yù)先甄別出有離職傾向的員工,從而豐富相關(guān)企業(yè)人力資源部門降低員工流失率的方法。

2 文獻(xiàn)綜述

由于引發(fā)員工流失問題的因素錯綜復(fù)雜并且因為員工流失問題帶來的社會問題較突出,因而學(xué)術(shù)界對該一問題的研究已不在少數(shù),主流的研究大致可分為關(guān)于員工流失影響因素的探討、關(guān)于如何避免員工流失的研究、關(guān)于員工流失的預(yù)測研究三類。

關(guān)于員工流失的影響因素研究:NIE等(2018年)就企業(yè)人力資源的社會責(zé)任對女性員工離職的影響進(jìn)行了研究,研究結(jié)果表明注重社會責(zé)任、注重員工家庭的工作平衡等在降低女性員工離職方面發(fā)揮了重要作用,研究結(jié)果還表明女性領(lǐng)導(dǎo)所帶來的積極作用更明顯[5]。PERREIRA等(2018年)采用結(jié)構(gòu)方程模型探討了醫(yī)療行業(yè)中組織公平、組織承諾與員工流失之間的關(guān)系,結(jié)果表明醫(yī)療行業(yè)的內(nèi)部公平與組織承諾息息相關(guān)并反作用于員工離職[6]。與前者類似,RAVANGARD等(2019年)采用結(jié)構(gòu)方程模型對伊朗某醫(yī)院行政和財務(wù)部門員工的離職傾向進(jìn)行了調(diào)查,得出社會支持直接影響員工離職傾向,并可通過增加組織承諾、自我授權(quán)、自我評估減少工作壓力和倦怠,以減弱離職意愿[7]。SRIRAM等(2019年)以印度制造業(yè)為研究對象,研究確定了組織文化與組織的內(nèi)部文化氛圍為影響員工流失的重要因素[8]。

關(guān)于員工流失的規(guī)避方法研究:HE等(2014年)采用六西格瑪方法,通過增加工資、提供轉(zhuǎn)換機(jī)會、制定職業(yè)規(guī)劃、提供培訓(xùn)、輪崗等為員工提供人道關(guān)懷,使得員工流失率降低了1.1%,為企業(yè)提高員工保留率提供了新的視角[9]?;谏鐣粨Q理論,JANG等(2018年)解釋了員工對領(lǐng)導(dǎo)的看法是如何影響員工的離職傾向的,并通過組織承諾調(diào)節(jié)員工與領(lǐng)導(dǎo)的關(guān)系從而降低員工流失率[10]。ALIYU等(2018年)考察了客戶關(guān)系管理維度對員工工作滿意的影響,并利用馬來西亞呼叫中心行業(yè)數(shù)據(jù)確定了避免員工流失的關(guān)鍵CRM維度[11]。

關(guān)于員工流失的預(yù)測研究:RAMAN等(2019年)通過R語言對某商學(xué)院教職工電子郵件執(zhí)行相關(guān)分析、字頻分析和情感分析,得出決定離職的教職員工較多地參與外部溝通而少于內(nèi)部溝通并提出可用電子郵件分析方法預(yù)測員工流失[12]。SRIVASTAVA等(2018年)提出了一種員工流失風(fēng)險預(yù)測分析框架,首先從人力資源系統(tǒng)內(nèi)提取數(shù)據(jù),然后對數(shù)據(jù)進(jìn)行轉(zhuǎn)化處理,繼而運用預(yù)測模型,最后進(jìn)行結(jié)果的可視化展示。其也在研究中運用神經(jīng)網(wǎng)絡(luò)進(jìn)行了實證研究,但診斷準(zhǔn)確率并不理想[13]。GABRANI等(2018年)利用機(jī)器學(xué)習(xí)方法中的邏輯回歸對員工流失情況進(jìn)行了預(yù)測,得出該種模型能最大限度地提高員工保留率,但該模型擬合的方程在分類準(zhǔn)確率上僅有80%,次于實驗中的隨機(jī)森林算法[14]。針對樣本不平衡以及高維度特征等問題,GAO等(2019年)提出一種加權(quán)二次隨機(jī)森林算法用于構(gòu)建員工流失的預(yù)測模型,并通過實際數(shù)據(jù)集驗證了該算法的優(yōu)越性[15]。

通過以上文獻(xiàn)總結(jié)可以看出,關(guān)于員工流失影響因素的研究多基于假設(shè)——驗證方法,常用模型有結(jié)構(gòu)方程模型。關(guān)于降低員工流失率的研究也多是從影響因素入手,而后提出改進(jìn)措施。與本文相關(guān)性較大的員工流失預(yù)測研究也多基于機(jī)器學(xué)習(xí)方法,但主要側(cè)重于局部模型的選擇與模型結(jié)果的比較等。然而機(jī)器學(xué)習(xí)的數(shù)據(jù)預(yù)處理部分對模型的學(xué)習(xí)能力以及預(yù)測性能也會造成嚴(yán)重影響,數(shù)據(jù)處理技巧在數(shù)據(jù)庫知識發(fā)現(xiàn)領(lǐng)域是極為重要的一部分,因而本文采用完整的數(shù)據(jù)庫知識發(fā)現(xiàn)流程,重點突出數(shù)據(jù)處理技巧對員工流失預(yù)測性能的影響,以彌補(bǔ)現(xiàn)有研究中對數(shù)據(jù)處理部分的忽視,并對比眾多常用的機(jī)器學(xué)習(xí)模型,從更廣范圍內(nèi)尋找適合該一應(yīng)用的模型。

3 實證研究

3.1 數(shù)據(jù)獲取與處理

本文數(shù)據(jù)取自于Kaggle競賽網(wǎng)站的公開數(shù)據(jù)集[16],原始數(shù)據(jù)集包括含“Age”“Attrition”等35個字段的1 470條樣本,其中無缺失值。由于原始數(shù)據(jù)集中某些字段,如“DailyRate”“EmployeeNumber”并無實際意義,再如“Over18”“StandardHours”等字段所有樣本均取相同值,因而對分類結(jié)果不會造成差異性影響,首先刪除該些無效字段。保留下來的用于模型訓(xùn)練的28字段描述如表1所示,其中“Attrition”為二分類預(yù)測變量,正負(fù)例比為237∶1 233,其余為輸入特征變量。

表1 數(shù)據(jù)集字段描述

字段名數(shù)據(jù)類型取值范圍說明 Age整型18~60年齡 Attrition字符串型yes/no是否流失 BusinessTravel字符串型Non_Travel/Travel_Frequently/Travel_Rarely出差情況 Department字符串型Human Resources/Research & Development/Sales所屬部門 DistanceFromHome整型1~29工作地點距家的距離 Education整型1/2/3/4/5文化水平 EducationField字符串型Human Resources/Life Sciences/Marketing/Medical/TechnicalDegree/Other專業(yè)領(lǐng)域 EnvironmentSatisfaction整型1/2/3/4工作環(huán)境滿意度 Gender字符串型Female/Male性別 JobInvolvement整型1/2/3/4工作參與度 JobLevel整型1/2/3/4/5工作等級 JobRole字符串型Healthcare Representative/ Human Resources/Laboratory Technician/Manager/Manufacturing Director/Research Director/ Research Scientist/Sales Executive/ Sales Representative工作角色 JobSatisfaction整型1/2/3/4工作滿意度 MaritalStatus字符串型Divorced/Married/Single婚姻狀態(tài) MonthlyIncome整型1 009~19 999月薪 NumCompaniesWorked整型0~9工作過的公司數(shù)目 OverTime字符串型No/Yes是否加過班 PercentSalaryHike整型11~25薪酬增長百分比 PerformanceRating整型3/4工作表現(xiàn)評級 RelationshipSatisfaction整型1/2/3/4員工關(guān)系滿意度 StockOptionLevel整型0/1/2/3股權(quán)水平 TotalWorkingYears整型0~40工齡 TrainingTimesLastYear整型0~6上一年度培訓(xùn)次數(shù) WorkLifeBalance整型1/2/3/4生活與工作的平衡程度

表1(續(xù))

字段名數(shù)據(jù)類型取值范圍說明 YearsAtCompany整型0~40在當(dāng)前公司年份 YearsInCurrentRole整型0~18在當(dāng)前職位年份 YearsSinceLastPromotion整型0~15自上次晉升距今年份 YearsWithCurrManager整型0~17與當(dāng)前領(lǐng)導(dǎo)共處年份

由于計算機(jī)僅能識別數(shù)字,因此對上述字符型字段進(jìn)一步做了編碼處理,如“Age”字段,首先對其進(jìn)行了分段,然后對各個年齡段分別給予特定數(shù)值進(jìn)行編碼。

3.2 實驗設(shè)計與描述

由于輸入變量數(shù)值的大小會直接影響輸出結(jié)果,機(jī)器學(xué)習(xí)模型會自動為不同數(shù)值賦予不同權(quán)重,因而對于離散型數(shù)值直接采用編碼數(shù)值并不科學(xué)?;诖?,本文對經(jīng)上述處理后的數(shù)據(jù)集采用get_dummy方法對離散型數(shù)值(如“Education”“WorkLifeBalance”等數(shù)值編碼變量)進(jìn)行獨熱編碼變化,從而避免數(shù)值大小對模型的影響,并通過對比經(jīng)獨熱編碼技術(shù)處理前后的分類性能驗證該一數(shù)據(jù)處理技術(shù)的是否具有優(yōu)越性。本文首先將數(shù)據(jù)集按7∶3劃分為訓(xùn)練集和測試集,其中訓(xùn)練集用于模型的學(xué)習(xí),測試集用于模型性能的檢測。由于預(yù)測變量存在比例不平衡(237∶1 233)的問題,容易引發(fā)錯分從而影響分類性能,因而對于訓(xùn)練集又進(jìn)行了SMOTE采樣以平衡樣本。平衡之后的樣本分別代入機(jī)器學(xué)習(xí)單模型和集成模型用以進(jìn)行模型訓(xùn)練,其中用到的單模型有邏輯回歸(LR)、K近鄰(KNN)、決策樹(DT)、樸素貝葉斯(NB),集成模型有隨機(jī)森林(RF)、Bagging、Adaboost、梯度提升樹(GBDT)。最后用訓(xùn)練好的模型在測試集進(jìn)行測試,得出Precision、Recall、F1、Accuracy、AUC等機(jī)器學(xué)習(xí)常用分類預(yù)測性能指標(biāo)值。

3.3 實驗結(jié)果與分析

實驗結(jié)果如表2所示。

表2 實驗結(jié)果展示

是否獨熱編碼模型類別模型名稱PrecisionRecallF1AccuracyAUCTime 否 單模型LR0.7590.7730.7540.7730.6630.133 KNN0.5580.5940.5470.5940.5240.171 DT0.6460.6830.6570.6830.5450.156 NB0.6560.6730.6370.6730.5900.026 集成模型RF0.8510.8140.8300.8140.6560.276 Bagging0.8190.7870.8010.7870.5980.361 Adaboost0.7650.7800.7710.7800.6410.521 GBDT0.8190.8120.8150.8120.6681.128 是 單模型LR0.9200.8820.8950.8820.8360.313 KNN0.5450.5830.5340.5830.5160.129 DT0.6970.7230.7070.7230.5760.161 NB0.7430.7600.7500.7600.6100.032 RF0.8990.8190.8520.8190.6490.184 集成模型Bagging0.8840.8210.8470.8210.6640.381 Adaboost0.8730.8500.8600.8500.7420.614 GBDT0.9130.8550.8770.8550.7731.784

通過表2可以看出,除了K近鄰(KNN),經(jīng)過獨熱編碼處理過的數(shù)據(jù)在預(yù)測性能上總體均比未經(jīng)獨熱編碼處理更好,尤其是在邏輯回歸中,其各個性能指標(biāo)均提升了0.1以上,驗證了前文所述的將獨熱編碼技術(shù)應(yīng)用在數(shù)據(jù)處理中有助于提高機(jī)器學(xué)習(xí)模型的分類性能。

此外,整體而言,雖然集成模型以花費更多時間為代價,但其預(yù)測性能較單模型而言更優(yōu)。就集成模型比較來看,隨機(jī)森林的總體預(yù)測效果更好,其對數(shù)據(jù)預(yù)處理的變化依賴性較小,因而更穩(wěn)定;而其他模型的數(shù)據(jù)敏感性較高,對特征處理的要求比較高。在單模型中,邏輯回歸的預(yù)測效果最佳,而其他幾個模型預(yù)測效果均不理想。

3.4 特征重要度分析

上述實驗結(jié)果表明,通過獨熱編碼處理的數(shù)據(jù)有助于提高預(yù)測性能,在員工流失預(yù)測上能夠達(dá)到88%的準(zhǔn)確率,但哪些變量對員工流失影響較大也是需要考慮的問題,以便甄別出內(nèi)部關(guān)鍵因素,從而進(jìn)行針對性改進(jìn),將有助于降低員工流失率。本文采用隨機(jī)森林算法進(jìn)行特征重要度的提取,得到特征重要度排序,如圖1所示。

如圖1所示,對員工流失影響較大的是薪酬福利等因素,如所擁有的股權(quán)和薪資分別排在前兩位,然后是工作環(huán)境的滿意度、工作參與度和在當(dāng)前所在職位的年份,而員工所在部門、工作表現(xiàn)評級等對員工流失傾向影響較小。因此企業(yè)可以根據(jù)特征重要度進(jìn)行改進(jìn)措施的優(yōu)先級排序,對于非重要特征可暫緩處理。

4 結(jié)語

員工流失對于企業(yè)的財務(wù)和業(yè)務(wù)穩(wěn)定皆有著重要影響,如何提高員工保留率、降低員工流失率已成為企業(yè)人力部門的工作之重。本文通過文獻(xiàn)綜述總結(jié)了員工流失問題的研究現(xiàn)狀,并通過時下熱門的數(shù)據(jù)庫知識發(fā)現(xiàn)技術(shù),著重于數(shù)據(jù)預(yù)處理技巧對員工流失情況進(jìn)行預(yù)測,驗證了數(shù)據(jù)處理技術(shù)在數(shù)據(jù)庫知識發(fā)現(xiàn)過程中的重要性。此外,本文還識別出影響員工流失的重要因素,其中包含公司股權(quán)擁有情況、月薪、工作環(huán)境滿意度、工作參與度等,因此企業(yè)可以通過提高員工的薪資待遇、改善工作環(huán)境、給予員工工作主導(dǎo)權(quán)等,以此來降低員工離職傾向。

圖1 特征重要度排序

本文還存在諸多不足的地方,如各個模型均使用默認(rèn)參數(shù),未進(jìn)行調(diào)參設(shè)置,因而在分類性能上并未達(dá)到最優(yōu);再如,文中采用的模型仍是經(jīng)典的模型,均為針對數(shù)據(jù)集進(jìn)行算法改進(jìn)工作,這些問題皆可成為日后研究改進(jìn)之處。

[1]招工困難,員工流失,到底是咋回事?[EB/OL].[2019-06-05].http://www.360kuai.com/pc/91dbe9c8d53c68d02?cota=4&sign=360_57c3bbd1&refer_scene=so_1.

[2]DIPIETRO R B,MOREO A,CAIN L.Well-being,affective commitment and job satisfaction:influences on turnover intentions in casual dining employees[J].Journal of Hospitality Marketing & Management,2019(4):28.

[3]FAYYAD U,STOLORZ P.Data mining and KDD:promise and challenges[J].Future Generation Computer Systems, 1997,13(2):99-115.

[4]SAMUEL S C,F(xiàn)ERNANDO L.A Short review on data mining techniques for electricity customers characteri-zation[C]//2019 IEEE PES GTD Grand International Conference and Exposition Asia,Thailand:Bangkok,2019.

[5]NIE D,LAMSA A M,PUCETAITE R.Effects of responsible human resource management practices on female employees' turnover intentions[J].Business Ethics-a European Review,2018,27(1):29-41.

[6]PERREIRA T A,BERTA W,HERBERT M.The employee retention triad in health care:Exploring relationships amongst organisational justice,affective commitment and turnover intention[J]. Journal of Clinical Nursing,2018,27(7):E1451-E1461.

[7]RAVANGARD R,DIANAT S,SHOKRPOUR N.The factors affecting hospital employees' turnover intentions a case of Iran[J].Health Care Manager,2019,38(2):166-178.

[8]SRIRAM K V,JOSEPH J,MATHEW A O,et al.Factors affecting high employee attrition in manufacturing firms -a case study[J].Quality-Access to Success,2019,20(169):23-28.

[9]HE Z,ZHANG X T,ZHANG M.Reducing the voluntary turnover rate of dispatched employees by the DMAIC process[J].Total Quality Management&Business Excellence,2014,25(7):842-855.

[10]JANG J,KANDAMPULLY J.Reducing employee turnover intention through servant leadership in the restaurant context:a mediation study of affective organizational commitment[J].International Journal of Hospitality and Tourism Administration,2018,19(2):125-141.

[11]ALIYU O A,NYADZAYO M W.Reducing employee turnover intention:a customer relationship management perspective[J].Journal of Strategic Marketing,2018,26(3):241-257.

[12]RAMAN R,BHATTACHARYA S,PRANOD D.Predict employee attrition by using predictive analytics[J].Benchmarking-an International Journal,2019,26(1):2-18.

[13]SRIVASTAVA D K,NAIR P.Employee attrition analysis using predictive techniques[J].Information and Communication Technology for Intelligent Systems,2018,83(1):293-300.

[14]GABRANI G,KWATRA A.Machine learning based predictive model for risk assessment of employee Attrition[J].Computational Science and Its Applications,2018(10963):189-201.

[15]GAO X,WEN J H,ZHANG C.An improved random forest algorithm for predicting employee turnover[J]. Mathematical Problems in Engineering,2019(4):12.

[16]IBM HR Analytics Employee Attrition & Performance[EB/OL].[2019-06-05]. https://www.kaggle.com/pavansubhasht/ibm-hr-analytics-attrition-dataset.

F272

A

10.15913/j.cnki.kjycx.2019.14.006

2095-6835(2019)14-0016-04

吳丹(1994—),女,同濟(jì)大學(xué)經(jīng)濟(jì)與管理學(xué)院在讀碩士,研究方向為數(shù)據(jù)挖掘。

〔編輯:嚴(yán)麗琴〕

猜你喜歡
流失率編碼數(shù)據(jù)庫
生活中的編碼
基于SPM的材料編碼自主化初探
Genome and healthcare
酒店內(nèi)部營銷探討
壽險公司個人代理人流失的對策研究
美國OTT服務(wù)用戶流失率達(dá)19%
數(shù)據(jù)庫
數(shù)據(jù)庫
數(shù)據(jù)庫
數(shù)據(jù)庫