喬源 陳夢(mèng)帆
作者簡(jiǎn)介:?jiǎn)淘矗?000— ),男,漢族,遼寧大連人。主要研究方向:供應(yīng)鏈管理。
摘 要:人才是企業(yè)的核心,如何留住人才是人力資源的核心命題?;诖?,本文首先建立了員工離職預(yù)測(cè)指標(biāo)體系,接著使用7種機(jī)器學(xué)習(xí)方法對(duì)員工是否離職進(jìn)行預(yù)測(cè),并從準(zhǔn)確率,f1得分,AUC,召回率,敏感度等五個(gè)評(píng)估指標(biāo)進(jìn)行綜合評(píng)估。實(shí)證結(jié)果表明:XGBoost算法具有高準(zhǔn)確率和穩(wěn)定性,較其他算法更優(yōu)良。進(jìn)而,本文采用cover準(zhǔn)則對(duì)特征重要性進(jìn)行了分析,員工是否離職決策更滿(mǎn)足社會(huì)人假說(shuō),員工往往更傾向于追求自我實(shí)現(xiàn)和工作的自我契合,企業(yè)應(yīng)優(yōu)先滿(mǎn)足員工社會(huì)層面的自我需求,有效防止員工離職。
關(guān)鍵詞:機(jī)器學(xué)習(xí)算法;員工離職預(yù)測(cè);特征重要性
互聯(lián)網(wǎng)時(shí)代下,人才流動(dòng)頻繁,核心員工的主動(dòng)辭職,不僅會(huì)給公司正常運(yùn)營(yíng)造成影響,降低企業(yè)受益,而且會(huì)導(dǎo)致客戶(hù)流失,商業(yè)機(jī)密泄漏等諸多危害,如何通過(guò)歷史數(shù)據(jù)或員工標(biāo)記準(zhǔn)確判斷員工的離職傾向是人力資源管理的新研究方向。企業(yè)不再滿(mǎn)足于探究某一兩個(gè)變量或者因素和員工的離職的關(guān)系,因?yàn)閱T工離職往往是深思熟慮,眾多因素有機(jī)結(jié)合的結(jié)果,因此對(duì)員工大數(shù)據(jù)特征進(jìn)行機(jī)器學(xué)習(xí)顯得很有價(jià)值。
通過(guò)收集員工特征大數(shù)據(jù)對(duì)于員工離職的預(yù)測(cè)不僅是人力資源領(lǐng)域的核心問(wèn)題,也是機(jī)器學(xué)習(xí)算法研究的重要方向,部分學(xué)者側(cè)重某一或幾種因素的研究,李揚(yáng)研究國(guó)有企業(yè)員工幸福感維度對(duì)于員工離職的影響,葉仁蓀等研究組織承諾的影響;而大部分學(xué)者則從機(jī)器學(xué)習(xí)的角度出發(fā),并不關(guān)心內(nèi)在的因素解釋?zhuān)炊ㄟ^(guò)大數(shù)據(jù)機(jī)器學(xué)習(xí)的方式,最快最好地預(yù)測(cè)員工離職的結(jié)果,如劉婷婷選取IBM平臺(tái)樣例數(shù)據(jù),運(yùn)用C4.5決策樹(shù)預(yù)測(cè)員工離職傾向,張紫君則采用GBDT算法預(yù)測(cè)員工離職的問(wèn)題,更多的是算法的縱向結(jié)合或者橫向比較。
但是目前學(xué)界對(duì)于離職預(yù)測(cè)往往僅追求的算法的精度,且所采用的算法大多是黑箱算法,難以直觀解釋。為進(jìn)一步提升離職預(yù)測(cè)模型的性能及可解釋性,本文基于IBM數(shù)據(jù)科學(xué)公布的員工離職數(shù)據(jù)進(jìn)行分析,橫向比較機(jī)器學(xué)習(xí)主流算法,通過(guò)預(yù)測(cè)準(zhǔn)確率,f1得分,AUC得分,召回率,敏感度五項(xiàng)指標(biāo)對(duì)模型評(píng)價(jià)和對(duì)比,最后通過(guò)性能最優(yōu)的XGBoost算法以及其特征重要性解釋分析員工離職決策的成因,對(duì)降低員工離職率,改善企業(yè)人才資源配置,提高企業(yè)綜合績(jī)效等方面具有一定的參考意義。
一、變量說(shuō)明及預(yù)處理
(一)數(shù)據(jù)來(lái)源與變量選取
本文數(shù)據(jù)來(lái)源DataFound平臺(tái)(https://www.datafountain.cn)上發(fā)布的IBM員工公開(kāi)數(shù)據(jù),數(shù)據(jù)包括定性和定量數(shù)據(jù),選取全數(shù)據(jù)集33個(gè)字段,2000多條數(shù)據(jù),具體數(shù)據(jù)名稱(chēng)及含義如下表1所示:
(二)數(shù)據(jù)預(yù)處理
首先,本文對(duì)數(shù)據(jù)進(jìn)行歸一化處理:
其次,為防止由于最終標(biāo)簽的不均衡導(dǎo)致的誤差采用SMOTE方法按照1:1進(jìn)行均衡采樣,SMOTE的原理是:對(duì)于少數(shù)類(lèi)樣本a,隨機(jī)選擇一個(gè)最近鄰的樣本b,然后從a與b的連線(xiàn)上隨機(jī)選取一個(gè)點(diǎn)c作為新的少數(shù)類(lèi)樣本,基本公式如下:
首先生成一個(gè)0-1之間的隨機(jī)數(shù):rand(0,1)
其次選取一個(gè)少類(lèi)樣本X原,并選取其相鄰最近樣本X相鄰,最終通過(guò)如下公式:
X新=X原+rand(0,1)*(X相鄰-X原)
使得樣本在標(biāo)簽特征是否離職滿(mǎn)足處均勻分布。
二、研究原理
(一)傳統(tǒng)機(jī)器學(xué)習(xí)方法
本文采用三種傳統(tǒng)的機(jī)器學(xué)習(xí)方法:支撐向量機(jī)(SVM),其本質(zhì)是一種線(xiàn)性分類(lèi)器,是以訓(xùn)練樣本為研究對(duì)象,通過(guò)某種事先選定的關(guān)系映射出一個(gè)樣本的高緯特征空間,并在其中找到一個(gè)超平面對(duì)樣本進(jìn)行線(xiàn)性分類(lèi);決策樹(shù)(DT)是一種樹(shù)形分類(lèi)器,即采用某種標(biāo)準(zhǔn)(如:C4.5,ID3等)通過(guò)搜索遍歷每一個(gè)節(jié)點(diǎn)的特征選擇,最終獲得一種最優(yōu)分類(lèi)的過(guò)程;邏輯回歸(LR)是一種線(xiàn)性分類(lèi)方法,通過(guò)非線(xiàn)性變換的Sigmoid函數(shù),采用梯度下降,或者二階的步長(zhǎng)因子等對(duì)樣本進(jìn)行二維空間的線(xiàn)性分類(lèi)。
(二)集成學(xué)習(xí)方法
除了上述傳統(tǒng)的機(jī)器學(xué)習(xí)方法外,本文采用四種集成學(xué)習(xí)的方法:隨機(jī)森林(Random Forest)隨機(jī)森林是一種將多棵決策樹(shù)集成的算法,其中的每一個(gè)單元——每棵決策樹(shù)都是一個(gè)分類(lèi)器,對(duì)于一個(gè)固定的輸入樣本,隨機(jī)森林通過(guò)Bagging思想,以一種算法投票的方式,從N棵樹(shù)會(huì)的N個(gè)分類(lèi)結(jié)果選出最終的輸出,以提升相比于單一樹(shù)模型的分類(lèi)結(jié)果的準(zhǔn)確度;梯度提升樹(shù)(GBDT)也是一種組合樹(shù)型算法,以回歸樹(shù)作為基分類(lèi)器,其核心就在于,每棵樹(shù)是從先前所有樹(shù)的殘差中來(lái)學(xué)習(xí),以前模型中損失函數(shù)的負(fù)梯度值,作為新樹(shù)的殘差來(lái)對(duì)新樹(shù)進(jìn)行優(yōu)化,具有較好的優(yōu)化性能。xgbBoost算法是GBDT算法的升級(jí)版,其在分類(lèi)過(guò)程中就是不斷地添加決策樹(shù),通過(guò)特征分裂來(lái)生成新樹(shù),來(lái)擬合上次樹(shù)預(yù)測(cè)的殘差,從而達(dá)到優(yōu)化的效果;LightGBM是一種基于決策樹(shù)算法的分布式梯度提升框架,每次從當(dāng)前所有葉子中找到數(shù)量較大,分裂增益較大的葉節(jié)點(diǎn),分裂形成新樹(shù),如此循環(huán),在xgb基礎(chǔ)上有效地減少空間和時(shí)間的小號(hào),對(duì)cache優(yōu)化也更加友好。
三、實(shí)證結(jié)果
(一)相關(guān)性分析
進(jìn)行機(jī)器學(xué)習(xí)算法測(cè)試之前,先進(jìn)行變量相關(guān)性分析,結(jié)果如下:由圖1可知,變量和目標(biāo)都存在相關(guān)性,但雙變量之間的相關(guān)性都不高,這體現(xiàn)了員工離職往往不是由一個(gè)或兩個(gè)因素決定的,一般來(lái)說(shuō),離職都是一種深思熟慮之后的決定,說(shuō)明本文通過(guò)大數(shù)據(jù)機(jī)器學(xué)習(xí)的方法統(tǒng)籌考慮所有變量整體研究具有一定的意義。