徐軍委,劉長(zhǎng)勝
(國(guó)網(wǎng)新疆電力有限公司,新疆烏魯木齊 830000)
在大數(shù)據(jù)背景下,新的工作考核評(píng)價(jià)理論與體系的應(yīng)用研究成為熱點(diǎn):文獻(xiàn)[1]論述大數(shù)據(jù)技術(shù)對(duì)高??蒲性u(píng)估科學(xué)性、準(zhǔn)確性及優(yōu)化資源配置的積極作用;文獻(xiàn)[2]使用大數(shù)據(jù)技術(shù)構(gòu)建表現(xiàn)預(yù)測(cè)、迭代檢測(cè)、質(zhì)量預(yù)警的學(xué)習(xí)評(píng)價(jià)體系;文獻(xiàn)[3]提出利用大數(shù)據(jù)及人工智能方法構(gòu)建高中生專業(yè)興趣評(píng)估及學(xué)科建立評(píng)估系統(tǒng);文獻(xiàn)[4-5]將大數(shù)據(jù)技術(shù)應(yīng)用于公務(wù)員績(jī)效評(píng)估中進(jìn)行理論研究;文獻(xiàn)[6]基于智能設(shè)備在對(duì)建筑工人施工安全方面,建立了相關(guān)考核與激勵(lì)機(jī)制。即當(dāng)前的研究主要集中在理論分析,且多用于對(duì)項(xiàng)目的評(píng)估及對(duì)基層公務(wù)員的考核,對(duì)員工的工作考核體系的創(chuàng)新性研究較少。針對(duì)相關(guān)研究較少、工作考評(píng)因素單一的問(wèn)題,該文提出了基于人工智能算法及深度數(shù)據(jù)分析技術(shù)的工作考評(píng)系統(tǒng)。
圖1 為系統(tǒng)的整體框圖,該系統(tǒng)主要由數(shù)據(jù)獲取模塊、數(shù)據(jù)預(yù)處理模塊、評(píng)價(jià)考核模塊及反饋激勵(lì)模塊組成。以員工為系統(tǒng)的主體,最終評(píng)價(jià)考核結(jié)果再反饋至員工,使整個(gè)系統(tǒng)形成閉環(huán)。首先,利用數(shù)據(jù)挖掘技術(shù)對(duì)員工工作的相關(guān)數(shù)據(jù)進(jìn)行處理分析,并提取關(guān)鍵性的特征指標(biāo);然后,對(duì)提取的關(guān)鍵指標(biāo)進(jìn)行預(yù)處理后,根據(jù)權(quán)重作為人工智能算法的輸入,通過(guò)訓(xùn)練后由人工智能算法進(jìn)行分析;最終,對(duì)員工的工作給出等級(jí)性考評(píng);由于算法的透明性可將系統(tǒng)的評(píng)估過(guò)程輸出,并將其作為對(duì)被評(píng)估員工的反饋激勵(lì)。
圖1 系統(tǒng)總體框架圖
獲取的員工數(shù)據(jù)主要包括兩類:基礎(chǔ)數(shù)據(jù)與日常數(shù)據(jù)?;A(chǔ)數(shù)據(jù)由員工入職時(shí)一次性收集,并由人力資源管理部門定期核查更新,通過(guò)定期更新,即可完成此類數(shù)據(jù)的收集;日常數(shù)據(jù)傳統(tǒng)方法由員工上報(bào)或公司定期審查相結(jié)合的方式收集,當(dāng)前隨著物聯(lián)網(wǎng)技術(shù)的發(fā)展,網(wǎng)絡(luò)數(shù)據(jù)庫(kù)、移動(dòng)終端等給此類數(shù)據(jù)的采集提供便利,常用的獲取方法有:1)使用統(tǒng)一聯(lián)網(wǎng)接口進(jìn)行出勤考核;2)使用二維碼對(duì)員工任務(wù)進(jìn)行標(biāo)注,最后通過(guò)二維碼統(tǒng)計(jì)任務(wù)數(shù)據(jù);3)移動(dòng)終端申報(bào)系統(tǒng)、工作狀態(tài)識(shí)別系統(tǒng)等。
數(shù)據(jù)預(yù)處理的過(guò)程主要如下:
1)數(shù)據(jù)清理。即對(duì)所獲取的數(shù)據(jù)中的缺失、異常等數(shù)據(jù)進(jìn)行處理;
2)數(shù)據(jù)集成。即去除獲取數(shù)據(jù)中無(wú)關(guān)數(shù)據(jù),并合并數(shù)據(jù)中的相關(guān)數(shù)據(jù);
3)數(shù)據(jù)變換。即利用數(shù)據(jù)變換將數(shù)據(jù)轉(zhuǎn)變?yōu)榉奖阕鳛槿斯ぶ悄芩惴ㄝ斎氲念愋汀?/p>
該系統(tǒng)使用Python 語(yǔ)言數(shù)據(jù)的預(yù)處理相關(guān)工作,相關(guān)的處理方法如下。
①數(shù)據(jù)的裝載
data=pandas.read_csv("./data.csv");
或data=pandds.ExcelFile("./data.xlsx");
其中,函數(shù)參數(shù)為對(duì)應(yīng)讀取文件的路徑。而data 變量為生成的Data Frame 的數(shù)據(jù)結(jié)構(gòu)。通過(guò)此方法,可讀取.csv 或.xlsx 類型數(shù)據(jù)。下面即可使用科學(xué)數(shù)據(jù)庫(kù)對(duì)數(shù)據(jù)進(jìn)行處理。
②缺失值的處理
關(guān)鍵操作如下:
index_null=pandas.isnull(column);
column_null_true=column[index_null];
其中,column為待處理的數(shù)據(jù)列。pandas庫(kù)中使用isnull()方法可以獲取列數(shù)據(jù)中缺失數(shù)據(jù)的索引,通過(guò)獲取到的缺失數(shù)據(jù)索引再對(duì)缺失值進(jìn)行處理。
對(duì)于員工指標(biāo)數(shù)據(jù)中的缺失值,要根據(jù)指標(biāo)不同的重要程度采取對(duì)應(yīng)的措施,如:再次補(bǔ)錄或使用所有數(shù)據(jù)中的某個(gè)統(tǒng)計(jì)量代替(最小量、最大量、中位量、眾量等)。
③無(wú)關(guān)值的刪除與相關(guān)值的合并
無(wú)關(guān)值刪除關(guān)鍵的操作為:
data.drop('column',axis=1)
執(zhí)行該操作可刪除名為data 中列的名字為column 的數(shù)據(jù),其中axis=1 代表對(duì)列進(jìn)行刪除操作;
對(duì)于相關(guān)數(shù)據(jù)可使用data["column"]引用對(duì)應(yīng)列的數(shù)據(jù),之后可使用對(duì)應(yīng)的運(yùn)算向相關(guān)的數(shù)據(jù)行處理或合并。如:
data["column1"]=data["column1"]+data["column2"]
data.drop('column2',axis=1)
上述操作實(shí)現(xiàn)了對(duì)列1 與列2 相關(guān)數(shù)據(jù)的合并。
在員工相關(guān)數(shù)據(jù)的處理中,對(duì)姓名、序號(hào)、工號(hào)等與績(jī)效評(píng)估無(wú)關(guān)的數(shù)據(jù)可在進(jìn)行考評(píng)前刪除;對(duì)諸如入職年份、工齡、出勤次數(shù)、缺勤次數(shù)等可先根據(jù)其相關(guān)關(guān)系,對(duì)數(shù)據(jù)進(jìn)行合并。
④連續(xù)數(shù)據(jù)的離散化
連續(xù)數(shù)據(jù)離散方法如下:
其中,data 為DataFrame 格式的數(shù)據(jù),fun 為自定義的操作函數(shù),可通過(guò)自定義系列操作函數(shù)完成復(fù)雜的數(shù)據(jù)處理。
實(shí)現(xiàn)連續(xù)數(shù)據(jù)離散化的自定義函數(shù)格式如下:
其中,column 為待處理的數(shù)據(jù)列的列名稱,column data 為根據(jù)列名獲取的列數(shù)據(jù),value 為指定的連續(xù)數(shù)據(jù)的分割值,class1、class2 分別為指定的離散化后數(shù)據(jù)的類名稱。
該文將對(duì)員工工作的考評(píng)問(wèn)題等價(jià)于對(duì)相關(guān)工作數(shù)據(jù)的分類操作。近年來(lái)有多種人工智能算法被應(yīng)用于分類問(wèn)題,文獻(xiàn)[7-8]使用SVM 算法實(shí)現(xiàn)對(duì)遙感圖像及恒星光譜的分類。文獻(xiàn)[9-10]使用神經(jīng)網(wǎng)絡(luò)相關(guān)算法實(shí)現(xiàn)了文本及目標(biāo)圖像的分類;文獻(xiàn)[11-12]使用K 近鄰算法實(shí)現(xiàn)對(duì)多標(biāo)簽數(shù)據(jù)及高速鐵路故障的分類;文獻(xiàn)[13-16]使用決策樹(shù)或決策森林實(shí)現(xiàn)了對(duì)數(shù)據(jù)的分類。其中,決策樹(shù)算法具有實(shí)現(xiàn)簡(jiǎn)單、運(yùn)算量小、決策過(guò)程透明且可復(fù)現(xiàn)等優(yōu)點(diǎn),綜合考慮相關(guān)因素,本體系采用決策樹(shù)算法。
決策樹(shù)算法利用信息熵原理對(duì)數(shù)據(jù)進(jìn)行分類,信息熵值可表征數(shù)據(jù)的混亂程度,信息熵定義為:
式(1)中,H為數(shù)據(jù)集的信息熵,Pi為對(duì)應(yīng)數(shù)據(jù)i在整個(gè)數(shù)據(jù)集中發(fā)生的概率,n為數(shù)據(jù)集中數(shù)據(jù)的類數(shù)。
決策樹(shù)算法的實(shí)現(xiàn)過(guò)程如下:
1)計(jì)算整個(gè)數(shù)據(jù)集的信息熵:
式(2)為整個(gè)數(shù)據(jù)集熵的計(jì)算方法。其中,ni是每類數(shù)據(jù)在數(shù)據(jù)集中的個(gè)數(shù),N為數(shù)據(jù)集中數(shù)據(jù)總個(gè)數(shù);
2)計(jì)算信息熵的增益,信息熵增益的計(jì)算方法如式(3)所示。
式(3)中,Nt為對(duì)應(yīng)枝的概率,Ci為數(shù)據(jù)集信息熵,Ci,j為添加分割屬性j后的信息熵。然后,選擇熵增益最大的屬性作為根節(jié)點(diǎn),完成分割后再重新執(zhí)行上述決策樹(shù)算法的步驟1)和2)。
由此即可建立出決策樹(shù)的分類模型。同時(shí),可視化該模型即為反饋激勵(lì)模塊的輸出。
由于決策樹(shù)的透明性及可復(fù)現(xiàn)性[17-19],在生成決策樹(shù)后,整個(gè)決策過(guò)程可進(jìn)行輸出,通過(guò)決策過(guò)程可表現(xiàn)出各個(gè)指標(biāo)在評(píng)估過(guò)程中的重要程度。因此,將評(píng)估過(guò)程生成的數(shù)據(jù)反饋給被評(píng)估者,可以使被評(píng)估者清楚地了解自己在工作中的不足,以及各評(píng)估指標(biāo)的重要程度,從而激勵(lì)被考評(píng)者的工作潛能與積極性。
選取某企業(yè)員工工作考核表數(shù)據(jù)進(jìn)行系統(tǒng)實(shí)現(xiàn),數(shù)據(jù)集中共40 名員工。經(jīng)數(shù)據(jù)預(yù)處理后[20-21],提取與工作關(guān)聯(lián)較大的指標(biāo)有:Jobage、Task、Language、Teamwork 和Professional,而考評(píng)結(jié)果從優(yōu)到劣分為由A 到D 共5 個(gè)類別,其中B 類2 個(gè)。
選取數(shù)據(jù)集中24 名員工為訓(xùn)練集,剩余16 名員工為測(cè)試集對(duì)該考評(píng)系統(tǒng)進(jìn)行測(cè)試。24 個(gè)訓(xùn)練集中5 類考核結(jié)果個(gè)數(shù)分別為:3,5,9,5,2。由式(1)得初始集合的信息熵為:
將式(5)代入式(4)中得:H=1.975 4;
對(duì)應(yīng)Task 為excellent 時(shí),共有8 個(gè)樣本,各類考核結(jié)果的個(gè)數(shù)分別為:3、3、2,則此時(shí)信息熵為:
同理可得,當(dāng)Task 為good、poor 時(shí):
則由式(2)對(duì)應(yīng)Task 的信息熵為:
則選Task 為根節(jié)點(diǎn)的信息熵增益為:
同 理,計(jì) 算 對(duì) 選Jobage、Language、Teamwork、Professional 為根節(jié)點(diǎn)計(jì)算信息增益率,如表1 所示。
表1 確定根節(jié)點(diǎn)熵增益表
根據(jù)表1 可知,Task 屬性的信息增益最高,因此選擇其為根部節(jié)點(diǎn)。同理,根據(jù)信息增益的數(shù)值,依次確定決策樹(shù)的決策過(guò)程如圖2 所示。
圖2 決策過(guò)程
使用該決策樹(shù)對(duì)6 個(gè)測(cè)試樣本進(jìn)行考評(píng),考評(píng)結(jié)果如表2 所示。
表2 考評(píng)結(jié)果
由數(shù)據(jù)結(jié)果可知,考評(píng)的正確率可達(dá)94%,驗(yàn)證了該體系的正確性和有效性。同時(shí),系統(tǒng)把決策過(guò)程也反饋給被考評(píng)的員工,從該過(guò)程中,員工可以獲得以下信息:明晰自己績(jī)效的變化,Task 指標(biāo)的重要性,了解Jobage、Teamwork 和Professional 等指標(biāo)的信息,從而起到對(duì)員工的激勵(lì)作用。
該文利用人工智能相關(guān)算法及深度數(shù)據(jù)分析技術(shù)構(gòu)建員工的工作考評(píng)體系。該體系中利用數(shù)據(jù)挖掘技術(shù),對(duì)獲取的員工數(shù)據(jù)進(jìn)行清理、集成與變換,即使用決策樹(shù)算法利用處理好的數(shù)據(jù)實(shí)現(xiàn)員工工作的考核評(píng)價(jià)。同時(shí),利用評(píng)價(jià)過(guò)程對(duì)員工進(jìn)行反饋激勵(lì),使員工評(píng)價(jià)考核體系幾乎無(wú)主觀因素的影響,且更加智能化。該體系也存在一些不足,例如:為使評(píng)價(jià)考核的過(guò)程更加清晰明了、保持良好的運(yùn)算速度,該文未使用多棵決策樹(shù)組成隨機(jī)森林算法,導(dǎo)致了考評(píng)結(jié)果的準(zhǔn)確率有所降低,而且在出現(xiàn)多類的葉子節(jié)點(diǎn)時(shí),仍需人工進(jìn)行再次分類。