基于員工績效考評結果的質量檢驗方法研究

2018-03-03 00:47唐國銀

大陸橋視野·下 2018年2期

關鍵詞：誤差

【摘要】員工績效考評是現(xiàn)代企業(yè)人力資源管理工作科學化的基礎與手段，員工績效考評結果的質量關系到企業(yè)人力資源管理工作的科學性與公平性，也成為廣大員工十分關心的工作。本文闡述了對員工績效考評結果的質量進行檢驗的具體方法。

【關鍵詞】員工績效考評；可信度；有效度；誤差

【Abstract】Personnel evaluation is the foundation and method of scientific human resources management in modern enterprise. The quality of its result has relation to scientificity and impartiality of human resources management， which becomes a major concern for all the employees. This paper expounds specific methods that test the quality of personnel evaluation result.

【Key words】Personnel Evaluation；Reliability；Availability；Error

員工績效考評是現(xiàn)代企業(yè)管理的一項經常性工作，是現(xiàn)代企業(yè)人力資源管理工作科學化的基礎與手段，員工績效考評的結果是企業(yè)決定員工獎懲、晉升和勞動報酬發(fā)放的依據(jù)，涉及到員工的切身利益，也成為廣大員工十分關心的工作。員工績效考評結果的質量直接關系到企業(yè)人力資源管理工作的科學性與公平性，因此，加強對員工績效考評結果的檢驗，提高員工績效考評結果的質量是一項十分重要的工作。員工績效考評結果質量檢驗的指標主要包括可信度、有效度、區(qū)分度、適合度、獨立性等。

一、可信度

考評結果的準確性反映可信度的高低，對于這種準確性的檢驗可以運用再測信度分析、復本信度分析、一致性信度分析與考評者信度分析等方法。

（一）再考信度

假定在市場買了20公斤大米后感覺重量不夠，到公平秤上再行稱量，如果也是20公斤，那他就會覺得大米確實有20公斤，因為兩次稱得的結果完全一樣，這說明此時變異程度為0。

考評結果以同樣的考評工具、考評方式與考評對象再次考評獲得結果的變異程度是對再考性度的具體反應。

而員工績效考評則沒那么簡單，會涉及到許多因素，考評標準有時也無法準確定義，因此很難像商品重量那樣以兩次稱得結果之差來反映其準確性。通常是把對個別考評結果的準確性檢驗置于群體考評結果的相互關系之中，轉化為兩次位置關系的一致性分析。當同一對象的考評結果以同樣的考評方式再次獲得后，其順序位置關系變異較小時，則說明考評結果比較準確。

如果在技能考評中李某的分數(shù)是92，在全體被考者中排第二位，這到底準不準呢？我們再重復考評一次，結果李某的分數(shù)是87分，還是排第二名，而且其他被考的位置順序變化很小，那么可以說第一次的技能考評結果是很可靠的。

對于這種位置關系一致性的比較，最為簡單的方法是計算兩次考評結果的積差相關系數(shù)。公式如下：

式中：N=兩次考評結果數(shù)據(jù)配對總數(shù)；

x =被分析的考評結果（分數(shù)）；

y =重復考評得到的考評結果（分數(shù)）。

r越接近1則說明考評結果（x）越準確可靠，越可信。

在對某次品德考評的分數(shù)的可靠性進行考評中，隨機抽取了10個被考的分數(shù)，它們分別是：

73 71 80 84 76 77 78 68 74 75

重新考評后，10個被考的分數(shù)分別是：

83 75 81 90 82 88 87 84 80 86

先把這兩組分數(shù)按照被考兩兩配對，計算方法如下：

代入公式得：

經統(tǒng)計檢驗，相關系數(shù)未達到顯著水平，因此該次品德考評分數(shù)不太可靠。

（二）復本信度

考評給果相對另一種非常相同的考評的結果的變異程度?！胺浅Ｏ嗤?，指在考評內容、效度、要求、形式上都一樣，可以說其中一個考評可以看作是另一個考評的近似復寫或重復。因此復本信度是一種用等值系數(shù)（即兩組考評結果的相關系數(shù)）表示的信度。

在對10個被考評對象的考評中，他們接受了一次技能水平的觀察評定，名次分別是：

1 2 3 4 5 6 7 8 9 10

為了檢驗上述考評結果的可靠性又同時進行了另一次等值的技能觀察評定，10個被考對象得到的對應名次分別是：

3 2 1 4 5 6 10 6 9 8

可以用下列等級相關公式求出等值系數(shù)：

式中：N=考評結果的總個數(shù)（被考人數(shù)）；

D=對應同一個被考兩次評定等級（名次）的差，一般以被檢驗的考評結果為被減數(shù)。在本例中10個被考的等級差分別為：

-2 0 2 0 0 0 -3 2 0 2

代入公式有：

經統(tǒng)計檢驗，相關系數(shù)達到顯著水平，因此第一次所作的觀察評定結果比較可靠。

（三）一致性信度

考評對象在考評項目分數(shù)間的一致性程度。如果被考在第一個項目上比其他人分數(shù)高，在第二個項目上又比其他人高，在第三個項目上也比其他人高……，相反另一個人在第一個項目上比其他人的分數(shù)低，在第二個項目上又比其他人的分數(shù)低，在第三個項目上也比其他人的分數(shù)低，那么，毫無疑問，我們會認為考評結果比較可靠。

對這種信度的分析，常用系數(shù)分析法。系數(shù)分析，實際上是通過克朗巴赫公式計算一致性系數(shù)。公式如下：endprint

某組被考在評價中心考評過程中，分別接受了數(shù)種考評，統(tǒng)計結果如下表。

上述所有考評都是考評管理能力。共有6個項目，因此代入公式有：

經統(tǒng)計檢驗，達到顯著水平以上，因此可以說該次評價中心所獲得的考評結果是較可靠的。

（四）考評者信度

員工績效考評結果的差異程度來自兩個方面，一是被考本身，另一是考評者及其考評。這里是以后者作為依據(jù)，當考評者及其考評的無關差異越小，說明考評結果就越可靠。

評分者信度分析，一般采用肯德爾和諧系數(shù)公式計算出信息系數(shù)：

二、有效度

有效度，是指考評結果對所考評對象反映的真實程度。包括內容效度、關聯(lián)效度和結構效度。

（一）內容效度

實際考評到的內容與我們所想考評內容的一致性程度。當實際所考評到的內容與我們事先所想考評的內容越趨于一致時，則說明考評結果的內容效度越高，考評結果就越有效。

內容效度的分析，可以從兩個方面分析：（1）是否包括了所考評對象中的各種成分；（2）包括在考評范圍內的行為樣本的比例結構是否與工作分析的結果相一致。如果包含于員工績效考評范圍內的行為樣本，沒有遺漏任何重要的成分，所考對象中的每一種基本成分，都沒有被忽略或過分地強調，則考評結果在內容上與所考對象是相一致的，考評結果具有很高的內容效度。

內容效度的分析主要是定性方法。一般地，采取專家比較判斷法，由多位專家分析，評判是否有內容效度，再按照下列公式計算。

（二）結構效度

實際所考評的結果與我們所想考評對象的同構程度。這是人員考評中人們最為關心的一種效度，因為人員考評具有間接性。人們總是通過選取一些具體的行為考評來推斷實際的對象水平。因此必然會出現(xiàn)“你所觀察到的行為是否表明了被考者真實的水平呢？”等疑問，這是雇主、管理者與被考評者對考評結果有效性最為關心的問題。

結構效度，與檢驗人員對考評對象結構的理解有直接關系。如果李某認為忠誠這一素質是對本企業(yè)的忠誠，張某認為忠誠這一素質主要表現(xiàn)為實事求是的態(tài)度，那么當向其他企業(yè)說明本企業(yè)產品所存在的問題時，顯然李某與張某會把它歸類到不同的素質成分中并給予不同的評價。可見結構效度的檢驗分析是一種定性的主觀判斷，應把主觀影響性控制在最低限度。

（三）關聯(lián)效度

考察考評結果與某種標準結果的一致性程度，就要對關聯(lián)效度進行分析，而關鍵在用來衡量考評有效性的參照標準即效標的選擇。效標可以細分為觀念效標與行為效標。選拔考評管理人員的觀念效標是“優(yōu)秀管理者”，對于什么是優(yōu)秀管理者，可能智者見智、仁者見仁，眾說紛紜，效度也就無法分析。我們必須把觀念效標具體化與可操作化，可用專家對優(yōu)秀管理人員評定的分數(shù)、群眾的選票或產值利潤指標等量化結果作為行為效標，進行效度分析。如果一個理想的觀念效標，找不到合適的行為效標進行具體化與操作化，是毫無意義的。所以可以通過客觀性存在的學術成就、特殊訓練成績、實際工作表現(xiàn)與成績、團體特征、等級評定結果等行為作為效標選擇基準。

三、項目分析

考評結果（分數(shù)）幾乎都是由考評指標、考評項目、考評試題等項目得分綜合而成的，項目質量的好壞直接影響到考評結果的真實性、正確性與準確性。效度與信度的分析，是直接對考評結果質量的考查，而項目分析，則是間接地對考評結果做微觀性解剖。項目質量好，則對應的考評得分就有效正確，從而整個的考評結果也就正確與可靠。項目質量的考評通過適合度、區(qū)分度、獨立性、選項質量等主要指標來不斷完善。

（一）適合度

對于員工績效考評來說，項目不僅僅是試題，更多的是一些咨詢問題或觀察評定點（指標），它們無難易之分，而只有是否適合之別。

適合度，特指被考者行為（包括回答與實際表現(xiàn)）符合項目考評標準的程度。當項目為試題時，被考者的行為是口頭回答或選項回答，項目考評標準即正確答案，符合程度即難度；當項目為觀察評定量表中的指標時，被考者的行為即為其實際表現(xiàn)行為，項目考評標準即量表中規(guī)定的評分標準，符合程度即指所有被考得分平均值與指標滿分值之比。

P=適合度，P越接近1，說明項目越適合被考，P越接近0，說明項目越不適合被考。

例如，在管理素質考評中，指揮協(xié)調能力這項指標滿分為10分，而7個被考者在面試中的平均得分是8，則該項指標的適合度為P=0.8

在業(yè)績考評中，某單項考評指標有40人達標，其余10人未達標。那么該項指標的適合度為：

（二）區(qū)分度

項目把具有不同水平的考評對象區(qū)分開來的鑒別能力。

區(qū)分度在選擇性考評中非常重要，區(qū)分度高的項目往往可以很明顯地把素質優(yōu)秀的人員與一般的人員區(qū)分開來。區(qū)分度分析與適合度一樣，不同性質的項目會有不同的方法。對于二值計分的項目（要么滿分要么零分），可以采取點雙列相關系數(shù)公式來計算：

對非二值評分的項目，則可以采取積差相關公式，項目得分與總分的相關系數(shù)揭示項目區(qū)分度的大小。相關系數(shù)越大則說明項目區(qū)分度越高。

（三）獨立性

在能力考評中，常常要求項目之間具有一定的獨立性。獨立性即非相關性。例如，有10個項目的測驗，每個項目都是中等難度（p=q=0. 5），而且所有項目互相完全相關（r=1），那么在一個項目上答對的人在其他項目上也必然對，而在一個項目上答錯的人則在其他項目上也必然錯。這樣測評結果只有兩種可能，0分或10分（每題一分）。這種測驗無法把中間水平的人區(qū)分開來。

項目的獨立性分析，一般用項目間分數(shù)的相關系數(shù)來表示。當相關系數(shù)越大時，則說明獨立性越小。

在某項測試中，A題與B題同時做對的人數(shù)有15個，同時做錯的人有21個，做對B題而做錯A題的人有26個，做對A題而做錯B題的人有29個，試分析A題與B題的相互獨立性。endprint

1.列表。

2.計算系數(shù)。

3.進行相關性的顯著性檢驗。

經統(tǒng)計檢驗表明，為非顯著性相關。因此A題與B題具有較好的獨立性。

（四）選項質量

在能力考評中大部分采用的項目，都是選擇題形式，選擇項中誘答題或正答題擬定得好壞直接決定著整個試題的質量及其分數(shù)的可信性。誘惑力實際還揭示了選項的區(qū)分力與試題的難度。如果某選擇題中的大多數(shù)選項的誘惑力都很強，那么這個題就是一個比較難的試題了。

四、其他質量指標的檢驗

（一）客觀性

考評結果的客觀性由考評方法的客觀性與考評者的客觀性兩方面構成。

考評方法的客觀性指它對考評者主觀影響的控制程度。一般來說，客觀的考評方法對操作者的經驗沒有什么特別的要求，操作越簡單，越容易把握，考評結果就越客觀；同時考評的內容越單一則越準確。

考評者的客觀性可以通過比較其考評結果與其他人的考評結果來分析。既可以用該考評者考評結果與其他人考評結果的平均數(shù)之差來反映這種客觀性，也可以用他和其他人考評的平均結果之間的相關系數(shù)來表示。

（二）總體分布與水平

總體分布是指考評結果在各水平層次上的分布情況，其分布內容主要是統(tǒng)計各個分數(shù)段上的人數(shù)分布。包括最高分、最低分、偏態(tài)與峰態(tài)等情況?？傮w水平，一般指對考評結果集中量的分析，內容包括眾數(shù)，平均數(shù)，重要指標上的得分情況等。

（三）區(qū)分性與差異性

考評、尤其選拔性考評，目的是通過考評把不同水平的被考者相互區(qū)分開來?？荚u結果的區(qū)分性則反映這種要求的滿足程度?？荚u結果區(qū)分性一般通過其差異性的分析來表示，考評結果的差異性分析，包括兩極差、四分差、平均差、方差、標準差、差異系數(shù)等指標內容，其中標準差、方差與差異系數(shù)比較常用。

（四）誤差

誤差是指通過考評結果的定性定量分析，判斷考評結果是否受到心理效應的嚴重影響指標，以及單個考評結果的置信區(qū)間。

1.心理效應誤差種類與分析。

（1）哈羅效應誤差

哈羅效應又稱暈輪效應，考評者往往會因為對被考者整體印象的好壞而影響他對每個指標的考評。如看到一個人相貌端莊、嚴肅，就容易產生此人責任感很強的看法。由哈羅效應引起的誤差，叫哈羅效應誤差。

上表考評結果比較可見，考評者A的考評結果明顯受到哈羅效應的影響。

哈羅效應還表現(xiàn)為因對某個重要因素的印象好壞而對整體評價產生影響，所謂一好百好，一丑百丑，顯然這是一種泛化影響。

（2）趨中心理誤差。趨中心理誤差，是指因為考評者既不愿把被考評得過好，也不愿評得過差而過于集中在中間分數(shù)段產生的誤差。這種誤差使有差異的被考得到相近的分數(shù)，缺乏區(qū)分性。

（3）寬大心理誤差。寬大心理誤差是指因考評者不堅持考評的標準要求，就高不就低地考評而產生的誤差。這種誤差表現(xiàn)為皆大歡喜、高分低能。

另一種負向寬大心理誤差，則是過于嚴格，以一些脫離實際高標準去考評人或事，考評結果普遍較低。

（4）邏輯誤差。邏輯誤差指考評者不是實事求是地對每個對象獨立地考評，而是依據(jù)其相關性特點進行邏輯上的推斷。它與哈羅效應的區(qū)別在于后者是以印象為依據(jù)，而前者以邏輯關系為依據(jù)。控制這種誤差的方法是以客觀事實為依據(jù)，將特征上存在邏輯關系的指標間隔開，不要放在一起。

2.標準誤與置信區(qū)間。標準誤，指的是樣本的變化性，是對考評結果誤差的數(shù)值描述，是反映實得分數(shù)在真分數(shù)附近變異的一個指標。

真分數(shù)即反映被考者實水平的那個分數(shù)。由于考評誤差存在的客觀性，我們無法求得真分數(shù)，能做到的就是用實得分數(shù)去推測真分數(shù)。

推側的方法是在所給定的可靠度要求下分析真分數(shù)與實得分數(shù)的差異范圍。如果選擇a=0.05或者說95%的可靠性水平要求，那么真分數(shù)與實得分數(shù)差異的范圍大約在上下1.96個標準誤差之間，這個區(qū)間我們把它稱之為實得分數(shù)的置信區(qū)間。因為它表明了實得分數(shù)的可信度水平及范圍。

標準誤的計算公式如下：

式中：

=標準誤；

x=考評結果；

=全體考評結果平均數(shù)；

N=考評結果總個數(shù)。

如果采取觀察評定法，考評者考評了10名被試員工，其分數(shù)分別為96，72，46，93， 68， 93， 82， 91，95，67，假定在99%的把握水平上認為71分反映了所對應被考評員工真實水平，那么此時的可信區(qū)間應該如何確定。

（1）計算平均分數(shù)

（2）計算標準誤

（3）求對應置信（系數(shù)）水平（99%）的t值

因為=10-1=9，=1-99%=0.01，查t分布表得：

（4）求出置信區(qū)間

這就是說，得71分的被考評員工，其真實水平大約是53.97分與88.03分中的某一個分數(shù)，如果從中抽出100個數(shù)大約有99個是對的。在實際工作中，由于員工績效考評受主、客觀因素的影響，員工績效考評結果與實際情況不完全符合，所以有時應綜合運用上述方法對考評工作質量進行具體分析，采取切實可行的糾偏措施，以提高員工績效考評結果的準確性與公正性是一項十分重要的工作，也是現(xiàn)代企業(yè)人事管理中值得進一步研究的課題。

參考文獻：

[1]蕭鳴政，現(xiàn)代員工績效考評技術及其應用，中國人民大學出版社，1997年.

[2]（日）彌富賢之著，王中樓等譯，企業(yè)人事評價，陜西師范大學出版社2002年.

[3]（美）G·小史密斯著，郭光熾等譯，勞動量測定，機械工業(yè)出版社，2000年.

作者簡介：

唐國銀（1969—），男，安徽池州人，安徽財貿職業(yè)學院，副教授，研究生，研究方向：企業(yè)管理方向。endprint

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于員工績效考評結果的質量檢驗方法研究