国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

國(guó)家公務(wù)員遴選策論的多面Rasch模型應(yīng)用

2021-12-16 14:45:26李英武張海麗胡心約

李英武 張海麗 胡心約

摘?要:基于多面Rasch模型(MFRM),對(duì)某中央直屬系統(tǒng)公務(wù)員遴選策論的主觀評(píng)分偏差進(jìn)行分析,探討考生的能力水平,評(píng)分者寬嚴(yán)度、評(píng)分內(nèi)部一致性、維度難度和評(píng)分量尺等因素對(duì)遴選考試決策的影響。結(jié)果發(fā)現(xiàn):評(píng)分者的寬嚴(yán)度差異顯著;評(píng)分者對(duì)特定評(píng)分維度的使用差異顯著;評(píng)分者與評(píng)分維度間交互作用顯著,不同評(píng)分者在特定評(píng)分指標(biāo)上評(píng)分偏差明顯。通過(guò)MFRM分析公務(wù)員遴選策論的測(cè)評(píng)結(jié)果,可深入了解考生的真實(shí)能力差異,策論評(píng)分維度的難度,并對(duì)公務(wù)員遴選測(cè)評(píng)中的主觀評(píng)分偏差來(lái)源進(jìn)行甄別,以完善國(guó)家公務(wù)員策論試題命制,建立評(píng)分者培訓(xùn)體系,提高公務(wù)員遴選考試決策的科學(xué)性,夯實(shí)考試測(cè)量學(xué)的理論與方法基礎(chǔ)。

關(guān)鍵詞:公務(wù)員遴選;策論;評(píng)分者偏差;多面Rasch模型

中圖分類號(hào):D630?文獻(xiàn)標(biāo)識(shí)碼:A?文章編號(hào):1009-3176(2021)06-089-(11)

一、問(wèn)題提出

“育才造士,為國(guó)之本?!必瀼匦聲r(shí)代黨的組織路線,建設(shè)忠誠(chéng)干凈擔(dān)當(dāng)?shù)母咚刭|(zhì)干部隊(duì)伍是關(guān)鍵,重點(diǎn)是要做好干部培育、選拔、管理、使用工作[1]。為優(yōu)化領(lǐng)導(dǎo)機(jī)關(guān)公務(wù)員隊(duì)伍結(jié)構(gòu),我國(guó)黨群機(jī)關(guān)、政府部門(mén)根據(jù)政策規(guī)定,從已具備公務(wù)員身份和相關(guān)資歷的人員中選拔公務(wù)員的方法,稱為公務(wù)員遴選。通過(guò)遴選,具備優(yōu)秀基層工作經(jīng)驗(yàn)的公務(wù)員,進(jìn)入到上一級(jí)機(jī)關(guān)工作,對(duì)優(yōu)化公務(wù)員隊(duì)伍來(lái)源和經(jīng)歷結(jié)構(gòu)、擴(kuò)大選人用人視野、建立來(lái)自基層的公務(wù)員選拔培養(yǎng)鏈,起到了重要作用[2]。

公務(wù)員遴選,一般采用考試與考察相結(jié)合的選拔方式,考慮到考生均已有公務(wù)員身份以及政府機(jī)關(guān)急需“筆桿子”的現(xiàn)實(shí)要求[3],遴選筆試主要采用對(duì)策性論文寫(xiě)作測(cè)驗(yàn)(以下簡(jiǎn)稱“策論”),對(duì)考生的政策理論水平、分析和解決實(shí)際問(wèn)題的能力等素質(zhì)進(jìn)行評(píng)估。測(cè)評(píng)中通常需要評(píng)分者使用評(píng)分量尺,對(duì)考生的策論寫(xiě)作表現(xiàn)進(jìn)行主觀賦分。既往的研究顯示,主觀評(píng)分類測(cè)驗(yàn),易受多種因素的影響而產(chǎn)生評(píng)分者偏差(Rater Bias)[4],即評(píng)分偏離既定標(biāo)準(zhǔn)所表現(xiàn)出的系統(tǒng)性行為模式,導(dǎo)致考生原始觀測(cè)分?jǐn)?shù)與真實(shí)能力出現(xiàn)偏差。如,考官寬嚴(yán)尺度不穩(wěn)定(Severity Drift)、隨意評(píng)分或者打中間分保險(xiǎn)分,分?jǐn)?shù)趨中化(Central Tendency)等,均可導(dǎo)致評(píng)分者偏差,不僅會(huì)影響考生的成績(jī)?cè)u(píng)分,更會(huì)威脅考試的科學(xué)性和公平性[5]。

2013年,王寓周對(duì)某省政協(xié)機(jī)關(guān)的遴選考試成績(jī)進(jìn)行了研究,追蹤調(diào)查了考生入職后的工作表現(xiàn),發(fā)現(xiàn)部分遴選筆試高分考生進(jìn)入機(jī)關(guān)后,實(shí)際的工作表現(xiàn)并不理想[6]。由此可見(jiàn),有效甄別遴選策論中的主觀評(píng)分偏差,不僅是學(xué)術(shù)界關(guān)注的測(cè)量學(xué)問(wèn)題,在實(shí)際工作中同樣對(duì)規(guī)范公務(wù)員遴選程序具有重要價(jià)值。但現(xiàn)有公務(wù)員遴選研究,關(guān)注評(píng)分者偏差問(wèn)題尚缺乏實(shí)證數(shù)據(jù)分析。近期的研究顯示,主觀評(píng)價(jià)類測(cè)驗(yàn)在閱卷時(shí),通常要求評(píng)分者綜合卷面信息,通過(guò)觀察感知,從記憶中提取評(píng)分線索,權(quán)衡使用評(píng)分標(biāo)準(zhǔn),對(duì)考生的能力進(jìn)行推論,做出錄用決策判斷[7]。復(fù)雜的評(píng)分環(huán)節(jié),均可能受到個(gè)體認(rèn)知偏差的影響,導(dǎo)致成績(jī)?cè)u(píng)定無(wú)法反映考生的真實(shí)能力水平[8]。如,在英語(yǔ)綜合閱讀和寫(xiě)作測(cè)試研究中發(fā)現(xiàn),評(píng)分者寬嚴(yán)度可顯著影響成績(jī)?cè)u(píng)價(jià)[9]。有鑒于此,研究者呼吁,應(yīng)關(guān)注主觀評(píng)價(jià)類考試中評(píng)分偏差的來(lái)源及其影響[10]。

1.理論基礎(chǔ)

為解決上述議題,本研究在選擇可適用的理論模型時(shí),綜合考慮考生的能力、題目任務(wù)難度、評(píng)分者寬嚴(yán)度和項(xiàng)目難度四個(gè)參數(shù)。梳理國(guó)內(nèi)外的文獻(xiàn)發(fā)現(xiàn),學(xué)術(shù)界普遍認(rèn)為項(xiàng)目反應(yīng)理論(Item Response Theory,IRT)中的多面Rasch模型,能夠滿足公務(wù)員遴選策論筆試數(shù)據(jù)進(jìn)行主觀偏差分析的參數(shù)要求[11]。

項(xiàng)目反應(yīng)理論假設(shè),考生的潛在特質(zhì)水平與其在某一項(xiàng)目上的反應(yīng)之間存在函數(shù)關(guān)系,考生在某一項(xiàng)目的正確反應(yīng)概率(Response probability)越高,說(shuō)明考生潛在特質(zhì)能力(θ)水平越高。丹麥數(shù)學(xué)家Rasch提出了單參數(shù)Rasch模型,進(jìn)一步將考生能力(θ)、項(xiàng)目難度測(cè)得的實(shí)際值進(jìn)行等價(jià)轉(zhuǎn)換,賦予考生的能力值與項(xiàng)目難度以客觀和等距特性[12]。Linacre在單參數(shù)Rasch模型基礎(chǔ)上,進(jìn)一步提出多面Rasch模型(Many Facet Rasch Model, MFRM),認(rèn)為考生獲得特定分值的概率,不僅取決于考生能力(θ)和項(xiàng)目難度,還會(huì)受到評(píng)分者寬嚴(yán)度、評(píng)定量尺特定分?jǐn)?shù)等級(jí)難度等因素的影響[13],進(jìn)而導(dǎo)致主觀評(píng)分偏差的出現(xiàn)。由于MFRM在評(píng)分者偏差研究上具有顯著優(yōu)勢(shì),能夠甄別評(píng)分者整體和個(gè)體水平等多種類型的偏差,并為偏差提供了多種可靠的衡量指標(biāo)[14],近年來(lái)越來(lái)越多的研究者建議采用MFRM對(duì)主觀評(píng)分情境評(píng)分者偏差進(jìn)行甄別[15]。

2.研究問(wèn)題

2020年國(guó)家公務(wù)員局頒布的《公務(wù)員公開(kāi)遴選辦法(試行)》[16]規(guī)定,公務(wù)員遴選策論主要測(cè)評(píng)四個(gè)維度:一是對(duì)策合理性,主要考察應(yīng)試者是不是能準(zhǔn)確運(yùn)用與工作相關(guān)的法律、法規(guī)和有關(guān)政策;發(fā)現(xiàn)問(wèn)題、分析問(wèn)題,準(zhǔn)確把握事物的現(xiàn)狀和產(chǎn)生的影響;積極探索事物發(fā)展的規(guī)律,預(yù)測(cè)發(fā)展的趨勢(shì),有針對(duì)性地提出問(wèn)題解決相關(guān)對(duì)策的素質(zhì)。二是政策理論水平,主要考察應(yīng)試者是不是能正確理解并貫徹執(zhí)行黨和政府的各項(xiàng)方針政策,求真務(wù)實(shí),忠誠(chéng)執(zhí)行上級(jí)的各項(xiàng)決策和部署,服務(wù)于大局兼顧全局,完成工作任務(wù)的素質(zhì)。三是文字表達(dá)能力,測(cè)評(píng)考生運(yùn)用語(yǔ)言文字闡明觀點(diǎn)意見(jiàn),正確使用文字,流暢規(guī)范表達(dá)。四是論文邏輯性,測(cè)評(píng)考生論文寫(xiě)作結(jié)構(gòu)完整,表述簡(jiǎn)明扼要,句子中“指代關(guān)系”清晰,邏輯是平穩(wěn)的,無(wú)邏輯跳躍或邏輯斷層?;诩韧鶉?guó)內(nèi)外主觀評(píng)分偏差甄別研究范式[17],本研究采用MFRM分析,檢驗(yàn)公務(wù)員遴選策論評(píng)分中的主觀偏差來(lái)源及其對(duì)考生能力排序的影響。

二、研究方法

1.研究對(duì)象與程序

樣本數(shù)據(jù)來(lái)自2011年某直屬系統(tǒng)公務(wù)員遴選策論評(píng)分檔案數(shù)據(jù)(Archive Data)。研究者在128名策論評(píng)分者中,隨機(jī)抽取7名評(píng)分者及其對(duì)應(yīng)的98名考生評(píng)分?jǐn)?shù)據(jù)進(jìn)行分析。本次策論評(píng)分,分為四個(gè)評(píng)分維度(政治理論和政策水平,解決問(wèn)題措施或?qū)Σ叩暮侠硇?,文字表達(dá)能力,論文邏輯性),每個(gè)維度采用Likert10點(diǎn)評(píng)分。文字表達(dá)能力占總分權(quán)重的10%,論文邏輯性占總分權(quán)重的20%,政策理論水平占總分權(quán)重的20%,對(duì)策的合理性占總分權(quán)重的50%,策論總分為100分;參評(píng)考生計(jì)98人,其中男性84人(85.7%),女性14人(14.3%);年齡均值為36.53歲,標(biāo)準(zhǔn)差為5.45;大學(xué)本科學(xué)歷占22.4%,其余均為碩士及以上學(xué)歷。

2.模型及分析工具

研究采用Linacre編制的MFRM分析程序FACETS 3.80.4[18],對(duì)考生能力、評(píng)分者寬嚴(yán)度、題目難度、評(píng)分等級(jí)等因素進(jìn)行分析,該程序的模型函數(shù)表達(dá)式如下:

FACETS采用非條件極大似然法(Unconditional Maximum Likelihood)對(duì)MFRM中的各個(gè)參數(shù)進(jìn)行估計(jì)。在參數(shù)估計(jì)的過(guò)程中,評(píng)分等級(jí)之和被用作對(duì)模型中的每個(gè)側(cè)面進(jìn)行估計(jì)的充分統(tǒng)計(jì)量。通過(guò)FACETS分析,可得到考生的能力、項(xiàng)目的難度、評(píng)分者的寬嚴(yán)程度以及評(píng)分量表等級(jí)等側(cè)面的參數(shù)估計(jì)值,標(biāo)準(zhǔn)差以及模型擬合Fit統(tǒng)計(jì)量。

三、研究結(jié)果

1.考生MFRM分析結(jié)果

本次策論考試98名考生的能力值范圍為-1.49至3.15logits,全距為4.64logits,平均數(shù)為0.44(SE=0.97)。其中,66號(hào)考生能力水平最高,能力值為3.15logits(SE=0.26);27號(hào)考生能力水平最低,能力值為-1.49logits(SE=0.19),具體情況見(jiàn)表1。Infit值(InfitMnSq),表示評(píng)分者對(duì)考生評(píng)分的一致性程度。在MFRM中,F(xiàn)it值是描述模型預(yù)期值和觀測(cè)值之間差異的統(tǒng)計(jì)量,分為Outfit與Infit兩種統(tǒng)計(jì)量,Outfit統(tǒng)計(jì)量敏感性不足,因此大多數(shù)研究主要以Infit統(tǒng)計(jì)量作為衡量評(píng)分者一致性的依據(jù)。參照既往研究,本研究將Infit可接受的取值范圍設(shè)定為0.5至1.5[19]。

在表1中,考生能力估計(jì)值標(biāo)準(zhǔn)誤均方的平方根(RMSE)代表估計(jì)的平均誤差??忌芰烙?jì)值標(biāo)準(zhǔn)誤均方的平方根(RMSE)為0.21,表明考生的測(cè)量誤差很低。Adj S.D.是校正測(cè)量誤差之后估計(jì)值的標(biāo)準(zhǔn)差,Adj S.D.的平方即為真實(shí)變異,考生能力估計(jì)值標(biāo)準(zhǔn)誤均方的平方根(RMSE)代表估計(jì)的平均誤差A(yù)dj S.D.=0.95。分離比(Separation)是Adj S.D.除以RMSE得到的數(shù)值,表示測(cè)量分?jǐn)?shù)整體有效性,要達(dá)到傳統(tǒng)考試測(cè)量學(xué)0.90水平的置信度,Separation需要達(dá)到3.0。本研究中Separation的數(shù)值為4.50,符合測(cè)量學(xué)參數(shù)要求。進(jìn)一步考察模型真實(shí)變異占原始觀測(cè)值變異的比重,即分離信度(Separation Reliability),相當(dāng)于KR-20或Conbachα系數(shù),正常取值范圍是0~1[20],本次策論的分離信度值為0.95,說(shuō)明本次策論題目的內(nèi)部一致性較高,能將考生區(qū)分不同的能力水平。對(duì)考生之間能力的差異進(jìn)行χ2檢驗(yàn),結(jié)果表明χ2(97)=1941.6,p<0.01,參加策論測(cè)評(píng)的考生能力水平之間差異顯著。

在表1中,以每個(gè)評(píng)分者在各評(píng)分維度上的加權(quán)平均分?jǐn)?shù),作為考生最后的策論成績(jī),為了比較考生排序之間的差異,以及評(píng)分者的主觀偏差對(duì)考生產(chǎn)生影響,本研究將考生的策論原始分?jǐn)?shù)和基于MFRM矯正評(píng)分者偏差后分?jǐn)?shù)進(jìn)行了排序,因策論考試前5名考生有資格進(jìn)入下一輪面試,為此本研究重點(diǎn)分析前五名考生評(píng)分偏差情況。結(jié)果顯示,考生43、考生44按照原始分?jǐn)?shù)可進(jìn)入前5名面試范圍,但是按照MFRM矯正評(píng)分者偏差影響后的考生真實(shí)能力值排序,則考生45、考生46應(yīng)獲得面試資格。

2.評(píng)分者M(jìn)FRM分析結(jié)果

那么,為什么考生的策論成績(jī)排名會(huì)出現(xiàn)較大變動(dòng)呢?為此,本研究進(jìn)一步采用MFRM對(duì)評(píng)分者的寬嚴(yán)度情況進(jìn)行了分析。在表2中對(duì)評(píng)分者寬嚴(yán)程度以及評(píng)分內(nèi)部一致性(Intra Reliablity)進(jìn)行了匯總,并以評(píng)分者寬嚴(yán)程度進(jìn)行降序排序。

統(tǒng)計(jì)結(jié)果顯示,評(píng)分者2評(píng)分最嚴(yán)厲,評(píng)分者6評(píng)分最寬松。評(píng)分者的分離比為9.41,分離信度為0.99。對(duì)評(píng)分者之間寬嚴(yán)程度的差異大小進(jìn)行χ2檢驗(yàn),結(jié)果為χ2(6)=537.3,p<0.01,表明不同評(píng)分者之間寬嚴(yán)程度存在顯著差異。按照擬合統(tǒng)計(jì)量可接受的范圍(0.5~1.5),除評(píng)分者3以外,其他評(píng)分者對(duì)考生的遴選成績(jī)?cè)u(píng)分賦值處于合理區(qū)間,評(píng)分者3成為本研究主觀評(píng)分偏差的關(guān)注重點(diǎn)。

既往研究認(rèn)為,考官對(duì)評(píng)分標(biāo)尺的理解與掌握程度會(huì)影響評(píng)分偏差,為此本研究進(jìn)一步分析了評(píng)分者3的內(nèi)部評(píng)分一致性(Intra Reliablity,即采用相同標(biāo)準(zhǔn)為不同考生賦分情況)。數(shù)據(jù)顯示評(píng)分者3的Infit值為1.54,評(píng)分者3的內(nèi)部一致性較低,在評(píng)價(jià)96號(hào)考生的政策理論水平維度時(shí)給了2分,按照評(píng)分者3自身的寬嚴(yán)程度,對(duì)于該能力水平的考生,模型統(tǒng)計(jì)預(yù)期評(píng)分為5.7。實(shí)際評(píng)分跟模型期望分之間相差3.7分,偏離了4.2個(gè)標(biāo)準(zhǔn)差,屬于異常評(píng)定結(jié)果,初步判定評(píng)分者3未熟練掌握政策理論水平維度的評(píng)分賦值,存在隨意賦分風(fēng)險(xiǎn)。

3.策論評(píng)分維度的難度分析

從評(píng)分者3評(píng)分偏差分析可見(jiàn),不同題目評(píng)分維度難度情況會(huì)影響評(píng)分者偏差。為此研究進(jìn)一步對(duì)評(píng)分維度難度情況進(jìn)行了分析,見(jiàn)表4。數(shù)據(jù)分析顯示,對(duì)策合理性維度的難度值最高,政策理論水平在4個(gè)維度中評(píng)分者較容易掌握。所有評(píng)分維度均吻合MFRM模型期望,維度Infit值在0.5至1.5之間,即評(píng)分者跨評(píng)分維度的評(píng)分一致性較好,評(píng)分者在同一評(píng)分維度上的寬嚴(yán)度相近。評(píng)分維度的分離比為3.44,分離信度為0.92,分離信度卡方檢驗(yàn)結(jié)果χ(3)2=38.4,p<0.01,說(shuō)明現(xiàn)有遴選策論評(píng)分維度之間差異顯著,題目可較好區(qū)分考生能力,產(chǎn)生了期待中的考生表現(xiàn)差異。通過(guò)評(píng)估考生在策論考試評(píng)分維度上的表現(xiàn),可有效區(qū)分不同能力水平的考生。

4.策論評(píng)分量尺的評(píng)分等級(jí)分析

表5是對(duì)原始十點(diǎn)評(píng)分量尺使用情況的分析結(jié)果,表中第一列為量尺的評(píng)分等級(jí)。第二、三列是評(píng)分等級(jí)的使用次數(shù)及占總次數(shù)的比例。從表中可見(jiàn)評(píng)分等級(jí)1并未被評(píng)分者使用;等級(jí)6的使用次數(shù)最多,占總數(shù)的31.52%。說(shuō)明在本次策論評(píng)分者賦分相對(duì)寬松,傾向于給出較高分?jǐn)?shù)。平均能力估計(jì)值(Average Measure)是各等級(jí)所對(duì)應(yīng)的能力估計(jì)值,理論上來(lái)說(shuō),考生能力水平越高,獲得的評(píng)分等級(jí)越高。本研究中各等級(jí)的平均能力估計(jì)值呈遞增趨勢(shì),符合MFRM模型參數(shù)要求。Outfit MS值接近理想值1.0,表明該等級(jí)的評(píng)定可以對(duì)測(cè)量估計(jì)提供建設(shè)性的信息[21]。等級(jí)臨界值(Step Calibtrations Measure)即前后等級(jí)過(guò)渡點(diǎn)的能力值,當(dāng)考生能力低于這個(gè)臨界值時(shí),考生可能獲得前一等級(jí)評(píng)分;高于臨界值時(shí),更可能獲得后一等級(jí)得分,理論上獲得高分比獲得低分要求的能力更高,因而臨界值應(yīng)呈現(xiàn)遞增趨勢(shì)。表5的分析結(jié)果顯示,本次策論評(píng)分臨界值呈遞增趨勢(shì),符合MFRM模型參數(shù)要求。

從圖1的等級(jí)概率曲線圖中(橫軸是能力值,縱軸是獲得某一等級(jí)的概率)可以看到,除等級(jí)1未被評(píng)分者使用外,其他等級(jí)都有獨(dú)立波峰,說(shuō)明其他評(píng)分等級(jí)都有可能被相應(yīng)能力區(qū)間的考生獲得。總體而言,本次公務(wù)員遴選考試中策論采用Likert10點(diǎn)計(jì)分是可行的。

前面的分析涉及的是模型各側(cè)面的擬合性,而對(duì)于策論評(píng)分各維度整體的擬合性,通常以異常反應(yīng)(Unexpected Responses)作為指標(biāo),具體異常值統(tǒng)計(jì)匯總,見(jiàn)下表6。

根據(jù)Linacre提出的標(biāo)準(zhǔn),當(dāng)分?jǐn)?shù)標(biāo)準(zhǔn)化殘差(StRes)的絕對(duì)值大于或等于3的反應(yīng)小于或等于總反應(yīng)的l%,且分?jǐn)?shù)標(biāo)準(zhǔn)殘差的絕對(duì)值大于或等于2的反應(yīng)少于或等于總反應(yīng)的5%時(shí),則模型整體擬合度是可接受的[22]。本研究中,標(biāo)準(zhǔn)化殘差的絕對(duì)值大于或等于3的反應(yīng)有23個(gè),占總反應(yīng)(2744)的0.8%,說(shuō)明研究的觀察值與模型擬合程度是可接受的。

但應(yīng)該引起遴選考試管理者重視的是,政策理論水平評(píng)分維度,評(píng)分者共出現(xiàn)13次異常評(píng)分反應(yīng),對(duì)策合理性評(píng)分維度出現(xiàn)5次異常評(píng)分反應(yīng),分別占總異常評(píng)分反應(yīng)次數(shù)的57%和21%,說(shuō)明評(píng)分者在上述維度上的評(píng)分不穩(wěn)定。文字表達(dá)能力和論文邏輯性兩個(gè)維度評(píng)分者掌握較好,因此異常的評(píng)分反應(yīng)出現(xiàn)較少。其中,3號(hào)評(píng)分者異常評(píng)分反應(yīng)出現(xiàn)次數(shù)最多,共計(jì)11次,占總異常反應(yīng)次數(shù)的47%,占總異常反應(yīng)次數(shù)的26%,可初步推斷3號(hào)評(píng)分者對(duì)評(píng)分維度的掌握程度不夠牢固。

5.評(píng)分者與評(píng)分維度的交互作用分析

評(píng)分者與評(píng)分維度的偏差分析可考察評(píng)分者在不同難度評(píng)分維度上的評(píng)分偏差情況。

統(tǒng)計(jì)結(jié)果顯示,7名評(píng)分者與4個(gè)評(píng)分維度的28對(duì)組合中,評(píng)分者與評(píng)分維度之間偏差顯著情況,共出現(xiàn)了8次占28.57%。在評(píng)分維度1(政策理論水平)上,評(píng)分者2和評(píng)分者7傾向于給考生評(píng)定更高分?jǐn)?shù),評(píng)分者3傾向于給予更低打分;在評(píng)分維度2(對(duì)策合理性)上,評(píng)分者1傾向于給予低評(píng)分,評(píng)分者3和評(píng)分者4傾向于給予高分?jǐn)?shù);在評(píng)分維度3(論文邏輯性)上,評(píng)分者3傾向于給予高分?jǐn)?shù);在評(píng)分維度4(文字表達(dá)能力)上,評(píng)分者1傾向于給予更高的得分。總體統(tǒng)計(jì)結(jié)果顯示,評(píng)分者與評(píng)分維度的交互作用顯著(χ2(28)=160.1p<0.01),說(shuō)明維度難度可影響評(píng)分者的評(píng)分。

四、結(jié)論與討論

1.結(jié)果分析

本研究基于MFRM對(duì)2011年某直屬系統(tǒng)公務(wù)員遴選考試中策論測(cè)驗(yàn)的主觀評(píng)分偏差,從考生、評(píng)分者以及評(píng)分維度3個(gè)層面對(duì)策論數(shù)據(jù)進(jìn)行了分析。結(jié)果顯示,2011年該直屬系統(tǒng)遴選考試中使用的策論測(cè)驗(yàn),具有較好的內(nèi)部一致性,不同的評(píng)分維度可以有效區(qū)別考生不同側(cè)面的能力差異。對(duì)考生而言,最容易的題目是政策理論水平,得分最困難的是對(duì)策合理性。不同能力的考生在策論測(cè)驗(yàn)上的表現(xiàn)存在顯著差異,但考生的策論原始分?jǐn)?shù)與其MFRM能力值并不完全一致,相同能力的考生可能得到不同的名次。在公務(wù)員遴選考試的實(shí)踐當(dāng)中,在進(jìn)行錄用決策時(shí)往往是基于考生的策論原始成績(jī)排序來(lái)確定面試資格,本研究的分析顯示,遴選決策會(huì)受到評(píng)分者主觀偏差的影響,存在高能力考生被誤判出局的風(fēng)險(xiǎn)。

此外本研究發(fā)現(xiàn),評(píng)分者與評(píng)分維度之間的交互作用顯著,說(shuō)明評(píng)分者在特定評(píng)分維度上的評(píng)分偏差顯著。對(duì)此,存在三種理論解釋:一是評(píng)分者對(duì)不同評(píng)分維度的理解不同,短時(shí)間內(nèi)難以將不同維度的評(píng)分準(zhǔn)則轉(zhuǎn)化為具體的評(píng)分參考,導(dǎo)致對(duì)評(píng)分量尺的理解和使用出現(xiàn)偏差。二是在策論中,盡管評(píng)分者對(duì)文字表達(dá)能力和論文邏輯性評(píng)分維度的理解較為一致,但可能由于評(píng)分時(shí)間較緊張,評(píng)分者需要在規(guī)定時(shí)間內(nèi)完成評(píng)分任務(wù),緊張時(shí)的評(píng)分情境消耗評(píng)分者的認(rèn)知資源,持續(xù)疲勞導(dǎo)致評(píng)分偏差的出現(xiàn)。三是有研究認(rèn)為,評(píng)分者盡責(zé)性以及評(píng)分動(dòng)機(jī),也可能是誘發(fā)主觀評(píng)分偏差產(chǎn)生的原因[24]。

2.未來(lái)研究

本研究基于MFRM模型,對(duì)公務(wù)員遴選考試策論的評(píng)分者偏差及其影響進(jìn)行了甄別,從評(píng)分者、考生和評(píng)分維度等側(cè)面對(duì)公務(wù)員遴選考試策論測(cè)驗(yàn)中評(píng)分者主觀評(píng)分偏差進(jìn)行了深入分析,具有一定的實(shí)踐指導(dǎo)意義??忌鎸?shí)能力與策論原始成績(jī)并不完全匹配,既往基于考生能力原始觀測(cè)值排序作為公務(wù)員遴選決策的依據(jù),存在較大遴選錄用決策風(fēng)險(xiǎn),未來(lái)研究可以進(jìn)一步,基于縱向追蹤研究范式收集更多效標(biāo)證據(jù)進(jìn)行深入研究。此外,本研究通過(guò)對(duì)評(píng)分者偏差的分析發(fā)現(xiàn),探討評(píng)分者對(duì)評(píng)分維度以及評(píng)分量尺的掌握情況,有助于為未來(lái)評(píng)分者培訓(xùn)提供現(xiàn)代測(cè)量學(xué)依據(jù),也能為不同評(píng)分者的特定評(píng)分偏差傾向提供針對(duì)性反饋,未來(lái)研究可選擇公務(wù)員考試面試官培訓(xùn)情境,基于考官培訓(xùn)實(shí)踐設(shè)計(jì)相應(yīng)的干預(yù)研究。但本研究依然存在一定局限性。如,評(píng)分者與考生性別、試卷呈現(xiàn)順序、評(píng)分時(shí)間等因素也會(huì)誘發(fā)評(píng)分偏差的產(chǎn)生[25],未來(lái)研究可納入多變量進(jìn)行系統(tǒng)探討,全面地甄別和控制評(píng)分者主觀偏差的負(fù)面效應(yīng)。

參考文獻(xiàn):

[1]習(xí)近平.在全國(guó)組織工作會(huì)議上的講話[M].北京:人民出版社,2018:14.

[2]傅興國(guó).努力提高公務(wù)員選用科學(xué)化水平[J].求是,2018(8):39–41.

[3]侯晉雄.公開(kāi)遴選與完善基層公務(wù)員培養(yǎng)選拔機(jī)制研究[J].重慶理工大學(xué)學(xué)報(bào)(社會(huì)科學(xué)),2014,28(8):88–95.

[4][20][24]BERNARDIN H J, THOMASON S, BUCKLEY M R, et al.?Rater rating-level bias and accuracy in performance appraisals: the impact of rater personality, performance management competence, and rater accountability[J].?Human resource management, 2016, 55(2): 321–340.

[5]WOLFE E W.?Identifying rater effects using latent trait models[J].?Psychology science, 2014, 46: 35–51.

[6]王寓周.四川省政協(xié)機(jī)關(guān)公務(wù)員遴選實(shí)效性之調(diào)查研究[D/OL],成都:電子科技大學(xué),2013:12.[2021-06-30]?.http://cdmd.cnki.com.cn/Article/CDMD-10614-1014137832.htm.

[7]MASRAN M N,NOR M M, MASHITAH M R.?Validatingmeasure of authentic assessment standard for childrens development and learning using many facet Rasch model[J].?Advanced science letters, 2017, 23(3): 2132–2136.

[8]?TOFFOLI S F, DE ANDRADE, BORNIA A C.?Evaluation of open items using the many-facet Rasch model[J].?Journal of applied statistics, 2016, 43(2): 299–316.

[9]?BRINTHAUPT T M, KANG M.?Many-faceted Rasch calibration an example using the self-talk scale[J].?Assessment, 2012, 21(2): 241–249.

[10]王佶旻,鄧志娜.評(píng)分員對(duì)不同體裁作文評(píng)分的多面Rasch模型分析[J].考試研究,2018,34(1):80–89.

[11][19]GOODWIN S.?A many-facet Rasch analysis comparing essay rater behavior on an academic English reading/writing test used for two purposes[J].?Assessing writing, 2016, 30(4): 21–31.

[12]俞韞燁,謝小慶.基于多面Rasch模型的作文網(wǎng)上評(píng)卷“趨中評(píng)分”判定研究[J].中國(guó)考試,2012(1):6–13.

[13]ZUPANC K, BOSNIC Z.?Automated essay evaluation with semantic analysis[J].?Knowledge-based systems, 2017, 120(15): 118–132.

[14]?MICHAEL G, UNKELBACH C.?Halo effects from agency behaviors and communion behaviors depend on social context: why technicians benefit more from showing tidiness than nurses do[J].?European journal of social psychology, 2017, 48(5): 701–717.

[15]?WINKE P, GASS S, MYFORD C.?Raters L2 background as a potential source of bias in rating oral performance[J].?Languagetesting, 2013, 30(2): 231–252.

[16]公務(wù)員公開(kāi)遴選辦法(試行)[EB/OL].國(guó)家公務(wù)員局官網(wǎng),(2020-10-29)[2020-11-01].http://subb.scs.gov.cn/pp/gkweb/core/web/ui/business/article/articledetail.html?ArticleId=8a81f3237545c18101757349a7fe20d6&id=0000000065183dac01651c4ef5ac0023&eid=0000000065183dac01651c4f74de0025.

[17]孫曉敏,張厚粲.國(guó)家公務(wù)員結(jié)構(gòu)化中評(píng)分者偏差的IRT分析[J].心理學(xué)報(bào),2006,38(4):614–625.

[18]LINACRE J M.?FACETS: Computer program for many-faceted Rasch measurement[M].?Chicago: MESA Press, 1988: 14.

[21]?HARARI M B, RUDOLPH C W.?The effect of rater accountability on performance ratings: a meta-analytic review[J].?Human resource management review, 2017, 27(1): 121–133.

[22][25]?BRADLEY K D, PEABODY M R, MENSAH R K.?Applying the many-facet Rasch measurement model to explore reviewer ratings of conference proposals[J].?Journal of applied measurement, 2017, 17(3):283–292.

[23]?GARRIDO M E, ROMERO S, ORTEGA E, et al.?Designing a questionnaire on parents for children in sport[J].?Journal of sport & health research, 2011, 3(2): 153–164.

(責(zé)任編輯?方?卿)

高淳县| 浦东新区| 宾阳县| 西昌市| 黄浦区| 长武县| 商城县| 崇信县| 嵊州市| 临澧县| 易门县| 赤峰市| 闻喜县| 天气| 廊坊市| 保德县| 朝阳县| 平乡县| 沾益县| 冕宁县| 万州区| 花垣县| 吉林省| 绥江县| 扶余县| 富蕴县| 长垣县| 沽源县| 雅江县| 景泰县| 东山县| 布拖县| 镇原县| 右玉县| 建瓯市| 上蔡县| 怀集县| 中牟县| 铁岭县| 托里县| 南川市|