国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

“人—機(jī)對(duì)抗”視域下主觀(guān)題評(píng)分誤差控制策略探究

2013-11-08 08:06:12王文成
中國(guó)考試 2013年9期
關(guān)鍵詞:評(píng)卷評(píng)分標(biāo)準(zhǔn)主觀(guān)題

王文成

近年來(lái),網(wǎng)上閱卷以其高效便捷、經(jīng)濟(jì)節(jié)約、誤差易控等優(yōu)勢(shì),被廣泛運(yùn)用于高考、公務(wù)員招錄、公開(kāi)選拔領(lǐng)導(dǎo)干部等大規(guī)??荚囬喚砉ぷ髦小5c傳統(tǒng)人工閱卷相比,網(wǎng)上閱卷技術(shù)使得對(duì)閱卷人員評(píng)分一致性即時(shí)控制成為現(xiàn)實(shí),其造成的嚴(yán)重后果之一,便是閱卷人員在主觀(guān)性試題評(píng)分上規(guī)避雙評(píng)閱卷員評(píng)分不一致的風(fēng)險(xiǎn),把通過(guò)計(jì)算機(jī)的一致性檢驗(yàn)成為閱卷的價(jià)值首選,即“人—機(jī)對(duì)抗”現(xiàn)象。過(guò)分追求雙評(píng)閱卷員之間評(píng)分的一致性,客觀(guān)上容易導(dǎo)致評(píng)分背離考生的真實(shí)能力素質(zhì),進(jìn)而產(chǎn)生符合評(píng)分一致性檢驗(yàn)的“合法性”評(píng)分誤差。這對(duì)于競(jìng)爭(zhēng)性選拔考試非常危險(xiǎn)。因此,從源頭上探明主觀(guān)題網(wǎng)上閱卷評(píng)分誤差的產(chǎn)生因素及其控制策略,對(duì)于有效控制考試誤差,維護(hù)考試公平,成為維護(hù)考試信用的當(dāng)務(wù)之急。

1 “人—機(jī)對(duì)抗”:網(wǎng)上閱卷主觀(guān)題評(píng)分誤差的合法性掩蓋

1.1 網(wǎng)上閱卷的實(shí)質(zhì)與評(píng)分誤差的再審視

所謂網(wǎng)上閱卷,是指一種與傳統(tǒng)人工紙質(zhì)閱卷不同的閱卷方式,它以計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)和電子掃描、圖片裁切技術(shù)為依托,把考生的答卷通過(guò)掃描轉(zhuǎn)化為電子圖片編碼儲(chǔ)存,通過(guò)計(jì)算機(jī)網(wǎng)絡(luò)將考生電子試卷按要求隨機(jī)分發(fā)給閱卷員,其中客觀(guān)題由計(jì)算機(jī)程序控制對(duì)考生填涂的信息點(diǎn)自動(dòng)判分,主觀(guān)題不是在考生的原始答卷上直接評(píng)分,而是由閱卷員在計(jì)算機(jī)網(wǎng)絡(luò)終端瀏覽考生答題信息的電子圖像進(jìn)行評(píng)分,最后由計(jì)算機(jī)程序自動(dòng)統(tǒng)計(jì)合成考生成績(jī)庫(kù)的閱卷方式。(見(jiàn)圖1)主觀(guān)題網(wǎng)上閱卷主要有以下關(guān)鍵環(huán)節(jié)。

一是雙評(píng)。要求計(jì)算機(jī)將每個(gè)考生的每題作答呈現(xiàn)隨機(jī)分發(fā)給兩個(gè)閱卷員評(píng)閱,必須由不同的閱卷員評(píng)兩遍。對(duì)于同一考生的同一答題,當(dāng)兩個(gè)閱卷員同題賦分之差小于規(guī)定的誤差值時(shí),計(jì)算機(jī)自動(dòng)取兩人的平均分作為該題最終得分。二是三評(píng)。如果兩個(gè)閱卷員同題賦分差值超過(guò)規(guī)定的誤差值時(shí),計(jì)算機(jī)會(huì)自動(dòng)把該題的答題圖片隨機(jī)發(fā)給第三人評(píng)閱;第三個(gè)閱卷員評(píng)閱完畢后,服務(wù)器再將三評(píng)結(jié)果與前兩評(píng)結(jié)果進(jìn)行兩兩比對(duì),若滿(mǎn)足誤差控制條件,則取其平均值作為最后分?jǐn)?shù);如果都大于規(guī)定的誤差值,系統(tǒng)將自動(dòng)傳至閱卷組長(zhǎng)裁決。三是仲裁。閱卷組長(zhǎng)根據(jù)前三個(gè)閱卷員的評(píng)分結(jié)果,最終確定一個(gè)合理的分?jǐn)?shù)作為最終分?jǐn)?shù)。四是成績(jī)合成。當(dāng)所有考生的所有答題都評(píng)閱完畢之后,計(jì)算機(jī)自動(dòng)合成每個(gè)考生的所有分?jǐn)?shù)。正是因?yàn)檫@種嚴(yán)格的主觀(guān)題評(píng)分制度和程序性設(shè)計(jì),讓人們產(chǎn)生了一個(gè)錯(cuò)覺(jué)——在網(wǎng)上閱卷的技術(shù)體系中,不再有評(píng)分誤差的存在空間。

果真如此?從上述分析可見(jiàn),網(wǎng)上閱卷的實(shí)質(zhì)是網(wǎng)絡(luò)信息技術(shù)對(duì)人工閱卷輔助,把人工評(píng)卷積累的豐富經(jīng)驗(yàn)和現(xiàn)代高新技術(shù)相結(jié)合,只是在技術(shù)手段上進(jìn)行了升級(jí)改造,一方面使得傳統(tǒng)閱卷以紙?jiān)嚲頌榻橘|(zhì)的傳遞變?yōu)橐噪娮影婷鏋榻橘|(zhì)的閱卷終端傳遞,便于閱卷員直接在計(jì)算機(jī)上對(duì)電子化答案進(jìn)行評(píng)分;另一方面把數(shù)據(jù)統(tǒng)計(jì)技術(shù)嵌入閱卷系統(tǒng)內(nèi),加快了閱卷人員評(píng)分結(jié)果的統(tǒng)計(jì)分析與處理,實(shí)現(xiàn)了閱卷質(zhì)量技術(shù)控制的便捷化、適時(shí)化。但是,從閱卷評(píng)分的本質(zhì)上看,閱卷人員運(yùn)用人工智慧通過(guò)考生作答介質(zhì)對(duì)其能力素質(zhì)的價(jià)值評(píng)判這一性質(zhì)沒(méi)有得到根本改變。

1.2 評(píng)分一致性檢驗(yàn)催生的“人—機(jī)對(duì)抗”

圖1 網(wǎng)上閱卷簡(jiǎn)明流程

評(píng)分誤差,是指假定考生能力一定的條件下,在評(píng)分過(guò)程中由于試卷內(nèi)容、評(píng)分環(huán)境、評(píng)分手段以及評(píng)分人員主觀(guān)人為因素相互作用,使評(píng)分員對(duì)考生評(píng)分結(jié)果及其應(yīng)用與被測(cè)考生在該考試時(shí)的真實(shí)能力之間的不一致現(xiàn)象的測(cè)量效應(yīng)。

凡測(cè)量都有誤差。網(wǎng)上閱卷的主觀(guān)題評(píng)分誤差與傳統(tǒng)人工紙質(zhì)閱卷所產(chǎn)生的主觀(guān)題評(píng)分誤差并無(wú)本質(zhì)差別,但由于計(jì)算機(jī)技術(shù)的引進(jìn),通過(guò)自動(dòng)屏蔽考生信息,根除了人為干預(yù)考試分?jǐn)?shù)的可能性,確保評(píng)卷過(guò)程客觀(guān)公正;通過(guò)雙評(píng)、多評(píng)的誤差控制機(jī)制,以及評(píng)卷結(jié)果的一致性檢驗(yàn)等功能,增強(qiáng)了閱卷員的評(píng)分一致性,保證評(píng)卷科學(xué)準(zhǔn)確;通過(guò)自動(dòng)的加分、登分與統(tǒng)計(jì)分析,避免人工操作可能導(dǎo)致的粗大誤差。所以,網(wǎng)上閱卷主觀(guān)題的評(píng)分誤差主要體現(xiàn)為評(píng)分標(biāo)準(zhǔn)與參考答案設(shè)置不科學(xué)所引起的工具誤差、閱卷員業(yè)務(wù)水平差異所造成的人員誤差等。

應(yīng)該說(shuō),基于網(wǎng)上閱卷技術(shù)而實(shí)施的雙評(píng)、多評(píng)的誤差控制機(jī)制,以及單題評(píng)卷結(jié)果的一致性檢驗(yàn)等功能,較好解決了閱卷員之間的評(píng)分一致性問(wèn)題。但正是這一技術(shù),卻無(wú)法解決閱卷員之間的“寬寬嚴(yán)嚴(yán)”問(wèn)題,而且在以閱卷員評(píng)分一致性為導(dǎo)向的評(píng)分質(zhì)量評(píng)價(jià)制度設(shè)計(jì)下,催生了“人—機(jī)對(duì)抗”現(xiàn)象,致使主觀(guān)題評(píng)分誤差的控制出現(xiàn)了死角。在網(wǎng)上閱卷狀態(tài)下,計(jì)算機(jī)能夠?qū)崟r(shí)提供閱卷員單題評(píng)閱結(jié)果的數(shù)據(jù),質(zhì)量分析系統(tǒng)通過(guò)比較閱卷員之間、閱卷員與閱卷小組之間的評(píng)分分布、平均分、標(biāo)準(zhǔn)差等數(shù)據(jù)之間的差異性,監(jiān)控閱卷員之間的評(píng)分一致性。當(dāng)某閱卷員評(píng)分偏離值大于評(píng)分偏離值上限或日評(píng)分均值與總體評(píng)分均值差異較大時(shí),計(jì)算機(jī)自動(dòng)發(fā)出警示信息,提示質(zhì)檢組對(duì)該閱卷員的評(píng)閱試題進(jìn)行抽查。在大規(guī)模考試的閱卷的特定環(huán)境下,閱卷員為了通過(guò)計(jì)算機(jī)閱卷系統(tǒng)的評(píng)分一致性檢驗(yàn),在主觀(guān)性試題評(píng)閱中選擇了“打保險(xiǎn)分”的下策,或者當(dāng)兩個(gè)閱卷員對(duì)同道主觀(guān)題評(píng)分同嚴(yán)同寬時(shí),這種評(píng)分的一致性很可能讓評(píng)分誤差得到了合法性的掩蓋。

2 網(wǎng)上閱卷主觀(guān)題評(píng)分誤差因素探析

2.1 試題、參考答案與評(píng)分標(biāo)準(zhǔn)的自身性因素

所謂自身性因素,主要是指主觀(guān)性試題及其參考答案和評(píng)分標(biāo)準(zhǔn)所具有的特性,以及試題命制、參考答案與評(píng)分標(biāo)準(zhǔn)設(shè)置的能否符合或反映這些特性要求,而所構(gòu)成的誤差因素。就目前我國(guó)筆試主觀(guān)題的情況來(lái)看,如申論題、作文題、論述題、解答題等,其參考答案一般不是唯一結(jié)論,評(píng)分標(biāo)準(zhǔn)上下波動(dòng)大、分?jǐn)?shù)不等值;有的試題如擴(kuò)張反應(yīng)性試題的評(píng)分標(biāo)準(zhǔn)甚至體現(xiàn)為“評(píng)分要求”的形式,具有很強(qiáng)的概括性與抽象性,標(biāo)準(zhǔn)不易掌握。同時(shí),被試者對(duì)試題的解答又不可能與評(píng)分標(biāo)準(zhǔn)完全一致,具有多樣性的特點(diǎn)。這些因素的存在,致使閱卷員對(duì)評(píng)分標(biāo)準(zhǔn)的掌握具有很強(qiáng)的主觀(guān)性,具有很大的自由裁量空間。

以2011年某省高考語(yǔ)文新課標(biāo)卷作文評(píng)分標(biāo)準(zhǔn)為例(如表1所示):在“評(píng)分要素”上規(guī)定了基礎(chǔ)等級(jí)(包括內(nèi)容和表達(dá)兩項(xiàng))和發(fā)展等級(jí),對(duì)每個(gè)評(píng)分要素的評(píng)價(jià)標(biāo)志作了原則性規(guī)定(如“基礎(chǔ)等級(jí)”內(nèi)容中的“符合題意、中心明確”等),對(duì)評(píng)價(jià)標(biāo)度作了四級(jí)劃分,其中每個(gè)等級(jí)之間的標(biāo)度僅以程度區(qū)分描述為值閾。問(wèn)題在于考生的作文在內(nèi)容、表達(dá)、特征三方面究竟達(dá)到了哪一等級(jí),只能由閱卷員根據(jù)自己的經(jīng)驗(yàn)作出判斷。具體來(lái)說(shuō),考生的作文在“發(fā)展等級(jí)·特征”方面是否“深刻”、“豐富”、“有文采”、“有創(chuàng)意”,需要閱卷員自行判斷。所以,參考答案與評(píng)分標(biāo)準(zhǔn)是造成主觀(guān)題評(píng)分誤差的工具性因素,這一點(diǎn)無(wú)論是傳統(tǒng)人工閱卷,還是網(wǎng)上閱卷,都無(wú)法避免。

賦分標(biāo)準(zhǔn)以分?jǐn)?shù)段的形式出現(xiàn),增大了閱卷員的自由裁量權(quán)。表1中的評(píng)分標(biāo)度中,4個(gè)等級(jí)的級(jí)差均為5分,即同一等級(jí)的作文,仍有5分的浮動(dòng)范圍。這樣的評(píng)分標(biāo)準(zhǔn)操作上賦予閱卷員很大的自由裁量權(quán),如果不采取相應(yīng)的控制措施,極易產(chǎn)生評(píng)分誤差。隨著基礎(chǔ)教育課程改革的深入展開(kāi),類(lèi)似這樣的問(wèn)題會(huì)更加突出,如果閱卷員不能科學(xué)把握試題特點(diǎn)和評(píng)分標(biāo)準(zhǔn),則評(píng)分誤差的控制問(wèn)題將更加突出。

更為嚴(yán)重的是,近年來(lái)人數(shù)超過(guò)百萬(wàn)的公務(wù)員錄用考試申論科目作文的評(píng)分標(biāo)準(zhǔn),也出現(xiàn)上述類(lèi)似問(wèn)題:“一些地方參照高考作文,一些地方按議論文的評(píng)價(jià)標(biāo)準(zhǔn)來(lái)評(píng)價(jià)申論作文,這是對(duì)申論的誤解,至少是理解不深刻。申論要求結(jié)合材料寫(xiě)作,而事實(shí)上,材料一旦給定,論點(diǎn)、論據(jù)、論證這三要素都將受到極大制約,因而寫(xiě)出來(lái)的優(yōu)秀作文應(yīng)當(dāng)有很多規(guī)定之處。”[1]問(wèn)題的嚴(yán)重之處在于,申論考試的作文題與高考作文題有著本質(zhì)的不同,申論和高考作文雖然都比較關(guān)注“內(nèi)容”、“表達(dá)”和“特征”等指標(biāo),但申論考試是模擬國(guó)家機(jī)關(guān)處置政務(wù)工作時(shí)的工作思路、站有立場(chǎng)、所持態(tài)度、主體觀(guān)點(diǎn)、處事風(fēng)格、對(duì)策舉措等的一種行為,申論作文更加關(guān)注的是考生作為公務(wù)員,如何站在政府立場(chǎng)上表達(dá)對(duì)申論材料所指觀(guān)點(diǎn)的理解與看法,一以貫之的是政治性和思想性。所以,公務(wù)員考試的閱卷員如果不能把握申論命題的特點(diǎn),掌握考生寫(xiě)作的規(guī)律,尤其是在“由一些從高校抽調(diào)的青年教師(包括研究生)去閱申論試卷,在他們對(duì)申論的理解都成問(wèn)題的情況下”,[2]其對(duì)作文的評(píng)分單憑一個(gè)框架性的“等級(jí)評(píng)分標(biāo)準(zhǔn)”,所產(chǎn)生的評(píng)分誤差,恐怕要比高考作為評(píng)分有過(guò)之而無(wú)不及。

評(píng)分標(biāo)準(zhǔn)難以把握,也是網(wǎng)上閱卷評(píng)分誤差不好控制的重要因素。這種情況有兩種表現(xiàn):一是參考答案設(shè)置過(guò)于簡(jiǎn)略,閱卷人員難以把握同一尺度,導(dǎo)致評(píng)分誤差。這種情形多見(jiàn)于公務(wù)員招錄考試申論科目的概括題和對(duì)策題:“在按點(diǎn)給分的情況下,答案要點(diǎn)不全面是一個(gè)非常嚴(yán)重的問(wèn)題。如果考生根據(jù)材料寫(xiě)出了相對(duì)合理的答案要點(diǎn),而參考答案和評(píng)分標(biāo)準(zhǔn)中都沒(méi)有涉及,這樣部分高素質(zhì)考生將與公務(wù)員失之交臂?!盵3]二是評(píng)分標(biāo)準(zhǔn)、細(xì)則設(shè)定過(guò)繁。如2011年高考文綜第45題(15分):

表1 2011年某省高考語(yǔ)文作文等級(jí)評(píng)分標(biāo)準(zhǔn)

材料:我國(guó)北方草原歷史上是游牧民族的家園,他們以部落為基本的社會(huì)組織,時(shí)而因其共同利益結(jié)成部落聯(lián)盟,各部落在草原上遷徙不定,往往為爭(zhēng)奪草地、水源相互仇殺。清朝入關(guān)前,統(tǒng)一漠西蒙古,開(kāi)始分定各地部界,嚴(yán)禁互相侵越;入關(guān)后仿八旗制度形式逐步改造蒙古社會(huì),形成盟旗制度。蒙古各部大者被分為數(shù)旗,小者自為一旗,旗長(zhǎng)由蒙古各部首領(lǐng)世襲擔(dān)任。各旗有固定的牧地,不相統(tǒng)屬,旗民不得越境放牧,日常往來(lái)亦受限制。合數(shù)旗為一盟,盟長(zhǎng)、副盟長(zhǎng)以及會(huì)盟地由朝廷指定,對(duì)各旗進(jìn)行監(jiān)督,處理各旗不能解決的糾紛,盟不是一級(jí)行政機(jī)構(gòu),盟長(zhǎng)不得干涉各旗事務(wù)、發(fā)布政令。各旗直接受中央政府管理。一切重大事務(wù)的裁決權(quán)屬于理藩院,各旗旗長(zhǎng)有義務(wù)率旗下兵丁,應(yīng)召出征。蒙古族舊有的部名義上保存下來(lái),不具有行政功能。

——摘編自翁獨(dú)健《中國(guó)民族關(guān)系史綱要》等

(1)指出旗、盟與草原傳統(tǒng)部落、部落聯(lián)盟的區(qū)別。(5分)

(2)簡(jiǎn)析盟旗制度的歷史作用。(10分)

圖2 第45題組評(píng)分分布曲線(xiàn)

圖3 第45題組平均分曲線(xiàn)

而對(duì)于45題組評(píng)卷情況,從圖2可以看出,首先是評(píng)分分布曲線(xiàn)是處于一種比較混亂的狀態(tài),特別是5分、9分、11分,組員所評(píng)的分?jǐn)?shù)比重相差較大,如11分評(píng)卷員程的比重最小,為2.86%,而最高比重為評(píng)卷員陳,比重為26.18%,而全組此分比重在百分之十幾,相差很大。5分、9分情況亦是如此。

從圖3顯示的平均分曲線(xiàn)上,亦可以看出有較大一部分評(píng)卷員與全體評(píng)卷員在平均分上是有一定的差距的。

第45題的評(píng)分細(xì)則是:

(1)旗、盟是清政府針對(duì)蒙古地區(qū)制定的一種管理體制;部落、部落聯(lián)盟是草原游牧民族自身的社會(huì)政治組織(任意1句3分,兩句5分)。

(2)在尊重蒙古族社會(huì)傳統(tǒng)的基礎(chǔ)上,改造了草原的社會(huì)政治面貌(2分);削弱了蒙古貴族的權(quán)力,加強(qiáng)了對(duì)草原的影響(2分);有利于當(dāng)?shù)厣鐣?huì)穩(wěn)定和經(jīng)濟(jì)發(fā)展(2分);加強(qiáng)了清朝統(tǒng)治的基礎(chǔ)(2分);使統(tǒng)一多民族國(guó)家更為鞏固(2分)。

從參考答案可以看出,這道題給分點(diǎn)多,共8個(gè)給分點(diǎn)、分值高(為15分),計(jì)分方法復(fù)雜,標(biāo)準(zhǔn)不好把握是其出現(xiàn)評(píng)分曲線(xiàn)不一致的重要原因。

2.2 組織與管控因素

在管理學(xué)看來(lái),隨著技術(shù)的進(jìn)步,系統(tǒng)越來(lái)越自動(dòng)化,越來(lái)越復(fù)雜,非但沒(méi)有減少或控制人因失誤的發(fā)生,反而人因誤差發(fā)生的可能性及影響增大了。這其中很大的原因并不在于個(gè)人因素及技術(shù)設(shè)備等方面的原因,而在于系統(tǒng)中的那些潛在的管理錯(cuò)誤,即組織與管控因素。英國(guó)曼徹斯特大學(xué)心理學(xué)家Reason認(rèn)為,當(dāng)沒(méi)有發(fā)生其他技術(shù)失效或人誤時(shí),管理錯(cuò)誤也是人誤或人誤的結(jié)果。在沒(méi)有發(fā)生其他技術(shù)失效或人誤差時(shí),這些管理錯(cuò)誤似乎并未對(duì)系統(tǒng)的安全構(gòu)成威脅,因?yàn)橥槐挥X(jué)察,或者是不被認(rèn)為是錯(cuò)誤。當(dāng)事后追查事故的原因時(shí),由于那些作為事故觸發(fā)器的技術(shù)失效或人誤最為明顯,更易被人們認(rèn)定為事故的直接原因,而潛在的管理錯(cuò)誤的作用則往往被忽略了。Reason警告我們,正是這種過(guò)于簡(jiǎn)單的原因分析模型,使得人們難以發(fā)現(xiàn)那些引發(fā)誤差的更重要的因素[4]。主觀(guān)題網(wǎng)上閱卷誤差控制同樣面臨這樣的問(wèn)題:閱卷員自身或閱卷環(huán)境的問(wèn)題所帶來(lái)的影響是有限的,而且在計(jì)算機(jī)系統(tǒng)的保障下是可控的;但是如果計(jì)算機(jī)系統(tǒng)或者管理上出了問(wèn)題,那么等于說(shuō)網(wǎng)上閱卷所帶來(lái)的保障就成了一道“馬其諾防線(xiàn)”,失去了應(yīng)有的作用。

更為重要的是,組織和管控因素會(huì)對(duì)閱卷員產(chǎn)生影響,主要是因?yàn)殚喚韱T并不是作為孤立的個(gè)體,而是作為閱卷組的一員而存在的,不但受到自身心理、生理因素的約束,還受到環(huán)境、物質(zhì)條件以及組織規(guī)程的約束,因此,閱卷員的評(píng)分誤差都是在受到閱卷組織管理下發(fā)生的,因此勢(shì)必會(huì)受到組織與管控因素的影響。組織與管控因素對(duì)閱卷員的影響主要反映在組織規(guī)范、組織溝通、組織功能、組織文化氛圍等,具體表現(xiàn)在閱卷員的生理、心理、精神面貌等方面,最終體現(xiàn)在誤差發(fā)生率上。在網(wǎng)上閱卷中,閱卷時(shí)間、閱卷速度與閱卷質(zhì)量發(fā)生了碰撞,在此情況下,對(duì)閱卷質(zhì)量的追求被固化在“又快又好”上。建構(gòu)在網(wǎng)絡(luò)信息技術(shù)上的網(wǎng)上閱卷系統(tǒng)在閱卷質(zhì)量評(píng)價(jià)上的最大優(yōu)勢(shì)之一,就是使閱卷組織對(duì)閱卷員的評(píng)分一致性進(jìn)行動(dòng)態(tài)實(shí)時(shí)監(jiān)控成為可能,評(píng)分一致性就成為閱卷組織評(píng)價(jià)閱卷員工作質(zhì)量的重要指標(biāo)。在注重組織管控因素中,弱化對(duì)真分?jǐn)?shù)的追求,轉(zhuǎn)而強(qiáng)化對(duì)評(píng)分一致性的渴望,成為通過(guò)閱卷組織監(jiān)控的下意識(shí)選擇。也正是在這種緊張的工作氛圍中,閱卷員能夠順利通過(guò)組織評(píng)價(jià)的基本沖動(dòng),無(wú)形中消解了評(píng)分誤差控制的重要環(huán)節(jié)。

2.3 閱卷人員因素

在主觀(guān)題網(wǎng)上閱卷評(píng)分過(guò)程中,閱卷員的思想道德素質(zhì)、業(yè)務(wù)素質(zhì)與能力水平、身心素質(zhì)的差異,是導(dǎo)致評(píng)分誤差的主要因素。

思想道德素質(zhì)影響?!霸u(píng)分人員的責(zé)任心、工作態(tài)度如何,對(duì)評(píng)卷的質(zhì)量有很大的影響,同時(shí)也是造成誤差的重要因素”[5]。如果評(píng)分者沒(méi)有優(yōu)良的思想政治素質(zhì)和良好的職業(yè)道德,不能?chē)?yán)格遵守評(píng)分紀(jì)律,認(rèn)真履行工作職責(zé),就會(huì)受單一任務(wù)觀(guān)的支配,利用網(wǎng)上閱卷系統(tǒng)在閱卷員評(píng)分一致性檢驗(yàn)的技術(shù)漏洞,賦“保險(xiǎn)分”,即對(duì)主觀(guān)題的評(píng)分不是以考生實(shí)際水平為依據(jù),而是給“中間分”,結(jié)果導(dǎo)致評(píng)分誤差。此種情況在統(tǒng)計(jì)學(xué)上體現(xiàn)為閱卷員個(gè)人評(píng)分分布在中間分?jǐn)?shù)段的離散程度呈集中趨勢(shì)。

業(yè)務(wù)能力影響。閱卷員良好的業(yè)務(wù)素質(zhì)與能力是準(zhǔn)確評(píng)分的關(guān)鍵,能否科學(xué)把握評(píng)分標(biāo)準(zhǔn)并合理賦分,是判斷主觀(guān)題閱卷員是否合格的基本標(biāo)準(zhǔn)。要做到這兩點(diǎn),閱卷員必須精通考試科目的基本理論、基本知識(shí)和所涉及的專(zhuān)業(yè)知識(shí)、業(yè)務(wù)技能,正確領(lǐng)會(huì)命題意圖,把概括性、抽象性的評(píng)分標(biāo)準(zhǔn)轉(zhuǎn)化為具體的可操作的標(biāo)尺,形成對(duì)評(píng)分標(biāo)準(zhǔn)的科學(xué)把握,準(zhǔn)確評(píng)判考生作答。否則,很可能出現(xiàn)單純把考生的作答機(jī)械對(duì)照參考答案,導(dǎo)致那些不解題意、漫天撒網(wǎng)羅織答案要點(diǎn)的考生得分偏高,而能深入理解題意但解題思路不同于參考答案的考生得分較低。由于公務(wù)員錄用考試“申論考試試題沒(méi)有統(tǒng)一的標(biāo)準(zhǔn)答案,只有一個(gè)大概的參考答案,評(píng)分方式完全靠評(píng)卷人的主觀(guān)判斷。一般參加公務(wù)員考試的人數(shù)都很多,閱卷的時(shí)候只能夠使多數(shù)人共同完成閱卷任務(wù),由于閱卷人員在工作經(jīng)歷、文化水平、對(duì)事物的認(rèn)識(shí)等方面都存在差異性。在閱卷過(guò)程中,閱卷人對(duì)同一份試卷的判定就會(huì)不同,即使是同一個(gè)閱卷人對(duì)不同試卷的判定標(biāo)準(zhǔn)也是很難做到一致性?!盵6]其必然的結(jié)果是,對(duì)于業(yè)務(wù)能力不足的閱卷員,要么是局限參考答案要點(diǎn),在閱卷中評(píng)分過(guò)嚴(yán);要么是不理解參考答案要點(diǎn),閱卷時(shí)打分忽高忽低,受到警示后轉(zhuǎn)而打“保險(xiǎn)分”。

心理素質(zhì)影響。由于主觀(guān)性試題的評(píng)分是對(duì)考生作答結(jié)果認(rèn)知和進(jìn)行主觀(guān)判定的過(guò)程,評(píng)分者在評(píng)分時(shí)的心理狀態(tài)和心理傾向,對(duì)于考生作答的認(rèn)識(shí)和判斷所產(chǎn)生的效應(yīng),必然不同程度地影響著他們對(duì)評(píng)分標(biāo)準(zhǔn)的把握,而產(chǎn)生評(píng)分誤差。造成主觀(guān)題評(píng)分誤差的心理因素主要有:一是情緒效應(yīng)。心理學(xué)研究表明,人們對(duì)事物的感知往往受到情緒的影響,這就是情緒效應(yīng)。在網(wǎng)上閱卷中,評(píng)分者或喜悅、或抑郁,往往會(huì)直接地影響對(duì)考生答題正確程度的評(píng)判,以分?jǐn)?shù)的形式體現(xiàn)出來(lái)。在好的情緒狀態(tài)下,評(píng)分者對(duì)考生作答易于產(chǎn)生濃厚的興趣,發(fā)現(xiàn)其中的新奇點(diǎn)、細(xì)微的長(zhǎng)處或不足,給出較為精確的評(píng)價(jià);反之,則難以集中精力,常出現(xiàn)憑印象給分的情況。一般來(lái)說(shuō),影響閱卷員情緒的主要因素有閱卷的環(huán)境、閱卷的進(jìn)度以及由此產(chǎn)生的工作壓力、突發(fā)事件和考生的試卷是否整潔等。二是投射效應(yīng)。人們往往有一種傾向,總是假設(shè)他人與自己是相同的,以自己的認(rèn)識(shí)水平、本身好惡為標(biāo)準(zhǔn)對(duì)人和事作出評(píng)價(jià),心理學(xué)把這種現(xiàn)象稱(chēng)為“投射效應(yīng)”。受此類(lèi)心理效應(yīng)的影響,尤其是在申論、策論和作文題或理工科計(jì)算題的評(píng)閱中,閱卷員常會(huì)設(shè)想存在一個(gè)理想化的評(píng)分模式,往往以“自己的理想標(biāo)準(zhǔn)”取代評(píng)分標(biāo)準(zhǔn),來(lái)衡量考生的作答。這樣一來(lái),不同的評(píng)分人員由于彼此之間認(rèn)識(shí)水平、個(gè)人好惡的差異,使得他們即使是面對(duì)同一試題,也可能做出不同甚至相去甚遠(yuǎn)的判斷。三是首因效應(yīng)和近因效應(yīng)。在主觀(guān)題網(wǎng)上閱卷評(píng)分中,閱卷員往往對(duì)首先獲得的信息留有較鮮明的印象。如對(duì)語(yǔ)文科目中的作文題、競(jìng)爭(zhēng)性選拔筆試中的論述題、策論題,就可能因?yàn)槠渚实拈_(kāi)題而吸引閱卷員的注意,最后使得閱卷員的評(píng)分產(chǎn)生誤差,這就是首因效應(yīng)對(duì)主觀(guān)題評(píng)分的影響。與首因效應(yīng)相反,最后給人留下的信息也往往能給人以強(qiáng)烈的印象,這在心理學(xué)上稱(chēng)為“近因效應(yīng)”。四是暈輪效應(yīng)。即一俊遮百丑、片面評(píng)價(jià)。這種心理效應(yīng)在評(píng)判寫(xiě)作題時(shí)容易造成評(píng)分誤差,如一篇作文由于或主題、或選材、或結(jié)構(gòu)、或語(yǔ)言、或書(shū)寫(xiě)等某一個(gè)方面比較突出,而其他方面平平,甚至拙劣,但仍可能取得較高的分?jǐn)?shù);反之,一篇文章正是由于某一方面的不足,就可能使分?jǐn)?shù)受到過(guò)分的壓低。除此之外,定勢(shì)效應(yīng)、時(shí)差效應(yīng)、比照效應(yīng)等,都不同程度地影響著對(duì)評(píng)分標(biāo)準(zhǔn)的把握,致使所評(píng)分?jǐn)?shù)不能很好地代表考生的實(shí)際水平。需要指出的是,閱卷員的身體健康狀況,也會(huì)對(duì)評(píng)分的客觀(guān)性產(chǎn)生影響,如果閱卷人員體質(zhì)較差,長(zhǎng)時(shí)間工作會(huì)因疲勞而使身心狀態(tài)發(fā)生變化,影響評(píng)分的準(zhǔn)確程度。

在主觀(guān)題網(wǎng)上閱卷評(píng)分中,條件因素主要體現(xiàn)為方法、手段和技能,主要范圍包括:評(píng)分者素質(zhì)條件與資格認(rèn)定規(guī)程,制定評(píng)分細(xì)則的技術(shù)規(guī)范,閱卷評(píng)分的程序與質(zhì)量標(biāo)準(zhǔn)等,評(píng)分的時(shí)間安排與閱卷強(qiáng)度設(shè)置、網(wǎng)上閱卷相應(yīng)設(shè)備的配置水平等。如果不能科學(xué)掌握與合理利用這些評(píng)分技術(shù),無(wú)論按要點(diǎn)賦分或按測(cè)評(píng)要素賦分,分項(xiàng)分等評(píng)分還是綜合評(píng)分,單評(píng)還是雙評(píng)或者三評(píng),都會(huì)對(duì)主觀(guān)題網(wǎng)上閱卷評(píng)分產(chǎn)生直接的影響。

不僅如此,對(duì)評(píng)分質(zhì)量的監(jiān)控是否及時(shí)有效,也是評(píng)分誤差產(chǎn)生的關(guān)鍵性因素之一。由于主觀(guān)題網(wǎng)上閱卷評(píng)分誤差的來(lái)源多樣、類(lèi)型復(fù)雜、難以控制等特性,單憑培訓(xùn)閱卷員、試評(píng)、制定評(píng)分細(xì)則等評(píng)前控制,無(wú)法避免評(píng)分過(guò)程中給分偏寬偏嚴(yán)的系統(tǒng)性誤差和打分忽高忽低的隨機(jī)性誤差,如果沒(méi)有評(píng)中控制,評(píng)分工作就會(huì)很可能處于失控狀態(tài),評(píng)分的準(zhǔn)確性就難以保證。

3 主觀(guān)題評(píng)分誤差控制的策略選擇

網(wǎng)上閱卷評(píng)分誤差的控制,其實(shí)質(zhì)仍然是規(guī)范閱卷員的評(píng)分行為,提升閱卷員的思想素質(zhì)和業(yè)務(wù)能力。但對(duì)于網(wǎng)上閱卷“人—機(jī)對(duì)抗”背景下產(chǎn)生的主觀(guān)題評(píng)分誤差的控制,在綜合運(yùn)用組建閱卷組織、建立閱卷隊(duì)伍、加強(qiáng)業(yè)務(wù)培訓(xùn)、制定規(guī)則程序等方式方法的基礎(chǔ)上,應(yīng)更加注重閱卷過(guò)程中的技術(shù)控制,其具體著力點(diǎn)在于:

3.1 評(píng)分標(biāo)準(zhǔn)掌握情況檢驗(yàn)

主要有兩種方法進(jìn)行評(píng)價(jià),其一,把專(zhuān)家組所評(píng)樣卷讓閱卷員進(jìn)行評(píng)閱,計(jì)算每一樣卷閱卷員與專(zhuān)家組的差值,判定是否在誤差允許范圍之內(nèi),計(jì)算出樣卷符合要求的百分比,評(píng)定評(píng)卷教師評(píng)分標(biāo)準(zhǔn)把握程度是否準(zhǔn)確。其二,計(jì)算專(zhuān)家組和閱卷員在樣卷得分的相關(guān)系數(shù),評(píng)定閱卷員和專(zhuān)家組在樣卷評(píng)分上的一致性。通過(guò)上述兩種技術(shù)控制,檢驗(yàn)閱卷員對(duì)評(píng)分標(biāo)準(zhǔn)的掌握情況,實(shí)現(xiàn)對(duì)主觀(guān)題評(píng)分誤差的有效控制。

3.2 控制“寬寬嚴(yán)嚴(yán)”

對(duì)寬寬嚴(yán)嚴(yán)的技術(shù)控制,可通過(guò)兩種方法:一是比較不同時(shí)段,本人閱卷標(biāo)準(zhǔn)差、平均分、有效度和閱卷速度;比較復(fù)評(píng)的標(biāo)準(zhǔn)差、平均分、有效度和閱卷速度,評(píng)價(jià)評(píng)卷員掌握評(píng)分標(biāo)準(zhǔn)的嚴(yán)寬程度,始終如一,是否隨意性大。不同時(shí)段和復(fù)評(píng)相關(guān)系數(shù)越大越好,具體數(shù)值達(dá)到0.9以上。二是計(jì)算集中程度。在閱卷過(guò)程中,集中程度反映了閱卷員評(píng)分的穩(wěn)定性,即對(duì)考生作答情況的評(píng)定是偏松或是偏嚴(yán)。其評(píng)價(jià)指標(biāo)是每道題目上每個(gè)閱卷員給分的算術(shù)平均數(shù)。以每道題考生最終成績(jī)的總平均數(shù)為參照點(diǎn),閱卷員給分的平均數(shù)越接近考生最終成績(jī)的總平均數(shù),說(shuō)明評(píng)分誤差越小。

3.3 計(jì)算離散程度

在實(shí)際閱卷中,離散程度主要有兩種傾向:一是趨中性,即朝著平均數(shù)打分,表現(xiàn)為或者盡量多給中間檔次的分?jǐn)?shù),或者確定檔次之后,給各檔次的中間分。二是發(fā)散性,即趨向于給高分或低分,兩極分化嚴(yán)重。從試卷的隨機(jī)分發(fā)以及考生得分的正態(tài)分布曲線(xiàn)來(lái)說(shuō),過(guò)于高度的趨中或過(guò)分的發(fā)散傾向,對(duì)閱卷的準(zhǔn)確性和公平性都是不利的。對(duì)此,可主要通過(guò)計(jì)算各個(gè)閱卷員評(píng)分的方差和標(biāo)準(zhǔn)差來(lái)度量其離散程度。采用的參照點(diǎn)有兩個(gè):一是群體中方差的中值,通過(guò)差異檢驗(yàn)值信度越高的表示閱卷評(píng)分誤差越?。欢前验喚韱T的標(biāo)準(zhǔn)差作為一個(gè)分布來(lái)看待,用該分布的均值作為參照點(diǎn),離分布的均值越遠(yuǎn)表示評(píng)分誤差越大。

3.4 提高評(píng)分有效度

評(píng)分有效度是指每道題目上每個(gè)閱卷員評(píng)閱的有效試卷量占所評(píng)試卷量的比例。數(shù)值越大,表示閱卷質(zhì)量越好,評(píng)分誤差控制的越好。閱卷員對(duì)某份試卷的評(píng)分與考生最終得分的差值的絕對(duì)值小于本題目允許的最大誤差的1/2,則這份試卷屬于有效閱卷。一般而言,有效度越高的閱卷員,個(gè)人尺度越接近標(biāo)準(zhǔn)尺度。閱卷員評(píng)分的有效度有下面幾種情況:一是雙評(píng)差值未超出差值閾限,則兩位評(píng)分員的評(píng)分都記為有效;二是三評(píng)給出的分?jǐn)?shù)和與之相近的雙評(píng)中的一位閱卷員的評(píng)分,如果沒(méi)有超出差值閾限,則此二位閱卷員共同決定了該試題的最終得分,該二位閱卷員的評(píng)分都記為有效。三是如果與三評(píng)分?jǐn)?shù)相差較大的另一個(gè)評(píng)卷員給出的分?jǐn)?shù),小于本題目允許的最大誤差的1/2,則該評(píng)分也被記為有效。

[1][2][3]郭五林.申論命題與閱卷中存在的問(wèn)題分析[J].秘書(shū)之友,2009(11):31-34.

[4]彭澎,黃曙東.組織管理因素對(duì)人因事故的作用與影響[J].人類(lèi)工效學(xué),2001(2):34-38.

[5]梁其健,葛為民.考試管理的理論與技術(shù)[M].武漢:華中師范大學(xué)出版社.2002.

[6]吳梅.湖南省公務(wù)員錄用考試測(cè)評(píng)體系研究[D].長(zhǎng)沙:湖南大學(xué)碩士學(xué)位論文,2010.

猜你喜歡
評(píng)卷評(píng)分標(biāo)準(zhǔn)主觀(guān)題
淺談“立體幾何主觀(guān)題”的復(fù)習(xí)備考
淺談高中政治“認(rèn)識(shí)類(lèi)”主觀(guān)題答題技巧
井岡教育(2022年2期)2022-10-14 03:11:28
極坐標(biāo)方程主觀(guān)題考點(diǎn)分析
北京高考語(yǔ)文卷已現(xiàn)滿(mǎn)分作文
高考政治主觀(guān)題對(duì)學(xué)生思維能力的考查
甘肅教育(2021年10期)2021-11-02 06:14:28
2019年對(duì)口升學(xué)考試網(wǎng)上評(píng)卷考生答題注意事項(xiàng)
永遠(yuǎn)的格紋
優(yōu)雅(2017年11期)2017-11-11 08:59:21
“畫(huà)?!痹u(píng)卷
教育(2016年49期)2017-03-20 02:23:28
大規(guī)??荚嚲W(wǎng)上評(píng)卷中趨中評(píng)分的成因探析
初高中英語(yǔ)作文評(píng)分標(biāo)準(zhǔn)初探
望奎县| 神农架林区| 蓝山县| 玉山县| 射洪县| 五寨县| 桓台县| 宜城市| 连云港市| 柳河县| 正宁县| 轮台县| 周至县| 武隆县| 满洲里市| 大城县| 从化市| 安龙县| 泰宁县| 高台县| 彰化市| 赤峰市| 济源市| 伊宁县| 施甸县| 肇东市| 镇赉县| 克什克腾旗| 河间市| 阜城县| 宁晋县| 万山特区| 南平市| 呼玛县| 封开县| 侯马市| 临沭县| 黄石市| 金堂县| 昌都县| 康乐县|