范 鵬
(天津市教育招生考試院,天津 300387)
大規(guī)??荚嚲W(wǎng)上評(píng)卷中趨中評(píng)分的成因探析
范 鵬
(天津市教育招生考試院,天津 300387)
趨中評(píng)分是一種不明顯的評(píng)分誤差,在主觀題評(píng)卷中普遍存在,在施行網(wǎng)上評(píng)卷后,這種趨勢(shì)更加明顯,找到趨中評(píng)分的成因是解決主觀題評(píng)卷中人為誤差的關(guān)鍵。本文分析了趨中評(píng)分的幾點(diǎn)成因并提出了解決思路。
趨中評(píng)分;網(wǎng)上評(píng)卷;誤差
考試作為選拔和評(píng)價(jià)的重要手段,已經(jīng)有上千年的歷史。作為考試結(jié)果量化的手段,評(píng)卷成了重中之重。而只要有評(píng)卷就會(huì)有誤差的存在。在多年來(lái)的紙筆評(píng)卷模式中,盡管人們使用了眾多手段來(lái)規(guī)避,但評(píng)卷誤差依然存在。一般來(lái)說(shuō),評(píng)卷誤差多出現(xiàn)在主觀性較強(qiáng)的題目中,是指評(píng)卷教師由于掌握評(píng)分標(biāo)準(zhǔn)的不同而產(chǎn)生的差異,這種差異既有與自身前后評(píng)卷的不一致,也有與其他評(píng)卷教師的不一致。這種差異導(dǎo)致了考生答題的結(jié)果與其應(yīng)得的真實(shí)分?jǐn)?shù)有差距,也就是說(shuō)評(píng)卷的結(jié)果沒有完全真實(shí)的反應(yīng)考生的真實(shí)水平。
在主觀題評(píng)卷中,經(jīng)常會(huì)發(fā)現(xiàn)這樣一種趨勢(shì),就是分?jǐn)?shù)的分布往往會(huì)呈現(xiàn)出趨于集中的表現(xiàn)形式。隨著網(wǎng)絡(luò)技術(shù)和快速成像掃描技術(shù)的發(fā)展,越來(lái)越多的考試都開始采用網(wǎng)上評(píng)卷的方式。網(wǎng)上評(píng)卷較之傳統(tǒng)的紙筆評(píng)卷有節(jié)省人力物力、評(píng)卷效率高、評(píng)卷質(zhì)量好以及便于統(tǒng)計(jì)分析等優(yōu)勢(shì)。在一些大規(guī)??荚囍?,如高考、中考、大學(xué)英語(yǔ)四六級(jí)考試等,網(wǎng)上評(píng)卷這種形式已經(jīng)占據(jù)了主導(dǎo)地位。在施行網(wǎng)上評(píng)卷后,統(tǒng)計(jì)分析更加便利,我們發(fā)現(xiàn)這種情況并沒有因?yàn)樵u(píng)卷模式的改變而發(fā)生改變,相反有愈演愈烈的趨勢(shì)。
這種趨勢(shì)我們稱之為趨中評(píng)分,就是評(píng)出的分?jǐn)?shù)高度集中在中部偏上的狹小區(qū)間內(nèi),在這個(gè)區(qū)間內(nèi),評(píng)分?jǐn)[動(dòng)幅度過小,這是一種評(píng)卷員評(píng)分的集體性誤差。趨中評(píng)分在主觀題評(píng)卷中普通存在,用比較通俗的話來(lái)說(shuō)就是“打中間分”。個(gè)體評(píng)卷教師習(xí)慣在平均分、基準(zhǔn)分上下給分,既不給太高的分,也不給低分。這樣做不能客觀的反應(yīng)出學(xué)生的真實(shí)水平,“打中間分”是產(chǎn)生評(píng)分誤差的重要原因之一。以高考作文評(píng)卷為例,高考評(píng)卷是一種典型的大規(guī)??荚嚨闹饔^題評(píng)卷,作文成績(jī)作為一個(gè)分值較大、獨(dú)立性較強(qiáng)的主觀題,其成績(jī)應(yīng)符合正態(tài)分布的要求。但實(shí)際工作中我們發(fā)現(xiàn),二類文和三類文的數(shù)量占了總數(shù)的80%以上,比正常情況超出了十幾個(gè)百分點(diǎn)。這就說(shuō)明,高考作文閱卷存在趨中評(píng)分現(xiàn)象。人們經(jīng)常說(shuō),高考作文拉不開分?jǐn)?shù),就是這種現(xiàn)象的體現(xiàn)。
經(jīng)過研究,我們認(rèn)為是由以下幾個(gè)方面的原因造成的。
一般來(lái)說(shuō),大規(guī)模考試的評(píng)卷多采用集中評(píng)卷的方式。一方面為了評(píng)卷過程保密,另一方面也為了更好的控制評(píng)卷進(jìn)度,提高效率。從管理的角度來(lái)說(shuō)是好事,但有限的時(shí)間內(nèi)完成大量工作,每個(gè)評(píng)卷教師工作強(qiáng)度都很高,工作壓力很大。再加之管理者的工作態(tài)度,對(duì)評(píng)卷教師的管理和約束,評(píng)卷教師的疲勞、精力分配等因素,一定程度上造成了評(píng)卷教師不自覺的忽略了評(píng)分的控制要求,導(dǎo)致出現(xiàn)趨中評(píng)分。一些老評(píng)卷教師對(duì)于評(píng)卷流程更加熟悉,到了評(píng)卷中后期,精神疲勞,責(zé)任心下降,比新評(píng)卷教師更容易產(chǎn)生趨中評(píng)分。
目前施行的網(wǎng)上閱卷模式,大多使用多評(píng)/仲裁的體系,這種體系主要的缺陷體現(xiàn)在以下兩點(diǎn)。
(1)專家組作用發(fā)揮有限
專家組的評(píng)分具有一定的權(quán)威性,可以指導(dǎo)普通評(píng)卷教師的評(píng)卷,對(duì)整體閱卷水平具有控制作用,能夠避免出現(xiàn)整體偏差,意義十分重大。但就目前評(píng)卷實(shí)際來(lái)看,專家組的作用除正式評(píng)卷開始前對(duì)試評(píng)卷進(jìn)行研究制定評(píng)分細(xì)則外,多數(shù)為處理一些異常試卷,如0分卷、滿分卷、多評(píng)差異較大的試卷等,以及一些日常監(jiān)控和管理工作。目前專家組更多的是通過抽樣的方式來(lái)對(duì)個(gè)別評(píng)卷教師進(jìn)行管理,無(wú)法對(duì)整體評(píng)卷控制發(fā)揮作用,導(dǎo)致趨中評(píng)分的評(píng)分隨著評(píng)卷工作每日推進(jìn)逐漸增多。
(2)多評(píng)機(jī)制的缺陷
現(xiàn)在的主觀題評(píng)卷多采取三評(píng)的評(píng)卷方式,如果打分與其他兩個(gè)評(píng)卷教師的評(píng)分差距過大,會(huì)使自己所評(píng)的試卷成為無(wú)效卷。在網(wǎng)上評(píng)卷中,考評(píng)評(píng)卷教師的主要指標(biāo)就是評(píng)卷量和有效卷率。而無(wú)效卷數(shù)量被認(rèn)為是衡量一個(gè)評(píng)卷教師評(píng)分水平的一個(gè)重要指標(biāo),無(wú)效卷數(shù)量多被認(rèn)為是評(píng)分標(biāo)準(zhǔn)沒有掌握好,評(píng)分水平低。于是,在既要保質(zhì)又要保量這個(gè)大前提下,打中間分則能做到在保證評(píng)卷速度的前提下,還不會(huì)出現(xiàn)無(wú)效卷,不會(huì)增加整個(gè)組的三評(píng)率,進(jìn)而增加工作量?;谝陨蟽蓚€(gè)原因,原來(lái)不想打中間分的評(píng)卷教師也會(huì)被迫去打中間分。例如當(dāng)雙評(píng)差值設(shè)置為7分的時(shí)候,若一個(gè)評(píng)卷教師打了60分,而第二個(gè)評(píng)卷教師打了46分,第三個(gè)評(píng)卷教師打了48分,那么按照現(xiàn)行的評(píng)分規(guī)則,第一個(gè)評(píng)分成為無(wú)效分,該題的最后得分是取46分和48分的平均值47分;而如果第一個(gè)評(píng)卷教師打49分,第二個(gè)和第三個(gè)評(píng)卷教師仍然打46分和48分,那么該題的最后得分應(yīng)是49分和48分的平均值48.5分,比打60分時(shí)所得的47分多出1.5分。想打高分,最后卻得了低分;而想打低分,最后卻得了高分。為了使自己的意見得到一定程度的認(rèn)可,也給考生一個(gè)相對(duì)公正的評(píng)價(jià),敢打高分或低分的評(píng)卷教師在其他人開始打中間分時(shí),也不得不放棄了自己的判斷,改打中間分。
評(píng)卷教師的個(gè)人素質(zhì)包括責(zé)任心和個(gè)人習(xí)慣兩個(gè)方面。
評(píng)卷是由評(píng)卷教師來(lái)完成的,是一項(xiàng)對(duì)人員素質(zhì)要求很強(qiáng)的工作。不僅要求評(píng)卷教師具有較高的專業(yè)素質(zhì),也要求其有較好的工作態(tài)度。首先就是要端正態(tài)度,樹立很強(qiáng)的責(zé)任心,否則會(huì)出現(xiàn)嚴(yán)重的評(píng)分誤差。一旦工作態(tài)度出現(xiàn)問題,隨意打分,評(píng)分結(jié)果必然受到影響。
這些年社會(huì)上也有一些關(guān)于高考、中考評(píng)卷的報(bào)道,其中比較尖銳的就是關(guān)于評(píng)卷教師的給分速度,批評(píng)一些評(píng)卷教師評(píng)卷過快,評(píng)閱作文題目時(shí)90秒評(píng)一篇,引起社會(huì)一片指責(zé)。其實(shí),一些大規(guī)??荚嚨脑u(píng)卷過程中,類似現(xiàn)象屢見不鮮,也確實(shí)存在部分評(píng)卷教師閱讀不夠仔細(xì),草草打分,遮蓋了考生的“閃光點(diǎn)”或因考生卷面整潔、字跡工整就給了高分,還有的是為了完成任務(wù),盲目提高評(píng)卷速度,保險(xiǎn)起見就開始打中間分。做一個(gè)好的評(píng)卷教師,既要正確理解評(píng)分標(biāo)準(zhǔn),又要把握好評(píng)分尺度。現(xiàn)在大多主觀題評(píng)分都是用評(píng)分量表,如果對(duì)量表的理解有偏差,不能把握好不同分級(jí)之間的差異,也容易造成趨中評(píng)分。
就大規(guī)??荚嚨拈喚韥?lái)說(shuō),為了減少趨中評(píng)分的評(píng)分誤差,不僅要改變、端正個(gè)別評(píng)卷員的態(tài)度和責(zé)任心,還要提高整個(gè)評(píng)卷員群體的業(yè)務(wù)水平,避免出現(xiàn)趨中評(píng)分。
此外,評(píng)卷教師的個(gè)人習(xí)慣也會(huì)導(dǎo)致趨中評(píng)分的增高。在日常的考試測(cè)試中,教師在評(píng)卷時(shí)一般不習(xí)慣打不及格分,而是大多在百分制的70分左右,這是有一定的合理性的。而到了大規(guī)模的考試評(píng)卷過程中,還是以作文為例,滿分60分,大多數(shù)老師都是一線的高中教師,這種習(xí)慣已經(jīng)形成了強(qiáng)大的心里干擾因素,他們習(xí)慣性的就會(huì)打42分(70%)左右,這也無(wú)形中增加了趨中評(píng)分出現(xiàn)的幾率。
仍以大規(guī)??荚嚨淖魑臑槔?,近幾年所使用的評(píng)分標(biāo)準(zhǔn)都是描述式評(píng)定標(biāo)準(zhǔn)量表。這種量表是把學(xué)生的作文與規(guī)定的評(píng)分標(biāo)準(zhǔn)相對(duì)照,從而評(píng)定學(xué)生的成績(jī),作用相當(dāng)有限,并有以下缺點(diǎn)。
(1)評(píng)分標(biāo)準(zhǔn)比較抽象
評(píng)分的細(xì)目分項(xiàng)越多,越不利于評(píng)卷員掌握,出錯(cuò)的可能性越大;評(píng)分項(xiàng)目多,在分項(xiàng)評(píng)分時(shí),會(huì)降低評(píng)分速度;評(píng)分項(xiàng)目少,則其概括性越強(qiáng),抽象性也就越強(qiáng)。評(píng)卷員對(duì)評(píng)分標(biāo)準(zhǔn)中同一等級(jí)內(nèi)容與標(biāo)準(zhǔn)的理解肯定有所不同,在不能平衡時(shí),就會(huì)選擇打中間分來(lái)保持評(píng)分的穩(wěn)定性。
(2)評(píng)分標(biāo)準(zhǔn)自身缺陷
評(píng)分標(biāo)準(zhǔn)中的寫作測(cè)評(píng)因素基本上包含和體現(xiàn)了寫作能力因素,體現(xiàn)著人們對(duì)不同類型、不同階段寫作側(cè)重點(diǎn)的認(rèn)識(shí)。參照量表的要求,找到水平近似的樣篇,上下略作浮動(dòng)來(lái)評(píng)定考生的成績(jī),這樣的評(píng)分本身就存在一定的模糊性,考生的答題與量表的樣本之間難以十分精確的比較。此外,對(duì)于描述量表的語(yǔ)言理解因人而異,在不同的評(píng)卷教師頭腦中的印象不盡相同,也會(huì)造成一定的模糊和偏差。再者,評(píng)卷教師對(duì)于量表的記憶是流動(dòng)的,隨著時(shí)間的流逝,標(biāo)準(zhǔn)也可能有細(xì)微的偏差。
根據(jù)以上分析,我們針對(duì)性的提出一些解決思路。
產(chǎn)生趨中評(píng)分的一個(gè)重要原因就是專家組作用的缺失。因此,在正式評(píng)卷開始前,專家組先對(duì)預(yù)先按照一定規(guī)則抽樣的部分試卷進(jìn)行試評(píng)討論。由這些經(jīng)驗(yàn)豐富的命題和評(píng)卷專家挑選出的能夠代表每個(gè)分?jǐn)?shù)等級(jí)的典型試卷。每天的評(píng)卷過程中,通過評(píng)卷系統(tǒng)將這些試卷隨機(jī)分發(fā)給普通評(píng)卷教師,針對(duì)返回的評(píng)分?jǐn)?shù)據(jù)與專家評(píng)分進(jìn)行對(duì)比,進(jìn)而判定評(píng)卷員是否存在趨中評(píng)分。這種方法簡(jiǎn)單、直觀,但由于不是全程的、實(shí)時(shí)的整體檢查,因此可能會(huì)出現(xiàn)漏判的情況。因此,可以引入專家評(píng)分曲線。讓專家組每天也進(jìn)行一定數(shù)量常規(guī)評(píng)卷,根據(jù)評(píng)卷結(jié)果和專家卷的結(jié)果生成專家曲線,監(jiān)控評(píng)卷員個(gè)體、組、全體與該曲線的趨勢(shì)的差別,一旦發(fā)現(xiàn)問題,及時(shí)糾正。
培訓(xùn)和試評(píng)對(duì)于評(píng)卷工作至關(guān)重要,專家組應(yīng)該在這個(gè)階段對(duì)評(píng)卷教師做足夠的指導(dǎo)和提醒。主要包括評(píng)分細(xì)則的理解、試題的學(xué)習(xí)以及評(píng)卷操作等,為正式評(píng)卷做充分的準(zhǔn)備。在培訓(xùn)和試評(píng)階段,要為評(píng)卷教師詳細(xì)說(shuō)明不同分?jǐn)?shù)等級(jí)之間的區(qū)別,挑選不同類型的具有代表性的專家卷供評(píng)分教師仔細(xì)研究、反復(fù)揣摩,體會(huì)評(píng)分量表和評(píng)分標(biāo)準(zhǔn),尤其是高分段、中間分?jǐn)?shù)段和低分段的差異。專家組可以拿出一部分專家卷來(lái)讓評(píng)分員試打分,只有與專家評(píng)分差值較小的評(píng)分員才能通過試評(píng)。這樣既可以知道評(píng)卷教師是否理解了試題、是否準(zhǔn)確的把握了評(píng)分標(biāo)準(zhǔn),也能提前了解到哪些評(píng)卷教師對(duì)標(biāo)準(zhǔn)掌握有差異,進(jìn)而繼續(xù)關(guān)注指導(dǎo)。如果有評(píng)卷教師始終不能通過試評(píng),專家組應(yīng)對(duì)其進(jìn)行調(diào)整,以免后期正式評(píng)卷產(chǎn)生不良后果。
在正式評(píng)卷開始前,對(duì)主觀性較強(qiáng)的題目設(shè)置“最低瀏覽時(shí)間”,如規(guī)定每篇作文的評(píng)卷時(shí)間不得低于120秒,以此來(lái)限制那些不認(rèn)真閱讀,草率打分的評(píng)卷教師,從而提升閱卷質(zhì)量。此外,專家組可以采用定時(shí)抽檢結(jié)合和個(gè)人復(fù)評(píng)相結(jié)合的方法進(jìn)行監(jiān)控,收集分析評(píng)卷教師的評(píng)分與自身、與專家卷之間的差異,差異過大時(shí),說(shuō)明該評(píng)卷教師評(píng)分波動(dòng)過大,需要及時(shí)停止評(píng)卷并進(jìn)行糾正。由于趨中評(píng)分多出現(xiàn)在評(píng)卷的后半程,因此對(duì)評(píng)卷中后期應(yīng)重點(diǎn)監(jiān)控。
改變以往過多關(guān)注無(wú)效卷的方式,更多的監(jiān)控評(píng)卷教師評(píng)分與專家卷之間的差異。優(yōu)化薪酬方式,按數(shù)量計(jì)酬確實(shí)有利于提高評(píng)卷員的積極性,提高評(píng)卷效率,但也更容易滋生趨中評(píng)分。
主觀性試題的趨中評(píng)分由來(lái)已久,在紙筆評(píng)卷中已初現(xiàn)端倪,施行網(wǎng)上評(píng)卷后,尤其在大規(guī)模的考試評(píng)卷中,這種現(xiàn)象愈發(fā)顯著。是得益于統(tǒng)計(jì)測(cè)量手段的進(jìn)步,這種現(xiàn)象更加直觀了?還是網(wǎng)上評(píng)卷的模式更刺激和助長(zhǎng)的它的發(fā)展?這其中的關(guān)鍵還是在于參與評(píng)卷的人。不論是專家還是普通評(píng)卷教師,都是參與的個(gè)體。 強(qiáng)化專家組的作用,增強(qiáng)對(duì)評(píng)卷教師的培訓(xùn),規(guī)范評(píng)卷教師的行為,每個(gè)個(gè)體做好自己的本職工作,才能逐漸減少和規(guī)避趨中評(píng)分這個(gè)整體、系統(tǒng)的誤差。
[1]陳志國(guó),芮南.高考作文網(wǎng)上閱卷雙評(píng)過程中的質(zhì)量監(jiān)控[J].中學(xué)語(yǔ)文教學(xué),2009(6).
[2]趙海燕,芮南.雙評(píng)作文題網(wǎng)上閱卷評(píng)卷教師評(píng)卷水平評(píng)價(jià)維度的確定[J].中國(guó)考試,2009(2).
[3]張昌應(yīng).高考網(wǎng)上評(píng)卷誤差控制的方法與實(shí)施[J].高教探索,2003(3).
[4]高丙成,秦旭芳.成人高考網(wǎng)上閱卷的評(píng)分者差異研究[J].烏魯木齊職業(yè)大學(xué)學(xué)報(bào),2007(4).
[5]婁慶華.高考作文評(píng)分“趨中傾向”探因[J].教學(xué)與管理,2008(3).
(責(zé)任編輯:姚歆燁)
Analysis of Reasons for Centralized Rating in Net-based Scoring of Large-scale Examination
FAN Peng
(Tianjin Municipal Educational Admission and Examination Authority,Tianjin 300387,China)
Centralized rating does not lead to obvious errors,which exists widely in subjective question scoring.In the implementation of net-based scoring,this trend is more obvious.Finding the reasons for centralized rating is the key to solve the problems in subjective question scoring.This paper analyzed the reason for central rating,and put forward some solutions.
Centralized rating;net-based scoring;error
G647
范鵬(1982—),男,助理研究員,研究方向:教育管理。