楊志強 許吟雪 全 冬
?
PRETCO口試評分效度研究①
楊志強 許吟雪 全 冬
(重慶科技學(xué)院外國語學(xué)院,重慶 401331)
采用多層面Rasch模型,通過分析PRETCO口試的評分結(jié)果以探究其評分效度。研究發(fā)現(xiàn)PRETCO口試評分效度較高,其評分結(jié)果能夠有效區(qū)分考生的口語水平,評分員評分的自身一致性總體較好。研究同時發(fā)現(xiàn)PRETCO口試評分存在以下問題:評分員的寬嚴(yán)度差別顯著,個別評分員的內(nèi)部一致性較差;少數(shù)評分員和考生的交互作用存在顯著差異;評分員和四項任務(wù)之間也出現(xiàn)了不同程度的偏差。
PRETCO;多層面Rasch模型;評分效度
高等學(xué)校英語應(yīng)用能力考試(Practical English Test for College,簡稱PRETCO)是由PRETCO考試委員會設(shè)計的標(biāo)準(zhǔn)化考試,主要面向高職院校和成人高專院校的學(xué)生[1]。PRETCO口試(PRETCO-Oral)是PRETCO考試的組成部分,2005年開始試行。該考試為計算機輔助口語考試,報考對象不同于PRETCO考試,除了面向高等職業(yè)院校的學(xué)生外,還包括應(yīng)用型高等院校的在校學(xué)生。由于PRETCO口試是主觀性測試,其評分亦為主觀行為,其間必然產(chǎn)生評分誤差,影響測試的評分效度。為減少評分的主觀性對考試整體效度的影響,本研究采用多層面Rasch模型(Multi-facets Rasch Model,以下簡稱MFRM),對PRETCO口語考試的評分進行研究,以期為該考試的評分或評分員的培訓(xùn)提供一些啟示與建議。
口語考試屬于語言運用測試(Language Performance Assessment)[2],鑒于該類測試的主觀題屬性,評分需要人工完成,評分的質(zhì)量對于語言運用測試而言極其重要[3]。國外基于多層面Rasch模型的語言測試研究主要是語言運用測試的評分研究(口語和寫作測試評分)[4]。國內(nèi)的相關(guān)研究處于起步階段,內(nèi)容涉及語用能力測試的評分[5]、CET和TEM-4作文/口語考試的評分信度[6]、評分員效應(yīng)/偏差研究[7]和PRETCO口試評分標(biāo)準(zhǔn)的效度驗證[8]等。使用多層面Rasch模型對語言運用測試的評分進行研究已得到廣泛重視。但目前還沒發(fā)現(xiàn)有關(guān)PRETCO口試評分效度的研究成果。為此,本研究擬采用多層面Rasch模型對PRETCO口試的評分結(jié)果進行分析,探討其評分效度。
PRETCO口試為計算機輔助口語測試,主要包括四個部分:朗讀短文(Loud Reading)、提問—回答(Questions & Answers)、漢譯英(Chinese-English Interpretation)以及看圖講話(Presentation)。本研究分析的對象為重慶市某PRETCO口試閱卷點2015年12月的評分結(jié)果,共有1 455名考生參加這次考試。考試同時使用四套平行試題,即sheet1、sheet2、sheet3和sheet4,參考的考生人數(shù)分別為645名、466名、237名和107名。參加閱卷的評分員(R1-R20)共有20名,來自11所不同的高校,他們分別對考生進行雙評。PRETCO口試的總分為16分,每項任務(wù)為4分,評分時采用七個分?jǐn)?shù)段,分別為0分,1分,2分,2.5分,3分,3.5分和4分。鑒于FACETS分析數(shù)據(jù)時需使用整數(shù),因此本研究將七個分?jǐn)?shù)段轉(zhuǎn)換成七個等級(1,2,3,4,5,6,7)。
本研究采用的MFRM模型包括四個層面:考生能力、評分員、試題以及口語考試的四項任務(wù)。因為PRETCO口試的四套題為平行試題,所以本研究對試題層面進行錨定(anchoring),以消除估算過程中的歧義。此外,由于PRETCO各項任務(wù)的評分標(biāo)準(zhǔn)有其自身的特點,所以需采用多層面Rasch模型中分部記分模型(Partial Credit Model)[9]。
多層面Rasch模型的分析主要涉及以下概念:
1.度量值(Measure):每個層面的個體在統(tǒng)一標(biāo)尺上的數(shù)值,以洛基單位(logit)呈現(xiàn),從而便于比較各層面中個體能力的差異;
2.?dāng)M合統(tǒng)計量(Fit statistics):表示個體的實際觀察值與Rasch模型預(yù)測值的擬合程度,包括加權(quán)均方擬合統(tǒng)計量(Infit Mean Square)和未加權(quán)均方擬合統(tǒng)計量(Out Mean Square);
3.分隔系數(shù)(Separation)和分隔指數(shù)信度(Reliability):衡量個體之間存在顯著性差異的程度;
4.偏差(Bias)分析:多層面Rasch模型可以用來預(yù)測實際分?jǐn)?shù)偏離模型的情況,顯著性偏差比例可接受的范圍在5%左右。
本研究基于FACETS(3.71.3)軟件,利用MFRM模型對PRETCO的口語評分進行總體分析,并從考生、評分者、任務(wù)和評分偏差四個方面展開討論。
由圖1可以看出,第一列為度量值,其統(tǒng)一單位為logit,該圖顯示的最大值約為5logits,最小值為-6logits,總跨度約為11logits。第二列為考生能力值,依據(jù)考生的能力從大到小進行排列,排位越靠上,考生能力越強,位于同一行的考生能力相同;其中,一個“*”代表16名考生,而“.”表示少于16名考生。根據(jù)圖1我們可以得出結(jié)論:考生的能力總體上呈正態(tài)分布,排位靠上的考生比排位靠下的考生具備更高的英語口語表達(dá)能力。
圖1 總體層面圖(囿于篇幅,本圖有所調(diào)整)
第三列為評分員評分的度量值,該值不受考生能力和試題難度的影響,能夠反映出評分員的寬嚴(yán)度。由于評分員的寬嚴(yán)度是負(fù)向的(圖中第一行“-Raters”),所以評分員的度量值越大,其評分越低,即越嚴(yán)厲。從圖1可以看出,評分員R4最嚴(yán)厲,R18最寬松。
第四列為錨定的四套題,難度值均為“0”logit。
第五列為任務(wù)的難度。同樣,由于任務(wù)的難度是負(fù)向的(-Tasks),所以每項任務(wù)的度量值越大,則表明該任務(wù)的得分越低,即越難。由圖1可知,第二部分任務(wù)Question & Answer的難度最大,第一部分任務(wù)Reading難度最小,兩項任務(wù)的度量值之差約為2Logits,遠(yuǎn)小于考生能力量度的跨度。
最后四列為四項任務(wù)評分標(biāo)準(zhǔn)各個分?jǐn)?shù)段的使用情況,圖中分?jǐn)?shù)段之間的短橫線“---”表示相鄰兩個等級的臨界能力值。
第一,表1是考生層面的統(tǒng)計數(shù)據(jù)。能力最強的考生度量值為4.18logits,能力最弱的考生度量值為-6.82logits,兩者相差較大,達(dá)到11logits。多層面Rasch模型規(guī)定,如果實際觀察值與模型預(yù)測值完全擬合,其擬合統(tǒng)計量(InfitMnSq)的值為1。由表1可知,考生層面InfitMnSq的均值為1.02,這表明考生的能力基本與模型一致。表1同樣顯示,考生個體能力的分隔系數(shù)為2.71,分隔指數(shù)的信度為0.88,卡方值為9 641.6(d.f.=1 454, p=0.00<0.01)從統(tǒng)計的角度分析被試能力的差異具有顯著意義。
表1 考生層面數(shù)據(jù)
多層面Rasch模型并沒有嚴(yán)格規(guī)定擬合度(fit)的取值范圍,這需要根據(jù)考試的性質(zhì)和目的來確定。一些研究認(rèn)為擬合度在0.5-1.5之間是可接受的范圍,0.7-1.3之間為高度擬合。但是,也有研究將考生層面InfitMnsq取值范圍定為0.5-3之間。本研究主要參考了FACETS說明書中擬合度的取值范圍(表2)。其中,fit<0.5表示過度擬合(overfit),即評分員對考生的各項評分的差異小于模型的預(yù)期值;而fit>2則表示非擬合(Misfit),即評分員對考生的各項評分超出了模型的預(yù)期。本研究中非擬合的考生數(shù)量為114,這可能是由于不同的評分員對同一考生評分不一致而造成。但由于考生層面的非擬合不是主要問題,而且非擬合的考生總數(shù)僅占總數(shù)的7.8%,因此這并不影響此次評分的效度。
表2擬合度分布
擬合度取值考生數(shù)百分比 Overfit: fit<0.531121.3% Less Acceptable1.5≦fit≦215710.8% Acceptable0.5≦fit<1.587360.0% Misfit fit >2114 7.8%
第二,評分員層面的數(shù)據(jù)顯示(見表3),評分員評分寬嚴(yán)度的分隔指數(shù)為8.05,分隔指數(shù)的信度為0.98,卡方值為1 330.2(d.f.=19),顯著性p=.00<0.01,這表明評分員評分的寬嚴(yán)度存在統(tǒng)計學(xué)意義上的顯著性差異。其中,最嚴(yán)厲的評分員(R4)度量值為0.63logits,最寬松的評分員(R18)度量值為-.76logits,兩者相差1.39logits,只占考生能力跨度(11 logits)的1/8。這從一定程度上表明,總體上來說考官的嚴(yán)厲度差異對考生成績的影響不大。
PRETCO口試的考試規(guī)模較大,風(fēng)險較高,因此本研究對于評分員層面擬合度(InfitMnSq)的取值較為謹(jǐn)慎,采用0.7–1.3高度擬合的取值范圍。如果InfitMnSq大于1.3logits,說明評分員自身評分的一致性較差;如果InfitMnSq小于0.7logits,則說明評分員的評分比較接近,差異較小,可能會導(dǎo)致集中趨勢。所謂集中趨勢是指評分員的評分比較趨中,評分員過多地使用中間分?jǐn)?shù)段,這樣無益于區(qū)分考生的能力。雖然過度擬合和非擬合都表明評分員對考生的評分出現(xiàn)一定程度的偏差,但通常情況下,非擬合的問題較過度擬合而言更加嚴(yán)重。由表3可知,評分員層面的擬合度總體較好,有一位評分員的擬合度大于1.3logits(R5,1.68logits),出現(xiàn)了非擬合現(xiàn)象,表明這位評分員未能很好地使用各個分?jǐn)?shù)段,評分的前后一致性較差。原因可能是評分員R5第一次參加PRETCO口試的評分,缺乏評分經(jīng)驗。此外,該評分員還兼顧教學(xué)和行政工作,這也可能會影響其評分質(zhì)量。對于這位評分員,需要進行針對性的培訓(xùn),從而提高其評分的一致性。本次閱卷所有評分員的擬合度均大于0.7logits,總體不存在集中趨勢。
第三,表4是任務(wù)層面的分析數(shù)據(jù)。我們可以看出四項任務(wù)中,“提問—回答”最難,度量值為0.96logits,其次是“看圖講話”和“漢譯英”,度量值分別為0.28logits和–0.08logits,“朗讀短文”最簡單(–1.15logits)。四項任務(wù)的難度分隔系數(shù)為36.36,分隔指數(shù)信度為1.00,卡方值5 221.8(d.f.=3),顯著性p=.00<0.01,這表明四部分任務(wù)的難度差異具有統(tǒng)計意義上的顯著性。雖然如此,由于四項任務(wù)的難度差異僅為2.11logits,所以總體上不影響考生的成績。由任務(wù)層面的擬合度可知(表4倒數(shù)第二列數(shù)據(jù)),“提問—回答”“看圖講話”“漢譯英”以及“朗讀短文”的擬合度總體較好,分別為1.22logits、0.86logits、0.88logits和1.06logits,均位于0.7–1.3之間,這說明評分員對PRETCO口試各項任務(wù)的評分一致性較好。
表4 任務(wù)層面
表5 四項任務(wù)各分?jǐn)?shù)段評分分布統(tǒng)計
注:由于本次閱卷的數(shù)量較多,分?jǐn)?shù)段使用不到10次的頻率顯示“0%”。
多層面Rasch模型對于評分標(biāo)準(zhǔn)各個分?jǐn)?shù)段的使用情況有具體的要求。如果分?jǐn)?shù)段的使用次數(shù)過低(低于10次),那么這個分?jǐn)?shù)段有可能存在問題,需要采取一定措施,比如:改寫其描述語,或者和相鄰的分?jǐn)?shù)段進行合并,甚至可以直接將該分?jǐn)?shù)段刪除。由表5可知,評分員使用了四項任務(wù)評分標(biāo)準(zhǔn)的所有分?jǐn)?shù)段,但“陳述”任務(wù)分?jǐn)?shù)段7的使用頻次僅為8次,少于10次。該分?jǐn)?shù)段的描述語要求考生除了能夠用英語清楚、連貫地介紹題目中圖畫/圖表所包含的信息外,還要對其進行評述,并做到英語表達(dá)符合規(guī)范。由于參加PRETCO口試的考生主要來自高職院校或應(yīng)用技術(shù)型院校,“陳述”任務(wù)分?jǐn)?shù)段7的描述語對此類考生的要求可能較高,多數(shù)考生的表現(xiàn)難以達(dá)到這個標(biāo)準(zhǔn)。當(dāng)然,也有可能由于PRETCO口試評分培訓(xùn)時缺乏對該分?jǐn)?shù)段的闡述,評分員的理解可能存在偏差,從而導(dǎo)致該分?jǐn)?shù)段的使用次數(shù)過低。
本研究對于評分誤差分析主要通過Rasch模型中的偏差交互作用分析(bias interaction analysis)進行,如評分員與考生的偏差、評分員與各項任務(wù)的偏差等。本研究根據(jù)FACETS的分析結(jié)果,認(rèn)為p<0.05為顯著偏差。
一方面,本文通過MFRM對評分員和考生偏差分析。結(jié)果顯示評分員與考生之間的交互作用出現(xiàn)顯著偏差(詳見表6,p<0.05),偏差的總數(shù)為14次。其中,評分員R1、R3、R13和R16分別出現(xiàn)兩次偏差,評分員R4、R8、R9、R14、R15和R19分別出現(xiàn)一次偏差。以評分員R3為例,該評分員給考生s641的評分為24分(該分?jǐn)?shù)為轉(zhuǎn)化后的等級分?jǐn)?shù),下同),而MFRM模型的期望分?jǐn)?shù)為17.06分,評分過于寬松;然而對考生s1350的評分卻較為嚴(yán)厲,實際評分為9分,MFRM模型的期望分?jǐn)?shù)為17.37分。
表6 評分員與考生偏差分析
由于本次閱卷的總量較大,而且實行雙評,所以14次的顯著性偏差對總體評分效度影響不大。此外,以考生s1350為例(同見表6),雖然評分員R3對其評分較嚴(yán),實際評分為9分,但評分員R4對其評分則較為寬松,實際評分為24分,兩者相差懸殊。對于閱卷過程中的此類評分偏差,由第三方閱卷員重新進行評閱(仲裁),以此消除偏差現(xiàn)象。
另一方面,本文分析評分員與任務(wù)的偏差。數(shù)據(jù)分析顯示20位評分員與任務(wù)的交互作用均產(chǎn)生了顯著性偏差(p<0.05),偏差的次數(shù)為59,占所有交互作用組合(21×4=84)的70.2%。這些偏差表明,在四項任務(wù)評分標(biāo)準(zhǔn)的認(rèn)識和把握上評分員的一致性較差。評分員在各項任務(wù)上的偏差或偏松的次數(shù)相當(dāng),說明他們在各項任務(wù)上的評分尺度不一致。
產(chǎn)生上述偏差的原因可能是評分員對各項任務(wù)的評分標(biāo)準(zhǔn)理解不一致,也有可能是評分標(biāo)準(zhǔn)或評分尺度存在問題,讓評分員難以把握,比如“陳述”任務(wù)的最后一個分?jǐn)?shù)段。這兩方面原因可能導(dǎo)致評分員出現(xiàn)了評分偏差。
本研究通過使用多層面Rasch模型(MFRM)對PRETCO口試的評分效度進行研究,得出如下結(jié)論:PRETCO口試的評分結(jié)果能夠有效地區(qū)分考生的口語水平,評分效度較高,評分員評分的自身一致性總體較好。然而,評分員的寬嚴(yán)度有著顯著差別,個別評分員的內(nèi)部一致性較差;少數(shù)評分員和考生的交互作用差異顯著;評分員和四項任務(wù)之間也出現(xiàn)了不同程度的評分偏差。為了減少評分偏差,本研究擬對PRETCO口試的評分以及評分培訓(xùn)提出以下建議:
雖然PRETCO口試閱卷前對所有的評分員都進行了培訓(xùn),而且多數(shù)評分員評分的內(nèi)部一致性把握較好,但評分員外部一致性差異顯著。這表明原有評分員的培訓(xùn)可能對提升評分員自身的一致性有一定的幫助,而對提高評分員外部一致性的作用不明顯[33]。因此,本研究建議進一步加強對評分員的培訓(xùn),除了評分前的培訓(xùn)外,評分過程中也可以進行適當(dāng)?shù)臅和?,增加培?xùn)和評分員的討論等環(huán)節(jié),從而減少實際評分中的誤差。
通常而言,老評分員閱卷經(jīng)驗豐富,評分質(zhì)量較高,而且閱卷的效率也高于新評分員,因此,在實際條件允許的情況下,盡量使用老評分員。如果確有新評分員參與評分,則需要對新評分員進行針對性的培訓(xùn),比如對評分標(biāo)準(zhǔn)進行詳盡的解釋,選用各個評分段所對應(yīng)的典型作文進行多次試評等。同時,閱卷過程中也可以邀請優(yōu)秀的老評分員交流其評分經(jīng)驗,以幫助新評分員提高閱卷質(zhì)量和效率。
為了減少閱卷過程中的評分偏差,閱卷中心需要及時豐富和更新閱卷的數(shù)據(jù),加強閱卷組長的監(jiān)督力度。閱卷組長在閱卷過程中應(yīng)不間斷查看評分員的閱卷數(shù)據(jù),比如總體評分的均值、標(biāo)準(zhǔn)差以及評分員各自的均值、標(biāo)準(zhǔn)差等,及時告知閱卷員的評分情況。如果個別閱卷員出現(xiàn)明顯偏差,則應(yīng)及時提醒并督促糾正,如果情況仍然沒有改觀,則有必要對其進行培訓(xùn)。
當(dāng)然,本研究只采用定量的方法對PRETCO口試的單次評分結(jié)果進行了分析,還存在兩點不足:未采用定性的方法探究評分偏差深層次的原因;未對歷次的評分偏差進行歷時分析,這兩方面需要在以后的研究中進一步完善。
[1] 《高等學(xué)校英語應(yīng)用能力考試大綱》修訂組.高等學(xué)校英語應(yīng)用能力考試(口試)大綱和樣題[M].2版.北京:高等教育出版社,2016.
[2] McNamara,Tim. F.Measuring Second Language Performance[M].London: Longman, 1996.
[3] 劉建達(dá),楊滿珍.做事測試評卷中的質(zhì)量控制[J].外語電化教學(xué),2010(1):26-32.
[4] Wind, Stefanie. A. & Peterson, Meghan. E. A systematic review of methods for evaluating rating quality in language assessment[J].Language Testing, 2017(1):1-32.doi: 10.1177/0265532216686999.
[5] 劉建達(dá).話語填充測試方法的多層面Rasch模型分析[J].現(xiàn)代外語,2005(2):157-169
[6] 王躍武,朱正才、楊惠中.作文網(wǎng)上評分信度的多面Rasch測量分析[J].外語界,2006(1):69-76.
[7] 劉建達(dá).評卷人效應(yīng)的多層面Rasch模型研究[J].現(xiàn)代外語,2010(2):185-193.
[8] 楊志強,全冬.PRETCO 口試評分標(biāo)準(zhǔn)效度驗證[J].外語測試與教學(xué),2016(1):13-21+31.
[9] 戴朝暉,尤其達(dá).大學(xué)英語計算機口語考試評分者偏差分析[J].外語界,2010(5):87-95.
(責(zé)任編輯:鄭宗榮)
①傳統(tǒng)意義上,評分研究主要是“信度”研究,即評分的一致性和可靠性。由于“信度”只是整體效度中的一部分,因此使用“評分效度”更加貼切[4]。
A Study on the Scoring Validity of PRETCO-Oral
YANG Zhiqiang XU Yinxue QUAN Dong
This study explores the scoring validity of PRETCO-Oral through a many-facet Rasch analysis. Results show that the scoring of PRETCO-Oral is valid in that examinees’ oral English proficiency can be screened by the test, raters’ scorings are reliable and raters are self-consistent in general; However, results also demonstrate that there are significant differences in raters’ leniency/severity; few raters exhibit self-inconsistency; there exists bias between several raters and examinees and bias between raters and the four tasks.
PRETCO; many-facet Rasch model; scoring validity
G642.475
A
1009-8135(2018)02-0121-08
楊志強(1982—),男,河南安陽人,重慶科技學(xué)院外國語學(xué)院講師,碩士,主要研究語言測試。
許吟雪(1983—),女,重慶人,重慶科技學(xué)院外國語學(xué)院講師,碩士,主要研究應(yīng)用語言學(xué)。
全 冬(1972—),男,四川金堂人,重慶科技學(xué)院外國語學(xué)院教授,主要研究現(xiàn)代教育技術(shù)。
重慶市教育委員會人文社會科學(xué)研究規(guī)劃項目“基于證據(jù)的PRETCO口試效度研究”(17SKG201)和重慶科技學(xué)院校內(nèi)科研基金項目“基于證據(jù)的PRETCO口試效度研究”(CK2016Z35)階段性研究成果。