邵 健
(浙江工商職業(yè)技術(shù)學(xué)院,浙江 寧波 315012)
英語(yǔ)分級(jí)考試是較為常用的測(cè)試手段之一,目的在于區(qū)分學(xué)生的語(yǔ)言水平,從而開展分級(jí)分層教學(xué),該方法被很多高校采用[1]。但鑒于操作層面的原因,分級(jí)往往“以總分為標(biāo)準(zhǔn)”,無(wú)法區(qū)分讀寫能力和聽說(shuō)能力的差異,從而導(dǎo)致最終聽說(shuō)、讀寫技能發(fā)展不均衡[2]。因此,綜合考慮聽說(shuō)讀寫四個(gè)技能的分級(jí)考試,才能較好地反映學(xué)生的真實(shí)語(yǔ)言水平。本研究以某校英語(yǔ)分級(jí)考試中的面試型口試為研究對(duì)象,該測(cè)試屬于語(yǔ)言運(yùn)用測(cè)試的一種常見形式。它不僅考察學(xué)生的語(yǔ)言知識(shí)、語(yǔ)言運(yùn)用和交際技巧,同時(shí)對(duì)學(xué)生的心理素質(zhì)也有一定要求,整體難度較高。更重要的是,口試涉及主觀評(píng)分環(huán)節(jié)。評(píng)分員需要憑借自己的經(jīng)驗(yàn)、知識(shí)及對(duì)評(píng)分標(biāo)準(zhǔn)及量表的理解和把握,對(duì)考生的表現(xiàn)進(jìn)行觀察、理解和評(píng)判[3],考生實(shí)際水平和能力往往受到評(píng)分員、評(píng)分標(biāo)準(zhǔn)和量表等因素的影響。由于人為要素所造成的誤差是始終存在、且難以避免的[3-7],這對(duì)測(cè)試信效度的保障提出了更高要求[8]。
為了更精準(zhǔn)評(píng)估考生英語(yǔ)聽說(shuō)能力,剝離考生能力之外的其他影響因素,本文運(yùn)用多層面Rasch模型(MFRM)分析這次英語(yǔ)口試質(zhì)量,期望達(dá)成以下目的:(1)通過(guò)對(duì)考生層面的分析,對(duì)考生成績(jī)進(jìn)行微調(diào)和補(bǔ)償,最終確定其分級(jí);(2)對(duì)評(píng)分員效應(yīng)以及評(píng)分員層面與其他層面的交互作用進(jìn)行檢驗(yàn),并反饋評(píng)分員以提高評(píng)分準(zhǔn)確性;(3)以MFRM 模型對(duì)該校現(xiàn)行英語(yǔ)分級(jí)考試評(píng)分質(zhì)量進(jìn)行總體檢驗(yàn)。
Rasch 模型是項(xiàng)目反應(yīng)理論經(jīng)典模型之一,相較于經(jīng)典測(cè)量理論,它以 “概率函數(shù)的形式來(lái)描述項(xiàng)目作答反應(yīng)結(jié)果是如何受到被試能力水平和項(xiàng)目特性聯(lián)合作用的影響”[9]4。該模型克服了經(jīng)典測(cè)量理論中觀察分?jǐn)?shù)等權(quán)重線性累加的弊端以及測(cè)量誤差計(jì)算的不精確性,可以更精確地估算考生實(shí)際水平和項(xiàng)目的計(jì)量學(xué)參數(shù)。Rasch 模型可分為單參數(shù)、雙參數(shù)及三參數(shù)模型,從考生和題目?jī)蓚€(gè)層面進(jìn)行分析。但實(shí)際測(cè)試環(huán)境中,特別是進(jìn)行主觀題類評(píng)分時(shí),評(píng)分標(biāo)準(zhǔn)、評(píng)分量表、評(píng)分員及其對(duì)評(píng)分標(biāo)準(zhǔn)的理解、把握和運(yùn)用均有可能造成測(cè)量誤差和偏差。因此,李納克爾(Linacre)在經(jīng)典Rasch 模型的基礎(chǔ)上提出了多層面Rasch 模型[10],將經(jīng)典模型無(wú)法企及的層面要素納入其中,從而拓展了模型的解釋效力,對(duì)考生得分概率的評(píng)價(jià)更為全面。詳細(xì)介紹可參考張潔[11]和李久亮[12]的相關(guān)研究。目前,國(guó)內(nèi)學(xué)界將多層面Rasch 模型運(yùn)用于大型主觀測(cè)試(如寫作和口語(yǔ))的信效度檢驗(yàn)[13-14]及評(píng)分員效應(yīng)和評(píng)分質(zhì)量分析[5,11,15,16],取得了良好效果,現(xiàn)有研究表明,該模型可有效用于檢驗(yàn)主觀測(cè)試的質(zhì)量,模型信息可反饋給施測(cè)部門、評(píng)分員和教師,進(jìn)而反撥教學(xué)。
數(shù)據(jù)來(lái)源于某校中外合作專業(yè)三個(gè)班新生(n=141)的英語(yǔ)分級(jí)考試成績(jī)。該考試參照雅思,分為閱讀、寫作及口試三個(gè)部分,研究?jī)H分析口試成績(jī)??谠嚪譃槿糠郑脮r(shí)10-15 分鐘。第一部分為熱身環(huán)節(jié),回答諸如姓名、年齡、家鄉(xiāng)等問(wèn)題;第二部分為簡(jiǎn)答題,要求學(xué)生用2-3 個(gè)句子予以回答;第三部分為討論題,要求學(xué)生結(jié)合某個(gè)主題闡述自己的觀點(diǎn)、見解或想法等,并就其展開論述。評(píng)分標(biāo)準(zhǔn)為國(guó)際第二語(yǔ)言水平量表 (International Second Language Proficiency Ratings,簡(jiǎn)稱ISLPR)。評(píng)分者需要根據(jù)考生在口試過(guò)程中表現(xiàn)出的英語(yǔ)準(zhǔn)確性、流利度和得體性進(jìn)行評(píng)價(jià),分別給出聽和說(shuō)的成績(jī)。
口試在封閉教室中進(jìn)行,每次僅有一名考生進(jìn)入??荚囉梢幻饧處熦?fù)責(zé)提問(wèn)、引導(dǎo)和互動(dòng),全體評(píng)分員對(duì)該考生的聽說(shuō)表現(xiàn)進(jìn)行打分。量表分為6 個(gè)主要級(jí)別(記為0-5),加上主要級(jí)別之間的過(guò)渡級(jí)別(記為0+,1-,1+,2+,3+,4+),共計(jì)12 個(gè)級(jí)別(由于多層面Rasch 模型軟件只能處理連續(xù)型數(shù)值變量,因此要求口試的原始成績(jī)按照級(jí)階被轉(zhuǎn)化成連續(xù)型數(shù)值。)。按照該校中外合作專業(yè)語(yǔ)言階段的規(guī)定,考生得到2+就可以升入專業(yè)學(xué)習(xí),所以在實(shí)際分級(jí)考試中,只需用到前5 級(jí)進(jìn)行評(píng)分。在測(cè)試前,所有評(píng)分員都參加過(guò)澳方組織的培訓(xùn),并獲得澳方頒發(fā)的TAFE 資格證書。此外,為了弱化評(píng)分員個(gè)體的差異,在測(cè)試中共計(jì)安排了四位評(píng)分員,其中1 號(hào)和2 號(hào)為中方教師,在中外語(yǔ)言項(xiàng)目任教年數(shù)都有十余年,3 號(hào)和4 號(hào)為外籍教師,任職年限分別為7 年和2 年。
采用李納克爾開發(fā)的Minifac 軟件 (V3.80.0)建模,該軟件是Facets 的學(xué)生版本,除分析樣本數(shù)量上限為2000 條外,其他均與正式版本無(wú)異。
所用MFRM 建模包含以下幾個(gè)層面:考生的聽說(shuō)能力、評(píng)分人和評(píng)分標(biāo)準(zhǔn),所構(gòu)建的數(shù)學(xué)模型如下:Log(Pnijk/Pnij(k-1))= Bn-Ci-Dj-Fjk,其中,Pnijk和Pnij(k-1)分別表示第n 個(gè)考生在第j 個(gè)評(píng)分標(biāo)準(zhǔn)上被評(píng)分員i 判定為k 分和k-1 分的概率;Bn為第n個(gè)考生的能力;Ci是第i 個(gè)評(píng)分員的評(píng)分嚴(yán)厲程度;Dj是第j 個(gè)評(píng)分標(biāo)準(zhǔn)的難易度;Fjk代表第j 個(gè)評(píng)分標(biāo)準(zhǔn)中相鄰分?jǐn)?shù)段對(duì)應(yīng)的階梯難度。
通過(guò)MFRM 模型的統(tǒng)計(jì)分析,可綜合考察學(xué)生能力、評(píng)分員、評(píng)分標(biāo)準(zhǔn)及量表如何在共同作用下影響學(xué)生的最終成績(jī),對(duì)評(píng)分過(guò)程中產(chǎn)生的各種測(cè)量誤差、以及各個(gè)層面交互作用產(chǎn)生偏差的原因進(jìn)行診斷,從而對(duì)考生的最終定級(jí)提供修正和補(bǔ)償,最終提高英語(yǔ)口試質(zhì)量。
圖1 為模型總層面圖,展示了所有層面的總體情況,估算結(jié)果被統(tǒng)一在第一列的共同單位洛基值上。該值已經(jīng)進(jìn)行了對(duì)數(shù)轉(zhuǎn)換,滿足線性和等距特征,因此可以直接進(jìn)行跨層面的估算和比較。第二列是考生能力值,每個(gè)星號(hào)代表2 名考生。從星號(hào)數(shù)量可以看到,考生的能力并未呈現(xiàn)較為理想的正態(tài)分布,考生能力之間差異較大,能力最強(qiáng)的考生和能力最弱的考生之間相差22.5 個(gè)洛基值。第三列是考官嚴(yán)厲程度,最嚴(yán)考官為j1,最松考官為j2,兩者之間相差3 個(gè)洛基,約為考生能力跨度值的七分之一,因此,考官個(gè)體的嚴(yán)格與否不至于對(duì)最終評(píng)價(jià)產(chǎn)生決定性的影響[17]。第四列是評(píng)分標(biāo)準(zhǔn),即聽和說(shuō)的總體評(píng)價(jià)分,兩者差距大約1 個(gè)洛基。第五列為評(píng)分量表,分值之間的間隔橫線為相鄰分值的臨界線,下圖中各個(gè)分?jǐn)?shù)之間的分割范圍有密有疏,所包含的洛基值不等,從側(cè)面上證明評(píng)分員對(duì)分值的把握較好,評(píng)分主要依據(jù)為考生能力??傮w而言,評(píng)分員和評(píng)分標(biāo)準(zhǔn)之間的差異不大,但考生能力之間確實(shí)存在較大差異。
圖1 模型層面圖
MFRM 模型能對(duì)每個(gè)個(gè)體和層面進(jìn)行運(yùn)算和估值,提供更多評(píng)價(jià)信息,對(duì)測(cè)試進(jìn)行質(zhì)量檢驗(yàn),幫助修正測(cè)評(píng)誤差,反饋評(píng)分質(zhì)量,為分級(jí)教學(xué)提供依據(jù)。下文將對(duì)各層面逐一展開分析。
3.2.1 考生層面。表1 提供考生層面數(shù)據(jù)。表下面數(shù)值是考生層面總體估算值,分隔比率為5.61,即考生之間的差異是測(cè)量誤差的5.61 倍;分隔指數(shù)[根據(jù)Myford & Wolfe(2004),分隔指數(shù)計(jì)算公式=(4* 分隔比率+1)/3]為7.81,即考生差異可分為7.81 個(gè)層次。結(jié)合卡方值及統(tǒng)計(jì)決斷(X2=4388.6,p=.00),可判定考生之間存在顯著差異。表1 包含考生序號(hào)(第一列),測(cè)量值和測(cè)量誤差(第二至第五列) 和統(tǒng)計(jì)擬合指標(biāo)(最后四列)。其中obsvd Ave.和Fair(M) Ave.分別對(duì)應(yīng)學(xué)生實(shí)際得分( 均值)和學(xué)生期望得分(均值),后者是模型綜合評(píng)分員嚴(yán)厲度、評(píng)分標(biāo)準(zhǔn)難度和評(píng)分量表所輸出的理想分?jǐn)?shù),和前者相比,它更接近考生實(shí)際能力。有學(xué)者[13,18]提出,可以根據(jù)兩者差異調(diào)整學(xué)生成績(jī),對(duì)最終的報(bào)道等級(jí)進(jìn)行微調(diào)和補(bǔ)償。本文計(jì)算了兩者之間的差值,發(fā)現(xiàn)取值在正負(fù)0.05 之間,均值為-0.00511,標(biāo)準(zhǔn)差為0.034732,因此無(wú)需進(jìn)行調(diào)整。
表1 中還包含數(shù)據(jù)和模型的擬合情況,具體指標(biāo)為加權(quán)和未加權(quán)均方擬合統(tǒng)計(jì)量(Infit MnSq和Outfit MnSq)以及它們的Z 標(biāo)準(zhǔn)分。李納克爾認(rèn)為,未加權(quán)均方擬合統(tǒng)計(jì)量往往受到個(gè)體差異大的數(shù)據(jù)影響,因此,實(shí)際操作中往往以加權(quán)均方擬合統(tǒng)計(jì)量為準(zhǔn),其取值在0.6 至1.5 之間時(shí)可認(rèn)為數(shù)據(jù)和模型擬合較好[19]272。也有學(xué)者根據(jù)實(shí)際估算的參數(shù)數(shù)量建議將評(píng)判指標(biāo)放寬到0.5至3 之間[13]。結(jié)合本次研究的評(píng)分員和評(píng)分標(biāo)準(zhǔn)的數(shù)量,我們將擬合值鎖定在0.5 至2.5 之間,大于2.5 屬于非擬合(misfitting),即考生的實(shí)際觀測(cè)值和模型預(yù)測(cè)值之間差異過(guò)大,小于0.5 則是過(guò)度擬合(outfitting),即情況剛好相反。表1 包含所有擬合不良的考生,共有3 名考生的Z 分大于等于2.5,屬于非擬合。另有18 名學(xué)生數(shù)據(jù)過(guò)度擬合,占比12.77%。鑒于85.1%學(xué)生(120 人)的數(shù)據(jù)擬合良好,可認(rèn)為考生數(shù)據(jù)整體擬合具有內(nèi)部一致性。
3.2.2 評(píng)分員層面。評(píng)分員是測(cè)試中的關(guān)鍵層面,也是最容易出現(xiàn)測(cè)量誤差的層面。主觀上看,評(píng)分員的個(gè)體因素,如人生經(jīng)歷、個(gè)人偏好、情感認(rèn)知、喜好習(xí)慣等,均能影響其判斷,而且評(píng)分員對(duì)評(píng)分標(biāo)準(zhǔn)的理解和掌握也因人而異,存在不同;客觀存在的冗長(zhǎng)無(wú)趣的評(píng)分過(guò)程以及在評(píng)分過(guò)程中可能存在的分神、疲倦等原因,都有可能形成評(píng)價(jià)誤差。因此,即便在考前對(duì)評(píng)分員進(jìn)行培訓(xùn),在實(shí)際測(cè)試過(guò)程中,仍可能存在和考生實(shí)際表現(xiàn)并無(wú)關(guān)聯(lián)的測(cè)量誤差,即評(píng)分員效應(yīng)[20],包括嚴(yán)厲度、暈輪效應(yīng)、集中趨勢(shì)、隨機(jī)效應(yīng)和區(qū)分性這五個(gè)方面[3,4]。
表2 包含測(cè)量值、擬合指標(biāo)和層面總體估算結(jié)果。評(píng)分員層面的分隔比率為7.91,分隔指數(shù)為10.88,這意味著四個(gè)評(píng)分員的打分嚴(yán)厲度可以分為將近11 個(gè)不同的層次,結(jié)合卡方檢驗(yàn)的結(jié)果(X2=236.3,p=.00),可以認(rèn)為評(píng)分員的嚴(yán)厲度之間存在著顯著差異。從評(píng)分員之間的差異看,一號(hào)評(píng)分員的打分最為嚴(yán)格,二號(hào)打分最為寬松,但盡管四位評(píng)分員的嚴(yán)厲度之間存在顯著差異,但是,從他們的點(diǎn)二列相關(guān)系數(shù)看,相關(guān)度在0.87 至0.89 之間,總體較為理想,所以可以認(rèn)為,評(píng)分員打分的嚴(yán)厲度雖然不一,但評(píng)分的一致性和可靠性較高。
表2 評(píng)分員層面
此外,可通過(guò)加權(quán)均方擬合統(tǒng)計(jì)量評(píng)判評(píng)分員打分的一致性問(wèn)題。對(duì)于該指標(biāo)的臨界值,一般有兩種看法,一種是以加權(quán)均方擬合統(tǒng)計(jì)量的平均值和標(biāo)準(zhǔn)差作為標(biāo)準(zhǔn),以平均值加減兩個(gè)標(biāo)準(zhǔn)差(M+/-2SD)作為上下限[21]117;另一種以加權(quán)均方擬合統(tǒng)計(jì)量取值在0.7 至1.3 為限,但也可以適當(dāng)放寬至0.6至1.5 之間[22]。表2 中四位評(píng)分員的加權(quán)均方擬合統(tǒng)計(jì)量均在臨界值內(nèi),評(píng)分員一致性較為理想,評(píng)分員不存在光環(huán)效應(yīng)[3,4]。綜上,可以認(rèn)為評(píng)分員具有較好的內(nèi)部一致性,評(píng)分結(jié)果總體可信。
3.2.3 評(píng)分標(biāo)準(zhǔn)層面。評(píng)分標(biāo)準(zhǔn)分為聽和說(shuō)兩部分,表3 顯示,分隔系數(shù)為5.32,信度為0.93,卡方檢驗(yàn)結(jié)果顯著(X2=29.9,p=.00),即兩者存在顯著差異,評(píng)分員能有效使用評(píng)分標(biāo)準(zhǔn)區(qū)分考生聽說(shuō)能力。數(shù)據(jù)顯示,評(píng)分員在第二項(xiàng)標(biāo)準(zhǔn)上更加嚴(yán)格,兩者相差0.78 個(gè)洛基單位。經(jīng)過(guò)訪談,筆者發(fā)現(xiàn),相對(duì)于聽的能力,對(duì)說(shuō)的評(píng)判更加直觀。按一位中方評(píng)分員說(shuō)法,考生的發(fā)音、語(yǔ)調(diào)、語(yǔ)法、以及語(yǔ)言產(chǎn)出的量,都是直觀可見的。而對(duì)于外教而言,評(píng)判一個(gè)考生口語(yǔ)產(chǎn)出的質(zhì)和量,更是有著本族語(yǔ)使用者的優(yōu)勢(shì)。因此,和內(nèi)隱的聽力相比,對(duì)說(shuō)的評(píng)判就顯得更加嚴(yán)格。
表3 評(píng)分標(biāo)準(zhǔn)層面
從擬合指標(biāo)看,這兩項(xiàng)標(biāo)準(zhǔn)均在可接受范圍內(nèi)(M+/-2SD),說(shuō)明評(píng)分標(biāo)準(zhǔn)的前后一致性較為理想。但是,“說(shuō)” 的加權(quán)均方擬合統(tǒng)計(jì)量小于1,Z 分絕對(duì)值剛好為2,說(shuō)明該標(biāo)準(zhǔn)的區(qū)分層次比預(yù)期要少,評(píng)分員可能過(guò)多地使用了某一分?jǐn)?shù)段,提示存在暈輪效應(yīng),這有兩個(gè)原因,一是考生水平確實(shí)較為集中,彼此差距不大;二是評(píng)分標(biāo)準(zhǔn)不夠細(xì)致,不能很好地區(qū)分考生水平[16]。結(jié)合口試的實(shí)際情況,筆者認(rèn)為兩者兼有。一方面,報(bào)考該校中外合作專業(yè)考生的整體英語(yǔ)水平較弱,但特別差和相對(duì)較好的學(xué)生數(shù)量少,主要集中在ISLPR 體系中2 分的能力水平上;另一方面,所用評(píng)分量表共計(jì)5 個(gè)級(jí)階(0-4分),量具間隔為1,因此,對(duì)大多數(shù)的考生而言,只能用2-3 個(gè)級(jí)階來(lái)進(jìn)行評(píng)價(jià),無(wú)形中加劇了評(píng)分分值集中。
3.2.4 評(píng)分量表層面。評(píng)分量表層面反映了評(píng)分員是否有效使用評(píng)分量表,量表中分?jǐn)?shù)段對(duì)考生能力的區(qū)分和體現(xiàn)等[22]。表4 反映了評(píng)分量表層面的質(zhì)量和分?jǐn)?shù)段標(biāo)定。從平均測(cè)量值可以看出,分?jǐn)?shù)段從低分到高分呈現(xiàn)出正態(tài)分布,且不同分?jǐn)?shù)段之間存在一定的間隔,說(shuō)明評(píng)分員能較為準(zhǔn)確地運(yùn)用量表來(lái)區(qū)分考生的水平。一般認(rèn)為分?jǐn)?shù)段之間理想間隔應(yīng)該為1 至4 個(gè)洛基單位,否則提示可能存在評(píng)分的集中趨勢(shì)[23]。從各分?jǐn)?shù)段的起始值看,2-3分的間隔在理想范圍之內(nèi),但是1-2 分,3-4 分之間則超出了間隔上限。這提示評(píng)分員過(guò)多使用了2 分和3 分段的量表,評(píng)分上存在一定程度集中。事實(shí)上,2 分和3 分段的使用頻次是最高的,占所有分?jǐn)?shù)段的75%。這與前文 “說(shuō)” 的評(píng)分標(biāo)準(zhǔn)區(qū)分度不高,打分相對(duì)集中的結(jié)論互為印證。事后對(duì)評(píng)分員的訪談發(fā)現(xiàn),評(píng)分標(biāo)準(zhǔn)和量表對(duì)考生聽說(shuō)能力的劃分并不是十分細(xì)致,在實(shí)際打分環(huán)節(jié),評(píng)分員所能用的分值基本只有2 到3 個(gè)。評(píng)分量表能滿足對(duì)考生的分級(jí)要求(即語(yǔ)言初級(jí)、中級(jí)、高級(jí)班劃分),但對(duì)于同級(jí)別考生之間的進(jìn)一步細(xì)分就顯得捉襟見肘。
表4 評(píng)分量表層面
從未加權(quán)均方擬合統(tǒng)計(jì)量看,量表不同分?jǐn)?shù)段除0 分外,其他分?jǐn)?shù)段的一致性還是較為理想,取值基本在1 左右,全部分?jǐn)?shù)段均未超過(guò)2的上限[23],因此,量表還是能夠較好地反映考生的能力水平。
量表質(zhì)量還可通過(guò)量表分?jǐn)?shù)段的概率曲線圖(圖2)進(jìn)行分析。圖中的X 和Y 軸分別代表相對(duì)于題目難度的考生能力和考生得到某個(gè)分值的概率,從左至右的五條曲線分別代表0 到4 分五個(gè)分?jǐn)?shù)段的概率,曲線與曲線的交叉點(diǎn)就是相鄰分?jǐn)?shù)段之間的臨界點(diǎn)。帕克(Park)提到,概率曲線之間需要有一定的間隔,且每個(gè)曲線需要有自己的獨(dú)立峰頂,能力值處于峰頂?shù)目忌玫皆摲謹(jǐn)?shù)段的概率最高[24]。圖2 中每個(gè)分?jǐn)?shù)段都有自己獨(dú)立的峰頂,分值從左至右排列且呈現(xiàn)單向遞增趨勢(shì)。另外,曲線之間的間隔也相對(duì)較小,并不是分得很開,而后者恰恰是集中趨勢(shì)的表現(xiàn)[4]。綜合起來(lái),可以認(rèn)為,雖然在部分分值上存在集中趨勢(shì),但量表層面的總體可信度較高。
圖2 分?jǐn)?shù)段概率曲線
MFRM 還可以分析各層面的交互作用,特別是用于評(píng)分者層面與其他層面之間的相互作用關(guān)系[15],從而區(qū)分、界定評(píng)分員效應(yīng)中因隨機(jī)因素所造成的誤差和系統(tǒng)偏差。通過(guò)對(duì)評(píng)分員評(píng)分前后不一致現(xiàn)象的分析,可以反饋給評(píng)分員,并提高測(cè)試質(zhì)量[7,13,14,16]。結(jié)合口試中評(píng)分員的重要作用,本文對(duì)評(píng)分員層面與其他層面之間的交互作用進(jìn)行了偏差分析,結(jié)果如下表5。以t 值絕對(duì)值是否大于2 為顯著偏差的評(píng)判指標(biāo),大于2 說(shuō)明評(píng)分員過(guò)于嚴(yán)格,小于-2 則過(guò)于寬松。
表5 評(píng)分員和其他層面交互結(jié)果匯總
表5 顯示,考生和評(píng)分員共計(jì)有564 例(141*4)交互組數(shù),其中t 值大于2 和小于-2 的各有5 組,共計(jì)出現(xiàn)了10 例顯著偏差,占比1.77%,小于5%的臨界標(biāo)準(zhǔn)[21]149,而評(píng)分標(biāo)準(zhǔn)和評(píng)分員之間共計(jì)8 例(2*4)交互組數(shù),其t 值在-0.27 至0.31 之間,不存在顯著偏差,層面的交互作用不顯著。這說(shuō)明評(píng)分員對(duì)標(biāo)準(zhǔn)的把握較好,一致度較高。
表6 為評(píng)分員和考生層面之間的偏差分析。該表顯示,出現(xiàn)偏差數(shù)最多的是4 號(hào)評(píng)分員,最少的是3 號(hào)。2 號(hào)和1 號(hào)居中。結(jié)果和評(píng)分員的經(jīng)驗(yàn)與國(guó)籍有關(guān),4 號(hào)是新外教,任職2 年,經(jīng)驗(yàn)相對(duì)不足。3號(hào)評(píng)分員自2008 年開始就開始在中外語(yǔ)言項(xiàng)目中任教,一直從事寫作和聽說(shuō)教學(xué),經(jīng)驗(yàn)相對(duì)豐富。而1 號(hào)和2 號(hào)評(píng)分員都是中方教師,從教學(xué)經(jīng)驗(yàn)上看不遜于外籍教師,但是,在語(yǔ)言敏感性上終歸是稍遜一籌。
表6 評(píng)分員和考生顯著偏差表
從考生能力值看,出現(xiàn)偏差最高的是中間段考生,能力值位于-3 到5 個(gè)洛基單位之間(可結(jié)合圖1),對(duì)于這些考生,出現(xiàn)了5 例過(guò)嚴(yán)打分,4 例過(guò)于寬松打分,另有1 列寬松打分出現(xiàn)在能力值相對(duì)較高(6.27 個(gè)洛基單位)的39 號(hào)考生身上。在中等程度學(xué)生中容易出現(xiàn)偏差的現(xiàn)象與其他學(xué)者的研究相吻合[13,25]。但是,本次研究沒(méi)有發(fā)現(xiàn)Congdon & McQueen[26]和戴朝暉、尤其達(dá)[15]所提到的評(píng)分時(shí)間穩(wěn)定性問(wèn)題,出現(xiàn)偏差的考生和他們考試時(shí)間無(wú)關(guān)。
另外,編號(hào)為56 的考生處于評(píng)分員打分過(guò)嚴(yán)的范疇,同時(shí),該考生的個(gè)體統(tǒng)計(jì)量也曾出現(xiàn)過(guò)非擬合現(xiàn)象(表1 第三行數(shù)據(jù)),可以認(rèn)為對(duì)該生的打分確實(shí)存在問(wèn)題,可以考慮進(jìn)行復(fù)核。但是,在檢驗(yàn)其能力水平及測(cè)量預(yù)期分均值后,還是認(rèn)為該生的最終報(bào)道等級(jí)無(wú)需調(diào)整。
本文運(yùn)用MFRM 模型,從多個(gè)層面對(duì)某校中外合作專業(yè)新生分級(jí)口試成績(jī)進(jìn)行信度分析,結(jié)合各層面及層面之間分析的結(jié)果,認(rèn)為此次測(cè)試總體質(zhì)量較好。
首先,考生層面的分隔比率和信度較為理想,根據(jù)分隔指數(shù),可以將考生分為大約8 個(gè)不同的層次,而分級(jí)考試只要將學(xué)生分為三個(gè)級(jí)別,因此,分級(jí)口試是有效的。雖有3 名考生(2.13%)出現(xiàn)了非擬合,18 人出現(xiàn)了過(guò)度擬合情況,但經(jīng)復(fù)查這些考生的實(shí)際得分和預(yù)期得分后,無(wú)需對(duì)其報(bào)道等級(jí)進(jìn)行調(diào)整。其次,評(píng)分員層面的分隔指數(shù)、信度及卡方分析結(jié)論都提示,雖然評(píng)分員嚴(yán)厲度之間存在著顯著差異,但四位評(píng)分員的加權(quán)均方擬合統(tǒng)計(jì)量均在臨界值內(nèi),可以認(rèn)為評(píng)分員具有較好的內(nèi)部一致性,評(píng)分結(jié)果總體可信。事實(shí)上,絕大多數(shù)MFRM 對(duì)評(píng)分員層面的分析都得出了類似的結(jié)論[5,7,13,16],即評(píng)分員寬嚴(yán)度之間存在差異,但評(píng)分員的內(nèi)部一致性總體理想。再次,評(píng)分標(biāo)準(zhǔn)之間存在顯著差異,但同樣具備一致性結(jié)論,評(píng)分員能有效運(yùn)用聽說(shuō)兩個(gè)標(biāo)準(zhǔn)對(duì)考生進(jìn)行有效區(qū)分。此外,“聽” 和 “說(shuō)” 兩個(gè)評(píng)分標(biāo)準(zhǔn)的加權(quán)均方統(tǒng)計(jì)擬合量在0.7 至1.3 之間,這證明標(biāo)準(zhǔn)之間的關(guān)聯(lián)性適當(dāng)且又不過(guò)度[17]。在評(píng)分量表上,雖出現(xiàn)兩個(gè)分?jǐn)?shù)段的集中趨勢(shì),但其他結(jié)果表明量表層面總體可信度較高。
然而,本次口試中還發(fā)現(xiàn)了一些亟待解決的問(wèn)題,主要體現(xiàn)在考生的質(zhì)量和評(píng)分量表的度量?jī)蓚€(gè)方面。從考生層面看,大多數(shù)學(xué)生的口語(yǔ)能力居中,沒(méi)有特別好或者特別差的學(xué)生,從分布形態(tài)看,屬于中間大兩頭??;從評(píng)分量表看,共計(jì)0 到4 分五個(gè)級(jí)階,按照ISLPR 的評(píng)分標(biāo)準(zhǔn),0 分標(biāo)準(zhǔn)為零基礎(chǔ)學(xué)生,4 分標(biāo)準(zhǔn)為本專業(yè)經(jīng)過(guò)1-3 個(gè)學(xué)期語(yǔ)言訓(xùn)練后達(dá)到的最終能力水平,因此,對(duì)于大一新生而言,除極個(gè)別個(gè)體外,絕大部分考生的口語(yǔ)測(cè)試成績(jī)?yōu)?至3 分。這就造成了中間分?jǐn)?shù)段的集中。而考后對(duì)評(píng)分員的訪談也發(fā)現(xiàn),現(xiàn)有評(píng)分標(biāo)準(zhǔn)和量表適用于分級(jí)這一 “粗糲化” 的分級(jí)目的,但無(wú)法實(shí)現(xiàn)對(duì)同級(jí)別考生聽說(shuō)差異的 “精細(xì)化” 描寫,因此,有必要對(duì)評(píng)分標(biāo)準(zhǔn)和量表進(jìn)行進(jìn)一步細(xì)化,以便在后期實(shí)現(xiàn)班級(jí)內(nèi)部的差異化教學(xué)。分析還發(fā)現(xiàn),評(píng)分員在本專業(yè)的任職年限和經(jīng)歷確實(shí)會(huì)影響最終評(píng)分質(zhì)量,造成偏差,因此,在常規(guī)考試培訓(xùn)之余,還應(yīng)給予更多的實(shí)踐操練,以幫助新進(jìn)教師適應(yīng)本專業(yè)的評(píng)價(jià)體系。
總之,應(yīng)用MFRM 方法可以更加有效、科學(xué)地評(píng)價(jià)主觀性考試中影響考生成績(jī)的諸多因素,將人為的測(cè)量誤差剝離出來(lái),通過(guò)對(duì)測(cè)量值的修正和補(bǔ)償,最大可能地反映考生的實(shí)際能力。此外,對(duì)評(píng)分員、評(píng)分標(biāo)準(zhǔn)及量表的分析,能夠全面綜合診斷、動(dòng)態(tài)監(jiān)控評(píng)分員的評(píng)分過(guò)程和評(píng)分結(jié)果,從而反饋評(píng)分員本人,對(duì)提高評(píng)分質(zhì)量及后期評(píng)分員培訓(xùn)都有實(shí)際借鑒意義。
浙江工商職業(yè)技術(shù)學(xué)院學(xué)報(bào)2023年4期