何必凱
摘 要:運(yùn)用Rasch模型對(duì)一份高中英語(yǔ)學(xué)業(yè)測(cè)試試卷進(jìn)行質(zhì)量分析,從試題難度,難度與學(xué)生能力匹配及試卷區(qū)分度來(lái)評(píng)估試題質(zhì)量。結(jié)果表明,試卷整體信效度較高,能較好對(duì)學(xué)生的英語(yǔ)能力進(jìn)行測(cè)試。最后進(jìn)行學(xué)業(yè)診斷分析并提出教學(xué)建議。
關(guān)鍵詞:Rasch模型;試題質(zhì)量分析;學(xué)業(yè)診斷
中圖分類(lèi)號(hào):G4 ? ? 文獻(xiàn)標(biāo)識(shí)碼:A ? ? ?doi:10.19311/j.cnki.1672-3198.2021.20.078
經(jīng)典測(cè)量理論框架下,題目難度的評(píng)價(jià)方法比較簡(jiǎn)單,一般以題目的正確率(客觀題)、得分率(主觀題)來(lái)表示。但這種難度存在如下問(wèn)題:難度指標(biāo)與實(shí)際意義相悖。正確率、得分率的理論取值在[0,1]之間,該值越高,代表題目越簡(jiǎn)單;該值越低代表題目越難。難度系數(shù)的絕對(duì)值與其代表的含義相悖,因此,正確率、得分率等通過(guò)率指標(biāo)更應(yīng)稱(chēng)為“容易”度。
難度的計(jì)算受學(xué)生群體的能力分布影響。通過(guò)率受學(xué)生群體總體水平的影響,同一題目,在整體水平較高的學(xué)校,通過(guò)率高,則可能被判定為簡(jiǎn)單題;在整體水平較差的學(xué)校,通過(guò)率低,卻又可能被判定為難題。即便是同一群體,不同時(shí)間段得到的通過(guò)率也不是穩(wěn)定的。因此,通過(guò)率僅可作為參考,不能作為評(píng)價(jià)題目難度的指標(biāo)。
本研究引入Rasch模型進(jìn)行題目難度估計(jì),該模型有跨群體、跨情境的穩(wěn)定性,解決了經(jīng)典測(cè)量理論框架下以通過(guò)率作為難度指標(biāo)的弊端。
1 難度
Rasch模型將題目平均難度設(shè)定為0,題目難度分布在[-∞,+∞]之間。以0為中心,可以將題目難度劃分為5個(gè)等級(jí),難度在(3,1]之間稱(chēng)為難題,難度在(1,-1]之間稱(chēng)為中等題,難度在(-1,-3]之間稱(chēng)為簡(jiǎn)單題,難度大于等于3的難題、難度低于-3的簡(jiǎn)單題均稱(chēng)為極端難度題目,如表1所示。統(tǒng)計(jì)結(jié)果顯示簡(jiǎn)單題、中等題占總題數(shù)的79%難度配比比較合理,但存在4道極端難題。
從不同題型來(lái)看,聽(tīng)力題、單選、情境和完形題以中、低難度為主,難題較少;閱讀理解和基礎(chǔ)知識(shí)應(yīng)用以中、高難度題目為主,簡(jiǎn)單題較少。
Rasch模型通過(guò)擬合指數(shù)評(píng)價(jià)題目、數(shù)據(jù)的質(zhì)量,最常用的指標(biāo)為Infit MNSQ,該指標(biāo)的理論最佳取值為1,當(dāng)Infit MNSQ為1,代表實(shí)際數(shù)據(jù)與Rasch模型的預(yù)測(cè)完全相同。一般認(rèn)為擬合指數(shù)取值在[0.7,1.3]之間時(shí),題目與數(shù)據(jù)擬合較好,未出現(xiàn)數(shù)據(jù)與理論假設(shè)嚴(yán)重不符的情況。因此,擬合指標(biāo)可以用來(lái)評(píng)價(jià)在一次考試過(guò)程中單個(gè)題目的質(zhì)量,若擬合指數(shù)超出相關(guān)理論建議的范圍,則認(rèn)為該題對(duì)整個(gè)測(cè)評(píng)的貢獻(xiàn)不大,質(zhì)量較差。本次數(shù)據(jù)分析,發(fā)現(xiàn)有4個(gè)題目擬合指數(shù)大于1.3,占總題目數(shù)的5%。進(jìn)一步分析后發(fā)現(xiàn),這些題目均為難題,其中閱讀理解2個(gè)題目、聽(tīng)力1個(gè)題目、單選和1個(gè)題目。主要原因是有難度題容易出現(xiàn)猜測(cè)答題的情況,猜測(cè)答題,尤其是那些猜對(duì)題目答案的被試,實(shí)際作答情況與模型預(yù)測(cè)不符,最終導(dǎo)致不擬合。
2 難度與學(xué)生能力匹配度
Rasch模型將題目難度和學(xué)生能力統(tǒng)一在同一個(gè)量尺上,實(shí)現(xiàn)了學(xué)生能力與題目難度的直接比較?;谶@一特征繪制的題目難度——學(xué)生能力分布圖可以非常直觀得反應(yīng)整套試卷難度與學(xué)生能力的匹配程度。本次測(cè)試的題目——學(xué)生分布圖如圖1所示。
圖形從左向右分成三個(gè)區(qū)域,左側(cè)“Measr”列稱(chēng)為Rasch量尺,即衡量題目難度和學(xué)生能力的一把“尺子”。該尺子的刻度與傳統(tǒng)意義上的尺子不同,其參照點(diǎn)0點(diǎn)在尺子的中間。Rasch模型將所有題目的平均難度設(shè)定為0。中間的“Students”列代表學(xué)生,以“*”和“.”表示,每個(gè)“*”代表3名學(xué)生,低于三人時(shí)用“.”表示。分布位置越往上,代表能力水平越高,反之則代表能力水平越低。右側(cè)的“Items”列代表題目,分布位置越往上,代表難度越高,反之則代表難度越低。
從圖形上看,本次考試以中等和簡(jiǎn)單題目為主,但是也有4道極端難題(66、68、70、75)和較簡(jiǎn)單題目(5題)。
學(xué)生能力主要分布在[-2,3]之間,題目難度分布在[-2.5,2.5]之間。試卷難度相較于學(xué)生整體能力偏簡(jiǎn)單。但是本套試卷又存在4道極端難度題,這在一定程度上影響了本次測(cè)試對(duì)這一群體的評(píng)價(jià)精度;對(duì)于難度在[-3.-1]之間的題目,沒(méi)有相對(duì)應(yīng)的學(xué)生,這些題目對(duì)學(xué)生總體來(lái)講過(guò)于簡(jiǎn)單,沒(méi)能在診斷中起到足夠的作用。在后續(xù)的試卷修訂過(guò)程中,可以考慮對(duì)極端難度題的替換;同時(shí)在整卷中選擇一些中等題目,替換為過(guò)于簡(jiǎn)單的題目,以提高對(duì)高水平學(xué)生的診斷效果。
基礎(chǔ)教育階段考試的目的除了對(duì)學(xué)生進(jìn)行診斷外,還希望將學(xué)生劃分為不同能力等級(jí),以滿足升學(xué)、分層教學(xué)等需求。因此,對(duì)試卷區(qū)分學(xué)生的能力“試卷的區(qū)分度”評(píng)價(jià)也是本次數(shù)據(jù)分析的內(nèi)容之一。本次測(cè)試,通過(guò)Rasch的分隔系數(shù)、分割信度等指標(biāo)來(lái)評(píng)價(jià)試卷的這一特性。
Rasch模型通過(guò)被試分隔系數(shù)(Person Separation Index)、分隔信度(Person Separation Reliability, PSR)和分隔指數(shù)(Strata)評(píng)價(jià)測(cè)量精度。分隔指數(shù)表示試卷可以將學(xué)生區(qū)分為幾個(gè)有顯著差異的組別,Strata=(4*PSI+1)/3,當(dāng)PSI=2時(shí),Strata=3,即量表可以將被試區(qū)分為高分、中分、低分三組;同時(shí),PSR應(yīng)高于0.8。本次測(cè)驗(yàn)的PSI=3.49,Strata=5.0,PSR=0.92,說(shuō)明本次測(cè)驗(yàn)雖然有部分題目難度設(shè)置不合理,但因題目總數(shù)較大,仍可起到區(qū)分不同英語(yǔ)水平學(xué)生的作用,具備一定的測(cè)量精度。
3 學(xué)業(yè)診斷
Rasch模型的基本原理認(rèn)為被試正確作答題目的概率可以用個(gè)體能力θ與該題目難度δ的一個(gè)簡(jiǎn)單函數(shù)來(lái)表示。
Pni1=e(θn-δi)1+e(θn-δi)