Rasch模型在英語(yǔ)試題質(zhì)量分析的應(yīng)用

2021-07-20 00:54:38何必凱

現(xiàn)代商貿(mào)工業(yè) 2021年20期

何必凱

摘要：運(yùn)用Rasch模型對(duì)一份高中英語(yǔ)學(xué)業(yè)測(cè)試試卷進(jìn)行質(zhì)量分析，從試題難度，難度與學(xué)生能力匹配及試卷區(qū)分度來(lái)評(píng)估試題質(zhì)量。結(jié)果表明，試卷整體信效度較高，能較好對(duì)學(xué)生的英語(yǔ)能力進(jìn)行測(cè)試。最后進(jìn)行學(xué)業(yè)診斷分析并提出教學(xué)建議。

關(guān)鍵詞：Rasch模型;試題質(zhì)量分析;學(xué)業(yè)診斷

中圖分類(lèi)號(hào)：G4 ? ? 文獻(xiàn)標(biāo)識(shí)碼：A ? ? ?doi：10.19311/j.cnki.1672-3198.2021.20.078

經(jīng)典測(cè)量理論框架下，題目難度的評(píng)價(jià)方法比較簡(jiǎn)單，一般以題目的正確率（客觀題）、得分率（主觀題）來(lái)表示。但這種難度存在如下問(wèn)題：難度指標(biāo)與實(shí)際意義相悖。正確率、得分率的理論取值在[0，1]之間，該值越高，代表題目越簡(jiǎn)單;該值越低代表題目越難。難度系數(shù)的絕對(duì)值與其代表的含義相悖，因此，正確率、得分率等通過(guò)率指標(biāo)更應(yīng)稱(chēng)為“容易”度。

難度的計(jì)算受學(xué)生群體的能力分布影響。通過(guò)率受學(xué)生群體總體水平的影響，同一題目，在整體水平較高的學(xué)校，通過(guò)率高，則可能被判定為簡(jiǎn)單題;在整體水平較差的學(xué)校，通過(guò)率低，卻又可能被判定為難題。即便是同一群體，不同時(shí)間段得到的通過(guò)率也不是穩(wěn)定的。因此，通過(guò)率僅可作為參考，不能作為評(píng)價(jià)題目難度的指標(biāo)。

本研究引入Rasch模型進(jìn)行題目難度估計(jì)，該模型有跨群體、跨情境的穩(wěn)定性，解決了經(jīng)典測(cè)量理論框架下以通過(guò)率作為難度指標(biāo)的弊端。

1 難度

Rasch模型將題目平均難度設(shè)定為0，題目難度分布在[-∞，+∞]之間。以0為中心，可以將題目難度劃分為5個(gè)等級(jí)，難度在（3，1]之間稱(chēng)為難題，難度在（1，-1]之間稱(chēng)為中等題，難度在（-1，-3]之間稱(chēng)為簡(jiǎn)單題，難度大于等于3的難題、難度低于-3的簡(jiǎn)單題均稱(chēng)為極端難度題目，如表1所示。統(tǒng)計(jì)結(jié)果顯示簡(jiǎn)單題、中等題占總題數(shù)的79%難度配比比較合理，但存在4道極端難題。

從不同題型來(lái)看，聽(tīng)力題、單選、情境和完形題以中、低難度為主，難題較少;閱讀理解和基礎(chǔ)知識(shí)應(yīng)用以中、高難度題目為主，簡(jiǎn)單題較少。

Rasch模型通過(guò)擬合指數(shù)評(píng)價(jià)題目、數(shù)據(jù)的質(zhì)量，最常用的指標(biāo)為Infit MNSQ，該指標(biāo)的理論最佳取值為1，當(dāng)Infit MNSQ為1，代表實(shí)際數(shù)據(jù)與Rasch模型的預(yù)測(cè)完全相同。一般認(rèn)為擬合指數(shù)取值在[0.7，1.3]之間時(shí)，題目與數(shù)據(jù)擬合較好，未出現(xiàn)數(shù)據(jù)與理論假設(shè)嚴(yán)重不符的情況。因此，擬合指標(biāo)可以用來(lái)評(píng)價(jià)在一次考試過(guò)程中單個(gè)題目的質(zhì)量，若擬合指數(shù)超出相關(guān)理論建議的范圍，則認(rèn)為該題對(duì)整個(gè)測(cè)評(píng)的貢獻(xiàn)不大，質(zhì)量較差。本次數(shù)據(jù)分析，發(fā)現(xiàn)有4個(gè)題目擬合指數(shù)大于1.3，占總題目數(shù)的5%。進(jìn)一步分析后發(fā)現(xiàn)，這些題目均為難題，其中閱讀理解2個(gè)題目、聽(tīng)力1個(gè)題目、單選和1個(gè)題目。主要原因是有難度題容易出現(xiàn)猜測(cè)答題的情況，猜測(cè)答題，尤其是那些猜對(duì)題目答案的被試，實(shí)際作答情況與模型預(yù)測(cè)不符，最終導(dǎo)致不擬合。

2 難度與學(xué)生能力匹配度

Rasch模型將題目難度和學(xué)生能力統(tǒng)一在同一個(gè)量尺上，實(shí)現(xiàn)了學(xué)生能力與題目難度的直接比較?；谶@一特征繪制的題目難度——學(xué)生能力分布圖可以非常直觀得反應(yīng)整套試卷難度與學(xué)生能力的匹配程度。本次測(cè)試的題目——學(xué)生分布圖如圖1所示。

圖形從左向右分成三個(gè)區(qū)域，左側(cè)“Measr”列稱(chēng)為Rasch量尺，即衡量題目難度和學(xué)生能力的一把“尺子”。該尺子的刻度與傳統(tǒng)意義上的尺子不同，其參照點(diǎn)0點(diǎn)在尺子的中間。Rasch模型將所有題目的平均難度設(shè)定為0。中間的“Students”列代表學(xué)生，以“*”和“.”表示，每個(gè)“*”代表3名學(xué)生，低于三人時(shí)用“.”表示。分布位置越往上，代表能力水平越高，反之則代表能力水平越低。右側(cè)的“Items”列代表題目，分布位置越往上，代表難度越高，反之則代表難度越低。

從圖形上看，本次考試以中等和簡(jiǎn)單題目為主，但是也有4道極端難題（66、68、70、75）和較簡(jiǎn)單題目（5題）。

學(xué)生能力主要分布在[-2，3]之間，題目難度分布在[-2.5，2.5]之間。試卷難度相較于學(xué)生整體能力偏簡(jiǎn)單。但是本套試卷又存在4道極端難度題，這在一定程度上影響了本次測(cè)試對(duì)這一群體的評(píng)價(jià)精度;對(duì)于難度在[-3.-1]之間的題目，沒(méi)有相對(duì)應(yīng)的學(xué)生，這些題目對(duì)學(xué)生總體來(lái)講過(guò)于簡(jiǎn)單，沒(méi)能在診斷中起到足夠的作用。在后續(xù)的試卷修訂過(guò)程中，可以考慮對(duì)極端難度題的替換;同時(shí)在整卷中選擇一些中等題目，替換為過(guò)于簡(jiǎn)單的題目，以提高對(duì)高水平學(xué)生的診斷效果。

基礎(chǔ)教育階段考試的目的除了對(duì)學(xué)生進(jìn)行診斷外，還希望將學(xué)生劃分為不同能力等級(jí)，以滿足升學(xué)、分層教學(xué)等需求。因此，對(duì)試卷區(qū)分學(xué)生的能力“試卷的區(qū)分度”評(píng)價(jià)也是本次數(shù)據(jù)分析的內(nèi)容之一。本次測(cè)試，通過(guò)Rasch的分隔系數(shù)、分割信度等指標(biāo)來(lái)評(píng)價(jià)試卷的這一特性。

Rasch模型通過(guò)被試分隔系數(shù)（Person Separation Index）、分隔信度（Person Separation Reliability， PSR）和分隔指數(shù)（Strata）評(píng)價(jià)測(cè)量精度。分隔指數(shù)表示試卷可以將學(xué)生區(qū)分為幾個(gè)有顯著差異的組別，Strata=（4*PSI+1）/3，當(dāng)PSI=2時(shí)，Strata=3，即量表可以將被試區(qū)分為高分、中分、低分三組;同時(shí)，PSR應(yīng)高于0.8。本次測(cè)驗(yàn)的PSI=3.49，Strata=5.0，PSR=0.92，說(shuō)明本次測(cè)驗(yàn)雖然有部分題目難度設(shè)置不合理，但因題目總數(shù)較大，仍可起到區(qū)分不同英語(yǔ)水平學(xué)生的作用，具備一定的測(cè)量精度。

3 學(xué)業(yè)診斷

Rasch模型的基本原理認(rèn)為被試正確作答題目的概率可以用個(gè)體能力θ與該題目難度δ的一個(gè)簡(jiǎn)單函數(shù)來(lái)表示。

Pni1=e（θn-δi）1+e（θn-δi）

現(xiàn)代商貿(mào)工業(yè)2021年20期

現(xiàn)代商貿(mào)工業(yè)的其它文章: 后疫情時(shí)代社會(huì)工作“超前半步”思維的生成邏輯; 社工介入社區(qū)“語(yǔ)障老人”康復(fù)治療研究; 農(nóng)村留守兒童的學(xué)校教育改進(jìn)探討; 農(nóng)村留守兒童問(wèn)題治理規(guī)范化建設(shè)三條原則探究; 工程經(jīng)濟(jì)學(xué)對(duì)土木工程從業(yè)者的影響探析; “互聯(lián)網(wǎng)+”背景下外語(yǔ)專(zhuān)業(yè)人才的就業(yè)方向研究

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

Rasch模型在英語(yǔ)試題質(zhì)量分析的應(yīng)用