Rasch 模型在初等教育階段試卷質(zhì)量分析領(lǐng)域的應(yīng)用

2022-07-16 14:56:04李靜璇王秋紅何壯袁淑莉

貴陽學(xué)院學(xué)報(社會科學(xué)版) 2022年3期

李靜璇，王秋紅，何壯，袁淑莉

（1.貴陽學(xué)院教育科學(xué)學(xué)院，貴州貴陽 550005；2.貴陽市民族中學(xué)，貴州貴陽 550025）

2021 年7 月，中共中央辦公廳、國務(wù)院辦公廳頒布的《進一步減輕義務(wù)教育階段學(xué)生作業(yè)負(fù)擔(dān)和校外培訓(xùn)負(fù)擔(dān)》［1］文件中明確提出“提高作業(yè)設(shè)計質(zhì)量”“提升課堂教學(xué)質(zhì)量”等要求，以推動雙減政策的實施，減輕義務(wù)教育階段學(xué)生學(xué)業(yè)負(fù)擔(dān)。

要“提高作業(yè)設(shè)計質(zhì)量”“提升課堂教學(xué)質(zhì)量”，就要做到對每次測驗評價合理、對學(xué)生能力評估準(zhǔn)確，才能避免無意義的機械重復(fù)作業(yè)設(shè)計和課堂教學(xué)。同時，還應(yīng)根據(jù)學(xué)生的實際表現(xiàn)做到科學(xué)評價、精準(zhǔn)反饋。

教育領(lǐng)域中，能力評估的工具多為試卷或量表。所謂量表是指具有確定測量單位和參照點的測量工具。因此教育測量中，按照標(biāo)準(zhǔn)化程序命制的試卷即是教育測量的一種量表［2］。由高水平量表或題目組成的題庫是實現(xiàn)學(xué)生能力準(zhǔn)確評估的基礎(chǔ)。初等教育階段嚴(yán)格限定教育考試的強度，因此，學(xué)校對教育測評的效率提出了更高的要求。高質(zhì)量題庫在中小學(xué)階段顯得更加珍貴。

高質(zhì)量題目和試卷的篩選要對試卷難度、題目難度、學(xué)生能力等進行分析和比較，需要用到以Rasch 模型為代表的現(xiàn)代教育測量理論。Rasch模型可以將被試能力水平和試題難度轉(zhuǎn)換為相同單位并放在同一把標(biāo)尺上進行比較，能夠真實客觀地測量被試與試題的關(guān)系，在教育考試數(shù)據(jù)分析中具備獨特的優(yōu)勢，故本研究擬使用Rasch 模型進行初等教育階段試卷質(zhì)量分析。

一、研究現(xiàn)狀評述

表1 不同階段的相關(guān)文獻

將有關(guān)Rasch 模型在試卷質(zhì)量分析領(lǐng)域文獻的作者和學(xué)段進行匯總分析，可以發(fā)現(xiàn)運用Rasch模型進行試卷質(zhì)量分析最多的是中等教育階段，其次是高等教育階段。Rasch 模型在我國初等教育的應(yīng)用研究最少，模型應(yīng)用尚存巨大的發(fā)展空間。

二、方法與工具

（一）研究對象

以小學(xué)六年級數(shù)學(xué)考試成績數(shù)據(jù)為研究對象，共收集325 名學(xué)生的成績，根據(jù)教育測評的非速度型假設(shè)，刪除2 名未答完試卷學(xué)生，有效數(shù)據(jù)323 名。

（二）研究工具

本次測驗試卷共有29 道題，分為客觀題和主觀題。其中客觀題共19 道分別為選擇題和判斷題，主觀題共9 道大題包括計算題、操作題和應(yīng)用題，其中每道大題分別包括2～8 個小題，各題型所對應(yīng)的題目如表2。

表2 試卷題型說明

（三）數(shù)據(jù)分析

運用SPSS21.0 對數(shù)據(jù)進行分析以及單維性檢驗，運用Rasch 模型的分析軟件Facets 對數(shù)據(jù)進行參數(shù)估計，包括試題難度、被試能力水平、數(shù)據(jù)與模型擬合值、主觀題的閾值參數(shù)等。

三、結(jié)果與分析

（一）單維性檢驗

單維性是Rasch 模型分析的前提條件，在本次研究中，單維性是指測評過程學(xué)生的數(shù)學(xué)能力特質(zhì)對其作答表現(xiàn)起決定作用。即便存在部分能力對評價結(jié)果產(chǎn)生影響，這種影響也不是決定性的。對數(shù)據(jù)單維性的檢驗可以通過原始數(shù)據(jù)的主成分分析、模型分析的殘差分析等多種方法實現(xiàn)。

本次測驗試卷的主成分分析結(jié)果如表3。使用該方法對原始數(shù)據(jù)進行單維性檢驗時，如果主成分?jǐn)?shù)量為多個，則要求第一主成分特征根與第二主成分特征根的比值大于或接近3 且第一主成分解釋率要大于20 %［18］42。數(shù)據(jù)顯示KMO 和Bartlett 球形度檢驗結(jié)果均滿足相關(guān)學(xué)者建議的標(biāo)準(zhǔn)，可以進行主成分分析。測驗的主成分?jǐn)?shù)量為9個，第一主成分解釋率大于20%，但第一主成分特征根與第二主成分特征根的比值為2.909。

表3 原始數(shù)據(jù)主成分分析

對Rasch 模型分析的殘差進行主成分分析，結(jié)果如表4。測量解釋方差的比例為96.04 %，遠(yuǎn)遠(yuǎn)高于所要求的40 %［18］44，說明測試滿足單維性假設(shè)。

表4 殘差主成分分析

（二）懷特圖分析

Rasch 模型可以通過對數(shù)轉(zhuǎn)換將被試能力水平與試題難度之間的關(guān)系分布情況放在同一單位為“Logit”的標(biāo)尺上進行比較和分析。這個表示被試能力與試題難度之間關(guān)系的圖叫作懷特圖（如圖1 所示），一般用于對試卷的測量學(xué)特點的分析。位于中間的豎線叫作Logit 量尺，它是比較被試能力與試題難度的統(tǒng)一量尺，圖中的一個“*”表示9 名被試，一個“·”表示8 名及以下被試，Measr（即Measure）對應(yīng)的是量尺的“Logit”數(shù)值，Students 對應(yīng)的是被試能力水平分布，Item對應(yīng)的是試題難度分布。Logit 刻度尺從上往下，相對應(yīng)被試的能力水平逐漸降低，試題的難度也逐漸減小，刻度尺的0 點為所有試題的平均難度。被試與被試間的間隔表示不同被試間能力水平的差異，試題與試題的間隔表示不同試題間難度的差異，距離越遠(yuǎn)，差異越大；反之，則越小。如果被試能力與試題難度越接近，那測驗所獲得的被試信息量越大，對被試能力水平的估計就越精確［19］。Rasch 模型中，當(dāng)題目難度與被試能力相等時，被試答對該題的概率為50%，隨著被試能力的提高，其答對該題的概率也將逐漸增加。

從圖1 被試能力水平和試題難度的分布來看，被試能力分布集中在［1，5］之間，呈負(fù)偏態(tài)分布；試題難度分布集中在［-2，1.5］之間，呈正偏態(tài)分布。被試能力水平的平均值為3.4 左右，試題難度的平均值為0，所有試題中O16 最難，只有能力在5.86 的被試才有較高概率答對，O04、O02、O01 這幾道題最簡單，所有被試都有較高概率答對。結(jié)合圖1 和各題目的得分率、正確率，整套測驗試卷的難度對于被試來說略低，高難度的試題較少，且能力水平分布在［1.6，4.27］之間的被試，沒有與之能力相匹配的試題。這部分學(xué)生，除難度最大的O16 之外，他們有可能答對所有題目。難度最大的O16 的難度值為4.57，部分被試能力達到了5.86，對于他們而言有可能答對所有試題。題目簡單，導(dǎo)致本次考試出現(xiàn)了“天花板效應(yīng)”。

圖1 懷特圖

（三）題目特點分析

對測驗試卷的整體檢測，使本研究對測驗試卷的質(zhì)量有了初步的了解，但這只是從宏觀層面來判斷試卷質(zhì)量，并未具體到各道試題。一份測驗試卷質(zhì)量的高低是由組成該試卷的各試題共同決定的，因此，還需深入到具體試題，明確質(zhì)量偏低的試題，進行原因分析，選擇優(yōu)化策略，作出調(diào)整，以提高測驗試卷的整體質(zhì)量。

表5 為此次試卷所有試題的基本參數(shù)。其中Measure 表示試題的難度；Model S.E.即Rasch模型標(biāo)準(zhǔn)誤，指試題難度估計誤差；Infit MNSQ指的是原始數(shù)據(jù)與Rasch 模型的擬合值；Coor.PtBis 是相關(guān)系數(shù)，即試題與試卷測量目標(biāo)（總分）的相關(guān)，系數(shù)越高，試題與試卷測量目標(biāo)越相近，試題對測量的貢獻越大。

表5 題目參數(shù)估計結(jié)果

試卷的所有試題Infit MNSQ 的數(shù)值均在［0.5，1.5］之間，達到了相關(guān)學(xué)者建議的范圍，表明數(shù)據(jù)與模型之間的擬合度良好。Rasch 模型標(biāo)準(zhǔn)誤的大小直接影響了參數(shù)估計的穩(wěn)定程度，誤差越大，估計的結(jié)果越不穩(wěn)定。從表3 中得出，S2021、S23、S24、S25、S27 和S29 這幾道題的標(biāo)準(zhǔn)誤都小于0.1，表明這幾道試題在估計被試能力水平時較穩(wěn)定，O01、O02 和O04 這三道題的標(biāo)準(zhǔn)誤是所有試題中最大的，均在0.5 以上，表明在整套試卷中這三道題在估計被試能力水平時最不穩(wěn)定。圖1 顯示這三道題是所有試題中難度最低的，沒有能力與之相匹配的被試，即所有被試均有可能答對，出現(xiàn)了“天花板效應(yīng)”，因此，很難對題目參數(shù)作準(zhǔn)確估計。觀察各題的相關(guān)系數(shù)可以發(fā)現(xiàn)，O05、O06、O15、O16、O17、O18 這幾個試題的相關(guān)系數(shù)較低（均低于0.2），表明這幾道題與試卷測量目標(biāo)關(guān)聯(lián)度不高，對本次測量的貢獻較小，除此之外，其余試題的相關(guān)系數(shù)均處于可接受的范圍內(nèi)。

四、對策與建議

（一）測驗試題改進對策

1.提高試題整體難度

上述分析表明，試卷的整體難度低于被試能力水平，而且試題分布也沒有覆蓋不同能力水平的被試，這會影響測量結(jié)果的準(zhǔn)確性。對此，在接下來試卷質(zhì)量優(yōu)化的過程中，可以適當(dāng)刪減難度較低的試題，或者提升這部分試題考查的認(rèn)知能力，以提高試題或試卷的總體難度。

2.合理分配試題數(shù)量

數(shù)學(xué)的課程內(nèi)容包括了數(shù)與代數(shù)、圖形與幾何、統(tǒng)計與概率、綜合與實踐四部分，測驗試卷的編制也覆蓋了這四個內(nèi)容，但是在試題數(shù)量的分配上綜合與實踐部分僅有兩題。對于不同層次認(rèn)知能力方面的試題分配也主要集中在應(yīng)用層次，對知識點掌握要求更高的分析層次較少。

分析層次要求被試將所提供的試題信息進行再組織，弄清信息間的關(guān)系以及構(gòu)成這些信息的基礎(chǔ)知識，以這些知識為基礎(chǔ)進行分析，從而得出結(jié)論。這是本次考試被試得分率最低的部分，理應(yīng)加強被試分析能力的訓(xùn)練，但是由于試題較少，無法準(zhǔn)確判斷被試是因為分析能力較差還是對基礎(chǔ)知識掌握不到位導(dǎo)致失分，所以應(yīng)當(dāng)增加針對這一內(nèi)容的試題，以便作出正確判斷。

3.提高試卷區(qū)分度

整套試卷部分試題的相關(guān)系數(shù)不太理想，O05、O06、O15、O16、O17、O18 這幾道試題的相關(guān)系數(shù)均低于相關(guān)學(xué)者建議的范圍。這代表試卷和試題區(qū)分度不高，對測量的貢獻較低。在改進過程中，應(yīng)參考懷特圖，調(diào)整題目內(nèi)容和難度分布，提高試卷區(qū)分不同能力水平學(xué)生的能力，使試卷整體難度適中，增強試題與測量目標(biāo)之間的關(guān)系。

（二）學(xué)生學(xué)業(yè)評價建議

1.積累評價數(shù)據(jù)建立高質(zhì)量題庫

對學(xué)生能力的準(zhǔn)確評估需要以高質(zhì)量題庫為基礎(chǔ)。教育信息化的發(fā)展，閱卷系統(tǒng)、教育考試數(shù)據(jù)分析軟件等的普及為建設(shè)高質(zhì)量題庫提供了條件。學(xué)校應(yīng)當(dāng)發(fā)揮教育信息化的優(yōu)勢，以Rasch模型為指導(dǎo)，不斷積累高質(zhì)量題目資源，形成題庫，為學(xué)生能力評價提供支持。

2.量化與質(zhì)性相結(jié)合

教育評價要從側(cè)重量化評價轉(zhuǎn)向量化、質(zhì)性相結(jié)合。對于學(xué)生學(xué)業(yè)成就的評價不應(yīng)只是單純地呈現(xiàn)量化結(jié)果，還應(yīng)伴隨有關(guān)學(xué)生的進步情況、掌握情況、能力情況、學(xué)習(xí)不足等質(zhì)性的評價，這樣將更有利于促進學(xué)生的發(fā)展。Rasch 模型可以直觀地展現(xiàn)學(xué)生能力及其變化的情況，在未來的成績報告中，教師應(yīng)當(dāng)用好懷特圖，結(jié)合雙向細(xì)目表，作好成績的分析及反饋。

（三）教師教學(xué)實施建議

1.試卷點評兼顧及時性和針對性

測驗結(jié)束后，教師應(yīng)當(dāng)及時對知識點進行點評、講解，同時注意以數(shù)據(jù)分析結(jié)果為依據(jù)，切忌一講到底。因此，試卷點評應(yīng)當(dāng)在取得考試數(shù)據(jù)分析報告之后，針對數(shù)據(jù)中反映出的問題，有所取舍。

2.試卷講解注重全面性和特殊性

對于試卷中的易錯題、難度較大的題，教師在講解時應(yīng)考慮到不同能力水平的學(xué)生，因材施教。對于學(xué)生在測驗中普遍存在的問題，教師要針對這些問題從題目難度、考查知識點、失分原因等多方面進行深度分析，幫助學(xué)生理解相應(yīng)的知識點，提高能力。對重點關(guān)注的學(xué)生，應(yīng)當(dāng)基于其個人數(shù)據(jù)，在不占用課堂時間的前提下作個別輔導(dǎo)。

3.教學(xué)實施注重學(xué)生雙基的訓(xùn)練

對基礎(chǔ)知識和基本技能的學(xué)習(xí)和把握是促進學(xué)生發(fā)展的基礎(chǔ)，教學(xué)活動要讓學(xué)生獲得基礎(chǔ)性發(fā)展。Rasch 模型對題目特征的分析，為題目所考查的知識和技能培養(yǎng)提供了重要線索。教師在實施教學(xué)時應(yīng)當(dāng)在知識和能力掌握難度適度的基礎(chǔ)上，開展合理的教學(xué)和訓(xùn)練。杜絕無數(shù)據(jù)依據(jù)的機械刷題訓(xùn)練、題海戰(zhàn)術(shù)。

4.教學(xué)實施注重多樣化組織形式

教師在實施教學(xué)活動時可根據(jù)評價結(jié)果調(diào)整教學(xué)內(nèi)容及其組織形式。統(tǒng)一教學(xué)是傳統(tǒng)教學(xué)模式下最常見的組織形式，適用于知識、能力的初步學(xué)習(xí)和訓(xùn)練。但在開展測評并獲得學(xué)生知識掌握和能力發(fā)展?fàn)顟B(tài)之后，可根據(jù)實際情況選擇不同的教學(xué)方式，如個別輔導(dǎo)、分組教學(xué)、翻轉(zhuǎn)課堂，預(yù)習(xí)或課后復(fù)習(xí)等。

教育大數(shù)據(jù)的技術(shù)與方法是提高教育評價質(zhì)量的重要抓手，是實施教育評價改革的主要舉措之一。以Rasch 模型為代表的現(xiàn)代教育測量理論在教育數(shù)據(jù)挖掘中體現(xiàn)了獨特的優(yōu)勢，應(yīng)當(dāng)在實踐中不斷發(fā)展和普及。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡