国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

Rasch 模型在初等教育階段試卷質(zhì)量分析領(lǐng)域的應(yīng)用

2022-07-16 14:56:04李靜璇王秋紅何壯袁淑莉
關(guān)鍵詞:測驗試卷試題

李靜璇,王秋紅,何壯,袁淑莉

(1.貴陽學(xué)院 教育科學(xué)學(xué)院,貴州 貴陽 550005;2.貴陽市民族中學(xué),貴州 貴陽 550025)

2021 年7 月,中共中央辦公廳、國務(wù)院辦公廳頒布的《進一步減輕義務(wù)教育階段學(xué)生作業(yè)負(fù)擔(dān)和校外培訓(xùn)負(fù)擔(dān)》[1]文件中明確提出“提高作業(yè)設(shè)計質(zhì)量”“提升課堂教學(xué)質(zhì)量”等要求,以推動雙減政策的實施,減輕義務(wù)教育階段學(xué)生學(xué)業(yè)負(fù)擔(dān)。

要“提高作業(yè)設(shè)計質(zhì)量”“提升課堂教學(xué)質(zhì)量”,就要做到對每次測驗評價合理、對學(xué)生能力評估準(zhǔn)確,才能避免無意義的機械重復(fù)作業(yè)設(shè)計和課堂教學(xué)。同時,還應(yīng)根據(jù)學(xué)生的實際表現(xiàn)做到科學(xué)評價、精準(zhǔn)反饋。

教育領(lǐng)域中,能力評估的工具多為試卷或量表。所謂量表是指具有確定測量單位和參照點的測量工具。因此教育測量中,按照標(biāo)準(zhǔn)化程序命制的試卷即是教育測量的一種量表[2]。由高水平量表或題目組成的題庫是實現(xiàn)學(xué)生能力準(zhǔn)確評估的基礎(chǔ)。初等教育階段嚴(yán)格限定教育考試的強度,因此,學(xué)校對教育測評的效率提出了更高的要求。高質(zhì)量題庫在中小學(xué)階段顯得更加珍貴。

高質(zhì)量題目和試卷的篩選要對試卷難度、題目難度、學(xué)生能力等進行分析和比較,需要用到以Rasch 模型為代表的現(xiàn)代教育測量理論。Rasch模型可以將被試能力水平和試題難度轉(zhuǎn)換為相同單位并放在同一把標(biāo)尺上進行比較,能夠真實客觀地測量被試與試題的關(guān)系,在教育考試數(shù)據(jù)分析中具備獨特的優(yōu)勢,故本研究擬使用Rasch 模型進行初等教育階段試卷質(zhì)量分析。

一、研究現(xiàn)狀評述

表1 不同階段的相關(guān)文獻

將有關(guān)Rasch 模型在試卷質(zhì)量分析領(lǐng)域文獻的作者和學(xué)段進行匯總分析,可以發(fā)現(xiàn)運用Rasch模型進行試卷質(zhì)量分析最多的是中等教育階段,其次是高等教育階段。Rasch 模型在我國初等教育的應(yīng)用研究最少,模型應(yīng)用尚存巨大的發(fā)展空間。

二、方法與工具

(一)研究對象

以小學(xué)六年級數(shù)學(xué)考試成績數(shù)據(jù)為研究對象,共收集325 名學(xué)生的成績,根據(jù)教育測評的非速度型假設(shè),刪除2 名未答完試卷學(xué)生,有效數(shù)據(jù)323 名。

(二)研究工具

本次測驗試卷共有29 道題,分為客觀題和主觀題。其中客觀題共19 道分別為選擇題和判斷題,主觀題共9 道大題包括計算題、操作題和應(yīng)用題,其中每道大題分別包括2~8 個小題,各題型所對應(yīng)的題目如表2。

表2 試卷題型說明

(三)數(shù)據(jù)分析

運用SPSS21.0 對數(shù)據(jù)進行分析以及單維性檢驗,運用Rasch 模型的分析軟件Facets 對數(shù)據(jù)進行參數(shù)估計,包括試題難度、被試能力水平、數(shù)據(jù)與模型擬合值、主觀題的閾值參數(shù)等。

三、結(jié)果與分析

(一)單維性檢驗

單維性是Rasch 模型分析的前提條件,在本次研究中,單維性是指測評過程學(xué)生的數(shù)學(xué)能力特質(zhì)對其作答表現(xiàn)起決定作用。即便存在部分能力對評價結(jié)果產(chǎn)生影響,這種影響也不是決定性的。對數(shù)據(jù)單維性的檢驗可以通過原始數(shù)據(jù)的主成分分析、模型分析的殘差分析等多種方法實現(xiàn)。

本次測驗試卷的主成分分析結(jié)果如表3。使用該方法對原始數(shù)據(jù)進行單維性檢驗時,如果主成分?jǐn)?shù)量為多個,則要求第一主成分特征根與第二主成分特征根的比值大于或接近3 且第一主成分解釋率要大于20 %[18]42。數(shù)據(jù)顯示KMO 和Bartlett 球形度檢驗結(jié)果均滿足相關(guān)學(xué)者建議的標(biāo)準(zhǔn),可以進行主成分分析。測驗的主成分?jǐn)?shù)量為9個,第一主成分解釋率大于20%,但第一主成分特征根與第二主成分特征根的比值為2.909。

表3 原始數(shù)據(jù)主成分分析

對Rasch 模型分析的殘差進行主成分分析,結(jié)果如表4。測量解釋方差的比例為96.04 %,遠(yuǎn)遠(yuǎn)高于所要求的40 %[18]44,說明測試滿足單維性假設(shè)。

表4 殘差主成分分析

(二)懷特圖分析

Rasch 模型可以通過對數(shù)轉(zhuǎn)換將被試能力水平與試題難度之間的關(guān)系分布情況放在同一單位為“Logit”的標(biāo)尺上進行比較和分析。這個表示被試能力與試題難度之間關(guān)系的圖叫作懷特圖(如圖1 所示),一般用于對試卷的測量學(xué)特點的分析。位于中間的豎線叫作Logit 量尺,它是比較被試能力與試題難度的統(tǒng)一量尺,圖中的一個“*”表示9 名被試,一個“·”表示8 名及以下被試,Measr(即Measure)對應(yīng)的是量尺的“Logit”數(shù)值,Students 對應(yīng)的是被試能力水平分布,Item對應(yīng)的是試題難度分布。Logit 刻度尺從上往下,相對應(yīng)被試的能力水平逐漸降低,試題的難度也逐漸減小,刻度尺的0 點為所有試題的平均難度。被試與被試間的間隔表示不同被試間能力水平的差異,試題與試題的間隔表示不同試題間難度的差異,距離越遠(yuǎn),差異越大;反之,則越小。如果被試能力與試題難度越接近,那測驗所獲得的被試信息量越大,對被試能力水平的估計就越精確[19]。Rasch 模型中,當(dāng)題目難度與被試能力相等時,被試答對該題的概率為50%,隨著被試能力的提高,其答對該題的概率也將逐漸增加。

從圖1 被試能力水平和試題難度的分布來看,被試能力分布集中在[1,5]之間,呈負(fù)偏態(tài)分布;試題難度分布集中在[-2,1.5]之間,呈正偏態(tài)分布。被試能力水平的平均值為3.4 左右,試題難度的平均值為0,所有試題中O16 最難,只有能力在5.86 的被試才有較高概率答對,O04、O02、O01 這幾道題最簡單,所有被試都有較高概率答對。結(jié)合圖1 和各題目的得分率、正確率,整套測驗試卷的難度對于被試來說略低,高難度的試題較少,且能力水平分布在[1.6,4.27]之間的被試,沒有與之能力相匹配的試題。這部分學(xué)生,除難度最大的O16 之外,他們有可能答對所有題目。難度最大的O16 的難度值為4.57,部分被試能力達到了5.86,對于他們而言有可能答對所有試題。題目簡單,導(dǎo)致本次考試出現(xiàn)了“天花板效應(yīng)”。

圖1 懷特圖

(三)題目特點分析

對測驗試卷的整體檢測,使本研究對測驗試卷的質(zhì)量有了初步的了解,但這只是從宏觀層面來判斷試卷質(zhì)量,并未具體到各道試題。一份測驗試卷質(zhì)量的高低是由組成該試卷的各試題共同決定的,因此,還需深入到具體試題,明確質(zhì)量偏低的試題,進行原因分析,選擇優(yōu)化策略,作出調(diào)整,以提高測驗試卷的整體質(zhì)量。

表5 為此次試卷所有試題的基本參數(shù)。其中Measure 表示試題的難度;Model S.E.即Rasch模型標(biāo)準(zhǔn)誤,指試題難度估計誤差;Infit MNSQ指的是原始數(shù)據(jù)與Rasch 模型的擬合值;Coor.PtBis 是相關(guān)系數(shù),即試題與試卷測量目標(biāo)(總分)的相關(guān),系數(shù)越高,試題與試卷測量目標(biāo)越相近,試題對測量的貢獻越大。

表5 題目參數(shù)估計結(jié)果

試卷的所有試題Infit MNSQ 的數(shù)值均在[0.5,1.5]之間,達到了相關(guān)學(xué)者建議的范圍,表明數(shù)據(jù)與模型之間的擬合度良好。Rasch 模型標(biāo)準(zhǔn)誤的大小直接影響了參數(shù)估計的穩(wěn)定程度,誤差越大,估計的結(jié)果越不穩(wěn)定。從表3 中得出,S2021、S23、S24、S25、S27 和S29 這 幾 道題 的標(biāo)準(zhǔn)誤都小于0.1,表明這幾道試題在估計被試能力水平時較穩(wěn)定,O01、O02 和O04 這三道題的標(biāo)準(zhǔn)誤是所有試題中最大的,均在0.5 以上,表明在整套試卷中這三道題在估計被試能力水平時最不穩(wěn)定。圖1 顯示這三道題是所有試題中難度最低的,沒有能力與之相匹配的被試,即所有被試均有可能答對,出現(xiàn)了“天花板效應(yīng)”,因此,很難對題目參數(shù)作準(zhǔn)確估計。觀察各題的相關(guān)系數(shù)可以發(fā)現(xiàn),O05、O06、O15、O16、O17、O18 這幾個試題的相關(guān)系數(shù)較低(均低于0.2),表明這幾道題與試卷測量目標(biāo)關(guān)聯(lián)度不高,對本次測量的貢獻較小,除此之外,其余試題的相關(guān)系數(shù)均處于可接受的范圍內(nèi)。

四、對策與建議

(一)測驗試題改進對策

1.提高試題整體難度

上述分析表明,試卷的整體難度低于被試能力水平,而且試題分布也沒有覆蓋不同能力水平的被試,這會影響測量結(jié)果的準(zhǔn)確性。對此,在接下來試卷質(zhì)量優(yōu)化的過程中,可以適當(dāng)刪減難度較低的試題,或者提升這部分試題考查的認(rèn)知能力,以提高試題或試卷的總體難度。

2.合理分配試題數(shù)量

數(shù)學(xué)的課程內(nèi)容包括了數(shù)與代數(shù)、圖形與幾何、統(tǒng)計與概率、綜合與實踐四部分,測驗試卷的編制也覆蓋了這四個內(nèi)容,但是在試題數(shù)量的分配上綜合與實踐部分僅有兩題。對于不同層次認(rèn)知能力方面的試題分配也主要集中在應(yīng)用層次,對知識點掌握要求更高的分析層次較少。

分析層次要求被試將所提供的試題信息進行再組織,弄清信息間的關(guān)系以及構(gòu)成這些信息的基礎(chǔ)知識,以這些知識為基礎(chǔ)進行分析,從而得出結(jié)論。這是本次考試被試得分率最低的部分,理應(yīng)加強被試分析能力的訓(xùn)練,但是由于試題較少,無法準(zhǔn)確判斷被試是因為分析能力較差還是對基礎(chǔ)知識掌握不到位導(dǎo)致失分,所以應(yīng)當(dāng)增加針對這一內(nèi)容的試題,以便作出正確判斷。

3.提高試卷區(qū)分度

整套試卷部分試題的相關(guān)系數(shù)不太理想,O05、O06、O15、O16、O17、O18 這幾道試題的相關(guān)系數(shù)均低于相關(guān)學(xué)者建議的范圍。這代表試卷和試題區(qū)分度不高,對測量的貢獻較低。在改進過程中,應(yīng)參考懷特圖,調(diào)整題目內(nèi)容和難度分布,提高試卷區(qū)分不同能力水平學(xué)生的能力,使試卷整體難度適中,增強試題與測量目標(biāo)之間的關(guān)系。

(二)學(xué)生學(xué)業(yè)評價建議

1.積累評價數(shù)據(jù)建立高質(zhì)量題庫

對學(xué)生能力的準(zhǔn)確評估需要以高質(zhì)量題庫為基礎(chǔ)。教育信息化的發(fā)展,閱卷系統(tǒng)、教育考試數(shù)據(jù)分析軟件等的普及為建設(shè)高質(zhì)量題庫提供了條件。學(xué)校應(yīng)當(dāng)發(fā)揮教育信息化的優(yōu)勢,以Rasch模型為指導(dǎo),不斷積累高質(zhì)量題目資源,形成題庫,為學(xué)生能力評價提供支持。

2.量化與質(zhì)性相結(jié)合

教育評價要從側(cè)重量化評價轉(zhuǎn)向量化、質(zhì)性相結(jié)合。對于學(xué)生學(xué)業(yè)成就的評價不應(yīng)只是單純地呈現(xiàn)量化結(jié)果,還應(yīng)伴隨有關(guān)學(xué)生的進步情況、掌握情況、能力情況、學(xué)習(xí)不足等質(zhì)性的評價,這樣將更有利于促進學(xué)生的發(fā)展。Rasch 模型可以直觀地展現(xiàn)學(xué)生能力及其變化的情況,在未來的成績報告中,教師應(yīng)當(dāng)用好懷特圖,結(jié)合雙向細(xì)目表,作好成績的分析及反饋。

(三)教師教學(xué)實施建議

1.試卷點評兼顧及時性和針對性

測驗結(jié)束后,教師應(yīng)當(dāng)及時對知識點進行點評、講解,同時注意以數(shù)據(jù)分析結(jié)果為依據(jù),切忌一講到底。因此,試卷點評應(yīng)當(dāng)在取得考試數(shù)據(jù)分析報告之后,針對數(shù)據(jù)中反映出的問題,有所取舍。

2.試卷講解注重全面性和特殊性

對于試卷中的易錯題、難度較大的題,教師在講解時應(yīng)考慮到不同能力水平的學(xué)生,因材施教。對于學(xué)生在測驗中普遍存在的問題,教師要針對這些問題從題目難度、考查知識點、失分原因等多方面進行深度分析,幫助學(xué)生理解相應(yīng)的知識點,提高能力。對重點關(guān)注的學(xué)生,應(yīng)當(dāng)基于其個人數(shù)據(jù),在不占用課堂時間的前提下作個別輔導(dǎo)。

3.教學(xué)實施注重學(xué)生雙基的訓(xùn)練

對基礎(chǔ)知識和基本技能的學(xué)習(xí)和把握是促進學(xué)生發(fā)展的基礎(chǔ),教學(xué)活動要讓學(xué)生獲得基礎(chǔ)性發(fā)展。Rasch 模型對題目特征的分析,為題目所考查的知識和技能培養(yǎng)提供了重要線索。教師在實施教學(xué)時應(yīng)當(dāng)在知識和能力掌握難度適度的基礎(chǔ)上,開展合理的教學(xué)和訓(xùn)練。杜絕無數(shù)據(jù)依據(jù)的機械刷題訓(xùn)練、題海戰(zhàn)術(shù)。

4.教學(xué)實施注重多樣化組織形式

教師在實施教學(xué)活動時可根據(jù)評價結(jié)果調(diào)整教學(xué)內(nèi)容及其組織形式。統(tǒng)一教學(xué)是傳統(tǒng)教學(xué)模式下最常見的組織形式,適用于知識、能力的初步學(xué)習(xí)和訓(xùn)練。但在開展測評并獲得學(xué)生知識掌握和能力發(fā)展?fàn)顟B(tài)之后,可根據(jù)實際情況選擇不同的教學(xué)方式,如個別輔導(dǎo)、分組教學(xué)、翻轉(zhuǎn)課堂,預(yù)習(xí)或課后復(fù)習(xí)等。

教育大數(shù)據(jù)的技術(shù)與方法是提高教育評價質(zhì)量的重要抓手,是實施教育評價改革的主要舉措之一。以Rasch 模型為代表的現(xiàn)代教育測量理論在教育數(shù)據(jù)挖掘中體現(xiàn)了獨特的優(yōu)勢,應(yīng)當(dāng)在實踐中不斷發(fā)展和普及。

猜你喜歡
測驗試卷試題
2021年高考數(shù)學(xué)模擬試題(四)
2019年高考數(shù)學(xué)模擬試題(五)
《陳涉世家》初三復(fù)習(xí)試題
2019屆高考數(shù)學(xué)模擬試題(二)
《新年大測驗》大揭榜
趣味(語文)(2018年7期)2018-06-26 08:13:48
Module5 A Trip Along the Three Gorges
Module5 Great People and Great Inventions of Ancient China
Module 4 Sandstorms in Asia
Module 1 Europe
兩個處理t測驗與F測驗的數(shù)學(xué)關(guān)系
考試周刊(2016年88期)2016-11-24 13:30:50
民乐县| 临武县| 台前县| 鲁山县| 松江区| 酒泉市| 东源县| 曲阳县| 南雄市| 肇东市| 辰溪县| 大荔县| 丰台区| 洪洞县| 象山县| 洛阳市| 利津县| 安庆市| 枣庄市| 新建县| 东辽县| 玛纳斯县| 宜兰县| 盐亭县| 霍山县| 荃湾区| 新化县| 梨树县| 个旧市| 大同县| 长顺县| 湘乡市| 兰西县| 荔浦县| 八宿县| 白沙| 承德市| 海盐县| 洪泽县| 霸州市| 巴中市|