基于地理核心素養(yǎng)的地理診斷性試卷評價

2024-06-24 17:28陸念王曉軍

新校園 2024年4期

陸念王曉軍

現(xiàn)代測量理論為實(shí)現(xiàn)地理核心素養(yǎng)的有效測評提供了測量模型基礎(chǔ)。地理核心素養(yǎng)的培養(yǎng)應(yīng)該落實(shí)在日常教學(xué)中，而地理核心素養(yǎng)的日常測評則落腳于地理診斷性試卷。依據(jù)地理新課標(biāo)對學(xué)生地理核心素養(yǎng)的評價建議和要求、地理核心素養(yǎng)在實(shí)際教學(xué)中的測評情況，從現(xiàn)代測量理論的視角出發(fā)，利用Rasch模型對地理診斷性試卷進(jìn)行定量評價，對地理核心素養(yǎng)的科學(xué)測評進(jìn)行探索，試圖為核心素養(yǎng)評價、診斷性試卷優(yōu)化提供一定的幫助和參考。

一、理論基礎(chǔ)

Rasch模型是丹麥數(shù)學(xué)家拉希（Rasch）在20世紀(jì)60年代基于IRT所提出的模型。Rasch模型可以將人的參數(shù)（能力）和項(xiàng)目參數(shù)（難度）放在同一個緯度上來進(jìn)行比較。

Rasch模型可以測算出被試在每一項(xiàng)目上的具體表現(xiàn)，地理核心素養(yǎng)的載體就是不同情境的試題，不同試題項(xiàng)目正確與否又間接反映地理核心素養(yǎng)的水平高低。因此，從理論上講，Rasch模型可以較好地滿足現(xiàn)代地理核心素養(yǎng)定量測評的要求?；赗asch模型設(shè)計(jì)的Winsteps軟件，具有能對試題項(xiàng)目進(jìn)行單維性檢驗(yàn)、擬合度分析、信效度檢驗(yàn)等優(yōu)點(diǎn)，對診斷性試卷質(zhì)量評價、核心素養(yǎng)水平及發(fā)展?fàn)顩r評估能提供較好的指導(dǎo)作用。

二、診斷性試卷中地理核心素養(yǎng)體現(xiàn)

從項(xiàng)目反應(yīng)理論的觀點(diǎn)來看，個體的作答反應(yīng)可以反映出個體真實(shí)的行為表現(xiàn)。試題本身很難直接測量出核心素養(yǎng)水平，但可以通過選擇測試內(nèi)容、創(chuàng)設(shè)情境等來考查學(xué)生在不同情境中綜合運(yùn)用地理概念、知識、思維模式、探究方法與技能解決地理問題的能力，分別達(dá)到了何種程度與水平等。因此，通過學(xué)生的作答反應(yīng)可體現(xiàn)其地理核心素養(yǎng)水平。

參考地理新課標(biāo)中的“測試內(nèi)容、試題情境、地理學(xué)科核心素養(yǎng)水平劃分”等維度，對某中學(xué)高三年級第一學(xué)年期中地理考試試卷進(jìn)行梳理與分析，構(gòu)建本次診斷性試題的命題情境、考查內(nèi)容、核心素養(yǎng)及水平考查框架（見表1）。

三、研究數(shù)據(jù)與方法

本次研究數(shù)據(jù)來源于某全日制高中高三全體選考地理學(xué)生第一學(xué)年期中考試的地理成績數(shù)據(jù)，樣本數(shù)量共計(jì)為731份。選擇題共15道，共計(jì)45分，主觀題共4道，每道主觀題分值不一，共計(jì)55分。

根據(jù)學(xué)生的主觀題得分，使用評分量表對學(xué)生的考試成績進(jìn)行分類。

最后使用Office Excel將處理后的評分?jǐn)?shù)據(jù)制成表格，再用Rasch軟件Winsteps3.72.3進(jìn)行分析。

四、Rasch模型檢驗(yàn)結(jié)果與分析

（一）試題的單維性分析

單維性檢驗(yàn)的目的是檢驗(yàn)評估數(shù)據(jù)能否被單一Rasch緯度充分解釋。當(dāng)項(xiàng)目標(biāo)準(zhǔn)殘差系數(shù)值在[-0.4，0.4]之間時，表示對應(yīng)項(xiàng)目符合單維性要求，Rasch模型能夠?qū)ζ溥M(jìn)行準(zhǔn)確的分析。大部分試題都在可接受范圍[-0.4，0.4]內(nèi)，只有項(xiàng)目A（第6題）和項(xiàng)目a（第2題）這兩個項(xiàng)目沒有通過，超過了標(biāo)準(zhǔn)范圍，需要單獨(dú)分析。總體上本次測試滿足Rasch單維性檢驗(yàn)，可以進(jìn)行進(jìn)一步分析。

（二）模型數(shù)據(jù)擬合程度分析

使用Rasch模型進(jìn)行分析時還需考慮數(shù)據(jù)與模型的擬合情況。Outfit MNSQ和Infit MNSQ這兩個指標(biāo)分別表示標(biāo)準(zhǔn)殘差的均方和加權(quán)后的殘差均方，Outfit MNSQ和Infit MNSQ的取值若在[0.7，1.3]范圍內(nèi)，則表示數(shù)據(jù)與模型擬合。本次測試的學(xué)生與試題的MNSQ值（表4）均在[0.7，1.3]范圍之間，表明測試試題與Rasch模型充分?jǐn)M合，測試結(jié)果具有可信性。

（三）信效度分析

信度數(shù)值越接近1說明信度越高，分離指數(shù)越大說明區(qū)分度高。本次期中地理考試測驗(yàn)試題信度和試題分離指數(shù)（表3）分別是1、39.09，本次測驗(yàn)試題信度高，區(qū)分度好，說明本次測試能夠反映學(xué)生真實(shí)水平且能夠很好地對不同水平的學(xué)生加以區(qū)分。

效度主要考察指標(biāo)包括單維性、模型-數(shù)據(jù)擬合情況、學(xué)生能力和項(xiàng)目難度的分布。數(shù)據(jù)單維性和擬合程度表現(xiàn)較好，且通過Winsteps軟件生成的項(xiàng)目-被試圖發(fā)現(xiàn)，項(xiàng)目難度跨度范圍較大，且分布較為均勻，整體覆蓋了被試的能力范圍，試題結(jié)構(gòu)基本效度合理。

（四）試題數(shù)據(jù)分析

Rasch模型可以把學(xué)生考試的原始分?jǐn)?shù)轉(zhuǎn)換為Logit分?jǐn)?shù)，將學(xué)生水平放在等距量尺上進(jìn)行比較。為了便于統(tǒng)計(jì)，將個體與試題的原始對分?jǐn)?shù)值轉(zhuǎn)換為[0，100]范圍內(nèi)（表4），轉(zhuǎn)換后不影響統(tǒng)計(jì)結(jié)果。

試題的擬合數(shù)據(jù)范圍為[0.7，1.3]，說明試題與模型擬合較好。試題的難度范圍為[46.81，58.73]，跨越范圍較大，表明試題難度能與不同水平的學(xué)生進(jìn)行匹配；模型誤差范圍為[0.15，0.4]，測量誤差很小，在模型可接受范圍之內(nèi)；在點(diǎn)-測量（PTME corr.）方面，第1、2、7、9、11、12、13題的值小于0.3，說明這幾道試題的區(qū)分度較低。

學(xué)生的能力測量平均值為45.6，試題難度平均值為49.63，試題測量值略大于學(xué)生測量值，說明本次測試對學(xué)生來說略難。最難的試題為E、B、A1（第19題、第16題、第1題），最簡單的試題為D、A6、A9（第18題、第6題、第9題）。

（五）結(jié)果討論

由數(shù)據(jù)分析可知，未通過單維性檢驗(yàn)的試題是第2題與第6題；難度過高的試題是第1、6、9題；區(qū)分度較低的試題是第1、2、7、9、11、12、13題。通過觀察學(xué)生在各個項(xiàng)目中異常表現(xiàn)，不僅可以揭示學(xué)生在該地理情境表現(xiàn)不好的原因，還能為未來教學(xué)提供一定的方向。

五、結(jié)論

由以上Rasch模型定量分析可知，該診斷性試卷具有良好的信度和區(qū)分度，能較好地反映學(xué)生地理核心素養(yǎng)水平，試卷總體質(zhì)量較好。

試題難度偏高，學(xué)生整體得分低于項(xiàng)目難度，部分項(xiàng)目水平和被試能力不能完全對應(yīng)，說明本套試題在命題和組卷上還存在問題，應(yīng)結(jié)合學(xué)情對部分難度較大、區(qū)分度較低的試題酌情替換或優(yōu)化，以便更全面地考查與評估學(xué)生的能力。

在試題命制中，通過學(xué)生在創(chuàng)設(shè)的不同情境中的作答反應(yīng)可以反映出學(xué)生的能力水平，不僅可以直觀反映學(xué)生的核心素養(yǎng)水平、具體知識掌握情況，還能將不同能力學(xué)生放在同一尺度上進(jìn)行比較，一目了然對比學(xué)生差異。結(jié)果分析表明，本套診斷性試卷對于學(xué)生地理核心素養(yǎng)的測量是合理的。

（作者單位：濟(jì)南大學(xué) 水利與環(huán)境學(xué)院）

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于地理核心素養(yǎng)的地理診斷性試卷評價