陸念 王曉軍
現(xiàn)代測量理論為實(shí)現(xiàn)地理核心素養(yǎng)的有效測評提供了測量模型基礎(chǔ)。地理核心素養(yǎng)的培養(yǎng)應(yīng)該落實(shí)在日常教學(xué)中,而地理核心素養(yǎng)的日常測評則落腳于地理診斷性試卷。依據(jù)地理新課標(biāo)對學(xué)生地理核心素養(yǎng)的評價建議和要求、地理核心素養(yǎng)在實(shí)際教學(xué)中的測評情況,從現(xiàn)代測量理論的視角出發(fā),利用Rasch模型對地理診斷性試卷進(jìn)行定量評價,對地理核心素養(yǎng)的科學(xué)測評進(jìn)行探索,試圖為核心素養(yǎng)評價、診斷性試卷優(yōu)化提供一定的幫助和參考。
一、理論基礎(chǔ)
Rasch模型是丹麥數(shù)學(xué)家拉希(Rasch)在20世紀(jì)60年代基于IRT所提出的模型。Rasch模型可以將人的參數(shù)(能力)和項(xiàng)目參數(shù)(難度)放在同一個緯度上來進(jìn)行比較。
Rasch模型可以測算出被試在每一項(xiàng)目上的具體表現(xiàn),地理核心素養(yǎng)的載體就是不同情境的試題,不同試題項(xiàng)目正確與否又間接反映地理核心素養(yǎng)的水平高低。因此,從理論上講,Rasch模型可以較好地滿足現(xiàn)代地理核心素養(yǎng)定量測評的要求?;赗asch模型設(shè)計(jì)的Winsteps軟件,具有能對試題項(xiàng)目進(jìn)行單維性檢驗(yàn)、擬合度分析、信效度檢驗(yàn)等優(yōu)點(diǎn),對診斷性試卷質(zhì)量評價、核心素養(yǎng)水平及發(fā)展?fàn)顩r評估能提供較好的指導(dǎo)作用。
二、診斷性試卷中地理核心素養(yǎng)體現(xiàn)
從項(xiàng)目反應(yīng)理論的觀點(diǎn)來看,個體的作答反應(yīng)可以反映出個體真實(shí)的行為表現(xiàn)。試題本身很難直接測量出核心素養(yǎng)水平,但可以通過選擇測試內(nèi)容、創(chuàng)設(shè)情境等來考查學(xué)生在不同情境中綜合運(yùn)用地理概念、知識、思維模式、探究方法與技能解決地理問題的能力,分別達(dá)到了何種程度與水平等。因此,通過學(xué)生的作答反應(yīng)可體現(xiàn)其地理核心素養(yǎng)水平。
參考地理新課標(biāo)中的“測試內(nèi)容、試題情境、地理學(xué)科核心素養(yǎng)水平劃分”等維度,對某中學(xué)高三年級第一學(xué)年期中地理考試試卷進(jìn)行梳理與分析,構(gòu)建本次診斷性試題的命題情境、考查內(nèi)容、核心素養(yǎng)及水平考查框架(見表1)。
三、研究數(shù)據(jù)與方法
本次研究數(shù)據(jù)來源于某全日制高中高三全體選考地理學(xué)生第一學(xué)年期中考試的地理成績數(shù)據(jù),樣本數(shù)量共計(jì)為731份。選擇題共15道,共計(jì)45分,主觀題共4道,每道主觀題分值不一,共計(jì)55分。
根據(jù)學(xué)生的主觀題得分,使用評分量表對學(xué)生的考試成績進(jìn)行分類。
最后使用Office Excel將處理后的評分?jǐn)?shù)據(jù)制成表格,再用Rasch軟件Winsteps3.72.3進(jìn)行分析。
四、Rasch模型檢驗(yàn)結(jié)果與分析
(一)試題的單維性分析
單維性檢驗(yàn)的目的是檢驗(yàn)評估數(shù)據(jù)能否被單一Rasch緯度充分解釋。當(dāng)項(xiàng)目標(biāo)準(zhǔn)殘差系數(shù)值在[-0.4,0.4]之間時,表示對應(yīng)項(xiàng)目符合單維性要求,Rasch模型能夠?qū)ζ溥M(jìn)行準(zhǔn)確的分析。大部分試題都在可接受范圍[-0.4,0.4]內(nèi),只有項(xiàng)目A(第6題)和項(xiàng)目a(第2題)這兩個項(xiàng)目沒有通過,超過了標(biāo)準(zhǔn)范圍,需要單獨(dú)分析。總體上本次測試滿足Rasch單維性檢驗(yàn),可以進(jìn)行進(jìn)一步分析。
(二)模型數(shù)據(jù)擬合程度分析
使用Rasch模型進(jìn)行分析時還需考慮數(shù)據(jù)與模型的擬合情況。Outfit MNSQ和Infit MNSQ這兩個指標(biāo)分別表示標(biāo)準(zhǔn)殘差的均方和加權(quán)后的殘差均方,Outfit MNSQ和Infit MNSQ的取值若在[0.7,1.3]范圍內(nèi),則表示數(shù)據(jù)與模型擬合。本次測試的學(xué)生與試題的MNSQ值(表4)均在[0.7,1.3]范圍之間,表明測試試題與Rasch模型充分?jǐn)M合,測試結(jié)果具有可信性。
(三)信效度分析
信度數(shù)值越接近1說明信度越高,分離指數(shù)越大說明區(qū)分度高。本次期中地理考試測驗(yàn)試題信度和試題分離指數(shù)(表3)分別是1、39.09,本次測驗(yàn)試題信度高,區(qū)分度好,說明本次測試能夠反映學(xué)生真實(shí)水平且能夠很好地對不同水平的學(xué)生加以區(qū)分。
效度主要考察指標(biāo)包括單維性、模型-數(shù)據(jù)擬合情況、學(xué)生能力和項(xiàng)目難度的分布。數(shù)據(jù)單維性和擬合程度表現(xiàn)較好,且通過Winsteps軟件生成的項(xiàng)目-被試圖發(fā)現(xiàn),項(xiàng)目難度跨度范圍較大,且分布較為均勻,整體覆蓋了被試的能力范圍,試題結(jié)構(gòu)基本效度合理。
(四)試題數(shù)據(jù)分析
Rasch模型可以把學(xué)生考試的原始分?jǐn)?shù)轉(zhuǎn)換為Logit分?jǐn)?shù),將學(xué)生水平放在等距量尺上進(jìn)行比較。為了便于統(tǒng)計(jì),將個體與試題的原始對分?jǐn)?shù)值轉(zhuǎn)換為[0,100]范圍內(nèi)(表4),轉(zhuǎn)換后不影響統(tǒng)計(jì)結(jié)果。
試題的擬合數(shù)據(jù)范圍為[0.7,1.3],說明試題與模型擬合較好。試題的難度范圍為[46.81,58.73],跨越范圍較大,表明試題難度能與不同水平的學(xué)生進(jìn)行匹配;模型誤差范圍為[0.15,0.4],測量誤差很小,在模型可接受范圍之內(nèi);在點(diǎn)-測量(PTME corr.)方面,第1、2、7、9、11、12、13題的值小于0.3,說明這幾道試題的區(qū)分度較低。
學(xué)生的能力測量平均值為45.6,試題難度平均值為49.63,試題測量值略大于學(xué)生測量值,說明本次測試對學(xué)生來說略難。最難的試題為E、B、A1(第19題、第16題、第1題),最簡單的試題為D、A6、A9(第18題、第6題、第9題)。
(五)結(jié)果討論
由數(shù)據(jù)分析可知,未通過單維性檢驗(yàn)的試題是第2題與第6題;難度過高的試題是第1、6、9題;區(qū)分度較低的試題是第1、2、7、9、11、12、13題。通過觀察學(xué)生在各個項(xiàng)目中異常表現(xiàn),不僅可以揭示學(xué)生在該地理情境表現(xiàn)不好的原因,還能為未來教學(xué)提供一定的方向。
五、結(jié)論
由以上Rasch模型定量分析可知,該診斷性試卷具有良好的信度和區(qū)分度,能較好地反映學(xué)生地理核心素養(yǎng)水平,試卷總體質(zhì)量較好。
試題難度偏高,學(xué)生整體得分低于項(xiàng)目難度,部分項(xiàng)目水平和被試能力不能完全對應(yīng),說明本套試題在命題和組卷上還存在問題,應(yīng)結(jié)合學(xué)情對部分難度較大、區(qū)分度較低的試題酌情替換或優(yōu)化,以便更全面地考查與評估學(xué)生的能力。
在試題命制中,通過學(xué)生在創(chuàng)設(shè)的不同情境中的作答反應(yīng)可以反映出學(xué)生的能力水平,不僅可以直觀反映學(xué)生的核心素養(yǎng)水平、具體知識掌握情況,還能將不同能力學(xué)生放在同一尺度上進(jìn)行比較,一目了然對比學(xué)生差異。結(jié)果分析表明,本套診斷性試卷對于學(xué)生地理核心素養(yǎng)的測量是合理的。
(作者單位:濟(jì)南大學(xué) 水利與環(huán)境學(xué)院)