張華 周智良
摘? ?要:在當前的教育與心理測量中,Rasch模型分析強調對被試能力和試題難度水平的排序,具有客觀等距的特征。文章利用高考物理成績的分層抽樣統計數據,根據Rasch模型的多項指標對高考試題進行了評價,分析了Rasch模型在中學物理試卷分析中的具體應用。研究表明,2018年的高考物理(全國Ⅱ)試題整體良好,強調了試題的基礎性,但在以后的考試中,部分類型的題目仍需要適度調整。
關鍵詞:Rasch模型;高考;試卷分析
中圖分類號:G633.7 文獻標識碼:A ? ? 文章編號:1003-6148(2019)6-0068-4
1? ? 引? 言
在我國,高考對教育研究和教育教學的發(fā)展方向具有重要影響。各級教育部門、廣大師生、家長及社會各界都特別關注高考試題的質量。目前,國內考試質量分析主要運用經典測量理論和項目反應理論。長期以來,經典測量理論被廣泛運用于各級各類教育測量中,但在試題質量及成績分析等方面,仍存在許多無法克服的技術問題,如在衡量試題的難易程度、分析考點分布,以及評價考生的能力水平是否被科學、客觀、公平地測量等。針對以上問題,項目反應理論中的Rasch模型提供了一種新的分析方法。
1960年,丹麥數學家、教育學家G.Rasch提出了一種概率模型——Rasch模型,用來測量被試的潛在特質,它能夠解決經典測量理論難以克服的兩個典型問題:一是被試樣本及測驗試題依賴,二是被試能力與試題難度測量間的彼此干擾,從而使Rasch測量具有了客觀等距的特征[1]。作為潛在特質的模型,Rasch 模型通過被試在題目上的作答來測量不可直接觀察的潛在特質。
其基本原理如下:被試能力與該試題難度的函數表示特定被試對特定試題作出的特定反應的概率,且兩者的差異決定了被試回答某一試題的正確與否。通過對數轉換,Rasch 模型實現了在單維尺度上同時標度被試能力和試題難度水平,基于兩者在單維度連續(xù)體上的位置,使試題與試題、試題與被試、被試與被試之間直接進行比較[2]。單維性假設是運用Rasch模型分析的條件,即單一變量影響了被試在某一項目上的表現,其他因素的影響可忽略不計。國內外大量研究表明,在分析試卷質量時,可以利用Rasch模型來檢驗和改進試卷[3]。本文以某市2018年物理高考試卷(全國Ⅱ)為例,探討Rasch模型在試卷分析中的應用。
2? ? 研究方法
2.1? ? 研究樣本
在某市2018年高考理科選考為選修3-3的考生中,采用分層抽樣,抽取1078人。試卷包含選擇題8個(含單選題5個和多選題3個),實驗題2個,論述題2個,選做題1個,共計13個計分點。根據Rasch模型的要求,將試卷所有13個題目進行等級賦分,其中單選題為二級賦分,答對為1,答錯為0;多選題為三級賦分,答對為2,答對部分為1,答錯為0;同樣的方法,實驗題、計算論述題、選做題采用多級賦分。
2.2? ? 研究工具與統計方法
運用SPSS22.0對收集到的原始數據進行清理和轉化等預處理,進行單維性檢驗,所有測試數據以Excel格式和“記事本”格式輸入。利用軟件Winsteps3.72開展Rasch模型分析,分析結果包含整個試卷擬合情況、試卷中每個題目擬合情況、懷特圖及氣泡圖分析。
3? ? 結果與分析
3.1? ? 測驗的單維性檢驗
Rasch模型要求所測量的潛在特質具有單維性,即被試的作答表現只受其所掌握的物理知識影響,沒有受到閱讀理解能力等其他額外因素的影響。因此,在利用 WINSTEPS3.72進行參數估計之前,本研究運用SPSS22.0對高考數據進行探索性因素分析,統計顯示(表1),KMO值為0.901(>0.7),Bartlett檢驗顯著性為 P = 0(<0.05)[3],符合探索性因素分析的條件。接下來開展因子分析(表2),采用主成分分析法提取特征根大于1的兩個因子,其特征根分別為4.407和1.135;結合碎石圖(圖1),發(fā)現曲線在X軸1處出現明顯的彎折,說明只有一個因子(所掌握的物理知識)影響了本次測驗,符合Rasch模型單維性的條件。
情況
Infit和Outfit指標常被Rasch模型分析中用來判斷數據與模型的擬合程度,Infit表示加權后的指標,Outfit表示未加權指標(易受極端值的影響)。Rasch模型常根據MNSQ和ZSTD(ZSTD是MNSQ的標準化形式)兩個指標進行擬合度檢驗。MNSQ=1為理想擬合情況,其值在0.7~1.3之間,其擬合程度可被接受 [4]。當ZSTD=0時,數據與模型的擬合屬于理想狀態(tài),當ZSTD取值介于-2~2之間時,認為擬合較好[5]。研究中還涉及到信度、區(qū)分度、難度、被試及試題分布等質量檢驗指標。Reliability表示信度,當其特征量大于0.70時,表示試卷測試結果的一致性、可靠性、穩(wěn)定性較好。Separation表示區(qū)分度,當其特征量大于2時,表示試題具有較高的區(qū)分度。
統計顯示,本試題和被試的MNSQ值均大于0.95,說明數據和模型擬合度良好;被試和項目的信度均高于0.8,說明測試結果穩(wěn)定可靠;其Separation值為2.05,說明區(qū)分度合理。從試卷內容來看,強化了對基本物理概念、規(guī)律和實驗技能等主干知識的考查。必考部分內容主要涵蓋力學和電磁學,涉及勻變速直線運動、萬有引力與航天、動量與機械能守恒、靜電場、閉合電路歐姆定律、磁場和電磁感應等內容;選考部分則主要考查了氣體實驗定律、氣體分子內能、光的折射、機械波等主要內容[6]。整個試卷突出考查了考生對物理學科基本概念、規(guī)律的理解及實驗探究能力,具有良好的效度。
3.3? ? 被試能力水平與試題難度水平分布關系圖
在Rasch模型分析中,研究者通常利用懷特圖了解測試工具中各項目的難度分布。懷特圖能夠在同一把標尺上,直觀展示被試和被試、題目和題目、被試和題目之間的關系(圖2)。
中線是 Logit 刻度尺,它是被試能力水平與試題難度水平進行比較的重要媒介。M代表平均水平(Mean);S(One Standard Error)與M的距離為一個標準差(在標準正態(tài)分布中,占68.3%);T(Two Standard Error)與均值的距離為兩個標準差(在標準正態(tài)分布中,占95.4%)[7]。刻度尺左側是被試的物理學習水平分布,每個 # 號代表7個被試,不夠7用“.”表示,從下往上看,被試能力水平逐漸升高??潭瘸哂覀仁菢颖驹嚲碇?3道題目的分布情況。從下往上難度依次升高,有許多題目的難度水平較為接近。其中,實驗題第23題最容易,論述題第25題難度最大。
在1078名考生中,考生能力平均值為0.68logit,考生能力水平高于試題難度,說明本次考試難度偏低。圖2顯示,被試能力水平分布范圍約占7.4個logit,題目難度水平分布范圍寬度約為3.6個logit??傮w來看,被試能力水平范圍跨度大于題目難度,題目難度沒有覆蓋到全體被試,特別是最高能力水平的考生。第19題和第20題、第16題和第25題之間都有比較大的空白區(qū)間,說明缺乏與被試能力相匹配的題目。
3.4? ? 試卷中每個題目數據與Rasch模型的擬合度
作為理想化的數學模型,Rasch模型要求搜集到的數據具備規(guī)定的標準和結構,才能實現客觀等距的測量目標[8]。每個題目的測量數據與Rasch模型的擬合情況(表3),所有題目的Outfit MNSQ 范圍均在0.50~1.31之間,Infit MNSQ范圍在 0.69~1.21之間。除第24題以外,Infit MNSQ值(0.69)均在可接受的范圍(0.7~1.3)以內,說明2018年高考物理數據與 Rasch 模型擬合較好。另外,利用Rasch模型測量考生能力水平時,其標準誤主要表示測量的穩(wěn)定性。標準誤越小,說明試題對考生能力水平的估計越穩(wěn)定,題目的信度也就越高。統計顯示,所有題目的Rasch標準誤均在0.08以下,說明試題的信度較高。此外,試題與試題測量目標的擬合程度由相關系數表示。0.30是可接受的相關系數最低水平,相關系數越高,試題就越接近測量目標。統計顯示,所有題目的相關系數最小值為0.32,均處于可接受的范圍內。
3.5? ? 氣泡圖
圖3橫軸表示Outfit MNSQ,縱軸表示難度。氣泡和題目一一對應,氣泡的直徑表示標準誤的大小,氣泡的位置表示試題的Outfit MNSQ值。圖3顯示,試題越靠近頂端,難度水平越大。研究顯示,題目難度、擬合度及標準誤等指標均可以用氣泡圖形象地描繪出來。所以在命制試題過程中,可運用氣泡圖來篩選試題。
在理想的氣泡圖中,所有氣泡都會靠近中軸線 ,且不會有重疊。統計顯示,除一個題目的 Outfit MNSQ值在0.7~1.3范圍外(圖3),其余大多數題目的數據與模型擬合較好。同時,發(fā)現有少部分氣泡堆疊在一起,說明測驗內容或題目的難度水平比較接近。第24題的 Intfit MNSQ值為0.69,Intfit MNSQ值為0.50,說明對被試能力水平的估計誤差較大,應進一步探討;第23題、第14題是較易的題目;第25題是較難的題目,而且第25題與其他試題明顯分離,說明此題目與其他題目的難度水平差異較大。
4? ? 結論與討論
本研究運用Rasch模型,通過試題整體分析表、懷特圖及氣泡圖對2018年某市高考物理成績及試卷內容進行了分析,結果主要體現在以下兩個面。
4.1? ? 試卷突出了基礎性
整體難度相對偏低,從試卷整體分析及懷特圖可以看出,在本次測試中試題的難度水平沒有覆蓋到所有能力水平的考生,考生能力分布的logit值明顯高于試題難度水平的 logit 值,二者相差3.8logit,試卷整體難度偏低。
比如第24題雖然是計算論述題,但難度僅排在第3。其背景為日常生活中較為常見的小型交通事故,考查被試對勻加速直線運動、牛頓運動定律和動量守恒定律等力學基本概念或規(guī)律的掌握程度。本題通過設置新穎的問題情境,將物理學主干知識與科學、技術、社會緊密聯系起來,考查學生是否能夠靈活運用物理知識和方法解決生活中的實際問題。
比如,實驗題中,22題考查被試的基本實驗能力和設計簡單電路的能力。在直流電路部分歐姆定律是重要的規(guī)律,要求被試應用歐姆定律,根據實驗目的改裝電流表和電壓表,利用所給器材設計實驗電路,考查被試的基本實驗探究能力。
4.2? ? 個別題目需要適度調整
懷特圖顯示,試卷中的所有題目難度沒有呈現出近似的正態(tài)分布,個別題目的難度、區(qū)分度需加強。
首先,試卷整體難度不平衡。在13個物理題目中,與被試零水平相對應的有一個題,表3顯示了每個題目的measure數值,顯示了題目的難度,數值越大,難度越高。分析發(fā)現,在13個題目中,1logit~2logit難度的題目處于空白狀態(tài);反而在0~1logit難度的題目多達7個。在以后的考試中,需要調整measure數值比較接近的題目,使之適當分散,使整個試題難度分布接近于正態(tài)分布。
其次,區(qū)分度仍需調整。理想擬合情況下的MNSQ值為1,當 Outfit MNSQ 和 Infit MNSQ 參數值大于 1 時,區(qū)分度翻轉,即在作答該題時,許多高能力水平的被試對該題作答錯誤,而低能力水平的被試卻回答正確;當小于0.7時,區(qū)分度趨同,即測試題目不能區(qū)分被試之間的能力水平,或者說被試的作答結果差異較小。按此依據,個別試題的擬合值存在一些問題。如第24題,其Outfit MNSQ值為0.50,說明了無論被試的能力水平高低,被試在本題的作答差異不大,沒有體現出必要的區(qū)分度。
最后,難點的設置需進一步考量。在題目難點的布局上,一般都遵循先易后難的原則。但是在8個選擇題中,第2個選擇題(16題)卻成為最難的選擇題,而且在全卷13個題目中難度值排名第二,這在一定程度上會使被試產生不適應;同時,在實驗題中,我們發(fā)現第23題,也就是后一個實驗題,不僅比第一個實驗題(22題)簡單了1.96logit,而且是本試卷最簡單的題目。按一般的命題規(guī)律,以上兩題均偏離了命題的初衷。因此,在以后的考試中,可以根據考試大綱對此類試題進行適度調整或修改,使其充分發(fā)揮其高考的選拔功能。
綜上所述,高考抽樣數據分析在高考命題評價過程中具有重要作用。在一線教學中,為提高命題質量,可以在考試評價中引入項目反應理論及Rasch模型,將客觀等距量尺引入到考試中來。這樣,在各級各類考試中,首先指定命題規(guī)范,建立學科測評量表框架標準(比如雙向細目表等),明確測試目標;然后運用先進的測量技術和數理統計方法,保證試卷對于不同群體考生的公平性,從而提高命題效率與質量。
參考文獻:
[1]趙守盈,何妃霞,陳維,等. Rasch模型在研究生入學考試質量分析中的應用[J].教育研究,2012,389(6):61-66.
[2]戴海琦.基于項目反應理論的測驗編制方法研究[J].考試研究,2006(10):31-44.
[3]王蕾. Rasch測量原理及在高考命題評價中的實證研究[J].中國考試,2008(1):32-39.
[4]王桂桃,嚴文法,田秀云.例析Rasch模型在化學試卷質量分析中的應用[J].化學教學,2016(11):14-19.
[5]教育部考試中心.聚焦主要內容 考查關鍵能力 凸顯素養(yǎng)導向——2018年高考物理試題評析[J].中國考試,2018,315(7):17-23.
[6]羅德紅,龔婧.Rasch模型在試卷質量分析中的應用——基于五六年級學生閱讀素養(yǎng)前測試卷的質量分析[J]. 教育測量與評價(理論版),2015(1):18-22.
[7]袁潔.基于Rasch模型的大學英語分級考試質量分析[J].東南大學學報(哲學社會科學版), 2016(6):142-145.
(欄目編輯? ? 張正嚴)
物理教學探討2019年6期