賴翔暉 張華
摘 要: 考試是評價教育效果的重要手段,而命制試題則是考試中的重要一環(huán)。過去,對試卷命題的質量評價常以主觀定性的方式為主?,F(xiàn)在可以依靠SPSS(統(tǒng)計產品與服務解決方案)軟件,實現(xiàn)對命題質量的定量分析。
關鍵詞: 命題質量 定量分析 質量評價
一、命題定量分析的準備工作
啟動SPSS19.0中文版,選擇“變量視圖”中,在名稱下輸入學號、題目1—12、總分等命題基本情況項目。在類型標記中,將學號定義為名義,將題目1—12定義為度量,小數(shù)根據(jù)實際情況設定,其他項保留默認設置。選擇“數(shù)據(jù)視圖”標簽,在各行內輸入學生的各題得分和總分數(shù)據(jù)(圖2)。
圖1 定義變量設定圖
圖2 數(shù)據(jù)輸入圖
二、命題的定量分析
(一)描述性統(tǒng)計量分析
用以描述考試總體情況的各分數(shù)統(tǒng)稱為描述性統(tǒng)計量。在SPSS中,點擊“分析—描述分析—頻率”。將“總分”等變量名稱選入待計算變量框中,在“統(tǒng)計”中選擇要計算的統(tǒng)計量,選中均值、極值、標準差、中位數(shù)等項,最后輸出結果(表3)。
表3 有效數(shù)據(jù)的得分描述性統(tǒng)計
(二)試題的正態(tài)分布預期
在學生群體足夠大時,學生的能力呈正態(tài)分布。處于能力尖端和尾端的學生數(shù)量少,處于能力中端的學生數(shù)量多。在考試命題適宜,教學狀況正常,學生水平相當,試卷評閱嚴謹?shù)那疤嵯拢环莺细竦脑囶},所反映出的學生成績應呈現(xiàn)正態(tài)分布的特點。為研究試題能否體現(xiàn)學生能力的正態(tài)分布,可在SPSS軟件中點擊“分析—描述分析—頻率”,在“頻率”對話框中選擇“圖表”,點選繪制“總分”的直方圖并標變化曲線(圖4)。
圖4 學生總分的直方—變化曲線圖
若學生總分的直方—變化曲線圖能呈現(xiàn)正態(tài)分布,那么,可進一步探究命制試題的正態(tài)分布預期??衫脝蝹€樣本K-S校驗測查給定數(shù)據(jù)與正態(tài)分布間的顯著差異。在SPSS中,點擊“分析—非參數(shù)檢驗”,對“總分”進行單個樣本K-S檢驗(表5)。
表5 試題總分的單樣本Kolmogorov-Smirnov檢驗
(三)難度
試題的難度(P)是測驗題目難易程度的統(tǒng)計量。試卷難度等于試卷內各題的平均難度。要觀測命題試卷難度,應先測量命題試卷內各題難度。試題計分方法不同,難度計算方法不同。
二分法計分(選擇題、判斷題)題目的難度統(tǒng)計。對于二分法計分的題目,答案只有對與錯兩種可能的結果(即答對得分,答錯不得分)。此類題目難度通常用通過率(P)表示。其中,P=1—R/N(其中R為答對該題的人數(shù),N為答題總人數(shù))。由此,可在SPSS中,運用“轉換—計算變量”方法,在“計算變量”對話框中輸入公式,直接算出二分法題目難度(表6)。
表6 二分法計分題目難度值
非二分法計分(主觀題、論述題)題目的難度統(tǒng)計。對于非二分法計分的題目,難度(P)可以通過公式P=1—X/W(X為該題目均分值,W為該題滿分值)計算??刹捎谩坝嬎阕兞俊狈椒ㄖ苯虞斎牍?,算出非二分法題目難度(表7)。
表7 非二分法題目難度值
全卷難度值(P)等于卷內各題難度平均值,采用SPSS“計算變量”可得p=0.4。
(四)區(qū)分度
區(qū)分度是反映試題區(qū)別學生水平和能力的統(tǒng)計量。在實際統(tǒng)計時,常以考試總分作為考生的實際水平,而把某題的得分與學生總分之間的相關系數(shù)作為該題的區(qū)分度。
客觀題的區(qū)分度統(tǒng)計,可把客觀題得分視為等間距測度的連續(xù)變量,采用Spearman等級相關分析統(tǒng)計區(qū)分度。主觀題的區(qū)分度統(tǒng)計,可把主觀題成績視為非等間距測度的連續(xù)變量,采用Pearson相關分析。在SPSS中,點擊“分析—相關—雙相關”。先選擇客觀題各題分數(shù)和總分采用Pearson相關分析(1-6),再選擇主觀題(7-12(2))各題分數(shù)和總分采用Spearman相關系數(shù)分析,得到結果合成(表8)。
表8 各題區(qū)分度匯總表
(五)信度
信度是衡量一次考試可靠性、穩(wěn)定性的統(tǒng)計量。信度代表著試題的可靠性,其取值在0至1之間。信度越高,可靠性越好,但容易造成成績標準差過大。一般采用SPSS中克倫巴赫系數(shù)(Alpha模型)計算命題試卷一致性信度系數(shù)。在SPSS中,點擊“分析—度量—可靠性分析”。在可靠性分析對話框中,選擇試卷各題得分數(shù)據(jù)。點擊“統(tǒng)計量”,選擇“如果項已刪除則進行度量”,結果如下(表9-10):
表9 信度統(tǒng)計值表
表10 刪除變量后項目統(tǒng)計值表
(六)效度
效度是指測試結果的準確性與有效性程度的統(tǒng)計量,即一個測驗能夠測量學生水平的程度[2]??刹捎眯诵Ф确y量試題的效度。將學生的平時成績作為效度分析的校標,利用皮爾森相關系數(shù)法計算命題測試分數(shù)與校標之間的相關系數(shù),結果即為試題效度(表11)。
圖表11 命制試題得分與平時成績間皮爾遜相關系數(shù)分析
三、命題質量評價
第一,描述性統(tǒng)計量分析。由表3可知,命題平均成績?yōu)?2.54分(滿分49分),最高分45分,最低分12分,標準差為6.94。平均分、標準差數(shù)值適當,極值差距較大,體現(xiàn)了學生個體之間對題目的理解差異大。由此可見,試卷命題中,部分題目可能表意不清,引發(fā)部分學生無從下手作答的情況。此卷應注意題干的表達,使學生清晰了解題目意圖。
第二,正態(tài)分布預期分析。由圖4可知,學生總分變化曲線呈正態(tài)分布曲線樣式,因而命制試題具有正態(tài)分布預期。由表5進一步分析K-S檢驗中的各數(shù)值可知,Z值為0.493,sig(雙側P值)=0.851>0.05,由sig(漸進顯著性)>0.05,可得給定數(shù)據(jù)與正態(tài)分布沒有顯著性差異,即總分數(shù)據(jù)符合正態(tài)分布要求。
第二,試題難度分析。一般認為,命題難度在0.4至0.7之間為宜,難度值小于0.4的題目難度較小,難度值大于0.7的題目較大。一般認為,最好的試題難度應接近于中等難度(即p=0.5)。因此,本命制試題全試卷具有中等偏下的難度(p=0.4)。這份命制試題如果運用在終結性考核中,用以檢測學生在群體中知識掌握水平,作為合格水平測驗,則效果較好。但作為過程性考核,則其難度水平較低,需適當加大難度。由表6、7可知,T9、T1難度過小,建議予以刪改。T6、T3難度過大,應進一步結合課程評價標準加以研究,檢驗是否超綱。
第三,區(qū)分度分析。一般認為區(qū)分度在0.4以上的題目,鑒別能力優(yōu)秀;區(qū)分度在0.3至0.39間的題目,鑒別能力良好;區(qū)分度在0.39以下的題目,應進行刪改。由表8可知,全卷區(qū)分度總體水平適宜,能夠區(qū)分學生掌握知識程度的優(yōu)劣。但T1、T3、T4、T6四題區(qū)分度較低(<0.39),說明學生在作答這些題目時,掌握的知識和對知識理解、運用的能力不能充分體現(xiàn)在試卷答題分數(shù)上,因此,應作刪改。
第四,信度分析。從表9可知,本次考試的信度為0.455。普遍而言,學校測驗采用試卷信度應達到0.5以上。本命題試卷達不到可信要求,為提高本卷信度,本卷應進行修改。從表10可知,刪除T1后全卷信度提升至5.0,故可考慮對T1進行替換。同時,目前本卷題量共12題,題目數(shù)量較少,可考慮通過適當增加題量的方法,提高全卷信度。
第五,效度分析。從表11可知,全卷效度值為0.837,在0.01的顯著性水平下,sig.值(顯著性)為0.000,表明學生完成命制試題的得分與學生平時的成績兩者間呈顯著的相關關系。命制試題具有較高的效度。
參考文獻:
[1]張雪冰.試卷分析中的正態(tài)分布和非正態(tài)分布[J].安徽建筑工程學院學報(自然科學版),2009.8(17-4).
[2]陳伙平.教育科學研究方法與原理[M].福建科學技術出版社,2005.7,124.