陳石磊
(武漢生物工程學院 外國語學院,湖北 武漢 430415)
試卷質(zhì)量分析是教學實踐的重要組成部分,對試卷進行量化分析,可以了解學生對知識的掌握情況,為及時調(diào)控教學策略提供客觀依據(jù)。同時,對于提高教師編制試卷的能力,促進試卷標準化有著積極的應用價值[1]。正如劉寶權(quán)、席仲恩所言,試卷命題人過于依賴自己的經(jīng)驗出題不能保證試卷的科學性,同時缺乏必要的簡單統(tǒng)計知識,對考試結(jié)果的解讀過于主觀和片面[2]。因此,依據(jù)一定的統(tǒng)計學理論來參與試卷的制作、分析是很有必要的。
本文以筆者自擬的一套大學英語期末試卷為樣本,運用SPSS 18.0進行分析,對試卷的難度和區(qū)分度、各題型與卷面總分的相關程度、班級之間成績的差異性檢驗進行考察,試圖探究一種英語試卷的標準分析模式。
研究試卷為某高校2013年1月使用過的一套期末試卷。試卷的內(nèi)容和形式經(jīng)教研室全體老師討論通過;為考察《全新版大學英語第四冊綜合教程》的教學情況,試卷內(nèi)容針對的是讀寫兩種技能。題型和權(quán)重分布為作文20%、填詞10%、閱讀50%、中譯英10%、英譯中10%,其中客觀題分值占60%,主觀題分值占40%。
本套試卷的受試對象為該校2011級部分專業(yè)的重點班,所用教材與普通本科班不同,共有208名學生采用本套試卷。
所有題型均由教研室以流水作業(yè)的形式集體閱卷。作文有兩位教師評判,求其平均分。在分數(shù)差距較大時,由教研室全體老師討論決定分數(shù)。評分結(jié)束后,在SPSS中輸入各題單項成績和總分成績。
用鼠標左鍵單擊數(shù)據(jù)編輯器下方的“Variable Vie”字樣,進入變量命名及定義界面。在第一列輸入變量名:在第一行的第一個單元格中輸入“姓名”,在第二行的第一格輸入“性別”,以此類推;單擊第二列的相應單元格,選擇適當?shù)淖兞款愋?,除“姓名”對應的變量類型為“String”之外,其他變量類型均設置為“Numeric”;第三列使用默認值;關于第四列“Decimals”的輸入,“姓名”可以忽略,其他變量可選擇為2;最后一列“Measure”對應于“姓名”的選擇“Nominal”,對應于其他變量的可選“Scale”;其余均用SPSS的默認值。變量定義完畢后,左鍵點擊下面的“Data View”,就可以開始輸入數(shù)據(jù)。待原始數(shù)據(jù)準備就緒后,即可進行相關分析。
1.考試成績的基本描述性統(tǒng)計
表1 統(tǒng)計量
劉潤清、韓寶成認為均值、中值、眾數(shù)若比較接近,則反映了數(shù)據(jù)呈正態(tài)分布[3]。表1的數(shù)據(jù)說明了受試者的卷面成績總體呈正態(tài)分布,其中作文題的得分是最理想的正態(tài)分布。此外,對卷面成績進行K-S檢驗,結(jié)果顯示為Asymp.Sig.(2-tailed)=0.087>0.05,證明受試者的卷面成績呈正態(tài)分布。但據(jù)此判斷整體題型的難易度過于片面,還需結(jié)合試卷的難度系數(shù)分析、區(qū)分度分析以及信效度分析來考慮。
2.難度系數(shù)分析
在SPSS窗口新建一個包括平均分Mean和各題滿分值W的數(shù)據(jù)文件。單擊[Transform→Compute],在Numeric Expression框中輸入計算公式“Mean/W”;在Target Variable框中輸入難度系數(shù)“P”,點擊OK鈕得到各題的難度系數(shù)。
試題難度值與試題實際難易程度正好相反。難度值P越大,表示能夠正確解答該題的學生越多,說明試題越容易,而難度值越小,則試題越難。難度適中更能客觀地反映出試卷的難度與學生接受程度的關系。
表2 難度系數(shù)表
Heaton認為試卷的難度系數(shù)應保持在0.3~ 0.7之間[4]。在本套試卷中,作文、選詞填空和段落翻譯三種題型的難度系數(shù)均超過了0.7,可以認為是較容易。一方面選詞填空來自于課后練習,導致這部分題目的難度總體偏易;另一方面,作文和段落翻譯的難度系數(shù)較高,反映改卷的主觀性大。精讀理解、快速閱讀和句子翻譯三個題型的難度系數(shù)介于0.4~ 0.7之間[4],可以認為是難度中等,整套試卷的難度系數(shù)為0.708,說明對大部分受試者而言,試卷較為容易。
3.區(qū)分度分析
如果要了解每個小題的區(qū)分度,可以采用相關法分析試卷的內(nèi)部一致性。一般對客觀題采用Spearman相關分析, 對主觀題采用Pearson相關分析[1]。每小題的區(qū)分度見表3和表4。
表3、表4反映每個小題與卷面總分之間的相關系數(shù)即區(qū)分度,綜合這兩個表的結(jié)果即為各題型的區(qū)分度,見表5。
根據(jù)胡素芬等對區(qū)分度與考試的對應關系研究[5],表5顯示各題的區(qū)分度均大于0.4,說明題目的區(qū)分度好,能有效測試學生的水平。
4.信度分析
該試卷整體內(nèi)部一致性檢測的Cronbach’s Alpha值為0.686,表示整套試卷的信度可以接受(見表6)。但若將該試卷用于大規(guī)模的施測,部分試題需要改進。
表3 客觀題型成績與總成績的Spearman相關系數(shù)
表4 主觀題型成績與總成績的Pearson相關系數(shù)
表5 各題型的區(qū)分度
表6 試卷的信度分析
1.考試成績的差異性檢驗
為具體了解每個班的考試成績,我們從受試者所在的8個班級選取A班和B班作進一步分析。
表7 兩個班期末成績的描述統(tǒng)計量表
單從兩個班期末成績的描述統(tǒng)計量表7可以看出,兩個班的成績不分伯仲,但成績是否存在顯著性差異,需要結(jié)合差異性檢驗來看,如表8所示。
表8 兩個班期末考試成績的獨立樣本t檢驗結(jié)果
A班的平均成績?yōu)?3.1852(標準差為11.95516,均值的標準誤差為2.30077),B班的平均成績?yōu)?0.1538(標準差為9.64859,均值的標準誤差為1.89225)。盡管A班的平均成績高于B班,但獨立樣本t檢驗結(jié)果顯示兩個班的成績沒有顯著性差異。
2.性別差異下期末考試成績的獨立樣本t檢驗
表9 性別差異下期末考試成績的獨立樣本t檢驗結(jié)果
從表9可知,男生的平均成績?yōu)?9.3421(標準差為10.75093,均值的標準誤差為1.74403),遠遠低于女生的平均成績77.6667(標準差為9.03696,均值的標準誤差為2.33333),獨立樣本t檢驗證實了男女生成績存在顯著差異。
3.任課班級與非任課班級學生之間成績的獨立樣本t檢驗
筆者對任課班級和非任課班級學生的考試成績進行了獨立樣本t檢驗,以探求該套試卷是否適用于所有受試者,結(jié)果見表10。
表10 任課班級與非任課班級學生之間成績的獨立樣本t檢驗結(jié)果
筆者任課班級學生的平均成績?yōu)?1.6500(標準差為10.52556,均值的標準誤差為1.17679),非任課班級學生的平均成績?yōu)?0.0625(標準差為13.04188,均值的標準誤差為1.15275)。盡管任課班級的平均成績高于非任課班級,但獨立樣本t檢驗結(jié)果顯示,班級之間的成績沒有顯著性差異,也就是說本套試卷對參考學生均適用。
4.期末考試成績與高考成績的相關程度
表11 期末考試成績與高考成績的Pearson相關系數(shù)
由表11可知,期末考試成績與高考成績的Pearson相關系數(shù)為0.534,說明兩者有著極其明顯的正相關關系。也就是說,高考成績好的或者說英語基礎好的學生本次期末考試表現(xiàn)較佳,高考英語成績欠佳的學生本次考試也不太好。但是,考試成績與學生的學習動機、學習態(tài)度、教材、教學生態(tài)環(huán)境等因素密切相關,關于影響學生考試成績的其他因素的研究將另文詳述。
考試是檢驗教學效果的一種測量方式,只有采取科學的測量理論對考試題目進行分析,取優(yōu)棄劣,才能為課程教學提供客觀的參考。在教學整個動態(tài)過程中,試卷的分析是非常必要的。本文利用SPSS軟件對大學英語試卷進行了定量分析,有別于傳統(tǒng)大學英語試卷的描述性分析。該分析模式能清楚反映教學的運用情況,學生對知識的掌握情況等。擬題人可以通過該分析模式對不合理的題目進行剔除或修改,以便能更好地用于測試,達到教學大綱的要求。
參考文獻:
[1] 紀宏偉.基于SPSS的試卷分析與解讀[J].職業(yè)教育研究,2011(8):169-170.
[2] 劉寶權(quán),席仲恩.SPSS在英語試卷統(tǒng)計分析中的應用[J].外語電化教學,2004(1):63-65.
[3] 劉潤清,韓寶成.語言測試和它的方法[M].北京:外語教學與研究出版社,2000:28.
[4] Heaton J B.Writing English Language Tests[M].北京:外語教學與研究出版社,2000:178-179.
[5] 胡素芬,肖煜民,肖枝洪.對全國大學英語競賽中IQ測試題的分析與思考[J].華中農(nóng)業(yè)大學學報:社會科學版,2012(1):117-121.