盧雙雙 彭杰 劉小龍
不同組卷方式下HSK(四級(jí))題目質(zhì)量比較研究
盧雙雙 彭杰 劉小龍
本文從難度、信度、區(qū)分度和結(jié)構(gòu)效度四個(gè)方面比較了人工組卷和自動(dòng)組卷的HSK(四級(jí))試卷(以下簡(jiǎn)稱(chēng)人工卷和自動(dòng)卷)的題目質(zhì)量。研究結(jié)果顯示,自動(dòng)卷和人工卷的題目質(zhì)量較好,在結(jié)構(gòu)效度的模型擬合度上,自動(dòng)卷結(jié)構(gòu)效度能很好規(guī)避書(shū)寫(xiě)1部分對(duì)閱讀理解能力的考查,擬合參數(shù)好于人工卷。結(jié)果說(shuō)明計(jì)算機(jī)自動(dòng)組卷成功,自動(dòng)卷可對(duì)考生的漢語(yǔ)應(yīng)用能力準(zhǔn)確測(cè)量,可用于正式考試。
HSK;自動(dòng)組卷;人工組卷;題目質(zhì)量
HSK考試的傳統(tǒng)組卷方式是人工組卷,命題專(zhuān)家根據(jù)測(cè)驗(yàn)藍(lán)圖人工拼題組卷。隨著計(jì)算機(jī)信息技術(shù)的發(fā)展,HSK考試的題庫(kù)開(kāi)始逐步建設(shè)和應(yīng)用。2015年3月,HSK考試首次采用計(jì)算機(jī)題庫(kù)自動(dòng)組卷成功,并施測(cè)于印度尼西亞國(guó)民教育部考點(diǎn)的考生。為保證自動(dòng)卷的試題質(zhì)量,作者對(duì)自動(dòng)卷和人工卷的HSK(四級(jí))試題質(zhì)量從難度、信度、區(qū)分度和效度四個(gè)方面進(jìn)行了比較研究。
1.1 研究材料
HSK考試共6個(gè)級(jí)別,即HSK(一級(jí))至HSK(六級(jí)),HSK(四級(jí))作為中間級(jí)別,分為聽(tīng)、讀、寫(xiě)三部分,可作為HSK(考試)的典型代表作研究用。為減少樣本差異性和時(shí)間帶來(lái)的練習(xí)效應(yīng),作者選取2014年10月印尼國(guó)民教育部考點(diǎn)的數(shù)據(jù)用于比較研究。研究樣本情況見(jiàn)表1。
表1 研究樣本
1.2 研究方法
本文的比較分析包括自動(dòng)卷和人工卷的難度、信度、區(qū)分度和效度的比較,是基于經(jīng)典測(cè)量理論(CTT)的分析。
(1)難度
難度表示試題的難易程度。客觀題和主觀題的難度計(jì)算不同。聽(tīng)力、閱讀為0,1計(jì)分的客觀題,難度用平均通過(guò)率表示,計(jì)算公式見(jiàn)公式1。書(shū)寫(xiě)部分為主觀題,難度用平均得分率表示,計(jì)算公式見(jiàn)公式2。通過(guò)率或得分率越高,表示難度越低,反之亦然。
其中,P代表客觀題項(xiàng)目難度,N為考生總?cè)藬?shù),R為通過(guò)該項(xiàng)目的人數(shù)。
其中,P代表主觀題項(xiàng)目難度,為考生在某一項(xiàng)目上的平均得分,Xmax為該項(xiàng)目的滿分。
(2)信度
信度表示測(cè)試結(jié)果的穩(wěn)定性,常用內(nèi)部一致性系數(shù)(α系數(shù))表示,計(jì)算公式見(jiàn)公式3。
其中,K是題目數(shù)表示所有考生在第i題上的分?jǐn)?shù)變異是測(cè)驗(yàn)總分的變異。
(3)區(qū)分度
區(qū)分度表示試題對(duì)考生能力的高低的區(qū)分程度。區(qū)分度常用相關(guān)法計(jì)算,客觀題為0,1計(jì)分,需計(jì)算項(xiàng)目得分與測(cè)驗(yàn)總分的點(diǎn)二列相關(guān)系數(shù)。計(jì)算公式見(jiàn)公式4。書(shū)寫(xiě)部分為主觀題,需計(jì)算項(xiàng)目得分與測(cè)驗(yàn)總分的積差相關(guān)系數(shù)。計(jì)算公式見(jiàn)公式5。
其中,rpb為點(diǎn)二列相關(guān)系數(shù),為通過(guò)該項(xiàng)目的測(cè)驗(yàn)總分平均分,為未通過(guò)該項(xiàng)目的測(cè)驗(yàn)總分平均分,p為通過(guò)該項(xiàng)目的人數(shù)百分比,q為未通過(guò)該項(xiàng)目的考生人數(shù)百分比,St為全體考生測(cè)驗(yàn)總分的標(biāo)準(zhǔn)差。
其中,x為項(xiàng)目得分的離差,為測(cè)驗(yàn)總分的離差為考生人數(shù);SX為該項(xiàng)目的標(biāo)準(zhǔn)差;SY為測(cè)驗(yàn)總分的標(biāo)準(zhǔn)差。
(4)效度
效度是評(píng)價(jià)測(cè)驗(yàn)有效性的最重要指標(biāo)之一,反映了測(cè)驗(yàn)對(duì)想要測(cè)量的特質(zhì)的測(cè)量程度。本文重點(diǎn)考查結(jié)構(gòu)效度。結(jié)構(gòu)效度指測(cè)驗(yàn)測(cè)量到的理論結(jié)構(gòu)的程,分析主要采用相關(guān)分析和因子分析考查試題的模型擬合度。HSK(四級(jí))結(jié)構(gòu)(構(gòu)念)見(jiàn)表2。
1.3 使用軟件
本文主要使用MCAT,SPSS和Amos軟件進(jìn)行分析。
自動(dòng)卷和人工卷的難度值和絕對(duì)難度差值統(tǒng)計(jì)結(jié)果見(jiàn)表3。
表2 HSK(四級(jí))結(jié)構(gòu)
表3 自動(dòng)卷—人工卷難度值
難度比較發(fā)現(xiàn),自動(dòng)卷和人工卷分測(cè)驗(yàn)和整體的難度值多處在0.70~0.75,其中人工卷書(shū)寫(xiě)部分為0.6,難度最大。兩套試卷的難度差異較小,各分測(cè)驗(yàn)和整體的難度差值在0.15以內(nèi)。具體分析,兩套試卷的聽(tīng)力、閱讀、整體的難度差值在0.03以內(nèi),書(shū)寫(xiě)部分難度差值為0.13,差值最大。分析顯示,自動(dòng)卷和人工卷難度水平無(wú)明顯差異,均屬于中等偏易難度。
自動(dòng)卷和人工卷的信度值(α系數(shù))見(jiàn)表4。
表4 自動(dòng)卷—人工卷信度值
結(jié)果發(fā)現(xiàn),自動(dòng)卷和人工卷的α系數(shù)均在0.80以上,整體信度值在0.90以上,且兩套試卷的信度差值很小,均在0.05以內(nèi),可認(rèn)為兩套試卷考試結(jié)果可信,受隨機(jī)誤差影響小。
自動(dòng)卷和人工卷區(qū)分度值見(jiàn)表5。
表5 自動(dòng)卷—人工卷區(qū)分度值
結(jié)果發(fā)現(xiàn),自動(dòng)卷和人工卷的區(qū)分度均在0.40以上,且兩者的區(qū)分度差值在0.1以內(nèi),差異很小。結(jié)果顯示自動(dòng)卷和人工卷的區(qū)分度良好,能區(qū)分不同能力的考生。
5.1 題型相關(guān)分析
統(tǒng)計(jì)兩套試卷不同題型間的相關(guān),結(jié)果見(jiàn)表6和表7。分析發(fā)現(xiàn),兩套試卷不同題型間的相關(guān)顯著,同時(shí)也保持一定的獨(dú)立性。
5.2 探索性因子分析
用探索性因子分析對(duì)兩套試卷降維分析,結(jié)果見(jiàn)表8和表9。結(jié)果顯示,自動(dòng)卷和人工卷均抽取了一個(gè)特征值大于1的因子,能解釋的方差分別是63.114%、64.854%,說(shuō)明整套試卷主要考查一種能力,即是漢語(yǔ)應(yīng)用能力。
根據(jù)HSK(四級(jí))結(jié)構(gòu)(構(gòu)念),用斜交旋轉(zhuǎn)法提取出三個(gè)因子,考查不同題型在三個(gè)因子的因子載荷情況。結(jié)果見(jiàn)表10。結(jié)果發(fā)現(xiàn),自動(dòng)卷和人工卷的因子載荷結(jié)果與HSK(四級(jí))的考試構(gòu)念基本一致,自動(dòng)卷的因子載荷結(jié)果甚至好于人工卷。自動(dòng)卷中,聽(tīng)力3個(gè)部分在因子2上載荷最大,考查考生的漢語(yǔ)聽(tīng)力理解能力,閱讀3個(gè)部分在因子1上載荷最大,考查考生的漢語(yǔ)閱讀理解能力,書(shū)寫(xiě)2個(gè)部分在因子3上載荷最大,考查考生的漢語(yǔ)書(shū)寫(xiě)表達(dá)能力。除書(shū)寫(xiě)1部分外,人工卷的因子載荷結(jié)果與自動(dòng)卷類(lèi)似,書(shū)寫(xiě)1部分在因子1上載荷最大,同時(shí)在因子3上也有一定負(fù)荷,這說(shuō)明人工卷的書(shū)寫(xiě)1部分對(duì)考生的書(shū)寫(xiě)能力和閱讀理解能力均有一定的考查。
5.3 驗(yàn)證性因子分析
根據(jù)探索性因子分析結(jié)果,自動(dòng)卷的因子載荷結(jié)果與HSK(四級(jí))的構(gòu)念一致,人工卷的書(shū)寫(xiě)1部分考查的內(nèi)容有兩種可能,一是考查書(shū)寫(xiě)能力,而
是同時(shí)考查閱讀和書(shū)寫(xiě)能力。由此得到自動(dòng)卷和人工卷的可能的模型有兩種。
表6 自動(dòng)卷題型間相關(guān)
表7 人工卷題型間相關(guān)
表8 自動(dòng)卷探索性因子分析結(jié)果
表9 人工卷探索性因子分析結(jié)果
表10 自動(dòng)卷—人工卷因子載荷結(jié)果
自動(dòng)卷模型和人工卷模型1:
對(duì)三個(gè)模型進(jìn)行驗(yàn)證性因子分析,三個(gè)模型擬合結(jié)果見(jiàn)表11。
表11 模型擬合結(jié)果
以上擬合指標(biāo)顯示,自動(dòng)卷模型指標(biāo)好于人工卷,人工卷2擬合指標(biāo)好于人工卷1。結(jié)果說(shuō)明,人工組卷的書(shū)寫(xiě)1部分對(duì)考生的閱讀理解能力有一定考查,自動(dòng)組卷能很好地規(guī)避這個(gè)問(wèn)題,本次自動(dòng)組卷成功。
以上研究結(jié)果表明,自動(dòng)卷難度與人工卷相近,屬于中等偏易水平;整體信度值均在0.90以上,結(jié)果可信;兩者區(qū)分度值均在0.40以上,且差值很小,區(qū)分度指標(biāo)良好;兩套試卷的模型擬合結(jié)果與HSK(四級(jí))構(gòu)念基本一致,自動(dòng)卷的模型擬合結(jié)果好于人工卷,能避免出現(xiàn)書(shū)寫(xiě)1部分的擬合模糊。綜上,自動(dòng)卷和人工卷題目質(zhì)量良好,將來(lái)的HSK考試中,可將自動(dòng)卷用于正常考試。
[1]戴海琦,張鋒,陳雪楓.心理與教育測(cè)量[M].廣州:暨南大學(xué)出版社,2007:45-83.
[2]符華均,張晉軍,李亞男,等.新漢語(yǔ)水平考試HSK(五級(jí))效度研究[J].考試研究,2013(3).
A Comparative Study of HSK4 Test Project Quality under Two Different Test-paper Assembly Ways
LU Shuangshuang,PENG Jie&LIU Xiaolong
The article compared the project quality of HSK4 test paper assembled by content expert with automatically assembled test paper(Hereinafter referred to as“expert paper”and“automatic paper”).The project quality analysis includes the difficulty,reliability,discrimination,and the validity of projects.The results showed that both the two test papers had high project quality.In the model fitting for validity assessment,the results of automatic paper indicated that automatic paper could avoid the Writing One part’s investigation of the candidates’reading comprehension ability.Finally,the author concludes that automated test assembly program is a success. Automatic test papers can have accurate measurement of test takers’Chinese application ability and can be applied to the test in the future.
HSK;Automatically Assemble;Assembled by Expert;Project Quality
G405
A
1005-8427(2015)11-0058-6
盧雙雙,女,漢考國(guó)際教育科技(北京)有限公司,考務(wù)專(zhuān)員(北京 100088)
彭 杰,男,漢考國(guó)際教育科技(北京)有限公司,考務(wù)專(zhuān)員(北京 100088)
劉小龍,男,漢考國(guó)際教育科技(北京)有限公司,考務(wù)經(jīng)理(北京 100088)