王肖竹 王佶旻
[摘要]聚焦一項(xiàng)語(yǔ)言測(cè)評(píng)課程中的命題培訓(xùn),分析27名研究生作為新手命題員,在經(jīng)過(guò)命題知識(shí)講解,獨(dú)立編寫(xiě)的多項(xiàng)選擇題和小組合作修訂后,命題成果中的題目缺陷,比較部分新手與專(zhuān)業(yè)命題員編寫(xiě)的題目在作答結(jié)果上的差異,并對(duì)其中9名研究對(duì)象進(jìn)行課后訪談。研究發(fā)現(xiàn),新手命題員的題目經(jīng)過(guò)合作修訂后質(zhì)量有較大提升,在難度和區(qū)分度方面部分題目可以達(dá)到與專(zhuān)業(yè)命題員相似或更高的水平,以實(shí)踐和合作為基礎(chǔ)的命題培訓(xùn)對(duì)語(yǔ)言測(cè)評(píng)素養(yǎng)有提升作用。研究結(jié)果為語(yǔ)言測(cè)試多項(xiàng)選擇題命題技術(shù)的學(xué)習(xí)效果提供了證據(jù),為命題培訓(xùn)提供了參考。
[關(guān)鍵詞]多項(xiàng)選擇題;命題培訓(xùn);合作命題;命題員;語(yǔ)言測(cè)評(píng)素養(yǎng)
[中圖分類(lèi)號(hào)]G424.74[文獻(xiàn)標(biāo)識(shí)碼]A
[文章編號(hào)]1673—1654(2023)05—031—010
基金項(xiàng)目國(guó)家社科基金重大項(xiàng)目“漢語(yǔ)交際能力標(biāo)準(zhǔn)與測(cè)評(píng)體系研究”(項(xiàng)目號(hào)15ZDB101)以及北京高校高精尖學(xué)科建設(shè)項(xiàng)目資助。
一、引言
客觀題(selected-response items)的編寫(xiě)是一個(gè)需要大量指導(dǎo)和技術(shù)的創(chuàng)作過(guò)程,是一項(xiàng)藝術(shù)性和科學(xué)性兼具的工作,其中多項(xiàng)選擇題(multiple choice item)是最常用的一種,其作答和評(píng)分高效、可考查的內(nèi)容豐富,通常用來(lái)測(cè)驗(yàn)語(yǔ)言理解能力和語(yǔ)法、詞匯等語(yǔ)言知識(shí),便于實(shí)現(xiàn)診斷功能[1]。盡管多項(xiàng)選擇題具有猜測(cè)的弊端,且對(duì)于語(yǔ)言測(cè)試而言,多項(xiàng)選擇題不能直接考查語(yǔ)言表達(dá)等交際能力,但高質(zhì)量的題目依然可以有效測(cè)量多方面的認(rèn)知能力[2]。由于試題質(zhì)量是影響測(cè)試效度的關(guān)鍵因素,對(duì)于語(yǔ)言測(cè)評(píng)工作者和語(yǔ)言教師等相關(guān)方而言,命題是語(yǔ)言測(cè)評(píng)素養(yǎng)的必要成分[3-4],在設(shè)計(jì)和評(píng)價(jià)試題上發(fā)揮著重要作用。已有研究觀察和總結(jié)了專(zhuān)業(yè)命題人員的工作過(guò)程與經(jīng)驗(yàn)[5-7],但語(yǔ)言測(cè)試方面并沒(méi)有探究非專(zhuān)業(yè)人員的命題能力是如何形成的、命題培訓(xùn)是否有效等問(wèn)題。本研究以一項(xiàng)多項(xiàng)選擇題命題培訓(xùn)為案例,通過(guò)分析語(yǔ)言學(xué)和教育學(xué)相關(guān)專(zhuān)業(yè)研究生在命題培訓(xùn)中不同階段產(chǎn)出的題目的質(zhì)量,體現(xiàn)命題技術(shù)學(xué)習(xí)以及合作命題的效果。從命題技術(shù)培訓(xùn)效果這一角度,補(bǔ)充現(xiàn)有對(duì)語(yǔ)言測(cè)試命題工作的研究,從而更深入地理解命題能力的發(fā)展。
二、文獻(xiàn)綜述
(一)命題技術(shù)與語(yǔ)言測(cè)評(píng)素養(yǎng)
命題(item writing)是根據(jù)測(cè)評(píng)目的,編寫(xiě)相應(yīng)的試題任務(wù)來(lái)測(cè)評(píng)某種潛在能力的過(guò)程。在測(cè)試開(kāi)發(fā)中,命題環(huán)節(jié)需要在測(cè)試規(guī)范(test specification)的指導(dǎo)下進(jìn)行并對(duì)題目進(jìn)行多輪修訂以確認(rèn)其質(zhì)量[8]。語(yǔ)言測(cè)評(píng)素養(yǎng)通常被定義為合理設(shè)計(jì)、評(píng)價(jià)和使用語(yǔ)言測(cè)評(píng)活動(dòng)所需的知識(shí)、技能和原則[4,9-10]。在語(yǔ)言測(cè)評(píng)素養(yǎng)的定義中命題屬于“技能”部分[3],它是一項(xiàng)綜合性的技術(shù),既包含對(duì)基本命題原則的掌握,也需要與測(cè)試開(kāi)發(fā)實(shí)施的各個(gè)環(huán)節(jié)配合,包含對(duì)語(yǔ)言測(cè)評(píng)目的和構(gòu)念的理解。在高風(fēng)險(xiǎn)考試情境下,因?yàn)榭荚嚺c備考的需要,命題可能被認(rèn)為是語(yǔ)言測(cè)評(píng)素養(yǎng)的主要體現(xiàn)。例如,Zhang & Yan通過(guò)分析市級(jí)中學(xué)英語(yǔ)考試的題目質(zhì)量來(lái)反映教師語(yǔ)言測(cè)評(píng)素養(yǎng),發(fā)現(xiàn)題目整體難度、區(qū)分度和內(nèi)部一致性較好,一些題目中正確答案設(shè)定出現(xiàn)問(wèn)題,可能由教師語(yǔ)言水平不足和試圖編寫(xiě)出有區(qū)分度的干擾項(xiàng)兩方面原因共同導(dǎo)致[11]。孫海洋、熊潔發(fā)現(xiàn),大學(xué)英語(yǔ)教師在參與題庫(kù)共建項(xiàng)目中,不僅命題質(zhì)量和能力有較大提高,其對(duì)語(yǔ)言測(cè)評(píng)各方面的理解也有所加強(qiáng)[12]。命題技術(shù)與語(yǔ)言測(cè)評(píng)素養(yǎng)息息相關(guān),一定程度上可以反映語(yǔ)言測(cè)評(píng)素養(yǎng)水平。因此,命題技術(shù)在我國(guó)語(yǔ)言測(cè)評(píng)培訓(xùn)中占有重要地位[13]。
在語(yǔ)言測(cè)評(píng)素養(yǎng)的發(fā)展中,實(shí)踐是一個(gè)重要的中介因素,通過(guò)培訓(xùn)課程等方式學(xué)到的知識(shí)需要通過(guò)實(shí)踐運(yùn)用才能得到鞏固和發(fā)展[14]。以語(yǔ)言教師這一群體為例,教師對(duì)語(yǔ)言測(cè)評(píng)培訓(xùn)的需求也更偏向理論在現(xiàn)實(shí)中的表現(xiàn)和具體操作[15-16]。命題技術(shù)的規(guī)則性、操作性較強(qiáng),在培訓(xùn)中適合與實(shí)踐結(jié)合,以達(dá)到更好的學(xué)習(xí)效果。在此概念下,命題可以作為一個(gè)較為獨(dú)立的技術(shù)單元,具體而言,命題可以根據(jù)題型、考查技能、測(cè)評(píng)目的等分為多種類(lèi)型,目前針對(duì)語(yǔ)言測(cè)試命題員的研究主要通過(guò)訪談等質(zhì)性方法探索命題工作過(guò)程,如新手與專(zhuān)業(yè)命題員編寫(xiě)聽(tīng)力測(cè)試題的過(guò)程差異[5]、命題員合作命題過(guò)程中對(duì)測(cè)試規(guī)范的運(yùn)用、工作組中的合作機(jī)制和影響個(gè)人命題過(guò)程的因素[6],以及訓(xùn)練聽(tīng)力測(cè)試命題員編寫(xiě)更加具有真實(shí)性的語(yǔ)料[7]等。針對(duì)漢語(yǔ)作為第二語(yǔ)言的測(cè)試,趙琪鳳對(duì)來(lái)華留學(xué)預(yù)科漢語(yǔ)考試命題員進(jìn)行了調(diào)查,強(qiáng)調(diào)了命題經(jīng)驗(yàn)及反思對(duì)命題能力提升的作用[17]。這些研究主要從命題員自身工作過(guò)程反思的角度揭示命題工作經(jīng)驗(yàn),為命題員培訓(xùn)和測(cè)試編寫(xiě)提供建議。對(duì)于新手命題培訓(xùn)中的多項(xiàng)選擇題的編寫(xiě)這一問(wèn)題,目前尚未有研究探討。
(二)多項(xiàng)選擇題命題質(zhì)量
題目質(zhì)量是影響測(cè)試效度的關(guān)鍵因素,與命題技術(shù)密切相關(guān)。對(duì)于多項(xiàng)選擇題的編寫(xiě)原則,學(xué)者基于教材、文獻(xiàn)等進(jìn)行歸納,試圖全面、準(zhǔn)確地定義選擇題命題原則,并且進(jìn)行驗(yàn)證[18]和修訂迭代[2,19-22]。在不同學(xué)科教育領(lǐng)域,已有一些研究通過(guò)對(duì)多項(xiàng)選擇題進(jìn)行題目缺陷(item writing flaw)標(biāo)注和分析,來(lái)作為測(cè)試效度驗(yàn)證的證據(jù)[23-24]或檢驗(yàn)命題經(jīng)驗(yàn)[25]等因素對(duì)題目質(zhì)量的影響。從已有文獻(xiàn)對(duì)多項(xiàng)選擇題命題原則的歸納來(lái)看,主要可以從內(nèi)容的適切性、格式的嚴(yán)整性、表述方式(語(yǔ)法)的規(guī)范性、語(yǔ)義表達(dá)的清晰性四個(gè)方面來(lái)理解,涉及題干、選項(xiàng)以及題組的編寫(xiě)。本研究的編碼框架在Haladyna整理的31條[19]和Haladyna & Rodriguez的22條[22]選擇題命題原則基礎(chǔ)上進(jìn)行改編,使其在對(duì)漢語(yǔ)二語(yǔ)水平測(cè)試的多項(xiàng)選擇題質(zhì)量分析上具有可操作性,改編的具體內(nèi)容見(jiàn)研究方法部分。
三、研究設(shè)計(jì)
(一)研究問(wèn)題
Taylor指出,為了促進(jìn)測(cè)試信息的正確解讀和使用,語(yǔ)言測(cè)評(píng)素養(yǎng)需要在不同的相關(guān)群體中建立起來(lái),不僅包括專(zhuān)業(yè)的語(yǔ)言測(cè)試工作者,教師、學(xué)生以至公眾都需要具有相應(yīng)水平的語(yǔ)言測(cè)評(píng)素養(yǎng)[9]。本研究旨在通過(guò)非專(zhuān)業(yè)新手命題員命題技術(shù)培訓(xùn)這一案例,收集個(gè)人命題和小組合作修訂的兩次命題數(shù)據(jù),探究多項(xiàng)選擇題命題原則框架運(yùn)用于漢語(yǔ)作為第二語(yǔ)言水平測(cè)試所反映出的命題質(zhì)量問(wèn)題及發(fā)展,并通過(guò)小規(guī)模試測(cè)對(duì)比新手命題員與專(zhuān)業(yè)命題員產(chǎn)出的題目在作答結(jié)果上的差異,結(jié)合學(xué)生的課后訪談,以體現(xiàn)命題技術(shù)在提升命題質(zhì)量和語(yǔ)言測(cè)評(píng)素養(yǎng)方面的效果。具體研究問(wèn)題如下:
(1)通過(guò)題目缺陷標(biāo)注,新手命題員的個(gè)人命題和小組合作修訂后的題目質(zhì)量分別有怎樣的特點(diǎn)?
(2)基于同一篇閱讀理解文章,2份新手命題員的命題成果與1份專(zhuān)業(yè)命題員的題目在試測(cè)結(jié)果上有何差異?
(3)在課后訪談中學(xué)生認(rèn)為命題培訓(xùn)的效果有哪些?
(二)研究環(huán)境及研究對(duì)象
基于一門(mén)研究生階段的語(yǔ)言測(cè)評(píng)課程,該課程的目的是介紹語(yǔ)言測(cè)試專(zhuān)業(yè)的基本內(nèi)容和研究方法,并掌握命題、測(cè)試數(shù)據(jù)分析等實(shí)用技術(shù),以輔助研究生進(jìn)行語(yǔ)言測(cè)試、二語(yǔ)習(xí)得等相關(guān)專(zhuān)業(yè)的研究,并為未來(lái)潛在的語(yǔ)言教師提供測(cè)評(píng)素養(yǎng)的基礎(chǔ)。在語(yǔ)言測(cè)評(píng)課程中,對(duì)命題技術(shù)的培訓(xùn)包括4課時(shí)的命題講解和2課時(shí)的討論,共6課時(shí),占授課總時(shí)長(zhǎng)的1/4。在命題講解結(jié)束后,學(xué)生需要完成命題作業(yè),內(nèi)容為基于給定的一篇聽(tīng)力語(yǔ)料(關(guān)于一次堵車(chē)事件的原因及化解)和閱讀語(yǔ)料(關(guān)于我國(guó)醫(yī)院男護(hù)士短缺的現(xiàn)狀及原因分析),分別編寫(xiě)4—5個(gè)測(cè)試漢語(yǔ)二語(yǔ)聽(tīng)力/閱讀理解水平的多項(xiàng)選擇題,作業(yè)完成情況計(jì)入學(xué)期成績(jī)。完成后學(xué)生自行組成5個(gè)小組,在小組內(nèi)對(duì)命題作業(yè)進(jìn)行篩選和修訂,每個(gè)小組整理出一份聽(tīng)力和閱讀理解試題,并在課堂上展示和討論,在課堂建議的基礎(chǔ)上進(jìn)一步修改,形成最終的命題成果。
研究對(duì)象為語(yǔ)言測(cè)評(píng)課程上的27名研究生新手命題員,其年級(jí)、專(zhuān)業(yè)和相關(guān)經(jīng)驗(yàn)分布如表1。
(三)研究方法
采用混合研究方法。首先對(duì)題目質(zhì)量進(jìn)行定性分析和編碼,統(tǒng)計(jì)題目缺陷的數(shù)量和頻率。題目包含新手命題員個(gè)人命題的成果,包括122道聽(tīng)力題和130道閱讀題,共252道;新手命題員小組合作和班級(jí)討論后修訂的命題成果,包括21道聽(tīng)力題和24道閱讀題,共45道(見(jiàn)圖1)。試題編碼框架的內(nèi)容保留了Haladyna & Rodriguez的22條選擇題命題原則框架的“內(nèi)容、排版、語(yǔ)言風(fēng)格、題干、選項(xiàng)”五個(gè)主要維度(一級(jí)主題),并添加了“題組”這一維度(聽(tīng)力和閱讀試題均以題組的方式呈現(xiàn))。大部分編碼為二級(jí)主題,其中有四項(xiàng)下細(xì)分為三級(jí)主題(詳細(xì)編碼框架見(jiàn)附錄)。編碼框架確定后,2名語(yǔ)言測(cè)試方向的博士生分別對(duì)所有的聽(tīng)力和閱讀試題(共297項(xiàng))進(jìn)行了編碼,對(duì)意見(jiàn)不同的編碼進(jìn)行了討論,調(diào)整后達(dá)成一致。為了使數(shù)據(jù)呈現(xiàn)簡(jiǎn)明,在分析和討論時(shí),主要通過(guò)一級(jí)主題來(lái)歸納統(tǒng)計(jì),在頻率較高的問(wèn)題下描述更加細(xì)致的問(wèn)題分類(lèi)。
量化數(shù)據(jù)來(lái)源為82名中高級(jí)漢語(yǔ)二語(yǔ)學(xué)習(xí)者(基本信息見(jiàn)表2)對(duì)三份(5*3道)閱讀理解試題的作答情況。三份閱讀題目中(Set 1、Set 2、Set 3),Set 1為專(zhuān)業(yè)命題員編寫(xiě),Set 2來(lái)源于新手命題員最終命題成果中的1份題目,Set 3來(lái)源于新手命題員最終命題成果中的2份題目(為了盡可能使三份題目?jī)?nèi)容不重疊),用于試測(cè)的三份題目在試測(cè)前進(jìn)行了少量局部修改以避免明顯的題目缺陷。選出的三份閱讀理解試題通過(guò)問(wèn)卷星發(fā)放給被試完成,每名被試都完成三份題目,通過(guò)隨機(jī)順序來(lái)抵消題組順序?qū)﹄y度的影響。共回收有效答卷82份。對(duì)于三份試題的質(zhì)量差異,使用SPSS 26和ITEMAN 3.50軟件分別進(jìn)行均值比較和試題分析(經(jīng)典測(cè)量理論),試題分析包含難度、區(qū)分度①、點(diǎn)二列相關(guān)系數(shù)②以及無(wú)效干擾項(xiàng)③的數(shù)量。
課程中的9名學(xué)生參與了課后訪談,訪談內(nèi)容包含在整個(gè)課程中的收獲和對(duì)語(yǔ)言測(cè)評(píng)理解的變化,在訪談過(guò)程中沒(méi)有刻意引導(dǎo)學(xué)生說(shuō)出對(duì)命題技術(shù)培訓(xùn)部分的看法,對(duì)訪談內(nèi)容進(jìn)行開(kāi)放式編碼后,分析其中與命題技術(shù)有關(guān)的理解和收獲。
四、結(jié)果
(一)個(gè)人命題和小組合作命題質(zhì)量比較
從選擇題缺陷在每題平均出現(xiàn)的頻率來(lái)看,小組合作修訂后的命題質(zhì)量(各題平均缺陷頻率為35.56%)明顯高于個(gè)人命題(各題平均缺陷頻率為104.37%)。其中聽(tīng)力題的缺陷出現(xiàn)頻率從95.9%降至42.86%,閱讀題缺陷出現(xiàn)頻率從112.31%降至29.17%。從問(wèn)題出現(xiàn)的數(shù)量來(lái)看(見(jiàn)表3),聽(tīng)力和閱讀題目都是選項(xiàng)中的缺陷最多,閱讀題尤其明顯;其次嚴(yán)重的問(wèn)題是考查內(nèi)容合適性,這點(diǎn)在聽(tīng)力題目上更為突出。
具體分析個(gè)人命題的缺陷特點(diǎn),從聽(tīng)力題目來(lái)看,在選項(xiàng)的編寫(xiě)上,問(wèn)題常見(jiàn)于選項(xiàng)的合理性、正確選項(xiàng)的設(shè)定和選項(xiàng)之間的語(yǔ)義或語(yǔ)法關(guān)聯(lián)產(chǎn)生暗示。出現(xiàn)頻率最高的問(wèn)題是5.1.2(干擾項(xiàng)的區(qū)分度不足),共出現(xiàn)18次(14.75%),這一問(wèn)題與出現(xiàn)頻數(shù)第二多(13.11%)的1.2.1(考查過(guò)于細(xì)節(jié)的內(nèi)容)有較大關(guān)聯(lián),問(wèn)題出現(xiàn)的原因是有大量聽(tīng)力題考查點(diǎn)在某個(gè)細(xì)節(jié)詞語(yǔ),因此雖然命題員編寫(xiě)的干擾項(xiàng)與正確答案具有同質(zhì)性,但并沒(méi)有與原文產(chǎn)生內(nèi)容關(guān)聯(lián),干擾項(xiàng)的區(qū)分度不高。例如1-2和2-1,有這樣問(wèn)題的題目共出現(xiàn)13次。聽(tīng)力題目中另一個(gè)常見(jiàn)的問(wèn)題是1.2.1考查內(nèi)容與構(gòu)念關(guān)聯(lián)較弱(13.11%),即考查的內(nèi)容不是聽(tīng)力理解能力,而可能是聽(tīng)辨音能力(“十”和“四”),如15-1;或以閱讀理解的方式命題,如25-3。此外,聽(tīng)力題目也存在3.1語(yǔ)言過(guò)于復(fù)雜(7.38%)、3.2表達(dá)不夠簡(jiǎn)潔(6.56%)等問(wèn)題。
1-2.小狗的顏色是:
A.白色B.黑色C.棕色D.黃色
答案:A
2-1.張先生使用的交通工具是什么?
A.電動(dòng)車(chē)B.汽車(chē)
C.摩托車(chē)D.自行車(chē)
答案:D
15-1.這件事發(fā)生在昨天什么時(shí)候?
A.上午十點(diǎn)半B.下午十點(diǎn)半
C.上午四點(diǎn)半D.下午四點(diǎn)半
答案:A
25-3.“張先生估計(jì)這只小狗就是這兩天從主人家跑丟的”這句話是什么意思?
A.張先生推測(cè)小狗是最近跑丟的
B.張先生知道這只小狗是誰(shuí)的
C.張先生想起曾見(jiàn)過(guò)這只小狗
D.張先生看到過(guò)這只小狗的主人
答案:A
閱讀題目的缺陷更加集中于選項(xiàng)編寫(xiě)方面,74.62%的題目有選項(xiàng)方面的問(wèn)題,其中出現(xiàn)最多的單項(xiàng)問(wèn)題包括5.2.1正確答案不唯一(20.77%)和5.2.2正確答案不合適(15.38%),這與閱讀理解語(yǔ)料的信息量更豐富和具有層次性有關(guān)。如題目6-2,ABC三個(gè)選項(xiàng)都可以作為正確答案。題目13-2列舉數(shù)字是為了突出我國(guó)男護(hù)士比例低的情況,而題目中設(shè)定的正確選項(xiàng)沒(méi)有明確這一點(diǎn),因此正確答案不合適。與聽(tīng)力題目問(wèn)題相似,5.1.2干擾項(xiàng)區(qū)分度不足的問(wèn)題在閱讀題目中也較多(11.54%)。
6-2.女護(hù)士照顧男病員時(shí),女護(hù)士會(huì)感到()
A.很尷尬B.難為情
(二)閱讀理解試題作答情況比較
C.不方便D.很痛苦
答案:C
13-2.第四段的數(shù)字是為了說(shuō)明?
A.護(hù)士的數(shù)量多B.男護(hù)士供不應(yīng)求
C.美國(guó)、芬蘭經(jīng)濟(jì)發(fā)達(dá)D.醫(yī)院很多
答案:B
從小組合作修訂后的問(wèn)題來(lái)看(見(jiàn)表3),出現(xiàn)問(wèn)題的總頻率降低,閱讀和聽(tīng)力題目仍然存在題干和選項(xiàng)的問(wèn)題,閱讀題題干出現(xiàn)問(wèn)題更多(12.5%),如1-4題干沒(méi)有實(shí)際意義。這道題同時(shí)也存在考查內(nèi)容不是單一維度(1.1)的問(wèn)題。聽(tīng)力題選項(xiàng)出現(xiàn)問(wèn)題更多(23.81%),如3-1,該題A選項(xiàng)代入問(wèn)題后邏輯上合理性不強(qiáng),且各選項(xiàng)結(jié)構(gòu)可能產(chǎn)生暗示。由此可見(jiàn),小組合作產(chǎn)出的題目質(zhì)量有明顯提高,這源于刪除了原來(lái)質(zhì)量較差的題目,并對(duì)“潛力”較高的題目進(jìn)行修改。不過(guò)在兩輪修訂后,依然存在一些沒(méi)有發(fā)現(xiàn)或解決的問(wèn)題,說(shuō)明僅一輪合作修訂還不足以保證題目質(zhì)量。
1-4.下列哪種說(shuō)法是正確的?
A.男護(hù)士有職業(yè)優(yōu)越感。
B.作者支持中國(guó)的傳統(tǒng)觀念。
C.報(bào)考護(hù)理學(xué)校的學(xué)生很多。
D.男人覺(jué)得當(dāng)護(hù)士很羞愧。
答案:D
3-1.十幾輛汽車(chē)為什么一起剎車(chē)?
A.張先生騎自行車(chē)B.發(fā)生了事故
C.發(fā)生了堵車(chē)D.主路上有狗
答案:D
基于同一篇語(yǔ)料的三份閱讀題試測(cè)結(jié)果顯示,15道題的內(nèi)部一致性信度(Cronbachsα)為0.657,其中第1題(Set 1)和第13題(Set 3)得分與整體分?jǐn)?shù)一致性最低,去掉兩題后Cronbachsα系數(shù)達(dá)到0.704,其他題項(xiàng)均與總分相關(guān)性較高。Set 2的內(nèi)部一致性(0.507)高于Set 1(0.231)和Set 3(0.329),且與總分的相關(guān)性最高(見(jiàn)表4)。
表5列出了三份題目及各題項(xiàng)的正確率、區(qū)分度和題組內(nèi)部的點(diǎn)二列相關(guān)系數(shù)。比較三份題目的平均分,方差分析結(jié)果為F(2,80)=9.52,p=0.00,LSD方法事后比較發(fā)現(xiàn),Set 3的難度顯著低于Set 2和Set 1。具體看每道題的難度,Set 2的難度系數(shù)在0.38-0.78,較為適中;Set 1難度系數(shù)介于0.35-0.89,跨度較大;Set 3難度系數(shù)介于0.52-0.93,較為容易。
Kruscall-Wallis檢驗(yàn)三份試題在點(diǎn)二列相關(guān)系數(shù)上沒(méi)有顯著差異,Kruscall-Wallis H = 5.055,df =2,sig = 0.08;區(qū)分度有顯著差異,Kruscall-Wallis H = 8.716,df =2,sig = 0.013,Set 2區(qū)分度系數(shù)顯著高于Set 3和Set 1,每道題的區(qū)分度均在0.5以上。說(shuō)明Set 2的區(qū)分效果較好。
從選項(xiàng)來(lái)看,干擾項(xiàng)選擇率超過(guò)正確選項(xiàng)的情況Set 1和Set 2分別有1個(gè);無(wú)效干擾項(xiàng)(選擇率低于0.05)的數(shù)量,Set 1為5個(gè),Set 2為4個(gè),Set 3為7個(gè)。干擾項(xiàng)的作用上,每份題目均有一定問(wèn)題,側(cè)面反映了Set 3難度顯著低于另外兩份題目的結(jié)果。
(三)訪談結(jié)果分析
在談到語(yǔ)言測(cè)評(píng)課程中的收獲時(shí),命題技術(shù)部分是提及次數(shù)最多的一個(gè)主題(占編碼總數(shù)的39.02%)。其原因主要有以下方面:(1)對(duì)于計(jì)劃進(jìn)行二語(yǔ)習(xí)得研究和從事教學(xué)工作的學(xué)生來(lái)說(shuō),命題技術(shù)具有很強(qiáng)的實(shí)用性;(2)命題單元講練結(jié)合,在實(shí)際操作中可以更加深入地理解命題原則如何操作;(3)比起理論知識(shí),命題技術(shù)的培訓(xùn)更加易懂,學(xué)習(xí)過(guò)程參與度、興趣度高。經(jīng)過(guò)語(yǔ)言測(cè)評(píng)課程的學(xué)習(xí),學(xué)生對(duì)語(yǔ)言測(cè)評(píng)理解的變化中與命題技術(shù)有關(guān)的內(nèi)容(占編碼總數(shù)29.17%)主要包含:(1)意識(shí)到命題工作的復(fù)雜性,從命題者的角度批判地看待題目;(2)意識(shí)到命題工作中團(tuán)隊(duì)合作的重要性,命題是一項(xiàng)融合多種考量、多人貢獻(xiàn)的工作;(3)意識(shí)到母語(yǔ)者在為二語(yǔ)學(xué)習(xí)者編寫(xiě)題目時(shí)需要轉(zhuǎn)變視角,具備相應(yīng)的二語(yǔ)習(xí)得知識(shí)。
五、討論
(一)多項(xiàng)選擇題編寫(xiě)的困難
通過(guò)分析多項(xiàng)選擇題命題缺陷及試測(cè)結(jié)果,可以總結(jié)出新手命題員選擇題命題的困難主要體現(xiàn)在選項(xiàng)、內(nèi)容、語(yǔ)言風(fēng)格和題干方面,在排版和題組設(shè)置上問(wèn)題較少,這一結(jié)果與趙琪鳳對(duì)命題員的調(diào)查具有一致性[17]。具體來(lái)看,選項(xiàng)編寫(xiě)中出現(xiàn)問(wèn)題最多的是確保選項(xiàng)合理性和區(qū)分度,確保只有一個(gè)正確選項(xiàng),以及避免選項(xiàng)之間的語(yǔ)義或語(yǔ)法關(guān)聯(lián)暗示。在內(nèi)容方面的主要問(wèn)題是考查點(diǎn)過(guò)于細(xì)節(jié)和考查內(nèi)容非構(gòu)念。多項(xiàng)選擇題本身在考查語(yǔ)言能力方面具有局限性,如果考查點(diǎn)過(guò)于細(xì)節(jié),將進(jìn)一步削弱選擇題對(duì)思維能力的考查,且容易導(dǎo)致沒(méi)有區(qū)分作用的干擾項(xiàng)??疾閮?nèi)容非構(gòu)念這一問(wèn)題可能由與新手命題員相關(guān)的兩個(gè)原因造成。首先,新手命題員對(duì)測(cè)試規(guī)范的熟悉程度不夠高,命題時(shí)對(duì)語(yǔ)境、構(gòu)念的關(guān)注意識(shí)較弱,因此出現(xiàn)將聽(tīng)力題出成閱讀題的情況。其次,新手命題員作為漢語(yǔ)母語(yǔ)者,有時(shí)從自身已有的測(cè)試經(jīng)驗(yàn)出發(fā),對(duì)考查內(nèi)容進(jìn)行臆測(cè),而不是對(duì)照漢語(yǔ)二語(yǔ)所需的知識(shí)和能力進(jìn)行考查。例如考查聽(tīng)辨音能力,或關(guān)聯(lián)詞的替換,這些考查點(diǎn)可能來(lái)源于漢語(yǔ)母語(yǔ)者的語(yǔ)文考試。在語(yǔ)言風(fēng)格方面,表現(xiàn)為題目語(yǔ)言過(guò)于復(fù)雜,需要增進(jìn)對(duì)漢語(yǔ)二語(yǔ)能力標(biāo)準(zhǔn)和大綱的了解程度。在題干方面,閱讀題目中出現(xiàn)不聚焦問(wèn)題的題干,體現(xiàn)出命題中確定“提問(wèn)角度、方式和內(nèi)容”方面的困難[17]。
以上聽(tīng)力和閱讀理解題目的問(wèn)題分布與已有對(duì)于選擇題命題質(zhì)量問(wèn)題分析的研究對(duì)比,相似之處在于選項(xiàng)方面“干擾項(xiàng)不合理”“正確答案設(shè)定”的問(wèn)題較多[23-25],但從常見(jiàn)問(wèn)題來(lái)看有所差異。在Tarrant等對(duì)香港護(hù)理測(cè)試多項(xiàng)選擇題的分析[23],以及Costello、 Holland、Kirwan對(duì)(包含計(jì)算機(jī)、社會(huì)科學(xué)和醫(yī)學(xué))30門(mén)慕課的202項(xiàng)選擇題命題缺陷分析中[24],最嚴(yán)重的問(wèn)題在于表達(dá)方面,包括絕對(duì)的表達(dá)、否定表達(dá)、信息模糊和不聚焦的題干等,這在本研究中體現(xiàn)不突出,可能是因?yàn)楸狙芯棵}員使用母語(yǔ)編寫(xiě)二語(yǔ)測(cè)試時(shí)不會(huì)面臨語(yǔ)言水平和表達(dá)準(zhǔn)確性的問(wèn)題,但可能會(huì)因?yàn)椴粔蚶斫舛Z(yǔ)的學(xué)習(xí)和使用而引發(fā)其他問(wèn)題。Pham等對(duì)醫(yī)學(xué)生和專(zhuān)業(yè)醫(yī)生的命題質(zhì)量標(biāo)注與本研究的分布情況大致相似,問(wèn)題頻率由高到低依次是選項(xiàng)、題干、內(nèi)容、風(fēng)格和形式[25]。
(二)多項(xiàng)選擇題命題培訓(xùn)的效果
本研究主要通過(guò)對(duì)比新手命題員經(jīng)過(guò)命題指導(dǎo)學(xué)習(xí)后的個(gè)人命題和小組合作修訂的命題成果,以及對(duì)比新手命題員形成的兩份閱讀題和專(zhuān)業(yè)命題員命題的試測(cè)難度和區(qū)分度,來(lái)體現(xiàn)命題技術(shù)學(xué)習(xí)對(duì)命題能力發(fā)展的作用。首先,雖然在完成命題作業(yè)前學(xué)生已經(jīng)了解了命題需要遵循的一般原則并了解了語(yǔ)言水平測(cè)試的目的和規(guī)范,而且也確保了學(xué)生參與的投入度,但個(gè)人命題中仍然出現(xiàn)較多問(wèn)題,平均每個(gè)題目有1.04個(gè)錯(cuò)誤。小組合作修訂命題質(zhì)量的大幅度改善得益于合作和討論中集中的多人智慧,這與專(zhuān)業(yè)命題工作的特點(diǎn)一致[6,8]。第二,從難度、區(qū)分度和無(wú)效干擾項(xiàng)數(shù)量的對(duì)比來(lái)看,新手命題員完成的兩份題目中,一份的質(zhì)量高于專(zhuān)業(yè)命題員,另一份過(guò)于簡(jiǎn)單、無(wú)效干擾項(xiàng)較多。值得注意的是,由于采取被試內(nèi)設(shè)計(jì),為使題目?jī)?nèi)容盡可能不重復(fù),Set 3是由2份合作命題重組而來(lái)的,這一操作可能降低了原題組的質(zhì)量(影響了考查點(diǎn)分布的合理性)。結(jié)果說(shuō)明,經(jīng)過(guò)短期的命題技術(shù)培訓(xùn)和合作修改,新手命題員可以產(chǎn)出質(zhì)量較好的題目,有些甚至好于專(zhuān)業(yè)命題員,合作對(duì)于命題質(zhì)量的提升有重要作用。
(三)多項(xiàng)選擇題命題實(shí)踐與語(yǔ)言測(cè)評(píng)素養(yǎng)的提升
通過(guò)訪談發(fā)現(xiàn),在整個(gè)語(yǔ)言測(cè)評(píng)課程中,命題技術(shù)是多數(shù)學(xué)生反映有實(shí)際幫助的一部分,這與其較強(qiáng)的實(shí)踐性是分不開(kāi)的,這一結(jié)果與已有研究中教師對(duì)于語(yǔ)言測(cè)評(píng)培訓(xùn)的實(shí)踐需求一致[14-16]。同時(shí),學(xué)生在進(jìn)行命題實(shí)踐時(shí)不僅需要一般性的命題原則指導(dǎo),也需要對(duì)語(yǔ)言能力和語(yǔ)言測(cè)評(píng)的構(gòu)念有準(zhǔn)確的理解,在選擇題質(zhì)量上主要體現(xiàn)在內(nèi)容部分,個(gè)人命題中考查內(nèi)容過(guò)于細(xì)節(jié)或與構(gòu)念無(wú)關(guān)的問(wèn)題,經(jīng)過(guò)小組合作和討論后,比例明顯下降。另外,訪談發(fā)現(xiàn)命題技術(shù)提高的效果不僅限于語(yǔ)言測(cè)試領(lǐng)域,對(duì)二語(yǔ)習(xí)得研究(如實(shí)驗(yàn)材料的編制)以及調(diào)查問(wèn)卷的設(shè)計(jì)方面也有所幫助,體現(xiàn)了語(yǔ)言測(cè)評(píng)素養(yǎng)并不孤立于專(zhuān)業(yè)領(lǐng)域內(nèi),而是融通于語(yǔ)言教學(xué)與研究中的,這一結(jié)果正面回應(yīng)了Taylor對(duì)語(yǔ)言測(cè)評(píng)專(zhuān)業(yè)知識(shí)與其他學(xué)科及非專(zhuān)業(yè)群體的距離過(guò)遠(yuǎn)、不利于社會(huì)各方語(yǔ)言測(cè)評(píng)素養(yǎng)發(fā)展的擔(dān)憂[9]。此外,在具體操作過(guò)程中,對(duì)原則的靈活運(yùn)用、小組討論中互相學(xué)習(xí)等能力都是內(nèi)化在實(shí)踐過(guò)程中的,是實(shí)踐能力提高的一種體現(xiàn)。因此,命題技術(shù)的培訓(xùn)有助于語(yǔ)言測(cè)評(píng)素養(yǎng)的整體提高,有助于降低畏難心理并激發(fā)深入學(xué)習(xí)相關(guān)內(nèi)容的興趣。
六、結(jié)語(yǔ)
對(duì)題目質(zhì)量的定性、定量分析以及訪談中發(fā)現(xiàn),以實(shí)踐和合作為基礎(chǔ)的命題培訓(xùn)可以達(dá)到較好的效果,并提升了新手命題員的語(yǔ)言測(cè)評(píng)素養(yǎng),為語(yǔ)言測(cè)試多項(xiàng)選擇題命題培訓(xùn)提供了一定實(shí)證依據(jù)。因此,建議語(yǔ)言測(cè)評(píng)培訓(xùn)課程可以采取實(shí)踐導(dǎo)向的方法,適當(dāng)結(jié)合理論指導(dǎo)和實(shí)際操作,以使培訓(xùn)獲得更高的效率和接受度。此外,改編的多項(xiàng)選擇題命題原則的編碼框架為命題質(zhì)量分析提供了參考。本案例研究在數(shù)據(jù)代表性和準(zhǔn)確性方面存在一定局限,由于所有的聽(tīng)力和閱讀題目都基于一篇聽(tīng)力和一篇閱讀語(yǔ)料,在試測(cè)中題項(xiàng)數(shù)量較少;此外,三份題目基于同一篇文章,一定程度上降低了作答難度和干擾項(xiàng)的選擇率,影響了試測(cè)結(jié)果解讀的準(zhǔn)確性。今后的命題研究可以收集更大范圍的數(shù)據(jù),對(duì)語(yǔ)言測(cè)驗(yàn)試題編寫(xiě)的過(guò)程特點(diǎn)進(jìn)行刻畫(huà)。另外,Pham等認(rèn)為將學(xué)生命題成果納入題庫(kù)建設(shè)中有一定價(jià)值[25],將語(yǔ)言測(cè)試命題作為相關(guān)專(zhuān)業(yè)學(xué)生的實(shí)踐機(jī)會(huì)并實(shí)現(xiàn)試題資源的可持續(xù)發(fā)展,可以作為進(jìn)一步研究的方向。
參考文獻(xiàn):
[1] Rodriguez M C. Selected-response Item Development [C] // Lane S,Raymond M R,Haladyna T M.Handbook of Test Development(Second Edition). Routledge,2016:259-273.
[2] Haladyna T M. Developing and Validating Multiple-Choice Test Items [M]. Routledge,2004.
[3] Davies A.Textbook Trends in Teaching Language Testing [J]. Language Testing,2008,25(3):327-347.
[4] Fulcher G.Assessment Literacy for the Language Classroom [J]. Language Assessment Quarterly,2012,9(2):113-132.
[5] Salisbury K.The Edge of Expertise:Towards an Understanding of Listening Test Item Writing as Professional Practice [D]. Kings College London,2005.
[6] Kim J,Chi Y,Huensch A,et al. A Case Study on an Item Writing Process:Use of Test Specifications,Nature of Group Dynamics,and Individual Item Writers Characteristics [J]. Language Assessment Quarterly,2010,7(2):160-174.
[7] Rossi O,Brunfaut T.Text Authenticity in Listening Assessment:Can Item Writers Be Trained to Produce Authentic-Sounding Texts?[J].Language Assessment Quarterly,2021,18(4):398–418.
[8] Spaan M. Evolution of a Test Item [J]. Language Assessment Quarterly,2007,4(3):279-293.
[9] Taylor L.Developing Assessment Literacy [J].Annual Review of Applied Linguistics,2009,29:21-36.
[10]Inbar-LourieO. ConstructingaLanguageAssessment Knowledge Base:A Focus on Language Assessment Courses [J]. Language Testing,2008,25(3):385-402.
[11] Zhang C,Yan X. Assessment Literacy of Secondary EFL Teachers:Evidence from a Regional EFL Test [J].Chinese Journal of Applied Linguistics,2018,41(01):25-46+120.
[12]孫海洋,熊潔.命題對(duì)提升大學(xué)英語(yǔ)教師測(cè)評(píng)素養(yǎng)的作用:基于UNICOMM題庫(kù)共建項(xiàng)目的質(zhì)性研究[J].西安外國(guó)語(yǔ)大學(xué)學(xué)報(bào),2020,28(02):75-80.
[13] Jin Y.The Place of Language Testing and Assessment in the Professional Preparation of Foreign Language Teachers in China [J]. Language Testing,2010,27(4):555–584.
[14] Xu Y,Brown G.Teacher Assessment Literacy in Practice:A Reconceptualization [J]. Teaching and Teacher Education,2016,58:149-162.
[15] Malone M E.The Essentials of Assessment Literacy:Contrasts between Testers and Users [J].Language Testing,2013,30(03):329-344.
[16] Yan X,Zhang C,F(xiàn)an J J.“Assessment knowledge is important,but…”:How Contextual and Experiential Factors Mediate Assessment Practice and Training Needs of Language Teachers[J]. System,2018,74:158-168.
[17]趙琪鳳.來(lái)華留學(xué)預(yù)科漢語(yǔ)考試命題調(diào)查研究[J].語(yǔ)言教學(xué)與研究,2021,(02):35-44.
[18] Rodriguez M C.The Art & Science of Item Writing:A Metaanalysis of Multiple-choice Item Format Effects [C] // Annual Meeting of The American Educational Research Association,Chicago,IL,1997.
[19] Haladyna T M,Downing S M,Rodriguez M C.A Review of Multiple-Choice Item-Writing Guidelines for Classroom Assessment [J]. Applied Measurement in Education,2002,15(3):309-333.
[20] Frey B B,Petersen S,Edwards L,et al.Item-Writing Rules:Collective Wisdom [J].Teaching and Teacher Education,2005,21(4):357-364.
[21]王佶旻.漢語(yǔ)測(cè)試中多項(xiàng)選擇題的命題技術(shù)探究[J].中國(guó)考試,2012,(05):39-44.
[22] Haladyna T M,Rodriguez M C. Developing and Validating Test Items(1sted.)[M]. Routledge,2013.
[23] Tarrant M,Knierim A,Hayes S K,et al.The Frequency of Item Writing Flaws in Multiple-Choice Questions Used in High Stakes Nursing Assessments [J]. Nurse Education in Practice,2006,6(6):354-363.
[24] Costello E,Holland J,Kirwan C.The Future of Online Testing and Assessment:Question Quality in MOOCs [J].International Journal of Educational Technology in Higher Education,2018,15(42).
[25] Pham H,Court-Kowalski S,Chan H,et al.Writing Multiple Choice Questions—Has the Student Become the Master? [J].Teaching and Learning in Medicine,2022:1-12.
Investigating the Development of Multiple-choice Item Writing Skills:A Case Study of an Item-Writing Training Program
Wang Xiaozhu Wang Jimin
Beijing Language and Culture University,Beijing,100083
Abstract:This case study,set in a Chinese as a second language(CSL)teaching environment,examines an item-writing training session focusing on multiple-choice items in a language assessment course for graduate students majoring in applied linguistics or educational evaluation.In the item-writing training process,the 27 participants took lectures on item-writing principles before they generated items of reading and listening comprehension individually with the purpose of measuring CSL proficiency,and then revised and refined them collaboratively in groups. The items were evaluated based on the principles of multiple - choice item writing adapted from Haladyna and Rodriguez(2013)to analyze the quality of items before and after collaborative revision.3 sets of reading comprehension items,two written collaboratively by the novice item writers and one by professional item writers,were piloted on 82 L2 Chinese learners to compare the quality of items in terms of item difficulty,discrimination,and non-functional distractors. Additionally,nine participants were interviewed about their experience and conception of language assessment in the course.The study found an obvious improvement in the quality of items revised collaboratively compared to those generated individually after lecture,with the mean number of item writing flaws dropping from 1.04 to 0.36 per item.Moreover,one of the two sets of items written collaboratively by novice item writers exhibited higher quality compared to the set written by professional item writers because of moderate difficulty and higher discrimination.The interviews revealed that item-writing training was evaluated positively in the language assessment course as it was practice-based and useful in future careers,raising the level of language assessment literacy in various aspects.In short,the evidence was supportive of the effectiveness of the item-writing training program.
Key words:Multiple-choice Items,Item-Writing Training,Collaborated Item Writing,Item Writer,Language Assessment Literacy
附錄
(責(zé)任編輯:吳茳)
①區(qū)分度計(jì)算方法為高分組(得分最高的27%)被試在該題上的通過(guò)率減去低分組(得分最低的27%)被試在該題上的通過(guò)率。
②點(diǎn)二列相關(guān)系數(shù)的計(jì)算方法為每個(gè)題項(xiàng)與該份題目(題組內(nèi)部)得分的Pearson相關(guān)系數(shù)。
③選擇率低于0.05的干擾項(xiàng),根據(jù)Pham et al.(2022)。