用效度和信度控制試題質(zhì)量

2022-06-16 03:43劉永俊

名師在線 2022年16期

文/劉永俊

引言

英語測試對(duì)英語教學(xué)有很大影響，它對(duì)教學(xué)的反撥作用非常明顯。設(shè)計(jì)良好的測試會(huì)帶來正反撥作用，對(duì)促進(jìn)學(xué)生英語語言能力的提高起到很大作用，對(duì)教師的教學(xué)方向產(chǎn)生積極的指導(dǎo)作用。相反，試題命制如果出現(xiàn)問題，則會(huì)給教師的教學(xué)和學(xué)生的學(xué)習(xí)帶來負(fù)面沖擊。因此，作為試題命制者，我們需要探討如何才能設(shè)計(jì)出一份高質(zhì)量的英語試題。

效度和信度是語言測試學(xué)專家一致認(rèn)為的非常重要的評(píng)價(jià)指標(biāo)。所以，本文從效度和信度這兩方面談?wù)勅绾慰刂圃囶}命制的質(zhì)量。

一、效度

語言測試的效度是指一個(gè)測試是否考了它要考的方方面面的內(nèi)容。效度一般分為六個(gè)方面：構(gòu)念效度、內(nèi)容效度、共時(shí)效度、預(yù)測效度、后效效度和表面效度。

（一）構(gòu)念效度

從廣義上講，構(gòu)念效度中的構(gòu)念是指整個(gè)考試以之為基礎(chǔ)的理論結(jié)構(gòu)。不同的考試有不同的構(gòu)念，即不同的考試有不同的理論依據(jù)。構(gòu)念不同，試卷所呈現(xiàn)出來的考查形式和考查內(nèi)容就會(huì)不同。構(gòu)念效度是語言測試的主要效度，是其他幾個(gè)方面效度的基礎(chǔ)，構(gòu)念效度決定整個(gè)考試的性質(zhì)。

就高考而言，測試依據(jù)考試說明編寫，考試說明又是基于考試大綱設(shè)計(jì)出來的，而考試大綱編寫依據(jù)的是《普通高中英語課程標(biāo)準(zhǔn)（2017年版2020年修訂）》（以下簡稱《課程標(biāo)準(zhǔn)》）。因此，《課程標(biāo)準(zhǔn)》就是我國高考的理論基礎(chǔ)。

對(duì)于中學(xué)英語測試而言，越能體現(xiàn)《課程標(biāo)準(zhǔn)》要求的測試，構(gòu)念效度越好。目前，《課程標(biāo)準(zhǔn)》的修訂方向是從綜合語言運(yùn)用能力轉(zhuǎn)向英語學(xué)科核心素養(yǎng)。這就說明，高中英語測試的構(gòu)念發(fā)生了變化。教育部組織研究、提出各學(xué)段學(xué)生發(fā)展核心素養(yǎng)體系，明確學(xué)生應(yīng)具備的適應(yīng)終身發(fā)展和社會(huì)發(fā)展需要的品格和關(guān)鍵能力，突出強(qiáng)調(diào)個(gè)人修養(yǎng)、社會(huì)關(guān)愛、家國情懷，更加注重自主發(fā)展、合作參與和創(chuàng)新實(shí)踐。因此，為了保證測試的構(gòu)念效度，在《課程標(biāo)準(zhǔn)》實(shí)施后，試題必須依據(jù)《課程標(biāo)準(zhǔn)》的要求進(jìn)行命制。

《課程標(biāo)準(zhǔn)》指出，英語學(xué)科核心素養(yǎng)主要包括語言能力、文化意識(shí)、思維品質(zhì)和學(xué)習(xí)能力，各要素的發(fā)展以三個(gè)水平劃分。我們以“文化意識(shí)”為例進(jìn)行說明。《課程標(biāo)準(zhǔn)》提到，文化意識(shí)的培育有助于學(xué)生增強(qiáng)國家認(rèn)同和家國情懷，堅(jiān)定文化自信，樹立人類命運(yùn)共同體意識(shí)，學(xué)會(huì)做人做事，成為有文明素養(yǎng)和社會(huì)責(zé)任感的人。對(duì)“文化意識(shí)”這一素養(yǎng)的三級(jí)描述為：一級(jí)，通過中外文化對(duì)比，加深對(duì)中國文化的理解，堅(jiān)定文化自信；二級(jí)，尊重和理解文化的多樣性，具有國際視野，進(jìn)一步堅(jiān)定文化自信；三級(jí)，分析、鑒別文化現(xiàn)象所反映的價(jià)值取向，自覺堅(jiān)定文化自信。不難看出，“堅(jiān)定文化自信”是個(gè)高頻短語。分析近幾年的高考題能夠發(fā)現(xiàn)，高考題中有關(guān)中國元素和中國文化的內(nèi)容較以前有明顯增加，以2021 新高考I 卷語法填空為例。

Going to Mount Huangshan reminds me of the popular Beatles' song“The Long and Winding Road”.56is so breathtaking about the experience is the out-ofthis-world scenes.The rolling sea of clouds you see once you are at the top will remind you how tiny we57(human)are.

The hot spring at the foot of the mountain is something you must try after the climb.It will58(undoubted) help you get refreshed! The amazing thing about the spring is that the colder the temperature gets,the59(hot) the spring! Strange,isn't it? But that's how nature is — always leaving us60(astonish).

What comes next is the endless series of steps.You can't help wondering how hard it61(be) for the people then to put all those rocks into place.Though it is the only unnatural thing on your way up the mountain,still it highlights the whole adventure62offers a place where you can sit down to rest your63(ache) legs.

As the song goes,this long and winding road“will never disappear”,and it will always stick in the visitor's memory.It sure does in64(I).While you're in China,Mount Huangshan is65must to visit!

這篇材料介紹了作者游覽黃山的所見所聞，展示了祖國的大好河山。

從微觀角度看，測試是否具有構(gòu)念效度體現(xiàn)在聽說讀寫每一種測試是否考查了所要考查的能力。如下面一道口語測試題：

Can you tell me the name of the animal in the picture?

該口語測試的構(gòu)念效度比較低，因?yàn)樗疾榈牟恢皇强谡Z能力。如果學(xué)生口語能力達(dá)到了，但不認(rèn)識(shí)圖1 中的動(dòng)物，那么試題就無法考查學(xué)生真實(shí)的口語能力。也就是說，這道題目并沒有考到它所要考的內(nèi)容。

圖1

（二）內(nèi)容效度

李筱菊認(rèn)為，內(nèi)容效度是指測試是否考了考試大綱規(guī)定要考的[1]。Hughes 認(rèn)為，如果一個(gè)測試的內(nèi)容包含了具有代表性的語言技能、結(jié)構(gòu)等，那它就被認(rèn)為是有效的。

（1）What is tested should be related to the predetermined test domain,e.g.a listening test should include the measurement of skills relevant to the test domain.

（2）What is tested should be representative of the predetermined set of skills or abilities,i.e.a test should cover a greater variety of skills or language elements relevant to the test domain.

我們可以看出，內(nèi)容效度關(guān)注的是考試是否和所要考查項(xiàng)目的能力相關(guān)，考查點(diǎn)是否體現(xiàn)代表性的語言技能和結(jié)構(gòu)。我們來看下面的例子。

下列技能是否都和閱讀相關(guān)呢？

（1）能讀懂語言簡單、不同類型的材料，如簡短故事、書信等，提取細(xì)節(jié)信息，概括主旨要義。

（2）能有條理地講述簡短故事或個(gè)人經(jīng)歷。

（3）能通過分析句子和篇章結(jié)構(gòu)讀懂語言較復(fù)雜的材料，理解意義之間的關(guān)系。

很明顯，第二條是關(guān)于表達(dá)性技能的，那么在考查閱讀能力的考試中就不合適，與考查能力不相關(guān)。

再來看一個(gè)例子。某篇閱讀理解題的考查點(diǎn)見表1。

表1

從表1 可以看出，所有的設(shè)題都是具體細(xì)節(jié)題，那么這些題目的代表性是不夠合理的，所以這篇閱讀理解題目的內(nèi)容效度相對(duì)較低。

（三）共時(shí)效度

共時(shí)效度是指一個(gè)測試所檢測的內(nèi)容和一個(gè)目前已經(jīng)存在的測試標(biāo)準(zhǔn)之間的關(guān)系。這里所提到的目前已經(jīng)存在的測試標(biāo)準(zhǔn)包括兩個(gè)方面：一個(gè)高質(zhì)量的標(biāo)準(zhǔn)化測試；一系列評(píng)價(jià)標(biāo)準(zhǔn)。因此，我們需要借助另一個(gè)高質(zhì)量的測試或評(píng)價(jià)作為驗(yàn)證標(biāo)準(zhǔn)，來判斷新的測試是否具有共時(shí)效度[2]。

首先，我們可以借助另一個(gè)高質(zhì)量的測試來檢驗(yàn)測試的共時(shí)效度：把一份試卷和一份水平相當(dāng)?shù)母哔|(zhì)量的試卷讓學(xué)生一起做，如果分?jǐn)?shù)相當(dāng)，則共時(shí)效度高。

以 FCE（First Certificate in English，劍橋英語五級(jí)證書考試的第三級(jí)）為例，通過FCE 考試，相當(dāng)于雅思考試成績達(dá)到5～6.5 分，即FCE（pass）= IELTS（5～6.5）。如果應(yīng)試者參加完FCE 并通過考試，而且參加雅思考試成績達(dá)到了5～6.5 分，則說明 FCE 考試的共時(shí)效度比較高。

（四）預(yù)測效度

預(yù)測效度是指測試是否起到了有效的預(yù)測作用，或者在多大程度上預(yù)測了學(xué)生在未來學(xué)習(xí)中的學(xué)習(xí)成就。以高考為例，從總體上說，考試成績較好的高中畢業(yè)生到大學(xué)仍然成績較好，成績比較低的學(xué)生則很難有很大的超越。因此，高考試卷具有比較好的預(yù)測效度。

共時(shí)效度和預(yù)測效度有一個(gè)共同點(diǎn)，即它們都是利用測試之外的標(biāo)準(zhǔn)而得以證實(shí)的效度。因此，共時(shí)效度和預(yù)測效度也被稱為外在效度（external validity）。

共時(shí)效度和預(yù)測效度的不同之處在于：（1）前者是共時(shí)，后者是歷時(shí)。共時(shí)效度是指通過對(duì)兩次時(shí)間相近的評(píng)價(jià)結(jié)果進(jìn)行比較，得出一致性程度的結(jié)論。預(yù)測效度要對(duì)兩次時(shí)間相隔較遠(yuǎn)的評(píng)價(jià)結(jié)果進(jìn)行比較，說明測試是否能預(yù)測受試者目標(biāo)能力將來的發(fā)展。（2）考試目的不同。共時(shí)效度說明測試是否能判斷受試者目標(biāo)能力的現(xiàn)狀；預(yù)測效度說明測試是否能預(yù)測受試者目標(biāo)能力將來的發(fā)展。

測試學(xué)家們普遍認(rèn)為外在標(biāo)準(zhǔn)是最客觀的標(biāo)準(zhǔn)，依據(jù)外在標(biāo)準(zhǔn)的驗(yàn)證方法是最科學(xué)的方法，因此，共時(shí)效度和預(yù)測效度也是被最多人承認(rèn)的效度[3]。

（五）后效效度

后效效度是指測試結(jié)果是否造成了一定的社會(huì)后果。

以英國醫(yī)生資格考試為例，該考試測試的是在英國當(dāng)醫(yī)生需具備的英語能力。如果該考試的難度過高，會(huì)出現(xiàn)醫(yī)生具備和病人交流所需的英語語言能力，但是沒有通過考試的情況，其后果是該醫(yī)生無法在英國從醫(yī)，而英國很可能因此錯(cuò)失一位好醫(yī)生。如果該考試難度較低，很多醫(yī)生雖然還不具備和病人交流所需的英語語言能力，但是通過了考試，獲得了在英國的從醫(yī)資格，這樣造成的社會(huì)后果可能會(huì)很嚴(yán)重，如給病人醫(yī)錯(cuò)病、開錯(cuò)藥。

需要注意的是，如果一個(gè)測試的預(yù)測效度不佳，則其后效效度通常也會(huì)存在問題。以高考為例，如果一個(gè)學(xué)生的高考成績很好，但大一成績很差，說明高考預(yù)測效度不高，同時(shí)說明高考的難度可能過低，該學(xué)生很可能英語能力還不足夠上大學(xué)，但是卻被錄取了，這會(huì)對(duì)社會(huì)發(fā)展、學(xué)生就業(yè)等造成不良影響，這種情況也意味著該測試的后效效度不高。

（六）表面效度

表面效度是指試卷看上去是否能夠測量所要測量的東西，考試表面的形式和內(nèi)容是否讓受試者覺得有效、獲得認(rèn)同。

如果一項(xiàng)針對(duì)幼兒的英語測試沒有使用豐富的圖畫，而是使用了大量的詞匯，那么該測試的表面效度就不高，是不會(huì)被認(rèn)同的。如果做題說明中有生詞，受試者難以理解做題要求，則受試者會(huì)覺得不客觀公正，不會(huì)認(rèn)同，即表明該測試的表面效度不高。

另外，做題要求不明確或者出題不嚴(yán)密也都可能導(dǎo)致表面效度低。例如，一次測試中有這樣一道題目：How powerful is the earthquake? 正確答案是 7.9 magnitude(s)。但由于出題不嚴(yán)謹(jǐn)，有的學(xué)生回答Very powerful。學(xué)生的作答不能算錯(cuò)，但是與測試者期望的答案完全不同，這樣的測試表面效度就很低。

效度的六個(gè)方面（構(gòu)念效度、內(nèi)容效度、共時(shí)效度、預(yù)測效度、后效效度及表面效度）是一個(gè)整體，而不是效度的六個(gè)種類。在實(shí)踐活動(dòng)中，不能將它們割裂開，而是要作為一個(gè)整體去考慮。

（七）如何保證效度

效度是評(píng)價(jià)測試最重要的一個(gè)指標(biāo)，作為命題者，保證測試的效度是一項(xiàng)非常重要的工作。我們應(yīng)該如何保證測試的效度呢？

首先，在命題前，我們應(yīng)該有一份清晰而詳細(xì)的細(xì)目表，即考試說明。根據(jù) levels of assessment design理論，考試說明是依照考試大綱制定的，而考試大綱又是以《課程標(biāo)準(zhǔn)》為參考的。因此，我們的測試能夠以考試說明為基礎(chǔ)進(jìn)行命制，那么該測試的效度，尤其是內(nèi)容效度，就能得到保證。

其次，盡可能使用直接測試的方法。即聽力考試通過聽的方式，口語考試通過說的方式，而不是通過選擇題考查語音知識(shí)，這樣才可以保證測試的構(gòu)念效度，否則，考查的能力就不全面。這也是高考題增加聽力測試后語音知識(shí)題被取消的原因。

另外，應(yīng)該讓學(xué)生熟悉試卷結(jié)構(gòu)和試題形式。每年中高考考試大綱的說明都給出樣題，這是為了保證測試的表面效度。因此，我們命制的試題要跟樣題保持一致，讓學(xué)生熟悉測試形式，使試卷看上去公正。

最后，在命題完成之后，命題者需要對(duì)試題進(jìn)行檢查、改進(jìn)、試測和調(diào)整，最后定稿。這樣做的目的是從整體上把握測試的效度。

二、信度

信度是測試結(jié)果的可信、可靠程度，或者說是一個(gè)測試的結(jié)果和它自身或其他測試結(jié)果之間一致性的實(shí)際水平。信度高的測試有很好的一致性和穩(wěn)定性。測試信度的關(guān)鍵是客觀和公平，而要達(dá)到客觀、公平，我們需要考慮以下四種信度：考生信度、測試實(shí)施信度、測試內(nèi)容信度和評(píng)分信度。下面，我們將分析這四個(gè)方面的信度，并探討如何提高信度。

（一）考生信度

考生信度是指考生參加測試時(shí)的身心狀態(tài)和水平發(fā)揮的程度。保證考生信度涉及很多方面，如要確保考生的身體健康、動(dòng)機(jī)正確、情緒穩(wěn)定、記憶力正常、注意力集中、細(xì)心認(rèn)真、按時(shí)或提前完成測試、沒有作弊現(xiàn)象等。試想，如果有考生在考試當(dāng)天咳嗽或者發(fā)燒，勢(shì)必會(huì)影響考生水平的正常發(fā)揮，考試結(jié)果也不能真實(shí)地反映考生的水平，那么這個(gè)測試的信度就不是很高。有些測試可能會(huì)含有需要考生辨別顏色的題目，這樣的題目對(duì)患有色盲的考生來說是不公平的，這同樣會(huì)影響考試的信度。有的考生在平時(shí)的學(xué)習(xí)過程中練習(xí)的題量較大，教師傳授的解題思路較多，對(duì)生活的體驗(yàn)較多，對(duì)某些領(lǐng)域的知識(shí)較熟悉，這部分考生能夠更容易理解做題說明，更快找到解題思路，掌握較多的猜題技巧，更容易理解涉及某些領(lǐng)域知識(shí)的題目，并且能夠較快地完成測試；而做題量較少、生活體驗(yàn)較少、對(duì)某些領(lǐng)域的知識(shí)較生疏的學(xué)生就會(huì)處于劣勢(shì)，這會(huì)導(dǎo)致測試結(jié)果有失公平，不利于保證測試的信度。

（二）測試實(shí)施信度

測試實(shí)施信度包括測試環(huán)境的信度和測試實(shí)施方式的信度。測試環(huán)境的信度涉及考場的地理位置、考場空間大小、考場的空氣流通、考場內(nèi)外的噪聲、考場的光線及考場的溫度等各方面情況。例如，考場的噪聲與考生的注意力密切相關(guān)。如果考場內(nèi)外有噪聲且噪聲很大，那么考生的注意力會(huì)受到嚴(yán)重干擾，尤其是當(dāng)考生在做聽力測試的過程中，噪聲會(huì)嚴(yán)重影響考生的正常發(fā)揮，直接影響考生的考試成績，進(jìn)而影響考試的信度?？紙隹臻g大小也與考試的信度有關(guān)。如果考場空間大，考生與考生的前后左右間隔距離加大，這樣會(huì)降低考生作弊的幾率，有利于保證考試的信度。反之，則有可能降低考試的信度[4]。

另外，考場的空氣流通程度、光線及溫度與考生的狀態(tài)緊密關(guān)聯(lián)。如果這三個(gè)條件達(dá)到最佳，則有助于將考生身體及大腦調(diào)整至最佳狀態(tài)，保證考生在考場上的正常發(fā)揮，也有利于保證考試的信度。

測試實(shí)施方式的信度涉及測試所用設(shè)備的質(zhì)量、測試時(shí)間的長度、監(jiān)考員的指令、同一測試用于不同時(shí)間、不同的測試對(duì)象及監(jiān)考員對(duì)考生的態(tài)度等各方面的情況。例如，測試同一聽力試題時(shí)，A 考場的考生所聽的內(nèi)容出自一臺(tái)小錄音機(jī)，而B 考場的考生所聽的內(nèi)容出自一位教師的當(dāng)場朗讀，并且速度很慢，那么考試分?jǐn)?shù)的信度必然會(huì)降低。如果監(jiān)考員對(duì)如何填寫答卷等的指令說明不夠清楚，給考生造成理解的障礙，也會(huì)影響考生的分?jǐn)?shù)，從而影響考試的信度。

（三）測試內(nèi)容信度

測試內(nèi)容信度涉及題量、題型的種類、試題難易度、試題區(qū)分度和試題的偏頗性等方面。一般來說，一套信度較高的試題含有足夠多的題目和多種題型。題目越多，題型越多樣，越能檢測出考生對(duì)不同知識(shí)點(diǎn)和解題技巧的掌握程度，以及考生對(duì)不同題型的解答能力，考試結(jié)果更能客觀地反映出考生的水平。反之，如果一套試題只有四五個(gè)簡答題，或十幾個(gè)選擇題，單憑回答幾個(gè)問題或做十幾個(gè)選擇題就對(duì)考生的綜合語言運(yùn)用能力做出評(píng)價(jià)，顯然是不公平的，是缺乏信度的。

試題的難易度和區(qū)分度也是衡量試題信度的兩個(gè)重要方面。如果一套試題中有幾道題目的難度超出考生的認(rèn)知水平，那么這幾道題就是沒有意義的，因?yàn)樗鼈儫o法檢測考生的真實(shí)水平。因此，保證試題的難度適中是保證試題信度的關(guān)鍵。難度適中也是保證區(qū)分度的一個(gè)重要途徑。題目太難或太簡單，都會(huì)導(dǎo)致多數(shù)考生答錯(cuò)或者答對(duì)，這樣的結(jié)果表明區(qū)分度很低。區(qū)分度是為了把不同水平的考生區(qū)分開，這有利于教師更好地了解每一位學(xué)生的水平，了解學(xué)生對(duì)知識(shí)點(diǎn)的掌握程度，也有利于各機(jī)構(gòu)通過一些重要考試公平地選拔人才。試題的區(qū)分度高，信度就高。試題的偏頗性也會(huì)影響試題的信度。試題的偏頗性即試題有利于一部分考生，而不利于另一部分考生。例如，如果試題中有的題目考查有關(guān)足球或籃球方面的內(nèi)容，那么男孩就較容易理解或解答該題目，而女孩就處于劣勢(shì)，這樣的題目就有偏頗性。另外，還需要考慮的幾點(diǎn)是試題的內(nèi)容是否適合考生的心智；整套試題是否考查同一范疇、同一領(lǐng)域的內(nèi)容；試題是否有較大范圍的測試對(duì)象，即測試對(duì)象是否在不同水平。

（四）評(píng)分信度

評(píng)分信度包括評(píng)分標(biāo)準(zhǔn)的信度、評(píng)分員之間一致性的信度和評(píng)分員個(gè)體一致性的信度。對(duì)于一套試卷中的主觀題尤其像寫作類的題型，評(píng)分標(biāo)準(zhǔn)合理與否與試題的信度密切相關(guān)。例如，如果一套試題寫作部分的評(píng)分標(biāo)準(zhǔn)比較籠統(tǒng)，不夠詳盡，評(píng)分員評(píng)分時(shí)就有可能考慮不周，評(píng)分概念模糊，造成評(píng)分結(jié)果差異很大，進(jìn)而導(dǎo)致評(píng)分不夠客觀、公正。

評(píng)分員之間一致性的信度是指不同評(píng)分員給同樣的被評(píng)對(duì)象評(píng)定成績時(shí)的一致性程度的量度。如果評(píng)分員給出的分?jǐn)?shù)差異很大，就說明評(píng)分員之間一致性的信度較低，這對(duì)考生來說是不公平的。以高考書面表達(dá)為例，每份試卷隨機(jī)由兩位評(píng)分員評(píng)分，如果超過4 分的差值，則由第三位評(píng)分員評(píng)分，如果第三位評(píng)分員與其他兩位評(píng)分員的差值仍超過4 分，則需要由仲裁組最后仲裁。

評(píng)分員個(gè)體一致性的信度是指同一位評(píng)分員在不同的時(shí)間對(duì)同樣的項(xiàng)目評(píng)分一致性程度的量度。例如，A評(píng)分員在給某班40 個(gè)考生的作文評(píng)分兩周以后再次評(píng)分，兩次評(píng)分的結(jié)果沒有太大的差異，則說明該評(píng)分員的個(gè)體一致性的信度較高。反之，如果評(píng)分結(jié)果差異很大，則說明該評(píng)分員的個(gè)體一致性的信度較低。

（五）提高試題信度的方法

增加一定量的客觀題?？陀^題能使評(píng)分員做到評(píng)分一致，能夠保證測試有很高的評(píng)分信度。因此，如果一套試題中客觀題的數(shù)量多一些，主觀題的數(shù)量少一些，即使主觀題的評(píng)分結(jié)果有一些差異，總分的差異也不會(huì)太大。但是，這并不意味著客觀題越多越好，因?yàn)榭陀^題也有其局限性。因此，酌情適量增加客觀題是最明智的做法。

適當(dāng)增加題目的數(shù)量和題型。適當(dāng)增加一些題目的數(shù)量和不同的題型，即使有的題結(jié)果差異大一些，但對(duì)整套試題的測量誤差的影響不會(huì)太大，還能夠更有效地檢測考生的實(shí)際水平。

確保試題的難易度和區(qū)分度符合標(biāo)準(zhǔn)。要做到試題的難易度適中和區(qū)分度高，最好的辦法是根據(jù)題目分析后得出的難易度數(shù)據(jù)和區(qū)分度數(shù)據(jù)，來判定這兩類數(shù)據(jù)是否達(dá)標(biāo)。發(fā)現(xiàn)不達(dá)標(biāo)的題目，就應(yīng)立即修改，直至符合要求，這樣才能為試題的信度提供有力的支撐。

確保試題沒有偏頗性。要確保試題沒有偏頗性，需要從多方面考慮，如考生的年齡、性別、所處區(qū)域等。也就是說，考試內(nèi)容不偏向任一性別的考生、不偏向任一區(qū)域的考生，做到客觀、公平。

制定詳盡、可操作性強(qiáng)的評(píng)分標(biāo)準(zhǔn)。如果試卷中有主觀題，尤其是寫作類的題型，那么就需要制定一個(gè)客觀、詳盡、合理、操作性強(qiáng)的評(píng)分標(biāo)準(zhǔn)，使評(píng)分員能夠很好地把握評(píng)分標(biāo)準(zhǔn)，從而客觀、公正地評(píng)分。

培訓(xùn)評(píng)分員。在評(píng)分標(biāo)準(zhǔn)合格的情況下，對(duì)評(píng)分員的培訓(xùn)也很重要，也是提高測試信度的一個(gè)方法。評(píng)分標(biāo)準(zhǔn)擬好并不意味著萬事大吉，評(píng)分員對(duì)評(píng)分標(biāo)準(zhǔn)的理解和把握程度，以及評(píng)分員對(duì)閱卷工作的責(zé)任心和使命感也是不可忽視的。因此，在評(píng)分工作開始前，對(duì)評(píng)分員的培訓(xùn)必不可少。

三、效度和信度的矛盾和平衡

語言測試的效度和信度是英語測試中非常重要的兩個(gè)評(píng)價(jià)指標(biāo)，它們各有側(cè)重又相輔相成，聯(lián)系密切。效度強(qiáng)調(diào)測試達(dá)到預(yù)期測試目的，信度強(qiáng)調(diào)測試和考分一致，一份設(shè)計(jì)良好的試題要求二者兼顧。然而，效度和信度之間又存在對(duì)立關(guān)系。效度高則意味著主觀題的題目比例會(huì)較大，這樣勢(shì)必會(huì)削弱試題的信度，然而信度高的試題不一定效度就高。例如，英語測試中的選擇題是保證高信度的一種題型，但如果選擇題過多，效度則無法保證，因?yàn)楹芏嘤嘘P(guān)學(xué)生語言運(yùn)用、語言交際、語用能力等的內(nèi)容是無法通過選擇題來考查的。

效度和信度的對(duì)立統(tǒng)一使命題者命制一份效度和信度都相當(dāng)高的試題變得非常難，所有的命題者都需要在二者之間尋求平衡。效度和信度應(yīng)該優(yōu)先考慮哪一個(gè)是很多語言測試專家一直在研究的問題。

結(jié)語

很多專家認(rèn)為，就我國英語教學(xué)現(xiàn)狀和學(xué)生學(xué)習(xí)現(xiàn)狀而言，應(yīng)優(yōu)先考慮效度，然后在此基礎(chǔ)上盡量增加試卷的信度。這樣做會(huì)給目前的中學(xué)英語教學(xué)帶來積極的影響，能更加有效地促進(jìn)英語教學(xué)改革，使學(xué)生應(yīng)用語言的能力得到提高。將效度放在首位，盡量增加信度，將成為現(xiàn)代語言測試的發(fā)展趨勢(shì)和改革方向。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡