朱武平
【摘要】中學(xué)英語教師在日常教學(xué)中經(jīng)常要面對大量的考試或語言測試,學(xué)會如何對測試試卷和測試成績作出正解的分析,這對提高語言測試水平和英語教學(xué)具有重要意義。在本文中,筆者簡要概述語言測試相關(guān)理論,探討如何對中學(xué)英語的語言測試作出分析和撰寫測試報告,希望能給中學(xué)英語教師提供借鑒經(jīng)驗。
【關(guān)鍵詞】語言測試;信度;效度;測試分?jǐn)?shù);試卷分析
對于中學(xué)英語教師來說,在語言測試后作出測試報告是很有必要的。中學(xué)英語教師經(jīng)常要面對大量的考試或測試,在教學(xué)反思或測試報告中都要對考試成績作出分析和合理解釋。在這種情況下,語言測試領(lǐng)域的一些問題常會讓教師感到困惑。中學(xué)英語教師應(yīng)如何分析和解讀學(xué)生成績呢?他們的測試是否高度可靠或有效呢?這些測試結(jié)果又會如何影響他們未來的教學(xué)或測試開發(fā)呢?中學(xué)英語教師有必要學(xué)習(xí)語言測試的知識,及測試開發(fā)和測試分析的相關(guān)理論和原則。因此,筆者簡要概述語言測試相關(guān)的理論和原則,并提出一些與語言測試分析相關(guān)的問題。
一、影響語言測試的關(guān)鍵因素
英語教師要想對試卷和考試成績進行合理的分析,就必須考慮語言測試的信度和效度。由于信度和效度是語言測試中最重要的因素,我們應(yīng)該了解和分析這兩個關(guān)鍵因素。
1. 信度
信度是任何一種好的測試的必要特征,如果一個測試是不可靠的,我們怎么知道被測試者的真實語言能力?語言測試的信度一般有三個組成部分:考試本身的信度,考生在不同場合的表現(xiàn),測試分?jǐn)?shù)的信度。測試的信度取決于許多因素,如測試的類型和長度,以及測試所檢測學(xué)生的能力范圍??偟膩碚f,可能會影響到測試信度的因素包括:測試相同的語言能力;考生的方差;學(xué)習(xí)者的波動(動機、疾病等個人因素);得分波動;考試管理波動;測試長度;充足的考試時間;測試項目辨析;響應(yīng)特性誤差;為試驗所選擇的材料的樣本范圍;測試指令;試題難度。我們可以做的是通過測試設(shè)計,盡量減少那些不一致的潛在來源的影響。雖然不可能實現(xiàn)完全可靠的測試,但在設(shè)置測試工具時要盡可能使其可靠,比如我們應(yīng)該確保測試說明是清晰的,并且沒有含糊不清的題目。
2. 效度
效度是一種綜合的評估判斷,效度不是測試或評估本身的屬性,而是測試分?jǐn)?shù)的意義。Messick認(rèn)為,測試的統(tǒng)一效度最好是通過對測試的整體評價來體現(xiàn)。
效度是一個統(tǒng)一的概念,包括五種效度:表面效度、內(nèi)容效度、結(jié)構(gòu)效度、預(yù)測效度和同時效度。表面效度指的是測試的“表面可信度或公眾可接受性”,經(jīng)常被測試者認(rèn)為是不科學(xué)的和不相關(guān)的。內(nèi)容效度是指內(nèi)容的代表性或抽樣充分性——衡量工具的實質(zhì)、事項、主題。結(jié)構(gòu)效度是一種研究活動,是對理論進行檢驗并加以確認(rèn)、修改或放棄的手段。預(yù)測效度指的是測試對學(xué)生未來表現(xiàn)的預(yù)測程度。預(yù)測驗證需要時間來評估。同時效度是使用一個公認(rèn)的、有信譽的測試來檢查目標(biāo)測試的有效性,由此產(chǎn)生的相關(guān)性提供了測試同時效度的度量。
3. 信度與效度的關(guān)系
無論測試的理論假設(shè)是什么,測試的效度和信度構(gòu)成了評估任何測試的兩個主要標(biāo)準(zhǔn),信度和效度之間存在權(quán)衡關(guān)系。在實際的語言測試中,如何處理信度和效度之間的矛盾?中學(xué)英語語言測試往往更注重信度而不是效度。過分注重信度而忽視效度,會給我們的語言教學(xué)帶來嚴(yán)重的不良后果。我們必須在信度和效度之間做出積極的妥協(xié)。因此,當(dāng)我們開始分析學(xué)生的考試成績和寫一份后測報告時,我們應(yīng)考慮到這兩個因素來解釋考試成績的意義,并對所進行或執(zhí)行的測試的信度和效度做出判斷。
二、試卷分析
語言測試使用者應(yīng)該收集測試后的多種數(shù)據(jù)和信息,來分析和判斷這個測試是否令人滿意。此外,語言測試機構(gòu)和教育部門也要求英語教師獲得一些相關(guān)的統(tǒng)計數(shù)據(jù)及其對數(shù)字的解釋。最重要的數(shù)據(jù)就是收集所有客觀題的分?jǐn)?shù)和主觀題的分?jǐn)?shù)。
1. 描述性統(tǒng)計
語言測試后,我們通常采用描述性的方法來處理測試結(jié)果。應(yīng)該收集整個測試及其每個組成部分的描述性統(tǒng)計信息。最常用的統(tǒng)計類型是柱狀圖、平均值、眾數(shù)、中位數(shù)、極差和標(biāo)準(zhǔn)差。柱狀圖是用列來說明考試分?jǐn)?shù)出現(xiàn)的頻率(見下圖1)。從這個圖表中,我們可以很容易地得到學(xué)生考試成績分布的信息。
我們常用眾數(shù)、中位數(shù)、均值等指標(biāo)來描述學(xué)生考試成績的集中趨勢,其中,均值是衡量集中趨勢最有效的方法,但它并不總是恰當(dāng)?shù)?。任何考試的平均分?jǐn)?shù)都是均值,平均分?jǐn)?shù)能夠通過比較來描述單個學(xué)生的分?jǐn)?shù),但它并不能告訴我們最高和最低分?jǐn)?shù)以及分?jǐn)?shù)的分布。標(biāo)準(zhǔn)差(s.d)是一種顯示分?jǐn)?shù)分布的方法,它顯示了所有的分?jǐn)?shù)是如何分散的,例如,如果50題測試的最高分是43分,最低分是21分,那么范圍只有從21到43分的,標(biāo)準(zhǔn)差卻可以給出了比這分?jǐn)?shù)范圍更完整的描述。計算標(biāo)準(zhǔn)差(s.d.)的一種簡單方法如下圖2。標(biāo)準(zhǔn)差對于提供關(guān)于不同群體的特征的信息也是有用的。例如,如果一個班級在某項測試中的標(biāo)準(zhǔn)差是4.08,而另一個班級在同一項測試中的標(biāo)準(zhǔn)差是8.96,那么可以推斷后一個班級的異質(zhì)性遠遠大于前者(引自:Alderson, 2000)。
2. 項目分析
許多教師認(rèn)為,一旦取得了原始成績,考試就結(jié)束了。事實遠非如此,測試結(jié)果可以提供很多有價值的信息,比如學(xué)生群體的表現(xiàn),從而在課堂測試中反映教師教學(xué)的有效性、學(xué)生個人表現(xiàn)和每個測試項目的表現(xiàn)。學(xué)生整體表現(xiàn)和每個學(xué)生的表現(xiàn)對于教學(xué)是很重要的,由于測試結(jié)果不僅顯示出最經(jīng)常犯的錯誤,還可以顯示出犯錯誤的實際原因。
我們在設(shè)置測試時,應(yīng)考慮測試項目的功能、難度和效度。一個項目的難度指數(shù)(或設(shè)施值)顯示了該項目能被證明的難易程度。困難指數(shù)(FV)通常表示為回答正確問題的學(xué)生的比例(或百分比)。計算公式:FV=R/N (R表示正確答案的數(shù)量,N表示參加考試的人數(shù))。
另一個指數(shù)就是區(qū)分程度(D),表示該測試項目區(qū)分能力較強與能力較弱學(xué)生的程度。從統(tǒng)計學(xué)上來說,我們可以用這個公式來計算得出這個數(shù)值:D=正確的U -正確的L / N (D=區(qū)分度;N=檢測人數(shù);U=上半部分;L=下半部分)。測試工具的信度和區(qū)分度通常都會以表格形式來記錄,并以相同的公式來統(tǒng)計得出,要注意區(qū)分度低于.30的測試項目是可疑的,因為它們不能有效地區(qū)分。
總之,英語教師應(yīng)該學(xué)習(xí)關(guān)于語言測試的理論知識,尤其是測試成績分析方法和測試后報告的寫作。雖然不能在一篇文章中完全討論,但我們還是可以從中得到一些教學(xué)啟示。因此,我們需要進一步研究測試分析和基于分?jǐn)?shù)的推斷技巧,這樣我們才能成為一個明智的語言測試使用者。
參考文獻:
[1] Alderson JC.C. Clapham. D. Wall. Language Test Construction and Evaluation [M]. Beijing:Foreign Language Teaching and Researching Press,2000.
[2] Bachman, L. F. Building and supporting a case for test use[J].Language Assessment Quarterly,2(1):1-34,2005.