基于多面Rasch模型的初中英語口語測試EBB評(píng)分標(biāo)準(zhǔn)研究與效度驗(yàn)證

2016-06-05 14:14:54高淼

中國考試 2016年12期

關(guān)鍵詞：分?jǐn)?shù)段洛基評(píng)分標(biāo)準(zhǔn)

高淼

高淼

評(píng)分標(biāo)準(zhǔn)是測試構(gòu)念的可操作化體現(xiàn)。本文介紹了EBB評(píng)分標(biāo)準(zhǔn)的定義和優(yōu)勢，嘗試了如何基于考生真實(shí)的測試表現(xiàn)數(shù)據(jù)，為一項(xiàng)低風(fēng)險(xiǎn)的大規(guī)模初中英語口語測試制定EBB評(píng)分標(biāo)準(zhǔn)，并基于項(xiàng)目反應(yīng)理論，利用多面Rasch模型對(duì)其進(jìn)行效度驗(yàn)證。研究結(jié)果表明，包含語音語調(diào)、準(zhǔn)確性、交際有效性和任務(wù)完成度四個(gè)評(píng)分維度的EBB評(píng)分標(biāo)準(zhǔn)符合分割指數(shù)、平均測量值和未加權(quán)均方擬合指數(shù)等關(guān)鍵測量指標(biāo)要求，具有較好的效度，并且分?jǐn)?shù)段劃分合理，可操作性強(qiáng)。

EBB評(píng)分標(biāo)準(zhǔn)；口語測試；多面Rasch；效度

1 研究背景

隨著信息技術(shù)的發(fā)展和數(shù)據(jù)模式的爆炸式增長，當(dāng)今世界已經(jīng)進(jìn)入網(wǎng)絡(luò)化的“大數(shù)據(jù)時(shí)代”，美國等發(fā)達(dá)國家已將對(duì)“大數(shù)據(jù)”的研究上升至戰(zhàn)略高度[1-2]。在教育領(lǐng)域，構(gòu)建和發(fā)展“教育大數(shù)據(jù)”對(duì)于制定教育政策、優(yōu)化教育制度、促進(jìn)教師教學(xué)、提升學(xué)習(xí)質(zhì)量意義重大。長期的、大規(guī)模的、科學(xué)的教育質(zhì)量測評(píng)是收集“教育大數(shù)據(jù)”的重要工具，如國際學(xué)生評(píng)價(jià)項(xiàng)目（PISA，國際經(jīng)合組織OECD主持），美國國家教育進(jìn)步評(píng)價(jià)項(xiàng)目（NAEP，美國國家評(píng)價(jià)管理委員會(huì)NAGB主持）以及國際數(shù)學(xué)與科學(xué)趨勢研究項(xiàng)目（TIMSS，國際教育成就評(píng)價(jià)協(xié)會(huì)IEA主持）。我國自2007年開始的義務(wù)教育階段學(xué)習(xí)質(zhì)量監(jiān)測體系即創(chuàng)建和發(fā)展于這一時(shí)代背景下，該體系通過在全國范圍內(nèi)對(duì)小學(xué)四年級(jí)和初中二年級(jí)學(xué)生進(jìn)行全方位的測試，獲取有關(guān)中國基礎(chǔ)教育質(zhì)量以及影響因素的大量數(shù)據(jù)，從而為決策制定提供依據(jù)和建議。作為質(zhì)量監(jiān)測體系的重要組成部分，英語學(xué)業(yè)質(zhì)量監(jiān)測（以下簡稱“英語監(jiān)測”）涵蓋紙筆測試（聽、讀、寫）和口語測試兩個(gè)部分。

《義務(wù)教育英語課程標(biāo)準(zhǔn)》（2011年版）[3]（以下簡稱《課程標(biāo)準(zhǔn)》）明確指出口語能力的培養(yǎng)和評(píng)價(jià)是英語教學(xué)中的重要部分。但就口語測試來說，人力、物力及財(cái)力等實(shí)施方面的種種困難一直制約著英語口語測試的大規(guī)模開展，長久以來在中國，高考、中考等大規(guī)模高風(fēng)險(xiǎn)測試由于受制于上述因素，也多不包含大規(guī)模的口語測試。作為一項(xiàng)國家層面的大規(guī)模低風(fēng)險(xiǎn)測試，英語監(jiān)測項(xiàng)目克服重重困難，采用分層不等概率抽樣方法，從參加紙筆測試的大樣本考生中，抽出一小部分考生（如2011年年底口語測試中，各年級(jí)均抽出900名考生）來進(jìn)行口語測試。

英語監(jiān)測項(xiàng)目的初中口語測試屬于標(biāo)準(zhǔn)參照性測試，旨在檢測初二學(xué)生的口語交際能力，并為教和學(xué)提供反饋信息，試題的命制依據(jù)是：《課程標(biāo)準(zhǔn)》相應(yīng)級(jí)別對(duì)“說”的能力標(biāo)準(zhǔn)描述，英語監(jiān)測指標(biāo)體系對(duì)“說”這一表達(dá)能力的指標(biāo)描述。測試目的是考查學(xué)生使用英語進(jìn)行交際的能力，表1介紹了2011年初中英語口語測試試題的任務(wù)結(jié)構(gòu)。

本研究從2011年口語測試中獲取的真實(shí)口試語料出發(fā)，根據(jù)測試的構(gòu)念來制定分項(xiàng)評(píng)分標(biāo)準(zhǔn)，對(duì)考生的口試表現(xiàn)進(jìn)行不同層面的精確評(píng)分，可以更加清楚地理解分?jǐn)?shù)的意義，進(jìn)而對(duì)考生的口語能力作出更有效的推斷，也為本測試的效度論斷提供實(shí)證證據(jù)。再者，本分項(xiàng)評(píng)分標(biāo)準(zhǔn)的制定過程和具體內(nèi)容可用于課堂口語評(píng)價(jià)，有助于教師為學(xué)生的口語表現(xiàn)提供明晰、具體的反饋。

2 相關(guān)研究文獻(xiàn)

評(píng)分標(biāo)準(zhǔn)在口語測試中至關(guān)重要。無論采用什么形式，評(píng)分標(biāo)準(zhǔn)都是抽象的口語測試構(gòu)念在具體評(píng)分過程中的可操作的判斷標(biāo)準(zhǔn)，反映出測試設(shè)計(jì)者對(duì)不同水平考生的語言表現(xiàn)的理解[4-5]。制定評(píng)分標(biāo)準(zhǔn)的方法總體上有3類：（1）基于直覺和經(jīng)驗(yàn)的方法（intuitive approach），如美國外語教學(xué)委員會(huì)外語能力標(biāo)準(zhǔn)指南（the American Council on the Teaching of Foreign Language Guidelines，ACTFL）。（2）量化方法（quantitative approach）。即對(duì)眾多語言能力指標(biāo)描述語進(jìn)行量化統(tǒng)計(jì)，如CEFR。CEFR產(chǎn)生于歐洲獨(dú)特的社會(huì)經(jīng)濟(jì)和教育文化的情境下，適應(yīng)了歐盟社會(huì)經(jīng)濟(jì)和教育文化的發(fā)展[6]，但它是通過對(duì)大量現(xiàn)成的、基于直覺的評(píng)分標(biāo)準(zhǔn)描述語（descriptor pool）進(jìn)行多面Rasch分析統(tǒng)計(jì)來制定的[7]，本質(zhì)上同上述第一類評(píng)分標(biāo)準(zhǔn)一樣。（3）基于考生的測試表現(xiàn)數(shù)據(jù)來制定評(píng)分標(biāo)準(zhǔn)，主要倡導(dǎo)者有Fulcher，Upsher和Turner等。大致又可以細(xì)分為兩種：第一種傾向于盡可能精細(xì)入微地描述不同水平考生的表現(xiàn)（thick description approach），F(xiàn)ulcher[8-9]具體報(bào)告了這種方法的研究過程?！霸敿?xì)、具體”這一優(yōu)勢同時(shí)也帶來了操作性較差的弊端，因?yàn)檫^細(xì)的評(píng)分標(biāo)準(zhǔn)會(huì)加重評(píng)分員的記憶負(fù)擔(dān)，影響評(píng)分信度[10]。第二種基于考生真實(shí)語料的評(píng)分標(biāo)準(zhǔn)制定方法是基于實(shí)證的、二元選擇性的、邊界定義式的概念評(píng)分標(biāo)準(zhǔn)制定方法（empirically derived,binary-choice,boundary definition scales，以下簡稱EBB）[11-12]。它與前述所提到的評(píng)分標(biāo)準(zhǔn)的區(qū)別在于它不是通過細(xì)致地分析考生語料來制定，而是借鑒了Thurstone的成對(duì)比較方法（Thurstone’s Method of Paired Comparisons）和凱利網(wǎng)格技術(shù)（Kelly’s Repertory Grid Technique）[13]，由專家對(duì)考生的真實(shí)口試語料進(jìn)行水平評(píng)判，并擬定能夠?qū)颖緞潪樘囟?jí)別的關(guān)鍵特征，即EBB中的一系列“二元選擇問題”或能力指標(biāo)描述語。之后通過反復(fù)討論和協(xié)商，最終達(dá)成對(duì)描述語所表達(dá)的內(nèi)涵的一致看法[14]，形成能夠判定不同級(jí)別的二元是非問題，或有關(guān)區(qū)別性關(guān)鍵語言特征（criterial features）的描述語，最終形成的評(píng)分標(biāo)準(zhǔn)如圖1所示。

表1 初中英語口語測試試卷結(jié)構(gòu)

圖1 EBB評(píng)分標(biāo)準(zhǔn)

由此可見，EBB不同于傳統(tǒng)評(píng)分標(biāo)準(zhǔn)線性地描述考生口語能力的做法，而是盡可能客觀地給出不同水平的考生具體能夠用語言做什么樣的評(píng)判標(biāo)準(zhǔn)。其主要優(yōu)勢在于：（1）設(shè)計(jì)原理簡單，可被用來制定特定口語或?qū)懽鳒y試任務(wù)的評(píng)分標(biāo)準(zhǔn)；（2）制定出的評(píng)分標(biāo)準(zhǔn)便于使用，特別是當(dāng)由參與標(biāo)準(zhǔn)制定的人員來評(píng)分時(shí)，會(huì)實(shí)現(xiàn)更為理想的評(píng)分信度；（3）針對(duì)每一特定任務(wù)而生成的評(píng)分標(biāo)準(zhǔn)若用在教學(xué)情境中，可準(zhǔn)確反映學(xué)生的表現(xiàn)并為學(xué)生提供反饋。

總之，評(píng)分標(biāo)準(zhǔn)應(yīng)該根據(jù)特定的測試目的以及測試對(duì)象，根據(jù)基于分?jǐn)?shù)意義所欲作出的決策來制定[15-16]。因此，本研究采用EBB標(biāo)準(zhǔn)制定方法，為英語監(jiān)測項(xiàng)目的口語測試制定分項(xiàng)評(píng)分標(biāo)準(zhǔn)。目前國內(nèi)大規(guī)?？谡Z測試評(píng)分標(biāo)準(zhǔn)多是依憑專家經(jīng)驗(yàn)并借鑒已有評(píng)分標(biāo)準(zhǔn)來制定，基于考生真實(shí)測試表現(xiàn)數(shù)據(jù)來制定評(píng)分標(biāo)準(zhǔn)的相關(guān)研究幾乎沒有，本研究是對(duì)這一缺陷的彌補(bǔ)，也是對(duì)評(píng)分標(biāo)準(zhǔn)制定方法的嘗試和創(chuàng)新。

3 研究問題及步驟

本研究旨在回答以下3個(gè)研究問題：

（1）分項(xiàng)評(píng)分標(biāo)準(zhǔn)的效度如何？

（2）考生在語音語調(diào)、準(zhǔn)確性、交際有效性、任務(wù)完成度這4個(gè)評(píng)分維度上的表現(xiàn)如何？

（3）評(píng)分標(biāo)準(zhǔn)各分?jǐn)?shù)段在以上4個(gè)維度是否發(fā)揮了預(yù)期的作用？

3.1 制定EBB評(píng)分標(biāo)準(zhǔn)

3.1.1 確定構(gòu)念

本研究中，EBB評(píng)分標(biāo)準(zhǔn)的制定依據(jù)考生的口試錄音語料，通過明確能夠區(qū)分不同水平考生的“顯著語言特征”這一指標(biāo)來制定。同時(shí)參照《課程標(biāo)準(zhǔn)》四級(jí)及本測試項(xiàng)目的監(jiān)測指標(biāo)體系對(duì)口語能力要求的水平描述，確定了評(píng)分時(shí)需關(guān)注的4個(gè)方面（見表2），實(shí)現(xiàn)了測試構(gòu)念的可操作化。

對(duì)每一個(gè)維度的具體指標(biāo)描述通過采用EBB標(biāo)準(zhǔn)制定方法。

3.1.2 確定級(jí)別數(shù)

通?？谡Z評(píng)分標(biāo)準(zhǔn)有4～6個(gè)水平或分?jǐn)?shù)檔[9]。CEFR認(rèn)為4個(gè)維度和5個(gè)維度就開始增加評(píng)分員的認(rèn)知負(fù)荷，而7是心理學(xué)上的記憶負(fù)荷上限。同時(shí)由于分項(xiàng)評(píng)分標(biāo)準(zhǔn)是概念獨(dú)立的，所以至少從某種程度上來說，5～6個(gè)水平已經(jīng)接近評(píng)分員的認(rèn)知負(fù)荷極限。本研究所制定的評(píng)分標(biāo)準(zhǔn)包括1～6這6個(gè)分?jǐn)?shù)級(jí)別。

3.1.3 參與人員

表2 評(píng)分標(biāo)準(zhǔn)的4個(gè)維度

從本研究的樣本數(shù)量及研究目的出發(fā)，參照Turner&Upshur[12]的EBB評(píng)分標(biāo)準(zhǔn)制定方法，最終決定參與評(píng)分標(biāo)準(zhǔn)制定的研究人員共4位，包括研究者本人。其中一位是有15余年教齡的中學(xué)英語教師（高級(jí)職稱，英語語言測試方向博士），一位是英語測試研究方向的在讀博士生，一位是高校英語教師（應(yīng)用語言學(xué)方向碩士）。

3.1.4 研究對(duì)象及語料

考生群體為參加口語測試的來自全國5個(gè)省份的900名初三年級(jí)新生（測試于2011年9月進(jìn)行，學(xué)生剛剛結(jié)束初二學(xué)習(xí)），從中抽取了140位考生的錄音樣本進(jìn)行轉(zhuǎn)寫（用于后續(xù)的會(huì)話分析子研究），在其中又抽取16位考生的錄音樣本，代表不同水平考生的口試表現(xiàn)，據(jù)此制定EBB分項(xiàng)評(píng)分標(biāo)準(zhǔn)；之后在剩余的124個(gè)樣本中隨機(jī)抽出24位考生的錄音樣本，使用新制定的EBB標(biāo)準(zhǔn)對(duì)其進(jìn)行評(píng)分，驗(yàn)證評(píng)分標(biāo)準(zhǔn)的信效度；最后，對(duì)剩下的100個(gè)考生錄音樣本，使用分項(xiàng)評(píng)分標(biāo)準(zhǔn)進(jìn)行評(píng)分，進(jìn)一步驗(yàn)證評(píng)分標(biāo)準(zhǔn)的效度。

3.1.5 具體步驟

制定評(píng)分標(biāo)準(zhǔn)分為初步制定標(biāo)準(zhǔn)、修訂、專家審閱、試評(píng)、試評(píng)數(shù)據(jù)分析、討論修訂，以及形成最終的評(píng)分標(biāo)準(zhǔn)6個(gè)主要階段，如圖2所示。

在具體的EBB標(biāo)準(zhǔn)制定中（第1步），評(píng)判標(biāo)準(zhǔn)是通過提出標(biāo)準(zhǔn)制定人員都認(rèn)同的可以區(qū)分兩個(gè)水平的二元判定問題（binary questions）來實(shí)現(xiàn)。如：“Are grammatical errors present in the sample?”，在對(duì)此問題回答“是”或“不是”后，進(jìn)入下一層級(jí)的區(qū)別特征判斷。具體操作過程如下：

（1）標(biāo)準(zhǔn)制定人員各自獨(dú)立精聽所有的樣本（共16個(gè)）并做記錄，之后等分出“較好”和“較差”兩組錄音，每組各8個(gè)樣本，記下能區(qū)別這兩大組的區(qū)別性語言特征。提出一個(gè)可以區(qū)分這兩組樣本的主要二元判定問題。

（2）通過充分討論和協(xié)商，盡可能對(duì)此劃分標(biāo)準(zhǔn)達(dá)成一致。

（3）各人在“較好”一組的錄音樣本中，分出級(jí)別為4、5、6三個(gè)自低向高的等級(jí)，每個(gè)等級(jí)下有2～3個(gè)樣本。

（4）確定能區(qū)別級(jí)別4與級(jí)別5、6的區(qū)別性語言特征，寫出二元判定問題，或描述出可區(qū)別這兩個(gè)水平的顯著語言特征。

（5）通過充分討論和協(xié)商，盡可能對(duì)此劃分標(biāo)準(zhǔn)達(dá)成一致。

（6）確定能區(qū)別5、6兩個(gè)級(jí)別的區(qū)別性語言特征，寫出二元判定問題，或可以區(qū)別這兩個(gè)水平的顯著特征描述語。

（7）通過充分討論和協(xié)商，盡可能對(duì)此劃分標(biāo)準(zhǔn)達(dá)成一致。

（8）重復(fù)以上環(huán)節(jié)，對(duì)“較差”的一組語料樣本，確定能區(qū)別1、2、3三個(gè)級(jí)別的二元判定問題或區(qū)別性特征描述語。

評(píng)分標(biāo)準(zhǔn)的最終呈現(xiàn)形式是對(duì)應(yīng)于語音語調(diào)、準(zhǔn)確性、交際有效性和任務(wù)完成度4個(gè)維度的4個(gè)圖示型分項(xiàng)評(píng)分標(biāo)準(zhǔn)。為更直接、直觀地呈現(xiàn)判定標(biāo)準(zhǔn)，沒有采用二元判定問題的形式，而是用描述區(qū)別性語言特征的短語（如“幾乎所有語法使用都不準(zhǔn)確”）。

4 研究結(jié)果

圖2 評(píng)分標(biāo)準(zhǔn)制定流程

4.1 評(píng)分標(biāo)準(zhǔn)效度的初步驗(yàn)證

使用這一分項(xiàng)評(píng)分標(biāo)準(zhǔn)，請3位語言測試專業(yè)的研究生作為評(píng)分員，對(duì)24個(gè)被試錄音文件進(jìn)行試評(píng)分，之后使用統(tǒng)計(jì)分析軟件FACETS 3.68[17]，對(duì)評(píng)分進(jìn)行了多層面Rasch模型分析。由于本次評(píng)分中3位評(píng)分員從整體上對(duì)3個(gè)口試任務(wù)從4個(gè)維度來評(píng)分，所以本多面Rasch模型包括考生、評(píng)分員、評(píng)分標(biāo)準(zhǔn)3個(gè)層面。3個(gè)層面之間的關(guān)系可用以下數(shù)學(xué)模型來表示：

其中，pnjik表示評(píng)卷人j在題目i上給考生n評(píng)分為k分?jǐn)?shù)段的概率；pnji( ) k-1表示評(píng)卷人j在題目i上給考生n評(píng)分為k-1分?jǐn)?shù)段的概率；Bn為考生n的能力；Di為題目i的難度；Cj為評(píng)卷人j評(píng)分的嚴(yán)厲程度；而Fik為對(duì)于題目i取得k分?jǐn)?shù)段的難度。表3是評(píng)分量表4個(gè)維度的多面Rasch分析結(jié)果。

從表3可看出，表達(dá)的準(zhǔn)確性（測量值為0.48洛基）是考生失分最多的評(píng)分方面，實(shí)際上也沒有考生在該維度上得到滿分，是考生口語表達(dá)中的難點(diǎn)；在語音語調(diào)方面考生最容易得到分?jǐn)?shù)（測量值為-0.54洛基）。評(píng)分標(biāo)準(zhǔn)4個(gè)維度的分隔指數(shù)為2.16，分割信度為0.82（χ2=16.3,d.f.=3,p＜0.01），4個(gè)維度整體上有顯著區(qū)別，表明4個(gè)評(píng)分維度分別考查的構(gòu)念層面不同，且4個(gè)方面相對(duì)獨(dú)立。此外，4個(gè)維度的加權(quán)均方擬合統(tǒng)計(jì)量（InFit MnSq）介于0.70和1.00之間，且多都基本接近理想值1，說明觀測值與模型期望的情況擬合較好，說明4個(gè)維度雖然側(cè)重于不同的方面，但都屬于“口語能力”這一整體構(gòu)念。任務(wù)完成度維度的擬合值偏低（0.70），應(yīng)是由于試評(píng)分時(shí)不分任務(wù)、評(píng)分員對(duì)該維度的標(biāo)準(zhǔn)難以把握，進(jìn)而引起較多評(píng)分差異所致。因此，在進(jìn)一步修訂評(píng)分標(biāo)準(zhǔn)時(shí)，分3個(gè)任務(wù)分項(xiàng)評(píng)分。對(duì)4個(gè)分項(xiàng)維度層面的具體分析結(jié)果如下。

4.1.1 任務(wù)完成度

表4為任務(wù)完成度維度的多面Rasch數(shù)據(jù)分析情況。主要關(guān)注兩個(gè)測量指標(biāo)，即第4列的平均測量值（average measures）以及第5列的未加權(quán)均方擬合統(tǒng)計(jì)量（Outfit MnSq）。平均測量值應(yīng)從低分?jǐn)?shù)段向高分?jǐn)?shù)段單向遞增[18-19]。

從表4可以看出，6個(gè)分?jǐn)?shù)段的平均測量值從-6.82洛基單向遞增到4.67洛基。這種單向遞增的趨勢從圖3也可以看出。

表3 評(píng)分量表的4個(gè)維度統(tǒng)計(jì)結(jié)果

表4 任務(wù)完成度維度的分?jǐn)?shù)段統(tǒng)計(jì)

圖3 評(píng)分量表分?jǐn)?shù)段的概率密度曲線圖（任務(wù)完成度維度）

從圖3可以看出，6條概率密度曲線（分別代表6個(gè)分?jǐn)?shù)段）分布較均勻，而且都有一定的尖頂，表明能力處于該分?jǐn)?shù)段的考生很有可能獲得這個(gè)分?jǐn)?shù)段的分?jǐn)?shù)[20]。雖然，1～6個(gè)分?jǐn)?shù)段的曲線間間隔距離不是很均勻，但從左到右依次排列，呈現(xiàn)出單向遞增趨勢。

此外，未加權(quán)的均方擬合指數(shù)不可超過2，否則此分?jǐn)?shù)段就不能正確反映考生的實(shí)際能力[18]。表4第5列顯示，6個(gè)分?jǐn)?shù)段的未加權(quán)均方指數(shù)值均小于2，說明這6個(gè)分?jǐn)?shù)段均起到了它們應(yīng)有的評(píng)判作用。另外一個(gè)和評(píng)分量表有關(guān)的特征是分?jǐn)?shù)段標(biāo)定（step calibration）[21]，該指標(biāo)也應(yīng)從低分?jǐn)?shù)段向高分?jǐn)?shù)段單向遞增。從表4第6列可以看出，分?jǐn)?shù)段標(biāo)定測量值隨分?jǐn)?shù)的升高呈單向遞增趨勢。一般來說，每個(gè)分?jǐn)?shù)段標(biāo)定之間應(yīng)至少有1.0洛基的間隔[17]。表4顯示，6個(gè)分?jǐn)?shù)段之間基本符合這個(gè)要求，但第2級(jí)和第3級(jí)之間的間隔過大（4.71洛基），3級(jí)和4級(jí)之間的間隔又小于1.0洛基，這一情況從圖3也可以直觀地看出。所以可在2分和3分級(jí)別之間進(jìn)一步區(qū)分，并考慮合并3分和4分的分?jǐn)?shù)段，或修改評(píng)分量表的指標(biāo)描述語。

總體來看，在任務(wù)完成度這一維度上，平均測量值單向遞增，且各分?jǐn)?shù)段的未加權(quán)的均方指數(shù)都在可接受的范圍之內(nèi)，表明該評(píng)分標(biāo)準(zhǔn)在任務(wù)完成度維度上的表現(xiàn)尚可。

4.1.2 語音和語調(diào)維度

語音語調(diào)方面的多面Rasch分析數(shù)據(jù)如表5所示。

從表5可以看出，6個(gè)分?jǐn)?shù)段的平均測量值（第4列）從-7.75洛基單向遞增至5.57洛基，這種單向遞增的趨勢從圖4也可以看出。

圖4 評(píng)分量表分?jǐn)?shù)段的概率密度曲線圖（語音語調(diào)維度）

表5 語音語調(diào)維度的分?jǐn)?shù)段統(tǒng)計(jì)

6條分?jǐn)?shù)段概率密度曲線從左到右依次整齊地排列過去，呈現(xiàn)出單向遞增的趨勢；表明能力處于各個(gè)分?jǐn)?shù)段的考生得到這個(gè)分?jǐn)?shù)段的概率較高。此外，各曲線之間的間隔非常均勻，這一特征對(duì)應(yīng)于表5的第6列的分?jǐn)?shù)段標(biāo)定指標(biāo)。分?jǐn)?shù)段標(biāo)定呈單向遞增趨勢，且之間的間隔均勻，并都大于1.0洛基值。在未加權(quán)的均方指數(shù)指標(biāo)方面，表5第5列顯示，6個(gè)分?jǐn)?shù)段的未加權(quán)的均方指數(shù)均小于2，說明這6個(gè)分?jǐn)?shù)段起到了預(yù)期的評(píng)分作用。因此，在語音語調(diào)維度上，本口語測試評(píng)分量表的表現(xiàn)非常好。

4.1.3 語言準(zhǔn)確性維度

語言準(zhǔn)確性維度的多面Rasch分析數(shù)據(jù)如表6所示。

語言準(zhǔn)確性維度的多面Rasch分析數(shù)據(jù)只有5個(gè)分?jǐn)?shù)段。從表6可以看出，1～5個(gè)分?jǐn)?shù)段的平均測量值（第4列）從-5.29洛基單向遞增至4.24洛基，這種單向遞增的趨勢從圖5也可以看出。

圖5的5條概率曲線自左向右分別代表1～5個(gè)分?jǐn)?shù)段，呈現(xiàn)出單向遞增的趨勢。此外，表6第5列顯示，5個(gè)分?jǐn)?shù)段的未加權(quán)均方擬合指數(shù)均小于2，說明這5個(gè)分?jǐn)?shù)段都發(fā)揮了預(yù)期的評(píng)分作用。此外，從表6第6列可以看出，分?jǐn)?shù)段標(biāo)定也呈單向遞增趨勢，且各分?jǐn)?shù)段標(biāo)定之間的間隔都大于1.0洛基，只是2分和3分之間的間隔稍大，6分這一分?jǐn)?shù)段沒有使用到。從對(duì)3位評(píng)分員的訪談中可以得知，在表達(dá)的準(zhǔn)確性方面，幾乎沒有考生能夠得到滿分（6分），印證了這一數(shù)據(jù)分析結(jié)果。從表6可以看出，分?jǐn)?shù)段2使用頻率過高（26%），其余分?jǐn)?shù)段使用頻率相當(dāng)。因此在進(jìn)一步修改評(píng)分標(biāo)準(zhǔn)時(shí)，考慮了對(duì)分?jǐn)?shù)段2的指標(biāo)描述進(jìn)行細(xì)化和拆分?？傮w來說，在語言準(zhǔn)確性維度，評(píng)分量表的表現(xiàn)較好。

4.1.4 交際有效性維度

交際有效性的多面Rasch分析數(shù)據(jù)如表7所示。

從表7可以看出，6個(gè)分?jǐn)?shù)段的平均測量值（第4列）從-6.37洛基單向遞增至4.49洛基，這種單向遞增的趨勢從圖6也可以看出。

圖5 評(píng)分量表分?jǐn)?shù)段的概率密度曲線圖（語言準(zhǔn)確性維度）

表6 語言準(zhǔn)確性維度的分?jǐn)?shù)段統(tǒng)計(jì)

圖6中的6條概率密度曲線都有自己獨(dú)立的尖峰，且呈現(xiàn)出單向遞增的趨勢。此外，在未加權(quán)的均方指數(shù)指標(biāo)方面，表7第5列顯示，6個(gè)分?jǐn)?shù)段的上的作答表現(xiàn)來評(píng)出各維度得分，所以本維度的評(píng)分結(jié)果易受到考生在朗讀文段任務(wù)上的表現(xiàn)的影響。此外，評(píng)分員基本上都反映如果考生在朗讀時(shí)的語音語調(diào)較差，會(huì)影響對(duì)考生在交際有效性方面的評(píng)分。因此，在正式評(píng)分時(shí)采用分任務(wù)評(píng)分，可從一定程度上解決這一問題。未加權(quán)均方擬合統(tǒng)計(jì)量均小于2，說明這6個(gè)分?jǐn)?shù)段起到了預(yù)期的評(píng)判作用。分?jǐn)?shù)段標(biāo)定方面（第6列），除了分?jǐn)?shù)段4之外，其余分?jǐn)?shù)段標(biāo)定都呈單向遞增趨勢，且分?jǐn)?shù)段之間間隔都大于1?？傮w來說，在交際有效性維度上的評(píng)分標(biāo)準(zhǔn)具有較好的效度。此外，分?jǐn)?shù)段3和6的使用頻率過低，分別僅為8%和4%。因此，在進(jìn)一步修改評(píng)分標(biāo)準(zhǔn)時(shí)，考慮將分?jǐn)?shù)段3和4、分?jǐn)?shù)段5和6合并，并可結(jié)合評(píng)分員的反饋意見調(diào)整分?jǐn)?shù)段3和4的指標(biāo)描述語。

表7 交際有效性評(píng)分量表分?jǐn)?shù)段統(tǒng)計(jì)

圖6 評(píng)分量表分?jǐn)?shù)段的概率密度曲線圖（交際有效性維度）

此外，通過對(duì)3位評(píng)分員的訪談發(fā)現(xiàn)，“交際有效性”這一維度主要體現(xiàn)在對(duì)任務(wù)1（交際會(huì)話）和任務(wù)3（看圖說話）的評(píng)分上，而任務(wù)2為朗讀文段，不涉及“交際有效性”方面的表現(xiàn)。由于本次評(píng)分時(shí)要求評(píng)分員不分任務(wù)、從考生在整個(gè)口語測試

4.2 EBB評(píng)分標(biāo)準(zhǔn)修訂

在請3位評(píng)分員使用分項(xiàng)評(píng)分標(biāo)準(zhǔn)試評(píng)24個(gè)錄音樣本的同時(shí)，請他們隨時(shí)記下使用評(píng)分標(biāo)準(zhǔn)評(píng)分時(shí)遇到的任何問題、或想到的可改進(jìn)之處。在完成各自的評(píng)分任務(wù)后，研究者召集評(píng)分員，對(duì)其進(jìn)行集體訪談并共同討論評(píng)分情況，請其匯報(bào)對(duì)評(píng)分標(biāo)準(zhǔn)的看法及使用心得。3位評(píng)分員都表示，相對(duì)于傳統(tǒng)的文字描述式的評(píng)分標(biāo)準(zhǔn)，這種圖示型的分項(xiàng)評(píng)分標(biāo)準(zhǔn)看起來更加直觀、簡潔，更便于操作。尤其是在熟悉評(píng)分標(biāo)準(zhǔn)內(nèi)容之后，可以大幅度提高評(píng)分速度，聽錄音的同時(shí)即可完成評(píng)分任務(wù)。此外，本評(píng)分過程是一個(gè)不斷地進(jìn)行“是”與“否”的“二元判定”過程，評(píng)分員經(jīng)過首次判定即可確定考生所屬分?jǐn)?shù)段，保證了評(píng)分不會(huì)產(chǎn)生過大誤差。在對(duì)評(píng)分標(biāo)準(zhǔn)的修訂討論會(huì)上，評(píng)分員基于各自的評(píng)分實(shí)踐，對(duì)評(píng)分標(biāo)準(zhǔn)提出了以下建議：第一，圖示型評(píng)分標(biāo)準(zhǔn)應(yīng)以語音語調(diào)、準(zhǔn)確性、交際有效性和任務(wù)完成度這一先后順序來排列4個(gè)所評(píng)維度；第二，修改語音語調(diào)維度的指標(biāo)描述語，使表述更加清楚。第三，評(píng)分標(biāo)準(zhǔn)在形式上應(yīng)更加便于評(píng)分員使用。可采取如下措施：統(tǒng)一圖形中判定指標(biāo)的“是”“否”箭頭指向；將4個(gè)維度的評(píng)分標(biāo)準(zhǔn)放在一頁紙上，統(tǒng)一調(diào)整箭頭方向。第四，分任務(wù)評(píng)分，對(duì)朗讀文段的評(píng)分只關(guān)注語音語調(diào)和任務(wù)完成度兩個(gè)維度，具體評(píng)分維度如表8所示。

表8 修訂后的分項(xiàng)評(píng)分標(biāo)準(zhǔn)對(duì)各任務(wù)的評(píng)分維度

基于此，研究者和3位評(píng)分員使用分項(xiàng)評(píng)分標(biāo)準(zhǔn)，隨機(jī)挑選4個(gè)口試錄音樣本分任務(wù)評(píng)分，發(fā)現(xiàn)分任務(wù)、分維度評(píng)分更易操作，評(píng)分速度更快，并且3位評(píng)分員在每個(gè)任務(wù)的每一維度上的給分也較為一致（由于樣本過少，無法做量化分析）。雖然評(píng)分結(jié)果與不分任務(wù)所評(píng)得分在各維度上的結(jié)果差異很小，但3位評(píng)分員反映：分任務(wù)評(píng)分時(shí)，可專注于對(duì)每一個(gè)具體任務(wù)的評(píng)判，減少了認(rèn)知負(fù)擔(dān)；在不分任務(wù)評(píng)分過程中遇到的許多問題也得到了解決，對(duì)分項(xiàng)評(píng)分標(biāo)準(zhǔn)的把握更加清楚，從而提高了評(píng)分效率。

第五，在準(zhǔn)確度和交際有效性兩個(gè)維度上，3位評(píng)分員和研究者一致認(rèn)為，考生在回答問題時(shí)若句子不完整，只要所答與所問意義相關(guān)，那么在準(zhǔn)確性和交際有效性維度都可得一定分值，將這一具體說明也寫入了評(píng)分標(biāo)準(zhǔn)。

基于以上反饋信息以及多面Rasch的分析結(jié)果，研究者對(duì)評(píng)分標(biāo)準(zhǔn)的內(nèi)容進(jìn)行了修訂，對(duì)其呈現(xiàn)形式也進(jìn)行了優(yōu)化，并調(diào)整評(píng)分過程的具體要求和評(píng)分員計(jì)分表。

4.3 評(píng)分標(biāo)準(zhǔn)的二次驗(yàn)證

基于以上多面Rasch分析結(jié)果以及評(píng)分員的反饋信息，對(duì)評(píng)分標(biāo)準(zhǔn)進(jìn)行了較大調(diào)整，并經(jīng)過一位測試學(xué)專家的審讀和修改，形成了最終的評(píng)分標(biāo)準(zhǔn)。使用新的評(píng)分標(biāo)準(zhǔn)，請3位參加分項(xiàng)標(biāo)準(zhǔn)制定的成員對(duì)隨機(jī)抽取的100名考生的口語錄音進(jìn)行重新評(píng)分。將使用新評(píng)分標(biāo)準(zhǔn)所評(píng)總分與原基于經(jīng)驗(yàn)的總體印象評(píng)分標(biāo)準(zhǔn)評(píng)分進(jìn)行相關(guān)分析，進(jìn)而驗(yàn)證新評(píng)分標(biāo)準(zhǔn)的效度。獲得結(jié)果如表9所示。

表9 新舊評(píng)分標(biāo)準(zhǔn)相關(guān)研究描述性統(tǒng)計(jì)量

原始評(píng)分標(biāo)準(zhǔn)為整體評(píng)分標(biāo)準(zhǔn)，分3個(gè)任務(wù)來評(píng)，總分為10分，平均得分為4.80分，標(biāo)準(zhǔn)差為3.37；新的評(píng)分標(biāo)準(zhǔn)為分任務(wù)分項(xiàng)評(píng)分標(biāo)準(zhǔn)，總分為6分，考生最終得分平均分為3.12分，標(biāo)準(zhǔn)差為2.09分。相關(guān)統(tǒng)計(jì)量如表10所示。

表10 新舊評(píng)分標(biāo)準(zhǔn)相關(guān)統(tǒng)計(jì)量

兩次評(píng)分結(jié)果顯著相關(guān)（r=0.926，p＝0.000＜0.01），這一分析結(jié)果進(jìn)一步印證了新評(píng)分標(biāo)準(zhǔn)的效度。

5 討論與結(jié)語

從考生真實(shí)的測試表現(xiàn)出發(fā)制定評(píng)分標(biāo)準(zhǔn)，是一種自上而下的數(shù)據(jù)驅(qū)動(dòng)的標(biāo)準(zhǔn)制定方式。使用多面Rasch分析可以驗(yàn)證評(píng)分標(biāo)準(zhǔn)的質(zhì)量，結(jié)果表明，考生在語言準(zhǔn)確性方面還需要提高；語音語調(diào)、語言準(zhǔn)確性、交際有效性、任務(wù)完成度4個(gè)維度獨(dú)立測量了不同的方面，且都隸屬于“口語能力”這一總的測量構(gòu)念，表明該評(píng)分量表具有較好的效度。此外，擬合統(tǒng)計(jì)分析結(jié)果表明，6個(gè)分?jǐn)?shù)段的劃分合理，每一個(gè)分?jǐn)?shù)段都發(fā)揮了預(yù)期的評(píng)分功效?；诔醮悟?yàn)證結(jié)果，修訂了任務(wù)完成維度2級(jí)、3級(jí)和4級(jí)的描述語，細(xì)化了語言準(zhǔn)確性維度2級(jí)的描述語，合并了交際有效性維度的3級(jí)和4級(jí)的描述語，并決定在評(píng)分中采用分任務(wù)評(píng)分（對(duì)3個(gè)任務(wù)分別從語音語調(diào)、語言準(zhǔn)確性、交際有效性和任務(wù)完成度4個(gè)維度評(píng)分）。對(duì)新修訂的評(píng)分標(biāo)準(zhǔn)的相關(guān)分析印證了本EBB評(píng)分標(biāo)準(zhǔn)的效度。

本研究的結(jié)果為英語質(zhì)量監(jiān)測口語測試的效度論斷提供了來自“分?jǐn)?shù)解釋”層面的證據(jù)支持[22]，更對(duì)評(píng)分標(biāo)準(zhǔn)的研制有非常重要的意義：因?yàn)椴辉偈褂孟鄬?duì)模糊的描述語，而是采用二元判定的方法，減少評(píng)分員通過參照上下不同級(jí)別的考生表現(xiàn)評(píng)分的現(xiàn)象，提高了評(píng)分信度；這一標(biāo)準(zhǔn)制定方法簡單易行，在日?？谡Z教學(xué)中，英語教師可以基于所教學(xué)生的口語表現(xiàn)、所評(píng)任務(wù)的特點(diǎn)，制定具體的、有針對(duì)性的EBB口語測評(píng)標(biāo)準(zhǔn)，不僅能夠獲得關(guān)于學(xué)生口語表現(xiàn)的更準(zhǔn)確等信息，更能夠基于標(biāo)準(zhǔn)對(duì)學(xué)生的口語表達(dá)水平作出有效的反饋。

未來研究首先需通過更大的樣本對(duì)評(píng)分標(biāo)準(zhǔn)進(jìn)行進(jìn)一步的驗(yàn)證，此外可以通過觀察、訪談等質(zhì)性研究手段探究EBB評(píng)分標(biāo)準(zhǔn)在課堂評(píng)價(jià)和形成性評(píng)價(jià)中所發(fā)揮的反饋?zhàn)饔谩?/p>

[1]郭曉科.大數(shù)據(jù)[M].北京:清華大學(xué)出版社,2012.

[2]李國杰,程學(xué)旗.大數(shù)據(jù)研究:未來科技及經(jīng)濟(jì)社會(huì)發(fā)展的重大戰(zhàn)略領(lǐng)域——大數(shù)據(jù)的研究現(xiàn)狀與科學(xué)思考[J].中國科學(xué)院院刊,2012（6）:647-657.

[3]中華人民共和國教育部.義務(wù)教育英語課程標(biāo)準(zhǔn)（2011年版）[M].北京:北京師范大學(xué)出版社,2011.

[4]DAVIES A,BROWN A,ELDER C,et al.Dictionary of Language Testing[Z].Cambridge:Cambridge University Press,1999.

[5]MISLEVY R,STEINBERG L,ALMOND R.On the structure of educational assessments[J].Measurement:Interdisciplinary Research and Perspectives.2003,1（1）:3-62.

[6]FULCHER G.Testing Second Language Speaking[M].London:Longman,2003.

[7]NORTH B.The Development of a Common Framework Scale of Language Proficiency[M].Peterlang,2000.

[8]FULCHER G.Test of oral performance:The need for data-based criteria[J].English Language Teaching Journal,1987,41（4）:287-291.

[9]FULCHER G.Does thick description lead to smart tests?A databased approach to rating scale construction[J].Language Testing, 1996,13（2）:208-238.

[10]LUOMA S.Assessing Speaking[M].Cambridge:Cambridge University Press,2004.

[11]TURNER C E.Listening to the voices of rating scale developers: identifying salient features for second language performance assessment[J].CanadianModernLanguageReview,2000,56（4）:555-584.

[12]TURNER C E，UPSHUR J A.Rating scales derived from student samples:effects of the scale maker and the student sample on scale contentandstudentscores[J].TESOLQuarterly,2002,36（1）:49-70.

[13]POLLITT A,MURRAY N.What raters really pay attention to[C]// MILANOVIC M,SAVILLE N.Studies in Language Testing 3:Performance testing,cognition and assessment.Cambridge:University of Cambridge Local Examinations Syndicate and Cambridge University Press,1996:74-91.

[14]UPSHUR J A,TURNER C.Constructing rating scales for second language tests[J].English Language Teaching Journal,1995,49（1）:3-12.

[15]CHALHOUB-DEVILLE M.Deriving oral assessment scales across different tests and rater groups[J].Language Testing,1995, 12（1）:16-33.

[16]FURNER G.Scoring performance tests[C]//FULCHER G,DAVIDSON F.The Routledge Handbook of Language Testing.Routledge, 2012:378-392.

[17]LINACRE J.A User’s guide to FACETS Rasch-Model Computer Programs[M].Chicago,IL:MESA Press,2011.

[18]LINACRE J M.Investigating rating scale category utility[J].Journal of Outcome Measurement,1999,3（2）:103-122.

[19]PIQUERO A R,MACINTOSH R,HICKMAN M.Applying Rasch modeling to the validity of a control balance scale[J].Journal of Criminal Justice,2001,29（6）:493-505.

[20]PARK T.Investigation of an ESL placement test of writing using Many-facet Rasch Measurement[J].Working papers in TESOL& Applied Linguistics,2004,4（1）:1-21.

[21]BOND T G,FOX C M.Applying the Rasch Model:Fundamental Measurement in the Human Sciences[M].Mahwah,NJ:Lawrence Erlbarm Associates,2001.

[22]BACHMAN L F,PALMER A S.Language Assessment in Practice:Developing Language Assessments and Justifying Their Use in the Real World[M].Oxford:Oxford University Press,2010.

A Study of Constructing and Validating an EBB Rating Scale for a Large-scale and Low-stakes English Oral Test of 8th Graders

GAO Miao

Rating scale is actually the operationalization of the construct of a test.This article first introduces what EBB is and states its advantages by comparing it with other ways of constructing scales.Then how to construct EBB scale based on students’test performance data is introduced by presenting the procedure and the selection of data. Lastly,the scale is validated by utilizing the Multi-facet Rasch analysis and revisions are made accordingly.The results indicates that the EBB scale is both valid and reliable and of practicality.

EBB Scale；Oral Test；Multi-facet Rasch Analysis；Validity

G405

1005-8427（2016）12-0029-11

（責(zé)任編輯：周黎明）

本研究得到國家社科基金項(xiàng)目“中國初中英語教師評(píng)價(jià)素養(yǎng)量表研制與驗(yàn)證研究”（批準(zhǔn)號(hào)：15CYY022）及“中央財(cái)經(jīng)大學(xué)外國語學(xué)院2014年度院級(jí)課題”的資助。

高淼，女，中央財(cái)經(jīng)大學(xué)外國語學(xué)院，講師（北京 100081）

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于多面Rasch模型的初中英語口語測試EBB評(píng)分標(biāo)準(zhǔn)研究與效度驗(yàn)證

1 研究背景

2 相關(guān)研究文獻(xiàn)

3 研究問題及步驟

4 研究結(jié)果

5 討論與結(jié)語