大學英語配對口語測試中評分員傾向?qū)υu分行為的影響

2012-05-08 09:10:05史天化

大理大學學報 2012年2期

關(guān)鍵詞：外向一致性偏差

史天化

（福建工程學院外語系，福州 350108）

大學英語配對口語測試中評分員傾向?qū)υu分行為的影響

史天化

（福建工程學院外語系，福州 350108）

多面Rasch模型（MFRM）被運用來分析大學英語配對口語測試中評分員傾向?qū)υu分寬嚴度和一致性的影響。采用SPSS和MFRM分析4名有經(jīng)驗的評分員對10對考生的評價數(shù)據(jù)，結(jié)果表明不同性格特征的評分員在寬嚴度方面存在差異，內(nèi)向的比外向的評分員更嚴格；而內(nèi)、外向評分員在自身一致性方面沒有明顯的差別。

多面Rasch模型；配對口語評分；評分傾向

在語言測試領域，對口語評分的研究一直是口試研究的重點之一。我國外語教學中很多考試也都包含口語測試部分，以檢查考生口語表達能力。其中，評分的信度如何，評分是否合理、公平等問題是語言教學和測試研究的重點課題之一。目前，口語研究多側(cè)重于3人以上的小組測試模式，比如Berry〔1〕，Ockey〔2〕等，很少有對雙人配對口語測試中個性因素對評分影響的研究。本研究以英語在中國高校作為一門重要公共必修課為背景，結(jié)合新建應用型本科院校的特點，以某工科院校非英語專業(yè)大學生為實驗對象，對雙人配對口語測試中評分員傾向?qū)υu分影響進行實證研究。

一、相關(guān)研究

在過去二十多年里，國外諸多學者專家們，如Iwashita〔3〕，Orr〔4〕，Lyn May〔5〕，等等，就不同配對模式，學生外語水平，性格情感特征，學生學習風格偏好與學生性別，專業(yè)及母語類型等因素對口語產(chǎn)出產(chǎn)生的影響進行了一系列的研究。相比國外，國內(nèi)在外語教學中的口語測試和口語測試領域的研究都要晚得多。目前影響最廣的大學英語四、六級考試和高校英語專業(yè)四、八級考試長久以來并不包含口語測試部分，直至1994年英語專業(yè)四級考試才開始進行錄音口試試點（文秋芳〔6〕），1999年大學英語四、六級考試才開始有條件的口語測試（考生筆試成績達到一定分數(shù)才有資格參加）。而在口語測試領域，研究課題主要來自國外研究的啟發(fā)和國內(nèi)口語測試的實踐，包括測試形式（盛越，管博〔7〕），口試真實性（鄒申〔8〕）以及大學英語口試（熊敦禮等〔9〕）和英語專業(yè)四級考試（文秋芳）的效度等。

二、研究問題

口語評分屬主觀性評分，往往通過讓考生完成一項指定任務，展示其在問題解決中的推理、判斷和表達等方面的技能，然后評分員依據(jù)既定的標準對考生的表現(xiàn)進行綜合評定。其中，評分者的個人特征，如知識背景、經(jīng)驗閱歷、情緒高低、疲勞程度以及性格特征等都會對評分的信度、效度產(chǎn)生影響。這就是測試中所謂的評分者偏差。Skehan〔10〕提出，在配對口語中，口語評分是多重因素互相影響的結(jié)果，這些因素包括考生之間、任務特點、評分標準以及評分員等。如圖1所示，examiners（評分員）和task characteristics（任務特點）會影響到受試的performance（表現(xiàn)），而評分員又按照評分標準進行評分，最終得出考生的口語成績。雖然圖型很簡單，但是在實際操作過程中卻很復雜。

依據(jù)Skehan的口語評分模型，本研究要探討的研究問題是：①內(nèi)、外向評分員在配對口語測試的評分過程中評分寬嚴度是否有差異？②內(nèi)、外向評分員能否保持自身一致性？

圖1 Skehan口語評分擴展模型

三、研究設計

（一）實驗對象

共有20名學生參加該實驗，年齡為19～21歲，系福建某學院一年級學生，從3個工科專業(yè)中隨機挑選出來?？忌蝿赵O計按照學院期末口語考試模式。首先，考生2人1組，共10組，接著從12個備選題目中抽取試題，準備3分鐘，然后要求考生依據(jù)題目要求在3～5分鐘時間內(nèi)完成口語對話?？忌目谡Z產(chǎn)出全部通過計算機口語考試系統(tǒng)自動錄音。20名考生的音頻文件全部轉(zhuǎn)寫為文本文件。

（二）評分

評分員是4位具有副教授職稱，有口語評分經(jīng)驗的大學英語專業(yè)教師。其中性格偏內(nèi)向和外向各2人，其內(nèi)、外向人格傾向和特征事先經(jīng)“艾森克人格問卷量表”檢測。評分員依據(jù)語言準確性和范圍，話語的長度和連貫性，語言靈活性和適切性以及兩人的交互等5個方面對20名考生進行評分。

四、結(jié)果和討論

本實驗采用SPSS和Rasch模型（Linacre〔11〕）對數(shù)據(jù)進行分析。Rasch模型可以看作是包含考生能力和項目難度層面的雙層模型。該模型是丹麥數(shù)學家Rasch提出的，以其統(tǒng)計上的優(yōu)點和參數(shù)估計的便利性而著稱。多面Rasch模型可以獨立估計評分者寬嚴程度、考生能力和項目難度等，校正主觀評分中各因素對評分結(jié)果的影響，提高評分結(jié)果的信度。以上因素在模型中都被設定為獨立的參數(shù)，以logits（洛基量尺）作為單位。本研究采用此模型，分析在配對口語測試中評分員性格特征對評分寬嚴度和一致性產(chǎn)生的影響及評估員的評分偏差問題。

（一）評分者的寬嚴度與一致性

根據(jù)表1，第三列為評分寬嚴度（使用洛基量尺），大多數(shù)學者認為評分嚴格度在-2～+2之間是可接受的范圍。

表1 評分者寬嚴度Facets估計

表1顯示，4位評分員的評分嚴格度都在可接受范圍。其中評分者D的logit值為-0.39，是最寬松的評分者，評分者B的logit值為0.88，是最嚴格的評分者。評分者B和D之間的差異為1.27個logits。第五列為內(nèi)適合度均方，反映評分員評分行為自身一致性的信息。通常Rasch模型容許評分者的一致性在一定范圍內(nèi)波動，但是某個評分者如果波動的幅度過大，則說明該評分者評分穩(wěn)定性差，缺乏一致性。通常專家們認為在0.8～1.2之間是可接受的（Davies〔12〕等）。Fit（適合度）值小于0.8或者大于1.2都表示該評分者在評分過程中沒有能夠正確地使用評分標準，缺乏自身一致性。從表1中看出，評分員A的Fit值小于0.8，則表明該評分員在評分過程中小于模型預期的變化幅度。也就是說該評分者在評分過程中使用了安全策略，自身表現(xiàn)出過度的一致性，未能對考生作出很好的區(qū)別和區(qū)分；而評分員C的Fit值為1.44，說明該評分員評分的變異性大于模型預期的變異程度。表明該評分員在評分過程中變異過大，自身缺乏一致性。因此，評分員A和C都缺乏自身一致性；而評分員B和D的Fit值處在0.8～1.2之間，其自身一致性較好。第六列為標準差（Standard Error），是評分者寬嚴度估計值的標準差，0.10表明了該估計值的精確程度。

（二）評分偏差

表2列出了4位評分者的評分與考生實際口語能力之間的偏差。由于篇幅所限，在此只列出前五位和最后五位。

表2 偏差分析

表2中第三列為模型對考生能力的預估，第四列是考生的所得分數(shù)，第五列是模型經(jīng)過分析后得出的考生應得的分數(shù)，第六列為均值，第七列是偏差值，第八列是誤差，最后一列是顯示偏差度的Z分數(shù)。偏差度的可接受范圍是-2～+2，大于+2表示該評分員評分時過于嚴格，比如評分員A在評價五號受試時，偏差度的Z分數(shù)為2.07，表明該評分偏差較大，屬無效評分。除此以外，其他的評分都是在統(tǒng)計上有意義的分數(shù)。從表2中可以看出，前五位考生的期望值均大于觀察值，說明這5位考生的實際能力均高于他們的實際得分，即評分員評分過于嚴格。而后五位的期望值均低于觀察值，評分員過于寬松。以19號考生為例，模型對該考生的能力評估為0.32，而實際分數(shù)為3分，這一分數(shù)比模型對該考生預期的分數(shù)2.7高，這表明評分員D在評分時有些寬松，存在偏差。

總之，評分員的性格特征會對評分過程產(chǎn)生影響，通常內(nèi)向的比外向的評分員更嚴格，而在評分一致性上，內(nèi)、外向的評分員并沒有表現(xiàn)出明顯的差別。

五、結(jié)語

本研究在配對口語評分中引入多面Rasch模型，分析了內(nèi)向和外向評分員在評分過程中的評分偏差、寬嚴度及一致性問題，為以后口語測試中評分員的培訓提供借鑒和依據(jù)，進而為傾向于犯不同類型的評分者偏差的評分員提供有針對性的培訓和反饋。不過這個問題還需要從評分員評分過程中的認知方面作進一步探討，詳細地了解評分員在口語評分過程中關(guān)注的那些具體評分標準以及一些非評分標準相關(guān)的信息。因此，以后研究中可以采用有聲思維等方法從信息處理的方面繼續(xù)深入研究。

〔1〕Berry V.A study of the interaction between individual personality differences and oral performance test facets〔J〕. Unpublished doctoral dissertation，2004（1）：25.

〔2〕Ockey G J.Is the oral interview superior to the group oral?〔J〕Working Papers on Language Acquisition and Education，2009，17：165-167.

〔3〕Iwashita N.The validity of the paired interview in oral performance assessment〔J〕.Melbourne Papers in Language Testing，1998（5）：51-65.

〔4〕Orr M.The FCE Speaking test：using rater reports to help interpret test scores〔J〕.System，2002（30）：143-154.

〔5〕May L.Assessment of oral proficiency in EAP programs：A case forpairinteraction〔J〕.Language and Communication Review，2009（9）：13-19.

〔6〕文秋芳.英語口語測試與教學〔M〕.上海：上海外語教育出版社，2000.

〔7〕盛越，管博.配對形式在口語考試中的作用：從劍橋第一證書口試看配對形式的作用〔J〕.蘭州鐵道學院學報：社會科學版，2000，19（5）：130-131.

〔8〕鄒申.試論口語測試的真實性〔J〕.外語界，2001（3）：74-78.

〔9〕熊敦禮，陳玉紅，劉澤華，等.大學英語大規(guī)模錄音口語測試研究〔J〕.外語教學與研究，2002，34（4）：283-287.

〔10〕Skehan P.A cognitive approach to language learning〔M〕.Oxford：Oxford University Press，1998：172.

〔11〕Linacre J M.A User's Guide to FACETS：Rasch-Model Computer Program〔M〕.Chicago：MESA Press，2005：59-61.

〔12〕Davies.Dictionary of Language Testing〔M〕.Cambridge：Cambridge University Press，1999.

（責任編輯黨紅梅）

Influence of Rater Orientation on Rating in Paired Oral Test

SHI Tianhua
（Department of Foreign Languages,Fujian University of Technology,Fuzhou 350108,China）

Many-Facet Rasch Model（MFRM）was adopted to investigate whether rater personality types had observable effect on the severity and internal self-consistency of rating.Four experienced raters and 10 paired candidates were selected and evaluation data were analyzed by SPSS and MFRM.The results showed that raters with different personality types had rated differently: introverted raters were more severe than extroverted ones;and in terms of the self-consistency in rating,there were no significant difference between them.

Many-Facet Rasch Model;paired oral scoring;rating bias

G642.475

1672-2345（2012）02-0040-04

2010年福建工程學院教育科學規(guī)劃課題（GB-K-10-18）

2011-12-10

史天化，講師，主要從事語言測試和二語習得研究.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

大學英語配對口語測試中評分員傾向?qū)υu分行為的影響

一、相關(guān)研究

二、研究問題

三、研究設計

四、結(jié)果和討論

五、結(jié)語

一、相關(guān)研究

二、研究問題

三、研究設計

四、結(jié)果和討論

五、結(jié)語