英語口語測試信度對比研究

2015-05-04 02:05:52劉卓瑛

張家口職業(yè)技術學院學報 2015年2期

關鍵詞：口試考官效度

王珊，劉卓瑛

(1.海南師范大學外國語學院，海南?？?571158；2.張家口職業(yè)技術學院，河北張家口 075051)

英語口語測試信度對比研究

王珊1，劉卓瑛2

(1.海南師范大學外國語學院，海南?？?571158；2.張家口職業(yè)技術學院，河北張家口 075051)

通過對比計算機輔助口試和傳統(tǒng)面試型口試在內容信度、實施信度和評分信度方面研究發(fā)現(xiàn)：在內容信度一致的情況下，計算機輔助口試的實施信度和評分信度明顯高于面試型口試。機試兩位評分老師的評分相關系數(shù)為0.889，高于口試0.762的相關。同時，問卷調查顯示63.09%的學生認為口語機考不存在評分老師的印象分，因此更加公正。

計算機輔助口語機考；面試型口語考試；信度

1 引言

隨著我國改革開放的不斷深入，我們與國際社會在政治、經(jīng)濟、文化等領域進一步擴大交流，對能夠嫻熟使用外語進行口頭交流的人才需求日益增加。因此，外語口語測試具有重大的實際意義。金艷(2000)指出口語測試對口語教學有極強的“指揮棒”作用，科學的口語能力測試能夠推動口語教學向著正確的方向發(fā)展。蔡基剛(2005)更進一步指出大學英語四、六級口試不僅對大學英語教學產(chǎn)生影響，甚至對中、小學英語教學也起到指揮棒的作用。雖然大學英語四、六級考試委員會早在1999年就開始實行了四、六級口語考試，但是由于存在考試信度、效度、師資、時間、費用等諸多問題，大學英語口語測試一直難以大規(guī)模推廣普及(周忠新，2007)。2005年2月，國家四、六級考試委員會在正式出臺的《全國大學英語四、六級考試改革方案(試行)》中明確提出“將積極研究開發(fā)計算機口語測試，以進一步擴大口語考試規(guī)?！薄Ｓ嬎銠C輔助英語口語測試能否在保證測試信度和效度的前提下使英語口試得以大規(guī)模的實施，并使口語測試的反撥作用得以充分發(fā)揮成為當今國內外語教學研究的熱點之一。

2 口試信度和評分標準

信度表示口語測試結果的穩(wěn)定性，即同一考生在不同測試條件下測試結果應當是一致的。測試的信度與效度之間存在著密切的關系，但是需要說明的是這種關系是單方向的。信度低則效度差，而效度差信度不一定低，即口語測試的高信度是高效度的保障(劉潤清，1991：19)。口試信度主要包括內容信度、實施信度和評分信度。在外語口語測試中，評分信度一直受到研究者的密切關注。因為考官對評分誤差的控制在很大程度上決定了口試的信度，誤差越大，信度越低，反之亦然。實行多人對同一考生打分可以消除評分誤差，提高口試信度。另外，口試信度還受到考官對評分標準的理解和把握。二語口語測試中常用的評分標準有三種：分析評分法(analytic scoring)、綜合評分法(holistic scoring)和任務分項評分法(item analytic scoring)。第一種方法是指考官對考生的口語水平的不同維度進行評分，例如考生的語音、語法、流利程度等維度分項打分，然后依據(jù)各個分項得分算出總分。第二種評分方法是考官按照一定的評分準則根據(jù)自己對考生口語水平的總體印象進行打分。這種評分方式的特點是速度快，適用于大規(guī)模的口語考試。第三種評分方法是考官對考生完成每項任務完成情況進行打分，例如內容、語言表達等?？偡指鶕?jù)每項任務完成的得分計算得出。呂長竑等(2008)比較研究了這三種口語測試常用的評分標準。他們發(fā)現(xiàn)分析評分法的效度和信度最高，但是要求授權考官必須經(jīng)過嚴格的閱卷培訓。就大學英語口語實施的實際情況而言，綜合評分標準最符合這種大規(guī)?？谠嚳刹僮餍暂^強、效度和信度較高的評分要求。

3 口試形式

Clark(1975)最早將口語分為直接型口試和間接型口試。直接型口試又稱面試型口試(Oral Proficiency Interview簡稱OPI)，具有較高的表面效度，可以較為真實地測試學生的交際能力，但評分信度通常較低。間接型口試也稱錄音考試(Simulated Oral Proficiency Interview簡稱SOPI)，利用磁帶方式錄音，實行評分和考試分開，因此信度高于面試型口試。國內金艷和郭杰克(2002)在探索磁帶錄音式口試時發(fā)現(xiàn)錄音考試考官的評分相關為0.835，評分信度比較令人滿意。隨著科技的不斷進步，口語考試形式現(xiàn)在正在向計算機輔助口試(Computer-based Oral Proficiency Test 簡稱COPT)方向發(fā)展。COPT通過計算機來提供聲音、圖像及視頻，讓考生按照指令回答問題，考試結束后計算機自動記錄并存儲考生回答，考官則根據(jù)所錄音頻或錄像來給予評分。蔡基剛(2005)研究結果表明計算機口試無論在效度和信度方面都超過四、六級面試型口試；在考試成本上也有較大的降低。

本文主要通過對比面試型口試與計算機輔助機試兩種測試方式在內容信度、實施信度和評分信度的差異，研究后者能否取代前者的可行性，為實現(xiàn)大規(guī)模英語口試提供實證研究依據(jù)。

4 研究結果與分析

本研究的對象是海南師范大學二年級非英語專業(yè)學生和參加評分的老師?？忌煜鹘y(tǒng)的面對面型口語測試方式和計算機輔助機試，本次口語考試成績將計入期末總評成績，因此考生十分重視本次口試。

4.1 內容信度

考試內容的長度、難度與區(qū)分度是影響內容信度的三個因素(Bachman,1999)。從理論上說，測試內容覆蓋面越廣，時間長度越長，測試信度越高。本次期末口語考試的題型為回答問題，測試內容是視聽課堂所學過的知識，試題題庫于考前一周公布，要求學生對每個問題做好充分的準備，考試時隨機發(fā)放試題。這樣避免了考生對某一考題準備充分得高分而對另一話題沒準備而得分的情況，從而提高了口語測試的內容信度?？忌紫仍谡Z音實驗室參加機試，錄音由外教社大學英語口語考試系統(tǒng)自動收取并存儲，教師給音頻錄音評分?？荚嚱Y束兩天后，我們從參加機考的全年級中隨機抽取了一個班41名考生使用傳統(tǒng)的面對面考試形式對他們再次進行了口語測試，題型和考題內容不變，考生采用抽簽的方式進行傳統(tǒng)的面試型口試。因此，兩種口試的內容信度是一致的。

4.2 實施信度

所謂實施信度是指測試準備和過程的可靠性。蔡基剛(2005)在分析考試條件時指出，面試型口試的實施信度依賴于考官現(xiàn)場的諸如語音、語調、語速、精神狀態(tài)等可變因素。如果考官語速過快、口氣過硬和發(fā)音模糊都會影響到考生口語水平的發(fā)揮。在本次研究中，問卷調查結果表明有58.35%的考生表示在面試型口試中會因為聽不懂指令而不知道說什么。而只有3%的考生認為口語機考的指導信息和提示信息不清楚。在面試型口試過程中，考官容易對講得流利的考生更加寬容而對講得結結巴巴的考生耐心欠佳而出現(xiàn)對口試規(guī)定時間任意地延長或縮短。但是在計算機口試中則不會出現(xiàn)這種情況，因為考試時間會在電腦屏幕上自動顯示，考試同時開始進行和結束。這樣每一位考生的考試時間都得到保證從而提高了考試的實施信度。

4.3 評分信度

評分信度取決于評分標準、評分依據(jù)和評分者。在本研究中，計算機口試和面試型口試均采用了既符合期末大規(guī)?？荚囈?、信度和效度又較高的綜合評分法(呂長竑，2008)。兩組參加評分的老師均已從事大學英語教學十年以上，擁有研究生學歷。唯一的差別是評分依據(jù)不同：面試型口試的兩位評分老師現(xiàn)場同時給一位考生打分；機考兩位評分老師拿到學生錄音材料后分別在各自的電腦上閱卷。如表1，表2所示，計算機口試的評分信度明顯高于傳統(tǒng)的面試型口試。

表1：面試型口試兩位老師評分相關性

**. 在 .01 水平(雙側)上顯著相關。

表2：計算機口試兩位老師評分相關性

**. 在 .01 水平(雙側)上顯著相關。

表1和表2顯示面試型口試兩位老師評分的相關是0.762；計算機口試兩位老師評分的相關是0.889，高于面試型評分。雖然兩組老師使用的都是綜合評分法，但是機考評分老師的評分信度比較令人滿意。學生在面對面口試時容易緊張，評分老師長時間的評分工作易引起疲倦，這都會影響到考試的效度和信度。相對于教師和學生面對面的口語測試，計算機輔助口試可以使考生口語水平的發(fā)揮不受考官情緒的影響；評分可由教師在方便的時間和舒適的地方進行；相同的考題使測試信度得到保證。這一研究結果與學生調查問卷中的一項調查結果相吻合。如表3所示，63.09%的學生認為機考的評分更加公正。

表3：口語機考不存在考官對考生的印象分，因此更公正

4.4 面試、機試成績描述統(tǒng)計量

本次期末大學英語口語考試總分為100分，如表4所示，考生的機試平均分74.15分，略高于面試平均分，說明學生對課堂學習的知識掌握較好。對于滿分100分的考試而言，機試標準差8.49很小，面試標準差9.68高于機試。這說明學生機試的表現(xiàn)比面試相近。面試的各項成績低于機試可能是由于學生面對考官時的緊張和焦慮造成的。調查問卷顯示，56.7%的受試者認為在面試型口試中感到緊張和焦慮。

表4：面試、機試描述統(tǒng)計量

5 結語

綜上所述，計算機口試無論在內容、實施和評分方面都具有較高的信度。且在內容信度一致的情況下，機試的實施信度和評分信度都高于傳統(tǒng)的面試型口試。計算機口試科學合理的評分是確?？荚囆哦群托Ф鹊年P鍵,計算機輔助口語測試是一種較為理想的口語測試手段，評分結果令人滿意。但是如果計算機輔助口語測試采用綜合法和分析法相結合來評分是否會取得更高的信度呢？例如，劍橋大學考試委員會的口語測試就是運用綜合/分析法評分；國內大學英語四、六級口試 ( CET - SET )也是采用分析性的綜合評分法。楊惠中(1999)認為該評分方法科學、客觀, 而且有很強的可操作性。另外，評分員自身必須加強語言測試理論的學習和研究，培訓環(huán)節(jié)是必不可少的。

[1]教育部高等教育司. 大學英語課程教學要求(試行)[Z].上海: 外語教育出版社,2004.

[2]考委會. 全國大學英語四、六級考試改革方案(試行)[Z].大學外語教學通訊，2005，(1).

[3]蔡基剛. 大學英語四、六級計算機口語測試效度、信度和可操作性研究[J]．外語界，2005，(4)：66 -75．

[4]金艷. 大學英語四、六級考試口語考試對教學的反撥作用[J].外語界,2000,(4).

[5]金艷，郭杰克. 大學英語四、六級考試非面試型考試效度研究[J].外語界，2002，(5): 72-79.

[6]劉潤清. 語言測試和它的方法[M]. 北京：外語教學與研究出版社，1991.

[7]呂長竑，宋冰，王焰，劉文麗，黎斌. 口語測試評分標準比較研究[J].外語教學與研究，2008，(6)：440-446.

[8]楊惠中. 大學英語口語考試設計原則[J].外語界,1999,(3): 48-57.

[9]周忠新.大學英語大規(guī)模口語測試的探討研究[J]. 教學研究, 2007, ( 1) : 44-48.

[10]Bachman, L. F. Fundamental Considerations in Language Testing[M]. 上海：上海外語教育出版社，1999.

[11]Clark J L. Theoretical and technical considerations in oral proficiency test[A]. In Randall L J, Spolsky B (Ed). Testing Language Proficiency[C]. Virginia: Centre for Applied Linguistics, 1975.

A Comparative Study of the Reliability of Oral Proficiency Test

WANG Shan1，LIU Zhuo-ying2

(1.School of Foreign Languages Study, Hainan Normal University, Haikou, Hainan 571158;2. Zhangjiakou Vocational and Technical College, Zhangjiakou, Hebei 075051)

When examining the inter-reliability of the Computer-based Oral Proficiency Test (COPT) and Oral Proficiency Test (OPT), the findings show that inter-reliability of COPT is higher than that of OPT in terms of implementing and rating when contents of both tests are equal. The findings also show that the inter-reliability of raters of COPT obtains a correlation of 0.889, higher than that of OPT, 0.762, which coincides with the results of a survey conducted to the students, in which 63.09% of them hold the belief that rating of COPT is more reliable than that of OPT. The research proves the higher reliability of COPT.

OPI; COPT, reliability

2015-03-21

王珊(1978-)，女，海南?？谌耍v師，碩士。研究方向：英語語言教學和測試。

本文為2011年度海南省高校大學英語教改項目“計算機輔助英語口語測試的實效性研究”(項目編號：Hyjg2011-7)的研究成果。

H319

1008-8156(2015)02-0055-03

修回日期：2015-05-05

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

英語口語測試信度對比研究

1 引言

2 口試信度和評分標準

3 口試形式

4 研究結果與分析

5 結語