《聽力測試
——第二語言聽力評估的研究與實踐》評介*

2017-03-11 01:49:03雷雪梅辜向東

外語與翻譯 2017年1期

雷雪梅辜向東

雷雪梅辜向東

1.引言

效度(validity)是測試評價中需要考慮的最重要的因素之一。Messick (1989:13) 對效度的定義是“對經驗證據和理論依據在多大程度上支持分數的解釋與使用所進行的綜合評價?！痹摱x具有歷史意義，因為它明確了效度驗證的對象是測試結果的解釋和使用(Davies 2003)?；贛essick的整體效度觀，Weir (2005) 構建的“基于證據的效驗框架” (Language Testing and Validation: An Evidence-Based Approach 2005)(以下簡稱“效驗框架”)，從社會認知視角出發(fā)，涵蓋了五個方面的效驗證據：基于理論的效度(后改為認知效度)、情境效度、評分效度、效標關聯(lián)效度和后果效度。該效驗框架可操作性強。劍橋大學外語考試部(Cambridge English Language Assessment)借用該框架，對劍橋英語五級證書考試(Main Suite Examinations, 縮略為MSE)(KET1, PET2, FCE3, CAE4, CPE5)進行了一系列的實證研究，為語言能力測試的效度對比研究提供了基礎，出版了四部分別針對聽、說、讀、寫四項技能的編著，從理論和實踐兩方面闡述了MSE的效度驗證過程。

Ardeshir Geranpayeh 和 Lynda Taylor 于2013年合編的《聽力測試——第二語言聽力評估的研究與實踐》(ExaminingListening—ResearchandPracticeinAssessingSecondLanguageListening)，是該系列叢書第四部有關劍橋大學外語考試部語言能力測試的編著。該書繼續(xù)沿用同系列測試專著的理論框架，即Weir (2005) 的“效驗框架”，從“受試特征、認知效度、環(huán)境效度、評分效度、后果效度和效標關聯(lián)效度”六個方面對MSE考試的聽力測試進行效度驗證。該書將效驗理論與實踐相結合，對聽力技能的定義和聽力測試過程做了全新闡釋。本文就該書的主要內容作簡要介紹與評述。

2.內容簡介

全書共分八章，書末附有附錄。

第一章是由Lynda Taylor 完成的簡介。本章開篇強調公共或商業(yè)測試機構有責任和義務向公眾解釋其測試原理和施測情況，因為公開性和透明度應是測試開發(fā)者首先要考慮的問題。接著簡要介紹該書的主要內容，定位該書的讀者群體，說明其出版目的和編寫基礎。本章系統(tǒng)回顧了MSE考試的聽力測試發(fā)展過程，分析和描述“框架”用來效驗MSE考試在六個方面的效度。此外，作者概述該書第二章至七章的內容結構：理論闡述，文獻綜述及MSE考試聽力測試相應的效度情況。

第二章為Mark Elliott分析的“受試特征”。作為任何測試行為的核心，受試的生理特點(年齡、性別、短期疾病、長期殘障等)，心理特點(人格、情感圖示、動機等)，以及經歷特點(教育、考試準備、居住經歷等)都有可能影響受試在測試中的表現?；贛SE考試中使用的考生信息表(Candidate Information Sheet)，作者全面展示參加MSE考試的考生在以上三個方面的特點。分析受試特點有利于不斷改進和完善MSE聽力測試，確保受試群體使用的測試材料的穩(wěn)定性，為利益相關者提供有關英語學習、教學、評估方面的信息。本章強調MSE考試不僅考慮受試整體特征，還兼顧個別受試的特殊需求。本章最后提出如何應對聽力測試中可能遇到的特殊情況。

第三章為John Field 撰寫的“認知效度驗證”。本章寫作實現了兩個目的：一是勾勒出聽力概念的加工模式，為研究其它測試的認知效度提供理論框架；二是確定試題設計中可能增加受試認知負擔的影響因素。進行認知效驗的目的是了解“錄音”、“測試方式”和“測試題”這三大要素在MSE聽力測試中的代表性和全面性。作者強調效驗聽力測試應考慮三點：加工過程的相似性、全面性和校準?；谝延械睦碚摵蛯嵶C數據，作者把聽力加工過程分為五個層級：輸入解碼(input decoding)、詞匯搜素(lexical search)、句法分析(parsing)、意義構建(meaning construction)、話語構建(discourse construction)。本章應用該模式從理論和實證兩個角度回顧關于聽力本質的相關研究，尤其是聽力的認知加工過程，剖析不同語言水平受試在做MSE考試聽力任務時的認知過程，并嘗試從聽力測試基本要素“錄音、測試方式和測試題”三個方面評估該系列考試的聽力測試在多大程度上“復制”或“反映”真實世界的聽力任務特征。這種基于認知的聽力測試效度比較能向利益相關者提供較為全面的測試難度信息。在分析試題時，作者提出了增加試題難度的方式, 如增加試題長度、加大試題的復雜度等。但作者同時強調測試的初衷是測試聽力, 而非閱讀能力。這一論點尤其應該引起試題開發(fā)者的注意。

第四章，Mark Elliot 和 Julith Wilson 合作撰寫了“情境效度驗證”。在相關研究中，“情境”變量被認為會影響受試的聽力表現。兩位作者把與“情境效度”相關的因素確定為“任務設置”、“語言要求”(任務輸入和輸出)和“說話人”，并闡釋該系列考試聽力測試的情境變量在不同水平測試中的表現情況，尤其是難度級別。根據情境效度參數分析測試任務有助于人們發(fā)現試題設計中的問題，比如作者特別提到各級別考試的規(guī)范說明(考試手冊)對考試重點術語沒有統(tǒng)一，容易造成誤解。

第五章為Ardeshir Geranpayeh撰寫的“評分效度驗證”。該章從“測試難度”、“項目偏差”、“內部一致性”、“測試誤差”、“評分”和“分數報道”等方面探討與聽力測試評分效度相關的因素。本章重點關注兩方面:一是測試材料的適宜性, 即測試難度和內容的一致性(internal consistency)；二是數據處理，即減少不利變量如題目偏差(item bias)等因素造成的負面影響。作者介紹了MSE為保證評分效度在這兩方面所采取的措施，并用FCE測試分數報道說明評分效驗能給測試使用者提供有用信息。作者也談及評分效度未來面臨的挑戰(zhàn)，例如如何將測試的有用性最大化，以滿足測試分數使用者不斷提高的期望值，如何充分描述分數反映的聽力能力等。這些挑戰(zhàn)正是該領域未來研究應關注的方向。

第六章是由Roger Hawkey 主筆的“后果效度驗證”?；贛SE考試多年在效驗方面的經驗，作者對Weir (2005)的“后果效度”做了重新闡釋?！昂蠊Ф取敝攸c關注分數解釋，但也包括測試對相關個人所產生的反撥效應(washback)和對相關機構及社會產生的影響(impact)。本章主要討論后果效度研究的實質、“影響”過程的復雜性以及測試反撥效應在效驗高風險國際測試過程中復雜的作用機制。作者梳理了有關MSE考試后果效度的研究，旨在幫助該機構了解其系列考試的后果效度，尤其是與聽力測試有關的部分。本章還重點列出聽力測試對課堂聽力教學的負面影響，如采用應試材料、強化聽力訓練、強調應試策略等。因此作者提出應重視后果效度研究，提高試題質量，增強測試的正面影響。

第七章是由Gad S Lim 和 Hanan Khalifa合作撰寫的“效標關聯(lián)效度效驗”。本章強調有必要在不同測試之間，同一測試的不同測試形式之間，以及測試與國際公認的語言能力標準或國際公認的語言測試標準之間做關聯(lián)研究。作者討論了MSE考試在這三方面的實踐情況，即MSE五個等級考試之間，MSE與外部國際公認的語言能力標準，如歐洲語言共同參考框架(The Common European Framework of Reference for Languages: Learning, teaching, and assessment, CEFR 2009)之間的高度關聯(lián)。不過作者強調，把MSE考試與CEFR做關聯(lián)效度研究可能會引起爭議，因為比較本身可能過于簡單或易產生誤導。據此，作者建議深入了解受試特征和情境因素，減少不同機構在界定測試目的時可能存在的差異，并詳盡描述測試目的。

第八章為結語部分，Lynda Taylor & Ardeshir Geranpayech對該書的前七章進行了綜合性回顧與總結，突出和再現從“效驗框架”的六個方面效驗MSE考試聽力測試的情況，展望未來聽力測試研究方向。該書對類似的聽力測試研究具有極大的借鑒意義和參考作用。

附錄部分列出了MSE的聽力測試樣卷、受試信息表、聽力測試材料的選定程序、聽力測試的實施和管理等信息。

3.評述

該書的八位作者根據Weir(2005)的“基于證據的效驗框架”，從“受試特征”、“認知效度”、“情境效度”、“評分效度”、“后果效度”、“效標關聯(lián)效度”六個方面對MSE聽力測試進行了全面而深入的效度對比分析。全書章節(jié)安排合理，脈絡清晰，理論聯(lián)系實際。

縱觀全書的內容與布局，本文作者認為該書有以下三大特點：

3.1 理論指導

目前，公共或商業(yè)測試機構面臨公眾要求詳盡解釋測試設計和施測過程的呼聲，使得這些機構首先要考慮測試的公開性和透明度。因此測試機構需要提供相關測試的“情境效度”、“認知效度”和“評分效度”證據，及這三種效度在測試中的實踐情況。Weir(2005)提出的檢驗語言測試效度的理論框架“基于證據的效驗框架”為MSE提供了可行性強的檢驗測試的有用性和測試效度的方法?；诶碚摵蛯嵺`研究，該框架在理論層面論證效度的本質及效度驗證的證據，全面闡述測試開發(fā)和效驗的新框架，而且探討了效度證據收集方法。所以基于該框架的分析方法能夠“分析并描述任何測試包含的效度特點，構建一個可以參考的解讀框架，從而使得測試及其相應的效度特點在該框架的指導下可以得到清晰的呈現”(劉力2013)。與此同時，該框架指導下的分析方法能讓測試機構公開透明地呈現效度證據，以此來驗證考試質量。這也滿足公眾在重要考試的公開性和透明度上的要求。

3.2 實踐驗證

該書討論和闡釋了聽力測試理論原則，并將這些原則應用于MSE考試的聽力測試實踐，既有聽力測試領域的前沿理論研究，也有相關實證研究動態(tài)。因此該書有三個實踐意義：第一，加深了人們對MSE考試開發(fā)的理論基礎的認識。該書借助Weir (2005) 的“框架”，評估了不同等級的聽力測試，驗證了該框架在考試效度對比研究中的可比性，并呈現了這些測試項目目前和未來的發(fā)展狀況。第二，該書向公眾展示了MSE聽力測試施測過程，增強了其公開性和透明度。第三，該書為其他想效驗自身測試的個人或機構提供了一個操作性強的理論框架，原則基礎，及不同等級測試之間做效度對比時的研究方法。因此該書補充和完善了測試效度對比的框架和模式，可指導測試機構描述和分析其開發(fā)的測試的質量或進行效驗研究。

3.3 創(chuàng)新突破

二語聽力的認知過程是目前語言測試涉及最少的領域(Lynda Taylor 2013：326)。John Field撰寫的聽力測試“認知效度”在語言測試領域有突破。在已有的理論和實證研究基礎上，John Field 提出聽力認知加工過程由五個層級組成：輸入解碼、詞匯搜索、句法分析、意義建構和語篇建構。作者用該理論框架分析MSE聽力考試，指出聽力測試認知研究方向，如聽力問題出現的順序、錄音播放次數等設計下的受試的認知過程。本研究為聽力測試研究提供了有極大參考價值的理論框架和實踐模式。

4.對我國外語聽力測試研究的啟示

第一，從事語言測試研究的人員可從Weir (2005) 構建的“基于證據的效驗框架”出發(fā)，從“受試特征”、“認知效度”、“情境效度”、“評分效度”、“后果效度”、“效標關聯(lián)效度”六個方面收集效驗證據，對我國的大規(guī)模、高風險考試做效度研究。

該書理論聯(lián)系實際的載體是MSE考試。該考試分為五個等級，滿足不同年齡段或不同能力水平的教學需求，是基于學?；蚋咝ＵZ言學習背景，其目的或者功能是支持這些教學環(huán)境下的英語教學。我國的高考英語、大學英語四、六級考試，英語專業(yè)四、八級考試都具有同樣的綜合英語能力測試的性質。所以該書為我國的語言測試工作者和研究者提供了一個研究模式，比如借用該書附錄中的考生信息表來調查我國重大考試的受試特征；用聽力認知模式研究各級別考試對受試認知上的不同要求，或者對比研究受試參加各級別考試時的認知過程；對比大學英語四、六級考試之間，英語專業(yè)四、八級考試之間的情境效度等。此類研究可使測試參與者了解測試的目的，測試方法，分數的解釋和使用，且有利于他們結合這些效度研究結果做出重要的教育決策。

第二，將我國的重大考試與國際公認的語言測試標準實現對接，增強測試的科學性和權威性。本書實現了MSE考試五個等級與國際公認的語言能力標準(CEFR 2009)相對接，其開發(fā)與使用遵循了國際公認的語言測試標準，增強測試的權威性。

當然，該書也存在一些不足，比如，第二章“受試特征”討論了受試特征的研究結果，但沒有詳細描述特征數據的測量方法；第三章“認知效度”章節(jié)分析綜合性試題時，若有更多的定性或語言分析則更能說明受試的聽力測試加工過程；第六章“后果效度”若能提供更多詳盡的影響研究的信息則有助于人們充分了解測試的后果效度。

總之，該書用社會認知效度理論框架來效驗MSE考試聽力測試，有助于讀者充分了解聽力測試在學術方面的進展，而且該系列聽力測試基于實證數據的具體測試決策，也為未來探索相似主題的研究者提供了一個理論加實證的參考依據。

注釋：

1 KET(Key English Test)：英語入門考試

2 PET(Preliminary English Test)：初級英語考試

3 FCE(First Certificate in English)：第一英語證書考試

4 CAE(Certificate in Advanced English)：高級英語證書考試

5 CPE(Certificate of Proficiency in English)：熟練英語證書考試

Council of Europe.2009.RelatingLanguageExaminationstotheCommonEuropeanFrameworkofReferenceforLanguages:Learning,Teaching,andAssessment[M].Strasbourg, France: Council of Europe.Available online:www.coe.int/t/dg4/linguistic/Source/ManualRevision-proofread-FINAL_en.pdf.

Davies, A.2003.Three heresies of language testing research[J].LanguageTesting(4): 355-368.

Geranpayeh, A and Taylor, L (eds).2013.ExaminingListening—ResearchandPracticeinAssessingSecondLanguageListening[M].Cambridge: Cambridge University Press.

Messick, S.1989.Validity [A].R.L.Linn(ed.).EducationalMeasurement(3rdedition) [C].New York: Macmillan.

Weir, C.J.2005.LanguageTestingandValidation:AnEvidence-basedApproach[M].New York: Palgrave MacMillan.

劉力等，2013，第二語言口語評估研究與實踐縱覽——《口語測評》(2011)評介[J]，《外語測試與教學》 (2)：60-64。

(雷雪梅：重慶郵電大學外國語學院講師；辜向東：重慶大學外國語學院教授，博士生導師)

通訊地址：400065重慶市南岸區(qū)重慶郵電大學外國語學院

*本文系國家社會科學基金重點項目“基于證據的四、六級、雅思、托?？荚囆獙Ρ妊芯俊钡牟糠殖晒?，項目號：14AYY010。

2016-11-18

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

《聽力測試——第二語言聽力評估的研究與實踐》評介*

1.引言

2.內容簡介

3.評述

4.對我國外語聽力測試研究的啟示

《聽力測試
——第二語言聽力評估的研究與實踐》評介*