近二十年漢語口語測試研究綜述

2022-12-29 09:50:53馬赟鶴

青海師范大學學報(社會科學版) 2022年1期

馬赟鶴

(北京外國語大學中國語言文學學院，北京 100089)

一、引言

語言測試是通過評價被試行為抽樣而推測其語言能力的過程，與人們對語言的認識與語言教學密不可分，其演變過程反映了人們對語言能力認識的變化。Spolsky(1995)將語言測試分為三個主要發(fā)展階段：前科學測試階段(pre-science testing)、心理測量—結構主義測試階段(psychometric-structuralist testing)、心理語言學-社會語言學測試階段(psycholinguistic-sociolinguistic testing)，體現(xiàn)了語言觀從“知識說”到“技能說”、再到“交際能力說”的轉變。20世紀末，隨著任務型教學法的發(fā)展，基于任務的語言測試也隨之興起，從關注語言能力到關注語言使用能力的轉變促成了測試的轉向。

作為語言能力最直接的外化表現(xiàn)，口語能力測評的重要程度不言而喻，但卻被認為很難以一個高信效度的方式度量，原因在于口語的本質(zhì)是動態(tài)的、嵌入語境的，同時以不同的形式(獨白、雙人對話、多人討論)存在于不同情景中。測試特征、對話者特點、評分方式等相關因素會影響考生表現(xiàn)，進而影響考生的分數(shù)。隨著漢語作為第二語言教學的興起，漢語口語能力的評價亟需一系列基于不同使用目的和需求的、高信效度的測試體系。我們統(tǒng)計了近20年來發(fā)表在期刊上的漢語口語測試相關研究，從口語能力界定、測試信效度、測試評分等不同方面對其進行整理與綜述。

二、理論基礎

開發(fā)和使用語言測試的最基本要求就是對語言能力有清晰明確的界定，不科學的語言能力觀將會對測試效度產(chǎn)生不良影響(Bachman，1990；David，1989)。就語言測試研發(fā)來說，對語言能力的認識與界定是其根本。Hymes(1972)將社會文化因素融入對語言能力的認識，提出了面向語言使用的“交際能力(communicative competence)”，主要包括語言能力(language competence)與社會語言能力(sociolinguistic competence)。這一觀點雖然存在定義不清、沒有對應理論框架模型的缺點(陳宏，1996)，但卻為后來的交際語言能力理論發(fā)展奠定了基礎。Canale & Swain(1980)用語法能力(grammatical competence)精確了Hymes(1972)中提到的語言能力(linguistic competence)，并將語篇能力(discourse competence)納入了理論范圍，但仍存在體系內(nèi)部松散、四種能力交互關系不明所帶來的可操作性弱的缺憾(韓寶成，2000)。Bachman(1990)在吸收前人理論的基礎上提出了由語言能力(language competence)、策略能力(strategic competence)和心理生理機制(psychophysiological mechanism)三部分組成的交際語言能力(communicative language ability)，CLA模型。其中語言能力包含篇章知識和語用知識；策略能力是一種心理能力(mental capacity)，通過運用語言知識與現(xiàn)實世界相勾連；而生理心理機制則是交際時所涉及到的神經(jīng)和心理過程。三者之間分工合作、連接緊密，把涉及到交際過程的各種因素都融入其中，是“語言測試史上的里程碑”(Skehan，1992)。

從測試方法來看，直接口試和半直接口試是使用較為頻繁的形式，二者各有所長。雅思口語考試和OPI(Oral Proficiency Interview)都是經(jīng)典的直接口試，評分標準和水平等級非常完備。HSK口試則是典型的半直接口試，考生只會接觸到測試指導、講話提示等刺激，不會直面考官。直接口試更適用于分級考試或課程測驗，可模擬更真實的交際情境，但存在可行性差、評分信度不高的缺點；而半直接口試雖然更適合大規(guī)模標準化測試，但是卻犧牲了部分交際真實性(Stansfield，1991；柴省三，2003)。

三、相關實證研究

(一)口語能力

當人們認為語言運用成為語言學習的最終目的，交際語言能力就成為核心部分(Hymes，1970，1972)。根據(jù)Bachman提出的交際語言能力框架(CLA)，語言能力、策略能力和生理心理機制都應該是口語能力的組成部分。CLA的能力分項不同于結構主義思想下的能力分項(如考察口語能力劃分為聲調(diào)、發(fā)音、流利度)等，前者是認為語言的本質(zhì)是交際工具，而后者則認為語言是一套符號系統(tǒng)。這種能力分項的改變體現(xiàn)了對語言認識的不斷深入。

劉頌浩等(2002)通過對比漢語學習者與漢語母語者在圖片描述任務中的信息點覆蓋數(shù)量和語言表達形式來推測交際策略的使用和語言水平之間的關系，發(fā)現(xiàn)學習者語言水平越低，就越傾向于采用減縮策略，而水平越高，就越傾向于采用成就策略；從語言形式上看，水平越高的學生越傾向于采用復雜的語言形式。但作者認為這些差別不足以作為劃分口語水平的方式，原因在于區(qū)分程度不夠，沒有統(tǒng)一簡明的標準。

漢語口語能力測試的發(fā)展正在經(jīng)歷著語言能力認識的轉變。王佶旻(2002)在探討客觀化評分效度時使用了發(fā)音、語法、流利性分項評分和總體評分兩種模式。在結論部分，她探討了將口語水平定義為發(fā)音、語法、流利性三個維度是否科學的問題，她意識到這是關于“語言能力究竟是單維的還是多維的”的問題，關鍵在于分項評分的基礎是仍舊是結構主義思想，而總體評分更傾向于將語言當作一個整體，不可劃分。

在后續(xù)研究中，王佶旻(2008)重新思考口語能力的本質(zhì)，將口語能力定義為“在口頭渠道運用語言的能力”，并構建出了以“聽-說模式的口語表達能力”和“獨白模式的口語表達能力”為子模式的口語能力測驗的理論模式，短語、句子、語段成為表達的三種形式，兩種子模式與三種形式相互作用。作者對275名初級漢語學習者進行半直接式口語測試，“聽-說模式”渠道通過快速問答和圖片比較進行驗證，形式以短語、句子為主，“獨白模式”渠道通過聽后重復和看圖說話模式進行驗證，形式以句子、語段為主。經(jīng)過探索性因素分析和驗證性因素分析發(fā)現(xiàn)實驗數(shù)據(jù)與理論模型擬合程度良好(NFI、CFI、NNFI、GFI、AGFI均大于0.9)。通過與Rivers和Temperley(1978)、Littlewood(1981)、Bygate(1987)所提出的三種語言能力模型進行對比，發(fā)現(xiàn)區(qū)分雙向互動與單項表達共存是其共同之處，這與作者所提出的“聽—說模式”與“獨白模式”不謀而合。這種雙向模式的建立體現(xiàn)出了作者逐步擺脫了結構主義思想的限制，但仍未針對語言的交際屬性提出相應的能力模式。

隨著任務型教學法在對外漢語教學實踐中的廣泛應用，王佶旻(2013)從區(qū)分情境模式、語言表現(xiàn)和交際策略三個方面入手描寫學習者的口語能力，嘗試建立與歐洲語言共同參考框架(CEFR)相匹配的語言能力框架，并以中級口語能力量表為例展示了構建過程。這個量表展現(xiàn)出了任務型測試的特征，采用的描述語更注重對“能做(can do)”的表述，展現(xiàn)出了語言能力觀的發(fā)展。

鄒鵬(2016)分析了OPI口語能力評價量表，發(fā)現(xiàn)其對于語言能力等級評估標準包括“總體任務與功能”“語境及內(nèi)容”“準確性”和“語言類型”多個方面。面對當前漢語口語教學仍舊停留在“語音”“詞匯”“語法”層面的情況，作者指出引入新的能力評估標準將對口語教學產(chǎn)生正面的反撥作用。他將OPI測試流程與口語課堂教學過程對應起來，強調(diào)通過教師的角色轉換刺激學生的語言輸出，同時培養(yǎng)交際能力，提供符合語言使用情景的反饋。

對于語言能力的認識會影響語言教學與語言測試。從語言學習的最終目的來看，重視交際語言能力的培養(yǎng)才是最有效的方式。學界對于口語能力的認識正在朝著正確的方向轉變，在教學實踐和測試構念中皆有所體現(xiàn)。《新漢語水平考試大綱HSK口試》中就指出“新HSK是一項國際漢語能力標準化考試，重點考察漢語非第一語言的考生在生活、學習和工作中運用漢語進行交際的能力”。

(二)測試任務

任務型測試是因任務型教學法測量學生完成目標能力的需求而興起的，它更強調(diào)測試方式及評價標準的真實性，以確保學習者能夠使用語言而非僅僅知道一些規(guī)則和詞匯。語言測試對決策起到重要的支撐作用，因此要重視任務與現(xiàn)實之間連接關系，同時也要處理好任務理念與語言測試之間的接口問題。Bachman & Palmer(1996)提出了“語言使用任務(language use task)”，是指“在特定場景下人們運用語言實現(xiàn)某一特定目標或達到某一特殊目的的活動”，這一定義強調(diào)了語言使用、特定場景和特定目標三個方面。同時，Bachman & Palmer指出他們所提的“任務”既可以指測試環(huán)境下的語言任務，也可以包括用于教學、生活等各個方面的語言任務。這個定義突出了測試任務的真正意義——來源于現(xiàn)實交際，反映現(xiàn)實需求。

任務型測試還存在著許多問題，如在測試控制條件內(nèi)哪些任務和相關語言使用情景能夠被充分模擬、評價測試表現(xiàn)的真實性標準、評價任務表現(xiàn)時的評分員信度、構念表征和難度等級視角下的任務可比性、作為測試設計基礎的任務的普遍適用性和衍生限制以及創(chuàng)制、任務型測試的可行性和經(jīng)濟性問題。但這些問題不僅僅存在于以任務型測試中，評分員信度、難度可比性等問題在大多數(shù)主觀性測試中都存在，因此不能因為這些問題就否認以任務型測試對于真實語言使用能力表現(xiàn)抽樣和評價的優(yōu)點。目前，漢語學界對于任務型教學法的研究正在如火如荼地展開，但是與之配套的語言測試的研發(fā)和使用卻稍顯不足。相關研究主要關注任務體裁、任務編制與任務難度。

任務難度有別于傳統(tǒng)的題目難度，它不能用計算統(tǒng)計難度的公式進行計算，需要采取新的方法(Davies et al.，1999)。為更好地衡量任務難度，王佶旻(2013)編制了包含35條能做描述、7條口語交際策略和10條語言表現(xiàn)評價標準在內(nèi)的中級口語能力量表，采用多級積分的Rasch模型(RSM)來估算描述語的任務難度，得出其所設計的由52條描述語所組成的量表信度、區(qū)分度很高。

聶丹(2012)基于話語體裁對任務難度的影響建立了體裁難度量表。作者認為敘述、描寫、說明、議論體裁四分法不足以“反映題材內(nèi)部認知活動的復雜類型”，因此將四大體裁與認知目標分類相結合進行難度排序，通過感知調(diào)查與實際問答兩種方式制定了體裁難度5級分數(shù)量表：“敘述、描寫”難度值為1，非常容易；“說明—類舉、說明—比較”難度值為2，比較容易；“說明—闡釋”難度值為3，一般；“議論—測評”難度值為4，比較難；“議論—論說、說明—決策”難度值為5，非常難。但我們認為作者對于體裁的劃分仍然不夠詳細。Eggins & Slade(1997)將口語體裁分為主題明確的語塊體裁和無固定主題的閑談體裁，其中語塊體裁對應的是聶丹(2012)所提到的以口語模態(tài)呈現(xiàn)的書面體裁，對于閑談體裁，作者卻沒有涉及。可能由于作者是通過對C.TEST面試型口語測試任務進行抽樣分析，受限于試題的類型數(shù)量，但這也反映出測試研發(fā)階段的不足之處。

翟艷(2012)針對任務型教學理念和模式提出了新的口語測試方案。她以意義原則、目的原則、真實性原則、做事原則、信息交流原則和結果原則6個原則為根本依據(jù)，概括出了任務型語言測試的動態(tài)、雙向、主動、明晰、自由、多維的6個形式特征，制定了“以任務為載體、以互動為交流方式”的測試形式及評分方法，考察以往試題的任務特征，形成了包含熱身、進入、展開、結束和反饋4個步驟的任務型口語測試。作者指出，目前大多數(shù)口語試題仍然停留在結構主義影響下的語言測試的階段，需要面向新的教學理念、教學需求不斷改進測評方式。

王爽、王佶旻(2020)分析了TOEIC口語考試，認為“以證據(jù)為中心”的評價模式(evidenced-centered design，ECD)框架下的領域分析、領域建模、概念性評價框架、評價執(zhí)行和評價發(fā)布5個層次指導了TOEIC口語考試研發(fā)的整個過程，同時其口語任務設計及模型框架為實際操作提供了固定范式?；诖耍髡邔h語口語測試進行了反思，提出口語能力的界定和細化是任務設計的基礎，在設計時要考慮漢語的特點；同時任務設計一定要注重與口語能力構想的關聯(lián)性，詳盡列出子能力的證據(jù)來源，在任務具體化過程中要體現(xiàn)出任務特征，使命題和評分更有邏輯。

基于交際語言測試相關理論，郭修敏(2017)為凸顯小規(guī)模直接口試交際性、互動性、真實性的優(yōu)勢，對漢語口試命題及施測過程提出改進的建議。她認為應該對題目進行調(diào)整，剔除“朗讀”等單項表達型試題，增加“角色扮演”類試題，保留“回答問題”類題型，在整個口試過程中要既包含交際性口試、又包含結構性口試；同時要改進“口頭報告”題型，控制話題的綜合性及難易程度；要改變評分制度，重視口語測試成績對與教學的正面反撥作用，重視對學生的口語交際能力的培養(yǎng)。

(三)測試評分

作為測試記錄本身和解讀的依據(jù)，測試評分為測試研發(fā)者和利益相關者提供用來解讀考生語言能力最基礎、同時也是最顯著的信息(Bachman，2010)。從評分方法上看，口語測試評分可分為主觀評分和客觀評分，前者主要包含分項等級評分和總體等級評分，后者主要包括0/1評分和機器評分。在自動信息處理技術成熟之前，口語測試主要采用主觀評分的方式，但隨著相關技術的成熟，一些考試開始采用客觀化評分的手段，以減少評分員誤差對于測試信度的影響、提高測試效率及經(jīng)濟性(郭修敏，2017)。對于主觀性考試，評分員在評分中起到了關鍵性作用，需要依據(jù)評分標準對考生表現(xiàn)進行解釋。因此，閱卷人評分誤差將會對測試信度產(chǎn)生影響(趙琪鳳，2012)。

柴省三(2003)從評分一致性和準確性兩個維度對HSK(高等)口試評分標準進行研究。為考察組間一致性，作者請四組評分員對20名學生的口試樣本進行評分，計算共時組間與組內(nèi)的肯德爾和諧系數(shù)W值，發(fā)現(xiàn)組間組內(nèi)評分結果有較高一致性；為考察歷時一致性，作者請四組評分員間隔6個月為相同的40名考生進行評分，兩次評分結果相關系數(shù)較高，均達到顯著相關水平。為考察分類一致性，作者將40名被試的客觀題評分與其口語評分進行頻數(shù)分析，最后發(fā)現(xiàn)兩個結果基本符合正態(tài)分布，但口語評分結果區(qū)分度不夠明顯，呈現(xiàn)出“中央趨勢”。該研究表明HSK(高等)口試評分信度符合標準化考試的要求。

趙琪鳳(2012)采用概化理論中隨機單面嵌套r：p設計的G研究與隨機單面嵌套r：p的D研究兩種計算方法考察了六種不同題型組合下測試員評分信度情況。G研究結果表明只評議論性話題能夠更好地體現(xiàn)測量目標，D研究結果顯示，綜合評價三類題目的測量信息信度最高，只評價議論性話題緊隨其后，信度最低的組合為綜合朗讀和問答一評分。實驗驗證了評分信度會受到題目類型的影響，作者指出說明與議論性題目能夠更好地區(qū)分高水平學生，在教學實踐中要加大議論、辯論類題目的練習。

為擺脫主觀評分的局限，王佶旻(2002)對問答、重復句子、口頭評價三種題型分別采用0/1制評分、總體等級評分與分項(發(fā)音、語法、流利性)客觀化評分進行打分，將原始數(shù)據(jù)轉換為非線性T分數(shù)后進行信度檢驗和效標關聯(lián)效度檢驗。信度檢驗結果表明，兩種評分標準均具有較高的評分信度?？赡苁艿絽⑴c者異質(zhì)性程度低影響，效標關聯(lián)效度檢驗中0/1制評分、總體等級評分與HSK總分的相關性均低于分項客觀化評分與HSK總分的相關性。對于構念效度的檢驗，作者采用多種成分多重方法(Multicomponent-Multimethod，MCMM)考察五種評分方法的構念效度，發(fā)現(xiàn)構念效度由高到低排序呈現(xiàn)問答>重復句子>口頭評價。

為減少評分員誤差，郭修敏(2016)試圖通過構建評分員培訓體系提高測試信度。作者構建了評分員培訓體系的步驟，并對比接受過培訓和未接受培訓的兩組評分員評價分數(shù)與考生其他學業(yè)成績的相關性，發(fā)現(xiàn)受訓組嚴厲度上升、評出的口語成績與效標的相關程度更高，評分更能準確有效地反映考生的口語能力。因此，該培訓體系能夠達到較為理想的效果，能夠減輕評分者誤差。

(四)效度研究

效度定義的發(fā)展經(jīng)歷了從單一概念到種類概念、再到整體概念的歷程，構念效度的提出將各種分類效度加以整合，形成科學、融合的觀念。對于語言測試研發(fā)及其效度驗證，Bachman(2005，2006，2010)提出了測試用途論證框架(Assessment Use Argument，AUA)，展現(xiàn)出鮮明的完整效度觀。測試的開發(fā)和解釋與使用都需要5個步驟：(基于測試任務的)考生表現(xiàn)、測試記錄(分數(shù)、描述)、(語言能力的)解釋、決策、后果。AUA框架從自上而下和自下而上兩個方向分別實現(xiàn)了測試的開發(fā)和驗證過程，每一步驟互為結論、互為理據(jù)。從整個框架來看，每一步驟都是不可或缺的一部分，都會對整個測試產(chǎn)生重大影響。但漢語口語測試效度驗證的理念仍然停留在分類效度層面，整體效度觀還沒有形成。

趙琪鳳(2011)為了提高考試效率、精簡考試題目，探討了高等漢語水平考試口試題目類型和題目數(shù)量的效標關聯(lián)效度。作者將考生的客觀題、聽力題及作文得分作為內(nèi)部效標，將平時成績、教師評分和排序作為外部效標，考察六種處理水平下口試試題得分和考生實際的口試得分與內(nèi)、外效標之間的關聯(lián)效度，發(fā)現(xiàn)六種處理水平下口試試題得分均與內(nèi)部效標有較高關聯(lián)，但除了處理五(只評朗讀和問答第二題，給出口試得分)外，其他水平與外部效標相關性都不高，所以作者認為只考察朗讀和問答題2足以有效地評價考生的口語水平。

北京大學和培生公司(Pearson)聯(lián)合開發(fā)了自動化漢語口語考試(Spoken Chinese Test，SCT)，李曉琪、李靖華(2014)從測試信度、內(nèi)部結構和外在效標三步對SCT的有效性進行了檢驗。由于SCT屬于計算機化口語考試，不存在評分員誤差，作者就通過對測試評分進行了歷時信度評估，發(fā)現(xiàn)總分與子分數(shù)信度均較高。從內(nèi)部結構看，作者將五個子能力的相關性做了描述統(tǒng)計，表明語言表達形式(發(fā)音、聲調(diào)、流利度)與語言表達內(nèi)容(詞匯、語法)之間關聯(lián)系數(shù)較低，但是兩方面內(nèi)部關聯(lián)系數(shù)較高，且通過主成分分析法發(fā)現(xiàn)存在一個主要因素，即漢語口語表達能力。作者還將OPI與HSK口試作為外在效標，發(fā)現(xiàn)三者成績顯著相關，說明它們考察的是同一特質(zhì)變量。最終驗證了SCT測試的有效性和可靠性。

(五)測試參與者

作為語言測試中的重要角色，測試參與者特征對于測試的影響也值得關注。王佶旻(2007)擴充了Bachman & Palmer(1996)提出的在第二語言測驗中應該考慮的6類個人背景因素，分析了留學生性別、年齡、學習目的、國別、母語背景、教育背景、職業(yè)背景、華裔家庭背景8類個體背景因素與口語測驗表現(xiàn)之間的關系，發(fā)現(xiàn)年齡、國別和華裔家庭背景3項對口語測驗表現(xiàn)有顯著影響，青年組、歐美學生組、華裔學生組各分測驗表現(xiàn)均優(yōu)于其他組別組學生；而性別、學習目的、受教育程度和母語背景5項因素對口語測驗表現(xiàn)無顯著影響。

四、結語

從結構主義思想到重視語言的交際功能，再到任務型教學法的興起，語言測試也發(fā)生從結構主義語言測試到交際語言測試再到基于任務的語言測試的轉向(文秋芳，1999；韓寶成，2003)。對于漢語口語測試的研究涵蓋了口語能力、測試任務、測試評分、測試參與者與效度研究，但仍存在可以繼續(xù)探索之處。

首先，教學中的形成性評價關注不夠。Bachman & Palmer(2010)將課堂語言測試分為隱性模式和顯性模式兩種。隱性模式主要指“評價—決策—教學—評價—決策—教學”等步驟循環(huán)進行的形成性評價，教師會通過測試做出決定調(diào)整自己的講授、解釋、重復來促進教學。顯性教學模式主要用來進行以診斷為目的的形成性評價和以判斷能力水平為目的的總結性評價。課堂中的測試為語言教學起到了重要的支撐作用。在漢語口語測試研究中，主要關注的都是大規(guī)模、高利害測試，對于課堂中為語言教學服務的形成性評價研究重視程度不夠。其次，對直觀的測試評分關注較多，對評分解讀關注較少。作為決策信息來源的一體兩面，測試評分和評分解讀的受關注程度卻并不均衡。而作為AUA框架的中間環(huán)節(jié)，評分解讀起著承上啟下的重要作用，如果不能根據(jù)合理的解讀做出決策，測試的意義將會大打折扣，因此還需要繼續(xù)關注這一環(huán)節(jié)。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡