王萌萌
(北京外國語大學(xué),北京市 100089)
2003年,Bachman在Kane提出的“基于論證的驗證模式”(Argument-based Approach to Validation)基礎(chǔ)之上,提出了“測試使用論證框架”(Assessment Use Argument,簡稱AUA)。2005年,Bachman提出AUA框架應(yīng)分為“測試效度論證”和“測試使用論證”兩個階段。2007年,Bachman和Palmer使從測試表現(xiàn)到測試效果和反向的兩條推論鏈條形成補充,其雙向流動性將測試的開發(fā)、解釋或使用結(jié)合起來。Bachman和Palmer在2010年對AUA進行了全面闡釋,根據(jù)韓寶成等(2013)的觀點,“測試有用性論證概念與測試使用論證框架的提出絕非傳統(tǒng)效度理論或驗證模式的重新命名,而是對其進行的揚棄?!睂y試進行解釋和使用時,應(yīng)按照受試在測試中的表現(xiàn)、記錄、對于受試語言能力的解釋、決策、效果順序逐步推理。在推理過程中,應(yīng)論證測試具備AUA框架中的一系列質(zhì)量屬性。
從2000年開始,美國教育考試服務(wù)中心(Educational Testing Service,簡稱ETS)著手對托??荚囘M行改革。2005年,ETS在全球推出了新托??荚?,通過互聯(lián)網(wǎng)進行(即Internet-based Test,縮寫為IBT)。改革的主要目的在于使托福成績的解釋更加清晰明了,且要有理論依據(jù),從而促進對考試的合理使用。ETS在Mislevy、Kane等人的理論基礎(chǔ)上,提出了托福解釋性論證的推理鏈條。與Kane的解釋性論證不同的是,托福的論證鏈條中引入了“目標(biāo)語言使用域描述”、“對全域分數(shù)的解釋”以及“測試使用”,這和Bachman在2005年修訂的框架有相似之處。在ETS完成新托福改革之后,AUA框架又進一步發(fā)展深化,根據(jù)更加全面的AUA推理過程來評價新托??荚嚕梢哉页鰧υ摽蚣苤械闹鲝埿纬芍С只蚍瘩g的證據(jù),使對測試的解釋和使用有理有據(jù),同時也為未來優(yōu)化測試的設(shè)計開發(fā)過程提供啟示。以下將針對框架內(nèi)的四項主張展開論據(jù)搜集和論證。
根據(jù)AUA框架,可以從考生完成測試任務(wù)的表現(xiàn)作為出發(fā)點,論證“測試記錄具有一致性”這一主張,即測試分數(shù)在不同的測試任務(wù)、測試流程和受試群體中能保持一致性。
AUA框架可以提供一系列理由來支持這一主張。比如針對“同一測試中不同任務(wù)的得分具有內(nèi)部一致性”這一理由,ETS對新樣卷進行了Cronbach Alpha系數(shù)的計算,證明聽力和閱讀部分的內(nèi)部一致性較高,寫作與書面測驗的老托福(Paper-based test,簡稱PBT)相似,但是口語的內(nèi)部一致性低于預(yù)期(Chapelleet al.,2008)?;诳蚣苤械摹安煌u分者對同一任務(wù)的評分具有一致性”這一理由,ETS對寫作和口語的不同評分者的評分進行了相關(guān)分析,發(fā)現(xiàn)寫作評分的內(nèi)部一致性低于新托福改革之前的寫作考試(Test of Written English,簡稱TWE)。
通過一致性的分析,新托??荚嚨臉泳淼穆犃Α㈤喿x、寫作的內(nèi)部一致性證據(jù)支持了相關(guān)理由,但是口語部分較低的內(nèi)部一致性構(gòu)成了反駁,口語部分的試題設(shè)計要做出相應(yīng)改動。另外,寫作評分者信度低于之前的標(biāo)準化考試,也對一致性主張構(gòu)成了反駁,為了保證評分者信度,ETS要對寫作的評分者進行進一步的培訓(xùn),保證其評分的公正、合理。
AUA框架中的主張之一是受試的表現(xiàn)能夠代表測試擬測的語言能力,對受試測試表現(xiàn)的解釋要符合五條標(biāo)準,相應(yīng)的理由如下:
1、理由一:要保證基于語言理論或教學(xué)大綱的解釋的意義性
ETS按語言技能分別對聽力、閱讀、口語和寫作的能力框架進行了修訂。關(guān)于測試的語言能力理論依據(jù),ETS借鑒了Canale、Swain以及Bachman的交際能力理論,認為托福考試理論構(gòu)念中的語言能力包括語言知識(語法、社會語言、語篇知識)、策略能力和語言使用的語境等元素(Chapelle et al.,2008)。
2、理由二:要保證該解釋對于所有受試具有公平性
ETS要保證托??荚嚨男问胶蛢?nèi)容不偏袒任何受試,測試任務(wù)的內(nèi)容所包含的文化和語言信息對所有受試都是恰當(dāng)?shù)?所有受試都是機會均等的。
ETS開發(fā)了語料庫,對語料進行了標(biāo)記和分析,結(jié)果證明大量語料中的語言差異在于所屬語域的不同,而不因?qū)W科門類和研究層次的不同而有顯著差異,這為對不同學(xué)科專業(yè)的本科生、研究生具有公平性提供了有力證據(jù)。此外,與美國文化相關(guān)的語料過多也可能對受試造成冒犯,產(chǎn)生不公平不公正的后果(Chapelle et al.2008)。ETS在開發(fā)新托福考試時考慮到了應(yīng)該回避以上這些消極因素。
3、理由三:保證解釋對目標(biāo)語言使用域具有概括性
ETS為保證測試任務(wù)特點與目標(biāo)語言使用域中的任務(wù)有對應(yīng)性,征求了重要利益相關(guān)人的看法,分別對不同學(xué)科專業(yè)的學(xué)生和教師進行了問卷調(diào)研,評估測試任務(wù)是否具有概括性、是否符合目標(biāo)語言使用域中任務(wù)的特點等等。問卷調(diào)查得出了一系列結(jié)論:某些任務(wù)在目標(biāo)語言使用域中并不那么重要,比如在聽力測試中的判斷聽力材料是否跑題。然而某些任務(wù)尤為重要,比如聽懂并理解材料的大意或其中支持性的觀點,閱讀并理解文章大意等等(Chapelle et al.,2008)。這些結(jié)論構(gòu)成了支持理由的證據(jù),證明了某些測試任務(wù)的概括性,同時證明了最終框架內(nèi)容的合理性。
4、理由四、理由五:保證解釋與所做決策具有相關(guān)性和充足性
為了保證解釋與所做的決策具有相關(guān)性和充足性,ETS在官方指南(2006)中為決策者提供了托福PBT、托福CBT(computer-based Test)、托福IBT成績對照表、與測試結(jié)果相關(guān)的百分等級對照表、如何設(shè)定測試標(biāo)準的指導(dǎo)手冊和相對應(yīng)的語言能力的描述。在考試之后,ETS的分數(shù)報告不再只限于報告考生的英語水平和各單項語言技能成績,還會提供一個診斷性報告讓考生和接收院校了解考生的英語語言學(xué)習(xí)情況。這為接收院校合理地解讀成績,做出錄取、分班、調(diào)整教學(xué)等決策提供了相關(guān)且充足的證據(jù),也為學(xué)生了解自身語言能力并作出語言學(xué)習(xí)的正確決策提供了相關(guān)且充足的參考信息。
AUA框架中的主張之一為:均衡性和價值敏感性應(yīng)體現(xiàn)在基于分數(shù)的決策上。即決策對于不同的受試群體來講是均衡的,不受種族、性別的影響,要與教育和社會價值觀及法律要求相吻合。
針對殘疾人士,比如聽力障礙的受試,ETS也提供了保障手段,他們可以申請選擇不進行口語和聽力測試,或者申請?zhí)峁┦终Z翻譯。然而筆者認為,這正是擺在測試設(shè)計者面前的一道難題。首先,對于缺乏某些技能的測試試題的設(shè)計要合理,保證這些試題和其他形式試題具有一致性,保證對所有受試具有無偏性。其次,由于殘障人士的特殊需求,測試時間和方式這兩個變量也要進行合理調(diào)控,這兩個變量是否會影響測試成績和最后的決策還有待進一步研究。針對分數(shù)線設(shè)置和決策制度是否與其他受試一致,如何才能保證決策符合社會價值觀和法律要求,截至目前ETS沒有進行具體的闡釋和論證。
AUA框架表明,使用測試和決策的效果應(yīng)對利益相關(guān)人具有受益性。托福IBT考試的設(shè)計者對測試使用的有益性進行了相關(guān)的研究。測試結(jié)果嚴格進行保密,受試將在考試結(jié)束后15個工作日后查詢成績,同時會收到寄送的成績單附件,成績單中會對受試的各部分表現(xiàn)做出評價,官方指南相對應(yīng)的語言技能的各級別能力的描述可以為考生提供有益的反饋。此外,針對語言教師,官方指南中的口語和寫作部分提供了樣題、不同得分的受試的回答實例、評分者的評語和話題清單。這些措施都具有受益性,可以幫助利益相關(guān)人有效地提高學(xué)習(xí)、教學(xué)和管理,并使利益相關(guān)人對測試結(jié)果有合理的認識和評價。
然而,由于新托??荚嚨哪康闹皇莿澏ǚ謹?shù)線并做出決策,某些培訓(xùn)機構(gòu)培訓(xùn)學(xué)生“走捷徑”,比如借助考試策略猜測答案等等,經(jīng)過錯誤培訓(xùn)的考生在通過考試在國外學(xué)習(xí)時會遇到很多語言障礙,接收院校還要重新對學(xué)生進行再次培訓(xùn),從而對測試的權(quán)威性和合理性產(chǎn)生懷疑,這一現(xiàn)象的存在對于測試的受益性構(gòu)成了反駁。如何才能合理地設(shè)計試題避免消極的后效、對接收院校和參加過考試的學(xué)生進行進一步的追蹤調(diào)研是ETS在將來需要面對的課題。
[1]Bachman,L.F.Constructing an Assessment Use Argument and Supporting Claims about Test Taker-assessment Task Interactions in Evidence-centered Assessment Design [J].Measurement:Interdisciplinary Research and Perspectives,2003(1):63-65.
[2]Bachman,L.F.Building and supporting a case for test use[J].Language Assessment Quarterly,2005(2):1-34.
[3]Bachman,L.F.Justifying the use of language assessment.http://www.oxford.co.kr/2007_oxford_day/ppt/bach2.pps.2007a,2007.
[4]Bachman,L.F&Palmer.Language Assessment in Practice:Developing Language Assessments and Justifying Their Use in the Real World[M].Oxford:OUP,2010.
[5]Chapelle,C.A.&Enright,M.K.&Jamieson,J.M.Building a Validity Argument For the Test of English as a Foreign Language TM[M].New York:Routledge,2008.
[6]Kane,M.An argument-based approach to validity[J].Psychological Bulletin,1992(112):527-535.
[7]Kane,M.Book review:Language Assessment in Practice:Developing Language Assessments and Justifying Their Use in the Real World[J].Language Testing,2011(28):581-587.
[8]韓寶成,羅凱洲.語言測試效度及其驗證模式的嬗變[J].外語教學(xué)與研究,2013(3):411-425.
[9]美國教育考試服務(wù)中心.新托??荚嚬俜街改蟍M].北京:世界圖書出版公司,2006.