從AUA框架角度評價新托福考試

2015-04-15 09:37:40王萌萌

吉林廣播電視大學(xué)學(xué)報 2015年8期

王萌萌

（北京外國語大學(xué)，北京市 100089）

2003年，Bachman在Kane提出的“基于論證的驗證模式”（Argument-based Approach to Validation）基礎(chǔ)之上，提出了“測試使用論證框架”（Assessment Use Argument,簡稱AUA）。2005年，Bachman提出AUA框架應(yīng)分為“測試效度論證”和“測試使用論證”兩個階段。2007年，Bachman和Palmer使從測試表現(xiàn)到測試效果和反向的兩條推論鏈條形成補充，其雙向流動性將測試的開發(fā)、解釋或使用結(jié)合起來。Bachman和Palmer在2010年對AUA進行了全面闡釋，根據(jù)韓寶成等（2013）的觀點，“測試有用性論證概念與測試使用論證框架的提出絕非傳統(tǒng)效度理論或驗證模式的重新命名，而是對其進行的揚棄?！睂y試進行解釋和使用時，應(yīng)按照受試在測試中的表現(xiàn)、記錄、對于受試語言能力的解釋、決策、效果順序逐步推理。在推理過程中，應(yīng)論證測試具備AUA框架中的一系列質(zhì)量屬性。

從2000年開始，美國教育考試服務(wù)中心（Educational Testing Service，簡稱ETS）著手對托?？荚囘M行改革。2005年，ETS在全球推出了新托?？荚?，通過互聯(lián)網(wǎng)進行（即Internet-based Test，縮寫為IBT）。改革的主要目的在于使托福成績的解釋更加清晰明了，且要有理論依據(jù)，從而促進對考試的合理使用。ETS在Mislevy、Kane等人的理論基礎(chǔ)上，提出了托福解釋性論證的推理鏈條。與Kane的解釋性論證不同的是，托福的論證鏈條中引入了“目標(biāo)語言使用域描述”、“對全域分數(shù)的解釋”以及“測試使用”，這和Bachman在2005年修訂的框架有相似之處。在ETS完成新托福改革之后，AUA框架又進一步發(fā)展深化，根據(jù)更加全面的AUA推理過程來評價新托?？荚嚕梢哉页鰧υ摽蚣苤械闹鲝埿纬芍С只蚍瘩g的證據(jù)，使對測試的解釋和使用有理有據(jù)，同時也為未來優(yōu)化測試的設(shè)計開發(fā)過程提供啟示。以下將針對框架內(nèi)的四項主張展開論據(jù)搜集和論證。

一、論證“測試表現(xiàn)具有穩(wěn)定性”

根據(jù)AUA框架，可以從考生完成測試任務(wù)的表現(xiàn)作為出發(fā)點，論證“測試記錄具有一致性”這一主張，即測試分數(shù)在不同的測試任務(wù)、測試流程和受試群體中能保持一致性。

AUA框架可以提供一系列理由來支持這一主張。比如針對“同一測試中不同任務(wù)的得分具有內(nèi)部一致性”這一理由，ETS對新樣卷進行了Cronbach Alpha系數(shù)的計算，證明聽力和閱讀部分的內(nèi)部一致性較高，寫作與書面測驗的老托福（Paper-based test，簡稱PBT）相似，但是口語的內(nèi)部一致性低于預(yù)期(Chapelleet al.,2008)?；诳蚣苤械摹安煌u分者對同一任務(wù)的評分具有一致性”這一理由，ETS對寫作和口語的不同評分者的評分進行了相關(guān)分析，發(fā)現(xiàn)寫作評分的內(nèi)部一致性低于新托福改革之前的寫作考試（Test of Written English,簡稱TWE）。

通過一致性的分析，新托?？荚嚨臉泳淼穆犃Α㈤喿x、寫作的內(nèi)部一致性證據(jù)支持了相關(guān)理由，但是口語部分較低的內(nèi)部一致性構(gòu)成了反駁，口語部分的試題設(shè)計要做出相應(yīng)改動。另外，寫作評分者信度低于之前的標(biāo)準化考試，也對一致性主張構(gòu)成了反駁，為了保證評分者信度，ETS要對寫作的評分者進行進一步的培訓(xùn)，保證其評分的公正、合理。

二、論證“對語言能力的解釋具有意義性、公平性、概括性、相關(guān)性和充足性”

AUA框架中的主張之一是受試的表現(xiàn)能夠代表測試擬測的語言能力，對受試測試表現(xiàn)的解釋要符合五條標(biāo)準，相應(yīng)的理由如下：

1、理由一：要保證基于語言理論或教學(xué)大綱的解釋的意義性

ETS按語言技能分別對聽力、閱讀、口語和寫作的能力框架進行了修訂。關(guān)于測試的語言能力理論依據(jù),ETS借鑒了Canale、Swain以及Bachman的交際能力理論，認為托福考試理論構(gòu)念中的語言能力包括語言知識（語法、社會語言、語篇知識）、策略能力和語言使用的語境等元素（Chapelle et al.，2008）。

2、理由二：要保證該解釋對于所有受試具有公平性

ETS要保證托?？荚嚨男问胶蛢?nèi)容不偏袒任何受試，測試任務(wù)的內(nèi)容所包含的文化和語言信息對所有受試都是恰當(dāng)?shù)?所有受試都是機會均等的。

ETS開發(fā)了語料庫，對語料進行了標(biāo)記和分析，結(jié)果證明大量語料中的語言差異在于所屬語域的不同，而不因?qū)W科門類和研究層次的不同而有顯著差異，這為對不同學(xué)科專業(yè)的本科生、研究生具有公平性提供了有力證據(jù)。此外，與美國文化相關(guān)的語料過多也可能對受試造成冒犯，產(chǎn)生不公平不公正的后果（Chapelle et al.2008）。ETS在開發(fā)新托福考試時考慮到了應(yīng)該回避以上這些消極因素。

3、理由三：保證解釋對目標(biāo)語言使用域具有概括性

ETS為保證測試任務(wù)特點與目標(biāo)語言使用域中的任務(wù)有對應(yīng)性，征求了重要利益相關(guān)人的看法，分別對不同學(xué)科專業(yè)的學(xué)生和教師進行了問卷調(diào)研，評估測試任務(wù)是否具有概括性、是否符合目標(biāo)語言使用域中任務(wù)的特點等等。問卷調(diào)查得出了一系列結(jié)論：某些任務(wù)在目標(biāo)語言使用域中并不那么重要，比如在聽力測試中的判斷聽力材料是否跑題。然而某些任務(wù)尤為重要，比如聽懂并理解材料的大意或其中支持性的觀點，閱讀并理解文章大意等等（Chapelle et al.，2008）。這些結(jié)論構(gòu)成了支持理由的證據(jù)，證明了某些測試任務(wù)的概括性，同時證明了最終框架內(nèi)容的合理性。

4、理由四、理由五：保證解釋與所做決策具有相關(guān)性和充足性

為了保證解釋與所做的決策具有相關(guān)性和充足性，ETS在官方指南（2006）中為決策者提供了托福PBT、托福CBT（computer-based Test）、托福IBT成績對照表、與測試結(jié)果相關(guān)的百分等級對照表、如何設(shè)定測試標(biāo)準的指導(dǎo)手冊和相對應(yīng)的語言能力的描述。在考試之后，ETS的分數(shù)報告不再只限于報告考生的英語水平和各單項語言技能成績，還會提供一個診斷性報告讓考生和接收院校了解考生的英語語言學(xué)習(xí)情況。這為接收院校合理地解讀成績，做出錄取、分班、調(diào)整教學(xué)等決策提供了相關(guān)且充足的證據(jù)，也為學(xué)生了解自身語言能力并作出語言學(xué)習(xí)的正確決策提供了相關(guān)且充足的參考信息。

三、論證“測試決策具有均衡性和價值敏感性”

AUA框架中的主張之一為：均衡性和價值敏感性應(yīng)體現(xiàn)在基于分數(shù)的決策上。即決策對于不同的受試群體來講是均衡的，不受種族、性別的影響，要與教育和社會價值觀及法律要求相吻合。

針對殘疾人士，比如聽力障礙的受試，ETS也提供了保障手段，他們可以申請選擇不進行口語和聽力測試，或者申請?zhí)峁┦终Z翻譯。然而筆者認為，這正是擺在測試設(shè)計者面前的一道難題。首先，對于缺乏某些技能的測試試題的設(shè)計要合理，保證這些試題和其他形式試題具有一致性，保證對所有受試具有無偏性。其次，由于殘障人士的特殊需求，測試時間和方式這兩個變量也要進行合理調(diào)控，這兩個變量是否會影響測試成績和最后的決策還有待進一步研究。針對分數(shù)線設(shè)置和決策制度是否與其他受試一致，如何才能保證決策符合社會價值觀和法律要求，截至目前ETS沒有進行具體的闡釋和論證。

四、論證“測試使用效果的受益性”

AUA框架表明，使用測試和決策的效果應(yīng)對利益相關(guān)人具有受益性。托福IBT考試的設(shè)計者對測試使用的有益性進行了相關(guān)的研究。測試結(jié)果嚴格進行保密，受試將在考試結(jié)束后15個工作日后查詢成績，同時會收到寄送的成績單附件，成績單中會對受試的各部分表現(xiàn)做出評價，官方指南相對應(yīng)的語言技能的各級別能力的描述可以為考生提供有益的反饋。此外，針對語言教師，官方指南中的口語和寫作部分提供了樣題、不同得分的受試的回答實例、評分者的評語和話題清單。這些措施都具有受益性，可以幫助利益相關(guān)人有效地提高學(xué)習(xí)、教學(xué)和管理，并使利益相關(guān)人對測試結(jié)果有合理的認識和評價。

然而，由于新托?？荚嚨哪康闹皇莿澏ǚ謹?shù)線并做出決策，某些培訓(xùn)機構(gòu)培訓(xùn)學(xué)生“走捷徑”，比如借助考試策略猜測答案等等，經(jīng)過錯誤培訓(xùn)的考生在通過考試在國外學(xué)習(xí)時會遇到很多語言障礙，接收院校還要重新對學(xué)生進行再次培訓(xùn)，從而對測試的權(quán)威性和合理性產(chǎn)生懷疑，這一現(xiàn)象的存在對于測試的受益性構(gòu)成了反駁。如何才能合理地設(shè)計試題避免消極的后效、對接收院校和參加過考試的學(xué)生進行進一步的追蹤調(diào)研是ETS在將來需要面對的課題。

[1]Bachman,L.F.Constructing an Assessment Use Argument and Supporting Claims about Test Taker-assessment Task Interactions in Evidence-centered Assessment Design [J].Measurement:Interdisciplinary Research and Perspectives,2003(1):63-65.

[2]Bachman,L.F.Building and supporting a case for test use[J].Language Assessment Quarterly,2005(2):1-34.

[3]Bachman,L.F.Justifying the use of language assessment.http://www.oxford.co.kr/2007_oxford_day/ppt/bach2.pps.2007a,2007.

[4]Bachman,L.F&Palmer.Language Assessment in Practice:Developing Language Assessments and Justifying Their Use in the Real World[M].Oxford:OUP，2010.

[5]Chapelle,C.A.&Enright,M.K.&Jamieson,J.M.Building a Validity Argument For the Test of English as a Foreign Language TM[M].New York:Routledge,2008.

[6]Kane,M.An argument-based approach to validity[J].Psychological Bulletin,1992(112):527-535.

[7]Kane,M.Book review:Language Assessment in Practice:Developing Language Assessments and Justifying Their Use in the Real World[J].Language Testing,2011(28):581-587.

[8]韓寶成,羅凱洲.語言測試效度及其驗證模式的嬗變[J].外語教學(xué)與研究,2013(3):411-425.

[9]美國教育考試服務(wù)中心.新托?？荚嚬俜街改蟍M].北京：世界圖書出版公司，2006.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

從AUA框架角度評價新托福考試

一、論證“測試表現(xiàn)具有穩(wěn)定性”

二、論證“對語言能力的解釋具有意義性、公平性、概括性、相關(guān)性和充足性”

三、論證“測試決策具有均衡性和價值敏感性”

四、論證“測試使用效果的受益性”

一、論證“測試表現(xiàn)具有穩(wěn)定性”

二、論證“對語言能力的解釋具有意義性、公平性、概括性、相關(guān)性和充足性”

三、論證“測試決策具有均衡性和價值敏感性”

四、論證“測試使用效果的受益性”