診斷測試視角下的間接與直接寫作測試互補性研究

2023-10-24 03:07:18潘鳴威吳金杰

山東外語教學(xué) 2023年3期

關(guān)鍵詞：互補性

潘鳴威　吳金杰

（主持人：辜向東）

1961年Robert Lado專著《語言測試》的出版標(biāo)志著語言測試作為獨立學(xué)科的確立。隨著語言測試六十余年的蓬勃發(fā)展，相關(guān)研究也取得顯著進展，呈現(xiàn)出欣欣向榮的景象。根據(jù)國際語言測試協(xié)會對2021—2022語言測評文獻的分類，語言測評研究大致分為三類：1）對語言能力和受試群體的測評研究；2）語言測試建設(shè)與開發(fā)研究；3）語言測試的社會性研究。

本期“語言測試研究”專欄收錄的三篇文章視角不同，方法各異，但都扎根本土，分別對應(yīng)當(dāng)今語言測試研究中的語言測試建設(shè)、語言能力測評和語言測試的社會性。潘鳴威、吳金杰的《診斷測試視角下的間接與直接寫作測試互補性研究》采用混合式研究設(shè)計，圍繞我國自主設(shè)計的UDig寫作診斷測試，通過探究間接與直接寫作測試在寫作能力構(gòu)念上的互補性，回答兩種測試方式如何結(jié)合才能使寫作診斷測試的優(yōu)勢最大化的問題，有助于提高診斷測試的科學(xué)性和全面性，為日后構(gòu)建多維度、細顆粒的診斷報告奠定基礎(chǔ)。徐鷹、鄧雅玲的《大規(guī)模語言測試翻譯任務(wù)內(nèi)容效度研究——以CET為例》以語言測試領(lǐng)域最高被引文獻作者Bachman和Palmer的任務(wù)特征模式為框架，基于論證的效度驗證模式，從語篇輸入和預(yù)期回答兩個維度分析了2017至2021年四、六級翻譯任務(wù)的內(nèi)容效度。該研究為如何滿足大規(guī)?？荚嚨男枨蟛l(fā)揮考試的正面反撥效應(yīng)提出了建議，這對進一步提升翻譯任務(wù)質(zhì)量具有啟示意義。王校羽、黃永亮的《我國外語專業(yè)學(xué)生批判性思維教學(xué)與測評研究二十年（1998—2022）》從批判性思維的內(nèi)涵界定及理論框架構(gòu)建、外語教學(xué)中批判性思維的培養(yǎng)和批判性思維量具構(gòu)建與測評三個方面，回顧二十多年來我國外語專業(yè)學(xué)生批判性思維研究的現(xiàn)狀與進展，為如何培養(yǎng)優(yōu)秀的外語人才提供了指導(dǎo)意義。

縱觀語言測試研究的歷程，我們會發(fā)現(xiàn)一個最為顯著的特點，即從語言測試有效性到社會性的重要轉(zhuǎn)向，研究焦點從有效測試轉(zhuǎn)移到測試的有效使用及其社會影響。語言測試的社會性體現(xiàn)在對“人”這一主體的關(guān)注，無論是作為學(xué)習(xí)者還是考生，“人”一直是宏觀的外語教育和相對微觀的語言測評領(lǐng)域的核心主體。關(guān)注“人”這一主體，不僅有助于測試的開發(fā)與完善，更有利于外語教育領(lǐng)域的長遠發(fā)展。教育是一個復(fù)雜的系統(tǒng)，從系統(tǒng)論的角度看，要取得系統(tǒng)效益最優(yōu)，在微觀和宏觀上每一個構(gòu)成要素都必須達到最佳。因此，我們要大力提倡“有效測試、有效教學(xué)、有效使用”。

［摘要］由于寫作能力的復(fù)雜性，大多英語考試采用多項寫作任務(wù)來測量考生的寫作能力。但受到心理測量學(xué)視角的影響，以往研究較多關(guān)注間接和直接寫作測試的相關(guān)性，而較少聚焦兩者對寫作能力構(gòu)念的互補性。本研究以一項寫作診斷測試為對象，采用混合式研究設(shè)計探究了間接和直接寫作測試的關(guān)系，分析兩者低相關(guān)的成因，并探討語言能力、測試題型對這一關(guān)系的影響，最后提出如何從診斷測試視角出發(fā)選擇合理、互補的間接寫作測試。本研究對如何設(shè)計多任務(wù)寫作測試具有借鑒意義。

［關(guān)鍵詞］間接寫作測試；直接寫作測試；寫作診斷測試；互補性

［中圖分類號］ H319［文獻標(biāo)識碼］ A［文獻編號］ 1002-2643（2023）03-0013-13

A Complementary Investigation into Direct and Indirect Assessments：

The Case of a Diagnostic Writing Test

PAN Mingwei WU Jinjie

（School of English Studies， Shanghai International Studies University， Shanghai 201620， China）

Abstract： Given the intricate nature of pinpointing writing ability， most testing practices， if not all， incorporate multiple writing tasks to ascertain examinees corresponding skillsets. Previous studies， confined by the psychometric?perspective， have predominantly concentrated on the correlation between indirect and direct writing tests， often neglecting the complementary nature in relation to writing construct. This study set out to delve deeper into the relationship between indirect and direct writing tests by employing a mixed-methods research design with a tertiary-level diagnostic test. Furthermore， it scrutinized the reasons behind their low correlation， investigated the impacts of language proficiency and question types on this?relationship， and eventually proposed guidelines for selecting an appropriate and supplementary indirect writing test， all viewed from the perspective of diagnostic assessment. The findings of this study are poised to provide valuable insights into the design of multitask writing tests.

Key words： indirect writing assessment; direct writing assessment; diagnostic writing assessment; complementarity

1.引言

寫作能力的構(gòu)念極為復(fù)雜，因此在測量考生寫作能力時，考試開發(fā)者通常會設(shè)計多項寫作任務(wù)以彌補單項任務(wù)在測量覆蓋面上的不足。其中，直接寫作測試要求考生在限定時間內(nèi)根據(jù)題干完成相應(yīng)的文字撰寫（Behizadeh， 2014；Behizadeh & Pang， 2016），較為真實地反映了現(xiàn)實世界的寫作過程（White， 1995；Weir， 2005）。但受到回避等作答策略的影響，直接寫作測試仍可能無法完全展現(xiàn)預(yù)設(shè)的寫作構(gòu)念全貌。引入間接寫作任務(wù)，則在一定程度上提升寫作能力考查的全面性。該測量方式通常有明確的正確答案（Stiggins， 1982；鄒申， 2011）（如語法改錯題），更有針對性地考查考生微技能的掌握情況。

在以學(xué)促評理念的驅(qū)動下，寫作診斷測試作為低利害、多反饋的測試方式受到廣泛關(guān)注（Lee， 2015）。由于考生在診斷測試中需全面了解自身的寫作能力，這就要求寫作診斷測試任務(wù)能充分涵蓋預(yù)設(shè)的寫作能力構(gòu)念。融合直接與間接寫作測試，有助于發(fā)揮兩者在寫作能力構(gòu)念上的互補性，為構(gòu)建多維度、細顆粒的診斷報告奠定基礎(chǔ)?；诖?，本研究以“優(yōu)診學(xué)”（UDig）寫作診斷測試為對象，通過分析直接和間接寫作測試的關(guān)系，提出如何利用兩者的互補性為寫作診斷測試服務(wù)，并對如何設(shè)計兼具直接和間接測試的寫作診斷測試提出思考和建議。

2.文獻綜述

本文從診斷測試的視角研究直接和間接寫作測試的互補性。下文將從英語寫作能力、寫作測試方式以及寫作診斷測評幾個方面評述有關(guān)文獻，以闡明本研究對寫作構(gòu)念的理解，并基于工作定義提出融合寫作測試時亟須關(guān)注的要素。

2.1 英語寫作能力與寫作測試方式

盡管目前尚無公認(rèn)的寫作能力模型與框架（Weigle， 2002），也缺乏操作性極強的寫作構(gòu)念范式（Knoch， 2009），相關(guān)研究卻幾乎不約而同地指向Bachman（1990）的交際語言能力模型（CLA模型）。不少學(xué)者也以此為基礎(chǔ)，提出了更有針對性的寫作能力模型。應(yīng)該說，CLA模型較為全面地包含了寫作能力可能涉及的維度，但也存在基本概念較為抽象和可應(yīng)用性相對不足的問題（McNamara， 1990）。此外，該框架仍屬于對語言能力的宏觀描述，缺乏對二語寫作能力更為細致的描述。為此，Grabe和Kaplan（1996）從社會認(rèn)知的角度構(gòu)建了寫作能力模型。該模型集合四方面內(nèi)容，其中“語言處理”作為寫作產(chǎn)出的重要一環(huán)，與CLA模型的語言能力有不少共通之處。與此同時，該模型總結(jié)了對應(yīng)維度所需的技能。但美中不足的是，該模型主體仍偏理論，難免與構(gòu)念確立和評分實踐產(chǎn)生隔閡。Cumming等（2000）在研究TOEFL 2000寫作任務(wù)特點后精簡了寫作能力模型。他們認(rèn)為，在實際評分中更應(yīng)側(cè)重語言知識和語篇知識的運用，并在新的框架中對寫作構(gòu)念提供了詳細的工作定義，可操作性較強。由此，本研究將基于Cumming等（2000）的框架，視語言知識和語篇知識為寫作能力的構(gòu)念核心，借此比較不同寫作測試方法間的異同。

圍繞直接與間接寫作測試的關(guān)系，學(xué)界已有不少成果（Benton & Kiewra， 1986；Ackerman & Smith， 1988；徐曉燕等，2004；Peckham， 2009；Chen， 2012），但得出的結(jié)論卻不盡相同。不同研究之間的差異展現(xiàn)了控制相關(guān)變量的復(fù)雜性。Peckham（2009）認(rèn)為不同的寫作任務(wù)性質(zhì)（如體裁和主題）、寫作環(huán)境、時間分配以及評分程序等均會影響研究結(jié)論。在變量繁多、研究結(jié)果迥異的情況下，研究者更需關(guān)注此類研究的實驗設(shè)計。Traub（1993）總結(jié)了直接和間接寫作測試關(guān)系研究應(yīng)遵守的標(biāo)準(zhǔn)：（1）應(yīng)盡可能減少測量誤差；（2）采用多組設(shè)計來探究不同測試方式的一致性。綜合上述分析，可得出以下三點啟示：第一，考生的語言能力可能會影響兩種測試方法的相關(guān)性。這一觀點符合直覺，但尚無實證數(shù)據(jù)的支撐，有待開展相關(guān)的實證研究（黃建濱、于書林， 2009）。第二，不同間接寫作題型和直接寫作試題的相關(guān)性也存在差異。盡管現(xiàn)有研究已涵蓋大多數(shù)類型的間接寫作測試，但部分間接寫作測試題型卻鮮有涉及，如同時考查語法和語篇知識的改錯題（劉建達、楊滿珍， 2001；白雅， 2005；靳文方， 2014；汪津伊， 2020）。第三，相關(guān)性研究尚無法解答誰能取代誰的問題。相反，這類研究更應(yīng)關(guān)注如何將兩類寫作測試通過適當(dāng)?shù)姆绞綄崿F(xiàn)測量效度的最大化（Chen，2012）。比如，使用間接測試有助于為考生提供顆粒度更細的反饋信息，而這正是寫作診斷測試最令人稱道之處。本研究充分考慮考生能力水平、不同間接測試題型等變量，進一步探究優(yōu)化寫作診斷測試的實施路徑。

2.2 寫作診斷測試

近年來，診斷測試逐漸發(fā)展壯大（潘鳴威、宋杰青、鄧華，2019）。國際上，較為成熟的診斷測試包括DIALANG（https：//dialangweb.lancaster.ac.uk/）和奧克蘭大學(xué)研發(fā)的診斷性英語語言需求測試（DELNA）（http：//www.delna.auckland.ac.nz/en.html）。兩項考試在考生完成一些獨立測試（如閱讀、寫作、聽力）后會提供即時診斷反饋。其中，DIALANG寫作試題采用間接測試題型，答題前考生可參加詞匯分級試測并填寫自我評估表來確定實際試題難度；而DELNA的寫作試題為直接測試。然而，這兩項寫作診斷測試的缺點也顯而易見。間接寫作測試固然能提供部分診斷信息，但反饋信息可能過于籠統(tǒng)；而直接寫作測試雖有更好的表面效度，但單項寫作任務(wù)很可能存在測量誤差，無法準(zhǔn)確全面地反映寫作能力（Traub， 1993）。可見，單獨使用間接或直接寫作診斷測試均有可能導(dǎo)致部分關(guān)鍵診斷信息的缺損。因此，結(jié)合兩種測試方式或許是更佳選擇。基于此，本研究圍繞由我國自主設(shè)計的UDig寫作診斷測試①，通過探究間接與直接寫作測試對寫作能力構(gòu)念的互補性，回答兩種測試方式如何結(jié)合才能使寫作診斷測試的優(yōu)勢最大化。

3.研究設(shè)計

3.1 研究問題

基于以上文獻綜述和本研究目標(biāo)，本研究采用混合式設(shè)計解答三個研究問題，即在UDig寫作診斷測試中：（1）直接寫作測試成績與間接寫作測試成績之間總體上呈現(xiàn)何種關(guān)系，語言能力的差別是否會影響這一關(guān)系？（2）不同類型間接寫作測試（單句改錯和短文改錯）與直接寫作測試之間呈現(xiàn)何種關(guān)系？（3）考生語言能力水平和間接寫作測試類型間的交互作用如何影響直接與間接寫作測試的關(guān)系？

3.2 研究受試

本研究受試分為兩類。第一類是僅參加UDig六級②（UDig-6）寫作測試的考生。2021年5-6月間，共有183位來自中國不同地區(qū)3所高等院校的學(xué)生參加該測試。所有考生均為在校非英語專業(yè)大三或英語專業(yè)大二學(xué)生，與UDig適用對象基本一致；其寫作診斷測試的直接寫作測試成績作為其能力水平分組的依據(jù)。第二類是同時參加寫作測試和刺激回憶訪談的學(xué)生。由于刺激回憶活動的特殊性，本研究根據(jù)教師的推薦人選，初步遴選出第一批潛在的訪談考生；在診斷測試后依據(jù)外部量化標(biāo)尺（大學(xué)英語四、六級成績）和外部質(zhì)化標(biāo)尺（任課教師評價），選出了15名受試，并將其分成高、中、低三個水平組，如表1所示。

3.3 研究工具

本研究的工具包括 UDig-6間接寫作測試和直接寫作測試③。前者包括單句改錯和短文改錯兩種題型，采用機器評分，具體信息如表2所示；后者為UDig-6說明文寫作（圖表描述題）。本研究采用分項式評分法，每個寫作樣本由兩位經(jīng)驗豐富的評分員從UDig既定的評分標(biāo)準(zhǔn)中語言質(zhì)量（35%）、篇章組織（20%）、主題發(fā)展（35%）和寫作規(guī)范（10%）完成獨立評分，滿分15分?？忌淖罱K得分即為雙評的均值。但若兩位評分員在任一分項分的差異超過3分的閾值，則由仲裁評分員確定最終得分。

3.4 數(shù)據(jù)收集

測試開發(fā)中，5位中國語言測試領(lǐng)域?qū)＜覅⑴c了UDig-6間接和直接寫作測試的研發(fā)。小規(guī)模試測結(jié)果表明，試題經(jīng)典測量理論（CTT）的項目平均難度為0.55，即保持在0.50左右，因而試題質(zhì)量符合有關(guān)設(shè)定標(biāo)準(zhǔn)（Bachman， 2004）。

數(shù)據(jù)收集中，寫作診斷測試采用計算機化考試的形式，考試結(jié)束后相關(guān)考生即刻進入刺激回憶環(huán)節(jié)。在刺激回憶開始前，受試已獲取自己的間接寫作測試成績，而直接寫作測試則由評分員事后如上文3.3所述完成評分。直接寫作測試的評分員間信度為0.92，各分項維度信度均超過0.80，表明評分一致性極佳。刺激回憶活動中，研究者首先協(xié)助受試熟悉相關(guān)程序并開始簡單試測。隨后，在進入正式刺激回憶后，受試可使用自身習(xí)慣的表達方式描述思維細節(jié)。最后研究人員與受試再次訪談，更清晰地還原受試的所有陳述。整個刺激回憶持續(xù)約40分鐘，并在征得受試允許的前提下錄音。

3.5 數(shù)據(jù)分析

本研究使用RStudio（1.4.1717版）分析直接和間接寫作成績的定量數(shù)據(jù)，并使用軟件包生成圖表，包括：ggplot2（Wickham et al.， 2020）， ggstatplot（Patil， 2021），ggpubr（Kassambara， 2020），Cowplot （Wilke， 2020）和HH（Heiberger， 2020）。表3列出各研究問題所對應(yīng)研究目的和相應(yīng)的統(tǒng)計方法。

如上文3.2所述，直接寫作成績是考生寫作能力分組的依據(jù)。結(jié)合評分標(biāo)準(zhǔn)，表4解釋了寫作能力分組結(jié)果。Games-Howell測試顯示，所有寫作能力分組具有統(tǒng)計學(xué)意義（p <0.000）。

刺激回憶數(shù)據(jù)由兩位研究人員編碼。編碼前，編碼員根據(jù)不同寫作測試方法，就可能涉及的寫作技能等交換意見（Grabe & Kaplan， 1996；Cumming et al.， 2000），并在制定編碼方案后獨立編碼。結(jié)果顯示，編碼一致性較高，達到0.82。附錄為直接（D）寫作和間接（I）寫作測試的編碼方案，均由語言使用（LU）和篇章知識（DC）組成。

4.研究結(jié)果

圍繞三個研究問題，下文分別從間接與直接寫作測試的總體關(guān)系、不同類型間接寫作測試與直接寫作的關(guān)系以及語言能力和間接寫作測試的交互效應(yīng)三個方面呈現(xiàn)研究結(jié)果，最后再報告刺激回憶數(shù)據(jù)的分析結(jié)果。

4.1 間接與直接寫作測試的總體關(guān)系

如圖1所示，此處使用斯皮爾曼等級相關(guān)計算間接與直接寫作的總體相關(guān)性，發(fā)現(xiàn)

兩種寫作測試方法之間呈弱相關(guān)（r（181）=0.160， p =0.030）。由圖1可知，以考生寫作能力為變量時，不同寫作測試方法之間的相關(guān)性卻無統(tǒng)計學(xué)意義（p=0.060，0.380，0.850>0.050）。

這一結(jié)果表明，考生的整體語言能力并非是預(yù)測間接寫作成績的有力因素。而組間差異分析顯示，各寫作能力組間僅存在邊緣的顯著性差異（F（2， 87.56）=3.16，p=0.047），如圖2所示。

4.2 不同間接測試題型的影響

由圖3可知，單句改錯與直接寫作測試呈弱相關(guān)（r=0.170，p=0.024）。但短文改錯與直接寫作測試之間則幾乎無相關(guān)（r=0.100，p=0.016）。

圖4顯示不同間接寫作測試題型與直接寫作測試分項成績的相關(guān)性?？梢姡瑔尉涓腻e與“語言質(zhì)量”和“寫作規(guī)范”這兩個分項存在弱相關(guān)。但與單句改錯不同，短文改錯與各分項均不存在顯著相關(guān)。而從配對樣本t檢驗結(jié)果分析，考生在單句改錯上的表現(xiàn)（M=6.500，SD=1.930）要優(yōu)于短文改錯（M=4.690，SD=2.050），且這一差異具有顯著性（t（182）= 11.160，p <0.000， g=0.820）。

4.3 交互效應(yīng)分析

本研究使用Robust ANOVA來考查間接寫作測試類型和考生語言能力這兩個自變量的交互效應(yīng)。如圖5所示，兩者的交互效應(yīng)可忽略不計（p=0.640）；左上圖和右下圖近乎平行也進一步佐證這一結(jié)果。圖6中的Games-Howell檢驗更間接表明，考生的語言能力似乎不影響其短文改錯的成績。

4.4 刺激回憶數(shù)據(jù)的結(jié)果

為進一步挖掘以上量化數(shù)據(jù)分析結(jié)果的原因，下文通過分析刺激回憶數(shù)據(jù)中的發(fā)現(xiàn)來佐證以上研究發(fā)現(xiàn)。

單句改錯中，較多考生僅使用單詞層面的理解和語法技能，但低水平組在無法識別語法錯誤的情況下會更頻繁使用篇章類技能。另外，可能是單句改錯的難度較低，部分考生甚至不需要理解句意就能直指錯誤本身，如例1所示。

例1 我覺得這是顯而易見的……當(dāng)我看到“只有”這個詞時，我就知道這題是關(guān)于倒裝的。我甚至沒有注意到其他的詞。［EC4H3］

短文改錯中，較多考生能掌握一些間接寫作測試的答題策略，但在識別語義錯誤方面卻成果寥寥，高水平組亦是如此。很多銜接誤用是無法識別錯誤后的無奈之舉，如例2。

例2 我沒有發(fā)現(xiàn)任何錯誤……我覺得這可能是一個語義錯誤……或許也可能是語法問題？當(dāng)時真是絞盡腦汁也想不出。［PR12H5］

低水平組在短文改錯上的表現(xiàn)相對弱，但整體差距不大。各水平組的刺激回憶數(shù)據(jù)也揭示不少相似之處，在一定程度上也印證了以上短文改錯成績區(qū)分度低的研究發(fā)現(xiàn)。

直接寫作中，高、中水平組能追求詞匯和句法使用的多樣性（例3、例4）。但低水平學(xué)生往往將更多精力聚焦在準(zhǔn)確性上，而篇章知識的運用屢屢受挫，如例5。

例3 準(zhǔn)備收尾了……我記得當(dāng)時我在想我們剛學(xué)的一個新短語……對，就是in a nutshell。起初，我想這可能是一個吸引評分人眼球的短語，但后來我突然意識到這是一個寫作測試……in a nutshell聽起來很隨意，所以我最后用了in conclusion。［DW1M8］

例4 首先我想描述總體趨勢……一開始想的是“we can see from the diagram that...”。但 see很普通，所以我換成了extrapolate...Old people這個表述感覺缺乏尊重？老師曾說過委婉語在日常使用中的重要性，這就是為什么我決定使用“the hoary”這個詞。［DW1H4］

例5 我腦子里蹦出的第一個詞是“convenience”，但我不確定這個詞怎么拼，最后就只能換個簡單的詞。［DW1L10］

由上幾例可見，例3和例4體現(xiàn)了考生的文體意識：中水平組更注重語言使用的正式性，而高水平組還能關(guān)注委婉語等修辭手法的使用。這與例5形成鮮明反差。事實上，本研究在刺激回憶數(shù)據(jù)中甚至很難找到中高水平組使用技術(shù)性細節(jié)（D-LU1）或使用正確的語法形式（D-LU2）的編碼結(jié)果。而低水平考生顯然更注重語法準(zhǔn)確性和技術(shù)性細節(jié)，這與間接寫作任務(wù)有明顯相似之處，而上文的相關(guān)分析也得出類似結(jié)論。

5.討論

結(jié)合本研究發(fā)現(xiàn)，我們從以下三個方面展開討論。

第一，總體上間接與直接寫作測試的相關(guān)性較弱。這與文獻的有關(guān)結(jié)論基本相同（Ackerman & Smith， 1988；Peckham， 2009）。無論是從整體分析，還是按間接測試類型和寫作能力水平兩個自變量分析，都表明兩種寫作測試方法并無強相關(guān)。相比而言，單句改錯與直接寫作的相關(guān)性更為密切，這或許與單句改錯所涉及的編輯策略有關(guān)（劉建達、楊滿珍， 2001；徐曉燕等， 2004）。此外，間接寫作測試間的成績差異具有統(tǒng)計學(xué)意義，而寫作能力水平組間的成績則不存在顯著性差異；自變量間也不存在交互效應(yīng)。這也從側(cè)面印證了Traub （1993）的論述：兩類寫作測試之間絕非互為競爭的可替換關(guān)系。

第二，直接寫作測試比間接寫作測試在寫作構(gòu)念的考查上更為全面。由刺激回憶數(shù)據(jù)分析結(jié)果可知，低水平組在直接寫作測試中更關(guān)注語法和詞匯的準(zhǔn)確性，而中高水平組更重視語言多樣性和篇章組織能力。這與先前文獻對二語學(xué)習(xí)者的寫作特征描述基本一致（Lahuerta Martínez， 2018；V?gelin， Jansen， Keller， Machts & M?ller， 2019；Chen， 2020）；但兩種間接寫作測試只誘發(fā)與語法知識相關(guān)的寫作能力（汪津伊， 2020）。此外，雖然兩種寫作測試方法在構(gòu)念全面性上存在差異（Traub， 1993），但證據(jù)表明，若增加能有效測量考生篇章知識的間接寫作測試（劉建達、楊滿珍， 2001；白雅， 2005；靳文方， 2014；白麗茹， 2019），那這種差異可能就僅限于識別和產(chǎn)出技能間的區(qū)別。因此，這兩者的結(jié)合可更好涵蓋預(yù)設(shè)的寫作能力構(gòu)念，進而為寫作診斷測試提供更有效、更全面的診斷信息（Chen，2012；潘鳴威、宋杰青、鄧華，2019）。

第三，短文改錯在寫作診斷測試中應(yīng)用的適切性。一直以來，短文改錯存在區(qū)分度低和認(rèn)知超負(fù)荷的問題（曾絳，2016；陶娜、王穎， 2022），但本研究從實證角度提出了新證據(jù)。本研究刺激回憶數(shù)據(jù)也表明，中高水平考生對此題型頗有微詞。涉及語義改錯的試題（如考查承接、轉(zhuǎn)折關(guān)系的誤用）本應(yīng)用于考查學(xué)生結(jié)合語境的篇章知識，但不少考生僅能利用做題直覺憑空猜測，這顯然違背考試開發(fā)者所預(yù)設(shè)的認(rèn)知過程。另外，短文改錯所考查的語義編輯能力不完全是語言能力的子集（Grabe & Kaplan， 1996）：不少高水平考生反映識別此類語義連貫失誤的困難程度遠高于寫作產(chǎn)出本身，這與先前研究基本一致（白麗茹， 2019；解月， 2020）。因此，相較于短文改錯，似乎單句改錯可適合作為直接測試的互補方，為考生提供更為豐富全面的診斷信息。

6.結(jié)語

本研究采用混合式研究設(shè)計，以UDig寫作診斷測試為對象，探討了間接與直接寫作測試以及不同間接寫作測量方法之間的差異和關(guān)聯(lián)。通過考生的寫作測試成績及其刺激回憶數(shù)據(jù)，本研究闡述了寫作能力與寫作題型對相關(guān)性的影響，深入分析了間接與直接測試相關(guān)性較低的原因，并提出兩者如何依托寫作診斷測試，發(fā)揮各自優(yōu)勢，更全面體現(xiàn)寫作能力構(gòu)念。此外，本研究從考生層面探討了不同間接寫作測試題型選取的合理性，這有助于提高診斷測試本身的科學(xué)性和全面性，并為更為詳盡、細顆?；脑\斷報告奠定堅實基礎(chǔ)。

本研究也存在一定局限性。一方面，本研究僅涉及改錯類的兩種間接寫作測試。若能加入其他題型（如連句成篇）則可以進一步探究語篇知識的考查。另一方面，本研究尚未涉及基于間接寫作測試所生成的反饋信息有效性，即對考生寫作學(xué)習(xí)的研究。這些將在今后的研究中深入探索。

注釋：

① 限于篇幅，有關(guān)UDig在線寫作診斷測評系統(tǒng)詳見https：//unilearn.fltrp.com/gaozhen/trial-examlist.html。

② UDig寫作診斷測試按照《中國英語能力等級量表》的級別劃分（潘鳴威、鄒申，2021），對應(yīng)分為UDig-4，UDig-5，UDig-6和UDig-7級別。其中，達到UDig-6的考生水平大致對應(yīng)CSE六級水平。

③ 由于涉及考試內(nèi)容的保密性，本文無法列出實考試題，如需獲取，可與作者聯(lián)系。

參考文獻

［1］Ackerman， T. A. & P. L. Smith. A comparison of the information provided by essay， multiple-choice， and free-response writing tests［J］. Applied Psychological Measurement， 1988， 12（2）： 117-128.

［2］Bachman， L. F. Fundamental Considerations in Language Testing［M］. Oxford： Oxford University Press， 1990.

［3］Bachman， L. F. Statistical Analyses for Language Assessment［M］. Cambridge： Cambridge University Press， 2004.

［4］Behizadeh， N. Mitigating the dangers of a single story： Creating large-scale writing assessments aligned with sociocultural theory［J］. Educational Researcher， 2014， 43（3）： 125-136.

［5］Behizadeh， N. & M. E. Pang. Awaiting a new wave： The status of state writing assessment in the United States［J］. Assessing Writing， 2016， 29： 25-41.

［6］Benton， S. L. & K. A. Kiewra. Measuring the organizational aspects of writing ability［J］. Journal of Educational Measurement， 1986， 23（4）： 377-386.

［7］Chen， S. A Study on Correlations between English Professional Subject of the Technological and Vocational Education Joint College Entrance Exam and Picture Writing Performance of Students from Department of Applied Foreign Languages of Vocational High Schools［D］. National Chengchi University， 2012.

［8］Chen， Y. Assessing the lexical richness of figurative expressions in Taiwanese EFL learners writing［J］. Assessing Writing， 2020， 43： 1-12.

［9］Cumming， A.， R. Kantor， D. Powers， T. Santos & C. Tayler. TOEFL 2000 Writing Framework［R］. Princeton： Educational Testing Service， 2000.

［10］Grabe， W. & K. B. Kaplan. Theory and Practice of Writing： An Applied Linguistic Perspective［M］. New York： Longman， 1996.

［11］Heiberger， R. M. HH： Statistical Analysis and Data Display： Heiberger and Holland［CP］. 2022-08-09. https：//CRAN.R-project.org/package=HH.［2023-05-28］

［12］Kassambara， A. ggpubr： ‘ggplot2 Based Publication Ready Plots［CP］. 2023-02-10. https：//CRAN.R-project.org/package=ggpubr.［2023-05-28］

［13］Knoch， U. Diagnostic assessment of writing： A comparison of two rating scales［J］. Language Testing， 2009， 26（2）： 275-304.

［14］Lahuerta Martínez， A. C. Analysis of syntactic complexity in secondary education EFL writers at different proficiency levels［J］. Assessing Writing， 2018， 35： 1-11.

［15］Lee， Y. W. Diagnosing diagnostic language assessment［J］. Language Testing， 2015， 32（2）： 299-316.

［16］McNamara， T. F. Item response theory and the validation of an ESP test for health professionals［J］. Language Testing， 1990， 7 （1）： 52-76.

［17］Patil， I. Visualizations with statistical details： The ‘ggstatsplot approach［J］. Journal of Open Source Software， 2021， 6 （61）： 3167.

［18］Peckham， I. Online placement in first-year writing［J］. College Composition and Communication， 2009， 60 （3）： 517-540.

［19］Stiggins， R. J. A comparison of direct and indirect writing assessment methods［J］. Research in the Teaching of English， 1982， 16 （2）： 101-114.

［20］Traub， R. E. On the equivalence of the traits assessed by multiple-choice and constructed-response tests［A］. In R. E. Bennett & W. C. Ward （eds.）. Construction versus choice in cognitive measurement： Issues in constructed response， performance testing， and portfolio assessment［C］. Hillsdale： Lawrence Erlbaum Associates.1993， 29-44.

［21］V?gelin， C.， T. Jansen， S. D. Keller， N. Machts & J. M?ller. The influence of lexical features on teacher judgements of ESL argumentative essays［J］. Assessing Writing， 2019， 39： 50-63.

［22］Weigle， S. C. Assessing Writing［M］. Cambridge： Cambridge University Press， 2002.

［23］Weir， C. J. Language Testing and Validation： An Evidence-based Approach［M］. Hampshire： Palgrave Macmillan， 2005.

［24］White， E. M. An apologia for the timed impromptu essay test［J］. College Composition and Communication， 1995， 46 （1）： 30-45.

［25］Wickham， H.， W. Chang， L. Henry， T. L. Pedersen， K. Takahashi & C. Wilke. ggplot2： Create Elegant Data Visualisations Using the Grammar of Graphics［CP］. 2023-04-03. https：//CRAN.R-project.org/package=ggplot2.［2023-05-28］

［26］Wilke， C. O. Cowplot： Streamlined Plot Theme and Plot Annotations for ‘ggplot2［CP］. 2020-12-30. https：//CRAN.R-project.org/package=cowplot.［2023-05-28］

［27］白麗茹. 英語句子邏輯連貫?zāi)芰εc英語寫作水平潛在關(guān)系研究［J］. 外語研究， 2019，（1）： 52-57+112.

［28］白雅. 基于語料庫方法的高考短文改錯的真實性研究［D］. 廣東外語外貿(mào)大學(xué)，2005.

［29］黃建濱，于書林. 國內(nèi)英語寫作研究述評［J］. 中國外語， 2009，（4）： 60-65.

［30］靳文方. 基于語料庫對高考英語短文改錯的內(nèi)容效度研究［D］. 陜西師范大學(xué)，2014.

［31］劉建達，楊滿珍. 成段改錯試題考了什么？［J］. 現(xiàn)代外語， 2001，（2）： 170-180.

［32］潘鳴威，宋杰青，鄧華. 在線英語寫作診斷測評中自評量表的開發(fā)與效度驗證［J］. 外語教育研究前沿， 2019，（4）： 33-41.

［33］潘鳴威，鄒申. 中國英語能力等級量表寫作量表研究［M］. 北京：高等教育出版社，2021.

［34］陶娜，王穎. 2022. 外語寫作任務(wù)復(fù)雜度對語言形式注意和修改效果的研究［J］. 山東外語教學(xué)， 2022，（5）： 67-76.

［35］汪津伊. 2016-2019年高考英語全國卷短文改錯題的內(nèi)容效度和答題效度研究［D］. 安徽師范大學(xué)，2020.

［36］解月. 二語寫作連貫研究綜述和展望［J］. 山東外語教學(xué)， 2020，（6）： 20-30.

［37］徐曉燕，夏偉蓉，呂長竑. 大學(xué)生英語語法能力與英語寫作能力的相關(guān)研究［J］. 西南民族大學(xué)學(xué)報（人文社科版）， 2004，（12）： 463-466.

［38］曾絳. 完形、改錯的語言測試與專門用途英語語能考測［J］. 外語電化教學(xué)， 2016，（3）： 86-90.

［39］鄒申. 簡明英語測試教程［M］. 北京：高等教育出版社， 2011.

（責(zé)任編輯：趙衛(wèi)）

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

診斷測試視角下的間接與直接寫作測試互補性研究