中國(guó)英語(yǔ)寫作能力等級(jí)量表應(yīng)用階段的信度檢驗(yàn)方法*

2021-06-26 06:40胡文婷馬曉梅

湖州師范學(xué)院學(xué)報(bào) 2021年3期

胡文婷,馬曉梅

(北京工業(yè)大學(xué) 文法學(xué)部,北京 100124)

語(yǔ)言能力等級(jí)量表，又稱語(yǔ)言能力標(biāo)準(zhǔn)。其以語(yǔ)言能力習(xí)得結(jié)果為依據(jù)，根據(jù)語(yǔ)言能力發(fā)展的不同階段分級(jí)描述語(yǔ)言能力層面[1]91-100，是語(yǔ)言測(cè)評(píng)構(gòu)念及評(píng)分員量分的重要依據(jù)。中國(guó)英語(yǔ)能力量表(China’s Standards of English，以下簡(jiǎn)稱“量表”)在開(kāi)展廣泛多樣的量化及質(zhì)性研究基礎(chǔ)上，基于實(shí)驗(yàn)數(shù)據(jù)式(Data-based)方法設(shè)計(jì)而成[2]380-387，437。自2018年底發(fā)布以來(lái)，該量表受到外語(yǔ)教學(xué)界廣泛關(guān)注。量表通過(guò)針對(duì)受試者提供的測(cè)試情景及受試結(jié)果，推算出我國(guó)英語(yǔ)習(xí)得者實(shí)際情況的擬合曲線分布符合分級(jí)描述[3]8-13。根據(jù)動(dòng)態(tài)系統(tǒng)理論、多元能力理論、系統(tǒng)功能語(yǔ)言學(xué)及社會(huì)文化理論，量表進(jìn)行了一定的英語(yǔ)學(xué)能預(yù)測(cè)[4]53-61。量表描述語(yǔ)以“我能……”為預(yù)測(cè)描述(1)Can-do statement：此處可理解為以能力作為核心概念的量表制定方法。，認(rèn)為不同英語(yǔ)習(xí)得能力維度的發(fā)展可等同于相應(yīng)的語(yǔ)言資源掌控能力[5]7-11，15。該量表通過(guò)不同構(gòu)面預(yù)測(cè)二語(yǔ)學(xué)習(xí)者英語(yǔ)能力的認(rèn)知情況和表達(dá)水平，是中國(guó)外語(yǔ)教學(xué)能力測(cè)評(píng)標(biāo)準(zhǔn)制定的里程碑。在量表投入使用的一至兩年后，研究者需要對(duì)量表信度統(tǒng)計(jì)方法進(jìn)行梳理和歸納，并不斷深入收集歷時(shí)信度證據(jù)，這對(duì)量表中后期的完善工作顯得尤為重要。

一、寫作能力量表及信度檢驗(yàn)方法

(一)寫作能力量表制定理?yè)?jù)

英語(yǔ)寫作能力的提升在動(dòng)態(tài)螺旋發(fā)展過(guò)程中不斷淬煉[6]32-44。因此，寫作能力測(cè)評(píng)量表的設(shè)置考慮了寫作能力提升過(guò)程中復(fù)雜糅合的多元過(guò)程和迥異的語(yǔ)言習(xí)得內(nèi)在動(dòng)因[7]28-35。據(jù)此，寫作能力量表的制定理?yè)?jù)認(rèn)為：寫作能力發(fā)展等同于語(yǔ)言能力發(fā)展，并將寫作能力發(fā)展等同于語(yǔ)篇輸出的操控能力發(fā)展[8]22-31。寫作能力的螺旋發(fā)展過(guò)程，重點(diǎn)體現(xiàn)在量表編制的概念界定中，以學(xué)生寫作能力感知情況進(jìn)行對(duì)稱性及非對(duì)稱性分組，并將分組進(jìn)行組間比較?；趯?duì)應(yīng)場(chǎng)景化的寫作測(cè)試，根據(jù)量表可針對(duì)學(xué)生寫作學(xué)能進(jìn)行評(píng)估，并得出測(cè)試結(jié)論。

(二)寫作能力量表場(chǎng)景化分級(jí)標(biāo)準(zhǔn)

在大量前期研究(2)前期研究包括基于寫作運(yùn)用詞匯的能力研究、句型語(yǔ)法對(duì)比研究、課堂環(huán)境構(gòu)建研究、元思辨能力研究、寫作聲音研究等?；A(chǔ)上，寫作能力量表的制定及場(chǎng)景化分級(jí)經(jīng)歷了系統(tǒng)的量化和質(zhì)性研究[9]78-90，146。具體包括描述語(yǔ)收集、問(wèn)卷調(diào)查、專家評(píng)判、教師評(píng)價(jià)、學(xué)生反饋、篩定描述語(yǔ)和分級(jí)驗(yàn)證等階段[10]388-398，437。中國(guó)英語(yǔ)寫作能力等級(jí)量表涵蓋6個(gè)不同能力方向，包括書面描述、書面敘述、書面說(shuō)明、書面指示、書面論述和書面互動(dòng)等，且每一層面的能力描述又進(jìn)一步劃分為9個(gè)等級(jí)。劉建達(dá)針對(duì)完成的問(wèn)卷，基于項(xiàng)目反應(yīng)理論(IRT)，使用Rasch模型對(duì)每條描述語(yǔ)進(jìn)行難度值計(jì)算，并且最終形成了222條寫作能力描述語(yǔ)[11]1-6。根據(jù)量表建設(shè)思路，通過(guò)計(jì)算將所得數(shù)據(jù)值置于等距量表——洛基量尺(Logit Scale)上進(jìn)行比較分析。結(jié)果顯示：不同級(jí)別之間的IRT難度值呈現(xiàn)雙端對(duì)稱模式，擬合情況良好。潘明威以交際功能語(yǔ)境下的寫作能力發(fā)展路徑作為研究視角，將量表制定的描述語(yǔ)分成不同場(chǎng)景，且將其任務(wù)化，以較為嚴(yán)謹(jǐn)?shù)膶?shí)證研究手段明確了量表的場(chǎng)景化分級(jí)標(biāo)準(zhǔn)[12]78-85。然而，在該量表發(fā)布的兩年內(nèi)，通過(guò)實(shí)際使用和測(cè)試可知，針對(duì)寫作能力構(gòu)面的界定，仍存在一定的偏誤，其未能全面考慮中國(guó)學(xué)生英語(yǔ)語(yǔ)言表達(dá)能力的真實(shí)情況和實(shí)際需求。因此在場(chǎng)景化分級(jí)標(biāo)準(zhǔn)上，應(yīng)繼續(xù)完善該量表，從而提高測(cè)試信度水平。

(三)測(cè)量信度及信度證據(jù)

測(cè)量信度(Measurement Reliability)是指采用同樣的方法對(duì)同一對(duì)象重復(fù)測(cè)量時(shí)所得結(jié)果的一致性程度[13]85-92。量表信度的高低會(huì)直接影響效度論證邏輯和測(cè)量誤差，而提升量表信度，能夠有效驗(yàn)證量表效度。因此，在量表投放使用的初始實(shí)踐階段(3)此處指量表發(fā)布后的1～2年。，基于證據(jù)進(jìn)行信度驗(yàn)證是制定和完善語(yǔ)言能力量表的核心問(wèn)題。信度證據(jù)研究對(duì)量表成熟期測(cè)評(píng)可信性的完善、量表磨蝕期的效度修正具有重要的實(shí)踐價(jià)值及應(yīng)用意義[14]3-13。此外，量表測(cè)試信度需要通過(guò)各種有效途徑進(jìn)行長(zhǎng)期的積累研究，而非僅在制定量表過(guò)程中進(jìn)行信度效度檢驗(yàn)[15]40-48。目前，我國(guó)學(xué)界針對(duì)語(yǔ)言量表效度進(jìn)行了較為深入且系統(tǒng)的研究，但對(duì)于語(yǔ)言量表信度的研究并不充分，尤其對(duì)歷時(shí)證據(jù)的獲取與收集仍有所欠缺。這也在某種程度上阻礙了我國(guó)語(yǔ)言量表信度理論的發(fā)展，也影響了信度問(wèn)題研究的開(kāi)展和完善。

(四)信度研究理論體系

20世紀(jì)80年代起，信度研究在語(yǔ)言測(cè)試領(lǐng)域逐步發(fā)展深化。統(tǒng)計(jì)領(lǐng)域的信度研究理論不斷被引入語(yǔ)言測(cè)試范疇的研究中。其中，經(jīng)典真分?jǐn)?shù)理論(Classical True Score)、概化理論(Generalizability Theory)及項(xiàng)目反應(yīng)理論(Item Response Theory)被普遍應(yīng)用在語(yǔ)言測(cè)試及量表信度檢驗(yàn)過(guò)程中[16]138-152。本文就以上3項(xiàng)理論進(jìn)行一定的梳理及闡釋。

1.經(jīng)典真分?jǐn)?shù)理論

20世紀(jì)90年代起，語(yǔ)言測(cè)試學(xué)家Bachman將信度理論中的經(jīng)典真分?jǐn)?shù)測(cè)量理論引入語(yǔ)言測(cè)評(píng)領(lǐng)域[17]166-186。隨后，相關(guān)研究逐漸圍繞該理論展開(kāi)。然而，在實(shí)際測(cè)量過(guò)程中，該理論不可能完全避免誤差的存在。該理論引入觀察分?jǐn)?shù)和影響觀察分?jǐn)?shù)因素之間的關(guān)系假設(shè)，認(rèn)為真實(shí)分?jǐn)?shù)取決于個(gè)人能力水平和誤差分?jǐn)?shù)。真分?jǐn)?shù)計(jì)算表達(dá)式為：

x=xt+xe

(1)

其中，x代表觀察分?jǐn)?shù)，xt代表真分?jǐn)?shù)，xe代表誤差分?jǐn)?shù)。量表可信性體現(xiàn)在產(chǎn)生的分?jǐn)?shù)代表被測(cè)變量在一定情形下的真實(shí)狀態(tài)(4)真分?jǐn)?shù)是指沒(méi)有誤差前提下施測(cè)得到的純正分?jǐn)?shù)。。換言之，信度就是潛變量真分?jǐn)?shù)變異值與總分方差的比值。信度指標(biāo)通常由相關(guān)系數(shù)表示，即用同一被試樣本所得的兩組資料的相關(guān)系數(shù)作為測(cè)量一致性的指標(biāo)，稱為信度系數(shù)。其表達(dá)公式為：

(2)

(3)

因此可推導(dǎo)出，誤差分?jǐn)?shù)方差為：

(4)

信度統(tǒng)計(jì)研究方法各有千秋，但本質(zhì)上都是通過(guò)計(jì)算真分?jǐn)?shù)方差的估計(jì)與觀察分?jǐn)?shù)方差的估計(jì)比例得來(lái)[18]35-38。信度研究方法包括邏輯分析(Logical Analysis)以及實(shí)證研究(Empirical Research)。基于該理論可知，在后續(xù)的量表施測(cè)信度檢驗(yàn)研究中，研究者應(yīng)準(zhǔn)確識(shí)別誤差來(lái)源，并準(zhǔn)確估計(jì)不同統(tǒng)計(jì)因素誤差對(duì)測(cè)試分?jǐn)?shù)的影響量級(jí)。對(duì)寫作測(cè)試來(lái)說(shuō)，所得測(cè)試分?jǐn)?shù)誤差來(lái)源、誤差因素、誤差量應(yīng)是研究者關(guān)注的重點(diǎn)。因此，針對(duì)中國(guó)英語(yǔ)寫作能力量表的信度研究，應(yīng)重視量表測(cè)評(píng)過(guò)程中的誤差分?jǐn)?shù)估計(jì)方法，通過(guò)預(yù)估誤差分?jǐn)?shù)，不斷估計(jì)量表與理想測(cè)評(píng)反饋能力的距離；通過(guò)誤差修正反饋，針對(duì)量表構(gòu)面和評(píng)價(jià)分級(jí)進(jìn)行更為精準(zhǔn)的界定，從而提高量表的整體信度。

2.概化理論

概化理論模型基于因子設(shè)計(jì)和方差分析得來(lái)，用于檢驗(yàn)測(cè)試分?jǐn)?shù)中不同來(lái)源方差的相對(duì)效果[19]21-27。概化理論將單一已知測(cè)量分?jǐn)?shù)視為樣本，將其推廣至更為普遍一般的測(cè)量中去[20]41-46。因此，概化理論立足于總方差變異分解的視角，分解為誤差源和非誤差源的一般框架[21]20-30，37。語(yǔ)言能力等級(jí)量表的概化理論應(yīng)用，主要針對(duì)研究個(gè)體某一項(xiàng)語(yǔ)言能力得出的測(cè)試分?jǐn)?shù)，推廣至其他項(xiàng)目語(yǔ)言能力表現(xiàn)中的相關(guān)研究。基于經(jīng)典真分?jǐn)?shù)理論的信度系數(shù)，概化理論信度系數(shù)逐漸被學(xué)界發(fā)展定義為：全域分?jǐn)?shù)方差與觀察分?jǐn)?shù)方差的比值，其表達(dá)式為：

(5)

3.項(xiàng)目反應(yīng)理論

項(xiàng)目反應(yīng)理論被認(rèn)為是經(jīng)典語(yǔ)言測(cè)試?yán)碚摰闹匾獋溥x方法。與經(jīng)典測(cè)量理論原理類似，項(xiàng)目反應(yīng)理論區(qū)分了真分?jǐn)?shù)變異和誤差分?jǐn)?shù)變異。但較之經(jīng)典測(cè)量理論，項(xiàng)目反應(yīng)理論針對(duì)不同能力水平受試，將同一個(gè)或同一組項(xiàng)目的不確定程度進(jìn)行了更加精細(xì)的劃分，且將該不確定程度和每一個(gè)項(xiàng)目的特征相關(guān)聯(lián)。

作為項(xiàng)目反應(yīng)理論的重要形式之一，Rasch模型在1961年由丹麥數(shù)學(xué)家Georg Rasch建立。在語(yǔ)言測(cè)試領(lǐng)域，尤其在語(yǔ)言能力量表的制定及其信度效度驗(yàn)證過(guò)程中，Rasch模型及各種衍生模型變體被廣泛應(yīng)用。Rasch模型的基本邏輯是：被試者能夠正確作答的概率，與試題難度及被試能力有顯著相關(guān)性[23]38-52。Rasch模型可將能力變量與難度變量參數(shù)化，通過(guò)計(jì)算將參數(shù)值置于等距量表上進(jìn)行比較。一般的，該模型的數(shù)學(xué)表達(dá)式可歸納為：

log(Pnij/Pni(j-1))=Bn-Di-Fj

(6)

其中，Pnij代表第n個(gè)能力為Bn的被試者在評(píng)分項(xiàng)難度為Dj的i項(xiàng)目上評(píng)分為j的概率；Pni(j-1)表示同條件下該被試者得分為j-1的概率。此外，B代表抽樣對(duì)象的能力，F(xiàn)j為量表分級(jí)的閾值修正值(Threshold)。Di為與Fj相關(guān)的難度值。該閾值(5)此處指項(xiàng)目分梯難度。在所有項(xiàng)目上視為相同值。Rasch模型在量表制定和施測(cè)過(guò)程中均可作為重要的度量模型進(jìn)行信度效度檢驗(yàn)。

二、語(yǔ)言量表信度檢驗(yàn)及施測(cè)方法

(一)內(nèi)部一致性信度

內(nèi)部一致性信度(InternalConsistencyReliability)是指用來(lái)測(cè)量同一個(gè)概念的多個(gè)計(jì)量指標(biāo)的一致性程度[24]29-36。在語(yǔ)言測(cè)試中，內(nèi)部一致性信度反映了量表內(nèi)部所有項(xiàng)目間的一致性程度，故又可稱之為同質(zhì)性。換言之，量表不同項(xiàng)目之間的相關(guān)程度即為量表的內(nèi)部一致性程度。因此，量表應(yīng)由一組相關(guān)程度較高的項(xiàng)目組成，這些相關(guān)度高的項(xiàng)目能夠較為可靠地從不同角度測(cè)量同一個(gè)問(wèn)題。

根據(jù)文獻(xiàn)檢索結(jié)果顯示，大部分量化寫作測(cè)試研究及量表信度檢驗(yàn)研究，均使用了內(nèi)部一致性信度系數(shù)進(jìn)行研究結(jié)果的信度校驗(yàn)[25]29-36。內(nèi)部一致性信度檢驗(yàn)方法也能夠較為客觀地反映測(cè)試結(jié)果的準(zhǔn)確性和穩(wěn)定性。

(二)阿爾法系數(shù)(α)

阿爾法系數(shù)(α)在1951年由Cronbach教授提出[26]297-299。阿爾法系數(shù)是教育或心理測(cè)驗(yàn)中常用的信度評(píng)估指標(biāo)，是一種被普遍使用的內(nèi)部一致性系數(shù)，用于檢驗(yàn)量表對(duì)于某種受測(cè)品質(zhì)的一致性信度。作為量表信度重要的量度方法，阿爾法系數(shù)在眾多語(yǔ)言測(cè)試領(lǐng)域研究中被廣泛使用。它被定義為：潛變量真分?jǐn)?shù)(共源方差)與量表分?jǐn)?shù)方差的比例。其數(shù)學(xué)表達(dá)式為：

(7)

阿爾法系數(shù)被國(guó)內(nèi)外大量語(yǔ)言測(cè)試和語(yǔ)言量表研究使用，用于檢驗(yàn)測(cè)量結(jié)果或量表制定的信度驗(yàn)證[27]71-89?；趦?nèi)部一致性概念，該系數(shù)可以看作是信度系數(shù)的保守估計(jì)值。當(dāng)該系數(shù)大于0.7時(shí)，表明量表可靠性較高。在寫作測(cè)試應(yīng)用階段的研究中，以鄒紹艷、范勁松的研究為例，其通過(guò)問(wèn)卷訪談等實(shí)證研究方法針對(duì)量分員展開(kāi)調(diào)查研究，經(jīng)分析統(tǒng)計(jì)，得出內(nèi)部一致性系數(shù)為0.781，證明評(píng)分員作答題目的可靠性，并推演了大學(xué)英語(yǔ)四級(jí)考試寫作測(cè)評(píng)量表效度[28]148-156。由此可見(jiàn)，通過(guò)檢驗(yàn)阿爾法系數(shù)可得出量表指定的信度驗(yàn)證結(jié)論，也能夠被推廣至大規(guī)模語(yǔ)言測(cè)試的信度調(diào)查中(6)如全國(guó)英語(yǔ)四六級(jí)考試寫作測(cè)評(píng)、高考入學(xué)英語(yǔ)寫作測(cè)試、專業(yè)英語(yǔ)四八級(jí)考試寫作測(cè)試等。。

如果測(cè)試范圍和規(guī)模為小樣本研究，如大學(xué)英語(yǔ)入學(xué)分級(jí)測(cè)試、本科階段英語(yǔ)專業(yè)寫作課程測(cè)試信度檢驗(yàn)等，則可根據(jù)受試者人數(shù)及受試條件進(jìn)行檢驗(yàn)方法的選取。通過(guò)協(xié)方差矩陣、以相關(guān)系數(shù)為基礎(chǔ)的阿爾法系數(shù)，以及折半法求得的斯皮爾曼—布朗預(yù)測(cè)公式，均可在中小規(guī)模語(yǔ)言測(cè)試中實(shí)現(xiàn)信度系數(shù)檢驗(yàn)實(shí)驗(yàn)?？偟膩?lái)說(shuō)，針對(duì)寫作測(cè)試信度檢驗(yàn)的統(tǒng)計(jì)學(xué)方法選取，較為靈活多變，研究者應(yīng)根據(jù)實(shí)際樣本數(shù)和測(cè)試內(nèi)容，進(jìn)行信度系數(shù)檢驗(yàn)方法的選擇。

(三)信度系數(shù)的施測(cè)方法

語(yǔ)言量表如果針對(duì)某個(gè)有意義的語(yǔ)言能力構(gòu)念形成度量，那么，在不同時(shí)間點(diǎn)上使用該量表測(cè)得的結(jié)果，應(yīng)可相互比擬[29]2-10。因此，量表的信度系數(shù)需要在不同時(shí)間點(diǎn)，進(jìn)行長(zhǎng)期的歷時(shí)性觀察和抽樣研究。中國(guó)英語(yǔ)寫作能力量表的信度系數(shù)研究，需要研究者在不同時(shí)間點(diǎn)開(kāi)展歷時(shí)性的測(cè)試，并對(duì)不同時(shí)間點(diǎn)取得的測(cè)量結(jié)果數(shù)值的相關(guān)系數(shù)取均值。通過(guò)歷時(shí)的持續(xù)性研究，語(yǔ)言量表的信度系數(shù)具有歷時(shí)穩(wěn)定性(Temporal Stability)，此時(shí)，該信度又可被稱為重測(cè)信度(Test-Retest Reliability)[30]61-63。寫作量表針對(duì)6個(gè)寫作能力維度進(jìn)行了細(xì)致的劃分，將寫作“能力構(gòu)念”劃分為9級(jí)梯度描述。在開(kāi)始投入實(shí)際應(yīng)用的過(guò)程中，應(yīng)當(dāng)采取歷時(shí)性研究手段，估計(jì)量表一次性測(cè)量結(jié)果的信度。由此可見(jiàn)，制定及發(fā)展完善語(yǔ)言能力等級(jí)量表是一種長(zhǎng)期的、多路徑、多渠道積累的實(shí)證研究工作[31]3-7,41。在量表投入使用的初級(jí)階段，在二語(yǔ)教學(xué)過(guò)程中不斷收集積累各種信度效度證據(jù)，對(duì)量表進(jìn)行歷時(shí)性信度驗(yàn)證意義重大。

三、寫作量表信度驗(yàn)證測(cè)試過(guò)程及方法

完善量表信度的過(guò)程，應(yīng)基于科學(xué)的語(yǔ)言能力理論和語(yǔ)言測(cè)試?yán)碚摚η蟛僮鲗?shí)驗(yàn)過(guò)程遵守基本操作原理，立足語(yǔ)言教學(xué)和語(yǔ)言測(cè)試的實(shí)際，采用翔實(shí)有效的科學(xué)方法，以不斷提升量表的可操作性和測(cè)量結(jié)果的可靠性，實(shí)現(xiàn)語(yǔ)言量表制定的預(yù)期作用。另外，針對(duì)量表使用過(guò)程中的反饋問(wèn)題，相關(guān)研究者應(yīng)當(dāng)進(jìn)行大量的實(shí)證研究和實(shí)驗(yàn)調(diào)查，以保證實(shí)驗(yàn)數(shù)據(jù)的有效性和時(shí)效性。實(shí)驗(yàn)設(shè)計(jì)應(yīng)更為嚴(yán)謹(jǐn)，研究者應(yīng)有目的性地選取受試者，并根據(jù)研究問(wèn)題制定標(biāo)準(zhǔn)化語(yǔ)言測(cè)試材料，嚴(yán)格記錄實(shí)驗(yàn)過(guò)程(7)如撰寫觀察日志、反思日志等。，確定合適的研究問(wèn)題、選取適當(dāng)?shù)难芯吭O(shè)計(jì)分析方法開(kāi)展語(yǔ)言測(cè)試實(shí)驗(yàn)。以英語(yǔ)寫作能力等級(jí)量表為例：針對(duì)寫作量表進(jìn)行信度驗(yàn)證的實(shí)驗(yàn)設(shè)計(jì)，首先應(yīng)充分考慮受試者的寫作能力及語(yǔ)言習(xí)得條件[32]81-88。由于寫作能力習(xí)得過(guò)程較為復(fù)雜，寫作教學(xué)難度也隨之提升；寫作能力不僅指正確使用語(yǔ)法或修辭的能力，還包括概念和評(píng)價(jià)等(Conceptual and Judgmental)能力要素。其次，針對(duì)寫作能力量表的信度驗(yàn)證，設(shè)計(jì)研究中抽樣對(duì)象應(yīng)具備正確理解量表構(gòu)念的能力，并了解寫作學(xué)能的測(cè)試意圖。再次，抽樣對(duì)象語(yǔ)言能力水平應(yīng)與量表不同構(gòu)面能力描述相對(duì)應(yīng)，針對(duì)不同學(xué)術(shù)要求，開(kāi)展分層寫作能力評(píng)估。

同時(shí)，科學(xué)運(yùn)用寫作測(cè)試?yán)碚?，合理設(shè)計(jì)寫作標(biāo)準(zhǔn)化測(cè)試，是開(kāi)展系統(tǒng)有效的語(yǔ)言能力測(cè)試的前提[33]82-91。以寫作量表為例，根據(jù)寫作學(xué)能發(fā)展特點(diǎn)及寫作測(cè)試方法特質(zhì)，針對(duì)該量表的信度驗(yàn)證測(cè)試過(guò)程應(yīng)針對(duì)以下幾方面開(kāi)展：合理選取研究對(duì)象，并通過(guò)科學(xué)的抽樣方法進(jìn)行樣本抽樣；設(shè)計(jì)較為全面的寫作測(cè)試內(nèi)容，區(qū)分前測(cè)、中測(cè)、后測(cè)，并進(jìn)行驗(yàn)證；基于測(cè)試數(shù)據(jù)，選取合適的信度檢驗(yàn)方法，對(duì)數(shù)據(jù)進(jìn)行信度驗(yàn)證；注意收集信度檢驗(yàn)的歷時(shí)證據(jù)，以保證較為完備的信度檢驗(yàn)維度。對(duì)測(cè)驗(yàn)測(cè)試內(nèi)容及結(jié)構(gòu)的設(shè)計(jì)，應(yīng)基本吻合量表能力層級(jí)中涵蓋的所有層面內(nèi)容。因此測(cè)試題目的分層化、區(qū)別化應(yīng)是題目設(shè)計(jì)者應(yīng)當(dāng)重點(diǎn)考慮的問(wèn)題，尤其在題設(shè)邏輯和結(jié)構(gòu)上，應(yīng)對(duì)應(yīng)量表不同層間的考察內(nèi)容進(jìn)行設(shè)計(jì)。為達(dá)到量表評(píng)價(jià)描述語(yǔ)與受測(cè)者各項(xiàng)寫作能力的對(duì)應(yīng)性，寫作標(biāo)準(zhǔn)化測(cè)試的設(shè)計(jì)方法和設(shè)計(jì)思路應(yīng)著重注意以下幾個(gè)方面：

第一，能夠根據(jù)量表描述語(yǔ)的不同寫作能力層面，設(shè)定標(biāo)準(zhǔn)化測(cè)試題。以寫作能力量表中“書面互動(dòng)能力”為例，量表中表47將“書面互動(dòng)能力”分為9級(jí)。能力描述語(yǔ)分別涉及外事、商務(wù)合作協(xié)議或條約擬定、會(huì)議紀(jì)要、正式撰寫信函、申請(qǐng)科研經(jīng)費(fèi)、產(chǎn)品投訴、活動(dòng)祝賀、慰問(wèn)、文化介紹、社交媒體溝通及求職等不同的寫作語(yǔ)境。因此，在進(jìn)行寫作測(cè)試時(shí)，試題應(yīng)根據(jù)量表給定語(yǔ)境進(jìn)行匹配設(shè)計(jì)。第二，重視語(yǔ)言量表的心理測(cè)量功能，寫作測(cè)試設(shè)計(jì)應(yīng)能夠?qū)⒊橄蟮膶懽髡Z(yǔ)言能力構(gòu)念，轉(zhuǎn)化為明確直觀的檢測(cè)結(jié)果。寫作標(biāo)準(zhǔn)化試題應(yīng)同語(yǔ)言學(xué)、心理測(cè)量學(xué)、社會(huì)學(xué)等諸多相關(guān)學(xué)科結(jié)合，不斷調(diào)整更新，以適應(yīng)不同時(shí)期語(yǔ)言教學(xué)的需求。第三，寫作測(cè)試應(yīng)具有區(qū)別性證據(jù)特征。區(qū)別性關(guān)系是指當(dāng)一個(gè)變量提高(或下降)，另一個(gè)變量沒(méi)有顯著性提高(或下降)的趨勢(shì)。由于寫作能力提升過(guò)程較為復(fù)雜漫長(zhǎng)，因此寫作測(cè)試應(yīng)假設(shè)——高質(zhì)量的寫作能力試題與考前輔導(dǎo)效應(yīng)(Coaching Effect)的相關(guān)性不顯著。施測(cè)者應(yīng)能夠獲得寫作能力測(cè)試題目的區(qū)別性證據(jù)。

四、寫作測(cè)試對(duì)教學(xué)及政策的反撥

英語(yǔ)測(cè)試在應(yīng)用語(yǔ)言學(xué)的學(xué)科發(fā)展過(guò)程中逐漸獨(dú)立，但其核心內(nèi)容與二語(yǔ)教學(xué)緊密相關(guān)。因此，語(yǔ)言本身是寫作測(cè)試的核心邏輯所在?；谡Z(yǔ)言習(xí)得理論，語(yǔ)言測(cè)試應(yīng)嚴(yán)格遵循語(yǔ)言本身進(jìn)行構(gòu)想評(píng)估并搭建相關(guān)施測(cè)框架。語(yǔ)言測(cè)試學(xué)家Bachman及Palmer指出，語(yǔ)言測(cè)試的效用性(Usefulness)重點(diǎn)體現(xiàn)為語(yǔ)言測(cè)試的“信度，構(gòu)想效度、真實(shí)性、互交性、影響以及可實(shí)踐性”6個(gè)質(zhì)量因素。二語(yǔ)教師應(yīng)能夠從測(cè)試結(jié)果，也就是測(cè)試分?jǐn)?shù)得出結(jié)論，發(fā)現(xiàn)并定義二語(yǔ)習(xí)得者真實(shí)的語(yǔ)言學(xué)習(xí)效果及能力。同時(shí)，二語(yǔ)教師應(yīng)能夠通過(guò)測(cè)試成績(jī)的統(tǒng)計(jì)分析進(jìn)行合理描述，從而對(duì)教學(xué)計(jì)劃，教學(xué)手段，教學(xué)法進(jìn)行相應(yīng)的改進(jìn)(見(jiàn)圖1)。

圖1 語(yǔ)言測(cè)試與教學(xué)的互動(dòng)邏輯

針對(duì)二語(yǔ)教育過(guò)程中開(kāi)發(fā)的語(yǔ)言測(cè)量，如果能夠通過(guò)科學(xué)有效的實(shí)驗(yàn)方法和測(cè)試設(shè)計(jì)，在很大程度上能夠提供更加純粹的量化語(yǔ)言政策決策證據(jù)。首先，量化數(shù)據(jù)能夠有效服務(wù)研究者對(duì)二語(yǔ)習(xí)得者語(yǔ)言能力的深入了解。針對(duì)寫作教學(xué)來(lái)說(shuō)，二語(yǔ)習(xí)得者的詞匯運(yùn)用能力、語(yǔ)言建構(gòu)能力、篇章邏輯能力等均可從多層面得到測(cè)量。其次，語(yǔ)言能力的測(cè)量量化結(jié)果反饋，有助于二語(yǔ)教師診斷學(xué)生某一層面的語(yǔ)言能力并及時(shí)調(diào)整教學(xué)內(nèi)容和教學(xué)方法，以避免學(xué)生單層面能力缺陷的擴(kuò)大化。再次，量化的語(yǔ)言測(cè)試結(jié)果有助于教育決策者進(jìn)行語(yǔ)言教育政策調(diào)整及再?zèng)Q策。因此，語(yǔ)言測(cè)試、成績(jī)反饋、結(jié)果分析、教學(xué)反撥四者關(guān)系應(yīng)互相牽制并能夠形成有機(jī)共融體。以測(cè)試反觀教學(xué)效果，調(diào)整教學(xué)手段，改進(jìn)教學(xué)方法；以教學(xué)反撥語(yǔ)言測(cè)試設(shè)計(jì)，提升測(cè)試效度信度，是語(yǔ)言教學(xué)和測(cè)試的基本互動(dòng)邏輯。

五、結(jié)語(yǔ)

近年來(lái)，圍繞中國(guó)英語(yǔ)等級(jí)量表的相關(guān)研究成果斐然。國(guó)內(nèi)眾多語(yǔ)言教育及語(yǔ)言測(cè)試領(lǐng)域?qū)＜覍W(xué)者針對(duì)語(yǔ)言能力構(gòu)念、語(yǔ)言能力等級(jí)量表的制定理論、語(yǔ)言能力量表研究設(shè)計(jì)驗(yàn)證、描述語(yǔ)形式規(guī)范化開(kāi)展了一系列細(xì)致深入的調(diào)查研究。隨著2018年中國(guó)英語(yǔ)能力等級(jí)量表正式發(fā)布，這一幾乎涵蓋所有能力層次語(yǔ)言習(xí)得者的中國(guó)語(yǔ)言能力量表也真正從幕后走到臺(tái)前。量表開(kāi)始施測(cè)，必然會(huì)對(duì)各語(yǔ)言能力測(cè)試領(lǐng)域產(chǎn)生巨大影響。有一些反饋和影響是積極正面的，有一些反饋可能是消極的，它們都能夠協(xié)助量表不斷地修正、完善。

語(yǔ)言量表的信度驗(yàn)證需要考慮施測(cè)過(guò)程中的潛在錯(cuò)誤來(lái)源，同時(shí)以科學(xué)的方法有效預(yù)估錯(cuò)誤對(duì)量表施測(cè)結(jié)果的影響程度。只有以歷時(shí)性的視角不斷收集相關(guān)語(yǔ)言測(cè)試中的信度證據(jù)，通過(guò)對(duì)測(cè)試潛在偏誤進(jìn)行界定，對(duì)量表描述層級(jí)不確定性進(jìn)行厘清和核驗(yàn)，結(jié)合受試者二語(yǔ)語(yǔ)言認(rèn)知方式、認(rèn)知過(guò)程及認(rèn)知視角多因素進(jìn)行系統(tǒng)分析，才能最終全方面評(píng)估二語(yǔ)習(xí)得者的語(yǔ)言習(xí)得能力，并提升量表綜合評(píng)估效果。

綜上，在實(shí)施應(yīng)用過(guò)程中，語(yǔ)言量表各種測(cè)試結(jié)果所產(chǎn)生的社會(huì)效果都應(yīng)得到重視。語(yǔ)言量表的信度效度是衡量測(cè)試質(zhì)量的兩項(xiàng)重要的指標(biāo)，其中，由于信度能夠直接反饋測(cè)試結(jié)果的可靠性和穩(wěn)定性，信度測(cè)試與檢驗(yàn)尤其應(yīng)當(dāng)引起學(xué)界重視。目前，寫作測(cè)試及寫作量表信度檢驗(yàn)過(guò)程及方法仍存在一些爭(zhēng)論性問(wèn)題。以問(wèn)題視角為出發(fā)點(diǎn)，也為未來(lái)語(yǔ)言測(cè)試和語(yǔ)言量表研制發(fā)展打開(kāi)了新的思路。為了能夠更加準(zhǔn)確地評(píng)估和量化寫作測(cè)試分?jǐn)?shù)可靠性和可信性，并通過(guò)分析量表測(cè)試分?jǐn)?shù)時(shí)衡量錯(cuò)誤的潛在根源，正確使用科學(xué)的信度概念及衡量理論，不斷積累語(yǔ)言測(cè)試要素和量表測(cè)試的信度證據(jù)，完善量表描述語(yǔ)的準(zhǔn)確性，是提升量表評(píng)價(jià)結(jié)果的可靠性、科學(xué)性和有效性的有效方法和途徑。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡