国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

建立整體評分法和主要特點評分法相結合的作文評估標準:基于評分員行為研究

2013-03-26 22:53
大學英語(學術版) 2013年1期
關鍵詞:評分標準語篇量表

周 玲

(武漢大學外語學院,湖北武漢430072)

作文測試是一種直接測試法。但是其評估過程中因種種原因產(chǎn)生的偏差,卻又使它飽受詬病。自1961年Diederich(1961)等人的寫作評估信度測量實驗以來,寫作評估的評分員信度一直是一個研究的熱點。雖然因為實驗對象的不同,作文命題方式、難度等等的不同,有些研究結果不盡相同,但是也取得了一些共識。對評分員的評分行為的研究發(fā)現(xiàn),評分員對評分標準的不同解讀和操作會產(chǎn)生偏差。整體評分法僅給出每一分數(shù)段的樣本,缺乏具體的標準描述會產(chǎn)生不同的評分行為;從整體評分行為中因子分析析出主要考察項目并進行具體描繪,運用分析性評分法,不同的評分員卻又給予不同的項目不同的權重;雖然評分員培訓可以減少這種偏差,但是寫作任務的不同難度,所要求的不同文體,卻又使整齊劃一的評分標準無法普適。面對新的問題,我們在寫作教學和評估中應如何將寫作相關理論和研究結果整合,從而更好地為教學和評估服務呢?本文將從評分員行為研究結果出發(fā),嘗試性地提出一些建議,希望對寫作教學和評估有所幫助。

一、評分員評分行為研究

評分員的評分行為一直引起研究者的興趣。從甫一開始還沒有具體的評估標準開始,到制定明確的評估標準。有了評估標準后,評分員的具體操作行為還是缺乏一致性。

1961年,Diederich觀察53名評分員的相關系數(shù)僅為.31,在進一步對評分員進行因子分析后,他將評分員的關注點概括為5個因素,即思想(idea),形式(form),風格(flavour),寫作規(guī)范(mechanics),以及措辭(wording)。他指出,不同的評分員一貫地關注作文的不同方面,并提出對這些因素作進一步考察,以提供評分一致性。評分標準的制定本身就是一件很困難的事,但是,即便評分標準已經(jīng)選取,問題卻又變成了“評分員是否總是能夠遵循這些評分標準”(Charney1984:74)。

對比有經(jīng)驗的評分員和新手評分員在評分標準的具體運用,就會發(fā)現(xiàn)這種差異。Cumming(1990:38)在對有經(jīng)驗的和新手評分員進行對比后指出,新手評分員“傾向于依據(jù)技能元素或評分量表中的少數(shù)元素對作文進行評估”,有經(jīng)驗的和新手評分員的區(qū)別在于“兩者控制評分行為的策略,以及他們給予內(nèi)容,句法,修辭結構等特定方面的不同關注”。有經(jīng)驗的評分員在評分決策行為中體現(xiàn)了比較強的一致性,也具有整合評分量表各項目的能力,但即便如此“對他們給予高分的作文(相較給予低分的作文),他們往往更廣泛地關注修辭、思想(相比語言)”,而“ESL/EFL評分員更廣泛地關注語言,而不是全面關注修辭和思想,EMT(English-mothertongue)評分員則在作文的主要特點項目之間有更好地均衡”(Cummingetal.2002:67)。McNamara(1990:61)的研究則發(fā)現(xiàn),在評分過程中,語法項對于分數(shù)的差異具有最強的解釋性。Eckes(2008)借助多刻面Rasch分析模型,同樣表明,評分員給予評分標準各項目的權重存在顯著差異,并且在評分中體現(xiàn)出來。依據(jù)評分員顯著不同的評分行為,Eckes將評分員分為六種類型。其中四種類型的命名是根據(jù)評分員對評分標準中某一項目給予了突出的重視,這四種類型是:句法至上型(syntaxtype),語法正確至上型(correctnesstype),結構至上型(structuretype),語言流利至上型(fluencytype).另外兩種類型根據(jù)評分員對評分標準中某一項目的忽視或特別不重視而命名,分別為忽視語言流利型(non-fluencytype),忽視論證型(non-argumentationtype).

無論是質(zhì)的還是量的分析,研究結果都表明,評分員的評分行為存在差異。 而集中關注評估標準中某一和幾項標準的傾向無論是在新手評分員還是有經(jīng)驗的評分員中都存在。

在國內(nèi),類似的研究也得出了相同的結論。比如,王秉金等(1995)認為,四級評分標準沒有詳細規(guī)定內(nèi)容、語言、結構等方面所占總分的具體比例,這樣由于評分者的側重點不同(有人側重內(nèi)容,有人側重語言,有人側重組織結構),,造成打分的主觀性和隨意性很大。

鄒申通過問卷調(diào)查發(fā)現(xiàn),在作文評分的主要依據(jù)上,“兩位新評分員表示只采用一項作為自己的主要評分依據(jù),只有一位表示要使用二項以上的參照依據(jù)。相比之下,所有的老評分員都表示要使用一項以上的參照依據(jù)?!薄靶吕显u分員在評閱方式上仍存在明顯不同。老評分員能較自覺地按照評分標準的要求閱卷而新評分員則仍然潛意識地使用著各自的評閱標準”(鄒申 2002:5)。研究者也借助Rasch模型進行量化分析。比如羅娟等(2008)通過概化系數(shù)和可靠性系數(shù)解釋信度結構。數(shù)據(jù)結果表明,寫作評分對語言表達的評分精度最高,對寫作內(nèi)容、文章結構、詞匯運用的評分精度較高,對書寫規(guī)范的評分精度最低。說明語言仍然是評估的重點,而對書寫規(guī)范的關注不夠,或者說是對評分量表中的此項寫作能力的界定有不同理解和觀點。

基于對評分標準的不同把握而產(chǎn)生的評分誤差,在不同專業(yè)背景的評分員之間同樣存在。

Brown(1995)對業(yè)內(nèi)人士和語言教師對專業(yè)用途英語測試的評估行為做了研究。研究發(fā)現(xiàn),語言教師對語法、詞匯的正確與否的重視勝過業(yè)內(nèi)人士。業(yè)內(nèi)人士更注重意義的傳達。對于語言教師來說,語言能力和可理解性是分離的,對業(yè)內(nèi)人士來說,卻是一體的。對于任務的完成情況,業(yè)內(nèi)人士顯然更嚴厲。語言教師因缺少真實語境下任務完成情況的實際感知,常常慎于給出高分或低分,而業(yè)內(nèi)人士卻不同,常常根據(jù)任務的完成情況給出高分和低分。

Elder(2001)同樣將參加某一專門用途英語水平測試的評分員評分行為作為研究對象。在教師人員的英語水平測試中,專業(yè)課程教師(比如數(shù)學)和ESL教師作為評分員對應試人員的英語水平的測試評定出現(xiàn)了分歧。ESL教師關注更多的是語法、詞法和應試者的課堂陳述的內(nèi)在連貫性以及專業(yè)語匯的發(fā)音;而專業(yè)教師卻關注被試對課程內(nèi)容的概念化。這種不同的導向導致了他們最后對相同應試者給出不同的分數(shù)。

同時,也有研究表明,即使在總體評分上專業(yè)人士和語言教師表現(xiàn)出了一致性,他們在評分量表各具體項目上的評定卻出現(xiàn)了分歧。

二、評分員不同評分行為產(chǎn)生的原因

評分員不同評分行為,從以上的研究中可以看出來,與評分員的閱卷經(jīng)驗、從業(yè)經(jīng)驗、專業(yè)背景,以及評分標準的制定都有關系。而它導致的是人們對作文測試作為直接測試的信度的質(zhì)疑。

這恰恰是由作文測試作為行為測試的特點所引起的?!昂玫膶懽魇且粋€復雜的概念,因學科不同而不同”(BrockmanE.etal.2010:42)。人們對于什么是一篇好的作文,寫出一篇好的作文需要哪些能力,因為自己的閱卷經(jīng)驗、從業(yè)經(jīng)驗、專業(yè)背景等而有不同的認知。而作為讀者“存在審視某一作文的多角度和多方式”(Broad 2000:217),這直接影響了評分量表的制定和把握。所以,評分員培訓也好,評分量表的制定也好,首先要以“什么是一篇好的作文”這一問題的共識為出發(fā)點。

其次,作文的寫作和閱讀都是一個認知過程,所以寫作者也好,讀者也好,都會受到“注意力資源有限”的制約。Skehan(1998,2003)的有限注意力能力模型的一個基本假設是,注意力資源是有限的,增加任務的難度,多元素的處理會減少可資利用的總的注意力能力。當達到極限后,任務處理者就會優(yōu)先處理意義而不是語言形式。而且,對行為某一方面的關注將意味著其它維度的關注度減少,從而妨礙其它方面任務的處理。

在作者,對于不同的寫作任務,因為有著語篇知識等等不同的認知要求,當一定的注意力資源分配去管理語篇知識時,很可能他們所體現(xiàn)的語言駕馭能力要比其他熟悉的語篇文體要差。RuthL&MurphyS(1984:419)就指出,從歷時的角度看,作文分數(shù)低有時并不意味著退步。因為這可能意味著寫作者隨著水平的提高,和寫作任務有了更深層次的交互,隨著作者對不同形式語篇的認知學習,可能對于相同的作文要求,他們會構建一個從修辭角度講比以往更加復雜的任務,雖然他們可能還不會完全駕馭。而這卻使得他們的嘗試從某些層面上將可能還遜于以前的表現(xiàn)。

而對于評分員,經(jīng)驗的積累可以一定程度上使評分員整合各評分標準,使評分行為由自覺變?yōu)樽詣?,但是正如Cumming(2002:89)所指出的,“盡管有經(jīng)驗的評分員在不同的寫作任務的評估中用了基本相似的決策策略,他們可能需要在評估某些特定的寫作任務時有專門的評分標準”“在評估應試者在其他寫作任務,比如要求使用講座或對話源材料或涉及到獨特語類或人際關系如書信、摘要等寫作任務是,他們需要明確的原則來指導他們?nèi)绾卧u估”。也就是說,對于不同的語篇和寫作任務,我們的關注點應有所區(qū)分。才不至于主次不分,找不到重點。

評分員培訓可以一定程度上消除這種現(xiàn)象,在分數(shù)的解讀上運用Rasch模型也可以給予適當?shù)募m誤。但是我們也應該從以上兩個原因出發(fā)來尋求解決的辦法。

三、評分員的注意力資源該導向哪里

根據(jù)評分員行為的實證研究以及Skehan 的有限注意力理論,評分量表的使用中,不可能涵蓋所有的寫作能力元素,更不可能給予各項目相同的權重。那么我們該如何有所取舍呢?本文認為,評估標準的建立不僅應該整合進語篇研究方面的成果,而且還要以各種不同文體的語篇層面的特點為依據(jù),以主要特點的形式確定評估的重點,以整體評估加主要特點評估的方式,幫助學習者逐步掌握不同文體語篇的特點,并進而轉化為語篇交際能力。

所以首先我們應該確定評分量表的制定和評分員培訓中,語言表達能力的權重應該是怎樣的。正如評分員不自覺所做的,Cumming(2002:82-83)所觀察到的 “對他們給予高分的作文(相較給予低分的作文),他們往往更廣泛地關注修辭、思想(相比語言而言)”,我們的注意力資源不自覺的就將有限的資源首先分配給了語言,在注意力資源控制語言有余的情況下,我們將其分配給了語篇層面的其他能力。因此,依據(jù)這一認知規(guī)律,我們可以嘗試對于不同語言水平的學習者,對語言表達能力給予不同的權重。比如,對于提高語言表達能力階段的學生,我們可以更多使用記敘文體,評估也以語言表達清晰與否作為重要標準;而對于語言表達能力相對強的學生,在促進思辨能力等方面有更多要求。這樣可以有效地克服學生作為寫作者的注意力資源的有限,使其各分項能力意識增強,水平提高。

但是當學習者語法層面的駕馭能力已經(jīng)達到一定水平時,如果還停留在單一的語言評估標準上,勢必導致語言僵化。我國的四六級考試就見證了學習者的語言水平的進步,因而語言表達的權重也就可以相對減少,以發(fā)展“學生創(chuàng)造性的寫作和思維能力”(蔡基剛2002:52)。

其次,主要特點作為評估的重點應該如何確定。

我們的評估重點的確定是需要考慮寫作任務的特點、難度和所要求的文體等。評分員行為研究中,為什么專業(yè)人士和語言教師對同一語言行為有不同的評估?在語篇研究中,為什么不同文體的語篇,學者們發(fā)現(xiàn)了不同的語篇超結構?一個共同的原因是評分員所認知的,文本所承載的寫作的基本目的不同。為此,Cumming(2002:89)也指出 “我們有可能從體裁特征的視角,為不同的文本類型編寫整體性評估的不同量表”,同時Cumming質(zhì)疑單一的整體性評估量表可以處理評分員所考慮的有關不同文本的所有問題。為此,將主要特點評分法和整體評分法相結合應該是可以嘗試的。寫作任務的特點、難度和所要求的文體特點是我們確定主要特點時需考慮的。

Cumming(轉自游曉曄2008)曾呼吁建立一個可預測性的寫作模型??梢愿鶕?jù)寫作任務、話題和作者的知識來預測寫作之難度以及學生寫作能力發(fā)展的一般階段。而GrabeW.(轉自游曉曄2008)在他提出的寫作模型中,就從認知心理學的角度,對寫作的基本目的進行了區(qū)分,然后對它們按難度高低進行分層:1.寫作以控制機械性產(chǎn)出為目的(協(xié)調(diào)動作,最低的流利性);2.寫作以羅列、填空、重述、改寫為目的(非創(chuàng)作,知識表達已知的信息);3.寫作以理解、記憶、做簡單的摘要和較復雜的筆記為目的(創(chuàng)作和復述);4.寫作以學習、解決問題、做復雜的摘要和綜合信息為目的(創(chuàng)作和轉化,根據(jù)不同資料進行創(chuàng)作);5a.寫作以批判、勸說、解析為目的(強調(diào)某些視角,有選擇地、恰當?shù)剡\用例證);5b.寫作以創(chuàng)造、體驗美感、娛樂為目的(以全新的方式進行創(chuàng)作,在修辭的層次上進行創(chuàng)作,打破寫作的條條框框進行具有創(chuàng)意的寫作)。Grabe對于寫作難度的分層是以寫作的目的出發(fā)的,所以我們可以將它和相關的語篇研究的成果結合,確定寫作任務的取舍和寫作評估標準的制定。比如,按照難度分層5a的以批判、勸說、解析為目的的寫作任務,就應該給予有一定的書寫流利性的學習者,這時,語言流利不是評估的重點,而結合語篇知識,文本的觀點,論據(jù)和論證就應該成為評估的重點。這不僅是考慮到了注意力資源,同時,這一做法對于學習者形成性的學習也是大有裨益的。它可以診斷性地對學習者的這一知識和技能進行評估,從而有助于他的進一步學習。也可以有效克服評分員通常關心的都只是評分量表中某一小部分內(nèi)容的現(xiàn)象。

我們現(xiàn)在所提倡的綜合評分法(portfolioassessment)即建立檔案袋,收集學生各文體的作文樣本進行評分的方法,也應改變“語言至上的評估標準”(Connor2002:264),我們可以根據(jù)要求寫作的文本的語篇特點,選取語法、社會語言層面、語篇、策略能力等項目作為主要特點來評估。

四、結束語

作文的評估絕非易事。本文只是從評分標準的制定視角,提出了一點粗淺的看法。而這樣的一種整體評估加主要特點的評估模式更適合于在寫作課程學習過程中的形成性評估中使用。

Broad,B.(2000).Pullingyourhairout:crisesofstandardizationincommandwritingassessment[J].Researchinthe TeachingofEnglish35(2).

Brockman,E.,Taylor,M.,Crawford,M.K.&KrethM.(2010).Helpingstudentscrossthethreshold:implicationsfroma universitywritingassessment[J].EnglishJournal99(3).

Brown,A.(1995).Theeffectofratervariablesinthedevelopmentofanoccupationspecificlanguageperformancetest[J].LanguageTesting12(1).

Charney,D.(1984).Thevalidityofusingholisticscoringtoevaluatewriting:acriticaloverview[J].Researchinthe TeachingofEnglish18(1).

Connor,U.&Mbaye,A.(2002).Discourseapproachestowritingassessment[J].AnnualReviewofAppliedLinguistics(22).

Cumming,A.(1990).Expertiseinevaluatingsecondlanguagecompositions[J].LanguageTesting(7).

Cumming,A.,Kantor,R.&Powers,D.(2002).DecisionmakingwhileratingESL/EFLwritingtasks:adescriptive framework[J].TheModernLanguageJournal86(1).

Diederich,P.B.,French,J.W.&Carlton,S.T.(1961).Factorsinthejudgmentofwritingability.PrincetonNJ:Educational TestingService.

Eckes,T.(2008).Ratertypesinwritingperformanceassessments:aclassificationapproachtoratervariability[J].Language Testing25(2).

Elder,C.(2001).Assessingthelanguageproficiencyofteachers:arethereanybordercontrols[J].LanguageTesting(18).

McNamara,T.F.(1990).ItemresponsetheoryandthevalidationofanESPtestforhealthprofessionals[J].Language Testing(7).

Ruth,L.&Murphy,S.(1984).Designingtopicsforwritingassessment:problemsofmeaning[J].CollegeCompositionand Communication35(4).

Skehan,P.(1998).ACognitiveApproachtoLanguageLearning[M].Oxford:OxfordUniversityPress.

SkehanP.(2003).Task-basedinstruction[J].LanguageTeaching(36).

蔡基剛(2002).大學英語四、六級寫作要求和評分標準對中國學生寫作的影響[J].解放軍外國語學院學報(5)。

羅娟,肖云南 (2008).基于多元概化理論的英語寫作評分誤差分析研究 [J].中國外語(5)。

王秉金,劉建理 (1995).談英語作文的測評標準 [J].外語與外語教學(4)。

游曉曄(2008).建構一個生態(tài)性的EFL寫作理論——從中國英語寫作教學史談起[A].王立菲主編.英語寫作教學與研究的中國視角——第四屆中國英語寫作教學與研究國際研討會論文集[C].北京:外語教學與研究出版社。

鄒申(2002).他們?nèi)绾问褂脤懽髟u分標準——TEM4新老評分員調(diào)查[J].國外外語教學(3)。

猜你喜歡
評分標準語篇量表
基于DOPS評分表細化體格檢查評分標準的應用研究*
新聞語篇中被動化的認知話語分析
胸痹氣虛證療效評價量表探討
永遠的格紋
初高中英語作文評分標準初探
三種抑郁量表應用于精神分裂癥后抑郁的分析
慢性葡萄膜炎患者生存質(zhì)量量表的驗證
初中生積極心理品質(zhì)量表的編制
針對TOPIK評分標準的韓國語寫作教育
從語篇構建與回指解決看語篇話題