大學(xué)英語課程測評體系使用論證

2018-05-06 18:07:42李廉戴瑜

文教資料 2018年2期

李廉戴瑜

摘要：基于6所高校大學(xué)英語課程測評的數(shù)據(jù)記錄，在測評使用論證框架（AUA）下，對課程測評的質(zhì)量和使用進行論證。以數(shù)據(jù)為起點、圖爾敏邏輯模型為形式，依次論證測評記錄、測評解釋意義、測評決策和測評后效的主張及反駁理據(jù)。論證結(jié)果發(fā)現(xiàn)，課程測評解釋在構(gòu)念效度這個核心問題上的主張成立，但在分數(shù)內(nèi)部一致性、評分員一致性、決策依據(jù)邏輯性和后效等方面形成了較強的反駁。在分析數(shù)據(jù)和反駁的基礎(chǔ)上，提出提高課程測評質(zhì)量和使用邏輯的建議。

關(guān)鍵詞：測評使用論證大學(xué)英語期末考試過程評價

一、引言

教育部高教司頒布的《大學(xué)英語教學(xué)指南》（2017）把目前全國的大學(xué)英語課程定位為“目標課程”，其課程目標全面涵蓋了語言能力的構(gòu)成和目標，并指出應(yīng)構(gòu)建大學(xué)英語課程“校本評價與其他多樣化評價相結(jié)合”的綜合評價體系和“共同基礎(chǔ)測試與其他多樣化測試相結(jié)合”的綜合測試體系。劉建達（2015；2016）主張在《中國英語等級量表》的標準體系下，大學(xué)英語的測評應(yīng)綜合課程內(nèi)評價和外部評價，校本英語測評和共同測試共同構(gòu)成完整的大學(xué)英語評價體系；建立一個準確、公平、高效的大學(xué)英語測評體系非常重要。

目前我國大學(xué)英語課程測評體系主要由期末考試、過程評價兩部分組成。大學(xué)英語課程測評具有大規(guī)模、高利害測評的特征，其結(jié)果影響到畢業(yè)、推免研究生、評優(yōu)/獎、反饋學(xué)科發(fā)展信息、篩選學(xué)科人才等諸多工作，如果其本身設(shè)計合理、穩(wěn)定、權(quán)威，則有助于促進上述工作進入良性循環(huán)。若其設(shè)計不合理，自身質(zhì)量不過關(guān)，則測評結(jié)果不足以準確、全面地反映學(xué)科建設(shè)和人才培養(yǎng)的質(zhì)量，難以為學(xué)科建設(shè)中的決策提供信息支持。對當前大學(xué)英語測評的質(zhì)量進行論證，對于教師和教學(xué)管理人員認識、改進測評體系，促進教學(xué)改革尤為重要。

二、文獻綜述

1.測評使用論證

Bachman和Palmer（2010）在《語言測評實踐：現(xiàn)實世界中語言測評的開發(fā)與使用論證》一書中以效度理論家Kane（2002；2006）的效度論證模型為藍本，提出測評使用論證（AUA）框架，論證語言測評質(zhì)量與使用的合理性（justification）。在AUA框架中，對測評的使用論證包括五個環(huán)節(jié)：受試者的測評表現(xiàn)、測評記錄、測評解釋、決策和后效，諸環(huán)節(jié)的合理性是逐層推理的過程，每一次推理都需要論證，全部環(huán)節(jié)的論證結(jié)果匯總為測評的論證結(jié)論。

AUA框架對的論證模式為“用事實推導(dǎo)結(jié)論”：對每個環(huán)節(jié)的合理性設(shè)定一個“主張”，作為推導(dǎo)結(jié)論。該主張要有理據(jù)（warrant）做支撐，理據(jù)的成立需要“驗證”（backing）為支撐，驗證的基礎(chǔ)是測試中的“數(shù)據(jù)”（data）。主張是否成立取決于以上推理過程的完整性與可靠性。與此同時，論證人員基于證據(jù)對主張進行反駁論證（rebuttal）。反駁與理據(jù)是主張的正反兩面，用于否定主張。如果反駁成立，則影響主張的合理性。因此，在測評的開發(fā)和完善工作中，開發(fā)人員需要盡可能削弱反駁及其證據(jù)的發(fā)生。

具體地說，測評記錄環(huán)節(jié)的主張最關(guān)注測評記錄的一致性，其論證理據(jù)和驗證過程主要涉及分數(shù)的內(nèi)部一致性、組間一致性、測試及分數(shù)收集環(huán)境、評分信度等問題；解釋環(huán)節(jié)是論證的核心環(huán)節(jié)，主要論證分數(shù)的解釋意義是否與測試構(gòu)念相符，這也是傳統(tǒng)效度驗證的核心問題（李筱菊 2001；Fulcher，2012），本環(huán)節(jié)同時關(guān)注分數(shù)無偏性、任務(wù)特征、解釋的充分性等；在決策和后效兩個環(huán)節(jié)，AUA框架把決策和測評利益相關(guān)人員聯(lián)系起來，闡明決策的價值觀和公平性，同時對決策如何影響利益相關(guān)者進行論證?？忌臏y評表現(xiàn)僅作為初始數(shù)據(jù)，不參與論證。

2.語言測評的效度和信度

測評的論證過程中必然涉及其效度和信度屬性。效度問題是語言測評的核心問題，對效度的研究即從測評結(jié)果取得證據(jù)，以此推斷被試的語言能力及其差異的過程。根據(jù)獲取證據(jù)的途徑不同，效度可以分為內(nèi)容效度、效標關(guān)聯(lián)效度和構(gòu)念效度三大類，其中以構(gòu)念效度為核心。

構(gòu)念效度是由美國心理學(xué)協(xié)會（1954；1985）在《心理測量與診斷技術(shù)的技術(shù)建議》中首次提出，并于1985年明確認定構(gòu)念效度是測評的效度三種證據(jù)來源之一?！皹?gòu)念”指語言能力的心理結(jié)構(gòu)，是對人的被測試語言能力的虛擬闡述，用來描述或預(yù)測人的語言能力的組成結(jié)構(gòu)。Messick（1989）的效度整體觀認為，構(gòu)念效度揭示了效度的實質(zhì)，是效度的核心內(nèi)容，此理論被眾多知名語言測試學(xué)家（Kane，2002；Mcnamara，2006；Weir，2010）所公認。

判斷一個語言測評的質(zhì)量，信度也是一個重要指標，主要用來衡量測評記錄的穩(wěn)定性、一致性的情況。一個高信度的語言測評，對于同一組被試反復(fù)測量，其結(jié)果應(yīng)該基本不變。內(nèi)部信度一致性是一種常見的測評信度指標，一般使用克隆巴赫α系數(shù)計算。

三、大學(xué)英語課程測評使用論證

本研究組于2013年-2017年對江蘇省6所普通本科高校29次大學(xué)英語學(xué)業(yè)期末考試、過程評價、測評決策及后效反饋進行調(diào)研，采集分數(shù)記錄，利用問卷和訪談對學(xué)生、教師和系部主任收集后效反饋。每所高校有效學(xué)生樣本組數(shù)為997至5256不等，教師評分員樣本數(shù)164人次。在AUA理論框架下，對調(diào)研對象的大學(xué)英語課程測評進行使用論證，從測評記錄、意義解釋、決策及其后效等環(huán)節(jié)對其“合理性”進行論證，對各環(huán)節(jié)的主張及構(gòu)成要件同時進行正面論證和反駁論證，分析該學(xué)業(yè)測試的使用是否合理，對被試學(xué)生是否公平，對利益相關(guān)者是否提供充分的善益性。

1.測評記錄論證

在AUA理論框架中測評記錄的主張為：在不同的測評任務(wù)、流程和對象中的記錄穩(wěn)定、一致。理據(jù)主要包括：對所有考生執(zhí)行標準化的測評程序；測評項目之間分數(shù)內(nèi)部一致；同一評分員的評分結(jié)果內(nèi)部一致；評分員之間評分內(nèi)部一致。

在6所高校師生中通過問卷和訪談?wù){(diào)研測評程序，結(jié)果發(fā)現(xiàn)：在期末考試環(huán)節(jié)，6所高校對所有學(xué)生均執(zhí)行學(xué)校統(tǒng)一的測試時間、環(huán)境、評分流程和標準，無明顯偏差，學(xué)期之間保持連續(xù)一致。過程評價的評價方式和內(nèi)容表現(xiàn)出明顯差異：4所高校以課堂評價和網(wǎng)絡(luò)自主學(xué)習測驗為主要形式，1所高校以課堂評價和階段測驗為主要形式，1所高校僅使用課堂評價。在課堂評價內(nèi)容上，所有高校均由教學(xué)大綱統(tǒng)一規(guī)定評價項目，但無高校采用統(tǒng)一的評分標準。

采用克隆巴赫α系數(shù)對調(diào)研范圍內(nèi)29次期末筆試得分數(shù)據(jù)的內(nèi)部一致性逐一檢驗，結(jié)果表明6次考試的內(nèi)部一致性系數(shù)介于0.6-0.8，屬于正常教育測量標準范圍（王孝玲 2015）；23次筆試部分內(nèi)部一致性系數(shù)介于0.35-0.6，對本論證環(huán)節(jié)的主張構(gòu)成明顯的反駁證據(jù)。

對評分員一致性的論證：在受調(diào)研的每次測評中隨機抽取8名評分員，選取每名評分員的100個評分記錄，用皮爾遜積差相關(guān)系數(shù)計算其一致性。結(jié)果如下：以0.7為信度系數(shù)合格閾值，在口語測試中，評分員一致性達標組數(shù)為22組，合格率22%；寫作測試達標81組，合格率70%；過程評價達標34組，合格率29%。數(shù)據(jù)統(tǒng)計結(jié)果對測試記錄主張構(gòu)成強反駁論證。從評分過程和評分員的調(diào)研中可知，反駁理由主要包括：評分量表操作性不強、缺乏統(tǒng)一的評分員培訓(xùn)、沒有高校設(shè)置試評分驗證和等值機制。

2.測評解釋論證

AUA框架中測評解釋的論證主張為：對考生的能力解釋有意義、無偏、概化、相關(guān)、充分。其主要理據(jù)包括：測評記錄在統(tǒng)計學(xué)意義上充分符合測評的構(gòu)念目標；測評的任務(wù)特征符合測評真實性原則；測評解釋意義與決策邏輯相符。

對測評分數(shù)意義的解析主要從內(nèi)容效度和構(gòu)念效度兩個方面實現(xiàn)。在內(nèi)容效度上，對測評任務(wù)特征和考點進行分析和專家判斷，衡量其是否符合測評目標。在構(gòu)念效度上，使用因子分析等統(tǒng)計手段對測試構(gòu)念進行降維提取。

對29次期末考試的91篇閱讀理解測試進行統(tǒng)計分析，其語篇長度范圍在270個-360個單詞，話題涵蓋社會、文化、科技、教育等，體裁包括說明、議論和記敘三種，符合《大學(xué)英語教學(xué)指南》的要求，亦與所在高校的教學(xué)大綱相符。符合本環(huán)節(jié)論證理據(jù)。但對于具體專業(yè)（如消防工程專業(yè)）的學(xué)生來說，統(tǒng)一的、偏人文類的測評任務(wù)并不能反映其目標語言使用域（Bachman，2010），構(gòu)成了一定程度上的反駁論證。

對調(diào)研范圍內(nèi)的全部115篇閱讀測試（包括閱讀理解和長篇閱讀）的考點和試題內(nèi)容進行統(tǒng)計分析，發(fā)現(xiàn)其內(nèi)容效度參數(shù)（文體、語言復(fù)雜度、內(nèi)部信息關(guān)系、文化特征）比較全面地覆蓋了閱讀的策略能力、語言能力、語篇能力和社會語言能力四個構(gòu)念維度（Alderson，134-136）。雖然每個學(xué)期的考試題數(shù)量有限，不能包含所有閱讀構(gòu)念，但從四個學(xué)期的完整教學(xué)周期統(tǒng)計，較好地實現(xiàn)了測試構(gòu)念全面覆蓋。對得分明細進行探索性因子分析，提取公因子并參照閱讀構(gòu)念的內(nèi)容逐一認定試題的測量目標，分析結(jié)果與上述分析吻合，支持解釋意義的主張和理據(jù)。

Buck（2001）從語言知識（語法、語篇、語用、社會語言）和策略能力（認知、元認知）兩個維度定義聽力構(gòu)念，并具體解釋為語音知識、信息定位、局部/整體理解和推斷能力。依照此標準對全部88個聽力測試分項進行上述相同的驗證，內(nèi)容統(tǒng)計和因子分析結(jié)果均顯示聽力上的解釋主張和理據(jù)得到全面的支持。

在論證分數(shù)的解釋意義與決策的邏輯關(guān)系時，受調(diào)研的課程測評表現(xiàn)出非常明顯的反駁證據(jù)。課程測評的使用者為教師和教學(xué)管理人員，他們把學(xué)生的期末考試和過程評價分數(shù)合成一個總分數(shù)，基于這個分數(shù)和學(xué)生的排序情況做出不同類別的決策。但在統(tǒng)計和論證中發(fā)現(xiàn)，全部29次過程評價的內(nèi)容均包括出勤、課堂參與等學(xué)習策略因素，這與期末考試的測試構(gòu)念屬于不同類型，兩者得分的皮爾遜積差相關(guān)系數(shù)僅為0.14-0.34，屬于極低水平。教師和管理人員把兩部分成績簡單加權(quán)合成，各自污染了對方的測試效度，不符合測量統(tǒng)計邏輯。此外，閱讀、聽力、寫作和聽力各項屬于不同的語言能力特質(zhì)，使用絕對分值簡單相加，計算出的考生排名也受到了類似的干擾（張厚璨，2004），不符合決策需要。

3.測評決策和后效論證

AUA框架對測評的決策主張：基于測評解釋結(jié)果做出合理公平的決策。其主要理據(jù)為：決策謹慎、符合社會價值觀；設(shè)置分數(shù)線；分數(shù)是相關(guān)決策唯一的依據(jù)。

后效主張為測評的后效對于利益相關(guān)者是善益的。其主要理據(jù)為：測評結(jié)果表達及時、清晰易懂；測評讓利益相關(guān)者均受益。

受調(diào)研高校均以60分為明確的分數(shù)線，高于60分即為合格，低于60分為不合格。相應(yīng)的決策為不及格的學(xué)生要補考或重修，不及格成績將對其獎學(xué)金和畢業(yè)有直接影響。在對67名教師、12名教研室負責人的訪談和問卷調(diào)查中得知，絕大多數(shù)教師和所有教學(xué)管理人員都認為自己主要從學(xué)生的最終成績單上判斷其英語水平。但基于測評解釋論證的結(jié)果可知，在受調(diào)研的29次課程測評中，其分數(shù)解釋意義均增加了出勤、課堂參與等態(tài)度、學(xué)習策略內(nèi)容，形成了“分數(shù)是相關(guān)決策唯一依據(jù)”的反駁論證。

課程測評的一個重要功能是為教學(xué)提供反撥作用（亓魯霞，2006），針對教師的67份有效調(diào)查問卷結(jié)果顯示，全部受調(diào)研的教師認為自己“未能依據(jù)課程測評成績中有效改變未來的教學(xué)計劃和內(nèi)容”，12名受訪的教研室主任中10名也肯定了這一結(jié)果。受調(diào)查的418名學(xué)生中233人認為“課程測評不能促進我更加努力地學(xué)習英語”，占比56%，持肯定態(tài)度的僅為80人，占比19%。96%的學(xué)生表示希望得到各分項測評分數(shù)及其意義描述。以上結(jié)果在決策和后效論證上形成了較強的反駁證據(jù)。

四、總結(jié)和建議

在AUA框架下，對6所高校的29次大學(xué)英語課程測評在測評記錄、解釋、決策和后效層面進行使用論證，結(jié)果表明：由于課程測評較多使用了信效度較高的CET測試題，使得在構(gòu)念效度這個核心問題上的主張成立，保障了測評內(nèi)容質(zhì)量。此外，在測試流程標準化上得到了積極性的論證結(jié)果。但在期末考試內(nèi)部一致性、評分員一致性、決策依據(jù)邏輯性和決策對教學(xué)、學(xué)習的后效等方面，反駁證據(jù)明顯強于理據(jù)，主張被大幅度削弱，主要原因分別為測評結(jié)構(gòu)缺乏統(tǒng)一規(guī)劃；考試與評價不同質(zhì)；測評決策邏輯性弱。測評開發(fā)者和使用者有必要做出相應(yīng)的改進，因此對大學(xué)英語課程測評的開發(fā)和使用提出如下建議：

1.基于全面、標準的英語能力等級量表作為測評規(guī)劃和開發(fā)的依據(jù)，在整體教學(xué)大綱的框架下，合理規(guī)劃考點，使用學(xué)業(yè)水平測試代替語言知識為主的結(jié)構(gòu)主義測試方法?！稓W洲共同語言框架》（CEFR）和教育部高教司即將頒布的《中國英語等級量表》可以為效度設(shè)計和實現(xiàn)提供內(nèi)容和等級基準；在能力量表框架內(nèi)開發(fā)主觀測評項目等級制評分標準，進行統(tǒng)一連續(xù)的評分員培訓(xùn)，在測評內(nèi)容和評分標準層面上保障主觀評分項目的效度，同時進行必要的主觀題評分驗證和等值處理，確保評分的公平穩(wěn)定。

2.以構(gòu)念效度為出發(fā)點，設(shè)計與期末考試同軌、通衡、互補的過程評價內(nèi)容，區(qū)分測評體系中語言能力因素與學(xué)習策略因素，從而在分數(shù)解釋和決策中區(qū)分對待，防止效度污染。改進分數(shù)計算和使用方法，使用分項標準分計算測評總分，可以減少測評項目異質(zhì)性帶來的計算誤差。

3.建議成立專門的測評分析部門，分項報道成績，以質(zhì)量報告形式解讀分數(shù)分布、對比和發(fā)展趨勢，發(fā)布教學(xué)使用建議，使測評結(jié)果提供更加充分的解釋信息和決策數(shù)據(jù)，成為教學(xué)方法和教學(xué)管理中的重要依據(jù)。同時建議增強測評的權(quán)威性和決策邏輯性，調(diào)動學(xué)習積極性。

參考文獻：

[1]American Psychological Association. Technical Recommendations for Psychological Testing and Diagnostic Techniques[J]. Psychological Bulletin，1954，51（2：2）：1-38.

[2]American Psychological Association. Standards for Educational and Psychological Testing[M]. Washington， DC：APA，1985.

[3]Alderson，J.Charles. Assessing reading閱讀評價[M].北京：外語教學(xué)與研究出版社，2011.

[4]Bachman， L.& A. Palmer. Language Assessment in Practice： Developing Language Assessments and Justifying Their Use in the Real World[M].Oxford：OUP，2010.

[5]Buck G. Assessing listening[M]. Cambridge： Cambridge University Press， 2001.

[6]Hughes， Arthur. Testing for Language Teachers[M]. Cambridge： Cambridge University Press， 2000.

[7]Kane M. Validation. In： Brennan RL， ed. Educational Measurement， 4th edn[M]. Westport， CT： American Council on Education/Praeger，2006：17-64.

[8]Kane M. Validating High-Stakes Testing Programs[J]. Educational Measurement Issues & Practice， 2010， 21（1）：31-41.

[9]Kane， M. Validating score interpretations and uses[J]. Language Testing 2012， 29： 3-17.

[10]Messick， S.Validity[A]. In R. Linn （ed.）. Educational Measurement （3rd edition） [C]. Washington， D.C.： American Council on Education， 1989.

[11]McNamara， Tim. Validity in Language Testing： The Challenge of Sam Messicks Legacy[J]. Language Assessment Quarterly， 2006， 3（1）：31-51.

[12]李筱菊. 語言測試科學(xué)與藝術(shù)[M]. 長沙：湖南教育出版社， 2001.

[13]劉建達. 中國英語能力等級量表研究成果報告[C]. 廣州：第一屆語言測試與評價國際研討會，2015.

[14]劉建達. 中國英語能力等級量表研究成果報告[C].杭州：第二屆語言測試與評價國際研討會，2016.

[15]亓魯霞. 論考試后效[J]. 外語與外語教學(xué)， 2006（8）：29-32.

[16]王孝玲. 教育測量[M]. 上海：華東師范大學(xué)出版社， 2005.

[17]張厚粲，徐建平. 現(xiàn)代心理與教育統(tǒng)計學(xué)·第2版[M]. 北京：北京師范大學(xué)出版社， 2004.

[18]教育部高等教育司.大學(xué)英語課程教學(xué)指南[Z]. 上海：上海外語教育出版社，2017.

基金項目：中國外語教育基金項目“基于iTEST 的大學(xué)英語‘同軌測評體系構(gòu)建與使用論證（項目編號：ZGWYJYJJ2016A14）；中國礦業(yè)大學(xué)教學(xué)成果培育項目“標準化、交際型大學(xué)英語測試方法改革研究”（項目編號：2015YB39）。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

大學(xué)英語課程測評體系使用論證