国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

大學(xué)英語課程測評體系使用論證

2018-05-06 18:07:42李廉戴瑜
文教資料 2018年2期
關(guān)鍵詞:過程評價期末考試大學(xué)英語

李廉 戴瑜

摘 要: 基于6所高校大學(xué)英語課程測評的數(shù)據(jù)記錄,在測評使用論證框架(AUA)下,對課程測評的質(zhì)量和使用進行論證。以數(shù)據(jù)為起點、圖爾敏邏輯模型為形式,依次論證測評記錄、測評解釋意義、測評決策和測評后效的主張及反駁理據(jù)。論證結(jié)果發(fā)現(xiàn),課程測評解釋在構(gòu)念效度這個核心問題上的主張成立,但在分數(shù)內(nèi)部一致性、評分員一致性、決策依據(jù)邏輯性和后效等方面形成了較強的反駁。在分析數(shù)據(jù)和反駁的基礎(chǔ)上,提出提高課程測評質(zhì)量和使用邏輯的建議。

關(guān)鍵詞: 測評使用論證 大學(xué)英語 期末考試 過程評價

一、引言

教育部高教司頒布的《大學(xué)英語教學(xué)指南》(2017)把目前全國的大學(xué)英語課程定位為“目標課程”,其課程目標全面涵蓋了語言能力的構(gòu)成和目標,并指出應(yīng)構(gòu)建大學(xué)英語課程“校本評價與其他多樣化評價相結(jié)合”的綜合評價體系和“共同基礎(chǔ)測試與其他多樣化測試相結(jié)合”的綜合測試體系。劉建達(2015;2016)主張在《中國英語等級量表》的標準體系下,大學(xué)英語的測評應(yīng)綜合課程內(nèi)評價和外部評價,校本英語測評和共同測試共同構(gòu)成完整的大學(xué)英語評價體系;建立一個準確、公平、高效的大學(xué)英語測評體系非常重要。

目前我國大學(xué)英語課程測評體系主要由期末考試、過程評價兩部分組成。大學(xué)英語課程測評具有大規(guī)模、高利害測評的特征,其結(jié)果影響到畢業(yè)、推免研究生、評優(yōu)/獎、反饋學(xué)科發(fā)展信息、篩選學(xué)科人才等諸多工作,如果其本身設(shè)計合理、穩(wěn)定、權(quán)威,則有助于促進上述工作進入良性循環(huán)。若其設(shè)計不合理,自身質(zhì)量不過關(guān),則測評結(jié)果不足以準確、全面地反映學(xué)科建設(shè)和人才培養(yǎng)的質(zhì)量,難以為學(xué)科建設(shè)中的決策提供信息支持。對當前大學(xué)英語測評的質(zhì)量進行論證,對于教師和教學(xué)管理人員認識、改進測評體系,促進教學(xué)改革尤為重要。

二、文獻綜述

1.測評使用論證

Bachman和Palmer(2010)在《語言測評實踐:現(xiàn)實世界中語言測評的開發(fā)與使用論證》一書中以效度理論家Kane(2002;2006)的效度論證模型為藍本,提出測評使用論證(AUA)框架,論證語言測評質(zhì)量與使用的合理性(justification)。在AUA框架中,對測評的使用論證包括五個環(huán)節(jié):受試者的測評表現(xiàn)、測評記錄、測評解釋、決策和后效,諸環(huán)節(jié)的合理性是逐層推理的過程,每一次推理都需要論證,全部環(huán)節(jié)的論證結(jié)果匯總為測評的論證結(jié)論。

AUA框架對的論證模式為“用事實推導(dǎo)結(jié)論”:對每個環(huán)節(jié)的合理性設(shè)定一個“主張”,作為推導(dǎo)結(jié)論。該主張要有理據(jù)(warrant)做支撐,理據(jù)的成立需要“驗證”(backing)為支撐,驗證的基礎(chǔ)是測試中的“數(shù)據(jù)”(data)。主張是否成立取決于以上推理過程的完整性與可靠性。與此同時,論證人員基于證據(jù)對主張進行反駁論證(rebuttal)。反駁與理據(jù)是主張的正反兩面,用于否定主張。如果反駁成立,則影響主張的合理性。因此,在測評的開發(fā)和完善工作中,開發(fā)人員需要盡可能削弱反駁及其證據(jù)的發(fā)生。

具體地說,測評記錄環(huán)節(jié)的主張最關(guān)注測評記錄的一致性,其論證理據(jù)和驗證過程主要涉及分數(shù)的內(nèi)部一致性、組間一致性、測試及分數(shù)收集環(huán)境、評分信度等問題;解釋環(huán)節(jié)是論證的核心環(huán)節(jié),主要論證分數(shù)的解釋意義是否與測試構(gòu)念相符,這也是傳統(tǒng)效度驗證的核心問題(李筱菊 2001;Fulcher,2012),本環(huán)節(jié)同時關(guān)注分數(shù)無偏性、任務(wù)特征、解釋的充分性等;在決策和后效兩個環(huán)節(jié),AUA框架把決策和測評利益相關(guān)人員聯(lián)系起來,闡明決策的價值觀和公平性,同時對決策如何影響利益相關(guān)者進行論證??忌臏y評表現(xiàn)僅作為初始數(shù)據(jù),不參與論證。

2.語言測評的效度和信度

測評的論證過程中必然涉及其效度和信度屬性。效度問題是語言測評的核心問題,對效度的研究即從測評結(jié)果取得證據(jù),以此推斷被試的語言能力及其差異的過程。根據(jù)獲取證據(jù)的途徑不同,效度可以分為內(nèi)容效度、效標關(guān)聯(lián)效度和構(gòu)念效度三大類,其中以構(gòu)念效度為核心。

構(gòu)念效度是由美國心理學(xué)協(xié)會(1954;1985)在《心理測量與診斷技術(shù)的技術(shù)建議》中首次提出,并于1985年明確認定構(gòu)念效度是測評的效度三種證據(jù)來源之一?!皹?gòu)念”指語言能力的心理結(jié)構(gòu),是對人的被測試語言能力的虛擬闡述,用來描述或預(yù)測人的語言能力的組成結(jié)構(gòu)。Messick(1989)的效度整體觀認為,構(gòu)念效度揭示了效度的實質(zhì),是效度的核心內(nèi)容,此理論被眾多知名語言測試學(xué)家(Kane,2002;Mcnamara,2006;Weir,2010)所公認。

判斷一個語言測評的質(zhì)量,信度也是一個重要指標,主要用來衡量測評記錄的穩(wěn)定性、一致性的情況。一個高信度的語言測評,對于同一組被試反復(fù)測量,其結(jié)果應(yīng)該基本不變。內(nèi)部信度一致性是一種常見的測評信度指標,一般使用克隆巴赫α系數(shù)計算。

三、大學(xué)英語課程測評使用論證

本研究組于2013年-2017年對江蘇省6所普通本科高校29次大學(xué)英語學(xué)業(yè)期末考試、過程評價、測評決策及后效反饋進行調(diào)研,采集分數(shù)記錄,利用問卷和訪談對學(xué)生、教師和系部主任收集后效反饋。每所高校有效學(xué)生樣本組數(shù)為997至5256不等,教師評分員樣本數(shù)164人次。在AUA理論框架下,對調(diào)研對象的大學(xué)英語課程測評進行使用論證,從測評記錄、意義解釋、決策及其后效等環(huán)節(jié)對其“合理性”進行論證,對各環(huán)節(jié)的主張及構(gòu)成要件同時進行正面論證和反駁論證,分析該學(xué)業(yè)測試的使用是否合理,對被試學(xué)生是否公平,對利益相關(guān)者是否提供充分的善益性。

1.測評記錄論證

在AUA理論框架中測評記錄的主張為:在不同的測評任務(wù)、流程和對象中的記錄穩(wěn)定、一致。理據(jù)主要包括:對所有考生執(zhí)行標準化的測評程序;測評項目之間分數(shù)內(nèi)部一致;同一評分員的評分結(jié)果內(nèi)部一致;評分員之間評分內(nèi)部一致。

在6所高校師生中通過問卷和訪談?wù){(diào)研測評程序,結(jié)果發(fā)現(xiàn):在期末考試環(huán)節(jié),6所高校對所有學(xué)生均執(zhí)行學(xué)校統(tǒng)一的測試時間、環(huán)境、評分流程和標準,無明顯偏差,學(xué)期之間保持連續(xù)一致。過程評價的評價方式和內(nèi)容表現(xiàn)出明顯差異:4所高校以課堂評價和網(wǎng)絡(luò)自主學(xué)習測驗為主要形式,1所高校以課堂評價和階段測驗為主要形式,1所高校僅使用課堂評價。在課堂評價內(nèi)容上,所有高校均由教學(xué)大綱統(tǒng)一規(guī)定評價項目,但無高校采用統(tǒng)一的評分標準。

采用克隆巴赫α系數(shù)對調(diào)研范圍內(nèi)29次期末筆試得分數(shù)據(jù)的內(nèi)部一致性逐一檢驗,結(jié)果表明6次考試的內(nèi)部一致性系數(shù)介于0.6-0.8,屬于正常教育測量標準范圍(王孝玲 2015);23次筆試部分內(nèi)部一致性系數(shù)介于0.35-0.6,對本論證環(huán)節(jié)的主張構(gòu)成明顯的反駁證據(jù)。

對評分員一致性的論證:在受調(diào)研的每次測評中隨機抽取8名評分員,選取每名評分員的100個評分記錄,用皮爾遜積差相關(guān)系數(shù)計算其一致性。結(jié)果如下:以0.7為信度系數(shù)合格閾值,在口語測試中,評分員一致性達標組數(shù)為22組,合格率22%;寫作測試達標81組,合格率70%;過程評價達標34組,合格率29%。數(shù)據(jù)統(tǒng)計結(jié)果對測試記錄主張構(gòu)成強反駁論證。從評分過程和評分員的調(diào)研中可知,反駁理由主要包括:評分量表操作性不強、缺乏統(tǒng)一的評分員培訓(xùn)、沒有高校設(shè)置試評分驗證和等值機制。

2.測評解釋論證

AUA框架中測評解釋的論證主張為:對考生的能力解釋有意義、無偏、概化、相關(guān)、充分。其主要理據(jù)包括:測評記錄在統(tǒng)計學(xué)意義上充分符合測評的構(gòu)念目標;測評的任務(wù)特征符合測評真實性原則;測評解釋意義與決策邏輯相符。

對測評分數(shù)意義的解析主要從內(nèi)容效度和構(gòu)念效度兩個方面實現(xiàn)。在內(nèi)容效度上,對測評任務(wù)特征和考點進行分析和專家判斷,衡量其是否符合測評目標。在構(gòu)念效度上,使用因子分析等統(tǒng)計手段對測試構(gòu)念進行降維提取。

對29次期末考試的91篇閱讀理解測試進行統(tǒng)計分析,其語篇長度范圍在270個-360個單詞,話題涵蓋社會、文化、科技、教育等,體裁包括說明、議論和記敘三種,符合《大學(xué)英語教學(xué)指南》的要求,亦與所在高校的教學(xué)大綱相符。符合本環(huán)節(jié)論證理據(jù)。但對于具體專業(yè)(如消防工程專業(yè))的學(xué)生來說,統(tǒng)一的、偏人文類的測評任務(wù)并不能反映其目標語言使用域(Bachman,2010),構(gòu)成了一定程度上的反駁論證。

對調(diào)研范圍內(nèi)的全部115篇閱讀測試(包括閱讀理解和長篇閱讀)的考點和試題內(nèi)容進行統(tǒng)計分析,發(fā)現(xiàn)其內(nèi)容效度參數(shù)(文體、語言復(fù)雜度、內(nèi)部信息關(guān)系、文化特征)比較全面地覆蓋了閱讀的策略能力、語言能力、語篇能力和社會語言能力四個構(gòu)念維度(Alderson,134-136)。雖然每個學(xué)期的考試題數(shù)量有限,不能包含所有閱讀構(gòu)念,但從四個學(xué)期的完整教學(xué)周期統(tǒng)計,較好地實現(xiàn)了測試構(gòu)念全面覆蓋。對得分明細進行探索性因子分析,提取公因子并參照閱讀構(gòu)念的內(nèi)容逐一認定試題的測量目標,分析結(jié)果與上述分析吻合,支持解釋意義的主張和理據(jù)。

Buck(2001)從語言知識(語法、語篇、語用、社會語言)和策略能力(認知、元認知)兩個維度定義聽力構(gòu)念,并具體解釋為語音知識、信息定位、局部/整體理解和推斷能力。依照此標準對全部88個聽力測試分項進行上述相同的驗證,內(nèi)容統(tǒng)計和因子分析結(jié)果均顯示聽力上的解釋主張和理據(jù)得到全面的支持。

在論證分數(shù)的解釋意義與決策的邏輯關(guān)系時,受調(diào)研的課程測評表現(xiàn)出非常明顯的反駁證據(jù)。課程測評的使用者為教師和教學(xué)管理人員,他們把學(xué)生的期末考試和過程評價分數(shù)合成一個總分數(shù),基于這個分數(shù)和學(xué)生的排序情況做出不同類別的決策。但在統(tǒng)計和論證中發(fā)現(xiàn),全部29次過程評價的內(nèi)容均包括出勤、課堂參與等學(xué)習策略因素,這與期末考試的測試構(gòu)念屬于不同類型,兩者得分的皮爾遜積差相關(guān)系數(shù)僅為0.14-0.34,屬于極低水平。教師和管理人員把兩部分成績簡單加權(quán)合成,各自污染了對方的測試效度,不符合測量統(tǒng)計邏輯。此外,閱讀、聽力、寫作和聽力各項屬于不同的語言能力特質(zhì),使用絕對分值簡單相加,計算出的考生排名也受到了類似的干擾(張厚璨,2004),不符合決策需要。

3.測評決策和后效論證

AUA框架對測評的決策主張:基于測評解釋結(jié)果做出合理公平的決策。其主要理據(jù)為:決策謹慎、符合社會價值觀;設(shè)置分數(shù)線;分數(shù)是相關(guān)決策唯一的依據(jù)。

后效主張為測評的后效對于利益相關(guān)者是善益的。其主要理據(jù)為:測評結(jié)果表達及時、清晰易懂;測評讓利益相關(guān)者均受益。

受調(diào)研高校均以60分為明確的分數(shù)線,高于60分即為合格,低于60分為不合格。相應(yīng)的決策為不及格的學(xué)生要補考或重修,不及格成績將對其獎學(xué)金和畢業(yè)有直接影響。在對67名教師、12名教研室負責人的訪談和問卷調(diào)查中得知,絕大多數(shù)教師和所有教學(xué)管理人員都認為自己主要從學(xué)生的最終成績單上判斷其英語水平。但基于測評解釋論證的結(jié)果可知,在受調(diào)研的29次課程測評中,其分數(shù)解釋意義均增加了出勤、課堂參與等態(tài)度、學(xué)習策略內(nèi)容,形成了“分數(shù)是相關(guān)決策唯一依據(jù)”的反駁論證。

課程測評的一個重要功能是為教學(xué)提供反撥作用(亓魯霞,2006),針對教師的67份有效調(diào)查問卷結(jié)果顯示,全部受調(diào)研的教師認為自己“未能依據(jù)課程測評成績中有效改變未來的教學(xué)計劃和內(nèi)容”,12名受訪的教研室主任中10名也肯定了這一結(jié)果。受調(diào)查的418名學(xué)生中233人認為“課程測評不能促進我更加努力地學(xué)習英語”,占比56%,持肯定態(tài)度的僅為80人,占比19%。96%的學(xué)生表示希望得到各分項測評分數(shù)及其意義描述。以上結(jié)果在決策和后效論證上形成了較強的反駁證據(jù)。

四、總結(jié)和建議

在AUA框架下,對6所高校的29次大學(xué)英語課程測評在測評記錄、解釋、決策和后效層面進行使用論證,結(jié)果表明:由于課程測評較多使用了信效度較高的CET測試題,使得在構(gòu)念效度這個核心問題上的主張成立,保障了測評內(nèi)容質(zhì)量。此外,在測試流程標準化上得到了積極性的論證結(jié)果。但在期末考試內(nèi)部一致性、評分員一致性、決策依據(jù)邏輯性和決策對教學(xué)、學(xué)習的后效等方面,反駁證據(jù)明顯強于理據(jù),主張被大幅度削弱,主要原因分別為測評結(jié)構(gòu)缺乏統(tǒng)一規(guī)劃;考試與評價不同質(zhì);測評決策邏輯性弱。測評開發(fā)者和使用者有必要做出相應(yīng)的改進,因此對大學(xué)英語課程測評的開發(fā)和使用提出如下建議:

1.基于全面、標準的英語能力等級量表作為測評規(guī)劃和開發(fā)的依據(jù),在整體教學(xué)大綱的框架下,合理規(guī)劃考點,使用學(xué)業(yè)水平測試代替語言知識為主的結(jié)構(gòu)主義測試方法?!稓W洲共同語言框架》(CEFR)和教育部高教司即將頒布的《中國英語等級量表》可以為效度設(shè)計和實現(xiàn)提供內(nèi)容和等級基準;在能力量表框架內(nèi)開發(fā)主觀測評項目等級制評分標準,進行統(tǒng)一連續(xù)的評分員培訓(xùn),在測評內(nèi)容和評分標準層面上保障主觀評分項目的效度,同時進行必要的主觀題評分驗證和等值處理,確保評分的公平穩(wěn)定。

2.以構(gòu)念效度為出發(fā)點,設(shè)計與期末考試同軌、通衡、互補的過程評價內(nèi)容,區(qū)分測評體系中語言能力因素與學(xué)習策略因素,從而在分數(shù)解釋和決策中區(qū)分對待,防止效度污染。改進分數(shù)計算和使用方法,使用分項標準分計算測評總分,可以減少測評項目異質(zhì)性帶來的計算誤差。

3.建議成立專門的測評分析部門,分項報道成績,以質(zhì)量報告形式解讀分數(shù)分布、對比和發(fā)展趨勢,發(fā)布教學(xué)使用建議,使測評結(jié)果提供更加充分的解釋信息和決策數(shù)據(jù),成為教學(xué)方法和教學(xué)管理中的重要依據(jù)。同時建議增強測評的權(quán)威性和決策邏輯性,調(diào)動學(xué)習積極性。

參考文獻:

[1]American Psychological Association. Technical Recommendations for Psychological Testing and Diagnostic Techniques[J]. Psychological Bulletin,1954,51(2:2):1-38.

[2]American Psychological Association. Standards for Educational and Psychological Testing[M]. Washington, DC:APA,1985.

[3]Alderson,J.Charles. Assessing reading閱讀評價[M].北京:外語教學(xué)與研究出版社,2011.

[4]Bachman, L.& A. Palmer. Language Assessment in Practice: Developing Language Assessments and Justifying Their Use in the Real World[M].Oxford:OUP,2010.

[5]Buck G. Assessing listening[M]. Cambridge: Cambridge University Press, 2001.

[6]Hughes, Arthur. Testing for Language Teachers[M]. Cambridge: Cambridge University Press, 2000.

[7]Kane M. Validation. In: Brennan RL, ed. Educational Measurement, 4th edn[M]. Westport, CT: American Council on Education/Praeger,2006:17-64.

[8]Kane M. Validating High-Stakes Testing Programs[J]. Educational Measurement Issues & Practice, 2010, 21(1):31-41.

[9]Kane, M. Validating score interpretations and uses[J]. Language Testing 2012, 29: 3-17.

[10]Messick, S.Validity[A]. In R. Linn (ed.). Educational Measurement (3rd edition) [C]. Washington, D.C.: American Council on Education, 1989.

[11]McNamara, Tim. Validity in Language Testing: The Challenge of Sam Messicks Legacy[J]. Language Assessment Quarterly, 2006, 3(1):31-51.

[12]李筱菊. 語言測試科學(xué)與藝術(shù)[M]. 長沙:湖南教育出版社, 2001.

[13]劉建達. 中國英語能力等級量表研究成果報告[C]. 廣州:第一屆語言測試與評價國際研討會,2015.

[14]劉建達. 中國英語能力等級量表研究成果報告[C].杭州:第二屆語言測試與評價國際研討會,2016.

[15]亓魯霞. 論考試后效[J]. 外語與外語教學(xué), 2006(8):29-32.

[16]王孝玲. 教育測量[M]. 上海:華東師范大學(xué)出版社, 2005.

[17]張厚粲, 徐建平. 現(xiàn)代心理與教育統(tǒng)計學(xué)·第2版[M]. 北京:北京師范大學(xué)出版社, 2004.

[18]教育部高等教育司.大學(xué)英語課程教學(xué)指南[Z]. 上海:上海外語教育出版社,2017.

基金項目:中國外語教育基金項目“基于iTEST 的大學(xué)英語‘同軌測評體系構(gòu)建與使用論證(項目編號:ZGWYJYJJ2016A14);中國礦業(yè)大學(xué)教學(xué)成果培育項目“標準化、交際型大學(xué)英語測試方法改革研究”(項目編號:2015YB39)。

猜你喜歡
過程評價期末考試大學(xué)英語
高二期末考試模擬卷(A卷)
向著期末考試,沖刺!
期末考試
小學(xué)數(shù)學(xué)課堂教學(xué)中學(xué)生學(xué)習過程評價技巧的探究
淺談小學(xué)數(shù)學(xué)課堂的教學(xué)評價
未來英才(2016年1期)2016-12-26 10:19:13
基于信息化網(wǎng)絡(luò)教學(xué)平臺的四點五步教學(xué)模式研究
校園網(wǎng)絡(luò)背景下大學(xué)英語大班教學(xué)的缺陷探究
考試周刊(2016年77期)2016-10-09 11:19:12
情感教學(xué)法在大學(xué)英語課堂教學(xué)中的應(yīng)用
非英語專業(yè)《大學(xué)英語》課程中語音教學(xué)現(xiàn)狀與重要性簡析
科技視界(2016年20期)2016-09-29 12:20:03
淺析支架式教學(xué)模式下大學(xué)英語教師的角色定位
科技視界(2016年20期)2016-09-29 12:18:36
皮山县| 周宁县| 崇仁县| 钟祥市| 介休市| 原平市| 洛扎县| 建宁县| 望城县| 英吉沙县| 嘉善县| 宜昌市| 临潭县| 金山区| 邹平县| 潮州市| 马关县| 延长县| 和硕县| 邢台县| 孟村| 黎平县| 黄冈市| 无为县| 西城区| 镇巴县| 石首市| 文水县| 济源市| 曲阳县| 新郑市| 同德县| 胶州市| 拜城县| 缙云县| 社旗县| 龙胜| 军事| 锡林郭勒盟| 玉门市| 文化|