王 瑋 穆罕默德·阿拉維
(德黑蘭大學(xué)外國(guó)語(yǔ)學(xué)院,伊朗德黑蘭 1417466191)
為了全面貫徹黨的教育方針,深化大學(xué)英語(yǔ)教學(xué)改革,根據(jù)《國(guó)家中長(zhǎng)期教育改革和發(fā)展規(guī)劃綱要(2010—2020年)》和教育部《關(guān)于全面提高高等教育質(zhì)量的若干意見(jiàn)》等文件精神,教育部大學(xué)外語(yǔ)教學(xué)指導(dǎo)委員會(huì)制定了《大學(xué)英語(yǔ)教學(xué)指南》,成為我國(guó)大學(xué)英語(yǔ)教學(xué)的綱領(lǐng)性文件?!吨改稀访鞔_指出,要實(shí)現(xiàn)從傳統(tǒng)的“對(duì)課程結(jié)果的終結(jié)性評(píng)價(jià)”向“促進(jìn)課程發(fā)展的形成性評(píng)價(jià)”轉(zhuǎn)變[1],切合外語(yǔ)測(cè)試正在經(jīng)歷的范式轉(zhuǎn)變。范式是一系列相互關(guān)聯(lián)的概念,是我們認(rèn)識(shí)和理解特定問(wèn)題和活動(dòng)的框架。
心理測(cè)量(Psychometrics)從智力測(cè)試中發(fā)展而來(lái),用于測(cè)定固定的個(gè)體屬性。智力是天生恒定的,同其他遺傳特征(如膚色)一樣能夠被觀察到,通過(guò)測(cè)試結(jié)果可將個(gè)人劃分為不同的智力集群。心理測(cè)量是常模參照測(cè)驗(yàn),用來(lái)測(cè)量個(gè)人與其他同伴的表現(xiàn)并打分。心理測(cè)量模式是基于一系列傳統(tǒng)技術(shù)工具的標(biāo)準(zhǔn)化測(cè)量,如信度和效度。如果要將不同的個(gè)體進(jìn)行比較,就需要確定測(cè)試是否在同一個(gè)地方進(jìn)行,評(píng)判標(biāo)準(zhǔn)和解釋成績(jī)的方式是否相同。
心理測(cè)量理論強(qiáng)調(diào)客觀性和科學(xué)性,產(chǎn)生的數(shù)據(jù)準(zhǔn)確度較高。被測(cè)試者通過(guò)這種測(cè)試方式得到的結(jié)果具有強(qiáng)大的標(biāo)記潛力。但是,這種心理測(cè)量范式基于兩個(gè)假設(shè):第一,普遍性假設(shè)。心理測(cè)量分?jǐn)?shù)對(duì)所有人具有相同的含義,這意味著一個(gè)標(biāo)準(zhǔn)化寫(xiě)作測(cè)試中獲得相同分?jǐn)?shù)的被試者擁有相同的寫(xiě)作能力;第二,單維性假設(shè)。在心理測(cè)量理論中,測(cè)試項(xiàng)目應(yīng)該測(cè)量單一屬性。與總分相關(guān)性高的選項(xiàng)被認(rèn)為區(qū)別性好,與總分相關(guān)性較低的選項(xiàng)區(qū)別性較差,通常會(huì)被刪除或修改。這種基于因子分析技術(shù)評(píng)判測(cè)試的方法旨在測(cè)量一個(gè)潛在因子,然而這種方法把被測(cè)屬性人為簡(jiǎn)單化了,因?yàn)樵S多屬性實(shí)際上是多維的。如果一系列原始的選項(xiàng)被用來(lái)測(cè)量?jī)蓚€(gè)及以上的屬性,由于與總分的相關(guān)性低,不占優(yōu)勢(shì)的附屬屬性的選項(xiàng)最終會(huì)被剔除。由于我們需要測(cè)量多個(gè)屬性和技能,這種強(qiáng)制性的、單維性的測(cè)試結(jié)構(gòu)是不合邏輯的。1950年代,心理測(cè)量在教育領(lǐng)域被質(zhì)疑。批評(píng)者認(rèn)為對(duì)于學(xué)業(yè)表現(xiàn)差的兒童,應(yīng)該考慮教育、教學(xué)等方面的問(wèn)題,而不是家庭及父母的問(wèn)題。同時(shí),基于統(tǒng)計(jì)分析的心理測(cè)量要求標(biāo)準(zhǔn)化的測(cè)試,不可避免地忽略了信度和教師的有效性[3]。
Wood[2]8-10提出了教育測(cè)量(Education Measurement)的概念。與心理測(cè)量相比,教育測(cè)量旨在將每個(gè)學(xué)習(xí)者視為獨(dú)立的個(gè)體,具有以下六個(gè)特點(diǎn):
(1)涉及相對(duì)于自己而不是他人的成就;
(2)旨在測(cè)試能力而不是智力;
(3)發(fā)生在相對(duì)不受控的條件下,因此不會(huì)產(chǎn)生“表現(xiàn)良好”的數(shù)據(jù);
(4)尋找“最佳”而不是“典型”的表現(xiàn);
(5)放寬標(biāo)準(zhǔn)化測(cè)試的規(guī)則是最有效的;
(6)體現(xiàn)了評(píng)估的建設(shè)性觀點(diǎn),其目的是幫助而不是判斷個(gè)人。
Wood認(rèn)為教育、培訓(xùn)的“產(chǎn)品”是能力而不是智力。學(xué)習(xí)成就是教學(xué)的直接結(jié)果,受教師和教學(xué)方法的影響很大,然而智力、天資是不受此類影響的特征;教育測(cè)量旨在尋找最佳的表現(xiàn),而不是典型性的表現(xiàn)。測(cè)試者與被試者可以合作,促使學(xué)生達(dá)到最佳的學(xué)習(xí)效果,這符合Vygotsky的最近發(fā)展區(qū)理論(Zone of Proximal Development);同時(shí),測(cè)試的結(jié)果應(yīng)對(duì)教師的教學(xué)產(chǎn)生影響,教師在教育測(cè)量中扮演主角,而不僅僅是測(cè)試的組織者。教育測(cè)量現(xiàn)在更普遍地被叫做教育評(píng)估(Educational Assessment),主要是因?yàn)闇y(cè)量意味著精確的量化。
評(píng)估必須用于支持學(xué)習(xí),展示可以模擬的、連貫的、有原則的、以目標(biāo)為導(dǎo)向的學(xué)習(xí)者模型,而不僅僅是測(cè)定當(dāng)前或過(guò)去的成就。也就是說(shuō),評(píng)估必須為學(xué)生和老師提供“可執(zhí)行建議”。評(píng)估本身必須有用,并且必須關(guān)注學(xué)生所學(xué)的知識(shí)和技能。測(cè)試不是對(duì)學(xué)生沒(méi)有影響的靜態(tài)活動(dòng),學(xué)習(xí)活動(dòng)參與者的心理狀態(tài)在測(cè)試結(jié)束時(shí)會(huì)被改變。例如,測(cè)試初期成功完成題目可能會(huì)增強(qiáng)信心,并影響整體的測(cè)試結(jié)果。因此,我們應(yīng)該構(gòu)建一個(gè)更具互動(dòng)性的評(píng)估模型,該模型假設(shè)個(gè)人在測(cè)試期間對(duì)項(xiàng)目響應(yīng)能力是變化的[4]。
心理測(cè)量確定正確選項(xiàng)得分的數(shù)量,而不是總體響應(yīng)質(zhì)量?;趩我唤y(tǒng)計(jì)概念的分?jǐn)?shù)在許多情況下具有誤導(dǎo)性,實(shí)際上可能提供“不真實(shí)的分?jǐn)?shù)”。教育評(píng)估著重于描述學(xué)生的表現(xiàn)和成就的“厚度”[5],如Wolf等人所述的“學(xué)生表現(xiàn)的差異化肖像”。
外語(yǔ)教育評(píng)估的標(biāo)準(zhǔn)比標(biāo)準(zhǔn)參照評(píng)價(jià)(Criterion-Referenced Assessment)更全面,教師和其他相關(guān)參與者都有解釋標(biāo)準(zhǔn)范例的義務(wù)。教師對(duì)學(xué)生的學(xué)習(xí)反饋是評(píng)估過(guò)程中一個(gè)關(guān)鍵因素,教育評(píng)估強(qiáng)調(diào)實(shí)際成就和進(jìn)步,而不是學(xué)生的排名。因而,教師不僅與學(xué)生分享評(píng)估標(biāo)準(zhǔn)和評(píng)估過(guò)程,而且鼓勵(lì)學(xué)生在教師地幫助下監(jiān)控和反思自己的學(xué)習(xí)表現(xiàn),使學(xué)生成為元認(rèn)知模式中的自我監(jiān)控學(xué)習(xí)者。
任務(wù)的設(shè)置要與主題相關(guān),任務(wù)要有吸引力。如何才能讓學(xué)生明白較好地完成任務(wù)所需要的條件,同時(shí)激發(fā)學(xué)生的積極性并減輕學(xué)生的壓力?任務(wù)呈現(xiàn)必須清楚、不具威脅性,同時(shí)與學(xué)生目前的關(guān)注相關(guān)。只有當(dāng)學(xué)生面對(duì)熟悉、親切的內(nèi)容和話題時(shí)才會(huì)產(chǎn)生學(xué)習(xí)興趣,才能喚起他們的學(xué)習(xí)意愿[6]。
教師對(duì)學(xué)生的評(píng)估是教育評(píng)估的關(guān)鍵組成部分。教師必須了解他們正在評(píng)估的結(jié)構(gòu)(設(shè)置什么類型的任務(wù));知道學(xué)生已經(jīng)獲得的知識(shí)(問(wèn)什么樣的問(wèn)題);如何引導(dǎo)學(xué)生表現(xiàn)最佳。為了提高一致性,評(píng)分教師需要了解評(píng)分類別和與之對(duì)應(yīng)成績(jī)的關(guān)系。這可以通過(guò)培訓(xùn)向所有教師提供范例和標(biāo)準(zhǔn)來(lái)實(shí)現(xiàn),同時(shí)闡明技能或概念的性質(zhì)。教師對(duì)學(xué)生的評(píng)估可以是非正式的,如觀察和提問(wèn)。這種評(píng)估是互動(dòng)的,以便與學(xué)生充分接觸,并衡量他們對(duì)知識(shí)的理解程度,以便支持他們的學(xué)習(xí)過(guò)程。
在課堂和學(xué)校層面發(fā)布測(cè)試數(shù)據(jù)會(huì)扭曲教育過(guò)程并鼓勵(lì)各種“欺騙”。在傳統(tǒng)的高風(fēng)險(xiǎn)測(cè)試(High-Stakes Testing)中,老師和學(xué)生都無(wú)法避免這種情況。如果風(fēng)險(xiǎn)太高將會(huì)導(dǎo)致“考什么就教什么”。高風(fēng)險(xiǎn)考試會(huì)導(dǎo)致相當(dāng)一部分學(xué)生失敗,由于自尊和動(dòng)機(jī)的問(wèn)題,低分學(xué)生會(huì)面臨輟學(xué)的風(fēng)險(xiǎn)。因此,教育評(píng)估應(yīng)明確評(píng)估標(biāo)準(zhǔn)、降低測(cè)試風(fēng)險(xiǎn)、提供建設(shè)性反饋、關(guān)注個(gè)人表現(xiàn)與標(biāo)準(zhǔn)的相關(guān)性,從而提高學(xué)生參與的積極性。
如今,傳統(tǒng)大規(guī)模測(cè)試和課堂內(nèi)部評(píng)估方法已演變?yōu)閷?duì)心理測(cè)量和教育評(píng)估兩種不同范式的討論,并且使用的術(shù)語(yǔ)也不同。如課堂評(píng)估(Classroom-Based Assessment,CBA)與大規(guī)模測(cè)試(Large-Scale Testing),教師評(píng)估(Teacher Assessment)與正式評(píng)估(Formal Assessment),促進(jìn)學(xué)習(xí)的評(píng)估(Assessment For Learning,AFL)與學(xué)習(xí)評(píng)估(Assessment Of Learning,AOL)等。
長(zhǎng)期以來(lái)課堂評(píng)估僅被認(rèn)為是傳統(tǒng)大規(guī)模測(cè)試的分支。20世紀(jì)90年代,師范教育和在職教師教科書(shū)開(kāi)始關(guān)注課堂評(píng)估,并認(rèn)為課堂評(píng)估是一種獨(dú)特的范例[7]65,以教與學(xué)為重點(diǎn)的評(píng)估越來(lái)越受到關(guān)注。2007年歐洲委員會(huì)歐洲現(xiàn)代語(yǔ)言中心頒布的《歐洲職前語(yǔ)言教師檔案袋:語(yǔ)言教師教育的反思工具》和美國(guó)外語(yǔ)教學(xué)委員會(huì)與美國(guó)全國(guó)師資培養(yǎng)認(rèn)證委員會(huì)共同制定的2013年版《美國(guó)教師培養(yǎng)課程標(biāo)準(zhǔn)》都要求教師能設(shè)計(jì)和使用課堂活動(dòng)監(jiān)控來(lái)評(píng)估學(xué)生的表現(xiàn)。兩份職前外語(yǔ)教師標(biāo)準(zhǔn)都將課堂評(píng)估置于課堂教學(xué)規(guī)范的核心地位[8]。
大量關(guān)于課堂外大規(guī)模測(cè)試方法的研究有助于提高測(cè)試質(zhì)量,并為判斷個(gè)人語(yǔ)言能力的有效性(如效度理論和信度理論)提供了重要標(biāo)準(zhǔn),這些標(biāo)準(zhǔn)也可以應(yīng)用于課堂評(píng)估。一般而言,外語(yǔ)教育的重點(diǎn)是大規(guī)模測(cè)試?yán)碚?,而不是外語(yǔ)課堂環(huán)境和外語(yǔ)教師的角色。隨著人們?cè)絹?lái)越關(guān)注建構(gòu)主義(Constructivist)和社會(huì)文化學(xué)習(xí)理論(Socio-Cultural Theories of Learning)以及Vygotsky的最近發(fā)展區(qū)理論,課堂評(píng)估正在成為一種不同的范例。課堂評(píng)估支持更廣泛的評(píng)估實(shí)踐,包括那些不太符合“標(biāo)準(zhǔn)”的評(píng)估形式,擴(kuò)大了對(duì)“教育學(xué)和測(cè)量范式”的討論。不同的學(xué)者對(duì)課堂評(píng)估有著不同的定義,Davison和Leung[9]認(rèn)為,“所有關(guān)于課堂評(píng)估的定義旨在強(qiáng)調(diào)更多教師參與的、基于情境的、嵌入課堂的評(píng)估實(shí)踐,直接或間接地反對(duì)傳統(tǒng)的、主要適用于選擇或問(wèn)責(zé)目的大規(guī)??荚嚒?。課堂評(píng)估與傳統(tǒng)測(cè)試的比較見(jiàn)表1。
文獻(xiàn)中與課堂評(píng)估同義或結(jié)合使用的一些術(shù)語(yǔ)還包括動(dòng)態(tài)評(píng)估(Dynamic Assessment)、學(xué)業(yè)評(píng)估(Performance Assessment)、診斷評(píng)估(Diagnostic Assessment)、促進(jìn)學(xué)習(xí)的評(píng)估(Assessment for Learning)、真實(shí)性評(píng)估(Authentic Assessment)等。診斷評(píng)估對(duì)學(xué)習(xí)者的優(yōu)、缺點(diǎn)提供推斷依據(jù),并將其用于促進(jìn)學(xué)習(xí)的積極變化。診斷評(píng)估的依據(jù)是當(dāng)前知識(shí)和預(yù)期知識(shí)之間的性能垂直差異(Vertical Discrepancy),根據(jù)知識(shí)點(diǎn)的診斷反饋來(lái)指導(dǎo)學(xué)生[10]。診斷評(píng)估對(duì)外語(yǔ)課堂中發(fā)生的語(yǔ)言學(xué)習(xí)行為的認(rèn)知和非認(rèn)知特征進(jìn)行微觀分析,特別是學(xué)生深層思考的過(guò)程。
動(dòng)態(tài)評(píng)估被定義為評(píng)估和指導(dǎo)相結(jié)合的交互式評(píng)價(jià),其目的是衡量和提高個(gè)別學(xué)習(xí)者的學(xué)習(xí)潛力,并制定適當(dāng)?shù)膶W(xué)習(xí)策略。動(dòng)態(tài)評(píng)估基于三種基本假設(shè):(1)傳統(tǒng)測(cè)試可能無(wú)法捕捉來(lái)自不同文化背景學(xué)習(xí)者的認(rèn)知發(fā)展水平;(2)評(píng)估的重點(diǎn)不僅是學(xué)習(xí)者現(xiàn)在可以做的事情,還是他們將來(lái)可以做的事情;(3)評(píng)估應(yīng)與干預(yù)相結(jié)合。因此,動(dòng)態(tài)評(píng)估能夠?yàn)榻處熼_(kāi)發(fā)滿足特定學(xué)習(xí)者需求的教學(xué)干預(yù)措施,并提供多種有用的信息[11]。
學(xué)業(yè)評(píng)估系統(tǒng)性地衡量學(xué)習(xí)者使用先前獲取知識(shí)的能力。學(xué)業(yè)評(píng)估旨在模擬真實(shí)的學(xué)習(xí)活動(dòng)、口頭和書(shū)面溝通技巧、解決問(wèn)題的活動(dòng)。將學(xué)業(yè)評(píng)估與真實(shí)評(píng)估區(qū)分開(kāi)來(lái)也很重要,真實(shí)的評(píng)估是在真實(shí)環(huán)境中進(jìn)行的學(xué)業(yè)評(píng)估,是在課堂上自然發(fā)生而不是作為特定任務(wù)的一部分而產(chǎn)生的。并非所有學(xué)業(yè)評(píng)估都是真實(shí)的,但真實(shí)評(píng)估卻是學(xué)業(yè)評(píng)估的一個(gè)特例。真實(shí)評(píng)估的一個(gè)例子是檔案袋(Portfolio),它包含學(xué)生實(shí)際表現(xiàn)的記錄。大部分學(xué)業(yè)評(píng)估是基于課堂評(píng)估開(kāi)發(fā)的,具有診斷和教學(xué)的目的。學(xué)業(yè)評(píng)估也可用作大規(guī)模測(cè)試,要注意以下原則[12]:
圖1 課堂評(píng)估的過(guò)程
(1)詳述認(rèn)知需求、評(píng)分標(biāo)準(zhǔn)、學(xué)業(yè)標(biāo)準(zhǔn)和背景,以確保評(píng)估發(fā)展的質(zhì)量;
(2)校準(zhǔn)和調(diào)整不同評(píng)估者的分?jǐn)?shù),使其具有可比性;
(3)調(diào)和不同評(píng)估者對(duì)學(xué)業(yè)標(biāo)準(zhǔn)的共同理解;
(4)培訓(xùn)評(píng)估者根據(jù)商定的標(biāo)準(zhǔn)對(duì)學(xué)業(yè)進(jìn)行評(píng)級(jí);
(5)以適當(dāng)?shù)脑u(píng)估標(biāo)準(zhǔn)驗(yàn)證和審核評(píng)分、評(píng)估內(nèi)容。
課堂評(píng)估的操作框架是多樣化的。Rea-Dickins[13]提出了“課堂評(píng)估的過(guò)程和策略”框架,該框架確定了四個(gè)主要決策階段(計(jì)劃、實(shí)施、調(diào)整、記錄和發(fā)布),每個(gè)決策階段都有一些優(yōu)先關(guān)注事項(xiàng)的例子(見(jiàn)圖1)。從第一步到第四步并按照嚴(yán)格的線性先后順序來(lái)進(jìn)行。在第二步的實(shí)施中獲得的信息可能促使“計(jì)劃”的修正。第三步的“調(diào)整”中包含修改教師的教學(xué)計(jì)劃和學(xué)生的學(xué)習(xí)計(jì)劃,直接為“計(jì)劃”的完善提供信息。至于第四步的評(píng)估結(jié)果發(fā)布,則使得形成性評(píng)估具有一定的“高風(fēng)險(xiǎn)”[14]。
人們普遍認(rèn)為效度是測(cè)試質(zhì)量的評(píng)價(jià)標(biāo)準(zhǔn),并把效度當(dāng)作“測(cè)試產(chǎn)品”自身的屬性。Messick認(rèn)為效度包括構(gòu)造效度(Construct Validity)和測(cè)試使用的社會(huì)后果(Social Consequences of Test Use)的證據(jù)。教育評(píng)估視域下的大學(xué)外語(yǔ)課堂評(píng)估需要明確測(cè)試開(kāi)發(fā)人員、政策制定者和用戶的責(zé)任[2]170:測(cè)試開(kāi)發(fā)人員必須明確課堂評(píng)估的建構(gòu)和適當(dāng)?shù)臏y(cè)試用途;為了強(qiáng)調(diào)大學(xué)外語(yǔ)課堂評(píng)估的責(zé)任,政策制定機(jī)構(gòu)應(yīng)該評(píng)估測(cè)試的影響;測(cè)試結(jié)果的“出版者”必須提供這些信息,以及與個(gè)人實(shí)際評(píng)估相關(guān)的背景信息。例如20世紀(jì)90年代中后期實(shí)施的大學(xué)英語(yǔ)四、六級(jí)考試改革,將總分轉(zhuǎn)換為級(jí)點(diǎn)分并向高校提供所有考生的平均級(jí)點(diǎn)分[15]。
在傳統(tǒng)標(biāo)準(zhǔn)化測(cè)試統(tǒng)計(jì)方法不合適的情況下,我們需要以同樣的方式向所有評(píng)估的學(xué)生提供測(cè)試任務(wù),實(shí)現(xiàn)可持續(xù)性的一致性;所有教師都以同樣的方式解釋評(píng)估標(biāo)準(zhǔn);測(cè)試使用者根據(jù)相同的量規(guī)和標(biāo)準(zhǔn)評(píng)估學(xué)生的表現(xiàn)。這些可以通過(guò)培訓(xùn)、自我節(jié)制和提供范例來(lái)實(shí)現(xiàn)。外語(yǔ)課堂評(píng)估所要求的可比性與測(cè)試使用有關(guān),其他替代傳統(tǒng)信度的標(biāo)準(zhǔn)有:課程忠實(shí)度(Curriculum Fidelity)、公信力(Public Credibility)、可靠性(Dependability)等[2]172-174。課程要求包括測(cè)試構(gòu)造和測(cè)試內(nèi)容,具有比構(gòu)造效度更明確指向性的優(yōu)點(diǎn)。對(duì)于高風(fēng)險(xiǎn)測(cè)試或問(wèn)責(zé)制測(cè)試(Accountability Testing),公信力是一個(gè)重要的標(biāo)準(zhǔn)。管理各部門(mén)為測(cè)試使用者和普通公眾提供的結(jié)果應(yīng)是一致的,從一個(gè)學(xué)?;蛟u(píng)估者到另一個(gè)學(xué)?;蛟u(píng)估者是可以比較的??煽啃允恰靶Ф群托哦鹊慕徊纥c(diǎn)”[16],課堂評(píng)估依靠?jī)?nèi)容的有效性和可靠性。
這些標(biāo)準(zhǔn)中有些是定性的而不是定量的,因?yàn)榻逃u(píng)估視域下的大學(xué)外語(yǔ)課堂評(píng)估不支持把評(píng)估作為一種客觀活動(dòng)或精確的科學(xué)。教育評(píng)價(jià)范式下的轉(zhuǎn)變向政策制定者傳遞的信息是:即使是為了計(jì)量的目的,也需要包括多元的評(píng)估類型;構(gòu)建典型代表,著重考慮評(píng)估深度和廣度,以提高不同學(xué)生群體的公平性;盡可能地降低與評(píng)估相關(guān)的風(fēng)險(xiǎn),特別是在教師和學(xué)校層面。對(duì)于測(cè)試開(kāi)發(fā)人員而言,特別是選拔和認(rèn)證評(píng)估,需要更多高質(zhì)量任務(wù),促進(jìn)教學(xué)和學(xué)習(xí)的發(fā)展。
基于建構(gòu)主義理論,外語(yǔ)教師不僅是“反思者”“研究者”,還應(yīng)該是“自我更新者”[17]。任何評(píng)估模型、政策或計(jì)劃最終都是由教師實(shí)施的,限制教師在課堂評(píng)估中的作用是對(duì)教學(xué)過(guò)程最大的誤解。研究者逐漸意識(shí)到教師在課堂評(píng)估中的關(guān)鍵作用,以及職前和在職教師評(píng)估素養(yǎng)(Assessment literacy)的重要性。評(píng)估素養(yǎng)是指評(píng)估原則和實(shí)踐的知識(shí)和技能,包括理解課堂評(píng)估策略、測(cè)試開(kāi)發(fā)策略、測(cè)試分?jǐn)?shù)解釋等。Turner對(duì)教師評(píng)估“專業(yè)性”的研究表明[18],教師愿意推動(dòng)教學(xué)評(píng)估的進(jìn)程來(lái)促進(jìn)教與學(xué)和教育體系的完善,但課堂評(píng)估和高風(fēng)險(xiǎn)測(cè)試不同目標(biāo)之間的矛盾很難解決,這要求在教師評(píng)估素養(yǎng)培訓(xùn)中幫助教師成為代理人,而不是評(píng)估實(shí)踐中的工具。
大學(xué)英語(yǔ)教師的評(píng)估素養(yǎng)與大學(xué)英語(yǔ)教學(xué)的效果緊密相關(guān),然而大部分的英語(yǔ)教師在入職前沒(méi)有接受過(guò)專業(yè)語(yǔ)言測(cè)試與評(píng)估方面的訓(xùn)練。即使對(duì)于畢業(yè)于英語(yǔ)教育專業(yè)的大學(xué)英語(yǔ)教師,評(píng)估素養(yǎng)也不一定能達(dá)到實(shí)際工作的要求。所以,應(yīng)加強(qiáng)崗前培訓(xùn)和入職后的繼續(xù)培訓(xùn),并建立大學(xué)外語(yǔ)專業(yè)學(xué)習(xí)共同體,強(qiáng)調(diào)教師間的協(xié)作與交流。在技術(shù)革命的日新月異的時(shí)代背景下,在線外語(yǔ)學(xué)習(xí)、翻轉(zhuǎn)課堂等逐漸占領(lǐng)英語(yǔ)教學(xué)的半壁江山,如何更新新形勢(shì)的評(píng)估知識(shí),成為我們亟待解決的問(wèn)題[19]。
課堂評(píng)估獲取的信息能夠確定學(xué)習(xí)者的學(xué)習(xí)進(jìn)度,實(shí)施時(shí)應(yīng)包括以下內(nèi)容:有效的提問(wèn)促使學(xué)生參與有關(guān)主題的活動(dòng);利用反饋來(lái)幫助學(xué)生理解高質(zhì)量學(xué)習(xí)的標(biāo)準(zhǔn)以及他們?yōu)檫_(dá)到這一目標(biāo)需要做的事情;培養(yǎng)同伴評(píng)估(Peer-Assessment)和自我評(píng)估(Self-Assessment)。大學(xué)外語(yǔ)教師應(yīng)使用多種方法獲取有關(guān)學(xué)習(xí)者語(yǔ)言能力的信息,建立學(xué)習(xí)者檔案以支持課堂上的語(yǔ)言學(xué)習(xí)。
當(dāng)學(xué)生評(píng)估自己的學(xué)習(xí)成果時(shí),會(huì)嘗試更高的標(biāo)準(zhǔn),并且愿意將這些標(biāo)準(zhǔn)應(yīng)用到自我評(píng)估中[20]。同伴評(píng)估也具有優(yōu)勢(shì),不僅為學(xué)生提供識(shí)別學(xué)習(xí)目標(biāo)的機(jī)會(huì),而且?guī)椭麄儽鎰e自己與同學(xué)的優(yōu)、劣表現(xiàn)。我國(guó)相關(guān)研究表明在大學(xué)英語(yǔ)寫(xiě)作教學(xué)中開(kāi)展學(xué)生的自我評(píng)估和同伴評(píng)估是可行的,不同寫(xiě)作水平的大學(xué)生適應(yīng)不同的評(píng)價(jià)組合,如寫(xiě)作水平高的學(xué)生更適合自我評(píng)估和同伴評(píng)估,自我評(píng)估時(shí)需要教師適當(dāng)引導(dǎo)[21]。檔案袋是收集學(xué)生學(xué)習(xí)過(guò)程中所做的努力、取得的進(jìn)步以及反映最終學(xué)習(xí)成果的集合體[22]。檔案袋的功能就像是一本相冊(cè),包含在不同時(shí)間、不同環(huán)境下拍攝的各種照片[23]。雖然文獻(xiàn)和書(shū)籍提供了各種方法供教師選擇,但更重要的是在不同背景和文化下如何重新定義。大學(xué)教師需要考慮以下問(wèn)題[7]73-74:
(1)為什么要使用這種方法?
(2)該方法將如何使用?
(3)參與者是誰(shuí)?
(4)誰(shuí)是評(píng)估者?
(5)如何記錄和解釋結(jié)果?
(6)將產(chǎn)生什么類型的反饋和反思?
(7)在進(jìn)一步學(xué)習(xí)的過(guò)程中會(huì)做出什么決定?
在過(guò)去的幾十年里,教育經(jīng)歷了諸多革新。特別是信息技術(shù)、人工智能在學(xué)生的學(xué)習(xí)生活中發(fā)揮了重要作用,改變了我們的教學(xué)方式??茖W(xué)技術(shù)的快速發(fā)展也為研究方法和研究技術(shù)的多元化提供了可能[24]。然而不管用于傳授知識(shí)的載體是什么,都必須測(cè)量傳授的知識(shí)量和獲得的知識(shí)量。教師不僅要評(píng)估學(xué)生的學(xué)習(xí),還要評(píng)估自己的教學(xué)方法,判斷什么時(shí)候需要鞏固教學(xué)??傊?,大學(xué)外語(yǔ)課堂評(píng)估適應(yīng)了《大學(xué)英語(yǔ)教學(xué)指南》的要求,從傳統(tǒng)的“對(duì)學(xué)習(xí)的測(cè)試”向“促進(jìn)學(xué)習(xí)的測(cè)試”轉(zhuǎn)變,將課堂教學(xué)、學(xué)生參與、教學(xué)評(píng)估和教師專業(yè)發(fā)展有機(jī)地結(jié)合起來(lái)。