張生 王雪 齊媛
【摘 要】?? 人工智能時代是在以物理世界為主的世界上新增了一個數(shù)字世界,人們的生活、生產(chǎn)和學(xué)習(xí)方式發(fā)生了重大改變,生產(chǎn)力的巨大變革必然帶來生產(chǎn)關(guān)系和上層建筑的變革。為應(yīng)對這一變革,教育必然從知識技能的培養(yǎng)轉(zhuǎn)向?qū)W生核心素養(yǎng)的養(yǎng)成,教育評價也必然轉(zhuǎn)向以促進(jìn)學(xué)生核心素養(yǎng)的發(fā)展為核心。本文首先從診斷為核心的評價現(xiàn)實困境出發(fā),提出了學(xué)評融合的評價新理念,其次從理論層面介紹了人工智能時代學(xué)評融合的重要價值和意義,詳細(xì)闡述了學(xué)評融合的概念、內(nèi)涵與核心特征,最后從實踐層面建構(gòu)了人工智能時代學(xué)評融合的評價框架,提出生成與展示、參與評價活動、反思與改進(jìn)三個學(xué)評融合理念下評價作為高階思維學(xué)習(xí)活動的核心階段,并嘗試構(gòu)建各階段的核心要素,為數(shù)字世界學(xué)生評價能力的發(fā)展與測量、評價系統(tǒng)的研究與研發(fā)以及教學(xué)實踐活動提供具體、可操作的依據(jù)。
【關(guān)鍵詞】? 學(xué)評融合;評價理念;核心素養(yǎng);人工智能;評價改革;評價能力;教育評價
【中圖分類號】? ?G40-058.1? ? ? ? ?【文獻(xiàn)標(biāo)識碼】? A? ? ? ?【文章編號】? 1009-458x(2021)2-0001-09
一、問題提出
中共中央、國務(wù)院2020年印發(fā)了《深化新時代教育評價改革總體方案》(以下簡稱“方案”)?!斗桨浮分赋?,教育評價事關(guān)教育發(fā)展的方向,要系統(tǒng)推進(jìn)教育評價改革,努力培養(yǎng)擔(dān)當(dāng)民族復(fù)興大任的時代新人。十九屆五中全會指出要加快推進(jìn)教育現(xiàn)代化的新征程。隨著以人工智能、大數(shù)據(jù)、互聯(lián)網(wǎng)+為代表的現(xiàn)代信息技術(shù)的迅猛發(fā)展,嶄新的數(shù)字世界成為人們工作、生活和學(xué)習(xí)的重要場所,生產(chǎn)力與生產(chǎn)關(guān)系的變革使得大量機(jī)械性、重復(fù)性的職業(yè)被數(shù)字世界提供的算法服務(wù)所取代,伴隨著勞動力被大量解放人工智能時代對人才有了全新要求,教育也必然聚焦到以創(chuàng)新能力、批判意識等高階思維培養(yǎng)為核心的育人過程上來。在物理世界與數(shù)字世界雙重發(fā)展的基礎(chǔ)上,教育評價急需實踐創(chuàng)新(齊媛, 等, 2020),而實踐創(chuàng)新的根本源于評價理念創(chuàng)新,深入研究學(xué)評融合的新理念、新方法和新技術(shù)以及運用新模式是促進(jìn)評價改革落地的關(guān)鍵。
在理論發(fā)展的不同階段,評價的關(guān)注點處在由診斷到學(xué)習(xí)、由外部到內(nèi)部、由知識到能力的逐步發(fā)展變化中。基于評價實施的不同目的和方法,Earl(2003, p. 26)最早區(qū)分了關(guān)于學(xué)習(xí)的評價、為了學(xué)習(xí)的評價和作為學(xué)習(xí)的評價。關(guān)于學(xué)習(xí)的評價也被叫作“總結(jié)性評價”,是指教師在教學(xué)單元結(jié)束時使用評價對學(xué)生的學(xué)習(xí)結(jié)果進(jìn)行檢查(OFarrell, 2009, p. 7),其目的是向?qū)W生或父母報告學(xué)生在學(xué)校的學(xué)習(xí)進(jìn)度,通常通過班級內(nèi)該生相對于其他學(xué)生的排名來實現(xiàn)。為了學(xué)習(xí)的評價是形成性評估的代表術(shù)語,是一個以學(xué)習(xí)為導(dǎo)向的過程,可以促進(jìn)學(xué)生接受并基于反饋采取行動,最終改善和增進(jìn)對學(xué)習(xí)的理解(Bennett, 2011; Wiliam, 2011)。為了學(xué)習(xí)的評價將重點從總結(jié)性評價轉(zhuǎn)為形成性評價,從判斷到描述(Bennett, 2011),對學(xué)生進(jìn)入下一階段前盡快轉(zhuǎn)變其錯誤理解至關(guān)重要。作為學(xué)習(xí)的評價聚焦學(xué)生的元認(rèn)知能力和素養(yǎng)發(fā)展(Earl & Giles, 2011),鼓勵學(xué)生積極參與評價過程,同時參考學(xué)生的既定學(xué)習(xí)目標(biāo),主要通過自我評估、自我監(jiān)控和自我調(diào)節(jié)來縮小他們自身的學(xué)習(xí)差距并確定下一步的學(xué)習(xí)計劃和個人目標(biāo)。Earl(2003, p. 28)指出,在作為學(xué)習(xí)的評價中學(xué)生間幾乎不存在比較,它要求教師從知識的傳授者轉(zhuǎn)變?yōu)閷W(xué)生學(xué)習(xí)的引導(dǎo)者,讓學(xué)生體會理解自我的“認(rèn)知過程”以幫助學(xué)生在學(xué)習(xí)中學(xué)會監(jiān)控和及時調(diào)整。雖然Earl(2003, p. 28)認(rèn)為作為學(xué)習(xí)的評價是為了學(xué)習(xí)的評價的一部分,但也有部分學(xué)者認(rèn)為它應(yīng)該是一種獨立的教學(xué)評價方法(Gottlieb, 2016, p. 23),為了學(xué)習(xí)的評價更具公共性、交互性和教學(xué)性,突出了實踐社區(qū)的本質(zhì),而作為學(xué)習(xí)的評價相對私密、個人和更具反思性,抓住了自我調(diào)節(jié)學(xué)習(xí)的特征(Allal, 2019; Lam, 2018)。
盡管為了學(xué)習(xí)的評價和作為學(xué)習(xí)的評價對學(xué)習(xí)者的積極作用得到認(rèn)可,但在教學(xué)實踐中迫于考試和升學(xué)的壓力關(guān)于學(xué)習(xí)的評價往往更受關(guān)注(Muchlis, Ibnu, Subandi, & Marfuah, 2020)。不僅作為學(xué)習(xí)的評價由于對提高學(xué)生學(xué)業(yè)成績的局限性而很少被實踐(Knight, 2002),為了學(xué)習(xí)的評價(形成性評價)也被認(rèn)為有減少的趨勢,未能發(fā)揮其潛能(Gibbs & Simpson, 2004)。例如在課程中各種評價任務(wù)分配不均勻,測驗往往鼓勵記憶或表面的學(xué)習(xí)方法(Ramsden, 2003),無法支撐學(xué)生高階思維能力的發(fā)展(Rust, Price, & ODonovan, 2003)。作為學(xué)習(xí)的評價和為了學(xué)習(xí)的評價的共同特征就是反饋的使用,無論采用內(nèi)部反饋還是外部反饋,二者都指向發(fā)展學(xué)生的元認(rèn)知能力和達(dá)成學(xué)習(xí)標(biāo)準(zhǔn)的意識(Andrade & Brookhart, 2016, pp. 293-309)。但在實踐中反饋通常是無效的,主要原因在于反饋不及時(Carless, 2006)以及反饋的數(shù)量和迭代周期有待提高(Taras, 2006)。另一個值得關(guān)注的問題是學(xué)生對兩種評價的感知,特別是它是否會增加學(xué)生的額外負(fù)擔(dān)。一些學(xué)生可能會將某些類型的形成性評價解釋為沒有分?jǐn)?shù)的額外工作,或者認(rèn)為它們是沒有必要的(Yorke, 2003)。
教育評價改革與發(fā)展的困境催生理念的創(chuàng)新。評價應(yīng)當(dāng)是多件事情的集成體(Boud, 2000)。在人工智能時代,評價應(yīng)同時涵蓋診斷和學(xué)習(xí)的目的,既要評估學(xué)生成績,也要通過評估使他們提高;它的評價標(biāo)準(zhǔn)既要有篩選價值,也要涵蓋個體的增值性評價;評價的結(jié)果既要傳遞顯性信息,也要傳遞隱性信息。本文基于評價改革的需求和人工智能時代的特點,從理論和實踐層面提出學(xué)評融合的評價新理念,以促進(jìn)學(xué)生核心素養(yǎng)的發(fā)展為目標(biāo),推動評價活動科學(xué)、大規(guī)模、常態(tài)化地開展。
二、學(xué)評融合的概念、內(nèi)涵與核心特征
(一)學(xué)評融合的概念與內(nèi)涵
學(xué)評融合是基于數(shù)字世界的教育,統(tǒng)籌評價的學(xué)習(xí)性和診斷性為一體,強(qiáng)調(diào)以多種方式促進(jìn)學(xué)生主動發(fā)展的一種評價新理念。強(qiáng)調(diào)通過數(shù)字世界將評價融入學(xué)生的學(xué)習(xí)活動過程中,鼓勵人人展示分享成果、人人參與系列評價活動,基于評價過程與評價數(shù)據(jù)不斷反思改進(jìn),促進(jìn)學(xué)生自身核心素養(yǎng)的發(fā)展;通過數(shù)字世界記錄的學(xué)習(xí)過程數(shù)據(jù)和評價過程數(shù)據(jù),建立各種模型來計算學(xué)生認(rèn)知、社會性、心理等多方面素養(yǎng)的發(fā)展,再以可理解的方式呈現(xiàn)出來。具體如圖1所示。
(二)學(xué)評融合的核心特征
學(xué)評融合的評價理念不同于傳統(tǒng)的評價理念,它有五個典型特征:一是強(qiáng)調(diào)評價的學(xué)習(xí)性和診斷性的融合;二是強(qiáng)調(diào)評價是一種高階思維的學(xué)習(xí)活動;三是強(qiáng)調(diào)基于學(xué)習(xí)過程數(shù)據(jù)、利用人工智能大數(shù)據(jù)分析技術(shù)來開展過程性評價;四是強(qiáng)調(diào)基于數(shù)字世界開展學(xué)評融合;五是強(qiáng)調(diào)進(jìn)步和成功的評價,保持學(xué)生與生俱來的好奇心。
1. 強(qiáng)調(diào)評價的學(xué)習(xí)性和診斷性的融合
先發(fā)揮評價的學(xué)習(xí)性功能,再基于學(xué)習(xí)過程數(shù)據(jù)進(jìn)行數(shù)據(jù)建模評價,是學(xué)評融合的首要特征,也是區(qū)別于傳統(tǒng)先診斷再改進(jìn)的評價理念,其評價的流程更簡捷,更加指向?qū)W生核心素養(yǎng)的發(fā)展。
以往評價實踐更多地關(guān)注終結(jié)性評價,即作為診斷性的評價,其評價流程如圖2所示。學(xué)生一般會經(jīng)歷從測驗、評價、反饋到改進(jìn)的過程,雖然其對一般認(rèn)知能力的考察已頗有成效,但由于在物理世界中教師的課堂時間和展示空間均有限,不僅不能展示每一位學(xué)生創(chuàng)作的過程和結(jié)果,更難為每一位學(xué)生提供個性化的反饋和指導(dǎo),學(xué)生的改進(jìn)效果不盡如人意。因此,本文提出學(xué)評融合的評價新理念,其評價流程如圖3所示,即依托數(shù)字世界,將評價各核心要素融合于學(xué)習(xí)活動中,以學(xué)生為主體,鼓勵人人參與展示、人人參與對他人的評價,讓每一位學(xué)生都能在評價活動中提高核心素養(yǎng),在評價反饋中進(jìn)一步改進(jìn)學(xué)習(xí)。
2. 強(qiáng)調(diào)評價過程是一種高階思維的學(xué)習(xí)活動
學(xué)評融合強(qiáng)調(diào)評價過程是一種高階思維的學(xué)習(xí)活動,是對學(xué)生元認(rèn)知、心理理論的常態(tài)化訓(xùn)練與實踐。
學(xué)評融合強(qiáng)調(diào)學(xué)生在原有認(rèn)知展示基礎(chǔ)上,在閱讀他人作品、評價并提出改進(jìn)意見的過程中,思維得到再一次升華,思維的深度與廣度得以發(fā)展。評價過程也是關(guān)注他人的創(chuàng)作背景、思維模式、總結(jié)他人優(yōu)勢與不足的過程,是對同伴深度認(rèn)識的過程,是“知彼”的思維過程,這不僅是一種高階思維的發(fā)展,也是學(xué)生社會性發(fā)展的一種方式,是直接指向?qū)W生核心素養(yǎng)發(fā)展的一種新的評價。學(xué)生在大量評價他人作品的過程中逐步認(rèn)識到事物的多面性,再在改進(jìn)自己作品的過程中認(rèn)識到自己思維過程的優(yōu)勢和不足,通過這一“知己”的思維過程逐步樹立創(chuàng)新意識,保持自己的特點與不同,在追求共性的基礎(chǔ)上追求個性的發(fā)展,思維得以螺旋式上升,核心素養(yǎng)得以發(fā)展。最終通過評價活動達(dá)到“知己知彼”的目的,思維境界得以提升。
3. 強(qiáng)調(diào)基于學(xué)習(xí)過程的診斷評價
學(xué)評融合強(qiáng)調(diào)基于學(xué)習(xí)過程的診斷評價,即利用大數(shù)據(jù)、人工智能技術(shù)、學(xué)習(xí)分析技術(shù)對學(xué)生的各種行為進(jìn)行計算、建模和可視化,具有實時性、動態(tài)性、發(fā)展性和可理解性的特點。
評價作為高階思維學(xué)習(xí)活動會產(chǎn)生大量的學(xué)習(xí)過程數(shù)據(jù),包括學(xué)生的個人基本信息、學(xué)生的作品數(shù)據(jù)、瀏覽數(shù)據(jù)、評價數(shù)據(jù)、修改數(shù)據(jù)以及過程中的時間點和時長等時間維度的數(shù)據(jù)。結(jié)合學(xué)生的歷史數(shù)據(jù),如作業(yè)考試成績、學(xué)習(xí)風(fēng)格、人格特質(zhì)、興趣特長等學(xué)習(xí)品質(zhì)數(shù)據(jù),通過物聯(lián)網(wǎng)技術(shù)、大數(shù)據(jù)挖掘技術(shù)和智能決策與可視化技術(shù),建立學(xué)生的認(rèn)知發(fā)展、學(xué)業(yè)發(fā)展、社會性發(fā)展等不同方面的計算模型,構(gòu)建一系列的決策預(yù)警分析模型,并基于不同地域和群體特征構(gòu)建不同的學(xué)習(xí)者特征模型,可以動態(tài)地診斷、決策反饋。不僅能夠描述學(xué)生的當(dāng)前發(fā)展?fàn)顩r,展示一定時期內(nèi)學(xué)生各方面的發(fā)展,還能對未來的發(fā)展進(jìn)行模擬推演,從而及早采取有效措施調(diào)整教育教學(xué)。
4. 強(qiáng)調(diào)對數(shù)字世界的運用
學(xué)評融合必須基于數(shù)字世界開展,才能有效發(fā)揮數(shù)字世界展示、分享、交流、評價、自動計算、智能決策和可視化的優(yōu)點,才能讓學(xué)評融合更加常態(tài)、更加精準(zhǔn)和更加科學(xué),才能有效促進(jìn)深度學(xué)習(xí)和基于數(shù)據(jù)建立現(xiàn)代治理制度與體系。
在人工智能時代,數(shù)字世界的時空泛在、物理世界的時空拓展,人人展示、同伴評價、個人反思與改進(jìn)可以常態(tài)化開展,評價內(nèi)隱于學(xué)生的學(xué)習(xí)過程成為可能,學(xué)評融合的高階思維特點可以得到常態(tài)化的訓(xùn)練和發(fā)展。同時,數(shù)字世界對學(xué)習(xí)過程能夠自動記錄、存儲,結(jié)合不同的目的建立不同的計算模型,開展智能化的診斷,自動及時反饋。另外,數(shù)字世界能夠大規(guī)模、常態(tài)化、個性化地進(jìn)行分析,不僅能給個人提供有針對性的學(xué)習(xí)過程報告,提出有針對性的建議,助力個性化學(xué)習(xí)的開展,還能支持科學(xué)管理與決策,及早發(fā)現(xiàn)區(qū)域性、群體性問題,及早進(jìn)行模擬推演,快速科學(xué)決策,進(jìn)而大幅度、大規(guī)模提升教育教學(xué)質(zhì)量。
5. 強(qiáng)調(diào)保持學(xué)生的好奇心
保持學(xué)生的好奇心是學(xué)評融合最關(guān)鍵的特征。評價是為了更多地讓學(xué)生體驗自身的進(jìn)步和成功,保持學(xué)生與生俱來的好奇心,保持高效的學(xué)習(xí)動力,減輕學(xué)生的負(fù)擔(dān)。在學(xué)評融合理念下,人人展示自己的優(yōu)點和不同,人人發(fā)現(xiàn)他人的優(yōu)點和不同,發(fā)現(xiàn)他人的美和成長,進(jìn)而營造一種積極向上的育人氛圍。
傳統(tǒng)的評價理念受制于測試與學(xué)習(xí)分離,整個評價過程主要是教師在開展,學(xué)生則是被動地參與評價,教師更加關(guān)注成績優(yōu)秀的學(xué)生,而對其他學(xué)生的表現(xiàn)視而不見。同時,由于時空限制大多數(shù)學(xué)生的努力程度會被忽視,評價開展得越多,排名靠后的學(xué)生受到的負(fù)向激勵越多,學(xué)生參與學(xué)習(xí)的興趣、動機(jī)越難以保持上升。由于學(xué)生不能參與評價過程,學(xué)生思維無法得到提升,使得學(xué)生的認(rèn)知停留在原有水平,不能有效改進(jìn)自己的作品,只能照搬教師眼中的優(yōu)秀作品,學(xué)生不僅無法獲得成就感,更會產(chǎn)生無力感和失敗感,潛移默化學(xué)生會覺得自己不行,進(jìn)而喪失學(xué)習(xí)的興趣和動機(jī)。另外,先評價診斷再改進(jìn)的評價理念還會加重師生的負(fù)擔(dān)。診斷的評價是為了測而測,這就形成了多種測評系統(tǒng)、多方測評主體的一同參與,加重了教師和學(xué)生的負(fù)擔(dān)。如果基于這個理念強(qiáng)化過程性評價,只會簡單增加終結(jié)性評價的頻率和采集點,要求教師和學(xué)生提交大量的照片、文件等過程性資料,不僅不能有效改進(jìn)教學(xué),反而會加重學(xué)生、家長、教師和學(xué)校的負(fù)擔(dān),難以持續(xù),也難以發(fā)揮以評促學(xué)的作用。
三、學(xué)評融合中學(xué)的實施階段與核心要素
學(xué)評融合在實踐層面和操作層面依賴數(shù)字世界的運用,重點強(qiáng)調(diào)評價的學(xué)習(xí)功能和診斷功能,核心前提是評價的學(xué)習(xí)性的運用,因此本文聚焦評價的學(xué)習(xí)性的階段和核心要素。具體而言,評價作為一種高級思維的學(xué)習(xí)活動,有生成與展示、參與評價活動、反思與改進(jìn)三個核心階段和多個核心要素,如圖4所示。
(一)生成與展示及其核心要素
學(xué)評融合理念落地的基礎(chǔ)是強(qiáng)調(diào)學(xué)生思維的生成與作品的展示,強(qiáng)調(diào)教師要利用數(shù)字世界重構(gòu)育人環(huán)境,優(yōu)化學(xué)與教的方式,強(qiáng)調(diào)學(xué)生從消費為主到生成為主,形成為了生成而消費的新型學(xué)與教方式。在學(xué)生生成的基礎(chǔ)上強(qiáng)調(diào)人人展示,這可以是在物理世界展示,當(dāng)然,更強(qiáng)調(diào)在數(shù)字世界的常態(tài)化展示與分享。即便作業(yè)是選擇題一類客觀性、標(biāo)準(zhǔn)化的任務(wù),也需要教師開展基于答題板的任務(wù)設(shè)計,學(xué)生基于選擇分布來進(jìn)行深度思維。例如,我能否說服他人同意我的選擇是對的?我能否判斷他人思維的局限導(dǎo)致的錯誤選擇?我要修改我的答案嗎?學(xué)生基于答題數(shù)據(jù)開展深度的討論和學(xué)習(xí),選項分布如圖5所示。
生成與展示是學(xué)生參與評價活動的前提條件,學(xué)生在評價過程中關(guān)注的核心要素是學(xué)生對署名方式、評價主體和評價內(nèi)容有用性的心理期望與感知。
1. 期望的評價署名方式
同傳統(tǒng)的面授課堂相比,學(xué)評融合理念下的評價活動內(nèi)置于數(shù)字化學(xué)習(xí)空間,更關(guān)注對他人作品的理解與評價。在交互環(huán)境中,評價的署名方式對學(xué)生生成與展示的行為和心理都存在影響(張倩, 2007)。隨著同伴互評逐漸成為一種有效的評價方式(李菲茗, 2018),圈子效應(yīng)和權(quán)威效應(yīng)也逐漸凸顯,即給自己的好友較高分?jǐn)?shù)或給平時表現(xiàn)好的同伴較高分?jǐn)?shù)。這種效應(yīng)與評價的署名方式密切相關(guān)(舒存葉, 等, 2015),學(xué)生期望的署名方式從某種角度而言反映了依賴該效應(yīng)的傾向,進(jìn)而影響生成與展示部分的投入程度。對同伴互評的形式進(jìn)行分類,從評價者、被評價者角度可以分為署名、單向匿名和完全匿名。以往研究發(fā)現(xiàn),完全匿名和單向匿名條件下的評價更具有批判性,且不存在顯著差異,但是評價質(zhì)量不如署名條件下的評價(Yong Zhao, 1998; 王佑鎂, 2006)。因此,學(xué)評融合理念下的評價要關(guān)注學(xué)生期望的評價署名方式,體現(xiàn)個性化。
2. 期望的評價主體
學(xué)評融合強(qiáng)調(diào)學(xué)教并重的教學(xué)理念,評價活動也更加注重主體的多元化。評價主體在同伴互評中占有重要地位,而學(xué)生自身期望的評價主體也將潛在影響學(xué)生的生成投入和評價內(nèi)容的有用性感知等。該部分評價主體的分類將同下文中對評價對象的分類,不同學(xué)生期望的評價主體具有差異性,學(xué)評融合理念下的評價應(yīng)該在捕捉這種個性化差異的基礎(chǔ)上設(shè)計精準(zhǔn)的評價主體推薦功能。
3. 評價內(nèi)容的有用性感知
不同的評價內(nèi)容具有不同的作用,如激勵性評價有助于激發(fā)學(xué)生的積極性和創(chuàng)造性等,但研究也顯示,不同環(huán)境下同一評價內(nèi)容的作用也不是一成不變的。例如,隨著年級的增長男生會更傾向于選擇“客觀”的評價,而女生則相反,有從“客觀”轉(zhuǎn)向“稱贊”的趨勢。因此,富有不同個性特征的學(xué)生對不同評價內(nèi)容的感知是學(xué)評融合理念下的評價需要關(guān)注的,在此基礎(chǔ)上考慮教師、同伴、家長等不同多元主體的參與,將評價內(nèi)容和評價主體銜接,確定不同學(xué)生對評價內(nèi)容的主體有用性感知,推動評價的落地實施。
(二)參與評價活動及其核心要素
學(xué)評融合理念落地的關(guān)鍵是以人為核心開展自評或他評的學(xué)習(xí)活動,鼓勵跨學(xué)科的教研方式,核心就是評價是以人為出發(fā)點。自評或他評都是學(xué)生主動參與評價的象征,也是從他人角度制定戰(zhàn)略,將開放性的生成轉(zhuǎn)變?yōu)榭陀^的價值判斷。其中,面對同一開放性的生成任務(wù),衡量每個人的要求和標(biāo)準(zhǔn)也應(yīng)不同,故以人為核心的增值評價便自然得到關(guān)注。無論是自評還是他評都要求學(xué)生主動參與,評價的方式也多種多樣,涵蓋了點贊、打分、評級、評語等,在學(xué)生主動參與評價的過程中多種思考問題的角度和方式都會對其形成沖擊,這就促使學(xué)生不再停留在原有簡單認(rèn)知上,而是會萌發(fā)出更深層次的理解、困惑、迷茫。同時,學(xué)生的主動參與也會讓其更加了解評價標(biāo)準(zhǔn),有利于師生關(guān)系和同伴關(guān)系的發(fā)展。
參與評價活動作為學(xué)評融合評價的核心,各要素的合理、共生發(fā)展是重中之重。從功能上可以將參與評價活動的核心要素劃分為基本要素和關(guān)鍵要素兩部分。評價對象、評價方式和評價內(nèi)容是表征評價活動參與情況的基本要素,評價投入和評價效能感是表征參與評價活動質(zhì)量的關(guān)鍵要素。
1. 評價對象
評價對象分為評價者和被評價者,從關(guān)系角度看包括學(xué)習(xí)距離、心理距離和成績距離三種類型。學(xué)習(xí)距離是指物理世界中的距離,可以分為同桌、同一學(xué)習(xí)小組的人、學(xué)習(xí)小組之外的人和其他同學(xué)等;心理距離是指親密關(guān)系所帶來的距離,可以分為好朋友、普通同學(xué)和我不喜歡的同學(xué)等;成績距離是由平時的學(xué)習(xí)表現(xiàn)所塑造的距離,分為平時成績好的人、平時成績一般的人和平時成績不太好的人。近期關(guān)于中小學(xué)生的評價活動現(xiàn)狀調(diào)查顯示,在學(xué)習(xí)距離中評價其他同學(xué)的比例最高,高達(dá)37%;在心理距離中評價好朋友的比例高達(dá)80%;在成績距離中評價平時成績好的比例高達(dá)58%。這說明現(xiàn)階段的評價還未合理、公平地考慮三個距離的評價對象安排。同時,也加重了同伴評價中的圈子效應(yīng)和權(quán)威效應(yīng)的發(fā)生風(fēng)險。
2. 評價方式
數(shù)字世界讓學(xué)評融合理念下多樣化的評價方式成為可能。在以往的學(xué)生互評中,以評分反饋和評語反饋為主,而學(xué)評融合理念下的評價方式包括點贊、評分、評級、評語、價值判斷、答題板的運用等,評價的媒體包括文本、語音、小視頻和作品標(biāo)注等。其中,不同的評價方式表征了學(xué)生參與評價時的不同思維層級。了解學(xué)生的評價方式喜好并結(jié)合不同評價方式在不同教學(xué)階段的適用性進(jìn)行合理設(shè)計將有助于提升評價活動效果。
3. 評價內(nèi)容
評語內(nèi)容可以從評價者和被評價者的角度分為評語焦點和評語形式兩個層面,評語焦點分為關(guān)注語言類和關(guān)注內(nèi)容類,評語形式分為認(rèn)知特征類和情感特征類(Patchan & Schunn, 2015; Gao, Schunn, & Yu, 2019)。本文討論廣義下的評價,只關(guān)注評語形式。認(rèn)知特征類是一些可采納評語,如“指出問題”“提出建議”“定位問題”“給出解決辦法”。情感特征類主要指“稱贊”“批評”兩類評語?!爸赋鰡栴}”是明確、直接指出作品中的問題或錯誤的評語。Matsumura等(Matsumura, Patthey-Chavez, Valdes, & Garnier, 2002)發(fā)現(xiàn)指出寫作文本整體性問題更有利于采納和修改?!疤岢鼋ㄗh”是針對項目問題或錯誤給出的修改意見,其特點是籠統(tǒng)、不具體(Nelson & Schunn, 2009),如“請你再好好想一想”?!岸ㄎ粏栴}”是明確指出問題的具體位置,如“我認(rèn)為這句話跟前面有點重復(fù)”,有利于被評價者理解問題進(jìn)而采納評語(高瑛, 等, 2019)?!敖o出解決辦法”是提供如何修改或提高作品質(zhì)量的評語,收到該評語的被評價者極有可能提高采納率并改進(jìn)作品質(zhì)量??偟膩碚f,相較于情感特征類,認(rèn)知特征類對學(xué)生后續(xù)評語采納和修改影響最大(Patchan, et al., 2015)。同時,不同類型的評語使學(xué)生產(chǎn)生的情緒體驗也有顯著差異(柏宏權(quán), 等, 2019)。這就要求在設(shè)計學(xué)評融合理念的評價活動時要合理利用不同類型的評價內(nèi)容。
4. 評價投入
評價投入是評價他人作品時的時間投入和評價頻率。兩者都表征了學(xué)生自評或評他活動的參與度,是學(xué)評融合理念下評價活動量的表現(xiàn)。由于學(xué)評融合理念更注重學(xué)生的評價生成,因此在評價投入中將主要關(guān)注評價頻率。Chen和Tsai分析了同伴評價的頻率對作品質(zhì)量的促進(jìn)作用。結(jié)果顯示,在前兩輪的學(xué)習(xí)中評價頻率會影響學(xué)業(yè)成績,但在第二輪到第三輪中的影響不明顯。李艷燕等(2020)的研究發(fā)現(xiàn),小組成員發(fā)帖越多,成員之間的社交網(wǎng)絡(luò)越聯(lián)通,越對小組成績有重要影響。因此,較好的設(shè)計評價的頻次是學(xué)評融合理念下的評價需要關(guān)注的要素。
5. 評價效能感
評價效能感是指學(xué)生基于對自身評價能力的主觀評價而形成的一種自信感。是在評價活動中,學(xué)生相信自己給出的評語經(jīng)過了仔細(xì)思考、對他人很有用、有充分的依據(jù)、符合一定標(biāo)準(zhǔn)等。目前,關(guān)于評價效能感的研究較少,但與其相近的自我效能感和評價行為間的研究表明,自我效能感可能是影響學(xué)生評價行為的一個重要因素(Hsia, Huang, & Hwang, 2016)。Wang和Shu-Ling(Wang & Wu, 2008)等基于社會認(rèn)知理論的視角,在探索同伴評價以及自我效能感對網(wǎng)絡(luò)學(xué)習(xí)的影響時發(fā)現(xiàn),自我效能感作為影響自我調(diào)節(jié)學(xué)習(xí)的關(guān)鍵變量之一,與學(xué)生的評價行為、學(xué)習(xí)策略的使用均存在顯著的相關(guān)性。
(三)反思與改進(jìn)及其核心要素
學(xué)評融合質(zhì)量的提升要求及時性和迭代性的反思與改進(jìn)。不管是從評價還是從支持自我調(diào)節(jié)學(xué)習(xí)方面看,大多數(shù)研究的重點還很少聚焦反思階段(奧爾加·維伯格, 等, 2020),而學(xué)生利用評價行為表現(xiàn)信息在反思階段做出改進(jìn)也至關(guān)重要。在參與評價活動后,學(xué)生將發(fā)現(xiàn)很多相似或完全不一樣的作品,進(jìn)而明白有很多思考問題的角度和方式,由此拓展了思維的廣度,在此基礎(chǔ)上的反思和改進(jìn)將是又一次認(rèn)知升華,它需要學(xué)生有元認(rèn)知的加工。在該階段學(xué)生雖然知道會有其他的想法和觀點,但并不會完全參照、變成它們,而是會潛移默化地吸收某些優(yōu)點,進(jìn)而將自己的作品發(fā)揮出特色。也就是說,評價行為讓改進(jìn)更容易。
反思與改進(jìn)的核心要素可以從表征學(xué)生態(tài)度的評價采納要素、表征學(xué)生行為的反饋投入要素和表征學(xué)習(xí)過程的評價思維深度要素三個方面進(jìn)行歸納。
1. 評價采納
評價采納是判斷學(xué)生間互動有效性的一個重要環(huán)節(jié)(高瑛, 等, 2019)。學(xué)評融合理念的評價強(qiáng)調(diào)以人為中心和評價的增值性,因此,被評價者的評價采納行為是說明該評價高質(zhì)量進(jìn)行的重要標(biāo)志。同時,在評價和采納之間很有可能存在某種潛在中介對反思與改進(jìn)行為產(chǎn)生影響,從認(rèn)知、情感和行為三個角度出發(fā),與評語采納關(guān)系密切的分別是“理解”“同意”“處理方式”,但研究結(jié)果不一(Patchan, Schunn, & Correnti, 2016)?!袄斫狻笔侵敢环N認(rèn)知上了解或解釋意義及因由的能力?!巴狻笔侵盖楦猩蠈υu價信息或評價能提高改進(jìn)質(zhì)量的認(rèn)同?!疤幚矸绞健笔切袨樯蠈Υu價信息的及時性。因此,學(xué)生“理解”“同意”“處理方式”的程度和及時性應(yīng)在設(shè)計學(xué)評融合理念的評價活動時被考慮。
2. 反饋投入
反饋投入是學(xué)生在得到他人評價后,進(jìn)行反饋的時間投入和頻率。兩者都表征了學(xué)生在參與評價活動后進(jìn)行反思與改進(jìn)的廣度,是學(xué)評融合理念下評價活動質(zhì)量的保障,同時對促進(jìn)評價活動三個部分的螺旋上升具有重要作用。由于學(xué)評融合理念更注重學(xué)生的反饋生成,因此在反饋投入中將主要關(guān)注學(xué)生反饋的頻率。
3. 評價的思維深度
學(xué)評融合理念的評價關(guān)注學(xué)生高階思維能力的培養(yǎng),而培養(yǎng)效果的表征與評價的思維深度密切相關(guān),即學(xué)生在評價活動中的情感獲得、認(rèn)知激發(fā)和實踐改進(jìn)程度。情感獲得即學(xué)生在多大程度上覺得評價他人時很開心、很有成就感等。認(rèn)知激發(fā)即學(xué)生在多大程度上認(rèn)為評價拓展了自身視野、激發(fā)了靈感等。實踐改進(jìn)是學(xué)生對評價能夠讓自己更好地完成作品、看到不同解決辦法、更加了解評分標(biāo)準(zhǔn)的認(rèn)可程度。高階的評價思維深度是學(xué)評融合理念的發(fā)展目標(biāo),因此在設(shè)計評價活動時要充分考慮學(xué)生評價思維深度的發(fā)展?fàn)顩r。
四、小結(jié)
本文面向人工智能時代下的教育評價變革,提出了新的學(xué)評融合理念,并詳細(xì)闡述了學(xué)評融合理念的概念、內(nèi)涵與五大特征,提出了學(xué)評融合中評價的學(xué)習(xí)活動落地的實施框架和核心要素。當(dāng)然,學(xué)評融合的落地還需要更多的探索研究與實踐。
一是學(xué)評融合理念強(qiáng)調(diào)自下而上的評價改革,是針對一線實踐層面提升質(zhì)量而設(shè)計的一種新型評價體系。當(dāng)前我國的教育評價體系還處在不斷完善的階段,在國家、省級層面開展大規(guī)模的以診斷為核心的終結(jié)性評價有其必要性,但不能停留在知識技能掌握的導(dǎo)向上,要強(qiáng)調(diào)和關(guān)注對學(xué)生核心素養(yǎng)的評價,快速獲取學(xué)生發(fā)展的狀況、特點,并挖掘背后的成長規(guī)律。
二是學(xué)評融合理念的落地有利于實踐一線提升教育水平,提高教師的育人能力。建議更多研究者能夠聚焦評價的學(xué)習(xí)功能的研究,避免過度強(qiáng)調(diào)評價的診斷性,導(dǎo)致學(xué)生、家長、教師、學(xué)校的評價負(fù)擔(dān)不斷加重,但評價改進(jìn)卻原地踏步。研究人員可以更多地利用PISA數(shù)據(jù)、我國對外發(fā)布的質(zhì)量監(jiān)測數(shù)據(jù)以及已有的研究數(shù)據(jù),加強(qiáng)基于評價數(shù)據(jù)改進(jìn)的能力,提出可切實落地的實踐方法,助力我國基礎(chǔ)教育質(zhì)量的提升,助力學(xué)校育人方式的轉(zhuǎn)變。
三是期待更多的評價第三方聚焦利用數(shù)字世界科學(xué)診斷、科學(xué)提升學(xué)生的核心素養(yǎng),強(qiáng)化評價的學(xué)習(xí)性,建立有利于學(xué)生、教師發(fā)展的評價環(huán)境,尤其在加強(qiáng)過程性評價、探索增值性評價的背景下,科學(xué)推進(jìn)、科學(xué)實踐,不做應(yīng)試教育的助推器,而是探索開展有利于學(xué)生發(fā)展的評價活動,基于學(xué)習(xí)活動數(shù)據(jù),利用人工智能、大數(shù)據(jù)等優(yōu)勢研發(fā)科學(xué)的計算模型和個性化學(xué)習(xí)模型,開展大規(guī)模的質(zhì)量提升與科學(xué)診斷。
雖然學(xué)評融合理念能夠提升學(xué)生的高階思維能力,解決以評促學(xué)低質(zhì)、低效的問題,但在當(dāng)前教學(xué)實踐中仍可能存在諸多挑戰(zhàn):一是對學(xué)評融合理念的理解不夠,不能構(gòu)建基于學(xué)評融合理念的育人生態(tài);二是數(shù)字世界的建設(shè)不夠,很多地方由于多種原因還不具備常態(tài)化、大規(guī)模開展的條件,不少地區(qū)目前還處在物理世界育人的階段,欠缺對數(shù)字世界育人的規(guī)律和方法的認(rèn)識和運用,不具備基于數(shù)字世界常態(tài)化育人的條件和能力,學(xué)評融合的落地還有待于更多、大規(guī)模的研究和實踐。
Hsia, L., Huang, I., & Hwang, G. (2016). A web-based peer-assessment approach to improving junior high school studentsperformance, self-efficacy and motivation in performing arts courses. British Journal of Educational Technology, 47(4), 618-632.
Knight, P. (2002). Summative assessment in higher education: practices in disarray, Studies in Higher Education, 27(3), 275-286.
Lam, R. (2018). Understanding assessment as learning in writing classrooms: The case of portfolio assessment. Iranian Journal of Language Teaching Research, 6(3), 19-36.
Matsumura, L. C., Patthey-Chavez, G., Valdes, R., & Garnier, H. (2002). Teacher feedback, writing assignment quality, and third-grade studentsrevision in lower-and higher-achieving urban schools. The Elementary School Journal, 103(1), 3-25.
Muchlis, Ibnu, S., Subandi, & Marfuah, S. (2020). StudentsResult of Learning at Chemistry Department through Assessment of, for, and as Learning Implementation. International Journal of Instruction, 13(2), 165-178.
Nelson, M. M., & Schunn, C. D. (2009). The nature of feedback: How different types of peer feedback affect writing performance. Instructional Science, 37(4), 375-401.
OFarrell, C. (2009). Enhancing student learning through assessment. Dublin, UK: Institute of Technology.
Patchan, M. M., & Schunn, C. D. (2015). Understanding the benefits of providing peer feedback: How students respond to peerstexts of varying quality. Instructional Science, 43(5), 591-614.
Patchan, Melissa M, Schunn, Christian D, & Correnti, Richard J. (2016). The Nature of Feedback: How Peer Feedback Features Affect StudentsImplementation Rate and Quality of Revisions. Journal of Educational Psychology, 108(8), 1098-1120.
Ramsden, P. (2003). Learning to teaching in higher education (2nd ed.). London, UK: Routledge.
Rust, C., Price, M. & ODonovan, B. (2003). Improving studentslearning by developing their understanding of assessment criteria and processes, Assessment and Evaluation in Higher Education, 28(2), 147-164.
Taras, M. (2006). Do unto others or not: equity in feedback for undergraduates, Assessment and Evaluation in Higher Education, 31(3), 365-377.
Wang, Shu-Ling, & Wu, Pei-Yi. (2008). The role of feedback and self-efficacy on web-based learning: The social cognitive perspective. Computers and Education, 51(4), 1589-1598.
Wiliam, D. (2011). What is assessment for learning? Studies in Educational Evaluation, 37,3-14.
Yong Zhao. (1998). The Effects of Anonymity on Computer-Mediated Peer Review[J]. Internati-onal Journal of Educational Telecommunications, 4(4), 311-345.
Yorke, M. (2003). Formative assessment in higher education: moves towards theory and enhancement of pedagogic practice, Higher Education, 45, 477-501.
收稿日期:2020-11-22
定稿日期:2020-12-23
作者簡介:張生,博士,副教授,博士生導(dǎo)師;王雪,碩士研究生。北京師范大學(xué)中國基礎(chǔ)教育質(zhì)量監(jiān)測協(xié)同創(chuàng)新中心(100875)。
齊媛,博士,助理研究員,中國教育科學(xué)研究院(100088)。
責(zé)任編輯 劉 莉