魏寧:2020年,中共中央、國務院印發(fā)了《深化新時代教育評價改革總體方案》,明確指出“教育評價事關教育發(fā)展方向”,要求“系統(tǒng)推進教育評價改革,充分發(fā)揮教育評價的指揮棒作用,努力培養(yǎng)擔當民族復興大任的時代新人,培養(yǎng)德智體美勞全面發(fā)展的社會主義建設者和接班人”。在二十大報告中,也明確提出了“深化教育領域綜合改革,完善教育評價體系”的要求。
當前,在黨的二十大報告對新時代新征程教育事業(yè)作出的戰(zhàn)略謀劃下,我國教育領域正在全力奮進。張教授,您如何看待新時代教育評價的重要意義?
張生:近年來,教育評價在教育改革中的導向作用愈加凸顯,剛才你提到的《深化新時代教育評價改革總體方案》,對教育評價改革做出了頂層設計和具體部署,但改革的關鍵在于落實。特別是隨著以互聯網、大數據、人工智能為代表的現代信息技術的快速發(fā)展,評價手段更為豐富、多樣,為評價改革帶來了新的契機。當然,這也迫切需要我們加緊探索,對新時代的教育評價給出有力的回答。
魏寧:您提到了新技術發(fā)展對教育的沖擊,我想這對于教育評價來說既是機遇,也是挑戰(zhàn)?!渡罨聲r代教育評價改革總體方案》中就特別指出,“創(chuàng)新評價工具,利用人工智能、大數據等現代信息技術,探索開展學生各年級學習情況全過程縱向評價、德智體美勞全要素橫向評價。完善評價結果運用,綜合發(fā)揮導向、鑒定、診斷、調控和改進作用”。您如何看待人工智能時代的教育評價?
張生:人工智能時代的教育評價改革呼喚理念與實踐創(chuàng)新。實踐創(chuàng)新的根源在于理念創(chuàng)新,沒有先進的理念引領,實踐難免落入窠臼。21世紀以來,隨著心理與認知測量技術的發(fā)展,評價也從“為了結果的測量”轉向“為了診斷和改進”,“以學習為中心”的評價理念逐步成為共識。但受制于學習環(huán)境與技術條件,“以評促學”在教育實踐中仍然存在不少問題。
當前,教育已經進入人工智能時代,在物理世界與數字世界雙重發(fā)展的基礎上,深入研究教育評價的新理念、新方法和新技術并運用新模式,是促進教育評價改革的關鍵。
魏寧:在以往“以評促學”的實踐中,存在哪些問題?我們應當怎樣解決這些問題?
張生:首先,是評價與學習分離的問題。為了實現對學習過程與結果的精準判斷,評價就必須與學習保持高度的同步性。例如,在學習進入新的階段前,應盡快發(fā)現并改進上一階段存在的錯誤概念,以免影響后續(xù)的學習,這也是形成性評價出現的主要動因之一。但目前的評價更多是外在于學習過程的活動,這就導致評價給學生和教師帶來了額外的負擔,如過于頻繁的測試、學習過程中提交的文件和照片等記錄性數據。這些都是評價與學習分離帶來的問題。
其次,評價對學生認知的影響有限。這表現在:一方面,評價主要指向學習的行為與結果層面,評價指標中包含了大量的成績、獎狀、證書類的結果性指標;另一方面,仍有大量學習過程游離于評價之外,特別是一些涉及高階思維、開放性和主觀性強的問題。這些都讓當前的評價對學生認知的影響有限。
再次,學生尚未成為評價活動的主體。評價的目的是提供學習反饋,反饋只有被學生使用,并為其所吸收,才能起到改進學習的作用。在傳統(tǒng)評價中,學生只是被動地接受評價。隨著評價理念從關注結果轉向支持學習,學生的自評和互評才逐步進入教育工作者的視野。但總的來說,學生在評價中的參與度依然較低。
我們認為,解決上述問題的關鍵是讓學習和評價真正融合起來,樹立并踐行學評融合的理念。評價不僅是對目標是否實現的判定,更要通過評價中涉及的發(fā)現、檢驗、反思、評論、參與等過程直接促進學生高階思維的發(fā)展。學評融合超越了對知識技能的學習結果及學習過程的測量,指向了更深層次的支持學習的“元學習”,也就是“學會如何學習”。學評融合是對學習過程評價和學習結果評價的融合統(tǒng)一,通過將評估要素融入學習活動,不僅能真實地反映學業(yè)成就,優(yōu)化學生的學習,還能進一步助力學生未來的學習,促進終身學習能力的提升。
魏寧:您剛才提到了要讓學習與評價融合起來,對于學評融合這一理念,能否給出更詳細的解讀?它的概念和內涵是怎樣的呢?
張生:我們認為,學評融合是基于數字世界的教育。當前,數字文明信息極大豐富,人才培養(yǎng)目標不斷轉變,基于評價過程和結果運用提升個人、群體思維和數據決策等高階思維能力,是教育評價理念革新的關鍵。學評融合理念是統(tǒng)籌評價的學習性和診斷性為一體,強調以多種方式促進學生主動發(fā)展的一種評價新理念。它強調通過數字世界將評價融入到學生的學習活動過程中,鼓勵人人展示分享成果、人人參與系列評價活動,基于評價過程與評價數據不斷反思改進,促進學生自身核心素養(yǎng)的發(fā)展;通過數字世界記錄的學習過程數據和評價過程數據,建立各種模型來計算學生認知、社會性、心理等多方面素養(yǎng)的發(fā)展,再以可理解的方式呈現出來。
魏寧:相對于傳統(tǒng)的教育評價,學評融合有哪些鮮明的特征呢?
張生:學評融合的評價理念有別于傳統(tǒng)的評價理念,它至少在五個方面表現出鮮明特征:
一是強調評價的學習性和診斷性的融合。這是學評融合理念的首要特征,指先發(fā)揮評價的學習性功能,再基于學習過程數據進行數據建模評價,這不同于傳統(tǒng)意義上先診斷再改進的評價理念。它的評價流程更簡捷,更能指向學生核心素養(yǎng)的發(fā)展。它強調依托數字世界,將評價中的各核心要素融入到學習活動中,以學生為主體,鼓勵人人參與展示、人人參與對他人的評價,讓每一位學生都能在評價活動中提升自己的核心素養(yǎng),通過評價反饋改進學習。
二是強調評價過程是一種高階思維的學習活動。學評融合強調學生在原有認知展示基礎上,在閱讀他人作品、評價并提出改進意見的過程中,思維再次得到升華,思維的深度與廣度得以發(fā)展。這個過程既是總結他人優(yōu)勢與不足、加深對同伴認識的“知彼”過程,又是通過對他人作品進行評價,逐步認識事物的多面性,進而改進自己作品的“知己”過程,通過“知己知彼”的評價活動,發(fā)展核心素養(yǎng),提升思維境界。
三是強調基于學習過程的診斷評價。學評融合通過物聯網技術、大數據挖掘技術和智能決策與可視化技術,建立學生的認知發(fā)展、學業(yè)發(fā)展、社會性發(fā)展等不同方面的計算模型,以及一系列決策預警分析模型,并基于不同地域和群體特征構建不同的學習者特征模型,可以實現動態(tài)診斷、決策反饋。不僅能夠呈現學生當前的發(fā)展狀況,還能對未來的發(fā)展狀況進行模擬推演,從而提早采取措施調整教育教學。
四是強調對數字世界的運用。學評融合一定是基于數字世界開展的評價,只有這樣才能充分發(fā)揮數字世界展示、分享、交流、評價、自動計算、智能決策和可視化的優(yōu)點。在人工智能時代,數字世界的時空泛在、物理世界的時空拓展,讓人人展示、同伴評價、個人反思與改進可以常態(tài)化地開展,學評融合的高階思維特點可以得到常態(tài)化的訓練和發(fā)展。此外,數字世界能夠大規(guī)模、常態(tài)化、個性化地進行數據分析,不僅能為個人提供有針對性的學習過程報告,提出有針對性的建議,助力個性化學習,還能支持科學管理與決策,及早發(fā)現區(qū)域性、群體性問題,進而大幅度、大規(guī)模提升教育教學質量。
五是強調保持學生的好奇心。這是學評融合最關鍵的特征,評價的目的是讓學生體驗自身的進步和成功,保持與生俱來的好奇心。在傳統(tǒng)評價理念下,評價與學習分離,整個評價過程完全由教師主導,學生則是被動地接受評價,這扼殺了學生的好奇心。而在學評融合理念下,人人都能展示自己的優(yōu)點和不同,也可以發(fā)現他人的優(yōu)點和不同,進而對事物保有充分的好奇,營造出積極向上的育人氛圍。
魏寧:在踐行學評融合這一新的評價理念的過程中,新技術無疑將發(fā)揮重要的作用,可以說,學評融合的落地有賴于全新的數字化環(huán)境,您如何看待技術對學評融合的常態(tài)化、可持續(xù)開展的推動作用?
張生:新技術對學評融合理念的落實有著重要的推動作用,這主要表現在三個方面:
第一,技術可以有力推動學評融合的日?;?。學評融合中關鍵的自評與互評環(huán)節(jié),就有賴于信息技術對物理學習空間的時空拓展。將評價活動內置于學習平臺中,一方面讓評價成為師生的“規(guī)定動作”,使其養(yǎng)成評價的習慣,另一方面支持了教師和學生的多樣化選擇,為師生的日常應用創(chuàng)造了更好的條件。此外,學生還可以隨時隨地在平臺上對自己或他人的學習情況進行回顧總結、評價反思,如在學習平臺上撰寫學習日記,針對不同學科的不同知識點或內容進行自我評價,以文字形式評價自己是否達到了階段性的學習目標,分析自己在學習中付出的努力,對當前的學習結果進行歸因并提出下一步改進策略,等等。同學之間也可以隨時進行交流與互評。
第二,技術可以有力提升學評融合的認知品質。通過信息技術對時間和空間的延展,學生有機會從大量的同伴表現中汲取可借鑒之處,拓展自己的思路,加深對主題內容的理解,這為學生創(chuàng)造了多元的評價機會,成為提升認知品質的重要手段。此外,在運用評價標準和對評價標準的內化過程中,學生的評估素養(yǎng)和學習能力將同步得到提升。通過為教師提供的將評價標準內嵌于平臺的功能,要求學生在評價過程中必須明確自己的評價依據了哪一條標準。還可以通過設置評語最少字數、監(jiān)測評語內容與評價標準相關性等方式,減少隨意評價,讓評價過程及內容緊緊聚焦學生認知與元認知的發(fā)展。
第三,技術可以有力增強學評融合的參與性。圍繞核心素養(yǎng)的學評融合,本質上是一種高階思維的學習活動。同伴互評產生的質疑、爭辯、論證等交互行為,不僅能促進學生的反思,而且能激發(fā)群體互動的氛圍,使學生深度參與到學習和評價活動中來。因此,網絡學習平臺必須具備允許被評價者依據反饋對評價者做出回應和質疑的功能。因為,能夠引發(fā)被評價者回應與討論的評語往往是高質量的評語,支持對評語的再評價或反饋,是對提升評語質量的一種鼓勵,是對發(fā)展學生高階思維能力的促進,要鼓勵學生給出切實、中肯、有針對性的評語。還可以創(chuàng)造更豐富、更具選擇性的技術環(huán)境,如讓學生自主選擇評價對象或選擇自己被哪些人評價,從而建立起學生對評價活動的積極預期,增加對學習及評價任務的認知和情感投入。
魏寧:通過您的描述,我們了解了學評融合理念下的教育評價的基本樣貌,這種以數字世界的運用為基礎的新型評價理念,在教學過程中是如何開展的呢?
張生:學評融合在實踐中的運用,重點強調評價的學習功能和診斷功能。在實際操作中,評價作為一種高級思維的學習活動,包括生成與展示、參與評價活動、反思與改進三個核心階段。
其中,學生思維的生成與作品的展示是學評融合理念落地的基礎,它強調教師要利用數字世界重構育人環(huán)境,優(yōu)化學與教的方式,強調學生從消費為主轉變?yōu)樯蔀橹?,從而形成為了生成而消費的新型教與學方式。在學生生成的基礎上開展人人展示,展示可以在物理世界中進行,但我們更強調的是讓常態(tài)化展示和分享發(fā)生在數字世界中。
以人為核心開展自評或他評的學習活動是學評融合理念落地的關鍵,我們倡導跨學科的教研方式,核心就是評價一定要以人為出發(fā)點。不論自評還是他評,都是學生在主動參與評價,通過多種方式的評價,促使學生不再停留在原有的簡單認知上,進而萌發(fā)出對事物更深層次的理解。
及時性和迭代性的反思與改進是學評融合質量的提升要求。不論是從評價還是從支持自我調節(jié)學習方面看,目前大多數的研究還未能聚焦反思階段,而學生利用評價行為表現信息在反思階段做出改進是至關重要的。在參與評價活動后,學生將發(fā)現很多相似或完全不一樣的作品,從而拓展思考問題的角度和方式,以此為基礎的反思和改進將是認知水平的又一次提升。
魏寧:通過您的介紹,我們看到了學評融合在物理世界與數字世界中相互交融的美好場景。要想開展這樣一種基于高階思維能力的、核心素養(yǎng)導向的評價,新技術和新方法是必不可少的。其實,在目前的教育評價中,也有不少的技術工具用來支持評價活動的開展,您覺得這些工具存在怎樣的不足?
張生:以同伴互評這一常見的評價環(huán)節(jié)為例,相關的支持工具可以說非常之多,如PeerGrade是一款支持作業(yè)互評的工具,Peerceptiv是一款支持“寫作”的文本互評工具,PeerWise是一款支持“出題”活動的工具。
像這樣的支持互評的工具還有很多,Luxton-Reilly就曾經系統(tǒng)梳理了18種同伴互評工具,它們大都支持評價標準的設置,以及評分和評語兩種評價方式,在一定程度上促進了同伴互評的開展。但它們普遍缺乏對評價者與被評價者之間交流討論的支持,難以通過交流討論進行迭代反饋。總的來說,這些互評工具主要是站在評價的診斷性角度設計的,還不能滿足我們提倡的學評融合下的個性化需求。
魏寧:在學評融合環(huán)境中,可以通過什么方法、工具克服這一缺陷呢?
張生:要想讓學評融合這一新理念變?yōu)楝F實,離不開數字世界中全新的評價環(huán)境的創(chuàng)設。在目前的教育評價環(huán)境下,更多的是以診斷性評價為主,這不利于開展廣泛、深入的評價交互,學生的主動性、個性化需求都難以體現。因此,以個性化、項目化、數據化、極簡化為原則,創(chuàng)新性地設計各種評價工具和環(huán)境,對學評融合的高質量開展具有重要意義。
《義務教育課程方案(2022年版)》中將更新評價觀念、創(chuàng)新評價方式方法作為深化教學與評價改革的重要側面,提倡開展作品展示、口頭報告等評價活動,關注提高自我評價、總結、反思和改進等能力的功能。在學評融合的環(huán)境設計中,我們以主題論壇為載體,設計包括評價卡、實時反饋等工具在內的評價環(huán)境,用來促進學生高階思維和核心素養(yǎng)的發(fā)展。
具體來說,是借助主題論壇實施評價,主題論壇支持點贊、評分、評語等多種評價方式,以及文本、圖片、音頻、視頻等技術手段,可以滿足學生的個性化評價需求。在主題論壇中,師生可以自主選擇同步、異步兩種交互形式,在交互中建構知識、發(fā)展能力。同時,學生在論壇各個環(huán)節(jié)的發(fā)布、回復、評論、反饋等內容都將累積形成數據庫,用于多種特征的診斷,為教師改進教學、學生自我反思提供依據。
在進行評價時,我們?yōu)閷W生提供在線的評價卡。當學生出題時,它就是一塊“答題板”,支持出題、做題兩種活動形式;當進行他評時,它就是一塊“評分板”,支持標準設置、自主選擇。在評價活動中,評價卡產生的過程數據可以挖掘學生的領域能力、評價能力、評價偏好與習慣等,作為教師改進和學生評價的依據。
實時反饋工具也是實現學評融合的關鍵,它重在實時性和可視化,可以促進學生對作品與評價的及時理解和改進。一方面,技術環(huán)境在展示、互評、反饋等各環(huán)節(jié)無需時間間隔,使學生能夠實時改進學習;另一方面,實時反饋工具可以通過“分布”功能,以圖表的形式展示評分、作答數據分布,通過“排行”功能,以排行榜的形式展示評價參與情況排行,這些方式都以可視化的形式直觀呈現復雜數據,促進師生的理解和改進。
實時反饋還有助于學生在群體中構建個體經驗,調節(jié)評價過程??梢暬軌驇椭鷮W生在評價中了解自己,也了解他人,做“知己知彼”的評價,明晰自己在一個群體中所處的位置。
魏寧:學評融合理念下的個性化評價的具體應用流程是怎樣的呢?
張生:學評融合理念下的個性化評價,一定要以常態(tài)化應用為目標。依托上述的主題論壇、各類實時反饋工具,由師生共同完成評價活動,實現評價的學習性和診斷性功能,促進學生高階思維和核心素養(yǎng)的發(fā)展。下面我為大家描述一下它的應用流程。
首先設計評價項目,教師在主題論壇上使用評價主題、評價卡創(chuàng)設與學習目標相關的任務情境和活動計劃。例如,培養(yǎng)學生的識記能力,教師圍繞這一內容出好題目,提供評價標準,學生依據標準對比自身評分、教師評分和群體評分的差異。
在評價任務發(fā)布后,師生需要應用評價卡分組完成評價。學生可以選擇文本、圖片、音頻、視頻、測試題等形式展示自己的作品,并通過點贊、評分、評論、評價卡答題等方式開展評價。學生還可以通過設置分組的名稱、類型和優(yōu)先級,選擇期望參與評價的主體,篩選評價對象,滿足自己的個性化需求。
在整個評價過程中,學生可以通過實時反饋工具的各種功能查看評價與被評價數據的情況,查看不同選項和得分分布,查看群體參與情況排名,接收到被評論的提示信息,在群體中展開深層次的交互反饋,通過協(xié)商調整作品和評價。教師可以通過實時反饋工具查看特定群體的作答情況和評分分布,了解學生間的差異,借助回復、評論等功能為學生提供指導,保障活動按計劃進行。
魏寧:我們看到,學評融合下的個性化評價的應用流程在評價活動的設計上和技術應用的方式上都是非常豐富的。那么,在日常教學中,它又有哪些典型的應用場景呢?
張生:其實,學評融合下的個性化評價可以和日常教學的多種場景融合,既可以作為獨立的項目式課程,也可以作為一般課堂中的一個評價環(huán)節(jié),還能作為課后的項目式作業(yè)。不管哪種應用場景,它都需要經歷“生成與展示”“參與評價活動”以及“反思與改進”三個核心階段,但是每個階段的持續(xù)時間、復雜程度需要根據具體情況靈活調整。
例如,在獨立的項目式課程中,要把提高學生的評價能力作為課程的重要目標,教師需要創(chuàng)設多樣化的評價情境,讓學生廣泛、深入地參與到評價標準制訂、作品展示與評價、評價結果解讀等活動中,每個活動都要經歷生成、展示、評價、協(xié)商、反思、改進的過程。
在一般課堂中的評價環(huán)節(jié),由于時間有限,需要教師結合具體教學內容,分析評價需求,重點圍繞當前教學設置評價項目。如果教學目標指向知識記憶,只需讓學生回答相應題目,再查看答題結果分布;如果教學目標指向知識的深度理解和高階思維能力,則需要讓學生出題、答題并評價題目;如果教學目標指向人際溝通能力與作品理解能力,則需要開展“評他”活動,即讓學生對他人觀點予以評分或評論。
魏寧:在人工智能時代,多種技術工具的介入、多樣化評價方式的設計,使得學生能夠以更加多元化的方式展開評價,大大豐富了傳統(tǒng)意義上的評價方法、手段、路徑,為學生的評價提供了更多的選擇。在這種背景下,學生更喜歡怎樣的評價方式?在評價的選擇上,有沒有一定的偏好?通過您的研究數據,能否為我們揭示一些這方面的“規(guī)律”呢?
張生:隨著人工智能時代的到來,學生的評價方式也在不斷發(fā)展、創(chuàng)新,各種新型的評價方式不斷涌現。在學評融合過程中,學生可以自由選擇評價方式,我們通過對大量的學生評價數據的調研與分析,對學生在評價方式選擇上的偏好以及不同選擇帶來的影響進行了一些初步研究,下面和大家分享一下我們的研究結論。
在評價方式的選擇上,我們通過大量調研發(fā)現,經常采用評分方式的學生略多于采用評語的學生,在采用評語的學生中,大約有五分之四的學生選擇文字方式,只有約五分之一的學生選擇音頻或視頻方式。
在不同性別學生的選擇傾向上,男生更多地選擇評分方式,而女生更青睞于評語的方式。在評語方式中,不論男生還是女生,選擇文字方式的比例都遠遠高于選擇音頻或視頻方式的比例。
從學段上看,隨著學段的升高,選擇評語方式的學生不斷增多。具體來看,各個學段中學生選擇文字方式的比例都遠高于選擇音頻或視頻方式的比例。
透過這些評價方式選擇的數據表面,我們還對不同評價方式選擇對學生評價反思能力的影響進行了進一步的研究。通過研究,我們認為,首先,傾向選擇評語方式的學生的評價反思能力更強。相對于評分方式,評語方式要求學生在評價活動中更充分地閱讀與比較,發(fā)現他人作品的優(yōu)勢,更深刻地反思自己的作品。與此同時,寫評語的過程本身就需要學生投入更多的時間與情感,這能讓學生更好地理解評價的意義,深化對評價過程的價值認同。當然,這也不意味著評分方式就全無價值,對于評分這一方式,可以通過設置多維度的評價標準、給出每個等級得分的具體表現性描述等方法,讓評分的價值得以更充分的發(fā)揮。
其次,上面的調查數據告訴我們,在評語方式中,選擇文字方式的學生遠高于選擇音頻或視頻方式的學生,這是由平臺技術的限制、學生相關經驗較少、音視頻表達方式仍較為淺顯等多種原因造成的。其實,音頻或視頻的評價方式包含的信息量更多,思維交互的層次更深,具有獨特的優(yōu)勢。如何充分發(fā)揮音視頻評價方式的這些優(yōu)勢,讓更多的學生嘗試這些新型的評價手段,是今后有待進一步加強的地方。
總的來說,在人工智能時代,評價方式的多樣化進一步促進了學習與評價的融合。在學評融合理念下,評價的技術手段包括文本、音頻、視頻、直播視頻等,評價方式則有評分、星級評價、點贊、評語、價值判斷、答題板等。這些不同的手段、方式,結合學生的特點,經過合理的設計,必將發(fā)揮出評價的優(yōu)勢,提升學生的思維層次,促進學習與評價的融合。
魏寧:這些基于真實評價數據的調查與分析,我想在某種意義上,是有趣的,更是有價值的,對于在數字化環(huán)境下開展教育評價的教師而言,有著重要的啟發(fā)。感謝您為我們分享這些寶貴的研究結論。最后,關于人工智能時代的教育評價,您還有怎樣的期許?
張生:在人工智能時代,我們每個人都生活在兩個世界里,在物理世界之外,數字世界里同樣有一個我和你。新型的育人環(huán)境一定是物理世界與數字世界共存的,新時代下新的教育評價體系也一定要打通兩個世界,以提升學生高階思維與核心素養(yǎng)為目標,促進學生的全面發(fā)展,為國家培養(yǎng)更多的有用之才。
魏寧:感謝您的分享,讓我們共同期待人工智能時代的新型教育評價體系能成為教育改革與發(fā)展的助推器,為培育未來人才發(fā)揮出更大的作用。