国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

隱形性評(píng)價(jià):數(shù)字化時(shí)代的新型評(píng)價(jià)法

2024-08-06 00:00:00鐘志敏
基礎(chǔ)教育參考 2024年7期

摘 要:隨著信息技術(shù)的發(fā)展,將評(píng)價(jià)活動(dòng)嵌入到教學(xué)活動(dòng)中成為可能。隱形性評(píng)價(jià)是一種不引人注目的、基于證據(jù)的評(píng)價(jià)方法,具有即時(shí)性、動(dòng)態(tài)性和隱身性等特點(diǎn),包括基于證據(jù)的評(píng)價(jià)設(shè)計(jì)和能有效促進(jìn)學(xué)習(xí)的形成性評(píng)價(jià)與反饋兩大核心要素,是隨著時(shí)代快速變化的要求、學(xué)校變革的需求和學(xué)習(xí)評(píng)價(jià)理論的發(fā)展而形成的。其設(shè)計(jì)需遵從基于證據(jù)的設(shè)計(jì)理論的設(shè)計(jì)框架,同時(shí)利用貝葉斯網(wǎng)絡(luò)工具,兩者缺一不可。本文以美國(guó)泰加林公園游戲軟件為例,詮釋了其設(shè)計(jì)與實(shí)施的完整過(guò)程,并在此基礎(chǔ)上分析了可能面臨的挑戰(zhàn)以及對(duì)教師的要求,以期為廣大教育評(píng)價(jià)工作者和一線教師提供借鑒和參考。

關(guān)鍵詞:教學(xué)評(píng)價(jià);形成性評(píng)價(jià);隱形性評(píng)價(jià);數(shù)字教學(xué);基于證據(jù)的設(shè)計(jì);貝葉斯網(wǎng)絡(luò)

中圖分類號(hào):G51 文獻(xiàn)標(biāo)識(shí)碼:A DOI:10.3969/j.issn.1672-1128.2024.07.004

進(jìn)入21世紀(jì),日新月異的科學(xué)技術(shù)為人類的工作和學(xué)習(xí)帶來(lái)了巨大便利。在教育領(lǐng)域,新的測(cè)評(píng)技術(shù)為科學(xué)客觀評(píng)價(jià)學(xué)習(xí)者的潛在特質(zhì)提供了幫助和支持。但與此同時(shí)也應(yīng)該看到,雖然技術(shù)進(jìn)步為評(píng)價(jià)的科學(xué)性和客觀性提供了保證,但是終結(jié)性評(píng)價(jià)“反映被測(cè)學(xué)生過(guò)去的積累,而不是全部能力,也無(wú)益于學(xué)生在學(xué)習(xí)上的自我完善與能力提升,反而會(huì)引起更大的考試焦慮,扭曲學(xué)習(xí)動(dòng)機(jī),并形成強(qiáng)烈的‘應(yīng)試’學(xué)習(xí)模式”[1]。因此,學(xué)者開(kāi)始關(guān)注和開(kāi)發(fā)新的評(píng)價(jià)方式:形成性評(píng)價(jià)。正如克拉克[2]所形容的那樣:“如果將孩子視為植物,對(duì)植物的終結(jié)性評(píng)價(jià)就是簡(jiǎn)單地測(cè)量它們的過(guò)程,比較和分析這些測(cè)量值可能很有趣,但是它們本身并不影響植物的生長(zhǎng)。形成性評(píng)價(jià)相當(dāng)于在花園里給植物澆水,這將直接影響植物的生長(zhǎng)”。從教的角度看,形成性評(píng)價(jià)可以為教師提供有關(guān)學(xué)生學(xué)習(xí)方式的證據(jù),以便教師有針對(duì)性地修改教學(xué)內(nèi)容;從學(xué)的角度看,形成性評(píng)價(jià)鼓勵(lì)學(xué)生將注意力集中在任務(wù)上,而不是簡(jiǎn)單地獲取正確答案。因此,形成性評(píng)價(jià)對(duì)教與學(xué)的幫助是顯而易見(jiàn)的。

雖然形成性評(píng)價(jià)應(yīng)用廣泛,但在實(shí)施過(guò)程中常常面臨無(wú)法精準(zhǔn)評(píng)價(jià)學(xué)生能力的問(wèn)題。近年來(lái),教育與心理測(cè)量的新發(fā)展開(kāi)始能夠幫助評(píng)價(jià)者精準(zhǔn)評(píng)價(jià)學(xué)生的能力,新技術(shù)使得在學(xué)習(xí)過(guò)程中實(shí)施形成性評(píng)估成為可能,即可以從學(xué)習(xí)者那里獲得持續(xù)的、多角度的信息,并且給出即時(shí)有效的反饋。這種評(píng)價(jià)以一種“靜悄悄”的形態(tài)被無(wú)縫嵌入到學(xué)習(xí)環(huán)境的結(jié)構(gòu)中,以至于學(xué)習(xí)者幾乎看不見(jiàn)。鑒于此,這種評(píng)價(jià)方式被稱之為隱形性評(píng)價(jià)。隱形性評(píng)價(jià)使用了新的評(píng)價(jià)技術(shù),即自動(dòng)評(píng)分技術(shù)和基于機(jī)器的推理技術(shù),這些技術(shù)可以做到人類推斷達(dá)不到的程度,例如在整個(gè)技能網(wǎng)絡(luò)中估算基于證據(jù)的能力價(jià)值[3]。

目前關(guān)于隱形性評(píng)價(jià)的研究還處于起步階段,人們對(duì)隱形性評(píng)價(jià)的理解還比較模糊,對(duì)其本質(zhì)也鮮有論述,特別是對(duì)“什么是隱形性評(píng)價(jià)”“隱形性評(píng)價(jià)是怎樣發(fā)生的”“如何設(shè)計(jì)隱形性評(píng)價(jià)”等基本問(wèn)題研究不夠深入。鑒于此,有必要對(duì)上述問(wèn)題進(jìn)行深入的研究和分析。本文結(jié)合國(guó)外已有研究成果和實(shí)踐案例,試圖對(duì)隱形性評(píng)價(jià)的內(nèi)涵進(jìn)行剖析,對(duì)其形成、設(shè)計(jì)邏輯和過(guò)程進(jìn)行闡釋,并通過(guò)一個(gè)實(shí)踐案例進(jìn)行更直觀的說(shuō)明。

一、隱形性評(píng)價(jià)的內(nèi)涵與形成背景

(一)隱形性評(píng)價(jià)的含義

1.何為“評(píng)價(jià)”

美國(guó)著名學(xué)者霍普金斯(Hopkins)在《教育和心理的測(cè)量與評(píng)價(jià)》一書中指出,評(píng)價(jià)是依據(jù)評(píng)價(jià)者自身背景及其所受訓(xùn)練,對(duì)觀察做出有價(jià)值的判斷和決策的過(guò)程[4]。由此可見(jiàn),評(píng)價(jià)是一個(gè)價(jià)值判斷和決策的過(guò)程,受評(píng)價(jià)者主觀因素影響。做出價(jià)值判斷和決策的依據(jù)是教學(xué)目標(biāo),即教學(xué)目標(biāo)描述了學(xué)習(xí)者要達(dá)到的學(xué)習(xí)結(jié)果,評(píng)價(jià)所做的就是對(duì)比現(xiàn)實(shí)和預(yù)期結(jié)果,并給出對(duì)比的結(jié)論。建構(gòu)主義者認(rèn)為,評(píng)價(jià)是一種通過(guò)“協(xié)商”而形成的心理建構(gòu),因此,被評(píng)價(jià)者也是評(píng)價(jià)的參與者和評(píng)價(jià)的主體,評(píng)價(jià)受多元主義價(jià)值觀支配[5]。從這個(gè)層面來(lái)說(shuō),評(píng)價(jià)是一種向?qū)W習(xí)者提供即時(shí)反饋信息的活動(dòng),也是一個(gè)動(dòng)態(tài)建構(gòu)的過(guò)程[6]。

2.何為“隱形性評(píng)價(jià)”

隱形性評(píng)價(jià)是一種不引人注目的、基于證據(jù)的評(píng)價(jià)方法[7]。通常學(xué)生深度沉浸在學(xué)習(xí)環(huán)境中并完成交互式任務(wù),在視頻游戲或其他基于計(jì)算機(jī)的教學(xué)系統(tǒng)中,通過(guò)自動(dòng)評(píng)分和智能推理技術(shù),推斷出學(xué)習(xí)內(nèi)容是否太難或太耗時(shí)。這和形成性評(píng)價(jià)的宗旨一樣,旨在促進(jìn)學(xué)習(xí)者對(duì)重要內(nèi)容的學(xué)習(xí)與核心能力的提升,所以必須在學(xué)習(xí)者學(xué)習(xí)或者玩游戲的過(guò)程中持續(xù)自動(dòng)捕捉其學(xué)習(xí)數(shù)據(jù),以便準(zhǔn)確推導(dǎo)出學(xué)習(xí)者的知識(shí)和能力水平,并把這些推論儲(chǔ)存在學(xué)習(xí)者的動(dòng)態(tài)模型中[8]。隱形性評(píng)價(jià)旨在保證學(xué)習(xí)者在學(xué)習(xí)時(shí)能保持最佳狀態(tài)而不被評(píng)價(jià)活動(dòng)干擾,即在學(xué)習(xí)過(guò)程中深度沉浸,甚至自我意識(shí)消失,失去時(shí)間感知,類似于很多游戲愛(ài)好者沉迷于游戲的狀態(tài)[9]。有學(xué)者指出,在復(fù)雜的目標(biāo)導(dǎo)向活動(dòng)中,獲得外部獎(jiǎng)勵(lì)不是目的,而僅僅是為了使工作振奮人心[10]。隱形性評(píng)估能夠大幅減少測(cè)試焦慮,同時(shí)保證評(píng)價(jià)的有效性和可靠性,最終模糊評(píng)價(jià)與學(xué)習(xí)之間的區(qū)別,換句話說(shuō)就是,評(píng)價(jià)即學(xué)習(xí)[11]。

隱形性評(píng)價(jià)包含兩個(gè)核心要素:一是基于證據(jù)的設(shè)計(jì)(Evidence-Centered Design);二是形成性評(píng)價(jià)與反饋[12]。基于證據(jù)的設(shè)計(jì)是一套有條理的概念設(shè)計(jì)框架,能科學(xué)系統(tǒng)地建立學(xué)習(xí)者和學(xué)習(xí)證據(jù)之間的聯(lián)系。它的適用場(chǎng)合較廣,從教室小規(guī)模測(cè)驗(yàn)到大規(guī)模基于模擬的評(píng)價(jià)都可以使用。這個(gè)概念框架包括學(xué)習(xí)者模型、證據(jù)模型、任務(wù)模型等諸多模型,這些模型通過(guò)共同作用來(lái)回答各種具體問(wèn)題,比如“應(yīng)該測(cè)量哪些潛在特質(zhì)”“如何打分”等[13]。隱形性評(píng)價(jià)是形成性評(píng)價(jià)的深入和發(fā)展,所以其核心要素必然包含形成性評(píng)價(jià)與反饋方面的內(nèi)容,而且應(yīng)有更高要求,以達(dá)到更好的效果。隱形性評(píng)價(jià)向?qū)W習(xí)者提供量身定制的形成性評(píng)價(jià)與反饋內(nèi)容,從而為教學(xué)決策提供了依據(jù)。學(xué)習(xí)者信息(包括認(rèn)知信息和非認(rèn)知信息)則儲(chǔ)存在學(xué)習(xí)者模型中并持續(xù)更新,以提供更廣泛和更豐富的學(xué)習(xí)證據(jù)資料。

(二)隱形性評(píng)價(jià)的形成背景

1.快速變化的時(shí)代要求

當(dāng)今世界正面臨越來(lái)越復(fù)雜的需要人類共同解決的嚴(yán)重問(wèn)題,比如全球變暖、雨林的破壞、抗藥性微生物泛濫、核擴(kuò)散等。當(dāng)面對(duì)如此復(fù)雜的問(wèn)題時(shí),需要學(xué)習(xí)者具備創(chuàng)造力、批判性思維、協(xié)作和系統(tǒng)性思維等關(guān)鍵能力[14]。但在一個(gè)簡(jiǎn)單的知識(shí)測(cè)驗(yàn)中,學(xué)生多項(xiàng)選擇的反應(yīng)并不足以說(shuō)明其在真實(shí)世界中的能力。因此,重新設(shè)計(jì)評(píng)價(jià)方法,確定與21世紀(jì)技能相關(guān)的新評(píng)價(jià)標(biāo)準(zhǔn),進(jìn)而建立學(xué)生關(guān)鍵能力和證據(jù)之間的聯(lián)系,成為評(píng)價(jià)和促進(jìn)學(xué)生發(fā)展的重要途徑。

2.學(xué)校變革的需求

當(dāng)前,學(xué)生的娛樂(lè)活動(dòng)與學(xué)校要求他們做的事情之間存在巨大的橫溝。強(qiáng)制性的學(xué)?;顒?dòng)與學(xué)生自由選擇活動(dòng)間的不匹配,引起了人們對(duì)學(xué)校教育質(zhì)量的擔(dān)憂。學(xué)校提供被認(rèn)為“重要”的材料,學(xué)生卻沒(méi)有學(xué)習(xí)材料的動(dòng)機(jī),但在娛樂(lè)活動(dòng)中(例如游戲、訪問(wèn)社交網(wǎng)絡(luò)),學(xué)生的動(dòng)機(jī)往往被高度激發(fā)。如果將學(xué)生的娛樂(lè)活動(dòng)和學(xué)習(xí)結(jié)合到一起,學(xué)生的專心程度與學(xué)業(yè)成績(jī)將大幅度提升。因此,將學(xué)校提供的學(xué)習(xí)材料嵌入類似游戲的環(huán)境中具有極大的激勵(lì)學(xué)生的潛力,尤其針對(duì)學(xué)習(xí)動(dòng)機(jī)不強(qiáng)的學(xué)生,影響可能更加明顯。

3.學(xué)習(xí)評(píng)價(jià)理論的發(fā)展

隱形性評(píng)價(jià)研究的主要假設(shè)是:邊做邊學(xué)以改善學(xué)習(xí)過(guò)程和結(jié)果;在游戲過(guò)程中可以衡量和驗(yàn)證學(xué)習(xí)者的不同屬性;通過(guò)加強(qiáng)學(xué)習(xí)者的優(yōu)勢(shì),改進(jìn)學(xué)習(xí)者的劣勢(shì),促進(jìn)學(xué)習(xí);形成性評(píng)價(jià)的反饋可用于進(jìn)一步支持學(xué)生學(xué)習(xí)[15]。在評(píng)估過(guò)程中,隱形性評(píng)價(jià)能夠收集學(xué)習(xí)者過(guò)程數(shù)據(jù),比如鼠標(biāo)點(diǎn)擊次數(shù)、反應(yīng)時(shí)間,但如何在大量數(shù)據(jù)中識(shí)別并驗(yàn)證數(shù)據(jù)指標(biāo)與所測(cè)學(xué)習(xí)者的特質(zhì)之間的因果關(guān)系仍然是個(gè)難題。新的評(píng)價(jià)理論強(qiáng)調(diào)基于證據(jù)的設(shè)計(jì),包括證據(jù)的誘發(fā)、捕獲、解釋、總結(jié)和報(bào)告等,評(píng)價(jià)邏輯是基于證據(jù)的論證過(guò)程,包含了從證據(jù)到推斷的論據(jù)鏈。因此,無(wú)關(guān)數(shù)據(jù)將首先被剔除,只保留學(xué)習(xí)證據(jù)。教師只需要建立證據(jù)與學(xué)習(xí)者潛在特質(zhì)之間的關(guān)系即可完成評(píng)價(jià)過(guò)程,這將極大地增加評(píng)價(jià)的效度,彌補(bǔ)當(dāng)前形成性評(píng)價(jià)的不足。

二、隱形性評(píng)價(jià)的設(shè)計(jì)邏輯

將評(píng)價(jià)納入游戲中具有明顯的優(yōu)勢(shì)[16]。在游戲中,學(xué)習(xí)者可以很自然地利用協(xié)作、批判性思維、問(wèn)題解決等能力去完成復(fù)雜任務(wù),從而產(chǎn)生豐富的動(dòng)作序列。因此,評(píng)價(jià)技能所需的證據(jù)亦是由學(xué)生與游戲本身的互動(dòng)即游戲過(guò)程提供的。利用這種證據(jù)流來(lái)評(píng)估學(xué)習(xí)者的知識(shí)、技能以及情感態(tài)度價(jià)值觀等特質(zhì),是傳統(tǒng)測(cè)量模型難以做到的。首先,在傳統(tǒng)測(cè)試中,每個(gè)問(wèn)題的答案都被視為獨(dú)立的數(shù)據(jù)點(diǎn)。其次,在傳統(tǒng)測(cè)試中,問(wèn)題的設(shè)計(jì)通常指向某一特定的知識(shí)或技能。正確回答該問(wèn)題的證據(jù)是學(xué)習(xí)者知道某個(gè)事實(shí),一個(gè)問(wèn)題對(duì)應(yīng)一個(gè)事實(shí)。然而,通過(guò)分析學(xué)習(xí)者對(duì)所有問(wèn)題的回答,這僅僅能評(píng)估部分而不是全部。而在游戲一系列互動(dòng)中的每個(gè)動(dòng)作通常都相互依賴[17]。例如,某位學(xué)習(xí)者在某一時(shí)刻的格斗動(dòng)作會(huì)影響其后續(xù)動(dòng)作。但在實(shí)際評(píng)價(jià)過(guò)程中,通常需要依據(jù)來(lái)自游戲或模擬中學(xué)習(xí)者互動(dòng)的證據(jù)來(lái)評(píng)估整個(gè)能力群,因此分析行為序列以推斷這些能力的方法并不那么明顯。而基于證據(jù)的推斷方法將學(xué)習(xí)者游戲數(shù)據(jù)和需要評(píng)估的潛在特質(zhì)聯(lián)系起來(lái),從而能夠準(zhǔn)確推斷出學(xué)習(xí)者相應(yīng)的能力。而從證據(jù)到相應(yīng)能力的鏈接則需要用到貝葉斯網(wǎng)絡(luò)這一建模工具來(lái)實(shí)現(xiàn)。

(一)基于證據(jù)的設(shè)計(jì)方法

基于證據(jù)的設(shè)計(jì)的基本思想來(lái)自于梅西克(Messick),然后由米斯雷弗(Mislevy)及其同事形式化[18]。其基本原理是,評(píng)價(jià)過(guò)程首先從明確應(yīng)評(píng)價(jià)的能力、技能等潛在特質(zhì)變量開(kāi)始。這些變量無(wú)法直接觀察到,因此只能從學(xué)習(xí)者外顯的行為表現(xiàn)來(lái)推斷。其次是確定能夠引出學(xué)習(xí)者外顯行為的任務(wù)類型。最后是收集在完成這些任務(wù)中產(chǎn)生的證據(jù),并以適合評(píng)價(jià)目的的術(shù)語(yǔ)對(duì)這些證據(jù)進(jìn)行原則性解釋[19]。由此,證據(jù)與潛在特質(zhì)變量建立了聯(lián)系。

基于證據(jù)的設(shè)計(jì)框架包括三個(gè)模型。一是能力模型。能力模型明確了哪些知識(shí)和技能需要被評(píng)價(jià),也被稱為構(gòu)念。能力模型中的變量通常稱為節(jié)點(diǎn),描述了推論所基于的知識(shí)和技能。需要說(shuō)明的是,“學(xué)生模型”一詞用于表示能力模型的學(xué)生實(shí)體化版本(如成績(jī)單),僅用于更精確的粒度。二是證據(jù)模型。證據(jù)模型明確了哪些行為能夠揭示這些構(gòu)念。證據(jù)模型表示學(xué)習(xí)者與問(wèn)題的互動(dòng)和對(duì)問(wèn)題的反應(yīng)如何構(gòu)成有關(guān)能力模型變量的證據(jù)。證據(jù)模型試圖回答兩個(gè)問(wèn)題:哪些行為揭示了目標(biāo)能力?這些行為與能力模型變量之間的統(tǒng)計(jì)關(guān)系是什么?三是任務(wù)模型。任務(wù)模型明確了哪些任務(wù)能夠引出構(gòu)成證據(jù)的行為。典型評(píng)價(jià)設(shè)計(jì)中使用的任務(wù)模型變量描述了用于引起學(xué)習(xí)績(jī)效的任務(wù)特征。任務(wù)模型提供了一個(gè)框架,用于描述和構(gòu)建與學(xué)生互動(dòng)的情況,以提供關(guān)于能力相關(guān)知識(shí)方面的定向證據(jù)。任務(wù)模型確定了學(xué)習(xí)者將被要求完成何種任務(wù),以及允許的響應(yīng)方式、可用格式類型等。

在評(píng)價(jià)中,任務(wù)是最為顯著的組成部分,其主要目標(biāo)是尋找可觀察的證據(jù)以推斷不可見(jiàn)的能力。對(duì)于游戲中的隱形性評(píng)價(jià),學(xué)習(xí)者在完成任務(wù)的過(guò)程中將產(chǎn)生一系列的動(dòng)作,動(dòng)作序列構(gòu)成了得出證據(jù)和推論的基礎(chǔ)。在嵌入隱性評(píng)價(jià)的游戲中,學(xué)生模型會(huì)逐漸積累并表達(dá)對(duì)技能目標(biāo)方面的預(yù)期,這些預(yù)期以能力模型變量的概率分布形式呈現(xiàn)[20]。證據(jù)模型能夠提供關(guān)于學(xué)生所說(shuō)或所做事情的證據(jù),以反映相關(guān)技能[21]。任務(wù)模型表示能夠激活所需證據(jù)的情境,而貝葉斯網(wǎng)絡(luò)一直是各種能力和證據(jù)建模方法中廣泛使用的有效工具。

(二)貝葉斯網(wǎng)絡(luò)

貝葉斯網(wǎng)絡(luò),也被稱為信念網(wǎng)絡(luò)或有向無(wú)環(huán)圖模型,是一種用于表達(dá)變量間概率關(guān)系的圖形模型[22]。它由節(jié)點(diǎn)和有向邊組成,節(jié)點(diǎn)表示隨機(jī)變量,有向邊則表示變量間的概率依賴關(guān)系。在貝葉斯網(wǎng)絡(luò)中,每個(gè)節(jié)點(diǎn)都與一個(gè)概率表相關(guān)聯(lián),該概率表描述了在給定其母節(jié)點(diǎn)的情況下該節(jié)點(diǎn)的條件概率。因此貝葉斯網(wǎng)絡(luò)可以有效地表示和計(jì)算聯(lián)合概率分布。它的基本原理是通過(guò)激活和觀察特定案例或情境的證據(jù),利用內(nèi)部概率分布來(lái)控制網(wǎng)絡(luò)行為,并通過(guò)信息傳播來(lái)支持“假設(shè)”場(chǎng)景。它有兩種用途,一是應(yīng)用于能力模型中,通過(guò)表征學(xué)習(xí)者關(guān)鍵能力之間的關(guān)系,并建立動(dòng)態(tài)模型圖,以應(yīng)對(duì)不斷變化的學(xué)生能力[23];二是其所產(chǎn)生的概率信息可用于指導(dǎo)決策,例如,在學(xué)習(xí)者當(dāng)前狀態(tài)下選擇最佳內(nèi)容以提供教學(xué)支持,并隨后進(jìn)行交付[24]。

三、隱形性評(píng)價(jià)的實(shí)踐案例分析

隱形性評(píng)價(jià)在國(guó)外已經(jīng)開(kāi)始應(yīng)用且形成了一些有代表性的實(shí)踐案例。本研究選擇比較成熟的生態(tài)學(xué)和科學(xué)探究案例加以說(shuō)明。

(一)游戲背景及任務(wù)

以泰加林公園(Taiga Park)游戲?yàn)槔M(jìn)行分析[25]。Taiga Park是一款身臨其境的3D角色扮演數(shù)字教育游戲,由美國(guó)印第安納大學(xué)研究人員開(kāi)發(fā),在印第安納州的中學(xué)應(yīng)用廣泛,主要評(píng)價(jià)中學(xué)生生態(tài)學(xué)和科學(xué)探究方面的知識(shí)和技能,如系統(tǒng)思維等。Taiga Park游戲的設(shè)定背景為虛擬的公園中生活著幾類人,包括公園護(hù)林員、農(nóng)民、木材公司、實(shí)驗(yàn)室技術(shù)人員,有一條河流,即Taiga河貫穿其中,人們就生活在河流的附近。盡管他們來(lái)自于不同的種族,但是為了生計(jì)而不得不在一起生活,這代表了世界是一個(gè)由多個(gè)層次組成的“系統(tǒng)”。Taiga河中出現(xiàn)了魚類持續(xù)死亡的現(xiàn)象,這嚴(yán)重危及了附近人的生存。游戲中的NPC(non-player character,非玩家角色)巴特爾寫了一封介紹任務(wù)背景的信,信中包含了學(xué)習(xí)者要完成的任務(wù),比如沿著河流在各個(gè)地方收集水樣、在不同的地點(diǎn)和時(shí)間拍攝河流的照片。學(xué)習(xí)者需要拜訪實(shí)驗(yàn)室技術(shù)人員等學(xué)識(shí)淵博的人,從而學(xué)會(huì)相關(guān)的生態(tài)學(xué)基礎(chǔ)知識(shí),比如不同魚類需要的氧氣含量、什么因素會(huì)影響水中的氧氣含量等。在提示下學(xué)生點(diǎn)擊不同模塊建立因果圖,最終完成調(diào)查任務(wù)。

(二)評(píng)價(jià)邏輯及過(guò)程

該游戲主要考查和培養(yǎng)學(xué)習(xí)者的系統(tǒng)思維。案例背景是復(fù)雜而真實(shí)的,現(xiàn)實(shí)生活中河流的水質(zhì)及其含氧量的變化涉及多方面原因,魚類的死亡是一個(gè)生態(tài)學(xué)問(wèn)題,這個(gè)問(wèn)題是非良構(gòu)的,需要考慮各方面的因素,如氣候、溫度、食物鏈、人為污染等。而要解決這個(gè)問(wèn)題,需要學(xué)習(xí)者依靠多方面的力量去調(diào)查。因此學(xué)習(xí)者需要從底層系統(tǒng)及其子系統(tǒng)的角度來(lái)考慮[26]。在如此復(fù)雜的情況下需要學(xué)習(xí)者具備系統(tǒng)思維[27]。

“系統(tǒng)思維”中的節(jié)點(diǎn)根據(jù)條件概率在統(tǒng)計(jì)上彼此連接,并且在網(wǎng)絡(luò)中包含不同的級(jí)別(如圖1)。例如,母節(jié)點(diǎn)“系統(tǒng)模型”代表了對(duì)學(xué)習(xí)者一般系統(tǒng)思維能力的估計(jì),并給出了當(dāng)時(shí)收集的所有證據(jù)。低級(jí)節(jié)點(diǎn)“收集信息”通過(guò)證據(jù)模型和從游戲中獲得的數(shù)據(jù)建立關(guān)聯(lián)。這些指標(biāo)最后會(huì)連接到貝葉斯網(wǎng)絡(luò)里。在Taiga Park的世界中,其中一個(gè)任務(wù)要求學(xué)生沿河的各個(gè)地點(diǎn)收集水樣并拍攝河流yuIuC7kdD+SZqSEReOdf41QSD7A76aJ+f//3zbchPwY=的照片,任務(wù)要求高準(zhǔn)確性和高效率。學(xué)生在“收集信息”節(jié)點(diǎn)完成數(shù)據(jù)的收集任務(wù)。收集到的信息插入貝葉斯網(wǎng)絡(luò)后,會(huì)在整個(gè)網(wǎng)絡(luò)中傳遞給所有其他節(jié)點(diǎn),其估計(jì)值隨后會(huì)更新。需要說(shuō)明的是,這個(gè)任務(wù)與“解決河流中魚類種群死亡”這一總體問(wèn)題有關(guān),生態(tài)學(xué)與科學(xué)探究發(fā)生在不同的任務(wù)中,所有這些任務(wù)旨在促使學(xué)習(xí)者認(rèn)真思考復(fù)雜生態(tài)系統(tǒng)要素之間的相互關(guān)聯(lián)以及要素之間的動(dòng)態(tài)關(guān)系。此外,根據(jù)學(xué)習(xí)者在兩個(gè)時(shí)間點(diǎn)的系統(tǒng)思維能力來(lái)建模:初始任務(wù)(時(shí)間點(diǎn)1)和最終任務(wù)(時(shí)間點(diǎn)2)。學(xué)習(xí)者的系統(tǒng)思維能力會(huì)隨著時(shí)間的推移在數(shù)量和質(zhì)量上發(fā)生變化。例如,將在時(shí)間1和時(shí)間2創(chuàng)建的克拉克因果循環(huán)圖(描述當(dāng)前對(duì)導(dǎo)致魚類種群死亡原因的解釋)與專家圖進(jìn)行比較。通過(guò)自動(dòng)標(biāo)注圖標(biāo),然后將標(biāo)準(zhǔn)化地圖覆蓋到專家圖上,從而進(jìn)行比較。用于比較的工具是一個(gè)基于Excel的軟件應(yīng)用程序,名為jMap。該工具旨在實(shí)現(xiàn)以下目標(biāo):一是引出記錄,并自動(dòng)編寫思維模式;二是可視化并定量評(píng)估心理模型隨時(shí)間的變化;三是確定收斂于專家水平的程度。通過(guò)克拉克因果循環(huán)圖和專家圖進(jìn)行對(duì)比而獲得的信息將被輸入到與該節(jié)點(diǎn)有關(guān)的貝葉斯網(wǎng)絡(luò),并為學(xué)習(xí)者提供形成性反饋。例如,考慮到學(xué)習(xí)者早期在地圖中明顯的遺漏錯(cuò)誤,該系統(tǒng)將提供以下反饋:“工作不錯(cuò),但您忘了以下事實(shí):沉積物會(huì)增加水溫,從而降低水中氧的含量。這就是魚快要死了的原因——它們沒(méi)有足夠的氧氣?!?/p>

四、隱形性評(píng)價(jià)未來(lái)的挑戰(zhàn)

隱形性評(píng)價(jià)結(jié)合基于證據(jù)的設(shè)計(jì)以及貝葉斯網(wǎng)絡(luò),不僅為分析學(xué)生的能力狀態(tài)提供了有效證據(jù)和反饋,而且可以減少教師的工作量,從而有助于教師將精力集中放在如何促進(jìn)學(xué)生學(xué)習(xí)上。但隱形性評(píng)價(jià)也存在以下幾方面的未來(lái)挑戰(zhàn)。一是開(kāi)發(fā)能力模型的粒度級(jí)別必須是適當(dāng)?shù)摹A6忍笠馕吨鵁o(wú)法確定學(xué)生能力的具體證據(jù),而粒度太細(xì)意味著較高的復(fù)雜度和資源負(fù)荷。二是當(dāng)學(xué)生協(xié)作完成任務(wù)時(shí),在游戲環(huán)境中開(kāi)發(fā)證據(jù)模型可能會(huì)非常困難。例如,當(dāng)結(jié)果綜合起來(lái)時(shí),教師如何跟蹤每個(gè)學(xué)生的行為和他們的想法?三是即使為教師提供了全面的評(píng)分標(biāo)準(zhǔn),對(duì)定性作品(如論文、在線討論)的評(píng)分仍然具有很高的主觀性。因此,需要一個(gè)詳細(xì)且有力的編碼方案,該編碼方案應(yīng)考慮到作品內(nèi)容中語(yǔ)義的細(xì)微差別,即語(yǔ)義背景和情境。四是對(duì)于任務(wù)模型,問(wèn)題仍然在于如何分配任務(wù)。任務(wù)應(yīng)該有特定的動(dòng)作序列,限制學(xué)生漫無(wú)目的地探索或者走另類途徑,從而保證收集到更可靠的數(shù)據(jù)。因此,當(dāng)設(shè)計(jì)者在游戲中進(jìn)行評(píng)估時(shí),需要在學(xué)生探索和結(jié)構(gòu)化數(shù)據(jù)收集之間找到平衡。

同時(shí),隱形性評(píng)價(jià)的應(yīng)用也對(duì)教師提出了更高的要求。一是需要改變傳統(tǒng)的評(píng)價(jià)觀念。評(píng)價(jià)不再只是簡(jiǎn)單打分,而是為了促進(jìn)學(xué)生能力的發(fā)展。在以教育為目的而設(shè)計(jì)的游戲中,教師可以在系統(tǒng)中通過(guò)基于Web的工具包查看學(xué)生的進(jìn)度。這樣教師就可以收到所有學(xué)生提交的內(nèi)容并對(duì)其進(jìn)行評(píng)分。教師應(yīng)該花大量時(shí)間來(lái)評(píng)估學(xué)生的能力模型,以信息為基礎(chǔ)提供形成性的反饋意見(jiàn)[28],而不是為論文和圖表打分。例如,如果有證據(jù)顯示能力模型在任務(wù)期間存在水平較低的情況,教師應(yīng)該將其轉(zhuǎn)變?yōu)榭山虒W(xué)時(shí)間,或者選擇能力模型水平較低的學(xué)生與水平較高的學(xué)生一起完成任務(wù)。二是需要調(diào)整評(píng)價(jià)習(xí)慣。評(píng)價(jià)過(guò)程應(yīng)該全程對(duì)學(xué)生透明公開(kāi)。如前所述,基于貝葉斯網(wǎng)絡(luò)處理的評(píng)估信息,可以將學(xué)生的最新能力評(píng)估值集成到游戲中,并顯示為進(jìn)度指示器。學(xué)生可以查看其能力如何變化。大多數(shù)游戲已經(jīng)包含狀態(tài)欄,里面會(huì)顯示學(xué)生當(dāng)前能力變量的級(jí)別。教師應(yīng)該添加諸如合作問(wèn)題解決和系統(tǒng)思維技能之類的高級(jí)能力到狀態(tài)欄里,并顯示這些高級(jí)技能的屬性。學(xué)生通過(guò)狀態(tài)欄可以查看較低級(jí)別變量的當(dāng)前狀態(tài),如果狀態(tài)欄顯示某一能力值較低,學(xué)生需要采取行動(dòng)以增加其數(shù)值。允許學(xué)生查看他們的狀態(tài)及其背后的證據(jù),能幫助學(xué)生更加了解個(gè)人屬性,進(jìn)而可以增強(qiáng)他們的元認(rèn)知能力[29]。

參考文獻(xiàn):

[1]朱穎,褚慧玲.測(cè)評(píng)也是學(xué)習(xí)——“2019考試評(píng)價(jià)國(guó)際研討會(huì)”會(huì)議綜述[J].教育測(cè)量與評(píng)價(jià),2020(02):27-33.

[2]CLARKE A. The recent landscape of teacher education: Critical points and possible conjectures[J]. Teaching and teacher education, 2001, 17(5): 599-611.

[3]龔鑫,許潔,喬愛(ài)玲.基于沉浸式學(xué)習(xí)環(huán)境的隱形性評(píng)估:機(jī)理、框架與應(yīng)用[J].電化教育研究,2023,44(12):64-72.

[4]HOPKINS K D. Educational and psychological measurement and evaluation[M]. Needham Heights: Allyn & Bacon, 1998.

[5]RAHM T, OBERLEHBERG N, MAYER A. Teaching happiness to students-implementation and evaluation of a program aiming at promoting wellbeing in elementary schools[J]. Frontiers in psychology, 2024, 15: 1289876.

[6]WOLFER T A, JOHNSON M M. Re-evaluating student evaluation of teaching: The teaching evaluation form[J]. Journal of Social Work Education, 2003, 39(1): 111-121.

[7]KE F, SHUTE V. Serious games analytics: Methodologies for performance measurement, assessment, and improvement[M]. Tallahassee: Florida State University, 2015.

[8]SHUTE V J. Focus on formative feedback[J]. Review of educational research, 2008, 78(1): 153-189.

[9]SMITH G, SHUTE V, MUENZENBERGER A. Designing and validating a stealth assessment for calculus competencies[J]. Journal of Applied Testing Technology, 2019:52-59.

[10]MOORE G R, SHUTE V J. Handbook on digital learninfV3Yado4955DCe/KCnCktcMs0Dledm2Vw10PStXGoKA=g for K-12 schools[M]. Tallahassee: Florida State University, 2015.

[11]ALMOND R G, KIM Y J, VELASQUEZ G, SHUTE V J. How task features impact evidence from assessments embedded in simulations and games[J]. Measurement: Interdisciplinary Research & Perspectives, 2014,12(1-2): 1-33.

[12]SHUTE V J, ZAPATA-RIVERA D. Understanding models for learning and instruction: Essays in honor of Norbertm See[M].New York: Springer, 2008.

[13]MISLEVY R J, ALMOND R G, LUKAS J F. A brief introduction to evidence‐centered design[J]. ETS Research Report Series, 2003(1): i-29.

[14]GRZYBOWSKA K, LUPICKA A. Key competencies for Industry 4.0[J]. Economics & Management Innovations, 2017,1(1): 250-253.

[15]SHUTE V J. Stealth assessment in computer-based games to support learning[J]. Computer games and instruction, 2011, 55(2): 503-524.

[16]ZIEKY M J. An introduction to the use of evidence-centered design in test development[J]. Psicología educativa, 2014, 20(2): 79-87.

[17]BROWN J S. Pedagogical, natural language, and knowledge engineering techniques in SOPHIE-I, II and III[C]. In Intelligent tutoring systems, Academic Press, 1982:227-282.

[18]MISLEVY R J, HAERTEL G, RICONSCENTE M, RUTSTEIN D W, ZIKER C. Assessing model-based reasoning using evidence-centered design: a suite of research-based design patterns[M]. New York: Springer, 2017.

[19]MISLEVY R J, HAERTEL G D. Implications of evidence‐centered design for educational testing[J]. Educational measurement: issues and practice,2006, 25(4): 6-20.

[20]ALMOND R G. Using evidence centered design to think about assessments[J]. Innovative assessment for the 21st century: Supporting educational needs, 2010: 75-100.

[21]HAO J, MISLEVY R J. The evidence trace file: A data structure for virtual performance assessments informed by data analytics and evidence-centered design[J]. ETS Research Report Series, 2018(1): 1-16.

[22]MISLEVY R J, LEVY R. Bayesian psychometric modeling from an evidence-centered design perspective[J]. Handbook of statistics, 2006,26: 839-865.

[23]袁建林,劉紅云.核心素養(yǎng)測(cè)量:理論依據(jù)與實(shí)踐指向[J].教育研究,2017,38(07):21-28+36.

[24]何克抗.關(guān)于形成性評(píng)估與隱形性評(píng)估——美國(guó)《教育傳播與技術(shù)研究手冊(cè)(第四版)》讓我們深受啟發(fā)的亮點(diǎn)之三[J].中國(guó)電化教育,2017(06):24-29+79.

[25]SHUTE V J. Stealth assessment in computer-based games to support learning[J]. Computer games and instruction, 2011, 55(2): 503-524.

[26]RICHMOND B. Systems thinking: Critical thinking skills for the 1990s and beyond[J]. System dynamics review, 1993, 9(2): 113-133.

[27]ARNDT H. Enhancing system thinking in education using system dynamics[J]. Simulation, 2006, 82(11): 795-806.

[28]SHUTE V J. Focus on formative feedback[J]. Review of educational research, 2008, 78(1): 153-189.

[29]SHUTE V J, RAHIMI S. Stealth assessment of creativity in a physics video game[J]. Computers in Human Behavior, 2021, 116: 106647.

Stealth Assessment: A New Assessment Method in the Digital Age

ZHONG Zhimin

(Zhungeer Banner No.1 Middle School, Ordos, 010400 Inner Mongolia)

Abstract: The rapid advancement of information technology has made it feasible to integrate assessment activities seamlessly into teaching practices. The concept of Stealth assessment, characterized by its immediacy, dynamism, and subtlety, represents an evidence-based assessment approach. It primarily involves two components: an evidence-based assessment design and formative assessment with feedback. Both components are crucial for facilitating effective learning. This approach responds to the rapid societal changes, ongoing demands for educational reform, and the principles of learning assessment theory. According to the Evidence-Centered Design theory, the design of Stealth assessment should also incorporate Bayesian network tools to ensure robustness and accuracy. This paper uses Taiga Park in the United States as a case study to explore the comprehensive design process and implementation of this assessment method. It discusses potential challenges and offers practical guidance for educators on how to navigate these issues, aiming to provide valuable insights for education evaluators and frontline teachers.

Keywords: Educational assessment; Formative assessment; Stealth assessment; Digital teaching; ECD; Bayesian network

(編輯 姚力寧 校對(duì) 郭向和)

作者簡(jiǎn)介:鐘志敏,內(nèi)蒙古準(zhǔn)格爾旗第一中學(xué)(內(nèi)蒙古鄂爾多斯,010400)

基金項(xiàng)目:2023年度內(nèi)蒙古自治區(qū)教育科學(xué)規(guī)劃課題“內(nèi)蒙古農(nóng)村普通高中多樣化發(fā)展研究”(編號(hào):2023NGHGZ342)

金乡县| 鄂托克旗| 社旗县| 封丘县| 伊金霍洛旗| 高阳县| 来宾市| 霞浦县| 鲁甸县| 汽车| 文登市| 大关县| 湾仔区| 中西区| 福鼎市| 泉州市| 怀宁县| 宜兴市| 镇江市| 大城县| 元阳县| 蕉岭县| 广丰县| 黑龙江省| 林西县| 布尔津县| 璧山县| 四子王旗| 开江县| 宁都县| 宜宾县| 遵化市| 扶余县| 正阳县| 谢通门县| 涡阳县| 扶风县| 板桥市| 安顺市| 当阳市| 依安县|