孔維梁 于曉利 韓淑云 鄧敏杰
摘要:同伴互評是培養(yǎng)高階思維、提升學(xué)習(xí)績效的重要學(xué)習(xí)策略。然而在教學(xué)實踐中,同伴互評存在嚴重的低信任問題,即學(xué)習(xí)者對同伴的評價存在質(zhì)疑或漠視,整體接受度不高。究其緣由,學(xué)習(xí)者的認知差異性是導(dǎo)致低信任問題的關(guān)鍵誘因:客觀上,學(xué)習(xí)者的認知差異性導(dǎo)致同伴評價的不一致現(xiàn)象;主觀上,學(xué)習(xí)者面對評價不一致現(xiàn)象時會產(chǎn)生確認偏誤。人工智能賦能的可信同伴互評模型,使用可信系數(shù)標明評價的有效性,引導(dǎo)學(xué)習(xí)者建立正確的認同與信任,可以降低學(xué)習(xí)者的確認偏誤。該模型的智能化實現(xiàn)過程分為4個階段:評價及可信系數(shù)的表征、評分關(guān)系加權(quán)圖構(gòu)建、基于加權(quán)隨機游走算法的同伴間認知水平關(guān)系挖掘、可信系數(shù)計算及評價反饋?;谠撃P偷慕虒W(xué)實踐表明:其能夠依據(jù)評價者與被評者的相對認知水平為評價計算合理的可信系數(shù);有助于提高學(xué)習(xí)者對同伴評價的接受度,在感知有用性、行為意愿2個維度上顯著優(yōu)于傳統(tǒng)同伴互評模型;對學(xué)習(xí)者批判性思維傾向的培養(yǎng)具有顯著的正向影響,在分析性、系統(tǒng)性、求知欲和思想開放性4個子維度上均有顯著提升。
關(guān)鍵詞:人工智能;同伴互評;認知差異;低信任度;可信系數(shù)
中圖分類號:G434? ?文獻標識碼:A? ? 文章編號:1009-5195(2023)03-0093-10? doi10.3969/j.issn.1009-5195.2023.03.011
基金項目:河南省哲學(xué)社會科學(xué)規(guī)劃項目“數(shù)據(jù)驅(qū)動的在線協(xié)同知識建構(gòu)干預(yù)策略研究”(2021BJY021);河南省高等學(xué)校重點科研項目“自我調(diào)節(jié)學(xué)習(xí)視角下在線學(xué)習(xí)支持服務(wù)研究”(21A880009)。
作者簡介:孔維梁,博士,講師,碩士生導(dǎo)師,河南師范大學(xué)教育學(xué)部(河南新鄉(xiāng) 453007);于曉利,碩士研究生,河南師范大學(xué)教育學(xué)部(河南新鄉(xiāng) 453007);韓淑云,博士研究生,華中師范大學(xué)人工智能教育學(xué)部(湖北武漢 430079);鄧敏杰,博士,副教授,碩士生導(dǎo)師,河南師范大學(xué)教育學(xué)部(河南新鄉(xiāng) 453007)。
一、引言
適時、適度的評價能為教學(xué)提供重要的導(dǎo)向,也對學(xué)習(xí)者認識自我、激發(fā)動機起著良好的促進作用(黃濤等,2021)。同伴互評作為一種新興評價方式,通過組織學(xué)習(xí)者對同伴或其作品進行評價,為學(xué)習(xí)者觀點的交互創(chuàng)新、知識的遷移應(yīng)用創(chuàng)造了良好的環(huán)境(張紅英等,2019;Gamage et al.,2021)。同伴互評是實現(xiàn)“以學(xué)習(xí)者為中心”的有效教學(xué)策略,在培養(yǎng)高階思維能力(鐘啟泉,2020;Lin et al.,2021)、提高知識建構(gòu)水平(許瑋等,2022)和激發(fā)學(xué)習(xí)動機(Rico-Juan et al.,2019)等方面均有顯著效果。
雖然同伴互評具有諸多優(yōu)勢,但其在教學(xué)實踐中仍面臨嚴重的低信任度問題,即學(xué)習(xí)者對同伴的評價存在質(zhì)疑或漠視,整體接受程度不高(Luo et al.,2014)。信任度是影響同伴互評成功與否的核心因素。低信任度容易將潛在的積極學(xué)習(xí)體驗轉(zhuǎn)化為消極學(xué)習(xí)體驗,降低學(xué)習(xí)者參與同伴互評的意愿,從而阻礙同伴互評有效性的發(fā)揮(Pond et al.,1997;Admiraal? et al.,2014)。目前,由學(xué)習(xí)者的認知差異性導(dǎo)致的低信任度問題仍普遍存在,依然是教育教學(xué)中亟待解決的關(guān)鍵問題。
本文聚焦由學(xué)習(xí)者的認知差異性導(dǎo)致的低信任度問題,引入人工智能技術(shù)(Artificial Intelligence,AI)構(gòu)建可信同伴互評模型,使用可信系數(shù)標明評價的有效性,幫助學(xué)習(xí)者建立更合理的注意與認同,以提升對同伴互評的接受程度。此外,本研究還將對上述模型進行實踐驗證,從學(xué)習(xí)者的同伴互評接受度水平和批判性思維傾向兩個方面對模型的有效性進行檢驗。
二、相關(guān)研究綜述
1.同伴互評促進學(xué)生的發(fā)展
同伴互評也被稱為同伴反饋或互動評價,指學(xué)習(xí)者在相同的學(xué)習(xí)環(huán)境中,對該環(huán)境中的其他學(xué)習(xí)者或其作品進行的等級評分或者評論,是學(xué)習(xí)者互相評價的過程(Zundert et al.,2010)。在同伴互評中,學(xué)習(xí)者同時扮演評價者和被評價者的雙重角色。一方面,作為評價者,學(xué)習(xí)者在已有知識和經(jīng)驗基礎(chǔ)上,經(jīng)過內(nèi)化、遷移等認知加工過程,對相同環(huán)境中同伴或其作品進行評價;另一方面,作為被評價者,學(xué)習(xí)者在同伴的評論或提問下,將隱藏的思維過程外化,清晰地觀察到自己的推理和分析過程,能更好調(diào)動元認知參與和自我調(diào)節(jié)(畢景剛等,2020;Chien et al.,2020)。
研究表明,同伴互評在激發(fā)動機和提高學(xué)習(xí)績效方面具有良好的效果。Rotsaert等(2018)指出同伴互評可以作為形成性評價,能有效改善教學(xué)中的薄弱環(huán)節(jié),有助于提高學(xué)習(xí)者的學(xué)習(xí)成績。Heyman等(2011)認為同伴互評是以學(xué)生為中心的教學(xué)策略,能夠給予學(xué)生主人翁意識,對激發(fā)學(xué)習(xí)動機、促進學(xué)習(xí)參與度具有良好的效果。白清玉等(2016)基于活動理論對同伴互評的成效進行了研究,發(fā)現(xiàn)互評活動對學(xué)生的成績有顯著的積極影響。此外,黃國禎等(Hwang et al.,2014)通過教育游戲應(yīng)用證實了同伴互評可以有效提高學(xué)習(xí)者的學(xué)習(xí)成績和學(xué)習(xí)動機。
同時,同伴互評也是培養(yǎng)學(xué)習(xí)者高階思維發(fā)展的有效策略之一。高階思維是產(chǎn)生在較高層次上的心智活動或認知能力,主要包括問題解決能力、批判性思維(傾向和能力)、決策力以及評價能力等(潘星竹等,2019)。Yastibas等(2015)指出在同伴互評過程中,不同觀點的碰撞能夠強化學(xué)習(xí)者的反思和邏輯推理意識,促進認知結(jié)構(gòu)不斷重組,推動學(xué)習(xí)者問題解決能力的發(fā)展。汪瓊等(2019)對MOOC課程中同伴互評數(shù)據(jù)進行深入分析后發(fā)現(xiàn),即使在無干預(yù)的狀態(tài)下,大部分學(xué)習(xí)者的推理、綜合、解釋等批判性思維能力都有一定程度的提升。Li等(2019)指出相較于教師評價,處于同等地位的同伴之間進行的互評能夠削弱評價者的權(quán)威地位,減輕被評價者的心理壓力,有利于促進評價雙方進行深入辯論,對學(xué)習(xí)者的求知欲、自信心等批判性思維傾向有積極影響。張生等(2021)認為評他能力是學(xué)評融合新理念的核心內(nèi)容之一,同伴互評是培養(yǎng)學(xué)習(xí)者辨別好壞的過程,能有效提升學(xué)習(xí)者的評他能力。
2.同伴互評面臨的低信任困境
理論與實踐證明,同伴互評可以促進學(xué)習(xí)者的知識建構(gòu)和高階思維培養(yǎng)。然而,在實際教學(xué)應(yīng)用中,學(xué)習(xí)者對同伴的評價往往持質(zhì)疑或不信任態(tài)度,同伴互評面臨嚴峻的低信任困境(吳遐等,2020)。
為明晰觸發(fā)低信任的誘因,學(xué)者們從不同的視角開展歸因探究。柏宏權(quán)(2018)發(fā)現(xiàn)友誼和情感沖突等人際關(guān)系會影響學(xué)習(xí)者對評價公平性的感知,而對公平性的負面感知會降低評價質(zhì)量,增加同伴對互評的不信任度。李紅霞等(2020)指出評價不一致現(xiàn)象是引起低信任問題的關(guān)鍵誘因之一,其中,評價標準的不統(tǒng)一會降低對評價者的約束力,增加互評的隨意性,造成不同評價者對相同被評者的評價不同甚至是完全相反,即評價不一致現(xiàn)象。李菲茗等(2018)也證實了評價不一致現(xiàn)象是低信任問題的重要根源,同時指出評價者認知水平的差異性是造成同伴評價不一致現(xiàn)象的主要原因之一。
在歸因研究的基礎(chǔ)上,學(xué)者們設(shè)計了相應(yīng)的模型與方案以解決同伴互評的低信任問題。為解決人際關(guān)系滲入造成的低信任問題,學(xué)者們提出匿名評價模型,使評價者能夠更自由地表達自身意見,提供更坦率和更具有針對性的反饋,而被評價者也可以更多地關(guān)注評價內(nèi)容,而不是評價者的身份(Van Gennip et al.,2010;Chang et al.,2011)。然而,Yu等(2016)指出,匿名評價會促使學(xué)習(xí)者的自我意識減弱和對自我社會行為管制的放松,降低社會責(zé)任感,導(dǎo)致評價隨意性的增加。為解決隨意性以及評價標準不統(tǒng)一造成的低信任問題,梁云真(2018)在匿名的基礎(chǔ)上提出基于量規(guī)的同伴互評模型,認為評價量規(guī)能夠為評價者的評價活動提供支架輔助,能有效規(guī)范評價者行為,幫助評價者明確評價要求,減少評價的不一致性和主觀隨意性。
綜觀上述研究,學(xué)習(xí)者人際關(guān)系的滲入、評價標準不統(tǒng)一和認知差異性等因素是導(dǎo)致同伴互評低信任問題的關(guān)鍵誘因;同時,匿名、量規(guī)等互評模型的提出也有效解決了人際關(guān)系和評價標準不統(tǒng)一導(dǎo)致的低信任問題。然而,由同伴認知差異性造成的低信任問題卻少有研究關(guān)注,仍是同伴互評實踐中亟待解決的關(guān)鍵問題。
3.認知差異性與低信任問題
認知差異性是指不同的個體在不同的認知維度上有著各自獨特的智能優(yōu)勢。在同伴互評中,認知差異性會導(dǎo)致相同評價者在不同評價維度或者不同評價者在相同評價維度上的評價存在差異,即評價不一致現(xiàn)象,進而造成低信任問題。劉興華等(2018)指出,受自身認知水平或偏好的影響,同伴互評結(jié)果很難做到較大程度上的合理統(tǒng)一。
評價不一致現(xiàn)象是引發(fā)學(xué)習(xí)者對同伴評價低信任的重要根源,確認偏誤理論則對這一問題給予了機理性的解釋。確認偏誤(又稱證實偏差)是指無論合乎事實與否,人們總是趨向于看見期望看見的,相信愿意相信的,當認定了一個觀點,大腦會持續(xù)、有選擇地去尋找證據(jù)來證明該觀點是正確的,而對那些證明該觀點錯誤的證據(jù),則會有選擇地忽略或解讀(Marsh et al.,2007)。
在同伴互評中,學(xué)習(xí)者會為自身覆蓋一層自我認識的強化濾鏡。當面對諸多不一致的同伴評價時,學(xué)習(xí)者更認同對自己有利的描述或與自身觀點一致的同伴評價,而對于不一致觀點的評價則本能地認為對方是能力不足或惡意評價,從而導(dǎo)致其所認同的評價被高估和不認同的評價被低估。研究者指出在評價不一致現(xiàn)象中,學(xué)習(xí)者難以甄別有效性評價,樂于接受認同自己或支持自身觀點的評價,而對持有不一致觀點的評價持懷疑態(tài)度,繼而否定并忽視該評價(叢璽夢,2020;李紅霞等,2020)。由此可見,學(xué)習(xí)者在無外界干擾的情況下,易于按照支持自我的角度選擇、解讀評價反饋,即引發(fā)確認偏誤,導(dǎo)致學(xué)習(xí)者對評價的整體信任度不高。
綜上,認知差異性引起的低信任問題主要體現(xiàn)在兩方面:(1)學(xué)習(xí)者的認知差異性導(dǎo)致同伴評價的不一致現(xiàn)象,這是引起低信任問題的客觀因素;(2)學(xué)習(xí)者面對評價不一致現(xiàn)象時產(chǎn)生確認偏誤,這是引起低信任問題的主觀因素。由此,為解決認知差異性帶來的低信任問題,可以從上述兩方面入手。
三、人工智能賦能的可信同伴互評模型構(gòu)建
1.賦予評價有效性的可信系數(shù)
個體差異理論指出認知差異性普遍存在且不可避免,評價不一致這一客觀現(xiàn)象難以消除,故而,從主觀因素上降低學(xué)習(xí)者的確認偏誤成為解決低信任問題的可行方案。為此,本研究提出為同伴評價提供可信系數(shù),即為每條評價標明其客觀有效性,值越大則表明評價越有效??尚畔禂?shù)為評價的有效性賦予一個權(quán)威性聲明,使有效的評價引起學(xué)習(xí)者的注意與認同,即使評價與自身觀點沖突,被評價者也不會輕易否定該評價,進而促使學(xué)習(xí)者對評價進行深層次的反思或與評價者進行交流,從而降低或消除學(xué)習(xí)者對評價的確認偏誤。
可信系數(shù)為解決由確認偏誤引起的低信任問題提供了一種可行方案,而如何科學(xué)、客觀地計算可信系數(shù)成為該方案的核心。有研究發(fā)現(xiàn)認知水平對評價有顯著影響,認知水平高的學(xué)生對作品的評價更為準確,評價的質(zhì)量也就更高(李曉菲,2018;Meek et al.,2017)。此外,成績優(yōu)秀者的評語更為具體全面,認知廣度更大,也更能同時兼顧課程知識的多個維度(李梅等,2016;劉迎春等,2019)。
基于此,本研究提出將評價者和被評價者的認知水平關(guān)系作為可信系數(shù)的計算依據(jù),即相對于被評價者,如果評價者在某方面的認知水平越高,則其評價在該方面的可信系數(shù)也就越高,反之亦然。可信系數(shù)與評價者和被評價者的相對認知水平關(guān)系密切相關(guān),因此,相同評價者對不同被評價者的評價,其可信系數(shù)是不同的。例如,學(xué)習(xí)者A、B、C的認知水平分別為0.8、0.6、0.9,則A對B評價的可信系數(shù)為0.8/0.6≈1.33;而A對C評價的可信系數(shù)則為0.8/0.9≈0.89。
2.人工智能賦能的可信同伴互評模型
可信系數(shù)的計算需要依據(jù)評價者和被評價者的認知水平關(guān)系,面對大量學(xué)習(xí)者和多維度認知水平,僅依靠個體的智慧與能力難以發(fā)現(xiàn)及厘清兩兩學(xué)習(xí)者在多維認知水平上的相對關(guān)系,也就難以為評價計算精準、客觀的可信系數(shù)。人工智能技術(shù)的發(fā)展為可信系數(shù)的計算提供了技術(shù)支撐,其通過對學(xué)習(xí)者間的評分信息進行深度挖掘,以統(tǒng)一的尺度標明所有學(xué)習(xí)者的認知水平,從而極大推進了可信系數(shù)的智能化計算。
本研究在匿名和量規(guī)評價的基礎(chǔ)上,以可信系數(shù)為著力點,以智能算法為支撐,提出了人工智能賦能的可信同伴互評模型(如圖1所示),以解決認知差異造成的低信任問題。模型主要包括四大功能模塊:
匿名同伴互評模塊。系統(tǒng)隨機為每個作品分配固定數(shù)量的評價者,評價者則需要在規(guī)定時間內(nèi)按照給定量規(guī)對作品進行在線匿名評價。匿名評價使得同伴互評的公正性得以保證,而量規(guī)則消除了同伴評價的隨意性。
評價表征模塊。該模塊將同伴的每條評價分為評分與評語兩部分,并對評價進行形式化表征。其中,評分是對作品的量化認同程度,而評語是質(zhì)性的說明或建議。
可信系數(shù)計算模塊。該模塊主要包含2個步驟:首先,將所有的評價關(guān)系和評分數(shù)據(jù)轉(zhuǎn)換成有向圖,生成評分關(guān)系加權(quán)圖;其次,利用人工智能技術(shù)中的加權(quán)隨機游走算法,從評分關(guān)系加權(quán)圖中挖掘出學(xué)習(xí)者間的認知水平關(guān)系,并根據(jù)評價者與被評價者的認知水平關(guān)系,為評價計算可信系數(shù)。
評價反思與交流模塊。系統(tǒng)將每條評價及其可信系數(shù)反饋給被評價者,被評價者則在可信系數(shù)的基礎(chǔ)上修正自身的認知注意力,并參照評語有選擇地批判或接受相關(guān)評價,對有疑惑的地方與相應(yīng)評價者進行在線匿名交流,在交流中修正認知不足并促進知識體系的深層次建構(gòu)。
四、可信同伴互評模型的智能化實現(xiàn)
可信同伴互評模型的實現(xiàn)核心與難點在于可信系數(shù)的計算,而可信系數(shù)的計算本質(zhì)上可以轉(zhuǎn)換為挖掘評價者與被評價者間的相對認知水平關(guān)系。
在眾多人工智能算法中,加權(quán)隨機游走算法是一種用來在加權(quán)圖上挖掘所有節(jié)點相對重要性的有效算法。該算法具有統(tǒng)一尺度、并行性好、魯棒性高、不易陷入局部極小值等優(yōu)點,在網(wǎng)頁重要性排行、全局最優(yōu)化等領(lǐng)域得到了廣泛的應(yīng)用(馬慧芳等,2018),尤為適合認知水平關(guān)系的挖掘。為此,研究引入加權(quán)隨機游走算法進行可信系數(shù)的計算,從而完成可信同伴互評模型的智能化實現(xiàn)。其核心實現(xiàn)過程分為4個階段:評價及可信系數(shù)的表征、評分關(guān)系加權(quán)圖構(gòu)建、同伴間認知水平關(guān)系挖掘和可信系數(shù)計算及評價反饋。
1.評價及可信系數(shù)的表征
評價及可信系數(shù)的表征是定義評價數(shù)據(jù)和可信系數(shù)的結(jié)構(gòu)化形式,該步驟是數(shù)據(jù)處理的前提與基礎(chǔ)。研究所關(guān)注的同伴評價包含兩部分內(nèi)容:評分與評語。其中,評分是一個多維度的打分列表,其維數(shù)由所使用的評價量規(guī)決定,表示評價者在多個量規(guī)指標上對被評作品的認同程度;評語則是一段文字說明,是對評分的解釋說明或修改建議等,評語是被評價者與評價者進行交流反思的基礎(chǔ)。如表1所示,依據(jù)3個指標進行評分,每個指標滿分為10分,最后給出了整體評語。
2.評分關(guān)系加權(quán)圖構(gòu)建
評分關(guān)系加權(quán)圖是同伴間評價關(guān)系的形式化表示,是可信系數(shù)計算的結(jié)構(gòu)化數(shù)據(jù)支撐。評分關(guān)系加權(quán)圖是一個加權(quán)有向圖,例如表1對應(yīng)的評分關(guān)系加權(quán)圖如圖2所示。圖中節(jié)點(“人”形符號)表示學(xué)習(xí)者或其作品,當表示出鏈時為評價者,表示入鏈時為作品;有向鏈接則表示學(xué)習(xí)者間的評價關(guān)系,鏈接上的權(quán)值為評價的評分。
圖2中每個作品均被2個評價者評價,如學(xué)習(xí)者A分別對學(xué)習(xí)者B和學(xué)習(xí)者F的作品進行了評價(即A的出鏈),評分分別為{7,5,7}和{8,5,6},而學(xué)習(xí)者A的作品又被學(xué)習(xí)者B和學(xué)習(xí)者E評價(即A的入鏈)。
3.同伴間認知水平關(guān)系挖掘
在評分關(guān)系加權(quán)圖的基礎(chǔ)上,為計算可信系數(shù),需要挖掘同伴間的認知水平關(guān)系。加權(quán)隨機游走算法能夠以統(tǒng)一的尺度標識出所有節(jié)點的相對重要性,適用于同伴間認知水平關(guān)系的挖掘。
加權(quán)隨機游走算法的基本原理為:節(jié)點被鏈接(圖2中入鏈)的分值越大,該節(jié)點的重要性就越高;重要性越高的節(jié)點對別人的鏈接(圖2中出鏈)也越重要。應(yīng)用于評分關(guān)系挖掘,加權(quán)隨機游走算法會使用統(tǒng)一的尺度標識出所有同伴的認知水平,該值為一個向量,其維數(shù)與評分保持一致,研究中以PR表示(圖2中節(jié)點上方框內(nèi)的值)。例如,圖2 中學(xué)習(xí)者A的認知水平PR(A)={0.138,0.111,0.127}?;诩訖?quán)隨機游走算法的同伴間認知水平關(guān)系挖掘的步驟如下:
(1)節(jié)點初始化。為每個節(jié)點的認知水平PR賦初始值,如公式(3)所示。其中,PR0(u)表示節(jié)點u的初始值,pr0(uk)表示節(jié)點u在指標k上的初始值,N表示所有節(jié)點的個數(shù),初始時每個學(xué)習(xí)者在每個評價指標上的初始化值均為1/N。例如,圖2中有7個學(xué)習(xí)者,則學(xué)習(xí)者的初始認知水平PR0(u)={1/7,1/7,1/7}。
(2)更新節(jié)點值。根據(jù)評分關(guān)系加權(quán)圖為每個節(jié)點更新PR值,方法是:將每個節(jié)點當前的PR值以加權(quán)的方式分配到其所有出鏈上,而每個節(jié)點的新PR值計算方法如公式(4)所示,公式包含兩部分,前一部分是其自身入鏈的PR值總和,后一部分是隨機轉(zhuǎn)移值。其中,prt+1(uk)表示節(jié)點u在指標k上、第t+1次迭代時的PR值,I表示節(jié)點u的入鏈節(jié)點集合(即節(jié)點u的所有評價者集合),α表示隨機跳轉(zhuǎn)概率,一般取經(jīng)驗值0.85(彭珠,2009)。wk(v,u)表示在指標k上,節(jié)點v對節(jié)點u評分的權(quán)重,其計算方法如公式(5)所示。其中,rk(v,u)表示在指標k上節(jié)點v對節(jié)點u的評分,O表示節(jié)點v的出鏈節(jié)點集合(即被節(jié)點v評價的所有節(jié)點集合)。
以圖2中節(jié)點A為例,2個評價者B和E的評分為B:{7,5,6},E:{8,4,7}。在第一輪更新時,節(jié)點A入鏈的PR值分別為B→A:(0.061,0.055,0.056),E→A:(0.061,0.041,0.053),根據(jù)公式(4)可計算節(jié)點A的第一輪PR值為{0.143,0.117,0.131}。
(3)節(jié)點的認知水平計算。迭代執(zhí)行步驟(2),直至所有節(jié)點的PR值逐漸收斂或達到迭代次數(shù)為止,此時獲得的每個節(jié)點的PR值即為其認知水平。
4.可信系數(shù)計算及評價反饋
挖掘出所有同伴間的認知水平關(guān)系之后,即可以認知水平關(guān)系為基礎(chǔ)計算評價的可信系數(shù)。評價者的相對認知水平越高,其評價越有效,可信系數(shù)也越高。為此,評價的可信系數(shù)被定義為該評價的評價者與被評價者的認知水平的比值,計算方式如公式(6)所示。其中,C(u,v)表示學(xué)習(xí)者u對學(xué)習(xí)者v評價的可信系數(shù),PR(u)表示學(xué)習(xí)者u的認知水平。例如,圖2中節(jié)點B對節(jié)點A評價的可信系數(shù)為(0.139/0.138,0.134/0.111,0.145/0.127)=(1.007,1.207,1.142),其中,可信系數(shù)大于1表明評價者在該方面的認知水平高于被評價者,低于1則相反。
及時有效的反饋可以觸發(fā)學(xué)習(xí)者在學(xué)習(xí)過程中積極的反應(yīng),發(fā)現(xiàn)與彌補現(xiàn)有認知錯誤與不足,促進知識體系全面、深層次的建構(gòu)。為了促進同伴互評的有效性,降低學(xué)習(xí)者對評價的確認偏誤,本研究將評價與可信系數(shù)綁定并同時反饋給學(xué)習(xí)者,以幫助學(xué)習(xí)者對評價建立正確的認知,即反饋包含評分、評語以及評價可信系數(shù)3個部分,例如,圖 2 中節(jié)點A的一條評價反饋為{(7,5,6),“選題尚可……”,(1.007,1.207,1.142)}。
五、可信同伴互評模型的實踐驗證
1.實驗設(shè)計
研究以某師范大學(xué)選修“現(xiàn)代教育技術(shù)”課程的20級物理學(xué)1班和物理學(xué)2班的本科生作為研究對象。1班的54人作為實驗組,采用可信同伴互評,2班的55人作為控制組,采用傳統(tǒng)同伴互評,兩組學(xué)習(xí)者都有至少一學(xué)期的在線學(xué)習(xí)平臺使用經(jīng)驗。課程內(nèi)容以主題形式組織,并采用“線下學(xué)習(xí)+線上評價交流”的混合式教學(xué)模式。其中,線下學(xué)習(xí)是指學(xué)習(xí)者在課堂學(xué)習(xí)主題知識并完成作品;線上評價交流是學(xué)習(xí)者對同伴上傳作品進行在線匿名評價并與自身作品的評價者進行匿名交流。
為探究本文提出模型的有效性,研究將從可信系數(shù)計算的合理性、學(xué)生的同伴互評接受度、學(xué)生的批判性思維傾向3個方面進行實踐驗證。實驗中量規(guī)滿分100分,包含內(nèi)容性(40分)、教學(xué)性(30分)、呈現(xiàn)度(30分)3個一級指標,一級指標又分別細分為2、3、3個二級指標。學(xué)生的同伴互評接受度和批判性思維傾向均使用量表測量。其中,同伴互評接受度量表是在胡畔等人量表(胡畔等,2019)的基礎(chǔ)上改進得到,包括感知有用性等3個測量維度和18個測量題項,采用5級李克特量表測量。批判性思維傾向量表選擇Facione等(1992)開發(fā)的加利福尼亞批判性思維傾向量表,選用了思想開放性、分析性等5個維度,共50個測量題項,采用6級李克特量表測量。研究使用Cronbachs α系數(shù)和KMO系數(shù)對兩個量表的信效度進行檢驗,結(jié)果均高于0.75,表明量表具有較高的信效度。
研究的實驗流程如圖3所示。課程開始之前,使用量表對兩組學(xué)生進行同伴互評接受度和批判性思維傾向的前測,并向?qū)W習(xí)者講解學(xué)習(xí)方式、評價量規(guī)等相關(guān)知識。課程學(xué)習(xí)過程中,要求學(xué)生每學(xué)習(xí)一個主題后,需完成一個作品并提交至在線互評平臺,隨后互評系統(tǒng)為每個作品隨機分配3個評價者(每個評價者也評3個作品),開展同伴互評活動。實驗組在互評后會得到系統(tǒng)反饋的評分、評語和可信系數(shù)。而控制組則得到評分和評語。得到反饋后,兩組學(xué)生均可通過在線留言工具與匿名評價者開展交流,并對作品進行修改后再次上傳。學(xué)期末,再次使用量表對學(xué)習(xí)者進行同伴互評接受度和批判性思維傾向的后測,并總結(jié)反思課程的實施效果。
2.研究結(jié)果與分析
(1)可信系數(shù)計算結(jié)果
為驗證模型可信系數(shù)計算的合理性,研究隨機選取了第6周S27學(xué)生以及其3位評價者(S8,S38,S47)的原始評分和可信系數(shù),如表 2 所示。從表中數(shù)據(jù)可知:其一,同一評價在不同評價指標上的可信系數(shù)存在差異。例如,S8對S27的評價可信系數(shù)分別是{(1.01,1.14),(1.00,1.09,0.99), (0.96,1.02,1.17)} ,這一結(jié)果表明評價者在每個評價維度上的認知水平并不相同,符合學(xué)習(xí)者個體內(nèi)的認知差異性原則。其二,不同評價在相同評價指標上的可信系數(shù)并不相同。例如,S27在一級指標1的第2子指標上的可信系數(shù)分別為1.14、0.99、0.98,這一結(jié)果表明不同的評價者在相同維度上的認知水平并不相同,符合學(xué)習(xí)者個體間的認知差異性原則。其三,學(xué)習(xí)者的作品在某評價指標上取得的評分越高,其對他人的評價中在該指標上的可信系數(shù)也越大。例如,S8的作品在一級指標1的第2子指標上得分最高(16.59),S27在該指標上的所有評價中,S8的可信系數(shù)最高(1.14),這一結(jié)果表明學(xué)習(xí)者的認知水平越高,則其對他人評價中的可信系數(shù)也越大,計算符合研究的預(yù)期。
由此可見,認知差異性客觀存在,并且本研究提出的可信同伴互評模型能夠依據(jù)評價者與被評價者的相對認知水平為評價計算合理的可信系數(shù)。
(2)可信同伴互評模型對同伴互評接受度的影響
接受度是同伴互評有效性以及學(xué)生是否會持續(xù)使用該學(xué)習(xí)方式的重要衡量指標。為探究可信系數(shù)對同伴互評接受度的影響,研究從感知有用性、感知易用性和行為意愿3個維度對學(xué)生學(xué)習(xí)前后的接受度進行對比檢驗。首先,使用獨立樣本t檢驗對兩組學(xué)生的前測結(jié)果進行分析,結(jié)果如表3所示??梢钥闯?,兩組學(xué)生在3個維度上的均值接近,顯著性值p均大于0.05(分別是0.970、0.929和0.951),未達到顯著水平,說明兩組學(xué)生在學(xué)習(xí)前具有一致的接受度。
然后,使用獨立樣本t檢驗方法對兩組的后測結(jié)果進行分析,結(jié)果如表4所示。由表可知:在感知易用性維度,兩組無明顯差異(p=0.906>0.05);而在其他2個維度上,兩組差異性顯著(p分別為0.030和0.031)。結(jié)合前后測均值不難發(fā)現(xiàn),學(xué)習(xí)后實驗組在感知有用性和行為意愿2個維度上有所提升,而控制組在2個維度上基本保持穩(wěn)定或下降。
實驗結(jié)果反映出實驗組學(xué)生在可信系數(shù)的引導(dǎo)下,能有效利用同伴評價改進作品,認為同伴評價策略對學(xué)習(xí)有較大促進作用;而控制組學(xué)生則認為同伴評價的作用不大,與評價者進行交流的意愿也較低。
(3)可信同伴互評模型對批判性思維傾向的影響
為探究模型對學(xué)習(xí)者高階思維培養(yǎng)的影響,研究對學(xué)習(xí)者的批判性思維傾向進行了對比。首先,使用獨立樣本t檢驗對兩組學(xué)生的前測結(jié)果進行分析,結(jié)果顯示,兩組學(xué)生在5個維度上的均值及標準差都接近,p均大于0.05,未達到顯著水平,說明兩組學(xué)生的前測結(jié)果一致,具有相同的批判性思維傾向。
然后,研究使用配對樣本t檢驗方法對兩組學(xué)生的“后測—前測”成績進行分析,結(jié)果如表5所示。由表5可知,兩組學(xué)生在分析性、系統(tǒng)性和求知欲3個維度上均比學(xué)習(xí)前有顯著提升(差值均值>0,且p<0.05);此外,實驗組在思想開放性維度也有顯著提升,而控制組沒有;并且實驗組的總體提升度高于控制組(24.019>16.891)。結(jié)合后測的統(tǒng)計結(jié)果可知,實驗組在總體結(jié)果上得分更高(Mean實驗=223.24,Mean控制=214.33)。實驗結(jié)果表明,可信同伴互評模型相較于傳統(tǒng)同伴互評,能夠更有效地激發(fā)學(xué)習(xí)者的思想開放性;對學(xué)習(xí)者的批判性思維傾向發(fā)展具有更加顯著的正向影響。
六、總結(jié)與思考
同伴互評是促進學(xué)習(xí)者深度知識建構(gòu)和高階思維培養(yǎng)的有效策略,然而,低信任問題會削弱學(xué)習(xí)者參與反思活動的積極性,引發(fā)評價焦慮,嚴重阻礙策略有效性的發(fā)揮。針對由同伴認知差異性導(dǎo)致的低信任問題,研究引入人工智能技術(shù),構(gòu)建可信同伴互評模型,通過可信系數(shù)幫助學(xué)習(xí)者降低確認偏誤,更大程度包容與自己觀點相互沖突的評價。通過實踐證明,相較于傳統(tǒng)同伴互評模型,本文提出的模型對學(xué)習(xí)者的接受度和批判性思維傾向均有更優(yōu)的正向影響。本研究對同伴互評的教育應(yīng)用實踐有以下啟示:
一是注重同伴互評的形成性評價。形成性評價通過診斷教學(xué)過程中存在的問題,為正在進行的學(xué)習(xí)活動提供反饋信息,在改善未來學(xué)習(xí)方面,比總結(jié)性評價具有更好的效果。在同伴互評教學(xué)中,評價不應(yīng)以區(qū)分評價對象的優(yōu)良程度為重心,而是要充分利用評價反饋和討論,引導(dǎo)學(xué)習(xí)者通過個人的反思和彼此間的交流來理解所收到的評價,將反饋信息融入自身認知策略調(diào)整和知識建構(gòu)中,最終完成問題的解決、知識的遷移和高階思維的培養(yǎng)。因此,要想同伴互評有效,它必須是對話的,而不是單向的信息傳遞過程(Filius et al.,2018)。
二是關(guān)注學(xué)生對評價的確認偏誤。評價的不一致性使得學(xué)習(xí)者需要直面質(zhì)量參差不齊,甚至是沖突矛盾的評價。學(xué)習(xí)者往往會不自覺地以自身情緒或喜好判定同伴評價的好壞,產(chǎn)生確認偏誤。確認偏誤會導(dǎo)致學(xué)習(xí)者關(guān)注的評價不全面,易使學(xué)習(xí)者沉浸在主體構(gòu)造的一個支持自我的世界里。為此,除卻技術(shù)方面的信息補足,還可以引導(dǎo)學(xué)習(xí)者養(yǎng)成換位思考的習(xí)慣,使用逆向思維來思考決策的對立面甚至其他面的利弊,然后一一進行對比分析,保持從理性和客觀的視角去做學(xué)習(xí)決策。
研究在一定程度上解決了由同伴的認知差異性導(dǎo)致的低信任問題,為充分發(fā)揮同伴互評在教學(xué)中的獨特優(yōu)勢提供了有效的支持。但是,除研究所涉及的認知水平外,評價者的評價能力、評價態(tài)度等也是影響評價質(zhì)量的重要因素,如何整合多方面影響因素,構(gòu)建更全面完善的可信指標,以解決低信任困境對同伴互評造成的不良影響是研究接下來的關(guān)注重點。
參考文獻:
[1]白清玉,張屹,沈愛華等(2016).基于同伴互評的移動學(xué)習(xí)對小學(xué)生學(xué)習(xí)成效的影響研究——以科學(xué)課程為例[J].中國電化教育,(12):121-128.
[2]柏宏權(quán)(2018).基于移動學(xué)習(xí)環(huán)境的大學(xué)生同伴互評的公平性研究[J].教育發(fā)展研究,38(7):75-81.
[3]畢景剛,韓穎,董玉琦(2020).技術(shù)促進學(xué)生批判性思維發(fā)展教學(xué)機理的實踐探究[J].中國遠程教育,41(7):41-49,76-77.
[4]叢璽夢(2020).在線作業(yè)同伴互評與教師評分一致性的影響因素研究[D].沈陽:沈陽師范大學(xué):2-8.
[5]胡畔,蔣家傅(2019).中小學(xué)生對數(shù)字教材的技術(shù)接受度及其影響因素研究[J].現(xiàn)代遠距離教育,(4):77-83.
[6]黃濤,趙媛,耿晶等(2021).數(shù)據(jù)驅(qū)動的精準化學(xué)習(xí)評價機制與方法[J].現(xiàn)代遠程教育研究,33(1):3-12.
[7]李菲茗,李曉菲,黃亞平等(2018).訓(xùn)練對同伴互評評分準確性的影響——以“三維動畫設(shè)計與建?!闭n程為例[J].中國遠程教育,(5):63-67,78.
[8]李紅霞,趙呈領(lǐng),蔣志輝(2020).匿名與量規(guī)對基于SPOC的混合式同伴互評投入度的影響[J].現(xiàn)代教育技術(shù),30(10):20-27.
[9]李梅,劉英群,周潛(2016).同伴評價的可信度與特點分析[J].電化教育研究,37(9):48-54.
[10]李曉菲(2018).同伴互評評分準確性影響因素研究[D].杭州:浙江工業(yè)大學(xué):25-27.
[11]梁云真(2018).基于量規(guī)的同伴互評對在線學(xué)習(xí)認知、情感投入度及學(xué)習(xí)成效的影響研究[J].電化教育研究,39(9):66-74.
[12]劉興華,紀小凌(2018).大學(xué)英語寫作同伴評分的可行性和有效性研究[J].外語界,(5):63-70.
[13]劉迎春,朱旭,陳樂(2019).精準教學(xué)中基于同伴互評的評價者認知網(wǎng)絡(luò)分析[J].遠程教育雜志,37(1):85-93.
[14]馬慧芳,劉芳,夏琴等(2018).基于加權(quán)超圖隨機游走的文獻關(guān)鍵詞提取算法[J].電子學(xué)報,46(6):1410-1414.
[15]潘星竹,姜強,黃麗等(2019).“支架+”STEM教學(xué)模式設(shè)計及實踐研究——面向高階思維能力培養(yǎng)[J].現(xiàn)代遠距離教育,(3):56-64.
[16]彭珠(2009).一種求解PageRank問題的修正乘冪法(英文)[J].徐州師范大學(xué)學(xué)報(自然科學(xué)版),27(4):45-47.
[17]汪瓊,歐陽嘉煜,范逸洲(2019).MOOC同伴作業(yè)互評中反思意識與學(xué)習(xí)成效的關(guān)系研究[J].電化教育研究,40(6):58-67.
[18]吳遐,高記,劉兵(2020).以評促學(xué):基于三元交互決定論的同伴互評研究[J].中國遠程教育,41(4):58-64,77.
[19]許瑋,祝思璇(2022).同伴互評對學(xué)習(xí)者知識建構(gòu)過程的實證研究——基于時間序列的認知網(wǎng)絡(luò)分析[J].現(xiàn)代教育技術(shù),32(1):44-53.
[20]張紅英,陳明選,馬志強等(2019).基于自評與互評的網(wǎng)絡(luò)協(xié)作學(xué)習(xí)貢獻度評價[J].現(xiàn)代遠程教育研究,31(2):95-102.
[21]張生,王雪,齊媛(2021).評他能力:人工智能時代學(xué)生必備的高階思維能力[J].中國電化教育,(11):24-31.
[22]鐘啟泉(2020).批判性思維:概念界定與教學(xué)方略[J].全球教育展望,49(1):3-16.
[23]Admiraal, W., Huisman, B., & Van de Ven, M. (2014). Self- and Peer Assessment in Massive Open Online Courses[J]. International Journal of Higher Education, 3(3):119-128.
[24]Chang, C. C., Tseng, K. H., & Chou, P. N. et al. (2011). Reliability and Validity of Web-Based Portfolio Peer Assessment: A Case Study for a Senior High Schools Students Taking Computer Course[J]. Computers & Education, 57(1):1306-1316.
[25]Chien, S. Y., Hwang, G. J., & Jong, M. S. Y. (2020). Effects of Peer Assessment Within the Context of Spherical Video-Based Virtual Reality on EFL Students English-Speaking Performance and Learning Perceptions[J]. Computers & Education, 146:103751.
[26]Facione, P. A., & Facione, N. C. (1992). The California Critical Thinking Disposition Inventory(CCTDI)[EB/OL]. [2022-11-21].
https://edinstruments.org/instruments/california-critical-thinking-
disposition-inventory-cctdi.
[27]Filius, R. M., de Kleijn, R. A. M., & Uijl, S. G. et al. (2018). Strengthening Dialogic Peer Feedback Aiming for Deep Learning in SPOCs[J]. Computers & Education, 125:86-100.
[28]Gamage, D., Staubitz, T., & Whiting, M. (2021). Peer Assessment in MOOCs: Systematic Literature Review[J]. Distance Education, 42(2):268-289.
[29]Heyman, J. E., & Sailors, J. J. (2011). Peer Assessment of Class Participation: Applying Peer Nomination to Overcome Rating Inflation[J]. Assessment & Assessment in Higher Education, 36(5):605-618.
[30]Hwang, G. J., Hung, C. M., & Chen, N. S. (2014). Improving Learning Achievements, Motivations and Problem-Solving Skills Through a Peer Assessment-Based Game Development Approach[J]. Educational Technology Research and Development, 62(2):129-145.
[31]Li, H., Xiong, Y., & Hunter, C. V. et al. (2019). Does Peer Assessment Promote Student Learning? A Meta-Analysis[J]. Assessment & Evaluation in Higher Education, 45(2):193-211.
[32]Lin, H. C., Hwang, G. J., & Chang, S. C. et al. (2021). Facilitating Critical Thinking in Decision Making-Based Professional Training: An Online Interactive Peer-Review Approach in a Flipped Learning Context[J]. Computers & Education, 173:104266.
[33]Luo, H., Robinson, A., & Park, J. Y. (2014). Peer Grading in a MOOC: Reliability, Validity, and Perceived Effects[J]. Journal of Asynchronous Learning Networks, 18(2):119-126.
[34]Marsh, D. M., & Hanlon, T. J. (2007). Seeing What We Want to See: Confirmation Bias in Animal Behavior Research[J]. Ethology, 113(11):1089-1098.
[35]Meek, S. E. M., Blakemore, L., & Marks, L. (2017). Is Peer Review an Appropriate form of Assessment in a MOOC? Student Participation and Performance in Formative Peer Review[J]. Assessment & Evaluation in Higher Education, 42(6):1000-1013.
[36]Pond, K., & Ul-Haq, R. (1997). Learning to Assess Students Using Peer Review[J]. Studies in Educational Evaluation, 23(4):331-348.
[37]Rico-Juan, J. R., Gallego, A. J., & Calvo-Zaragoza, J. (2019). Automatic Detection of Inconsistencies Between Numerical Scores and Textual Feedback in Peer-Assessment Processes with Machine Learning[J]. Computers & Education, 140:103609.
[38]Rotsaert, T., Panadero, E., & Schellens, T. (2018). Peer Assessment Use, Its Social Nature Challenges and Perceived Educational Value: A Teachers Survey Study[J]. Studies in Educational Evaluation, 59:124-132.
[39]Van Gennip, N. A. E., Segers, M. S. R., & Tillema, H. H. (2010). Peer Assessment as a Collaborative Learning Activity: The Role of Interpersonal Variables and Conceptions[J]. Learning and Instruction, 20(4):280-290.
[40]Yastibas, G. C., & Yastibas, A. E. (2015). The Effect of Peer Feedback on Writing Anxiety in Turkish EFL (English as a Foreign Language) Students[J]. Procedia Social and Behavioral Sciences, 199:530-538.
[41]Yu, F. Y., & Sung, S. (2016). A Mixed Methods Approach to the Assessors Targeting Behavior During Online Peer Assessment: Effects of Anonymity and Underlying Reasons[J]. Interactive Learning Environments, 24(7):1674-1691.
[42]Zundert, M. V., Sluijsmans, D., & Merri?nboer, J. V. (2010). Effective Peer Assessment Processes: Research Findings and Future Directions[J]. Learning & Instruction, 20(4):270-279.
收稿日期 2022-12-11責(zé)任編輯 李鑫
Abstract: Peer assessment is an important learning strategy to cultivate learnershigh-order thinking and improve learning performance. However, in practice, peer evaluation has a serious problem of low trust, that is, learners question or ignore peer evaluation and the overall acceptance is not high. Cognitive differences among learners are the key contributing factor to this problem: objectively, cognitive differences among learners lead to inconsistent peer evaluations; subjectively, learners may experience confirmation bias when faced with inconsistent evaluations. The trusted peer evaluation model empowered by artificial intelligence uses a credibility coefficient to indicate the effectiveness of the evaluation to guide learners to establish correct identification and trust, which can reduce learnersconfirmation bias. The intelligent implementation of this model can be divided into four stages: the representation of evaluation and credibility coefficient, the construction of weighted graph of scoring relationship, the mining of peer cognitive level relationship based on weighted random walk algorithm, the calculation of credibility coefficient and evaluation feedback. The teaching practice based on this model shows results as follows. First, the model can calculate a reasonable credibility coefficient for evaluation based on the relative cognitive level of the evaluator and the respondent. Second, learnersacceptance of peer evaluation has improved, especially in terms of perceived usefulness and behavioral willingness, which are significantly better than traditional peer evaluation models. Third, it has a significant positive impact on the cultivation of learnerscritical thinking tendency, of which the four sub dimensions including analysis, systematicness, curiosity and openness have been greatly improved.
Keywords: Artificial Intelligence; Peer Assessment; Cognitive Differences; Low Trust; Credibility Coefficient