【關(guān)鍵詞】核心素養(yǎng);學(xué)業(yè)水平考試;評分內(nèi)容;評分結(jié)構(gòu);評分機(jī)制
《深化新時(shí)代教育評價(jià)改革總體方案》要求著力破除唯分?jǐn)?shù)、唯升學(xué)、唯文憑、唯帽子的頑瘴痼疾,建立科學(xué)的、符合時(shí)代要求的教育評價(jià)制度和機(jī)制。隨著《普通高中語文課程標(biāo)準(zhǔn)(2017 年版2020 年修訂)》和《義務(wù)教育語文課程標(biāo)準(zhǔn)(2022 年版)》的頒布,語文學(xué)業(yè)水平考試命題的情境性、實(shí)踐性、任務(wù)性特征逐漸明晰,成為測評學(xué)生語文核心素養(yǎng)的有力依托。雖然這種命題指向能夠在一定程度上達(dá)到測量學(xué)生核心素養(yǎng)的目的,但是核心素養(yǎng)的內(nèi)隱性特征導(dǎo)致單一考試成績難以真實(shí)反映學(xué)生的素養(yǎng)發(fā)展水平。這無疑給倡導(dǎo)“教—學(xué)—評”一體化的教育評價(jià)改革設(shè)置了障礙。清除障礙的關(guān)鍵舉措是變革學(xué)業(yè)水平考試評分方式,這也是我國教育研究和實(shí)踐工作者面臨的現(xiàn)實(shí)問題。
當(dāng)前對學(xué)業(yè)水平考試命題的探索給學(xué)生提供了各種表現(xiàn)思維方式和問題解決過程的空間,但也帶來了如何合理評分的難題。[1]本研究通過梳理既有研究結(jié)果,結(jié)合學(xué)業(yè)水平考試評分現(xiàn)實(shí)情況,總結(jié)適應(yīng)核心素養(yǎng)背景下語文學(xué)業(yè)水平考試評分標(biāo)準(zhǔn)變革的關(guān)鍵因素,并嘗試設(shè)計(jì)一套評分模式。
一、遵循系統(tǒng)性原則,評分應(yīng)同時(shí)體現(xiàn)學(xué)生的認(rèn)知水平和非認(rèn)知類別
學(xué)業(yè)水平考試的評分標(biāo)準(zhǔn)不僅要“展現(xiàn)學(xué)生在語文學(xué)習(xí)過程中形成的能力、方法”,還要展現(xiàn)“情感態(tài)度與價(jià)值觀的綜合發(fā)展要求”。[2]前者指向事實(shí)判斷——對學(xué)生認(rèn)知能力的判斷,后者指向價(jià)值判斷——對學(xué)生非認(rèn)知能力的判斷。[3]核心素養(yǎng)背景下的學(xué)業(yè)水平考試命題重視不同知識、方法或態(tài)度在深層意義上的整合與運(yùn)用,關(guān)注學(xué)生在復(fù)雜的開放性問題情境中的綜合表現(xiàn),反映在評分標(biāo)準(zhǔn)上,就要求兼顧呈現(xiàn)學(xué)生的認(rèn)知能力水平和非認(rèn)知能力水平。
根據(jù)核心素養(yǎng)的基本特征,義務(wù)教育語文課程標(biāo)準(zhǔn)評價(jià)組曾研制了語文核心素養(yǎng)測評框架,在認(rèn)知維度層面可將核心素養(yǎng)拆分為十二組行為動詞。其中,“文化自信”包括體認(rèn)與傳承、關(guān)注與參與、理解與借鑒,“語言運(yùn)用”包括積累與整合、發(fā)現(xiàn)與領(lǐng)悟、應(yīng)對與交流,“思維能力”包括感知與體味、聯(lián)想與想象、辨識與推理,“審美創(chuàng)造”包括體驗(yàn)與感悟、欣賞與評價(jià)、表現(xiàn)與創(chuàng)造。[4]這些行為動詞分別體現(xiàn)了四個(gè)核心素養(yǎng)在學(xué)業(yè)水平考試上的要求,構(gòu)成了認(rèn)知維度評分標(biāo)準(zhǔn)的框架。非認(rèn)知能力主要指非智力因素,包含情感、意志、個(gè)性傾向等方面。[5]非認(rèn)知能力對初中生的學(xué)業(yè)表現(xiàn)具有顯著的正向預(yù)測作用。[6]在學(xué)業(yè)水平考試中,非認(rèn)知能力的確定要依據(jù)學(xué)生的具體作答表現(xiàn)和特定題目的作答結(jié)果。例如,在考查《西游記》整本書閱讀時(shí)設(shè)計(jì)以下兩道題:
題1:小恩讀到孫悟空“忍氣含悲”時(shí),想以孫悟空的口吻給唐僧寫一封信,請你根據(jù)文本幫助他完成這個(gè)任務(wù)。
題2:查找資料時(shí)小恩發(fā)現(xiàn),人們對《西游記》的評論各有不同:有人稱之為“神魔小說”,有人稱之為“童心之作”。你贊同哪個(gè)觀點(diǎn)?結(jié)合材料說說你的理由。[7]
題1 符合“依據(jù)特定題目作答結(jié)果判定非認(rèn)知能力”的特點(diǎn)。社會與情感能力是非認(rèn)知能力的主要方面,共情能力是社會與情感能力的有機(jī)組成部分。題目中“小恩”要以孫悟空的口吻給唐僧寫一封信,就需要與孫悟空共情;學(xué)生要完成測試任務(wù),就需要與“小恩”共情。題2 符合“依據(jù)具體作答表現(xiàn)判定非認(rèn)知能力”的特點(diǎn)。在作答結(jié)果中,有學(xué)生僅回答“我贊同第一個(gè)觀點(diǎn)”,也有學(xué)生回答“我贊同第一個(gè)觀點(diǎn),因?yàn)檫@個(gè)觀點(diǎn)……”,還有學(xué)生回答“我贊同第一個(gè)觀點(diǎn),因?yàn)榈谝粋€(gè)觀點(diǎn)……與第二個(gè)觀點(diǎn)相比……”這三種作答結(jié)果依次代表了學(xué)生完成任務(wù)由低到高的態(tài)度水平。對學(xué)生非認(rèn)知能力的判定很難通過量化的得分呈現(xiàn),要對學(xué)生作答結(jié)果進(jìn)行編碼,以類別的形式判斷其非認(rèn)知能力表現(xiàn)。例如,將第一個(gè)學(xué)生的作答結(jié)果編碼為A,代表“漠視態(tài)度”;將第二個(gè)學(xué)生的作答結(jié)果編碼為B,代表“主動態(tài)度”;將第三個(gè)學(xué)生的作答結(jié)果編碼為C,代表“熱忱態(tài)度”。
綜上所述,核心素養(yǎng)立意下的語文學(xué)業(yè)水平考試評分標(biāo)準(zhǔn)要從系統(tǒng)的視角整合呈現(xiàn)學(xué)生的認(rèn)知能力水平和非認(rèn)知能力類別。二者構(gòu)成了評分標(biāo)準(zhǔn)的宏觀框架。以“語言運(yùn)用”素養(yǎng)為例,可以建構(gòu)如表1 所示的宏觀評分標(biāo)準(zhǔn)框架。
根據(jù)上述框架,學(xué)生在第1 題上的得分可標(biāo)注為“1-C”,代表該學(xué)生在“積累與整合”認(rèn)知能力上的表現(xiàn)欠佳,但是他的學(xué)習(xí)態(tài)度較為熱忱,需要在維持態(tài)度的基礎(chǔ)上,加強(qiáng)該生的語言文字積累、整合能力。
二、遵循相對性原則,評分標(biāo)準(zhǔn)要反映學(xué)生在特定情境任務(wù)下的素養(yǎng)表現(xiàn)
“考試命題應(yīng)以情境為載體,依據(jù)學(xué)生在真實(shí)情境下解決問題的過程和結(jié)果評定其素養(yǎng)水平”[8],已經(jīng)成為學(xué)業(yè)水平考試命題的共識性原則。在紙筆測試環(huán)境下較難呈現(xiàn)復(fù)雜多元的情境要素及各要素之間多樣化的聯(lián)系,加大了創(chuàng)設(shè)真實(shí)情境的難度。[9]有學(xué)者提出,PISA(國際學(xué)生評估項(xiàng)目)的測試框架整合了情境、學(xué)科內(nèi)容和核心素養(yǎng)三個(gè)維度,只需要通過改變情境的結(jié)構(gòu)化程度、要素?cái)?shù)量及其關(guān)系,就可以創(chuàng)設(shè)各種復(fù)雜程度的情境任務(wù)[10],能有效彌補(bǔ)紙筆測試的不足。這種假設(shè)建立在“特定情境任務(wù)考查特定水平核心素養(yǎng)”基礎(chǔ)上。從評分角度看,就要從分?jǐn)?shù)梯度上呈現(xiàn)學(xué)生核心素養(yǎng)發(fā)展的相對水平。所謂“ 相對水平”,是指學(xué)生在特定測試難度下核心素養(yǎng)的表現(xiàn)水平。情境任務(wù)難度存在差異導(dǎo)致素養(yǎng)水平“天花板”高度不同,在相同賦分的情況下,學(xué)生的素養(yǎng)表現(xiàn)就可能不同。具體而言,對學(xué)生“思維能力”素養(yǎng)的評分在不同的測試情境下都可以標(biāo)記為1 分,但因測試情境難度存在差異,所以1 分的“含金量”是不同的。在相對復(fù)雜的測試情境中,1 分可能表示學(xué)生能夠從辯證的角度得出多種結(jié)論;在簡單的測試情境中,1 分可能僅表示學(xué)生能夠從語言材料中提取有效信息。因此,在設(shè)置評分標(biāo)準(zhǔn)時(shí),首先要明確測試情境的難度水平,再根據(jù)情境的難度水平確定核心素養(yǎng)的水平梯度。
測試情境的難度水平標(biāo)定目前尚未有清晰的操作標(biāo)準(zhǔn)。有學(xué)者以“ 文化— 歷史活動理論模型”為基礎(chǔ),建構(gòu)了學(xué)業(yè)水平考試的命題模型,能夠提供參考。模型的核心旨趣是探究如何建構(gòu)真實(shí)的測試情境。研究發(fā)現(xiàn),當(dāng)把活動系統(tǒng)網(wǎng)絡(luò)作為情境創(chuàng)設(shè)的基本單位時(shí),構(gòu)成總活動系統(tǒng)和子活動系統(tǒng)的關(guān)鍵要素,是構(gòu)成和分析復(fù)雜社會活動的核心;要素之間的復(fù)雜關(guān)系為學(xué)生多角度體認(rèn)測試情境提供了廣闊的思維場域,增強(qiáng)了情境的真實(shí)性。[11]一言以蔽之,活動系統(tǒng)數(shù)量越多、構(gòu)成要素越多元,情境就越真實(shí)、越復(fù)雜。以此為標(biāo)準(zhǔn),就可以初步判斷測試情境的難度,并根據(jù)測試情境難度標(biāo)定核心素養(yǎng)的相對水平。
舉例來說,以探究《澄衷蒙學(xué)堂字課圖說》中對“天”字的解釋為測試情境,可以命制指向同一種思維能力的兩種題目。題1:“請結(jié)合《澄衷蒙學(xué)堂字課圖說》中的表述,解釋‘ 天’的意思。”題2:“借用以上兩則解釋‘天’為何物的材料,對《澄衷蒙學(xué)堂字課圖說》中‘天’的含義作出解釋?!边@兩個(gè)題目都是讓學(xué)生解釋“ 天”的意思,但是題2 涉及更多要素—— 兩則解釋“ 天”為何物的材料,創(chuàng)設(shè)了比題1 更為復(fù)雜的測試情境,故雖同樣考查學(xué)生思維能力中的“ 辨識與推理”能力,但題2 的相對水平要顯著高于題1 的相對水平。在賦等級分?jǐn)?shù)時(shí),題2的1 分“含金量”也自然就要高于題1 的1 分“含金量”。綜上,將相對水平納入宏觀評分標(biāo)準(zhǔn)框架中,即可構(gòu)成中觀評分標(biāo)準(zhǔn)框架(見表2)。
根據(jù)上述框架,學(xué)生在第1 題上的得分可定為“低-1-C-1”。該生在兩個(gè)情境難度下的相對水平都為1 分,說明在“語言運(yùn)用”素養(yǎng)中的特定認(rèn)知能力方面表現(xiàn)欠佳,且只能在語料的積累量上增長,而難以建構(gòu)語料之間的聯(lián)系,實(shí)現(xiàn)認(rèn)知上質(zhì)的突破。
三、遵循建構(gòu)性原則,觀照學(xué)業(yè)成就表現(xiàn)背后的意義建構(gòu)
教育評價(jià)是一種基于證據(jù)的推理過程[12],即通過學(xué)生在完成測試任務(wù)時(shí)的表現(xiàn),判定他們的知識、學(xué)習(xí)經(jīng)驗(yàn)、心理特征或水平。前文基于系統(tǒng)性和相對性設(shè)計(jì)的評分標(biāo)準(zhǔn)框架只能從“點(diǎn)”的角度評定學(xué)生的認(rèn)知能力和非認(rèn)知類別,但是學(xué)科核心素養(yǎng)蘊(yùn)含的學(xué)習(xí)觀是建構(gòu)主義,指向的是學(xué)科內(nèi)容的結(jié)構(gòu)性和關(guān)聯(lián)性,學(xué)生學(xué)習(xí)語文也是在個(gè)體與情境的互動中創(chuàng)生意義的過程。[13]因此,核心素養(yǎng)立意的學(xué)業(yè)水平考試評分標(biāo)準(zhǔn)應(yīng)力圖呈現(xiàn)學(xué)生素養(yǎng)的建構(gòu)樣態(tài),從動態(tài)的“線”上看學(xué)生核心素養(yǎng)的表現(xiàn)特征。
動態(tài)的“線”包含哪些進(jìn)階性的要素,決定了“線”的模樣。許多成熟的理論,例如,布魯姆的教育目標(biāo)分類理論、SOLO(可觀察的學(xué)習(xí)結(jié)果的結(jié)構(gòu))分類理論等,都可以視作描述“線”的依據(jù),但這類理論往往缺少與情境的聯(lián)系。心理學(xué)家德布洛克將學(xué)習(xí)概括為四個(gè)維度的整合。第一個(gè)維度是從學(xué)科事實(shí)性知識到概念,再到建構(gòu)知識與概念的關(guān)系,最后形成結(jié)構(gòu)化的認(rèn)識;第二個(gè)維度是從學(xué)科事實(shí)性知識到提煉一般性方法,再到生成特殊的學(xué)科方法論,最后形成對學(xué)科本質(zhì)的認(rèn)識;第三個(gè)維度體現(xiàn)在認(rèn)知深度的發(fā)展,強(qiáng)調(diào)從知道到理解、應(yīng)用,最后形成綜合運(yùn)用的能力;第四個(gè)維度聚焦運(yùn)用知識與方法解決現(xiàn)實(shí)問題,強(qiáng)調(diào)從一般遷移向全面遷移的進(jìn)階??v向看,每個(gè)維度內(nèi)部呈現(xiàn)的是知識與能力的進(jìn)階;橫向看,第四個(gè)維度是前三個(gè)維度與具體情境的結(jié)合,重視知識與能力在解決問題時(shí)的遷移運(yùn)用。該理論將學(xué)生的知識、能力、思維方法、價(jià)值觀念融合到具體的情境中,學(xué)生完成情境任務(wù)的過程,就是核心素養(yǎng)水平動態(tài)呈現(xiàn)的過程。一言以蔽之,評估學(xué)生核心素養(yǎng)的發(fā)展水平,需要依托對知識、能力、思維方法、價(jià)值觀念的考查,測試情境的難度一定程度上代表了知識、能力、思維方法、價(jià)值觀念的整合程度,情境越難對素養(yǎng)的要求越高。
如前文所述,活動系統(tǒng)數(shù)量和要素多元性決定了測試情境的難度。隨著測試情境難度的加大,學(xué)生掌握知識的豐富性、學(xué)科思想方法的熟練性、能力的整合遷移性也隨之增強(qiáng)。這樣看來,將相同素養(yǎng)在不同難度系數(shù)情境下的表現(xiàn)聯(lián)結(jié)起來,就能建構(gòu)學(xué)生核心素養(yǎng)的動態(tài)特征。傳統(tǒng)考試命題主要以“雙向細(xì)目表”標(biāo)注考試內(nèi)容和掌握水平。這種方式雖方便了評價(jià)的實(shí)施,但也限制了對學(xué)生核心素養(yǎng)發(fā)展水平的監(jiān)測。為了克服傳統(tǒng)評價(jià)量表設(shè)計(jì)上的缺陷,可以采用矩陣的方式重新規(guī)劃評價(jià)量表(見表3)。
表3 是以核心素養(yǎng)“語言運(yùn)用”為例設(shè)計(jì)的評價(jià)量表。量表把“語言運(yùn)用”涉及的三組能力維度定為評價(jià)的縱向維度,把試卷中設(shè)計(jì)的測試情境依據(jù)難易程度橫向排列作為評價(jià)的橫向維度,構(gòu)成了“語言運(yùn)用”素養(yǎng)3×3 矩陣式評價(jià)量表。在矩陣內(nèi)部,可以根據(jù)評價(jià)維度在不同情境中的表現(xiàn),判定相對水平。該水平判定構(gòu)成了表2 上“相對水平”的具體描述。描述的縱向結(jié)構(gòu)生成了該情境下“語言運(yùn)用”素養(yǎng)的考查全貌,對命題有幫助;描述的橫向結(jié)構(gòu)生成了學(xué)生在該評價(jià)維度下的素養(yǎng)發(fā)展“線”,動態(tài)建構(gòu)了每個(gè)學(xué)生在特定核心素養(yǎng)下的表現(xiàn)特征,為個(gè)性化評估提供了依據(jù)。
四、遵循評價(jià)反撥原則,消除預(yù)設(shè)等級與學(xué)生實(shí)際水平的差異
學(xué)業(yè)水平考試的目的不僅在于檢查學(xué)生完成特定階段學(xué)業(yè)后的核心素養(yǎng)發(fā)展水平,還要為判斷學(xué)生核心素養(yǎng)發(fā)展過程中的問題及其原因[14],改進(jìn)教學(xué)提供參考[15]。這就需要評價(jià)標(biāo)準(zhǔn)能夠真實(shí)還原學(xué)生核心素養(yǎng)發(fā)展的實(shí)際水平。從課程實(shí)施的落差視角看,雖然課程標(biāo)準(zhǔn)要求“嚴(yán)格依據(jù)學(xué)業(yè)質(zhì)量要求命題,保證命題框架、試題情境、任務(wù)難度等符合學(xué)業(yè)質(zhì)量要求”[16],但是作為課程主體的學(xué)生和教師,對情境的理解、對知識和能力的掌握情況存在個(gè)體差異。這種差異就導(dǎo)致難以用預(yù)設(shè)水平取代學(xué)生的實(shí)際作答水平。因此,要想準(zhǔn)確評定學(xué)生能力與素養(yǎng)的發(fā)展水平,就需要首先解決預(yù)設(shè)水平與實(shí)際水平之間的差異化問題。[17]
可以借鑒美國心理學(xué)家梅斯雷弗(Mislevy R.J.)提出的ECD(以證據(jù)為中心的評價(jià)設(shè)計(jì))模型建構(gòu)“指向問題解決過程的評分設(shè)計(jì)思路”。其核心旨趣是建構(gòu)符合核心素養(yǎng)考查要求的評分機(jī)制,與本研究的核心目的切合,可以遷移運(yùn)用。修改后的框架如圖1 所示。
評分設(shè)計(jì)思路既可以用于評定學(xué)生認(rèn)知能力水平和非認(rèn)知能力水平,也可以用于評定特定難度測試情境下學(xué)生核心素養(yǎng)的相對水平。評分設(shè)計(jì)思路以測試情境為單位,分為自上而下的“先驗(yàn)等級”和自下而上的“實(shí)際作答等級”兩個(gè)部分。前者以課程標(biāo)準(zhǔn)中學(xué)業(yè)質(zhì)量標(biāo)準(zhǔn)的相關(guān)要求為依據(jù),建立符合學(xué)科核心素養(yǎng)和能力發(fā)展要求的分?jǐn)?shù)(等級)劃分框架;后者以學(xué)生在完成特定情境測試任務(wù)的具體表現(xiàn)為依據(jù),根據(jù)學(xué)生的作答情況劃定核心素養(yǎng)和能力發(fā)展的實(shí)際等級。在正式開展學(xué)業(yè)水平考試評分工作前,評價(jià)人員要分別建構(gòu)兩個(gè)框架,并互為參照,動態(tài)生成既符合學(xué)業(yè)質(zhì)量標(biāo)準(zhǔn)要求,又符合學(xué)生實(shí)際表現(xiàn)的有區(qū)分度的評價(jià)標(biāo)準(zhǔn)。以此為工具評定的認(rèn)知能力和非認(rèn)知能力、核心素養(yǎng)相對水平,能夠客觀反映學(xué)生與學(xué)業(yè)質(zhì)量標(biāo)準(zhǔn)的差距,為改進(jìn)教學(xué)提供參考。
開發(fā)符合核心素養(yǎng)要求的學(xué)業(yè)水平考試工具雖然重要,但缺少能夠彰顯核心素養(yǎng)發(fā)展水平的配套評分標(biāo)準(zhǔn),也難以真正評估學(xué)生的核心素養(yǎng)。本研究根據(jù)當(dāng)前基于核心素養(yǎng)的學(xué)業(yè)水平考試命題特征,從評分框架的內(nèi)容與結(jié)構(gòu)維度、評價(jià)量表設(shè)計(jì)思路與核心素養(yǎng)考查的適切性維度、評分機(jī)制反映學(xué)生真實(shí)表現(xiàn)維度著手,探究了核心素養(yǎng)立意的學(xué)業(yè)水平考試評價(jià)標(biāo)準(zhǔn)的制定方法與應(yīng)用模式。此方法和模式還需要在評價(jià)實(shí)踐中進(jìn)一步檢驗(yàn),期待為準(zhǔn)確評定學(xué)生核心素養(yǎng)、促進(jìn)“教—學(xué)—評”一體化提供參考。