宋佳(上海師范大學(xué)國際與比較教育研究院教師,教育學(xué)博士)
張民選(上海師范大學(xué)國際與比較教育研究院院長,教授,博士生導(dǎo)師)
近年來,大型標(biāo)準(zhǔn)化、國際化學(xué)習(xí)測(cè)評(píng)方興未艾,如國際學(xué)生評(píng)估項(xiàng)目(PISA)、國際數(shù)學(xué)與科學(xué)趨勢(shì)研究(TIMSS)等,影響著諸多國家的教育形態(tài)變革和政策改進(jìn)。學(xué)習(xí)測(cè)評(píng)的內(nèi)容也進(jìn)一步豐富多元,不局限于數(shù)學(xué)、科學(xué)、閱讀等,逐漸發(fā)展出對(duì)數(shù)字技能、計(jì)算機(jī)和信息素養(yǎng)、社情技能、公民素養(yǎng)等的測(cè)評(píng)指向。除了國際大型測(cè)評(píng)項(xiàng)目,諸多國家也在積極開發(fā)和實(shí)施國內(nèi)的大型學(xué)習(xí)測(cè)評(píng),旨在關(guān)注學(xué)生學(xué)習(xí)成效及問題,如教師質(zhì)量、學(xué)校環(huán)境、家長支持、社會(huì)情感發(fā)展等,以進(jìn)一步優(yōu)化教育系統(tǒng),追求教學(xué)卓越,對(duì)標(biāo)教育成效。但與此同時(shí),大型學(xué)習(xí)測(cè)評(píng)也出現(xiàn)了一些不可避免的消極效應(yīng)或影響,如評(píng)估數(shù)據(jù)的錯(cuò)誤運(yùn)用、可能損害教育公平,等等。
首先,大型學(xué)習(xí)測(cè)評(píng)窄化了教育本質(zhì)和學(xué)習(xí)的內(nèi)涵。教育目的應(yīng)該是多樣化的,包括促進(jìn)學(xué)生個(gè)體德智體美勞全面發(fā)展、促進(jìn)社會(huì)進(jìn)步與和諧、促進(jìn)人類命運(yùn)共同體構(gòu)建等。教育與個(gè)體、集體福祉密切相關(guān),在政治、經(jīng)濟(jì)、文化、環(huán)境、道德等方面都能而且應(yīng)該發(fā)揮作用。聯(lián)合國教科文組織曾在1996 年提出教育的四大支柱,即學(xué)會(huì)求知、學(xué)會(huì)做事、學(xué)會(huì)共處、學(xué)會(huì)做人。學(xué)會(huì)求知,即學(xué)習(xí)如何獲取基礎(chǔ)知識(shí)和可轉(zhuǎn)移技能,它是終身學(xué)習(xí)的基礎(chǔ),也是積極參與學(xué)習(xí)型社會(huì)的良好準(zhǔn)備;學(xué)會(huì)做事,即將所學(xué)知識(shí)技能運(yùn)用到自己熟悉和無法預(yù)見的工作生活中;學(xué)會(huì)共處,即學(xué)會(huì)理解他人,尊重人類的尊嚴(yán)、多樣性和多元文化;學(xué)會(huì)做人,即通過開發(fā)個(gè)人的個(gè)性與能力去獨(dú)立判斷和承擔(dān)責(zé)任。這四大支柱與人類社會(huì)的可持續(xù)發(fā)展息息相關(guān),但是,大型測(cè)評(píng)往往關(guān)注的是容易測(cè)量且具有國際可比性的領(lǐng)域,這些技能通常是基礎(chǔ)性的,如閱讀和數(shù)學(xué)被視為其他知識(shí)技能素養(yǎng)的基礎(chǔ),與此同時(shí),這可能會(huì)導(dǎo)致其他學(xué)習(xí)領(lǐng)域以及多樣化的教育目的被忽略。尤其是在過度倚賴大型量化測(cè)評(píng)的教育系統(tǒng)中,難以量化的學(xué)習(xí)領(lǐng)域,如社情技能、合作、創(chuàng)造力、道德倫理等和個(gè)性發(fā)展密切相關(guān)的領(lǐng)域由于無法測(cè)評(píng),其在教育系統(tǒng)的重要性常常被消減。尤其值得提及的是,這種測(cè)評(píng)容易產(chǎn)生“蝴蝶效應(yīng)”,即在學(xué)校外,家庭、教育培訓(xùn)市場(chǎng)、社會(huì)可能會(huì)效仿大型測(cè)評(píng)所攜帶或體現(xiàn)出的價(jià)值觀,進(jìn)而使得窄化教育目的的消極影響不斷外溢。
其次,大型學(xué)習(xí)測(cè)評(píng)有降低教育質(zhì)量的風(fēng)險(xiǎn)。傳統(tǒng)上衡量教育質(zhì)量的指標(biāo)主要包括各種教育輸入因素,如生師比、生均教育投入、熟練教師比例等。近十多年來,學(xué)習(xí)結(jié)果漸漸成為衡量教育質(zhì)量的核心指標(biāo)。聯(lián)合國教科文組織指出:學(xué)生學(xué)習(xí)結(jié)果不應(yīng)被孤立看待,教育質(zhì)量還應(yīng)該包括其他維度,例如,教育的公平性、安全的學(xué)習(xí)環(huán)境、充足的學(xué)習(xí)資源、公平配置的教師資源、課程的相關(guān)性、良好的學(xué)校領(lǐng)導(dǎo)等。一旦學(xué)習(xí)結(jié)果成為判斷教育質(zhì)量的唯一指針,提升教育質(zhì)量的行動(dòng)及其影響因素就可能會(huì)誤入歧途。
第三,大型學(xué)習(xí)測(cè)評(píng)會(huì)給教育價(jià)值觀帶來限制。一是大型學(xué)習(xí)測(cè)評(píng)項(xiàng)目具有局限性,對(duì)教育領(lǐng)域其他知識(shí)技能沒有或者無法開展測(cè)評(píng),客觀上導(dǎo)致教育價(jià)值觀的窄化;二是在業(yè)已開展測(cè)評(píng)的項(xiàng)目范圍內(nèi),也無法對(duì)其所有方面進(jìn)行完全測(cè)評(píng),如在測(cè)試語文素養(yǎng)方面,文獻(xiàn)賞析、寫作技能、聽力綜合等往往不在測(cè)評(píng)范圍內(nèi),但這些實(shí)際上也是語文學(xué)科的重要學(xué)習(xí)內(nèi)容。對(duì)標(biāo)聯(lián)合國教科文組織提出的“教育2030行動(dòng)框架”中教育可持續(xù)發(fā)展目標(biāo),即促進(jìn)包容、公平、有質(zhì)量的教育,實(shí)現(xiàn)終身教育體系。我們也可以看到,近些年來大型學(xué)習(xí)測(cè)評(píng)開始逐漸關(guān)注測(cè)評(píng)項(xiàng)目中涉及健康生活方式、全球公民教育、創(chuàng)造性、尊重文化、合作能力、數(shù)字化能力等方面的內(nèi)容,但其作用還遠(yuǎn)遠(yuǎn)不夠,因?yàn)榭沙掷m(xù)發(fā)展教育的目標(biāo)還包括很多,學(xué)生所需核心素養(yǎng)往往也是多層面的。
最后,大型學(xué)習(xí)測(cè)評(píng)有違背包容性教育的可能。其原因是,在大型測(cè)評(píng)中有些學(xué)生會(huì)被排除在外?!敖逃?030 行動(dòng)框架”中,公平的教育意味著所有學(xué)生都應(yīng)享有平等的教育機(jī)會(huì)與教育過程,但現(xiàn)實(shí)中大型學(xué)習(xí)測(cè)評(píng)一般是面向正規(guī)教育系統(tǒng)和有注冊(cè)的學(xué)校機(jī)構(gòu)的,是針對(duì)某些群體學(xué)生或抽樣學(xué)生的,這樣一來,一些校外學(xué)生、非在冊(cè)學(xué)生、特殊教育學(xué)生或是邊緣化的弱勢(shì)群體等就會(huì)被隱性排除在外,這有違公平教育的宗旨。有時(shí)候,在偏遠(yuǎn)鄉(xiāng)村的學(xué)校可能會(huì)整體被排除在測(cè)試之外。這種情況在語言多樣性的國家會(huì)更為明顯,有些學(xué)生會(huì)因?yàn)椴欢俜秸Z言而無法參加測(cè)試,也有些學(xué)生參加測(cè)試但因語言不熟悉而在測(cè)試中無法表現(xiàn)其真實(shí)水平。另外,還應(yīng)警惕大型測(cè)試中出現(xiàn)的“地板效應(yīng)”,即有些測(cè)評(píng)為了實(shí)現(xiàn)國內(nèi)不同地區(qū)或是不同國家之間的可比性,測(cè)驗(yàn)題目過難,致使某些弱勢(shì)群體或是大部分個(gè)體出現(xiàn)得分普遍較低的現(xiàn)象,不同個(gè)體之間差別變得非常小。這種犧牲本土性效度而一味追求測(cè)試公平的做法有可能難以真正展示當(dāng)?shù)貙W(xué)生的真實(shí)學(xué)習(xí)情況,很難體現(xiàn)出學(xué)生的差異和進(jìn)步,對(duì)于實(shí)現(xiàn)教育公平也是不利的。
學(xué)習(xí)測(cè)評(píng)結(jié)果的錯(cuò)誤運(yùn)用可能會(huì)導(dǎo)致教育管理者無法鑒定教育系統(tǒng)中的“病因”所在,或是“對(duì)癥亂下藥”,給出錯(cuò)誤的解決之道,或是將測(cè)評(píng)結(jié)果與不相干的問責(zé)工具結(jié)合起來,對(duì)教育系統(tǒng)發(fā)展造成消極影響。
首先是對(duì)測(cè)評(píng)中的重要概念術(shù)語把握不到位。一是不能區(qū)分測(cè)試結(jié)果與證據(jù)。測(cè)試結(jié)果往往是單一的,如男生、女生在某學(xué)科的測(cè)試平均分,或是某一群體在不同水平段的成績分布。但證據(jù)是指一系列發(fā)現(xiàn)形成的證據(jù)鏈,通常通過描述趨勢(shì)、界定類別與范式、指出關(guān)鍵因素等來解釋特定的規(guī)律或是強(qiáng)調(diào)政策介入的潛在領(lǐng)域?;跍y(cè)評(píng)的政策優(yōu)化應(yīng)根據(jù)證據(jù),而非單一的結(jié)果。二是不能明晰數(shù)據(jù)分析與使用的區(qū)別。數(shù)據(jù)分析一般是專家學(xué)者所為,而使用者通常是政策制定者。專家學(xué)者根據(jù)學(xué)習(xí)結(jié)果和學(xué)生背景數(shù)據(jù)分析影響學(xué)習(xí)結(jié)果的因素,以及學(xué)習(xí)結(jié)果趨勢(shì),并就某些特定目標(biāo)評(píng)估學(xué)生進(jìn)步,分析不同分類維度下學(xué)生學(xué)習(xí)結(jié)果的差異。而政策制定者會(huì)利用這些數(shù)據(jù)的分析結(jié)果來實(shí)行政策介入,包括教育監(jiān)測(cè)和評(píng)估、制定政策、設(shè)定政策議程、問責(zé)等。
其次是數(shù)據(jù)的運(yùn)用不充分。在某些情況下,由于資金或是管理等原因,如專家的不專業(yè)、當(dāng)?shù)卦u(píng)估過程管理的失誤、缺乏政治意志的參與、無法理順評(píng)估與其他教育實(shí)踐的關(guān)系、評(píng)估的信度與效度問題、數(shù)據(jù)分析的不深入等,大型學(xué)習(xí)測(cè)評(píng)的結(jié)果往往得不到有效利用,也無法有效改善實(shí)踐。數(shù)據(jù)的利用涉及多方利益相關(guān)者,如教育行政管理者、學(xué)校校長、教師、家長、社會(huì)大眾等,如果數(shù)據(jù)沒有被詳細(xì)分析或者各利益相關(guān)者沒有得到合適的、有針對(duì)性的數(shù)據(jù),那么,教育改進(jìn)的過程就有可能打折扣。影響數(shù)據(jù)運(yùn)用的另外一個(gè)原因是,國家或者政府對(duì)數(shù)據(jù)使用權(quán)限的限制導(dǎo)致測(cè)評(píng)無法被有效運(yùn)用。很多大型學(xué)習(xí)測(cè)評(píng)是由國際組織資助并主導(dǎo)實(shí)施的,數(shù)據(jù)的所有權(quán)屬于國際組織,參與國或地區(qū)在獲取充足數(shù)據(jù)上受到限制,這會(huì)導(dǎo)致教育利益相關(guān)者對(duì)數(shù)據(jù)的不完全解讀,進(jìn)而誤導(dǎo)政策走向。
第三是對(duì)數(shù)據(jù)的過度解讀和使用。相比國際大型測(cè)評(píng)項(xiàng)目的數(shù)據(jù)透明性,國家內(nèi)部的測(cè)評(píng)往往只有少數(shù)會(huì)公布全部數(shù)據(jù),更多情況下是通過媒體發(fā)布測(cè)評(píng)結(jié)果。而紙質(zhì)或是數(shù)字化媒體在傳播測(cè)評(píng)結(jié)果時(shí),有時(shí)會(huì)夸大其詞、運(yùn)用情緒化語詞、將單一結(jié)果放大等,由于媒體話語對(duì)政策優(yōu)化具有一定影響力,從而導(dǎo)致測(cè)評(píng)結(jié)果的過度使用。測(cè)評(píng)結(jié)果往往通過直觀的圖表對(duì)比呈現(xiàn),尤其是對(duì)于國際大型測(cè)評(píng)項(xiàng)目來講,一些表現(xiàn)較差的參與國或地區(qū)的政府人員倍感壓力,他們會(huì)對(duì)標(biāo)對(duì)本地要求教育系統(tǒng)提升測(cè)評(píng)排名和表現(xiàn),亦或是要求教育系統(tǒng)充分借鑒表現(xiàn)好的參與國或地區(qū)的經(jīng)驗(yàn)、做法,在此過程中可能出現(xiàn)忽視本國實(shí)際情況和教育結(jié)構(gòu)體系獨(dú)特性等問題,從而使教育改革浮于表面或出現(xiàn)更大失誤。有一些參與國或地區(qū)往往會(huì)根據(jù)測(cè)評(píng)結(jié)果確定財(cái)政撥款,這樣一來,表現(xiàn)不好的學(xué)校將更難獲得撥款。這種財(cái)政撥款機(jī)制可能帶來兩種風(fēng)險(xiǎn):一是“差?!卑l(fā)展將更加困難;二是有些學(xué)校會(huì)采取投機(jī)取巧方法應(yīng)對(duì)測(cè)評(píng),如選拔高水平的學(xué)生、不斷強(qiáng)化測(cè)試訓(xùn)練等,二者都將損害教育生態(tài)。
第四是將測(cè)試與問責(zé)機(jī)制相結(jié)合。越來越多的國家將學(xué)習(xí)測(cè)評(píng)看成是問責(zé)的有效手段和重要組成部分,問責(zé)結(jié)果往往與財(cái)政激勵(lì)、個(gè)人升遷機(jī)會(huì)、增加學(xué)校自主權(quán)等相關(guān)。問責(zé)手段與結(jié)果的高利害性會(huì)讓一些學(xué)校將測(cè)評(píng)得分視為核心使命,從而出現(xiàn)過度“應(yīng)試”現(xiàn)象。在學(xué)校內(nèi)部,不少地方將學(xué)生成績和教師收入掛鉤,如根據(jù)學(xué)生成績決定教師晉升、工資待遇、發(fā)展機(jī)會(huì)等。有證據(jù)表明,這一現(xiàn)象會(huì)造成教師間的不良競(jìng)爭(zhēng),降低他們的教學(xué)動(dòng)機(jī),導(dǎo)致“為測(cè)試而教”。有些教師因不堪忍受高壓教學(xué)工作環(huán)境離開教師行業(yè),這無疑給教師隊(duì)伍的穩(wěn)定性帶來隱憂。
聯(lián)合國教科文組織指出,客觀看待、運(yùn)用大型學(xué)習(xí)測(cè)評(píng)必須將其置于測(cè)試所在的國家、地區(qū)和學(xué)校環(huán)境中,這要求教育管理者在分析測(cè)評(píng)結(jié)果和借鑒他國經(jīng)驗(yàn)時(shí)必須充分考慮本國本地區(qū)的實(shí)際情況。任何測(cè)評(píng)都不會(huì)是完美的,都不可能完全實(shí)現(xiàn)所有利益相關(guān)者的期待和愿景。因此,除了反思、改進(jìn)大型學(xué)習(xí)測(cè)評(píng)本身,我們還可以豐富其他類型的測(cè)評(píng),完善測(cè)評(píng)機(jī)制,例如豐富微觀層面的課堂測(cè)評(píng)、同行評(píng)價(jià),加強(qiáng)形成性評(píng)價(jià)和診斷性評(píng)價(jià),增加測(cè)評(píng)外的觀察等。除此之外,未來關(guān)于大型學(xué)習(xí)測(cè)評(píng)的道德性與倫理性還需進(jìn)一步加強(qiáng)研究,包括測(cè)評(píng)者的知情同意、測(cè)試的透明性、數(shù)據(jù)所有權(quán)、數(shù)據(jù)安全和匿名性等。
教育測(cè)量與評(píng)價(jià)2020年10期