劉 驥 張 晉
黨的二十大報(bào)告明確提出“加快建設(shè)教育強(qiáng)國、辦好人民滿意的教育”,將教育強(qiáng)國建設(shè)事業(yè)放在歷史性的戰(zhàn)略位置。在中共中央政治局第五次集體學(xué)習(xí)中,習(xí)近平總書記聚焦教育強(qiáng)國建設(shè),強(qiáng)調(diào)“要堅(jiān)持把高質(zhì)量發(fā)展作為各級各類教育的生命線,建設(shè)高質(zhì)量教育體系”,為我國新時(shí)代教育事業(yè)改革發(fā)展指明了戰(zhàn)略方向。[1]這一背景下,如何聚焦教育質(zhì)量問題找差距、補(bǔ)短板、強(qiáng)弱項(xiàng),有效統(tǒng)籌資源推動教育優(yōu)質(zhì)均衡高質(zhì)量發(fā)展,成為新時(shí)代新征程教育改革的重要議題。大規(guī)模學(xué)業(yè)測評作為教育質(zhì)量監(jiān)測的重要內(nèi)容,一方面能引導(dǎo)社會樹立正確的教育質(zhì)量觀、修正教育發(fā)展方向,發(fā)揮了“指揮棒”的導(dǎo)向作用。另一方面可通過量化評估學(xué)生在教育中獲得的知識、技能與能力反映當(dāng)前教育教學(xué)狀況,為國家了解與改進(jìn)教育質(zhì)量提供依據(jù),發(fā)揮了“體檢儀”的診斷作用。[2]以大規(guī)模學(xué)業(yè)測評系統(tǒng)性引導(dǎo)、診斷與改進(jìn)教育發(fā)展,對于前瞻布局我國教育發(fā)展方向、建設(shè)高質(zhì)量教育體系與建設(shè)教育強(qiáng)國具有重要意義。據(jù)此本文基于大規(guī)模教育測評如何助力教育高質(zhì)量發(fā)展的現(xiàn)實(shí)問題,對大規(guī)模學(xué)業(yè)測評的國內(nèi)外經(jīng)驗(yàn)與發(fā)展趨勢進(jìn)行剖析,以回應(yīng)教育強(qiáng)國背景下加快建設(shè)高質(zhì)量教育發(fā)展體系的現(xiàn)實(shí)需求。
大規(guī)模學(xué)業(yè)測評產(chǎn)生反映了人力資本時(shí)代以人才與科技為代表的綜合國力競爭對教育質(zhì)量提升的需求,是世界各國逐漸重視教育質(zhì)量與追求教育變革共同推動的結(jié)果。第二次世界大戰(zhàn)以后,全球經(jīng)濟(jì)在經(jīng)歷了短暫的經(jīng)濟(jì)復(fù)蘇與快速發(fā)展后再次陷入發(fā)展瓶頸。各國逐漸發(fā)現(xiàn)高額物質(zhì)資本投入面臨著邊際遞減效應(yīng),難以滿足國家綜合國力發(fā)展的需要,而由人力資本投入所推動的人才與科技發(fā)展在國際競爭中的地位和作用愈加突顯,開始呈現(xiàn)以“物”立國向以“人”強(qiáng)國轉(zhuǎn)變的發(fā)展趨勢。由此,教育與人才科技發(fā)展的重要關(guān)聯(lián)得到各國重視,其紛紛將教育視為強(qiáng)國發(fā)展的重要支撐,掀起了以教育質(zhì)量推動綜合國力提升的改革浪潮。這一背景下,大規(guī)模學(xué)業(yè)測評作為深入了解教育發(fā)展現(xiàn)狀與支撐教育決策服務(wù)的重要工具應(yīng)運(yùn)而生。
隨著“二戰(zhàn)”后重建工作的快速推進(jìn),世界各國希望以更快發(fā)展速度回應(yīng)民眾對生活質(zhì)量提高與國家實(shí)力增長的企盼。而由于基本工業(yè)化推進(jìn)速度較快,歐洲國家較早發(fā)現(xiàn)由物質(zhì)資本投入邊際收益遞減導(dǎo)致的經(jīng)濟(jì)增長乏力問題。這一背景下,教育作為國家發(fā)展重要支撐的功能開始進(jìn)入到歐洲各國政策革新視野。而面對科研成本的不斷提升,單個國家已很難維系大規(guī)模教育質(zhì)量研究所需的巨額開支,這進(jìn)一步加快了歐洲各國開展更具系統(tǒng)性與組織性的國際科研合作進(jìn)程,以實(shí)現(xiàn)其利用較低成本提升國家發(fā)展能力的目標(biāo)。[3]因此,1958 年起英國、法國、比利時(shí)、芬蘭等12 個國家聯(lián)合開啟了對大規(guī)模學(xué)業(yè)測評的研究。同年在位于德國漢堡市的聯(lián)合國教科文組織教育研究所(UNESCO Institute for Education)內(nèi),由教育心理學(xué)家與社會學(xué)家組成的各國核心研討小組初步確立了以某一年級畢業(yè)率衡量整體教育質(zhì)量的早期監(jiān)測思路。[4]完成測評設(shè)計(jì)的基礎(chǔ)上,1959 年這些國家在國際教育成就評價(jià)協(xié)會(IEA)的組織下,發(fā)起了首次大規(guī)模學(xué)業(yè)測評。該項(xiàng)研究以參測國家的9918 名13 歲學(xué)生為樣本,通過衡量其在數(shù)學(xué)、閱讀、地理、科學(xué)與非語言能力(non-verbal ability)共五個領(lǐng)域的表現(xiàn)研判教育發(fā)展?fàn)顩r,其測評結(jié)果由哥倫比亞大學(xué)福謝(Foshay)教授編撰成《十二國十三歲兒童的教育成就》(Educational Achievements of Thirteen-year-olds in Twelve Countries)研究報(bào)告。[5]1964 年,IEA 進(jìn)一步就大規(guī)模學(xué)業(yè)測評實(shí)施方法進(jìn)行完善,在完整提出測量問卷、態(tài)度量表與研究方案的基礎(chǔ)上,聚焦數(shù)學(xué)這一同科學(xué)研究與國家發(fā)展息息相關(guān)的基礎(chǔ)科目,開展“首次國際數(shù)學(xué)研究”(First International Mathematics Study)項(xiàng)目。這次測評的實(shí)施不僅再次證明大規(guī)模學(xué)業(yè)測評促進(jìn)教育發(fā)展的可行性,更標(biāo)志著以大規(guī)模學(xué)業(yè)測評提升教育質(zhì)量、增強(qiáng)國家綜合實(shí)力理念的確立。
20 世紀(jì)60 年代末,美國在多重因素疊加推動下也加入利用大規(guī)模學(xué)業(yè)測評提升綜合國力的模式探索中。具體而言,美國開發(fā)大規(guī)模學(xué)業(yè)測評項(xiàng)目主要有三方面原因。一是在可行性驗(yàn)證方面,歐洲多國的實(shí)踐經(jīng)歷證明了大規(guī)模學(xué)業(yè)測評促進(jìn)教育發(fā)展的方案可行,為美國開展測評活動提供了基本經(jīng)驗(yàn)借鑒。二是在綜合國力提升方面,自1957 年以來美國與前蘇聯(lián)爭霸的愈演愈烈加劇了美國在綜合國力競爭中的焦慮,使其意識到提升人才培養(yǎng)與科技研究的能力迫在眉睫,并將教育提升到國家安全高度,期望通過教育發(fā)展推動國家綜合實(shí)力快速提升。[6]因此,美國于1985 年出臺《國防教育法案》(National Defense Education Act),提出加大國家對教育領(lǐng)域的財(cái)政投入,并開啟了針對教育質(zhì)量問題的改革。三是在社會向心力凝聚方面,1965 年時(shí)任美國總統(tǒng)林登·約翰遜(Lyndon Johnson)發(fā)起“面向貧困的戰(zhàn)爭”(War On Poverty),并將教育作為這場“脫貧攻堅(jiān)”的支柱性環(huán)節(jié)。在同年頒布的《初等和中等教育法案》(Elementary and Secondary Education Act)中,其核心部分的第一條款便是“改進(jìn)低收入家庭學(xué)生學(xué)業(yè)成就項(xiàng)目”,突出強(qiáng)調(diào)了教育質(zhì)量改進(jìn)對解決深層次貧困問題、緩解社會矛盾、提高社會凝聚力的重要推動作用。[7]這一背景下,美國于1969年經(jīng)由“教育評價(jià)之父”拉爾夫·泰勒(Ralph Tyler)的指導(dǎo),開展了旨在對全美基礎(chǔ)教育階段學(xué)生學(xué)業(yè)成績進(jìn)行長期連續(xù)評估的“國家教育進(jìn)展評估”(NAEP)項(xiàng)目。[8]NAEP 共有主評估、長期趨勢評估、州評估與實(shí)驗(yàn)性城市地區(qū)評估四類模式,以9 歲、13 歲和17 歲學(xué)生為測評樣本,著重關(guān)注了全美中小學(xué)生閱讀、數(shù)學(xué)、科學(xué)等學(xué)科的學(xué)術(shù)表現(xiàn)與發(fā)展趨勢分析,被稱為美國教育發(fā)展的“國家成績單”(The Nation’s Report Card)。而后進(jìn)入20 世紀(jì)80 年代,隨著基于標(biāo)準(zhǔn)的教育改革運(yùn)動從美國興起并迅速席卷全球,以教育質(zhì)量提高促進(jìn)國家現(xiàn)代化發(fā)展的模式逐漸拓展到歐洲與東亞地區(qū)的發(fā)達(dá)國家中。在歐洲地區(qū),以1988 年英國《教育改革法案》與1989 年法國《教育指導(dǎo)法》為代表,多國相繼通過教育改革法案的方式調(diào)整核心課程結(jié)構(gòu)、完善質(zhì)量測評標(biāo)準(zhǔn),從制度層面推動了國家測評體系的建立。[9]在東亞地區(qū),日本和韓國以NAEP 為范本,建立了日本全國學(xué)力調(diào)查(NAAA)與韓國國家教育成就評估(NAEA),從實(shí)踐層面推動了國家測評體系的發(fā)展。[10]由此,大規(guī)模學(xué)業(yè)測評從國家綜合實(shí)力與凝聚社會向心力兩條路徑促進(jìn)高質(zhì)量的現(xiàn)代化的模式得以確立。
在20 世紀(jì)90 年代冷戰(zhàn)結(jié)束與全球化逐漸推進(jìn)的背景下,以大規(guī)模學(xué)業(yè)測評推動綜合國力發(fā)展的模式在國際組織的推動下向全球范圍拓展。1990 年世界全民教育大會(World Conference for Education for All)提出全民教育思想并動員各國為實(shí)現(xiàn)全民教育目標(biāo)采取行動,成為發(fā)展中國家開展大規(guī)模學(xué)業(yè)測評的直接推動力量。受全民教育目標(biāo)的驅(qū)動,聯(lián)合國教科文組織(UNESCO)與聯(lián)合國兒童基金會(UNICEF)在1992年共同實(shí)施了學(xué)習(xí)成果監(jiān)測項(xiàng)目(Monitoring Learning Achievement Project),其主要目的是協(xié)助發(fā)展中國家建立本國的學(xué)業(yè)測評體系,用以監(jiān)測其基礎(chǔ)教育發(fā)展?fàn)顩r、為教育政策的制定與完善提供循證依據(jù)與技術(shù)支持。為了幫助發(fā)展中國家實(shí)現(xiàn)全民教育的目標(biāo),1992年聯(lián)合國教科文組織(UNESCO)同聯(lián)合國兒童基金會(UNICEF)共同實(shí)施了學(xué)習(xí)成果監(jiān)測項(xiàng)目(Monitoring Learning Achievement Project),首要目標(biāo)是幫助發(fā)展中國家建立本國的學(xué)業(yè)測評體系,用以監(jiān)測本國基礎(chǔ)教育質(zhì)量、為教育政策的制定與改進(jìn)提供分析工具與數(shù)據(jù)。該項(xiàng)目通過測評學(xué)生受教育四年后的識字、算術(shù)與生活技能等基本學(xué)習(xí)能力,并結(jié)合學(xué)生所處的家庭環(huán)境、社會背景等因素綜合分析國家教育質(zhì)量發(fā)展水平,共覆蓋了非洲、亞洲、拉丁美洲等地共47 個國家,幫助約一半的非洲國家完成了首次大規(guī)模學(xué)業(yè)測評。[11]除此之外,1992 年經(jīng)濟(jì)合作與發(fā)展組織(OECD,簡稱經(jīng)合組織)建立了跨國教育指標(biāo)與評價(jià)項(xiàng)目,并在該項(xiàng)目的基礎(chǔ)上出版了名為《教育概覽:經(jīng)合組織指標(biāo)》(Education at a Glance:OECD Indicators)的教育統(tǒng)計(jì)報(bào)告,提出了一套較為完整的國際教育質(zhì)量指標(biāo)體系,也加速推動了新一輪具有國際可比性的大規(guī)模學(xué)業(yè)測評項(xiàng)目的出現(xiàn)。[12]1995 年,IEA 再次跨國組織大規(guī)模學(xué)業(yè)測評活動,重新開展了國際數(shù)學(xué)和科學(xué)趨勢研究(TIMSS) ,固定以4 年為周期對4 年級和8 年級學(xué)生的學(xué)習(xí)狀況進(jìn)行測評。1997 年,經(jīng)合組織正式啟動國際學(xué)生評估項(xiàng)目(PISA),該項(xiàng)目自2000 年起以3 年為一周期評估15 歲學(xué)生在閱讀、數(shù)學(xué)和科學(xué)等領(lǐng)域?qū)W習(xí)結(jié)果,并通過可視化的綜合成績與國際排名展現(xiàn)各國教育發(fā)展現(xiàn)狀與潛力。目前已有全球逾90 余經(jīng)濟(jì)體、超過300 余萬學(xué)生參與其中。隨著國際大規(guī)模學(xué)業(yè)測評項(xiàng)目在全球范圍內(nèi)拓展,各國逐漸對優(yōu)質(zhì)教育促進(jìn)人類進(jìn)步的方案達(dá)成全球共識,促進(jìn)教育改革、提升教育質(zhì)量等多項(xiàng)議題進(jìn)入國際社會的議事日程。
從發(fā)展軌跡上看,我國對教育質(zhì)量的關(guān)注與國家不同階段的戰(zhàn)略進(jìn)程相伴相生,始終圍繞“為誰培養(yǎng)人、培養(yǎng)什么人、怎樣培養(yǎng)人”的教育根本問題,積極開展教育全過程的質(zhì)量保障模式探索。新中國成立伊始,國家便以人民發(fā)展為根本大力推動教育改革,要求“有計(jì)劃地、有步驟地改革舊的教育制度”與“有計(jì)劃地、有步驟地實(shí)行普及教育”。[13]伴隨著新中國教育體系的不斷完善,以保障教育質(zhì)量為目的的教育督導(dǎo)被列進(jìn)教育事業(yè)發(fā)展的戰(zhàn)略謀劃中,肩負(fù)起推進(jìn)國家教育制度建設(shè)、促進(jìn)教育全方位發(fā)展的重要使命。[14]這一時(shí)期,教育質(zhì)量觀依托教育督導(dǎo)實(shí)踐逐漸萌芽,為我國陸續(xù)探索以教育督導(dǎo)、教育監(jiān)測和全過程質(zhì)量保障助力強(qiáng)國建設(shè)做了鋪墊。自改革開放以來,我國改善教育質(zhì)量的探索歷程可劃分為三階段。
自改革開放到新世紀(jì)之初,我國依托于教育督導(dǎo)活動開展輸入型教育質(zhì)量保障的實(shí)踐探索。十一屆三中全會以來,以體制改革為特征的社會改革推動了中國社會的現(xiàn)代化進(jìn)程,教育與國家發(fā)展的關(guān)系也由此進(jìn)入到嶄新的歷史階段。這一時(shí)期,鄧小平指出教育是國家現(xiàn)代化建設(shè)的重要人力基礎(chǔ),著重強(qiáng)調(diào)教育在促進(jìn)科技發(fā)展與開展社會主義現(xiàn)代化建設(shè)方面的基礎(chǔ)性、長期性作用。[15]為滿足國家培養(yǎng)高質(zhì)量人才的需要,國務(wù)院于1985 年頒布《關(guān)于第七個五年計(jì)劃的報(bào)告》,指出“要增強(qiáng)教育事業(yè)的管理,逐步建立系統(tǒng)性的教育評估和監(jiān)督制度”,明晰了教育督導(dǎo)在我國教育發(fā)展的重要地位。[16]在20世紀(jì)90年代初,國家頒布《教育督導(dǎo)暫行規(guī)定》,首次以出臺法規(guī)性文件的方式明確提出教育督導(dǎo)制,并規(guī)定“教育督導(dǎo)的任務(wù)是:保證國家有關(guān)教育的方針、政策、法規(guī)的貫徹執(zhí)行和教育目標(biāo)的實(shí)現(xiàn)”,標(biāo)示著教育督導(dǎo)步入法制化軌道。[17]在此基礎(chǔ)上,1992 年《中華人民共和國義務(wù)教育法實(shí)施細(xì)則》提出“縣級以上政府應(yīng)當(dāng)建立對實(shí)施義務(wù)教育工作進(jìn)行監(jiān)督、指導(dǎo)、檢查的制度”。[18]隨著教育督導(dǎo)制度的發(fā)展完善,以測評引領(lǐng)教育質(zhì)量發(fā)展的初步實(shí)踐也隨之出現(xiàn)。2001 年,國家教育督導(dǎo)團(tuán)下發(fā)《關(guān)于加強(qiáng)基礎(chǔ)教育督導(dǎo)工作的意見》,規(guī)定“建立適應(yīng)素質(zhì)教育要求的督導(dǎo)評估機(jī)制、保證素質(zhì)教育順利實(shí)施”,開始在全國范圍內(nèi)選取若干市縣部署學(xué)業(yè)測評實(shí)踐活動。[19]2002 年教育部正式開始“全國義務(wù)教育監(jiān)測項(xiàng)目”,對我國60個城市義務(wù)教育發(fā)展現(xiàn)狀、教師素質(zhì)、學(xué)校環(huán)境等事關(guān)教育質(zhì)量提升的關(guān)鍵因素實(shí)施了評估。同年,教育部工作計(jì)劃將加強(qiáng)教育監(jiān)測管理獨(dú)立成項(xiàng),提出“建立新的規(guī)劃監(jiān)測指標(biāo)體系及監(jiān)測軟件系統(tǒng)”,標(biāo)志我國教育質(zhì)量測評活動的重心開始由教育督導(dǎo)到教育質(zhì)量監(jiān)測的轉(zhuǎn)向。[20]
隨著教育質(zhì)量評價(jià)制度的體系化與組織實(shí)施的規(guī)范化發(fā)展,我國以教育質(zhì)量監(jiān)測為核心開啟了過程型與結(jié)果型教育質(zhì)量保障的探索。進(jìn)入新世紀(jì),世界各國都面臨著科技進(jìn)步日新月異、知識經(jīng)濟(jì)初現(xiàn)端倪、國際競爭日趨激烈等重大變化,為回應(yīng)時(shí)代發(fā)展對人才質(zhì)量提出的更高要求,我國實(shí)施了以課程改革為核心的教育改革。而隨著新課改的施行,加強(qiáng)監(jiān)控教師課程教學(xué)及學(xué)生學(xué)習(xí)品質(zhì)的作用也日益突顯,教育質(zhì)量監(jiān)測活動與之相伴而生。2004 年國務(wù)院印發(fā)《2003—2007 年教育振興行動計(jì)劃》提出“深化基礎(chǔ)教育課程改革。建立國家和省、市兩級新課程的跟蹤、監(jiān)測、評估、反饋機(jī)制,加強(qiáng)對基礎(chǔ)教育質(zhì)量的監(jiān)測”,開啟我國從國內(nèi)與國際兩方面探索完善大規(guī)模學(xué)業(yè)測評體系的進(jìn)程。[21]在國內(nèi)探索方面,2007 年教育部基礎(chǔ)教育質(zhì)量監(jiān)測中心設(shè)立,同期開發(fā)推進(jìn)了覆蓋31 個省級行政區(qū)域及新疆生產(chǎn)建設(shè)兵團(tuán)的國家教育質(zhì)量監(jiān)測項(xiàng)目(NAEQ)。[22]NAEQ 以一年為周期開展了八輪學(xué)業(yè)測評,主要關(guān)注我國義務(wù)教育階段的學(xué)生在數(shù)學(xué)、科學(xué)、英語、體育、心理健康等方面的表現(xiàn)。在八年的測評實(shí)踐中,我國逐漸掌握規(guī)范的數(shù)據(jù)采集技術(shù)和實(shí)施流程,形成體系化與全面化的測評方案。例如江蘇省、浙江省臺州市、上海普陀區(qū)等地先后成立教育質(zhì)量監(jiān)測機(jī)構(gòu),涵蓋國家、省、市、區(qū)縣的四級學(xué)業(yè)測評網(wǎng)絡(luò)逐步建立,成為國家大規(guī)模學(xué)業(yè)測評體系化發(fā)展的重要組織保障基礎(chǔ)。[23]在與國際同行的積極交流上,自2009 年上海首次參與PISA 測試以來,我國實(shí)現(xiàn)了參測區(qū)域拓展與測評技術(shù)發(fā)展兩方面提升,逐漸實(shí)現(xiàn)教育測評工作與國際發(fā)展前沿接軌。其一,我國實(shí)現(xiàn)了參測區(qū)域廣度與深度的雙重拓展。一方面,正式參與國際大規(guī)模學(xué)業(yè)測試的區(qū)域由上海一地拓展至廣東、浙江、蘇州、濟(jì)南等七省市;另一方面,測評范圍從城市深入到鄉(xiāng)村,覆蓋鄉(xiāng)村、小鎮(zhèn)、鎮(zhèn)、城市、特大城市五類樣本群體。[24]其二,我國不斷深化學(xué)習(xí)對潛在特質(zhì)理論為主的現(xiàn)代心理測評理論,強(qiáng)化基于在地化視野的數(shù)據(jù)分析能力。
黨的十八大以來,以習(xí)近平同志為核心的黨中央立足中華民族偉大復(fù)興戰(zhàn)略全局和世界百年未有之大變局,加快教育高質(zhì)量發(fā)展、推進(jìn)教育現(xiàn)代化、邁向教育強(qiáng)國、以舉國之力辦好人民滿意的教育,我國教育發(fā)展的重點(diǎn)也進(jìn)入到由外延向內(nèi)涵發(fā)展轉(zhuǎn)變、從重視規(guī)模到關(guān)注質(zhì)量發(fā)展的新階段。而教育高質(zhì)量發(fā)展的質(zhì)量意涵是一個逐步拓展、不斷深化的過程性概念,原有強(qiáng)調(diào)外部質(zhì)量保障與資源要素投入的教育質(zhì)量管理顯然已無法適應(yīng)這一發(fā)展要求。[25]由此國家提出將質(zhì)量文化作為持續(xù)提升教育質(zhì)量的內(nèi)生動力,即強(qiáng)調(diào)持續(xù)優(yōu)化全要素全過程全方位的質(zhì)量保障體系,推進(jìn)以提高人才培養(yǎng)質(zhì)量和能力為核心的質(zhì)量文化建設(shè)。[26]在質(zhì)量文化建設(shè)的影響下,大規(guī)模學(xué)業(yè)測評也聚焦于以學(xué)生為核心的核心質(zhì)量價(jià)值,在組織制度、評價(jià)理念與實(shí)施方案三方面不斷完善全過程教育質(zhì)量保障方案。在組織制度方面,《國家義務(wù)教育質(zhì)量監(jiān)測方案》(以下簡稱《方案》)的出臺對我國學(xué)業(yè)測評活動進(jìn)行了系統(tǒng)性部署。具體而言,《方案》明確監(jiān)測工作以引導(dǎo)樹立正確教育質(zhì)量觀、扭轉(zhuǎn)升學(xué)率作為教育評價(jià)的唯一標(biāo)準(zhǔn)為根本目的,將語文、數(shù)學(xué)、科學(xué)、體育、藝術(shù)、德育等六大學(xué)科領(lǐng)域及影響學(xué)業(yè)水平的相關(guān)因素作為監(jiān)測的重點(diǎn),闡明了由國家統(tǒng)籌指導(dǎo)、各地政府督導(dǎo)單位負(fù)責(zé)實(shí)施的基本程序,并對監(jiān)測對象、評價(jià)周期與樣本選取等制定詳細(xì)的實(shí)施章程。[27]在評價(jià)理念方面,2020 年10月印發(fā)的《深化新時(shí)代教育評價(jià)改革總體方案》明確指出要改進(jìn)結(jié)果評價(jià)、強(qiáng)化過程評價(jià)、探索增值評價(jià)、健全綜合評價(jià),完善教育評價(jià)的科學(xué)性、專業(yè)性與客觀性,著重強(qiáng)調(diào)了全過程評價(jià)對于提升教育質(zhì)量的指導(dǎo)意義。[28]在實(shí)施方案方面,2021 年9 月教育部印發(fā)了《國家義務(wù)教育質(zhì)量監(jiān)測方案(2021 年修訂版)》,突出測評實(shí)施的過程性與動態(tài)性特征,[29]對于測評過程性而言,規(guī)定學(xué)業(yè)測評以三年為周期追蹤教育質(zhì)量的變化過程,強(qiáng)調(diào)對學(xué)生發(fā)展全過程的測量、跟蹤和記錄;對于測評動態(tài)性而言,測評周期內(nèi)每年輪換測試科目,動態(tài)關(guān)注學(xué)生認(rèn)知和非認(rèn)知能力的變化情況,形成綜合素質(zhì)評價(jià)體系。
基于國內(nèi)外大規(guī)模學(xué)業(yè)測評發(fā)展經(jīng)驗(yàn)的分析,可以看到大規(guī)模學(xué)業(yè)測評與時(shí)代、國家發(fā)展的需要緊密結(jié)合。一方面,國際大規(guī)模學(xué)業(yè)測評以提高教育質(zhì)量為首要目的,通過增強(qiáng)國家綜合實(shí)力與凝聚社會向心力兩個途徑來推動高質(zhì)量的現(xiàn)代化。另一方面,我國大規(guī)模學(xué)業(yè)測評聚焦于提高人才培養(yǎng)質(zhì)量,通過教育督導(dǎo)、質(zhì)量監(jiān)測與全過程質(zhì)量保障促進(jìn)教育強(qiáng)國建設(shè)。通過梳理國際大規(guī)模學(xué)業(yè)測評多年來的實(shí)踐經(jīng)驗(yàn)發(fā)現(xiàn),大致呈現(xiàn)三個新興趨勢。
在數(shù)字信息技術(shù)為社會帶來全方位深刻變革的背景下,人們生活方式、學(xué)習(xí)方式與認(rèn)知方式的變革都不斷推動著教育領(lǐng)域的革新與轉(zhuǎn)變。教育部等六部門《關(guān)于推進(jìn)教育新型基礎(chǔ)設(shè)施建設(shè)構(gòu)建高質(zhì)量教育支撐體系的指導(dǎo)意見》提出,“深化教育督導(dǎo)信息化,實(shí)現(xiàn)大數(shù)據(jù)支持下的實(shí)時(shí)監(jiān)測和精準(zhǔn)評估”。[30]因此,大規(guī)模學(xué)業(yè)測評的數(shù)字化發(fā)展一方面順應(yīng)了社會發(fā)展的形勢,另一方面也承接了教育數(shù)字變革的需求。目前,國際大規(guī)模測評項(xiàng)目正呈現(xiàn)由紙筆測評(Paper-Based Assessment)形式向數(shù)字化測評(Digitally-Based Assessment)形式的轉(zhuǎn)變,其可從三個方向推動測評活動的高質(zhì)量發(fā)展。[31]第一,數(shù)字化測評支持以文本圖像、音頻視頻等多模態(tài)非結(jié)構(gòu)化測評方式開展,這一功能為部分患有聽力、視力障礙的學(xué)生群體參與測試提供便利條件,從而拓展參測群體的廣度。例如巴西的研究者發(fā)現(xiàn),使用數(shù)字化輔助技術(shù)(Assistive Technologies)可有效提升測評的公平性。[32]第二,數(shù)字化測評增強(qiáng)了測試者與試題的互動程度,為多元化測評題目的開發(fā)提供基礎(chǔ)。相較傳統(tǒng)的紙筆測試,數(shù)字化測評可將人的認(rèn)知思維、情感理解與抽象推理能力同計(jì)算機(jī)大規(guī)模數(shù)據(jù)處理功能相結(jié)合,不斷拓展測評題目的考察維度與多元開放程度,進(jìn)而實(shí)現(xiàn)對個體高階能力的準(zhǔn)確評估。[33]例如拖放(Drag-and-drop)題目需將選擇源拖拽到相應(yīng)目標(biāo)中做出回答,對學(xué)生信息分類、排序、匹配等綜合能力進(jìn)行考察,對比紙筆測試中的多選題目,其不僅有效減少由隨機(jī)猜測帶來的測評結(jié)果偏誤,還進(jìn)一步通過增強(qiáng)題目趣味性提高了學(xué)生應(yīng)答的專注力。[34]第三,計(jì)算機(jī)測評可動態(tài)采集密集型過程數(shù)據(jù),記錄與分析個體在真實(shí)情境中解決問題的思維過程與態(tài)度演變軌跡,使得對學(xué)生復(fù)雜能力與高階技能的測評成為可能。在NAEP 的寫作測試中,數(shù)字測評設(shè)備可通過實(shí)時(shí)采集學(xué)生測試過程數(shù)據(jù)繪制其狀態(tài)圖譜,直觀反映了學(xué)生在寫作過程中的狀態(tài),為分析學(xué)生寫作能力、應(yīng)變能力提供數(shù)據(jù)支撐。[35]
教育本身是一項(xiàng)具有高度異質(zhì)性的活動,學(xué)生個體差異、教師教學(xué)差異與學(xué)校管理差異等都是影響教育效果的重要因素。如何在教育測評中觀察到客觀存在的異質(zhì)性,并針對其測評結(jié)果進(jìn)行針對性分析、為學(xué)生提供個性化教育方案,成為提高大規(guī)模學(xué)業(yè)測試結(jié)果利用效率、提高教育決策有效性、促進(jìn)學(xué)生全面發(fā)展的重要問題?!督逃筷P(guān)于加強(qiáng)新時(shí)代教育管理信息化工作的通知》明確提出,“充分發(fā)揮數(shù)據(jù)的作用,推動教育科學(xué)決策、精準(zhǔn)管理和個性服務(wù)”。[36]因此在未來發(fā)展中,對于個體發(fā)展的精準(zhǔn)決策反饋成為大規(guī)模學(xué)業(yè)測評的重要探索點(diǎn),其主要可從三個方向推動測評結(jié)果的精準(zhǔn)分析。其一,在測評數(shù)據(jù)識別過程中總結(jié)歸納出不同學(xué)生群體的共性特征,并以此為基礎(chǔ)對樣本進(jìn)行分層(Stratify),以便決策者能更好地了解不同學(xué)生特征并制定針對性學(xué)習(xí)方案。例如研究者使用深度信念網(wǎng)絡(luò)(Deep Belief Network)算法構(gòu)建的智慧教育測評方案,根據(jù)學(xué)生課程學(xué)習(xí)情況數(shù)據(jù)生成學(xué)生特征數(shù)據(jù),并將學(xué)生偏好和課程特征進(jìn)行匹配,以實(shí)現(xiàn)教學(xué)內(nèi)容的智能推薦。[37]其二,在測評建模分析過程中應(yīng)用集成方法(Ensemble Method)構(gòu)綜合分析大模型,提高整體預(yù)測性能。集成方法的核心思路是將不同算法或同一算法在不同層次的數(shù)據(jù)子集上訓(xùn)練出的多個模型組合起來,可構(gòu)造涵蓋考察教育學(xué)、心理學(xué)、社會學(xué)、腦科學(xué)等多學(xué)科知識的綜合分析模型,通過對測評數(shù)據(jù)的多角度理解提高分析準(zhǔn)確性。[38]有研究發(fā)現(xiàn),采用集成方法建立的大模型在預(yù)測學(xué)生學(xué)業(yè)表現(xiàn)時(shí),其精確度比最佳單一預(yù)測模型高10%。[39]其三,在測評方案生成中增進(jìn)其動態(tài)調(diào)節(jié)能力,提升決策的時(shí)效性。例如增量學(xué)習(xí)(Incremental Learning)算法可根據(jù)新數(shù)據(jù)和舊數(shù)據(jù)的權(quán)重進(jìn)行調(diào)整,在不破壞決策系統(tǒng)原有分析結(jié)構(gòu)的基礎(chǔ)上,繼續(xù)學(xué)習(xí)新數(shù)據(jù)特征以提高測評分析的精準(zhǔn)度。在已有測評實(shí)踐中,研究者通過基于增量學(xué)習(xí)模型動態(tài)捕捉學(xué)生在課堂中互動行為,并結(jié)合其歷史學(xué)習(xí)數(shù)據(jù)對其注意力、計(jì)算思維等能力進(jìn)行實(shí)時(shí)評估,并動態(tài)修正學(xué)生成績的預(yù)測結(jié)果,為教師及時(shí)調(diào)整授課方案提供有效參考。[40]
隨著現(xiàn)代社會對人才的需求日益復(fù)雜多樣,追求單一學(xué)科的深度知識已經(jīng)難以完全滿足社會發(fā)展對學(xué)生提出的現(xiàn)實(shí)需求。而超學(xué)科(Supra-disciplinary)測評聚焦學(xué)生的可遷移能力(Transferability),強(qiáng)調(diào)推動學(xué)生思維能力、創(chuàng)新能力、團(tuán)隊(duì)協(xié)作能力等綜合素養(yǎng)的全面發(fā)展,使其能夠靈活應(yīng)對在社會生活中遇到的新情景與新問題。中共中央、國務(wù)院印發(fā)的《關(guān)于深化教育教學(xué)改革全面提高義務(wù)教育質(zhì)量的意見》提出,“建立以發(fā)展素質(zhì)教育為導(dǎo)向的科學(xué)評價(jià)體系”,將綜合素養(yǎng)作為教育評價(jià)主要內(nèi)容。[41]因此,超越單一學(xué)科而聚焦于學(xué)生發(fā)展需要的綜合能力,是未來大規(guī)模學(xué)業(yè)測評的重要探索方向。具體而言,該趨勢近年來已在多數(shù)大規(guī)模學(xué)業(yè)測評項(xiàng)目的設(shè)計(jì)理念與框架開發(fā)兩方面得以突顯。在設(shè)計(jì)理念方面,逐漸重視學(xué)生整合、運(yùn)用知識技能應(yīng)對現(xiàn)實(shí)挑戰(zhàn)的高階能力,減弱對特定學(xué)科內(nèi)容與復(fù)雜應(yīng)試技巧的考察。高階發(fā)展能力是以高層次認(rèn)知水平為核心、應(yīng)對劣構(gòu)問題或繁復(fù)問題的心理特征,包含理性判斷、制定策略與創(chuàng)造性思維等諸多要素的綜合能力概念,突出表征為高水平知識習(xí)得與遷移能力。[42]以高階能力為重點(diǎn)的測評并非關(guān)注學(xué)生能否掌握學(xué)校課程知識,而是側(cè)重其是否具備應(yīng)對現(xiàn)實(shí)生活挑戰(zhàn)的能力。例如PISA 以素養(yǎng)為核心概念開發(fā)其測評內(nèi)容與框架,評估學(xué)生運(yùn)用所學(xué)知識技能理解問題與解決問題的能力發(fā)展情況。[43]在框架開發(fā)方面,針對不同能力考察方向的測評框架以模塊化形式呈現(xiàn),通過增強(qiáng)測評內(nèi)容的時(shí)效性,更好發(fā)揮學(xué)業(yè)測評對人才培養(yǎng)“指揮棒”的作用。與固定化測評內(nèi)容項(xiàng)目相比,模塊化測評框架可通過添加或去除部分測評框架模塊,實(shí)現(xiàn)對測試內(nèi)容與結(jié)構(gòu)的靈活調(diào)整,可增強(qiáng)測評內(nèi)容的拓展性,為更新測評內(nèi)容提供便利條件。例如PISA 近年來相繼以合作問題解決(Collaborative Problem-solving)、全球勝任力(Global Competence)、創(chuàng)造性思維(Creative Thinking)為主題開發(fā)了對應(yīng)的測試框架,并在每輪測試中進(jìn)行內(nèi)容更新迭代,有效順應(yīng)社會發(fā)展對人才需求的變化。
過去半個多世紀(jì)以來,大規(guī)模學(xué)業(yè)測評在世界各國教育改革實(shí)踐的推動下快速發(fā)展,其衡量各國教育發(fā)展水平、評判各項(xiàng)政策有效性、推進(jìn)各層各類教育改革、賦能教育強(qiáng)國建設(shè)的作用日益突顯?;厮輫H與本土大規(guī)模學(xué)業(yè)測評發(fā)展歷程,盡管二者在不同發(fā)展階段對教育質(zhì)量的監(jiān)測理念、關(guān)注重點(diǎn)與測評方式等各方面存在著一定差異,但其測評活動的發(fā)展既承托了政治、經(jīng)濟(jì)與社會發(fā)展對教育強(qiáng)國的需求,又順應(yīng)了教育發(fā)展特別是高質(zhì)量人才培養(yǎng)的邏輯。教育評價(jià)事關(guān)教育發(fā)展方向,有什么樣的評價(jià)指揮棒,就有什么樣的辦學(xué)導(dǎo)向。強(qiáng)化教育評價(jià)改革的價(jià)值性、系統(tǒng)性與創(chuàng)新性是中國式現(xiàn)代化的重要內(nèi)容之一,也是加快構(gòu)建高質(zhì)量教育體系的奠基性工程。[44]中共中央、國務(wù)院印發(fā)的《中國教育現(xiàn)代化2035》提出“構(gòu)建德智體美勞全面培養(yǎng)的教育體系和科學(xué)的評價(jià)體系,全面落實(shí)立德樹人根本任務(wù)”。[45]黨的二十大報(bào)告中明確指出要完善學(xué)校管理和教育評價(jià)體系,深化教育領(lǐng)域綜合改革。由此可見,在國際競爭日益激烈的背景下,如何以教育高質(zhì)量發(fā)展提高人才培養(yǎng)質(zhì)量,特別是發(fā)揮教育評價(jià)在改善教育質(zhì)量、提升人才培養(yǎng)效果中發(fā)揮的積極作用,是建設(shè)教育強(qiáng)國歷史新征程上教育工作者面前的必答題。聚焦教育強(qiáng)國背景下教育高質(zhì)量發(fā)展的戰(zhàn)略需求,我國大規(guī)模學(xué)業(yè)測評的未來發(fā)展涵蓋三個優(yōu)先路向。
一是要加快全過程質(zhì)量監(jiān)測與保障機(jī)制的現(xiàn)代化。教育本身是動態(tài)地激發(fā)人內(nèi)在天賦與潛能的過程,堅(jiān)持以全過程質(zhì)量監(jiān)測為中心的測評理念,既回應(yīng)了教育的過程屬性與過程價(jià)值,又體現(xiàn)了對教育中日益發(fā)展的個體的充分尊重。[46]具體在測評設(shè)計(jì)上,要將立德樹人作為根本標(biāo)準(zhǔn),圍繞德、智、體、美、勞五育并舉開展全過程教育質(zhì)量監(jiān)測,追溯篩選在校學(xué)習(xí)、校外活動、行為習(xí)慣、心理狀況等對學(xué)生全面發(fā)展具有重要影響的過程性評價(jià)要素,突出不同時(shí)期學(xué)生成長目標(biāo)的階段性。在測評實(shí)施上,一方面要從縱向上關(guān)注學(xué)生發(fā)展全過程,對學(xué)生成長背景、教育資源投入、實(shí)施過程與學(xué)習(xí)結(jié)果進(jìn)行質(zhì)量測評。另一方面則在橫向上重視各教育主體對教育質(zhì)量的影響,將包括學(xué)生、教師、學(xué)校、家庭、社會等在內(nèi)的多方參與者納入測評體系,通過綜合采集教育發(fā)展信息充分了解教育體系中存在的問題與挑戰(zhàn),為優(yōu)化教育策略、提高教育質(zhì)量提供幫助。在測評保障上,不僅要建立與全過程質(zhì)量監(jiān)測相適配的財(cái)政投入制度,保障全過程教育質(zhì)量監(jiān)測的順利實(shí)施,而且要進(jìn)一步完善包括監(jiān)測的時(shí)間、步驟、方法等在內(nèi)的全過程教育質(zhì)量監(jiān)測的實(shí)施程序,為全過程教育質(zhì)量提供組織保障。
二是要加強(qiáng)有關(guān)大規(guī)模學(xué)業(yè)測評的基礎(chǔ)研究力度。目前我國已確立了大規(guī)模學(xué)業(yè)測評的體系架構(gòu),并初步摸索出了一套適用于我國國情的測評程序與方法,進(jìn)一步發(fā)展方向便是基于新時(shí)代發(fā)展要求提高監(jiān)測的專業(yè)化程度,具體包括了開發(fā)測量工具、建立測評模型與培養(yǎng)研究隊(duì)伍等方面。首先,高效的測量工具是提升教育質(zhì)量監(jiān)測效率的重要支撐。面對未來國家與社會發(fā)展對人才培養(yǎng)要求的快速演變,應(yīng)充分關(guān)注現(xiàn)代測評技術(shù)理論發(fā)展,著力開發(fā)學(xué)業(yè)測試、調(diào)查問卷、選用匹配等立體評價(jià)工具,不斷豐富教育質(zhì)量測量工具箱以適應(yīng)未來教育變化。其次,構(gòu)建監(jiān)測分析模型是利用測評數(shù)據(jù)發(fā)現(xiàn)與改進(jìn)教育問題的重要方法?!督逃筷P(guān)于加強(qiáng)新時(shí)代教育管理信息化工作的通知》明確提出,“建立教育大數(shù)據(jù)分析模型,推進(jìn)教育管理精準(zhǔn)化和服務(wù)個性化水平全面提升”。[47]由此應(yīng)從模型建立、模型運(yùn)用與問題分析等各方面精準(zhǔn)發(fā)力,充分挖掘測評數(shù)據(jù)所反映的教育問題,為教育高質(zhì)量發(fā)展提供支撐。推動大規(guī)模學(xué)業(yè)測評體系的持續(xù)發(fā)展需要教育測評專業(yè)人員的支撐。當(dāng)前我國教育測量相關(guān)專業(yè)的人才培養(yǎng)存在課程設(shè)置少、師資力量少、培養(yǎng)人數(shù)少的問題,難以滿足各地區(qū)學(xué)業(yè)測評的發(fā)展需要。[48]因此加大教育測量人才培養(yǎng)與學(xué)科建設(shè)力度,為我國大規(guī)模學(xué)業(yè)測評體系的發(fā)展提供人才保障。
三是發(fā)揮數(shù)字技術(shù)應(yīng)用對大規(guī)模學(xué)業(yè)測評高質(zhì)量發(fā)展的積極賦能作用。從發(fā)展的角度看,數(shù)字技術(shù)在推動大規(guī)模學(xué)業(yè)測評方法創(chuàng)新、提升測評效率方面具有天然優(yōu)勢,是塑造教育質(zhì)量監(jiān)測新優(yōu)勢、構(gòu)造教育發(fā)展新形態(tài)的關(guān)鍵路徑。在教育數(shù)字化轉(zhuǎn)型快速推進(jìn)的背景下,基于數(shù)字技術(shù)的信息收集、管理與分析創(chuàng)新將成為改進(jìn)大規(guī)模學(xué)業(yè)測評效率的重要內(nèi)容。在信息收集方面,精準(zhǔn)、高效的數(shù)據(jù)采集離不開數(shù)字化設(shè)備的底層支持,要加快部署改造物聯(lián)網(wǎng)關(guān)、信息傳感器等教育數(shù)據(jù)采集智能設(shè)備,打造智能化的大規(guī)模學(xué)業(yè)測評服務(wù)系統(tǒng),為逐步實(shí)現(xiàn)過程性、實(shí)時(shí)性教育質(zhì)量監(jiān)測提供便利條件。在信息管理方面,通過建設(shè)與完善統(tǒng)一的數(shù)字化管理平臺實(shí)現(xiàn)測評數(shù)據(jù)的整合融通,打破各級監(jiān)測平臺間數(shù)據(jù)壁壘的現(xiàn)實(shí)難題。盡管我國已推進(jìn)建設(shè)統(tǒng)一的教育數(shù)據(jù)管理平臺,但目前仍存在數(shù)據(jù)可比性不足、共享程度不夠的問題。[49]因此要完善多來源測評數(shù)據(jù)共享標(biāo)準(zhǔn)與清洗規(guī)則管理,解決不同測評口徑與跨層級數(shù)據(jù)的可比性問題。在信息分析方面,人工智能算法具備多維數(shù)據(jù)挖掘、復(fù)雜問題分析、個性化政策制定與決策方案改進(jìn)功能,可通過深度解析測評數(shù)據(jù)為教育發(fā)展提供詢證支持。[50]應(yīng)利用人工智能算法提升測評數(shù)據(jù)分析的精準(zhǔn)化程度,探索以技術(shù)革新為重要驅(qū)動力的高質(zhì)量教育決策與實(shí)踐轉(zhuǎn)化路徑。