袁建林++劉紅云
近年來,大規(guī)模教育評(píng)價(jià)成為國(guó)際教育研究與實(shí)踐領(lǐng)域廣泛關(guān)注的問題。大規(guī)模教育評(píng)價(jià)是指通過抽取目標(biāo)測(cè)試群體中的代表性樣本,對(duì)樣本學(xué)生進(jìn)行學(xué)業(yè)成就和相關(guān)影響因素的分析,為監(jiān)測(cè)不同國(guó)家(地區(qū))的教育結(jié)果提供統(tǒng)一的量尺,并為教育政策的制定提供參考。當(dāng)前國(guó)際上有影響力的大規(guī)模教育評(píng)價(jià)項(xiàng)目主要有:國(guó)際學(xué)生評(píng)價(jià)項(xiàng)目(Programme for International Student Assessment,PISA),國(guó)際數(shù)學(xué)與科學(xué)趨勢(shì)研究(Trend of International Mathematics and Science Study,TIMSS),國(guó)際成人能力評(píng)估項(xiàng)目(Programme for the International Assessment of Adult Competencies,PIAAC)等。PISA因具有評(píng)價(jià)理念先進(jìn)、參與國(guó)家較多、評(píng)價(jià)流程設(shè)計(jì)完善等特點(diǎn),是國(guó)際大規(guī)模教育評(píng)價(jià)的代表性項(xiàng)目。本文具體介紹PISA的主要經(jīng)驗(yàn)、做法以及發(fā)展的最新趨勢(shì),以期為我國(guó)大規(guī)模教育評(píng)價(jià)提供借鑒。
PISA項(xiàng)目簡(jiǎn)介
PISA由世界經(jīng)濟(jì)合作組織(OECD)于1997年創(chuàng)立,主要基于一個(gè)共同的、國(guó)際性的框架測(cè)評(píng)學(xué)生的學(xué)業(yè)成就,以此監(jiān)測(cè)各個(gè)國(guó)家(地區(qū))教育系統(tǒng)的產(chǎn)出(Outcomes)[1]?;趪?guó)際統(tǒng)一的測(cè)量尺度,能在橫向維度反映一個(gè)國(guó)家該階段教育所處的相對(duì)位置,為教育政策的制定提供更加多元的參考途徑。PISA測(cè)評(píng)的對(duì)象是15歲左右的學(xué)生,主要測(cè)試內(nèi)容領(lǐng)域是數(shù)學(xué)素養(yǎng)、閱讀素養(yǎng)、科學(xué)素養(yǎng),測(cè)試每三年舉行一次,每次測(cè)試側(cè)重一個(gè)學(xué)科領(lǐng)域,三個(gè)主要內(nèi)容領(lǐng)域9年完成一次循環(huán)測(cè)試。除了三個(gè)主要內(nèi)容領(lǐng)域,PISA測(cè)試還會(huì)關(guān)注其他領(lǐng)域,比如問題解決、金融素養(yǎng)、合作問題解決、全球意識(shí)等。
PISA并不是第一個(gè)國(guó)際性的大規(guī)模學(xué)生成就測(cè)驗(yàn)。在PISA開展之初,國(guó)際教育成就評(píng)價(jià)協(xié)會(huì)(IEA)、ETS等組織主持的大規(guī)模評(píng)價(jià)項(xiàng)目取得了豐富的成效。但是這些項(xiàng)目局限于部分學(xué)科的學(xué)業(yè)成就測(cè)評(píng),由于早期參與國(guó)家的數(shù)量有限,在一定程度上限制了測(cè)驗(yàn)的可比較性。更重要的是,這些項(xiàng)目都是以課程內(nèi)容為基礎(chǔ),不同國(guó)家的課程與教學(xué)的差異決定了評(píng)價(jià)框架只能建立在參與國(guó)課程的共同部分和基礎(chǔ)部分之上,忽略了課程與教學(xué)的多元化、個(gè)性化。PISA成功地吸取了這些項(xiàng)目的經(jīng)驗(yàn),在其建立之初呈現(xiàn)以下幾個(gè)方面的特色[2]。(1)PISA根源于各國(guó)政府對(duì)自身教育監(jiān)測(cè)的需要,基于實(shí)際數(shù)據(jù)與證據(jù),為政府教育政策的制定提供參考。(2)PISA測(cè)評(píng)的周期性使得各國(guó)政府能定期監(jiān)測(cè)核心領(lǐng)域的發(fā)展變化情況。(3)PISA測(cè)評(píng)對(duì)象是15歲左右的學(xué)生,該階段的學(xué)生臨近義務(wù)教育末期,監(jiān)測(cè)該階段的學(xué)生學(xué)習(xí)結(jié)果反映了一個(gè)國(guó)家義務(wù)教育階段總的狀況,也反映了為適應(yīng)未來學(xué)習(xí)與生活的學(xué)生對(duì)知識(shí)與技能的掌握情況。(4)PISA強(qiáng)調(diào)素養(yǎng)的測(cè)驗(yàn),而不是基于參與國(guó)課程與教學(xué)的共同部分和基礎(chǔ)部分設(shè)計(jì)測(cè)評(píng)框架,PISA認(rèn)為這是其區(qū)別其他國(guó)際大規(guī)模教育評(píng)價(jià)的顯著特征。
PISA的主要經(jīng)驗(yàn)
1. 側(cè)重于考查適應(yīng)未來所需的能力與素養(yǎng)
參與PISA測(cè)試的國(guó)家和地區(qū)課程目標(biāo)、教學(xué)形態(tài)各異,PISA難以依據(jù)各國(guó)的課程標(biāo)準(zhǔn)定義測(cè)試的內(nèi)容與框架,因此開創(chuàng)性地提出測(cè)試學(xué)生素養(yǎng)(Literacy)的評(píng)價(jià)理念。PISA從國(guó)家與社會(huì)人類資本發(fā)展的視角,認(rèn)為未來公民應(yīng)該掌握與個(gè)人、社會(huì)、經(jīng)濟(jì)財(cái)富相關(guān)的知識(shí)、技能、能力以及其他屬性,其所測(cè)量的素養(yǎng)跨越學(xué)科、跨越國(guó)界,強(qiáng)調(diào)運(yùn)用所學(xué)知識(shí)和技能,有效進(jìn)行分析、推理、交流,在各種情境中解決和解釋問題[3]。PISA關(guān)于素養(yǎng)的測(cè)量較直觀地體現(xiàn)于內(nèi)容領(lǐng)域的評(píng)價(jià)框架設(shè)計(jì),比如PISA2015關(guān)于科學(xué)的素養(yǎng)框架應(yīng)包括科學(xué)背景、科學(xué)知識(shí)、科學(xué)能力、科學(xué)態(tài)度四個(gè)方面,數(shù)學(xué)素養(yǎng)框架包括數(shù)學(xué)過程、數(shù)學(xué)內(nèi)容、數(shù)學(xué)情境三個(gè)方面。PISA基于素養(yǎng)的測(cè)試?yán)砟畈粌H與選拔性的考試有本質(zhì)區(qū)別,也與基于課程與教學(xué)標(biāo)準(zhǔn)達(dá)成的診斷性評(píng)價(jià)、形成性評(píng)價(jià)不同。PISA認(rèn)為:現(xiàn)代經(jīng)濟(jì)形態(tài)偏好于個(gè)體“能做什么”,而不是“知道什么”,評(píng)價(jià)學(xué)生的素養(yǎng)與此變革是相一致的[4]。
2. 關(guān)注影響學(xué)業(yè)成就的背景因素
學(xué)生的學(xué)業(yè)成就會(huì)受到家庭環(huán)境、學(xué)校環(huán)境的影響,也與學(xué)生自身的動(dòng)機(jī)、態(tài)度、情感等因素緊密關(guān)聯(lián),大規(guī)模教育評(píng)價(jià)一般會(huì)關(guān)注影響學(xué)業(yè)成就的背景因素。PISA開發(fā)了學(xué)生問卷、父母親問卷、校長(zhǎng)問卷、教師問卷,調(diào)查影響學(xué)業(yè)成就的家庭背景、學(xué)習(xí)方法、學(xué)習(xí)環(huán)境、教學(xué)策略等因素。背景問卷中所包含的各種量表需要精心的設(shè)計(jì)和嚴(yán)格的測(cè)量學(xué)指標(biāo)檢驗(yàn),基于量表的測(cè)量結(jié)果能提供各種指標(biāo)反映學(xué)生身心發(fā)展情況,能提供反映家庭環(huán)境與學(xué)校環(huán)境現(xiàn)狀的各種指數(shù)。豐富的背景因素?cái)?shù)據(jù)能用于研究各種因素與學(xué)業(yè)成就之間的關(guān)系,診斷、分析影響學(xué)業(yè)成就的原因,揭示學(xué)業(yè)成就差異與變化背后的潛在規(guī)律,為診斷教育現(xiàn)狀、改進(jìn)教學(xué)績(jī)效、完善教育政策提供客觀的證據(jù)支撐。
3. 采用復(fù)雜的抽樣設(shè)計(jì)
出于測(cè)驗(yàn)成本的考慮,大規(guī)模評(píng)價(jià)項(xiàng)目都會(huì)從測(cè)試目標(biāo)總體中抽取代表性的樣本,通過樣本的測(cè)驗(yàn)推論目標(biāo)總體的情況。參與PISA測(cè)試的大部分國(guó)家都采用兩階段抽樣設(shè)計(jì)方案,第一階段采用PPS(Probability Proportional to Size)抽樣技術(shù)[5],按照規(guī)模大小成比例抽取學(xué)校,每個(gè)國(guó)家至少抽取150所學(xué)校;第二階段在樣本學(xué)校內(nèi)隨機(jī)抽取學(xué)生,每所學(xué)校抽取42名學(xué)生。PISA的分層抽樣設(shè)計(jì)提高了抽樣的效率,確保了樣表的代表性,能滿足特定國(guó)家不同的抽樣設(shè)計(jì)需要。此外,PISA的抽樣還體現(xiàn)在測(cè)試內(nèi)容抽樣方面。大規(guī)模測(cè)驗(yàn)需要足夠多的試題,以確保對(duì)測(cè)試內(nèi)容的代表性,但每次測(cè)驗(yàn)的時(shí)間有限,因此產(chǎn)生有限的測(cè)驗(yàn)時(shí)間和寬泛的測(cè)試內(nèi)容之間的矛盾。PISA主要采用不完全平衡矩陣抽樣組織題冊(cè),將覆蓋學(xué)科領(lǐng)域的所有試題分成幾個(gè)小的題冊(cè),每個(gè)小題冊(cè)經(jīng)過等值處理后,讓每位學(xué)生接受其中一套小題冊(cè)的測(cè)試,以此減少每位學(xué)生需要測(cè)試的試題,同時(shí)確保對(duì)學(xué)生能力的準(zhǔn)確估計(jì)。
4. 確保橫向與縱向的可比較性
PISA被世界各國(guó)廣泛認(rèn)可的重要原因之一是它為各國(guó)教育之間的比較提供了統(tǒng)一的量尺,建立這種統(tǒng)一的量尺并不是讓所有參與測(cè)試的學(xué)生完成同一套試卷,它涉及較復(fù)雜的測(cè)驗(yàn)設(shè)計(jì)和教育測(cè)量技術(shù),即等值技術(shù)。為確保測(cè)驗(yàn)內(nèi)容的代表性,PISA采用矩陣抽樣技術(shù)組織測(cè)試題冊(cè),這將導(dǎo)致不同的學(xué)生可能接受不同的試題測(cè)試。因此,在估計(jì)學(xué)生的能力之前,需要利用等值技術(shù)將不同題冊(cè)的試題標(biāo)定到統(tǒng)一量尺上,即需要將項(xiàng)目的難度參數(shù)標(biāo)定到同一尺度上,然后對(duì)學(xué)生的能力進(jìn)行估計(jì),當(dāng)項(xiàng)目難度參數(shù)統(tǒng)一尺度之后,所估計(jì)的學(xué)生能力值也就具有可比性,確保了橫向?qū)用娓鱾€(gè)國(guó)家(地區(qū))測(cè)驗(yàn)結(jié)果的可比性。在縱向?qū)用妫琍ISA主要采用在不同次測(cè)驗(yàn)中錨定共同題的方法建立統(tǒng)一量尺,確保了不同次測(cè)驗(yàn)分?jǐn)?shù)之間的可比性,為各個(gè)國(guó)家(地區(qū))分析不同年度學(xué)生成就的發(fā)展與變化情況提供了可能。這里僅簡(jiǎn)要描述了PISA利用等值技術(shù)確保橫向?qū)用娓鱾€(gè)國(guó)家之間和縱向?qū)用嫱粐?guó)家不同次測(cè)驗(yàn)之間可比性的基本原理,在PISA實(shí)際測(cè)試工作中,所采用的方法、過程與此相比更加復(fù)雜。
5. 確保測(cè)驗(yàn)的公平性
參與PISA測(cè)試的國(guó)家語(yǔ)言、文化迥異,如果試題設(shè)計(jì)不當(dāng),學(xué)生很容易因?yàn)檎Z(yǔ)言文化的差異造成對(duì)試題情境的理解偏差,從而導(dǎo)致測(cè)驗(yàn)偏差。為確保測(cè)驗(yàn)的公平性,PISA在試題情境設(shè)計(jì)時(shí)會(huì)考慮情境的通適性,設(shè)計(jì)的情境不能只適應(yīng)于部分國(guó)家或部分文化語(yǔ)境;在試題翻譯時(shí)會(huì)多次來回翻譯,確保翻譯的準(zhǔn)確性和跨文化環(huán)境的適應(yīng)性。此外,PISA初步完成試題開發(fā)之后,會(huì)選取參與國(guó)(地區(qū))的學(xué)生進(jìn)行試測(cè),根據(jù)試測(cè)結(jié)果分析試題特征以及試題特征在不同群體之間的表現(xiàn)差異[6],檢驗(yàn)項(xiàng)目的功能差異,確保學(xué)生分?jǐn)?shù)變異僅體現(xiàn)自身能力水平的差異,不受其他無關(guān)因素的影響。根據(jù)統(tǒng)計(jì)分析的結(jié)果,PISA會(huì)進(jìn)一步刪除、修訂表現(xiàn)較差的試題,確保試題對(duì)所有學(xué)生都公平。
6. 提供多元化的評(píng)價(jià)報(bào)告
由于系統(tǒng)性的評(píng)價(jià)設(shè)計(jì)和豐富的數(shù)據(jù)基礎(chǔ),PISA能提供豐富、多元化的評(píng)價(jià)報(bào)告,主要有學(xué)科領(lǐng)域報(bào)告、國(guó)家報(bào)告和特定專題報(bào)告三大類。學(xué)科領(lǐng)域報(bào)告是PISA每次測(cè)驗(yàn)的主要報(bào)告,該主報(bào)告會(huì)提供多種語(yǔ)言版本,描述每個(gè)學(xué)科領(lǐng)域?qū)W生平均表現(xiàn)、發(fā)展趨勢(shì)、不同水平表現(xiàn)、性別差異等,呈現(xiàn)各個(gè)學(xué)科領(lǐng)域在本次測(cè)驗(yàn)的總體測(cè)驗(yàn)結(jié)果[7]。國(guó)家報(bào)告描述參與測(cè)試的國(guó)家(地區(qū))各測(cè)試領(lǐng)域的整體情況,總結(jié)學(xué)生在本次測(cè)驗(yàn)中的相對(duì)位置,展示本國(guó)學(xué)生表現(xiàn)較好的方面和較差的方面。特定專題報(bào)告不固定形式、靈活多樣,有些是對(duì)某個(gè)特殊領(lǐng)域(比如問題解決、金融素養(yǎng)等)的整體測(cè)驗(yàn)情況描述,有些是關(guān)于某個(gè)特定研究主題(比如ICT與學(xué)習(xí)表現(xiàn)的關(guān)系研究)的結(jié)果呈現(xiàn)[8]。此外,PISA的測(cè)試數(shù)據(jù)會(huì)完全公開,研究者可以依據(jù)自己研究需要,免費(fèi)從PISA官方網(wǎng)站獲取所需的數(shù)據(jù)。
PISA基于技術(shù)的測(cè)評(píng)發(fā)展
從PISA已經(jīng)開展的五次測(cè)驗(yàn)來看,PISA的評(píng)價(jià)框架、測(cè)評(píng)內(nèi)容、測(cè)評(píng)形式總體上保持相對(duì)穩(wěn)定。但是近年來,隨著信息技術(shù)在教育測(cè)評(píng)領(lǐng)域中的應(yīng)用,深刻變革了教育測(cè)評(píng)的理念、技術(shù)、方法,以核心素養(yǎng)研究為代表的教育目標(biāo)反思思潮促進(jìn)了教育測(cè)評(píng)領(lǐng)域?qū)诵乃仞B(yǎng)這類高階能力的測(cè)量研究。在此變革潮流中,PISA的發(fā)展與變化主要呈現(xiàn)以下兩方面特征。
1. PISA從紙筆測(cè)驗(yàn)向基于技術(shù)的測(cè)驗(yàn)轉(zhuǎn)變
PISA2009在閱讀素養(yǎng)的測(cè)評(píng)中首次嘗試?yán)糜?jì)算機(jī)技術(shù),被稱為數(shù)字化閱讀測(cè)評(píng)(Electronic Reading Assessment),主要基于計(jì)算機(jī)技術(shù)將閱讀內(nèi)容數(shù)字化,提供交互式的、動(dòng)態(tài)性的閱讀內(nèi)容[9]。2012年,PISA基于計(jì)算機(jī)技術(shù)測(cè)量問題解決、數(shù)學(xué)素養(yǎng)、科學(xué)素養(yǎng)以及數(shù)字化中的閱讀,拓展了基于計(jì)算機(jī)的測(cè)量?jī)?nèi)容[10]。2015年,PISA首次將所有的測(cè)試轉(zhuǎn)變?yōu)榛谟?jì)算機(jī)的測(cè)驗(yàn)形式[11],對(duì)于傳統(tǒng)的閱讀素養(yǎng)、數(shù)學(xué)素養(yǎng)、科學(xué)素養(yǎng)等,提供紙筆測(cè)驗(yàn)和基于計(jì)算機(jī)的測(cè)驗(yàn)兩種形式供參與國(guó)自行選擇,特別是,因?yàn)槿娌捎没谟?jì)算機(jī)的測(cè)驗(yàn)形式,PISA2015在試測(cè)階段研究了基于計(jì)算機(jī)的測(cè)驗(yàn)和紙筆測(cè)驗(yàn)的等價(jià)性[12],為測(cè)驗(yàn)項(xiàng)目整體開展打下了基礎(chǔ)。
總體來看,PISA將傳統(tǒng)的紙筆測(cè)驗(yàn)轉(zhuǎn)變?yōu)榛诩夹g(shù)的測(cè)驗(yàn)是PISA測(cè)驗(yàn)形式發(fā)展變化的必然趨勢(shì),這種轉(zhuǎn)變有其特定的原因:首先,與紙筆測(cè)驗(yàn)相比,利用信息技術(shù)能構(gòu)建交互性的、動(dòng)態(tài)性的測(cè)試環(huán)境,豐富了測(cè)試內(nèi)容的呈現(xiàn)方式,能提供PISA關(guān)于素養(yǎng)測(cè)驗(yàn)所需的真實(shí)情境。其次,基于技術(shù)的測(cè)驗(yàn)環(huán)境能完整捕獲學(xué)生解決問題的行為與操作過程,基于完整的過程數(shù)據(jù)能分析學(xué)生的問題解決過程,對(duì)深入分析學(xué)生思維過程、思維方式提供了更加直觀的證據(jù),能滿足PISA關(guān)于測(cè)試學(xué)生運(yùn)用所學(xué)知識(shí)、技能解決真實(shí)情境問題的需求。再次,參與PISA測(cè)試的學(xué)生數(shù)量眾多,語(yǔ)言文化差異顯著,傳統(tǒng)紙筆測(cè)驗(yàn)的閱卷、評(píng)分工作成本較高、管理復(fù)雜,基于技術(shù)的測(cè)驗(yàn)可以較容易地解決該問題。
2. 基于技術(shù)的高階能力測(cè)評(píng)
PISA基于技術(shù)測(cè)評(píng)高階能力是其發(fā)展變化的另一重要特征。這種發(fā)展趨勢(shì)與當(dāng)前世界范圍內(nèi)關(guān)于核心素養(yǎng)研究的熱潮緊密關(guān)聯(lián)。核心素養(yǎng)是指未來社會(huì)公民所需要的關(guān)鍵技能和必備品格,是一類包含知識(shí)、技能、態(tài)度、價(jià)值的高階能力。在這場(chǎng)教育目標(biāo)反思思潮中,教育測(cè)量與評(píng)價(jià)領(lǐng)域不可回避的問題是——如何測(cè)量這類結(jié)構(gòu)復(fù)雜、高度抽象的高階能力。PISA2015采用“人機(jī)交互”的方式測(cè)量了學(xué)生的合作問題解決能力,為核心素養(yǎng)這類高階技能的測(cè)量提供了新的測(cè)評(píng)策略。PISA的具體做法包括:定義能力框架、設(shè)計(jì)包含嵌入式試題的測(cè)驗(yàn)任務(wù)、獲取學(xué)生完成任務(wù)過程中在項(xiàng)目上的反應(yīng)、依據(jù)測(cè)量模型推斷學(xué)生的能力。以下結(jié)合PISA2015釋放的樣題解釋其測(cè)評(píng)的原理。
(1)合作問題解決能力測(cè)評(píng)框架。PISA2015合作問題解決能力包含“合作”和“問題解決”兩個(gè)維度,其中合作維度是合作問題解決能力的主線,提出了三種核心的合作問題解決能力,包括“建立與維持共享的理解”“采取合適的行動(dòng)解決問題”和“建立與維持團(tuán)隊(duì)組織”。問題解決維度主要包括:探究與理解、表征與形成、計(jì)劃與執(zhí)行、監(jiān)控與反饋。三種核心的合作問題解決能力和四個(gè)個(gè)體問題解決過程交叉形成了包含12類技能的矩陣(見表1),矩陣中的每個(gè)單元格代表一類技能[13]。
(2)測(cè)驗(yàn)過程。PISA2015“人機(jī)交互”測(cè)驗(yàn)?zāi)J绞侵溉伺c代理(測(cè)試任務(wù)中設(shè)計(jì)的虛擬搭檔)進(jìn)行對(duì)話合作解決問題的過程,圖1為PISA2015釋放樣題的某個(gè)界面。界面左邊是學(xué)生與代理之間的對(duì)話區(qū)域,在該區(qū)域上邊是合作的成員之間的對(duì)話歷史記錄,下邊是根據(jù)當(dāng)前對(duì)話進(jìn)程提供的一些選項(xiàng),被測(cè)學(xué)生可以選擇其中某個(gè)選項(xiàng)作出對(duì)合作搭檔的反應(yīng),合作成員會(huì)根據(jù)學(xué)生的選項(xiàng)自動(dòng)作出反應(yīng);界面的右邊是任務(wù)區(qū)域,在該區(qū)域?qū)W生為完成任務(wù)可以進(jìn)行各項(xiàng)操作,任務(wù)的進(jìn)程與會(huì)話的進(jìn)程同步。
(3)測(cè)量原理。“人機(jī)交互”測(cè)驗(yàn)?zāi)J街饕捎脮?huì)話代理技術(shù),合作成員之間的對(duì)話流程與路徑事先需要精心設(shè)計(jì),對(duì)話流程是一個(gè)有固定分支路徑和多個(gè)節(jié)點(diǎn)的交互過程,如圖2所示。每個(gè)對(duì)話節(jié)點(diǎn)相當(dāng)于一個(gè)試題(Item),對(duì)應(yīng)于操作性定義框架中的某種技能。對(duì)參與測(cè)試學(xué)生的合作問題解決能力的測(cè)量體現(xiàn)于學(xué)生在每個(gè)節(jié)點(diǎn)上所作出的不同反應(yīng),也就是選擇的不同選項(xiàng),類似于傳統(tǒng)測(cè)驗(yàn)對(duì)某個(gè)試題的作答,作為推論合作問題解決能力的直接證據(jù)。在獲取學(xué)生對(duì)測(cè)驗(yàn)項(xiàng)目的反應(yīng)模式之后,采用IRT(Item Response Theory,項(xiàng)目反應(yīng)理論)模型估計(jì)學(xué)生合作問題解決能力的得分。