周云 徐夢(mèng)杰 張民選
摘 要: 效度是決定考試質(zhì)量的一項(xiàng)重要指標(biāo),但在我國(guó)還未引起足夠重視,新高考評(píng)價(jià)體系的實(shí)施使得我國(guó)考試效度研究迫在眉睫。文章從效度視角探索美國(guó)SAT考試開(kāi)發(fā)的實(shí)踐,提出構(gòu)建基于論證的考試開(kāi)發(fā)效度驗(yàn)證框架。并通過(guò)文本分析和內(nèi)容一致性分析等方法,論證SAT考試開(kāi)發(fā)的效度。SAT考試效度驗(yàn)證的理論和實(shí)踐為我國(guó)考試測(cè)量目標(biāo)的研制、教育測(cè)量技術(shù)的應(yīng)用和考試機(jī)構(gòu)專業(yè)化建設(shè)提供了啟示。
關(guān)鍵詞: 效度;效度驗(yàn)證;SAT;考試開(kāi)發(fā)
作者簡(jiǎn)介:周云,上海師范大學(xué)國(guó)際與比較教育研究院博士研究生,上海市教育考試院助理研究員,主要從事比較教育研究和教育測(cè)量研究;徐夢(mèng)杰,上海師范大學(xué)國(guó)際與比較教育研究院創(chuàng)新團(tuán)隊(duì)成員,博士,主要從事比較教育研究;張民選,上海師范大學(xué)國(guó)際與比較教育研究院院長(zhǎng),教授,主要從事比較教育研究。]
一、問(wèn)題提出
2014年,國(guó)務(wù)院發(fā)布了《關(guān)于深化考試招生制度改革的實(shí)施意見(jiàn)》(以下簡(jiǎn)稱《實(shí)施意見(jiàn)》),要求加強(qiáng)高考內(nèi)容改革頂層設(shè)計(jì),指出要依據(jù)高校人才選拔要求和國(guó)家課程標(biāo)準(zhǔn),科學(xué)設(shè)計(jì)命題內(nèi)容。[中共中央國(guó)務(wù)院:《關(guān)于深化考試招生制度改革的實(shí)施意見(jiàn)》,轉(zhuǎn)中國(guó)政府網(wǎng):http://www.gov.cn/zhengce/content/2014-09/04/content_9065.htm,最后登錄日期:2017年4月20日。]為全面貫徹落實(shí)《實(shí)施意見(jiàn)》精神,教育部考試中心歷時(shí)三年研究,構(gòu)建了基于德智體美勞全面發(fā)展要求的高考評(píng)價(jià)體系,作為深化新時(shí)代高考內(nèi)容改革和命題工作的理論支撐和實(shí)踐指南。[李勇,趙靜宇,史辰羲:《高考評(píng)價(jià)體系的基本內(nèi)涵與主要特征》,《中國(guó)考試》2019年第12期,第7頁(yè)。]我國(guó)高考內(nèi)容改革目前要解決的問(wèn)題是如何在總體目標(biāo)的指引下,根據(jù)高考評(píng)價(jià)體系框架,完善考試開(kāi)發(fā)過(guò)程,提高命題質(zhì)量,發(fā)揮高考評(píng)價(jià)的指揮棒作用。
新高考評(píng)價(jià)體系提出了涵蓋考查目標(biāo)、考查內(nèi)容和考查要求的“一核四層四翼”整體架構(gòu),可以作為檢測(cè)考試目標(biāo)實(shí)現(xiàn)的評(píng)價(jià)量尺,也為考試結(jié)果的解釋和使用提供了依據(jù)。但我國(guó)目前的考試效度研究理論水平和實(shí)踐經(jīng)驗(yàn)還有待提高,借鑒世界上其他國(guó)家的高校入學(xué)考試效度驗(yàn)證做法,有助于提高我國(guó)高考的開(kāi)發(fā)質(zhì)量。
美國(guó)主要的考試機(jī)構(gòu)——大學(xué)理事會(huì)(College Board,CB)和美國(guó)教育考試服務(wù)中心(Educational Testing Service,ETS)歷來(lái)重視考試效度研究。SAT(Scholastic Aptitude Test)是美國(guó)大學(xué)理事會(huì)負(fù)責(zé)的一項(xiàng)高校入學(xué)考試,和ACT(American College Testing)同被我國(guó)學(xué)界視為“美國(guó)高考”。大學(xué)理事會(huì)每年都會(huì)出具SAT效度報(bào)告,這些效度研究,使得SAT考試的科學(xué)性和權(quán)威性越來(lái)越強(qiáng)。2014年,SAT考試開(kāi)始了新一輪改革。改革后的SAT對(duì)于效度驗(yàn)證尤其重視,SAT技術(shù)手冊(cè)(Technical Manual)用單獨(dú)一個(gè)章節(jié)詳盡地闡述了效度驗(yàn)證的過(guò)程。[The College Board.Test Specifications for the Redesigned SAT[EB/OL]. https://collegereadiness.colleg-eboard.org/pdf/sat-suite-assessments-technical-manual.pdf.]詳盡的考試開(kāi)發(fā)技術(shù)文件和考試說(shuō)明使得SAT成為一項(xiàng)完全公開(kāi)透明的考試,一方面體現(xiàn)出考試開(kāi)發(fā)完全遵從教育測(cè)量規(guī)范的科學(xué)精神,另一方面也顯示考試機(jī)構(gòu)坦誠(chéng)交流的專業(yè)素養(yǎng)。因此本文將從效度視角[效度(validity)是指為正確解釋考試分?jǐn)?shù)累積證據(jù)提供充分的科學(xué)依據(jù)的程度。收集相關(guān)證據(jù)的過(guò)程就是效度驗(yàn)證(validation)。效度總是與考試結(jié)果的解釋或某種用途有關(guān),是評(píng)價(jià)考試結(jié)果是否達(dá)到預(yù)期目標(biāo)和用途的一項(xiàng)重要指標(biāo)。]研究SAT考試開(kāi)發(fā)和效度驗(yàn)證的過(guò)程,探索適應(yīng)我國(guó)國(guó)情的考試效度驗(yàn)證模式。
二、基于論證的SAT考試開(kāi)發(fā)效度驗(yàn)證框架
SAT考試的核心功能是測(cè)量考生的“大學(xué)學(xué)習(xí)和職業(yè)生涯準(zhǔn)備”情況。為了實(shí)現(xiàn)這個(gè)目標(biāo),SAT考試通過(guò)精心設(shè)計(jì)閱讀、語(yǔ)法、數(shù)學(xué)和作文考試內(nèi)容,力圖從學(xué)生的答題表現(xiàn)中收集能夠反映學(xué)生在大學(xué)學(xué)習(xí)和職業(yè)生涯準(zhǔn)備成功方面的證據(jù)。如果收集到了所有證據(jù),就能證明SAT考試分?jǐn)?shù)可以有效地解釋考試的目標(biāo)和用途,SAT考試開(kāi)發(fā)是有效的。
1.基于論證的效度驗(yàn)證理論
伴隨著教育測(cè)量理論和實(shí)踐的發(fā)展,效度驗(yàn)證理論的發(fā)展經(jīng)歷了幾次更新,大致可分為四個(gè)階段:效標(biāo)效度、分類效度、整體效度和基于論證的效度。2014年版《教育與心理測(cè)量標(biāo)準(zhǔn)》指出,驗(yàn)證效度需要五個(gè)方面的證據(jù):考試內(nèi)容的證據(jù)、答題過(guò)程的證據(jù)、考試內(nèi)部結(jié)構(gòu)的證據(jù)、和其他變量關(guān)系的證據(jù)、考試結(jié)果的證據(jù)。[American Educational Research Association A P A, And the National Council on Measurement in Education. Standards for Educational & Psychological Testing (2014 Edition)[M]. Washington, DC: American Educational Research Association, 2014:13-19.]凱恩(Kane)不僅提出要根據(jù)考試開(kāi)發(fā)邏輯收集分?jǐn)?shù)解釋和使用的證據(jù),還架構(gòu)起考試分?jǐn)?shù)解釋和使用過(guò)程中推斷、假設(shè)和論證的內(nèi)在邏輯。[周群:《基于論證的我國(guó)高考開(kāi)發(fā)質(zhì)量評(píng)價(jià)模型研究》,華東師范大學(xué)博士學(xué)位論文,2011年,第27頁(yè)。]
凱恩在1990年首次提出基于論證的效度驗(yàn)證理論。2006年,他在《教育與心理測(cè)量》(Educational Measurement)一書中對(duì)這一理論進(jìn)行了詳細(xì)闡述,之后他又在巴赫(Bachman)、查貝爾(Chapell)等人的研究基礎(chǔ)上進(jìn)行了改進(jìn),正式確定了基于論證的效度驗(yàn)證模式。凱恩的基于論證的效度驗(yàn)證框架包含評(píng)分推斷、概化推斷、外延推斷和內(nèi)涵推斷四個(gè)部分。[Brennan, R.L. National Council on Measurement in Education, American Council on Education. Educational Measurement[M]. Praeger Publishers, 2006:23.]本文為了研究SAT考試設(shè)計(jì)的原理,在凱恩的效度理論框架的四個(gè)推斷基礎(chǔ)上增加了“設(shè)計(jì)推斷”的環(huán)節(jié),目的是研究SAT考試開(kāi)發(fā)是如何根據(jù)考試目標(biāo)設(shè)計(jì)考試內(nèi)容規(guī)范,并證明考試內(nèi)容規(guī)范與考試目標(biāo)的一致性,這對(duì)我國(guó)新高考評(píng)價(jià)體系的實(shí)施診斷具有重要參考價(jià)值?;谡撟C的效度驗(yàn)證框架,見(jiàn)圖1。
圖1 基于論證的效度驗(yàn)證框架
基于論證的效度驗(yàn)證模式采用兩步論證方法:第一步是確定考試分?jǐn)?shù)解釋的詳細(xì)內(nèi)涵,即對(duì)考試分?jǐn)?shù)的解釋性論證;第二步是效度論證,是對(duì)提出的考試分?jǐn)?shù)解釋和使用的評(píng)價(jià),即效度論證。[雷新勇:《基于標(biāo)準(zhǔn)的教育考試——命題、標(biāo)準(zhǔn)設(shè)置和學(xué)業(yè)評(píng)價(jià)》,上??茖W(xué)技術(shù)出版社2011年版,第26-27頁(yè)。]
2.SAT考試開(kāi)發(fā)的邏輯過(guò)程(解釋性論證)
解釋論證是個(gè)邏輯嚴(yán)謹(jǐn)?shù)恼撟C文本,其嚴(yán)謹(jǐn)性來(lái)自以考試開(kāi)發(fā)的邏輯過(guò)程為線索,包括編制考試說(shuō)明,依據(jù)考試說(shuō)明編制命題藍(lán)圖,依據(jù)命題藍(lán)圖命制試題、組成試卷;根據(jù)評(píng)分規(guī)則對(duì)考生應(yīng)答表現(xiàn)進(jìn)行評(píng)分;考試數(shù)據(jù)結(jié)構(gòu)檢驗(yàn)。解釋性論證包括“設(shè)計(jì)、評(píng)分、概化、外延、內(nèi)涵”五個(gè)推斷的假設(shè)及其證據(jù)。[Brennan, R.L. National Council on Measurement in Education, American Council on Education. Educational Measurement[M]. Praeger Publishers, 2006:23.]圖1中解釋論證部分的目標(biāo)領(lǐng)域是根據(jù)考查目標(biāo)進(jìn)行分解的考查內(nèi)容領(lǐng)域或考查能力,是可以從學(xué)生答題上觀察到的表現(xiàn)。觀察到的學(xué)生答題表現(xiàn)是根據(jù)試卷進(jìn)行評(píng)分的結(jié)果(原始分?jǐn)?shù)或者量表分?jǐn)?shù)),將觀察到的分?jǐn)?shù)推廣到概化全域分?jǐn)?shù),再將概化全域分?jǐn)?shù)推廣到目標(biāo)領(lǐng)域分?jǐn)?shù),最后與考查特征相關(guān)的內(nèi)涵被附加到目標(biāo)領(lǐng)域分?jǐn)?shù)上了。
在沒(méi)有技術(shù)手段保證的前提下,每個(gè)邏輯環(huán)節(jié)都有可能偏離教育測(cè)量學(xué)要求。因此,基于論證的效度驗(yàn)證模式的解釋性論證部分以考試分?jǐn)?shù)與預(yù)設(shè)解釋一致為前提,從教育測(cè)量學(xué)視角提出每個(gè)邏輯環(huán)節(jié)成立所需要的假設(shè)及其證據(jù)。
3.SAT考試開(kāi)發(fā)的效度論證框架
效度論證是對(duì)解釋性論證的證明。SAT考試開(kāi)發(fā)的效度論證就是要依次收集“設(shè)計(jì)推斷、評(píng)分推斷、概化推斷、外延推斷、內(nèi)涵推斷”這五個(gè)環(huán)節(jié)的證據(jù)。具體方法是圍繞SAT考試試卷和相關(guān)考試說(shuō)明及技術(shù)文本,對(duì)每個(gè)推斷需要的假設(shè)進(jìn)行逐一證明。根據(jù)SAT考試解釋性框架提出的假設(shè)和證據(jù),建立包含“設(shè)計(jì)推斷、評(píng)分推斷、概化推斷、外延推斷、內(nèi)涵推斷”的效度論證框架,共包括9個(gè)假設(shè),12個(gè)證據(jù),如表1所示。
凱恩的基于論證的效度驗(yàn)證理論隱含著項(xiàng)目評(píng)價(jià)的思想。考試的效度檢驗(yàn)將考試作為項(xiàng)目來(lái)評(píng)價(jià),需要評(píng)價(jià)考試項(xiàng)目的背景,包括考試目的、考試分?jǐn)?shù)的預(yù)期解釋、考試開(kāi)發(fā)的條件等。在收集證據(jù)之前先要回答“需要收集哪些證據(jù),為什么需要收集這些證據(jù)”。因此,根據(jù)效度論證框架,評(píng)價(jià)過(guò)程不僅表現(xiàn)為效度論證和解釋論證之間的互動(dòng),而且證據(jù)之間也是一種遞推關(guān)系:只有當(dāng)上一個(gè)證據(jù)得到證明,才能收集下一個(gè)證據(jù)。這種遞推的關(guān)系將效度證據(jù)緊密聯(lián)系起來(lái),實(shí)現(xiàn)一個(gè)邏輯嚴(yán)密的論證體系。
三、SAT考試效度論證過(guò)程
新一輪SAT改革最主要的目標(biāo)是更好地實(shí)現(xiàn)所有學(xué)生為大學(xué)學(xué)習(xí)和職業(yè)生涯做好準(zhǔn)備。2010年6月,美國(guó)各州聯(lián)合開(kāi)發(fā)了面向大學(xué)學(xué)習(xí)和職業(yè)生涯準(zhǔn)備的《州際共同核心標(biāo)準(zhǔn)》(簡(jiǎn)稱“CCSS”)。在全美教育目標(biāo)和課程標(biāo)準(zhǔn)的前提下,SAT考試開(kāi)發(fā)設(shè)計(jì)就有了統(tǒng)一的依據(jù)。
1.研究目標(biāo)
研究目標(biāo)是在假設(shè)SAT考試開(kāi)發(fā)有效的前提下,學(xué)習(xí)SAT考試設(shè)計(jì)和開(kāi)發(fā)的經(jīng)驗(yàn)。SAT最新的技術(shù)手冊(cè)通過(guò)交代SAT考試要收集的證據(jù),包括基于內(nèi)容的證據(jù),新SAT和舊SAT分?jǐn)?shù)之間的一致性證據(jù),SAT分?jǐn)?shù)與大學(xué)一年級(jí)特定科目的平均成績(jī)(FYGPA)和課程成績(jī)之間關(guān)系的證據(jù)等,論證SAT考試開(kāi)發(fā)的效度。 [SAT Suite of Assessments Technical Manual[EB/OL]. https://collegereadiness.collegeboard.org/pdf/sat-suite-assessments-technical-manual.pdf.]從效度理論發(fā)展進(jìn)程來(lái)看,這種證據(jù)收集方式似乎還停留在整體效度階段,即已經(jīng)認(rèn)識(shí)到一項(xiàng)考試要搜集多方面的證據(jù)才能證明其對(duì)分?jǐn)?shù)解釋和使用的有效性,但是仍未提供這些證據(jù)之間存在的內(nèi)在邏輯關(guān)系。
本研究將采用基于論證的效度驗(yàn)證理論對(duì)SAT考試開(kāi)發(fā)進(jìn)行效度論證,通過(guò)五個(gè)推斷所需要的假設(shè)和證據(jù),架構(gòu)起考試分?jǐn)?shù)解釋和使用過(guò)程中推斷、假設(shè)和論證的內(nèi)在邏輯,通過(guò)從考試目標(biāo)的設(shè)計(jì)到考試分?jǐn)?shù)的解釋證據(jù)層層傳遞,形成一個(gè)閉環(huán)的論證系統(tǒng),來(lái)驗(yàn)證新一輪改革的SAT考試開(kāi)發(fā)能否真正收集到考試分?jǐn)?shù)預(yù)期解釋證據(jù),也就是“SAT考試能否有效測(cè)量大學(xué)學(xué)習(xí)和職業(yè)生涯準(zhǔn)備”這一目標(biāo)。
2.研究對(duì)象
大學(xué)理事會(huì)在大量研究和廣泛調(diào)研的基礎(chǔ)上,制定了SAT考試應(yīng)該考查的測(cè)量目標(biāo)。圍繞測(cè)量目標(biāo)以及大學(xué)學(xué)習(xí)和職業(yè)生涯準(zhǔn)備標(biāo)準(zhǔn),SAT將要測(cè)量的學(xué)生大學(xué)學(xué)習(xí)和職業(yè)生涯準(zhǔn)備方面的能力分解到SAT考試的各個(gè)部分。在SAT試卷中,閱讀、語(yǔ)法、作文和數(shù)學(xué)部分考試的每道試題都對(duì)應(yīng)了SAT考查的一個(gè)或者多個(gè)維度的內(nèi)容和能力。SAT的考試總體框架如表2所示。
SAT考試測(cè)量目標(biāo)的分解過(guò)程和考查方式是通過(guò)考試說(shuō)明和技術(shù)手冊(cè)等文本進(jìn)行說(shuō)明的。2014年新一輪SAT改革方案提出以后,大學(xué)理事會(huì)官網(wǎng)就發(fā)布了《SAT考試說(shuō)明》(Test Specifications for the Redesigned SAT)和《SAT技術(shù)手冊(cè)》(SAT Suite of Assessments Technical Manual)。2017年第一次考試當(dāng)年,大學(xué)理事會(huì)就發(fā)布了一套樣卷,以后每年都會(huì)在官網(wǎng)上發(fā)布一套樣卷,同步發(fā)布的還有SAT考試的試題答案和評(píng)分規(guī)則。
考試說(shuō)明中的考試內(nèi)容規(guī)范和試題內(nèi)容規(guī)范是考試設(shè)計(jì)與開(kāi)發(fā)的基本依據(jù),試卷是考試設(shè)計(jì)與開(kāi)發(fā)的最終產(chǎn)品,考試說(shuō)明和技術(shù)手冊(cè)是考試設(shè)計(jì)和開(kāi)發(fā)的重要“使用說(shuō)明書”,這些文本是構(gòu)成考試開(kāi)發(fā)的基本材料。SAT考試在這些基礎(chǔ)材料的標(biāo)準(zhǔn)化編制和信息公開(kāi)方面做得非常細(xì)致和規(guī)范,本文將以《SAT考試說(shuō)明》《SAT技術(shù)手冊(cè)》以及SAT試卷和評(píng)分標(biāo)準(zhǔn)等相關(guān)材料為研究對(duì)象,研究SAT考試開(kāi)發(fā)和效度論證的過(guò)程。
3.研究方法與過(guò)程
在“設(shè)計(jì)推斷”論證過(guò)程中,采取文本分析法,對(duì)SAT各科目考試內(nèi)容規(guī)范(包括考試內(nèi)容規(guī)范和考查的關(guān)鍵特征)與SAT考試測(cè)量目標(biāo)進(jìn)行一致性分析,對(duì)各科目考試的內(nèi)容領(lǐng)域與課程標(biāo)準(zhǔn)進(jìn)行一致性分析,然后再對(duì)試題內(nèi)容規(guī)范與考試內(nèi)容規(guī)范進(jìn)行一致性分析,最后通過(guò)提供SAT考試的試測(cè)環(huán)節(jié)有比較完備的質(zhì)量保證機(jī)制,證明SAT考試試題質(zhì)量符合教育測(cè)量學(xué)要求。通過(guò)收集以上四方面的證據(jù),論證考試內(nèi)容設(shè)計(jì)是規(guī)范的,試題內(nèi)容和試題質(zhì)量是符合要求的,從而證明SAT各部分考試內(nèi)容規(guī)范對(duì)命題的指導(dǎo)是有效的。
在“評(píng)分推斷”論證過(guò)程中,通過(guò)文本分析法對(duì)SAT考試的技術(shù)手冊(cè)等SAT技術(shù)資料進(jìn)行分析。SAT考試題型為選擇題和網(wǎng)格填空題,且評(píng)分采用機(jī)器掃描答題紙的方式自動(dòng)評(píng)分,選擇題選項(xiàng)的改革也從理論上避免了可能由考試策略帶來(lái)的誤差,網(wǎng)格填空題也體現(xiàn)學(xué)生真實(shí)自然的答題結(jié)果,因此可以證明SAT考試的選擇題和填空題的評(píng)分規(guī)則是適當(dāng)?shù)?。其次通過(guò)研究SAT技術(shù)手冊(cè)中關(guān)于分?jǐn)?shù)量表研究過(guò)程和結(jié)論的描述,說(shuō)明分?jǐn)?shù)量表設(shè)置也是合理的,從而證明SAT考試的評(píng)分是有效的。
在“概化推斷”論證過(guò)程中,采用文本分析方法,對(duì)SAT官方發(fā)布的一套樣卷進(jìn)行試題分析,完成154道試題的內(nèi)容領(lǐng)域、內(nèi)容維度、行為描述等信息的編碼,并采用韋伯(Webb)內(nèi)容一致性分析工具,對(duì)內(nèi)容領(lǐng)域和目標(biāo)領(lǐng)域的一致性進(jìn)行論證。得出“試題考查的關(guān)鍵特征都在SAT考試內(nèi)容規(guī)范規(guī)定的范圍內(nèi),且與各部分的關(guān)鍵特征和題量分布與考試內(nèi)容規(guī)范要求完全一致”的結(jié)論。由此證明SAT試題是樣本的有效單元,可以概化到全域。
在“外延推斷”論證過(guò)程中,采用Webb內(nèi)容一致性分析工具,對(duì)SAT內(nèi)容領(lǐng)域和目標(biāo)領(lǐng)域進(jìn)行一致性分析,論證SAT試卷有效覆蓋了考試內(nèi)容規(guī)范規(guī)定的主題和內(nèi)容知識(shí),因此可以證明概化全域的內(nèi)容覆蓋范圍與目標(biāo)領(lǐng)域一致,外延推斷論證成立。
在“內(nèi)涵推斷”論證過(guò)程中,通過(guò)分析七個(gè)子維度和兩個(gè)跨學(xué)科專題[SAT考試分?jǐn)?shù)報(bào)告需要單獨(dú)報(bào)告七個(gè)子維度分?jǐn)?shù)和兩個(gè)跨學(xué)科專題分?jǐn)?shù),這是新一輪SAT改革設(shè)計(jì)的需要考查的關(guān)鍵特征,旨在用于識(shí)別考生的優(yōu)勢(shì)和劣勢(shì),以及學(xué)生在閱讀、語(yǔ)法和數(shù)學(xué)的核心技能應(yīng)用于特定學(xué)術(shù)背景方面的成績(jī)。]在整套試卷上的權(quán)重,發(fā)現(xiàn)與考試內(nèi)容規(guī)范表中的權(quán)重完全一致,說(shuō)明考試分?jǐn)?shù)結(jié)構(gòu)與考試內(nèi)容規(guī)范結(jié)構(gòu)相一致,由此可以證明考試分?jǐn)?shù)表征的特征內(nèi)涵與考試預(yù)設(shè)解釋一致。
綜上所述,根據(jù)SAT考試分?jǐn)?shù)解釋性論證框架,經(jīng)過(guò)五個(gè)環(huán)節(jié)的推斷論證,能夠收集到SAT想要收集的證據(jù)。驗(yàn)證過(guò)程中分析的材料來(lái)源、收集到的證據(jù)和證據(jù)收集方法,見(jiàn)表3。
4.研究結(jié)論
按照以上方法,SAT解釋性論證中所提到的9個(gè)假設(shè)和12個(gè)證據(jù)均已收集到,說(shuō)明SAT考試開(kāi)發(fā)的整體效度是好的。但采用基于論證的效度模式進(jìn)行論證結(jié)果發(fā)現(xiàn),SAT效度也并非它自身所宣稱的那么理想,例如,雖然SAT全卷的覆蓋率超過(guò)了50%,達(dá)到了標(biāo)準(zhǔn),但是SAT語(yǔ)法部分和數(shù)學(xué)部分的內(nèi)容在每個(gè)主題和行為目標(biāo)的覆蓋度方面沒(méi)有達(dá)到標(biāo)準(zhǔn)。基于這樣的分析結(jié)果,SAT的未來(lái)調(diào)整可以有兩個(gè)方向:一是調(diào)整語(yǔ)法和數(shù)學(xué)考試的內(nèi)容領(lǐng)域,使其更聚焦;二是調(diào)整試題考查的行為目標(biāo)分配比例。但是無(wú)論如何調(diào)整,都必須按照考試開(kāi)發(fā)流程重新進(jìn)行效度驗(yàn)證,以確保沒(méi)有因?yàn)檎{(diào)整一個(gè)證據(jù)而影響其他證據(jù)的收集。
綜上所述,可以得出結(jié)論:SAT考試結(jié)果能夠支持對(duì)考試分?jǐn)?shù)和用途的解釋,說(shuō)明SAT考試能夠有效測(cè)量大學(xué)學(xué)習(xí)和職業(yè)生涯準(zhǔn)備這一目標(biāo),考試的開(kāi)發(fā)是有效的。
四、對(duì)我國(guó)新高考評(píng)價(jià)體系實(shí)施的啟示
從效度視角研究SAT考試開(kāi)發(fā),對(duì)于我國(guó)進(jìn)行新高考評(píng)價(jià)體系下的考試開(kāi)發(fā)和效度研究具有以下幾點(diǎn)啟示:
1.加強(qiáng)考試測(cè)量目標(biāo)與教育目標(biāo)的一致性研究
考試的測(cè)量目標(biāo)是從理論和實(shí)踐兩個(gè)層面解決“考試測(cè)量什么”的問(wèn)題,也是解決考試的理論解釋和測(cè)量的有效性問(wèn)題的前提條件。[雷新勇:《大規(guī)模教育考試:命題與評(píng)價(jià)》 ,華東師范大學(xué)出版社2006年版,第98頁(yè)。]從操作層面來(lái)看,考試測(cè)量目標(biāo)是一個(gè)以指標(biāo)系統(tǒng)形式呈現(xiàn)的評(píng)價(jià)標(biāo)準(zhǔn),由行為描述和目標(biāo)權(quán)重兩部分組成。行為描述是對(duì)將要測(cè)量的學(xué)科素養(yǎng)的內(nèi)涵的理論演繹,目標(biāo)權(quán)重是行為目標(biāo)之間的比例關(guān)系。在整卷設(shè)計(jì)中,題型功能開(kāi)發(fā)、試題題量分布、試題賦分等都以此指標(biāo)系統(tǒng)為依據(jù)。[周群:《大規(guī)模教育考試測(cè)量目標(biāo)合理性研究》,《第十屆海峽兩岸心理與教育測(cè)驗(yàn)學(xué)術(shù)研討會(huì)暨全國(guó)教育與心理統(tǒng)計(jì)測(cè)量學(xué)術(shù)年會(huì)論文集》,2012年,第103-104頁(yè)。]我國(guó)教育考試可以參考SAT教育目標(biāo)到考試測(cè)量目標(biāo)的分解過(guò)程,要加強(qiáng)能力目標(biāo)與測(cè)量目標(biāo)、內(nèi)容規(guī)范與內(nèi)容領(lǐng)域、內(nèi)容領(lǐng)域與課程標(biāo)準(zhǔn)的一致性分析,爭(zhēng)取做到“不遺漏,不走樣,可操作,易反饋”。但是,同時(shí)也要考慮到我國(guó)教育考試的特點(diǎn),因地制宜,不照搬照抄。例如,新高考評(píng)價(jià)體系提出,高考考查的核心目標(biāo)是“堅(jiān)持以習(xí)近平新時(shí)代中國(guó)特色社會(huì)主義思想為指導(dǎo),落實(shí)立德樹(shù)人根本任務(wù)”。[教育部考試中心:《中國(guó)高考評(píng)價(jià)體系》,人民教育出版社2019年版,第10頁(yè)。]相比于SAT考查目標(biāo)內(nèi)涵,我國(guó)高考除“選才”和“指導(dǎo)教學(xué)”兩個(gè)功能以外,還多了一項(xiàng)價(jià)值引導(dǎo),即“立德樹(shù)人”的要求。
2.加大教育測(cè)量理論和技術(shù)的應(yīng)用
SAT考試開(kāi)發(fā)過(guò)程完全遵循《教育與心理測(cè)量標(biāo)準(zhǔn)》(以下簡(jiǎn)稱《標(biāo)準(zhǔn)》)的要求。只有遵循《標(biāo)準(zhǔn)》,才能保證開(kāi)發(fā)和組織的考試所得出的結(jié)果是可信的、有效的。我國(guó)教育考試設(shè)計(jì)的行政化傾向,是我國(guó)考試開(kāi)發(fā)的特殊性所在,這使我國(guó)考試產(chǎn)品質(zhì)量在開(kāi)發(fā)之初就存在產(chǎn)生誤差的可能。因此,我國(guó)高考從一開(kāi)始應(yīng)該盡可能遵循《標(biāo)準(zhǔn)》進(jìn)行考試開(kāi)發(fā),例如,考試說(shuō)明的編制,就應(yīng)該按照《標(biāo)準(zhǔn)》規(guī)定的要素進(jìn)行編寫,同時(shí)借鑒SAT考試說(shuō)明編寫的經(jīng)驗(yàn),讓全國(guó)各地考試機(jī)構(gòu)、高校、中學(xué)、教育研究者、家長(zhǎng)和考生都能從考試說(shuō)明中得到盡可能多的信息,促進(jìn)社會(huì)對(duì)高考評(píng)價(jià)體系的深刻理解。