国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

做好高中學(xué)業(yè)水平考試所必須的四項(xiàng)測(cè)量學(xué)準(zhǔn)備

2017-06-05 14:59:45楊志明
中國考試 2017年1期
關(guān)鍵詞:等值標(biāo)桿測(cè)驗(yàn)

楊志明

(教育部考試中心,北京 100084)

做好高中學(xué)業(yè)水平考試所必須的四項(xiàng)測(cè)量學(xué)準(zhǔn)備

楊志明

(教育部考試中心,北京 100084)

高中學(xué)業(yè)水平考試是高考改革新方案中的重要一環(huán)。要做好高中學(xué)業(yè)水平考試,避免出現(xiàn)大規(guī)模學(xué)生反復(fù)多考、放棄重要學(xué)科盲目追求A等、大量高水平考生獲得過低等級(jí)分?jǐn)?shù)等問題,就必須提前做好標(biāo)桿試卷的研發(fā)、學(xué)業(yè)標(biāo)準(zhǔn)的設(shè)定、分?jǐn)?shù)常模的研制以及測(cè)驗(yàn)等值的實(shí)現(xiàn)四項(xiàng)工作。建議學(xué)科專家、測(cè)量學(xué)專家和教育管理工作者共同合作,力爭(zhēng)在正式試行高中學(xué)業(yè)水平考試之前一年完成這些工作,以免對(duì)新高考方案、學(xué)業(yè)水平考試、基礎(chǔ)教育以及高等教育帶來負(fù)面影響。

考試招生制度改革;高中學(xué)業(yè)水平考試;標(biāo)桿試卷;標(biāo)準(zhǔn)設(shè)定;常模研發(fā);測(cè)驗(yàn)等值

為減輕高考?jí)毫?,降低一考定終身的危害,保障中小學(xué)教育教學(xué)質(zhì)量,同時(shí)又有利于高校選才,新一輪高考招生制度改革在減少高考科目數(shù)量、試行一年多考、推行省級(jí)學(xué)業(yè)水平考試、嘗試綜合評(píng)價(jià)和多元錄取四個(gè)方面作出了重大決策[1-3],給教育改革指明了正確方向。然而,要真正實(shí)現(xiàn)改革的初衷,需要必要的測(cè)量學(xué)準(zhǔn)備,否則,“播下龍種可能收獲跳蚤”[4]。事實(shí)上,在浙江省高中學(xué)業(yè)水平考試的試點(diǎn)工作中,已經(jīng)出現(xiàn)了“為避免與高手同臺(tái)競(jìng)技拿不到A而沖擊教學(xué)工作”“為求全A而放棄重要的、難度偏大的物理學(xué)科”“因多次考試分?jǐn)?shù)不等值而反復(fù)考試、增加負(fù)擔(dān)”,以及高校招生區(qū)分度不足等突出問題[5-6]。其實(shí),教育測(cè)量學(xué)的理論和國際考試行業(yè)的成功經(jīng)驗(yàn)已經(jīng)表明,要搞好高中學(xué)業(yè)水平考試,必須提前至少一年做好四項(xiàng)測(cè)量學(xué)準(zhǔn)備[7-9],即研發(fā)標(biāo)桿試卷(Reference-form or Base-form),設(shè)定學(xué)業(yè)標(biāo)準(zhǔn)(Standard Setting),研制分?jǐn)?shù)常模(Scaling or Norming)和實(shí)現(xiàn)測(cè)驗(yàn)等值(Equating)。本文就這四項(xiàng)工作做簡(jiǎn)要分析,供考試一線工作者參考。

1 標(biāo)桿試卷的研發(fā)

從教育與心理測(cè)量學(xué)角度說,學(xué)業(yè)水平考試是一種以達(dá)標(biāo)驗(yàn)收合格為主要目的的標(biāo)準(zhǔn)參照性考試(Criterion-referenced Test),其性質(zhì)與汽車駕駛證考試或醫(yī)師資格考試一樣,只要考生的水平達(dá)到國家標(biāo)準(zhǔn)就可以得到合格證書或優(yōu)良證書。因此,做好學(xué)業(yè)水平考試的第一個(gè)必要準(zhǔn)備是設(shè)立一套符合國家要求的標(biāo)桿,即研發(fā)標(biāo)桿試卷。

研發(fā)標(biāo)桿試卷的主要作用在于確保試卷的難度適合考生總體的一般水平,其難度范圍能夠覆蓋全體考生的能力范圍,并對(duì)所有能力水平的考生都具有較好的區(qū)分度。假若沒有標(biāo)桿試卷,正式的學(xué)業(yè)水平考試的難度和能力覆蓋范圍就沒有辦法得到保障。在目前廣泛使用卷面原始分?jǐn)?shù)、部分科目的學(xué)業(yè)考試成績(jī)折算成分?jǐn)?shù)計(jì)入高考總分的條件下,這個(gè)標(biāo)桿試卷的缺失就可能直接出現(xiàn)學(xué)生為追求更高分?jǐn)?shù)等級(jí)而反復(fù)參加考試、增加學(xué)業(yè)負(fù)擔(dān)等問題。

研發(fā)標(biāo)桿試卷的首要工作是確定考查的內(nèi)容標(biāo)準(zhǔn)(Content Standards),即考試管理部門需要組織大量的學(xué)科專家和心理測(cè)量學(xué)專家,根據(jù)國家課程標(biāo)準(zhǔn)或考試大綱,精心編制每個(gè)學(xué)科的考試說明(Test Specification)??荚囌f明需要對(duì)考試的目的、對(duì)象、內(nèi)容、能力、形式、樣題樣卷、信度效度指標(biāo)要求、結(jié)果解釋和使用等作出具體規(guī)定,并提前向社會(huì)公布。其中,對(duì)學(xué)科內(nèi)容的層次化、結(jié)構(gòu)化的操作性定義與編碼是工作的重點(diǎn)。以美國共同核心課程標(biāo)準(zhǔn)(Common Core State Standards)為例,其中的高中數(shù)學(xué)內(nèi)容標(biāo)準(zhǔn)分三個(gè)層級(jí),第一層級(jí)(Strands1)包括數(shù)與量(Number and Quantity)、代數(shù)(Algebra)、函數(shù)(Functions)、建模(Modeling)、幾何(Geometry)、概率與統(tǒng)計(jì)(Statistics and Probability)6大類,第二層級(jí)(Strands2)是在6個(gè)大類下分出若干小類,第三層級(jí)(Strands3)是在每個(gè)小類下列出一系列要素,并對(duì)所有要素進(jìn)行解釋或示例[10]。尤其重要的是,這三個(gè)層級(jí)的所有要點(diǎn)都必須做編碼處理,以方便日后的題庫建設(shè)與自動(dòng)組卷工作,同時(shí)可為教學(xué)提供指南。

確定內(nèi)容標(biāo)準(zhǔn)是一項(xiàng)十分細(xì)致而且繁重的工作,按照國際經(jīng)驗(yàn),它通常需要幾十人的專家團(tuán)隊(duì)至少6個(gè)月的時(shí)間,有時(shí)甚至需要幾年的時(shí)間才能完成。鑒于目前我國已經(jīng)有國家課程標(biāo)準(zhǔn),為編寫學(xué)業(yè)水平考試的考試說明提供了良好的基礎(chǔ),可減少確定內(nèi)容標(biāo)準(zhǔn)的時(shí)間。

美國新高考SAT公布的考試說明(Test Specifi?cations for the Redesigned SAT)對(duì)所考內(nèi)容等方面的說明多達(dá)200多頁[11],美國的國家核心課程標(biāo)準(zhǔn)也對(duì)每門課程的考查內(nèi)容和能力層次要求編制了幾百頁的操作性定義,并對(duì)每個(gè)知識(shí)點(diǎn)進(jìn)行了編碼處理[10]。但是,這項(xiàng)基礎(chǔ)性的工作在我國的大多數(shù)考試中都是缺失的,其結(jié)果是相應(yīng)考試的公平性、信度和效度的證據(jù)不足。

待內(nèi)容標(biāo)準(zhǔn)被確定并且編碼工作完成以后,命題團(tuán)隊(duì)與心理測(cè)量學(xué)團(tuán)隊(duì)則需要通力合作,編制考試藍(lán)圖(Test Blueprint)??荚囁{(lán)圖的作用是明確每個(gè)知識(shí)要點(diǎn)(Strands1層次)需要考查的題目數(shù)量及權(quán)重,以及需要考查的能力深度或復(fù)雜程度等??荚囁{(lán)圖類似于工程建設(shè)中的施工圖紙,施工時(shí)的材料(考試題目)和結(jié)構(gòu)(試卷編排)等必須完全符合圖紙要求,也就是說,題目是可以變換的,但所要測(cè)查的內(nèi)容和深度是必須穩(wěn)定的。這是為日后的測(cè)驗(yàn)等值打基礎(chǔ)。

2 學(xué)業(yè)標(biāo)準(zhǔn)的設(shè)定

學(xué)業(yè)水平考試的標(biāo)準(zhǔn)設(shè)定(Standard Setting)包括兩個(gè)方面的工作,其一是內(nèi)容標(biāo)準(zhǔn)的設(shè)定,其二是表現(xiàn)標(biāo)準(zhǔn)(Performance Standards)的設(shè)定。其中,內(nèi)容標(biāo)準(zhǔn)的設(shè)定在研發(fā)標(biāo)桿試卷時(shí)已經(jīng)完成,表現(xiàn)標(biāo)準(zhǔn)的設(shè)定則基于內(nèi)容標(biāo)準(zhǔn)以及考生總體或它的某個(gè)代表性樣本在標(biāo)桿試卷上的作答水平。換句話說,對(duì)于國家要求的各種水平等級(jí),比如A、B、C、D、E、F等級(jí),首先必須從任務(wù)的重要程度以及題目的難易程度上,由學(xué)科專家作出初步判斷。然后,通過分析總體或它的代表性樣本在標(biāo)桿試卷上的得分再作出調(diào)整。這項(xiàng)工作既可以在研制標(biāo)桿試卷的同時(shí)完成,也可以在正式考試實(shí)施之后完成。

設(shè)定學(xué)業(yè)水平標(biāo)準(zhǔn)的主要作用在于避免出現(xiàn)選課選考過程中的“避難就易”“避強(qiáng)欺弱”等問題。試想,當(dāng)優(yōu)、良、合格等標(biāo)準(zhǔn)會(huì)因?yàn)榭忌后w的水平太高或太低而發(fā)生變動(dòng)時(shí),學(xué)生會(huì)選學(xué)選考容易讓自己名列前茅的科目,因?yàn)閲业闹笇?dǎo)性文件中明確建議原始分?jǐn)?shù)最好的15%的考生可獲得A等。一旦等級(jí)標(biāo)準(zhǔn)不因考生群體的不同而不同,學(xué)業(yè)水平考試中的許多亂象便可自動(dòng)消退。

具體來說,表現(xiàn)標(biāo)準(zhǔn)的設(shè)定有以下10個(gè)步驟[8,12-13]。

第一步,組建專家小組。根據(jù)測(cè)評(píng)目的,組建一個(gè)由教育管理者、學(xué)科專家和測(cè)評(píng)專家組成的有代表性的專家委員會(huì)或?qū)<倚〗M,每個(gè)方面的專家至少需3~9人,專家小組人數(shù)可控制在9~27人。

第二步,準(zhǔn)備專家會(huì)議。選定一個(gè)標(biāo)準(zhǔn)設(shè)定方法,準(zhǔn)備培訓(xùn)資料,確定工作會(huì)議日程。其中,標(biāo)準(zhǔn)設(shè)定的方法目前至少有幾十種,比較常用的主要有基于測(cè)驗(yàn)的方法(Test-centered Methods)和基于考生的方法(Examinee-centered Methods)兩大類。前者如Nedelsky方法(1954)、艾貝爾(Ebel)方法(1972)、安戈夫(Angoff)方法(1971)和書簽標(biāo)記(Bookmark)方法等;后者如臨界組(Borderline Group)方法和對(duì)照組(Contrasting Groups)方法等。最常用的是安戈夫方法和書簽標(biāo)記方法。

第三步,編寫等級(jí)說明。專家組根據(jù)自己的學(xué)科知識(shí)和素養(yǎng),對(duì)表現(xiàn)水平為優(yōu)、良、合格等各等級(jí)的最低表現(xiàn)水平作出操作性的文字描述,形成工作中的指導(dǎo)文件。

第四步,實(shí)習(xí)評(píng)定方法。組織專家組學(xué)習(xí)和掌握標(biāo)準(zhǔn)設(shè)定方法。通常需要專家試用推薦的標(biāo)準(zhǔn)設(shè)定方法,以便大家使用相同的評(píng)定規(guī)則。

第五步,初步評(píng)定等級(jí)。專家對(duì)標(biāo)桿試卷中的每一道試題,按照標(biāo)準(zhǔn)設(shè)定的方法,初步評(píng)定各等級(jí)最低水平者答對(duì)各題的比例。初評(píng)結(jié)果經(jīng)過統(tǒng)計(jì)處理之后,形成綜合報(bào)告再反饋給各位專家,以方便專家進(jìn)行下一輪的獨(dú)立評(píng)定。

第六步,綜合多方信息。專家根據(jù)初評(píng)結(jié)果綜合報(bào)告,結(jié)合實(shí)測(cè)所得題目難度、區(qū)分度、題目特征曲線、客觀題選項(xiàng)分布等信息,再次運(yùn)用特定的標(biāo)準(zhǔn)設(shè)定方法,對(duì)每道試題重新評(píng)定,形成第二次綜合報(bào)告。

第七步,反復(fù)多輪討論。重復(fù)第五步和第六步多次,逐步形成穩(wěn)定的評(píng)定結(jié)果。

第八步,終審評(píng)定結(jié)果。綜合各專家成員多次評(píng)定的結(jié)果(通常經(jīng)過2~5次輪回),形成一份對(duì)各題的最終評(píng)定報(bào)告。通過統(tǒng)計(jì)處理,確定每個(gè)等級(jí)在標(biāo)桿試卷上的最低分?jǐn)?shù)要求。

第九步,評(píng)估評(píng)定過程。在得到專家組的終審評(píng)定結(jié)果之后,各位專家還需要對(duì)自己的評(píng)定過程進(jìn)行一次獨(dú)立的檢查,包括對(duì)標(biāo)準(zhǔn)設(shè)定全部過程的自評(píng)、對(duì)評(píng)定工作的信心、對(duì)掌握和運(yùn)用評(píng)定方法的正確性等工作作出獨(dú)立評(píng)定。

第十步,收集效度證據(jù)。對(duì)專家給出的評(píng)定結(jié)果,還需要收集其他獨(dú)立的證據(jù)進(jìn)行效度驗(yàn)證。一旦發(fā)現(xiàn)偏差,則需要對(duì)評(píng)定結(jié)果作出必要的微調(diào)。在此基礎(chǔ)上,才能形成標(biāo)準(zhǔn)設(shè)定的最終文件。

值得說明的是,標(biāo)準(zhǔn)設(shè)定的工作耗時(shí)較長(zhǎng),所需要的專家人數(shù)也比較多,因此該項(xiàng)工作需要提前做好周詳?shù)陌才拧?/p>

表1 浙江省高中學(xué)業(yè)水平考試所設(shè)定的21個(gè)等級(jí)標(biāo)準(zhǔn)

3 分?jǐn)?shù)常模的研制

關(guān)于學(xué)業(yè)水平考試分?jǐn)?shù)等級(jí)化的方案,教育部《關(guān)于普通高中學(xué)業(yè)水平考試的實(shí)施意見》明確提出:“以等級(jí)呈現(xiàn)成績(jī)的一般分為五個(gè)等級(jí),位次由高到低為A、B、C、D、E。原則上各?。▍^(qū)、市)各等級(jí)人數(shù)所占比例依次為:A等級(jí)15%,B等級(jí)30%,C等級(jí)30%,D、E等級(jí)共25%。E等級(jí)為不合格,具體比例由各?。▍^(qū)、市)根據(jù)基本教學(xué)質(zhì)量要求和命題情況等確定。”[3]根據(jù)這個(gè)要求,浙江省提出了如表1所示的學(xué)業(yè)水平考試分?jǐn)?shù)等級(jí)方案。

對(duì)浙江方案進(jìn)行分析:一方面,根據(jù)“趨利避害”和“田忌賽馬”的思維邏輯,家長(zhǎng)和學(xué)校一定會(huì)鼓勵(lì)自己的孩子或?qū)W生去與低水平的選手進(jìn)行比賽,以獲得A等或比自己應(yīng)有水平更高的其他等級(jí)。另一方面,當(dāng)某門學(xué)科,比如物理的應(yīng)考者全都是重點(diǎn)中學(xué)的優(yōu)秀學(xué)生時(shí),受到固定比例原則的限制,很多高水平的學(xué)生一定得不到應(yīng)有的A等或B等。結(jié)果,選學(xué)選考物理的人數(shù)一定會(huì)越來越少。這不僅引起了一流高校的焦慮[6],而且給基礎(chǔ)教育一個(gè)十分有害的導(dǎo)向。據(jù)有關(guān)報(bào)道,2016年10月浙江高考7門選考科目中,杭州市選考物理的人數(shù)列倒數(shù)第三位[14]。物理是很多重點(diǎn)高校十分重視的科目,這種現(xiàn)象必然會(huì)導(dǎo)致高校招生部門的焦慮[6,14]。

當(dāng)成功研發(fā)了標(biāo)桿試卷、明確了內(nèi)容標(biāo)準(zhǔn)和表現(xiàn)標(biāo)準(zhǔn)之后,接下來的工作就是研制分?jǐn)?shù)常模(Norms)[15]。所謂常模,就是一種以考生總體的一般表現(xiàn)水平為參照點(diǎn)的分?jǐn)?shù)表達(dá)系統(tǒng),其表現(xiàn)形式通常是試卷原始分?jǐn)?shù)與量表分?jǐn)?shù)或百分位等級(jí)或其他分?jǐn)?shù)之間的轉(zhuǎn)換關(guān)系。這種轉(zhuǎn)換關(guān)系一般是以總體的某個(gè)代表性樣本(常模樣本)的數(shù)據(jù)為基礎(chǔ)、運(yùn)用現(xiàn)代測(cè)量學(xué)理論和方法建立起來的,其目的是使考試的量表分?jǐn)?shù)具有某個(gè)有意義的零點(diǎn)(參照點(diǎn))和單位,并符合某種理論分布。通過常模,考生可以很容易地了解到自己在相應(yīng)群體中的相對(duì)位置?!蛾P(guān)于普通高中學(xué)業(yè)水平考試的實(shí)施意見》中推薦的方法,當(dāng)且僅當(dāng)考生樣本很大或考生樣本是全國或全省的代表性樣本的時(shí)候才比較合理。由于各省某些學(xué)科的應(yīng)考群體有時(shí)不具備文件中所要求的潛在條件,所以需要特別小心地研制符合各省實(shí)際情況的常模研制方案,而不能對(duì)全省非代表性的應(yīng)考群體直接按照固定比例計(jì)算分?jǐn)?shù)等級(jí)。

一旦常模與前述的標(biāo)準(zhǔn)設(shè)定結(jié)果建立了科學(xué)的對(duì)應(yīng)關(guān)系,則很有可能消除按固定比例劃等級(jí)所帶來的一系列問題,可以避免“田忌賽馬”現(xiàn)象的發(fā)生。因?yàn)闊o論考生選考任何科目,其得分等級(jí)是同時(shí)根據(jù)學(xué)科本身的標(biāo)準(zhǔn)和全省考生的代表性樣本所確定的,而不是按照自己應(yīng)考時(shí)特殊的考生群體的水平所決定的。

特別需要強(qiáng)調(diào)的是,要制定好測(cè)驗(yàn)分?jǐn)?shù)常模,還需要對(duì)學(xué)業(yè)水平考試的性質(zhì),即分?jǐn)?shù)的作用有科學(xué)的認(rèn)識(shí)?;蛟S是為了避免出現(xiàn)降低合格標(biāo)準(zhǔn)、各中學(xué)不重視學(xué)業(yè)水平考試等問題,《關(guān)于普通高中學(xué)業(yè)水平考試的實(shí)施意見》明確規(guī)定,高中學(xué)業(yè)水平考試部分學(xué)科的成績(jī)將以等級(jí)或其他形式計(jì)入高考總分。于是,部分選考學(xué)科的學(xué)業(yè)水平考試就必須同時(shí)具有合格驗(yàn)收的功能和人才選拔的功能。這就使得學(xué)業(yè)水平考試同時(shí)具有標(biāo)準(zhǔn)參照性考試和常模參照性考試(Norm-referenced Test)的性質(zhì)。常模參照性考試的重點(diǎn)在于區(qū)分考生水平的高低,并不在于考生水平是否達(dá)標(biāo)。

于是,從考試性質(zhì)的定位來看,學(xué)業(yè)水平考試變成了一個(gè)具有雙重性質(zhì)的矛盾體,其直接后果是顧此失彼。一方面,當(dāng)學(xué)業(yè)水平考試被定位為標(biāo)準(zhǔn)參照性考試時(shí),其區(qū)分度就不夠了。例如,假設(shè)某省有30萬考生,按照成績(jī)最好的15%為A等的規(guī)則計(jì)算,該省將會(huì)有4.5萬考生同時(shí)獲得A等。這個(gè)結(jié)果顯然無法滿足高校招生的選拔需要。另一方面,當(dāng)學(xué)業(yè)水平考試被定位為常模參照性考試時(shí),題目難度必定要加大以便區(qū)分考生,其結(jié)果必然會(huì)導(dǎo)致眾多考生不合格的問題,這就違背了學(xué)業(yè)水平考試的初衷。

要使學(xué)業(yè)水平考試同時(shí)具有標(biāo)準(zhǔn)參照性和常模參照性功能,一個(gè)簡(jiǎn)單的辦法是放棄高校招生錄取中習(xí)以為常的“拼盤式錄取”模式,推行“跨欄式錄取”模式[16]。簡(jiǎn)單地說,“跨欄式錄取”模式與足球比賽中“淘汰賽的篩選規(guī)則”類似,即在招生過程中,經(jīng)專家論證并報(bào)主管部門批準(zhǔn),每所高校都事先公布不同學(xué)科類型所有錄取欄桿的高度??忌灰軌蛑鸺?jí)“跨欄”,即可被相應(yīng)高校的相關(guān)科目錄取。而且,考生在跨越前一欄桿時(shí)所富余的分?jǐn)?shù),不得計(jì)入總分用在其后面的跨欄過程之中。顯然,這種逐步篩選考生的方法,可以從制度設(shè)計(jì)上體現(xiàn)學(xué)業(yè)水平考試兼具標(biāo)準(zhǔn)參照性考試和常模參照性考試身份的問題。舉例來說,假設(shè)某大學(xué)中文系為了招收文科才子,防止出現(xiàn)二流理科生“通過數(shù)學(xué)分?jǐn)?shù)高補(bǔ)足其高考語文成績(jī)平平而進(jìn)入中文系”的投機(jī)行為,在招生過程中至少可以設(shè)置如下兩個(gè)欄桿:第一個(gè)欄桿,數(shù)學(xué)成績(jī)必須合格。如數(shù)學(xué)學(xué)業(yè)水平考試成績(jī)不得低于B等或高考數(shù)學(xué)成績(jī)不得低于110分;第二個(gè)欄桿,高考語文成績(jī)必須名列前茅。當(dāng)考生跨越了第一個(gè)欄桿之后,其多出來的數(shù)學(xué)分?jǐn)?shù)將不再計(jì)入總分用于其跨越第二個(gè)欄桿。于是,數(shù)學(xué)和語文成績(jī)?cè)谡惺瘴目茖W(xué)生過程中的作用都得到了合理的發(fā)揮。其中,數(shù)學(xué)學(xué)業(yè)水平考試的等級(jí)起到了合格通過第一關(guān)的作用,語文高考成績(jī)則保證了“文科才子錄取到中文系”的目的。這樣,大學(xué)招到了滿意的學(xué)生,中學(xué)生也不必長(zhǎng)期去補(bǔ)自己最不擅長(zhǎng)或不喜歡的短板,學(xué)業(yè)水平考試的驗(yàn)收和選拔功能同時(shí)得到實(shí)現(xiàn)。

目前大眾習(xí)慣的“拼盤式”計(jì)入高考總分的招生錄取模式,已經(jīng)把眾多文科水平一般、理科水平也一般卻可以獲得文科數(shù)學(xué)滿分的考生送進(jìn)了各所高校的中文系,而真正的文科尖子或者稱文科天才,基本上被排除在高校的文科專業(yè)之外。一旦放棄高考拼盤總分排隊(duì)的錄取模式,改用逐步跨欄通關(guān)的錄取模式,則可以避免二流理科生擠落一流文科生進(jìn)入大學(xué)文科的不合理現(xiàn)象,并同時(shí)保障學(xué)業(yè)水平考試的驗(yàn)收與選拔功能,實(shí)現(xiàn)錄取公平,中學(xué)、大學(xué)皆大歡喜的局面。當(dāng)然,“跨欄式錄取”的順利實(shí)施還需要具備許多其他條件,具體情況需要另外進(jìn)行單獨(dú)討論[16]。

4 測(cè)驗(yàn)等值的實(shí)現(xiàn)

在新高考改革方案中,試行一年多考是一項(xiàng)具有劃時(shí)代意義的進(jìn)步舉措,但是這種方案的前提條件之一是能夠?qū)崿F(xiàn)測(cè)驗(yàn)分?jǐn)?shù)的等值[17],即無論考生參加哪一次考試,只要他的知識(shí)能力水平?jīng)]有實(shí)質(zhì)性的提高,其最后所獲得的分?jǐn)?shù)應(yīng)當(dāng)高度一致。一旦高考或?qū)W業(yè)水平考試實(shí)現(xiàn)了測(cè)驗(yàn)等值,考生就不會(huì)參加多次考試,因此也談不上增加考試負(fù)擔(dān)的問題。

由于高考是一項(xiàng)高利害的考試,國際考試行業(yè)的許多常用等值方法在中國遇到了極大的困難,導(dǎo)致目前的高考和學(xué)業(yè)水平考試都未能實(shí)現(xiàn)測(cè)驗(yàn)等值。其實(shí),國際上常用的測(cè)驗(yàn)等值設(shè)計(jì)方法,比如,將錨題隱藏在正式考卷中的設(shè)計(jì)方法盡管在中國實(shí)施有困難,但可嘗試適合中國國情的事后等值設(shè)計(jì)方法[17]。

實(shí)施事后等值的基本思路是:首先,根據(jù)標(biāo)桿試卷R,編制一個(gè)錨測(cè)驗(yàn)A。該錨測(cè)驗(yàn)與標(biāo)桿試卷基本一致或是標(biāo)桿試卷的一個(gè)縮微版本(各部分題量不少于標(biāo)桿試卷的20%)。其次,選擇一個(gè)能力跨度與全省能力跨度十分接近的全省考生的代表性小樣本(530~1 600人),讓該樣本中的一半考生按照R-A方式作答,另一半考生按照A-R方式作答,于是可以獲得一個(gè)RA的考生作答反應(yīng)數(shù)據(jù)。第三,待全省學(xué)業(yè)水平考試F正式施測(cè)之后,從中選出另一個(gè)全省考生的代表性小樣本(530~1 600人),讓他們?cè)趯W(xué)業(yè)水平考試之后2天之內(nèi)單獨(dú)考一次錨測(cè)驗(yàn)A,于是可得另一個(gè)數(shù)據(jù)FA。第四,綜合數(shù)據(jù)RA和FA,利用錨測(cè)驗(yàn)題目參數(shù)不變性特點(diǎn),采用題目反應(yīng)理論(Item Response Theory,IRT)或經(jīng)典測(cè)驗(yàn)理論(Classical Testing Theory,CTT)等方法,實(shí)現(xiàn)正式測(cè)驗(yàn)F與標(biāo)桿試卷R之間的測(cè)驗(yàn)等值,即建立正式測(cè)驗(yàn)的原始分?jǐn)?shù)與標(biāo)桿試卷原始分?jǐn)?shù)之間的對(duì)應(yīng)關(guān)系。

由于標(biāo)桿測(cè)驗(yàn)的原始分?jǐn)?shù)已經(jīng)通過常模與量表等級(jí)建立了固定的對(duì)應(yīng)關(guān)系,因此利用F與R之間的等值關(guān)系就可以推論出正式試卷F上的原始分?jǐn)?shù)與標(biāo)桿試卷上的量表化等級(jí)的對(duì)應(yīng)關(guān)系。即任何一次新的正式考試成績(jī),都可以通過這種方法,把卷面原始分?jǐn)?shù)轉(zhuǎn)換成標(biāo)桿試卷所對(duì)應(yīng)的量表化等級(jí),實(shí)現(xiàn)測(cè)驗(yàn)等值。

總之,要做好學(xué)業(yè)水平考試,實(shí)現(xiàn)國務(wù)院提出的深化考試招生制度改革的目標(biāo),研發(fā)標(biāo)桿試卷、設(shè)定學(xué)業(yè)標(biāo)準(zhǔn)、制定分?jǐn)?shù)常模、實(shí)現(xiàn)測(cè)驗(yàn)等值這四項(xiàng)測(cè)量學(xué)的準(zhǔn)備工作必不可少。而且,這四項(xiàng)工作至少需要學(xué)科專家、測(cè)量學(xué)專家、教育管理工作者三方經(jīng)過一年以上的準(zhǔn)備才能實(shí)現(xiàn)。這些必要工作一旦有所缺失,則會(huì)對(duì)新高考方案、學(xué)業(yè)水平考試方案、基礎(chǔ)教育和高等教育帶來比較大的負(fù)面影響。

參考文獻(xiàn)

[1]新華網(wǎng).授權(quán)發(fā)布:中共中央關(guān)于全面深化改革若干重大問題的決定[EB/OL].(2013-11-12)[2016-12-06].http://news.xinhuanet. com/2013-11/15/c_118164235.htm.

[2]國務(wù)院.關(guān)于深化考試招生制度改革的實(shí)施意見[EB/OL].(2014-09-04)[2016-12-06].http://www.moe.edu.cn/publicfiles/ business/htmlfiles/moe/moe_1778/201409/174543.html.

[3]教育部.關(guān)于普通高中學(xué)業(yè)水平考試的實(shí)施意見[EB/OL].(2014-12-10)[2016-12-06].http://www.moe.edu.cn/publicfiles/ business/htmlfiles/moe/s4559/201412/181664.html.

[4]秦春華.學(xué)生和高校自主選擇權(quán)不落實(shí),播下龍種可能收獲跳蚤[N].中國青年報(bào),2015-02-02(10).

[5]浙江省教育廳.關(guān)于糾正部分普通高中學(xué)校違背教育規(guī)律和教學(xué)要求錯(cuò)誤做法的通知[EB/OL].(2016-10-22)[2016-12-06]. http://www.zjedu.gov.cn/news/147737035226665750.html.

[6]搜狐教育.浙江新高考物理選考人數(shù)驟降,名牌大學(xué)明年招生要放大招[EB/OL].[2016-12-06].http://learning.sohu.com/20161130/ n474580178.shtml.

[7]楊志明.學(xué)業(yè)水平考試成績(jī)等級(jí)化中的風(fēng)險(xiǎn)及其規(guī)避辦法[J].教育測(cè)量與評(píng)價(jià),2015(9).

[8]楊志明.高中學(xué)業(yè)水平考試等級(jí)設(shè)定的若干方法[J].教育測(cè)量與評(píng)價(jià),2016(10).

[9]American Educational Research Association,American Psychologi?cal Association,National Council on Measurement in Education. Standards for Educational and Psychological Testing[S].Washing?ton,DC:AERA,2014.

[10]The National Governors Association,the Council of Chief State School Officers.Common Core State Standards for Math[EB/OL]. [2016-12-06].http://www.corestandards.org/assets/CCSSI_Math% 20Standards.pdf.

[11]College Board.Test Specifications for the Redesigned SAT[EB/OL]. [2016-12-06].https://collegereadiness.collegeboard.org/pdf/testspecifications-redesigned-sat-1.pdf.

[12]CIZEK G J,BUNCH M B.Standard Setting:A Guide to Establish?ing and Evaluating Performance Standards on Tests[M].Thousand Oaks:Sage Publications,2006.

[13]HAMBLETON R K,JAEGER R M,PLAKE B S,MILLS C N.Hand?book for setting standards on performance assessments[S].Washing?ton,DC:Council of Chief State School Officers,2000.

[14]搜狐教育.新高考物理選考人數(shù)驟降,名牌大學(xué)要慌了[EB/OL]. [2016-12-06].http://learning.sohu.com/20161203/n474839907. shtml.

[15]ANGOFF W H.Scales,norms,and equivalent scores[G]//THORN?DIKE R L.Educational Measurement.Washington,DC:American Council on Education,1971.

[16]楊志明.高考招生多元評(píng)價(jià)的區(qū)分效度[J].教育測(cè)量與評(píng)價(jià), 2016(5).

[17]楊志明.學(xué)業(yè)水平考試事后等值的概念、條件與設(shè)計(jì)[J].教育測(cè)量與評(píng)價(jià),2016(11).

Four Psychometric Considerations for High School Proficiency Examinations in China

YANG Zhiming
(National Education Examinations Authority,Beijing 100084,China)

The High School Proficiency Examination(HSPE)is an important element in the Gaokao reform package.Four psychometric considerations are recommended to conduct the HSPE well and avoid undesirable student responses,such as large scale multiple retaking of the HSPE,abandoning essential courses in hope of achieving Grade A in“l(fā)ess popular”subjects,and top students are pushed down to the low score percentile ranks in the more competitive essential courses pool.Such negative consequences severely detract from the goals and success of the Gaokao reform.The recommendations are the development of a reference form,standard setting, scaling or norming,and equating.It is suggested that these tasks be completed at least one year prior to the first administration of the HSPE.A team of content experts,psychometricians,and administers is essential for getting these jobs ready before the first administration.

Examination and Enrollment System Reform;High School Proficiency Examination;Reference Form; Standard Setting;Norming;Equating

G405

A

1005-8427(2017)01-008-6

10.19360/j.cnki.11-3303/g4.2017.01.002

(責(zé)任編輯:陳睿)

楊志明(1963—),男,博士,教育部考試中心特聘研究員,原美國教育考評(píng)局ERB技術(shù)總監(jiān)。

猜你喜歡
等值標(biāo)桿測(cè)驗(yàn)
哨兵“后退一步,走”,樹立“守規(guī)矩”鮮活標(biāo)桿
異步電動(dòng)機(jī)等值負(fù)載研究
北京城建:從標(biāo)桿到引領(lǐng),興勝公司在跨越
超越自我,全新一代宋再樹10萬級(jí)SUV價(jià)值標(biāo)桿
汽車觀察(2018年12期)2018-12-26 01:05:40
《新年大測(cè)驗(yàn)》大揭榜
趣味(語文)(2018年7期)2018-06-26 08:13:48
兩個(gè)處理t測(cè)驗(yàn)與F測(cè)驗(yàn)的數(shù)學(xué)關(guān)系
考試周刊(2016年88期)2016-11-24 13:30:50
電網(wǎng)單點(diǎn)等值下等效諧波參數(shù)計(jì)算
基于戴維南等值模型的靜穩(wěn)極限在線監(jiān)視
你知道嗎?
漢語國俗語義在維吾爾語中的等值再現(xiàn)
語言與翻譯(2014年1期)2014-07-10 13:06:11
德州市| 个旧市| 奉新县| 通州市| 隆尧县| 西乌珠穆沁旗| 武义县| 德令哈市| 涞水县| 乐业县| 龙胜| 滦平县| 建湖县| 红安县| 古丈县| 鄄城县| 安仁县| 宜城市| 湖口县| 新巴尔虎右旗| 长武县| 扶沟县| 大埔区| 新田县| 扬中市| 玛多县| 沂南县| 根河市| 潢川县| 博客| 寿光市| 离岛区| 霍邱县| 枣庄市| 广南县| 太原市| 泌阳县| 开平市| 潍坊市| 东阿县| 六安市|