郭長江
高考新政下等級性考試若干理論問題初探
郭長江
本文對高考新政下的等級性考試的屬性問題、等級描述的水平標準問題、等級性考試試卷結(jié)構(gòu)和題型設計問題、等級性考試試題難度設計問題,以及等級性考試分層評分問題進行討論,希冀對合理編制等級性考試試題、實現(xiàn)其功能價值有所啟示。
考試招生制度改革;高考改革;高中學業(yè)水平考試
根據(jù)《上海市深化高等學??荚囌猩C合改革實施方案》和《上海市普通高中學業(yè)水平考試實施辦法》,高中地理、生命科學、歷史、思想政治、物理和化學6門學科設置等級性考試,高中學生可在其中選擇3門參加考試,考試成績劃分為五等11級,再折算計入高考總分。等級性考試成績以等級呈現(xiàn),按獲得該次考試有效成績的考生總數(shù)(即缺考或未得分的考生除外)的相應比例劃分等級,位次由高到底分為A+、A、B+、B、B-、C+、C、C-、D+、D、E共五等11級。其中A+約占5%,A、B+、B、B-、C+、C、C-、D+各約占10%,D、E共約15%,E為卷面有效成績低于標準分值或約占5%[1-2]。為了適度控制學生的考試負擔,上海市教委對等級性考試的難度、內(nèi)容和考試時間都作出明確要求。等級性考試試卷難度控制在0.75左右,介于高考和合格性考試難度之間,考試時間為60分鐘。如何編制等級性考試的試題,以體現(xiàn)等級性考試的功能,是考試評價研究者當前迫切需要回答的一個實際問題。
傳統(tǒng)的高考,屬于常模參照測驗。常模參照測驗是以被測團體的常模(平均分)為參照標準來衡量個體成績的測驗[3]。測驗編制所基于的假設是:團體測驗成績呈正態(tài)分布。因此,要求組成測驗的試題,以中等難度題居多,少數(shù)為較難或較易試題,即測試題難度呈正態(tài)分布。這種測驗對學生的學習起到考核、監(jiān)督作用,主要功能是區(qū)分學生的個別差異和相對水平,但卻不能確定學生的實際水平和達到目標的程度,缺少對困難和錯誤的診斷,有時還會降低或者提高衡量標準。
等級性考試屬于標準參照測驗。標準參照測驗是以預訂的目標(大綱)為參照標準來衡量測驗成績的測驗[3]。確定其評分基準是在測驗之前,建立在被測團體之外。個體的成績只需要與既定的目標相比較,不必與團體中的他人相比較就可以確定其優(yōu)劣。
因此,等級性考試之前,必須要建立某學科一套明確而固定的標準,即一套等級描述,以說明該學科達到某等級的考生的典型能力水平。擬定這些等級描述的原則是正面描述考生能展示的水平,而避免描述考生不能掌握的能力。同時,開發(fā)標準的時候,必須考慮以下流程:①明確地定義所測量的學科能力及其行為目標;②根據(jù)定義的能力及其行為目標,命制試卷,選取一部分學生進行試測,選取有代表性的行為樣本;③按照評分標準,對學生在考試中的表現(xiàn)進行絕對評分;④根據(jù)標準,給出不同等級水平的分數(shù)界線;⑤根據(jù)分數(shù)界線的情況,對等級描述進行一定的修正,形成最終版本。
這套等級描述,應該由一個工作小組擬定,小組成員應該包括考試評價部門、大學、中學等部門人員組成。
等級描述是學科專家在評級、設定水平和維持水平等工作的重要參考資料。同時,等級描述也可以促進教與學。學生可參考有關(guān)描述,用以制定個人的學習目標和評估學習進度。教師可以明確了解如何協(xié)助學生邁向更高水平。此外,作為高校,等級描述讓他們更清楚地了解不同水平考生的實際能力,從而作出更合適的選擇決定。
顯然,在開展學業(yè)水平考試之前,首要任務是擬定各學科的等級描述。此前,上海市的普通高中學業(yè)水平考試各學科已經(jīng)建立了一個初步的等級標準。以物理學科為例,主要從基礎知識和基本技能、基本原理和科學方法、基本科學素養(yǎng)、基本實驗技能四個方面,分別對A、B、C、D、E等第的能力進行了描述[4]。不過,因為考試背景、內(nèi)容和功能不同,需要在這套等第能力描述的基礎上,進一步拓展和完善。
如果暫時撇開具體學科,僅從共通的角度分析,可以從知識和技能的理解情況、應用知識和技能解決問題的能力、評價與表達三個維度進行等級描述。這樣做的好處是,水平標準的框架比較明確,水平的區(qū)分也比較明確,具有可操作性。各等級描述特征見表1。
表1 學業(yè)水平考試共通等級描述特征
從科學性的角度,建議在最后設置“不予評級”項。因為等級描述的原則是正面描述考生能展示的水平,而避免描述考生不能掌握的能力。因此,如果考生沒有達到最低等級描述,應該不予評級。
目前上海高考分科卷的時長是2小時,分值為150分;等級性考試的時長是1小時,分值為100分。由于等級性考試時長短、分值少,試卷結(jié)構(gòu)應該比高考簡單,建議客觀題只設單選題,主觀題以綜合性試題為主。以物理學科為例,高考和等級性考試試卷結(jié)構(gòu)的對比見表2。
表2 物理科高考和等級性考試試卷結(jié)構(gòu)的對比
等級性考試不設多選題的理由是,多選題難度較大但區(qū)分度一般。設置簡答題的目的在于考查學生分析、綜合和評價所給的資料并表達自己的見解的能力,簡答題有利于考查“評價與表達”維度,有利于開展分級評分,從而進一步提高等級性考試的區(qū)分度。
保留的題型,因為考試功能的改變,也要做相應的調(diào)整。其中,選擇題、實驗題主要考查學生對課程內(nèi)容的認識和理解,體現(xiàn)一定的廣度。計算題主要考查學生把概念和技能應用到不同的情境中解決問題的能力,可以考慮其中一道題的情境簡單、另一道題的情境復雜些。
從教育測量學的角度看,大規(guī)模常模參照考試(即統(tǒng)一高考)與標準參照考試(即高考新政下的等級性考試)是兩類不同性質(zhì)的考試。常模參照考試命題設計的主要原則是使試卷的區(qū)分能力最大化,使對考生進行的教育決策誤差盡可能小。常模參照考試的試題難度范圍應該與考生的能力范圍大致相當,這樣才能真正考查出考生的實際水平。標準參照考試的命題設計主要取決于測量目標的要求,只要是課程標準規(guī)定的、考生應該達到的、應該掌握的內(nèi)容,且考試能夠測量的目標,都應該考,無論其難度如何。這種情況下,考試的難度水平主要取決于課程標準規(guī)定的行為表現(xiàn)水平標準的高低和學習內(nèi)容的難易。因此,命題者不必人為設置整個試卷的難度系數(shù)。當然,考試的最后結(jié)果會表現(xiàn)出一個難度系數(shù),比如說目前上海等級性考試的預估難度系數(shù)設定為0.75。
對于等級性考試而言,最重要的是如何將課程標準規(guī)定的定性的行為表現(xiàn)水平轉(zhuǎn)變?yōu)槎康牧勘怼嚲韀5]。標準參照考試命題的基本原則是:試題的難度是平行的,它包括兩層含義,一是測量同一行為表現(xiàn)水平的試題難度是平行的,二是測量不同行為表現(xiàn)水平的試題難度也是平行的,而且測量每一行為目標的試題都應該達到一定的數(shù)量。這一原則是由標準參照考試的目的決定的。
傳統(tǒng)高考的難度系數(shù),從理論上講,應設置在0.5左右,考生的成績應呈正態(tài)分布,考試合成總分的標準差也達到最大,這樣考生的成績分布最分散,有利于減少招生分數(shù)線劃分造成的決策誤差。近些年,因為高校招生數(shù)量的增加,適當調(diào)高難度系數(shù)也是可行的,比如上海目前高考的難度系數(shù)定為0.65。難度系數(shù)再高,會使平均分提高,標準差降低,成績分布的負偏度和峰度都加大,即更多的考生分數(shù)會集中于高分一側(cè)。
傳統(tǒng)高考的這種特性,決定了試題以中等難度題居多,少數(shù)為較難或較易試題。但是,標準參照考試的情況卻大不相同,可以通過以下計算看出。
2016年上海高考人數(shù)約5萬人,估計2017年的人數(shù)也在5萬左右。若其中30%的考生選擇物理等級性考試,也就是1.5萬人。等級性考試設定難度系數(shù)為0.75,參照表3上海市近5年普通高中學業(yè)水平考試物理試卷基本統(tǒng)計數(shù)據(jù),取最接近難度系數(shù)0.75的2013年的標準差18.11分進行估算。
表3 2011—2015年上海市普通高中學業(yè)水平考試物理試卷統(tǒng)計數(shù)據(jù)
取以上數(shù)據(jù),利用正態(tài)分布確定各等級人數(shù)分數(shù)的情況見表4。
表4 利用正態(tài)分布確定各等級分數(shù)
圖1 2012—2015年上海市普通高中學業(yè)水平考試物理試卷試題難度分布
以上數(shù)據(jù)可以明顯地看出兩個問題:第一,兩段的劃界分數(shù)不理想。A+等級和E等級的劃界分數(shù)偏高,這會造成A+等級的競爭激烈;E的劃界分數(shù)偏高,將使得整卷的區(qū)分度降低,壓縮了有效試題的空間,絕對分數(shù)之間的差值與等級分數(shù)的差值差異不大。這不僅給命題帶來一定的困難,而且也削弱了等級性考試原本的功能。
再具體來看近4年上海市普通高中學業(yè)水平考試物理試卷試題難度分布,見圖1。圖中橫坐標為試題難度系數(shù),以0.1為一個單位遞增;縱坐標為與難度系數(shù)對應的試題分值之和。
從圖1可知,近4年上海市普通高中學業(yè)水平考試物理試題在難度分布上基本為雙峰值結(jié)構(gòu),即在難度0.8~0.9、0.3~0.4附近形成兩個峰值。試題在難度0.8~0.9處形成一個峰值,主要可以體現(xiàn)水平考試的“達標”功能,并有效地控制試卷的難度。試題在難度0.3~0.4處形成一個峰值,主要是為了A檔的劃界分數(shù)更為合理。但是,等級性考試與傳統(tǒng)的學業(yè)水平考試不同,需要在各個層次上區(qū)分考生。因此,總體上講,應該平行設置試題難度,而不是正態(tài)設置試題難度,即參照2015年的數(shù)據(jù),不是出現(xiàn)雙峰結(jié)構(gòu),而是應該出現(xiàn)數(shù)量相當?shù)亩喾褰Y(jié)構(gòu),讓典型難度的試題“平行”,這樣才有利于提高區(qū)分精度,減少劃界分數(shù)的誤差。當然,為了體現(xiàn)整體難度系數(shù)在0.75這一預想結(jié)果,也可以考慮難度在0.7~0.8附近的試題略多,0.4以下的試題略少。但是,通過以上計算可知,為了避免A+的劃界競爭過于激烈,必須設置一定數(shù)量的難度在0.2~0.3的試題。
“分層評分法”來源于香港大學教育心理學教授比格斯提出的SOLO分類評價理論,這是一種以等級描述為特征的質(zhì)性評價方法。比格斯研究發(fā)現(xiàn):人在學習新知識的過程中表現(xiàn)出來的思維階段是可以觀察的,稱為“可觀察的學習成果結(jié)構(gòu)”(Struc?ture of the Observed Learning Outcome,SOLO)[6]。“分層評分法”是提高等級性考試區(qū)分性的一種有效嘗試,是合理區(qū)分“等級”的一種具有較強操作性的方法。2014年上海市普通高中學業(yè)水平考試物理試卷首次嘗試了“分層評分法”,舉例說明如下:
例:如圖1所示電路中,電源電壓U恒定,Ⅰ和Ⅱ是電阻箱,Ⅲ是定值電阻。調(diào)節(jié)兩電阻箱Ⅰ、Ⅱ的阻值R1、R2,但保持R1與R2之和不變。當R1=R2時,安培表A的示數(shù)為0.4 A,伏特表V1和V2的示數(shù)分別為4 V和9 V。求:
圖1
(1)R1與R2之和;
(2)定值電阻Ⅲ的阻值R3;
(3)調(diào)節(jié)電阻箱的過程中,安培表A的示數(shù)會發(fā)生變化。分別求出安培表A的示數(shù)最大和最小時,電阻箱Ⅰ的阻值。
對于第(3)問,命題者制定了分層評分標準,見表5。
表5 評分標準
評分標準分為4個等級,分別為0分、1分、2分和滿分3分,即在全對和全錯之間再區(qū)分兩個等級。得1分的學生,在思維上已經(jīng)能夠運用簡單的串聯(lián)、并聯(lián)組合電路知識給出電流表示數(shù)與電阻箱阻值間的關(guān)系,但無法運用數(shù)學方法繼續(xù)求解極值問題;或者通過簡單改變電阻箱各種極端取值(如短路或斷路)進行估算,得到至少1個正確結(jié)果,但分析不全面、結(jié)果不完整。得2分的學生,在思維上已經(jīng)能夠運用簡單的串聯(lián)、并聯(lián)組合電路知識給出電流表示數(shù)與電阻箱阻值間的關(guān)系,而且能運用數(shù)學方法求解物理問題中的極值,但是分析不全面,在3個正確答案中只答出2個;或會通過簡單改變電阻箱各種極端取值進行估算,得到全部3個正確答案。通過這樣的方法,就能根據(jù)學生在回答問題時的表現(xiàn),來判斷其所處的思維發(fā)展階段,進而給予合理的評分。
在主觀題的評判,尤其是簡答題的評判中,“分層評分法”能夠有效地提高區(qū)分度,并合理地評定學生所達到的思維水平。
以上只是在理論層面對等級性考試的命題模型進行了討論。實際上,還有許多操作層面的準備需要落實,比如需要建立一套相對合理的等級描述水平標準,并進行樣題的編制、試測、典型樣本的分析等,這是正式考試成功與否的重要鋪墊。希望以上的討論對于命題工作有所幫助。
[1]上海市政府.關(guān)于印發(fā)《上海市深化高等學校考試招生綜合改革實施方案》的通知[EB/OL].(2014-09-19)[2016-06-26].http:// www.shmec.gov.cn/html/xxgk/201409/420032014012.php.
[2]上海市教育委員會.關(guān)于印發(fā)《上海市普通高中學業(yè)水平考試實施辦法(試行)》的通知[EB/OL].(2015-04-24)[2016-06-26]. http://www.shmec.gov.cn/html/xxgk/201504/402162015003.php.
[3]王孝玲.教育測量[M].上海:華東師范大學出版社,2005:17.
[4]上海市教育考試院.2014年上海市普通高中學業(yè)水平考試考試手冊[M].上海:上海科學技術(shù)出版社,2014:4-8.
[5]雷新勇.大規(guī)模教育考試:命題與評價[M].上海:華東師范大學出版社,2006:164.
[6]BIGGS J B,COLLIS K F.Evaluating the Quality of Learning:The SOLO Taxonomy[M].New York:Academic Press,1982.
A Study of Some Theoretical Issues of Hierarchical Examinations in the College Entrance Examination Reform Context
GUO Changjiang
This article discusses the nature,level descriptions,paper structures,task types,item difficulty and tiered rating strategies of hierarchical examinations in the College Entrance Examination reform context.It is hoped that lessons can be learned from the discussions about how to write ideal test items for hierarchical examinations to realize their intended functions.
Examination and Admission System Reform;College Entrance Examination;High School Academic Proficiency Test
G405
A
1005-8427(2016)09-0003-6
(責任編輯:陳睿)
郭長江,男,上海師范大學數(shù)理學院,副教授(上海 200234)