国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

兩種高考選考科目計分方法對比研究

2020-10-29 06:42:32
教育測量與評價 2020年10期
關鍵詞:計分方根總體

劉 慧

2014 年,《國務院關于深化考試招生制度改革的實施意見》提出啟動高考綜合改革試點,規(guī)定“考生總成績由統(tǒng)一高考的語文、數學、外語3個科目成績和高中學業(yè)水平考試3 個科目成績組成”,“計入總成績的高中學業(yè)水平考試科目,由考生根據報考高校要求和自身特長,在思想政治、歷史、地理、物理、化學、生物等科目中自主選擇”[1]。同年,《教育部關于普通高中學業(yè)水平考試的實施意見》明確提出“計入高校招生錄取總成績的學業(yè)水平考試3 個科目成績以等級呈現”[2],并對各等級考生所占比例提出了指導性意見。不難看出,盡管各?。ㄊ?、區(qū))的高考綜合改革實施方案不盡相同,但均包含了對選考科目計分原則的說明。

目前,在進行選考科目計分時,不少?。ㄊ?、區(qū))選考科目成績直接按照考生在相應科目所有考生中的排名等級進行賦分。然而,在高考綜合改革的框架下,考生自主選擇選考科目,各科目實際參加考試的考生群體并非從全體考生中隨機抽取,這些各科目實際參加考試的考生往往不屬于同一總體,能力水平也會存在差異。在這種情況下,選考科目計分時,直接進行科目內標準化只能帶來表面上的可比性,它有可能抹去各科目選考考生群體能力水平上的差異,給分數比較與分數組合帶來困難。[3][4]

為了建立選考科目與其他科目成績之間的可比性,以往研究建議以統(tǒng)考科目為選考科目建立通用量尺。[5]在這一思路下,不同研究者提出了具體的計算方法。例如,20 世紀中后期有研究者提出了錨量表化的方法,即以統(tǒng)考科目作為錨測量對選考科目進行量表校準。[6]這種基于假設總體的量表化方法,計算公式由Tucker 通過推導證明得到[7],并且在美國的SAT 和GRE 中進行了相關實踐[6][7][8],比較成熟。新一輪高考綜合改革啟動后,我國學者提出的對選考科目進行統(tǒng)計校準的方法[9],也得到了學界的廣泛認可??紤]到大眾對“基于假設總體的量表化方法”更為熟悉,本研究為選考科目建立通用量尺時采用基于假設總體的量表化方法。[10]筆者[11]曾針對“當選考考生群體能力水平與考生總體并不一致時,直接采用科目內標準化方法進行計分的弊端和采用基于假設總體的量表化方法進行計分的可行性”進行了理論說明。而對于新一輪高考綜合改革實踐中改進選考科目計分方法必須回答的問題,即直接采用科目內標準化方法進行計分可能會帶來多大的偏差,以及通過統(tǒng)考科目進行分數調整后能夠在多大程度上減少這種偏差,還沒有相關的研究成果。

本研究嘗試對以上問題進行探討:模擬考生的作答數據,然后分別采用科目內標準化方法和基于假設總體的量表化方法對選考科目進行計分。本研究擬考察在不同條件下采用科目內標準化方法進行選考科目計分可能帶來的偏差,以及基于假設總體的量表化方法能夠在多大程度上減少這種偏差,以期為新一輪高考綜合改革中選考科目計分方法的優(yōu)化提供參考。

一、兩種選考科目計分方法:科目內標準化方法和基于假設總體的量表化方法

1.科目內標準化方法

在目前公布的各?。ㄊ?、區(qū))高考綜合改革方案中,選考科目的計分方法基本上是按照設置的人數比例,根據原始分的排名劃定等級,然后按照等級賦分的。這種計分方法實際上是依照原始分的高低為考生重新賦等級分,等級分傳達的是考生在相應科目內的排名信息。它和以標準差為單位表示考生原始分數在群體中相對位置的標準分本質相同。采用這類計分方法時,決定選考科目成績的是考生在相應科目全體考生中的排名,排名高則成績高。

雖然各?。ㄊ小^(qū))選考科目計分的基本原則相似,但在具體的計分設置上各地的設計并不相同:預先設置的等級數量不同,每個等級預設的人數比例也不相同??紤]到本研究的目的不是比較哪個?。ㄊ?、區(qū))的等級劃分更為合理,而是討論完全依據考生在相應選考科目內的排名信息進行計分的合理性,因此,本研究在使用科目內標準化方法進行計分時,不單獨采用某個?。ㄊ小^(qū))的等級賦分方案,而采用標準分作為科目內標準化方法的計分結果。

2.基于假設總體的量表化方法

基于假設總體的量表化方法是兩種錨量表化方法之一。在具體實踐中,這種方法的關鍵在于:根據一門或者多門統(tǒng)考科目基于全體考生群體的均值、方差,以及選考科目基于選考考生群體的均值、方差,估計該選考科目基于全體考生群體的均值和方差。

假設統(tǒng)考科目和選考科目分別記為科目A和科目B,科目B 基于全體考生的均值和方差的估計公式,見公式(1)和公式(2)[7]。

其中:XB為選考考生科目B 的原始總分,YB為相應原始分在通用量尺上的轉換分數。

使用基于假設總體的量表化方法進行計分時,錨測量不局限于一個測驗。如果錨測量由多個測驗分數組成,我們可以將多個測驗分數合并為一個總分作為單變量錨測量來處理,也可以將它們各自作為獨立的測量分數代入換算。

二、研究設計

1.全體考生在選考科目和統(tǒng)考科目中作答反應的模擬

本研究關注錨測量為單個測驗時,單個選考科目的計分情況,因此擬模擬30,000 名考生在兩個科目(科目A 和科目B)上的作答反應。研究者對選考考生在科目B 上的觀察分數在不同計分方法下所產生的計分偏差進行考察,因為這一考察是基于觀察分數進行的,考察過程中不需要確認相應科目上的觀察總分是否來自多值計分還是二值計分題目,所以,為了簡化研究條件,生成模擬數據時科目A 和科目B 這兩個科目中的所有題目均采用“0/1”計分,試卷長度分別為60題和30 題。全體考生在兩個科目上的作答反應采用多維項目反應理論(multidimensional item response theory,MIRT)模型模擬。

MIRT 模型是單維項目反應理論模型在多維情況下的擴展。[12]本研究模擬數據時采用了實踐中更加成熟穩(wěn)定的補償型MIRT 模型[13]:三參數邏輯斯蒂克模型的補償型多維擴展(multidimensional extension of the three-parameter logistic model,M3PL)模型,見公式(4)。

本研究題目參數生成方法如下:題目的區(qū)分度參數從(0.7,1.3)的均勻分布中隨機抽取,難度參數從標準正態(tài)分布N(0,1)中隨機抽取,猜測度參數的對數形式logit-c 從N(-1.09,0.5)的正態(tài)分布中隨機抽取。[14]被試的能力參數服從均值為(0,0)、協(xié)方差陣為σ 的多元正態(tài)分布。

2.選考考生群體的抽取

在新一輪高考綜合改革背景下,每門選考科目的考生群體都是全體考生的子集??忌灾鬟x擇參加選考科目考試,構成了相應選考科目的選考考生群體。本研究選考考生群體的模擬是按照預先設定的分布,通過對全體考生進行分層隨機抽樣獲得的:從全體30,000 名考生在科目B 上的作答數據中,按照給定分布抽取5000 人的作答反應作為選考考生群體在科目B 上的作答。

3.實驗條件

錨測量與待校準測驗的相關越高,量尺校準的結果越好。[6]因此,統(tǒng)考科目與選考科目的相關強度是本研究關注的一個因素。以往研究[15]表明,高考統(tǒng)考科目與其他科目觀察分數存在中等或中等以上程度相關。協(xié)方差陣σ 的非主對角線元素代表科目之間的相關程度??紤]到觀察分數的相關會略低于真值的相關,因此在生成模擬數據時,本研究將協(xié)方差陣σ 的非主對角線元素設置為0.6,0.7,0.8 和0.9 這4 個水平。生成模擬數據時,每個實驗條件均重復30 次以獲得穩(wěn)定結果。本研究在協(xié)方差陣σ 的4 個水平下,30 個復本的科目A 與科目B 觀察分數相關的均值分別為0.52,0.61,0.70 和0.79,記為r1,r2,r3 和r4。

在選考科目計分時,科目內標準化方法不適用,是因為各科目考生群體來自不同的總體,其能力水平均與考生總體能力水平不一致。因此,選考考生群體能力水平是本研究關注的另一個因素。考慮到全體考生總體正態(tài)分布的對稱性,本研究只考察選考考生群體能力水平大于全體考生能力水平的情況。選考考生群體能力水平因素設置為5 個水平,具體設置為選考考生群體能力均值分別比全體考生在科目B 上的能力均值高0.1,0.2,0.3,0.4 和0.5 個標準差,記為a1,a2,a3,a4 和a5。

另外,在選考考生群體能力水平大于全體考生能力水平時,選考考生群體能力還很可能呈現負偏態(tài)分布。因此,選考考生群體能力分布是本研究關注的第三個因素。研究中,選考科目的選考考生能力分布設置為正態(tài)分布和β(5,2)分布兩個水平。

也就是說,本研究關注統(tǒng)考科目與選考科目的相關強度、選考考生群體能力水平、選考考生群體能力分布這3 個因素,共計4×5×2=40 種實驗條件。

另外,選考科目選考考生群體是對全體考生進行分層隨機抽樣獲得的。在對30 個復本進行分層隨機抽樣時,某些條件下,當某些復本的某些層的待抽樣數據量不足時,當次抽樣無效。各實驗條件下實際使用的復本數量如表1 所示。

表1 各實驗條件實際使用的復本數量

4.評價標準

本研究需要比較通過科目內標準化方法和基于假設總體的量表化方法(記為m1 和m2)計算得到的選考考生科目B 成績與考生在科目B上真實成績的差距。通過m1,m2 兩種方法得到考生成績,其報告形式不同:m1 方法得到的是標準分;m2 方法得到的是原始分。

為了進行分數比較,報告分數的量尺應該統(tǒng)一,因此,我們將這3 種分數轉換到給定的報告分數量尺上。本研究將報告分數的量尺設為均值為500、標準差為100。

通過m1 方法得到的選考考生的科目B 成績?yōu)闃藴史郑藰藴史滞ㄟ^線性轉換調整為均值為500、標準差為100 的報告分數。

通過m2 方法得到的選考考生科目B 成績的報告分數,可以首先由公式(3)計算得到的選考考生科目B 在通用量尺上的轉換分數和全體考生在科目A 上原始總分的均值、標準差來計算標準分,然后將此標準分通過線性轉換調整為均值為500、標準差為100 的報告分數。

考生在科目B 上的真實成績計算方法如下:本研究為模擬研究,考生在科目B 上的作答反應已知,因此,首先根據模擬的全體考生在科目B上的作答數據,將各考生科目B 原始總分轉換為基于全體考生樣本的標準分,其次將此標準分通過線性轉換調整為均值為500、標準差為100 的報告分數。因為本研究要討論的是,在選考考生群體能力水平與考生總體能力水平不一致的情況下,考生在科目B 上的觀察分數在不同的計分方法下會發(fā)生怎樣的偏差,所以考生科目B 成績的真值是以觀察分數而非考生能力真值為基礎的。

每種實驗條件分別通過科目內標準化方法和基于假設總體的量表化方法計算選考考生的科目B 成績,并計算通過這兩種方法得到的考生成績與考生在科目B 上的真實成績之間的均方根誤差(RMSE),作為這兩種方法對考生成績估計準確性的指標。

假設xt為考生在科目B 上的真實成績,xo為通過科目內標準化方法或者基于假設總體的量表化方法計算得到的選考考生成績,n 為某種實驗條件的復本數量,那么,該實驗條件下的均方根誤差(RMSE)見公式(5)。

5.數據處理

模擬數據的生成借助flexMIRT 軟件完成,其他的數據整理、數據分析、結果報告借助R 軟件和Origin 軟件完成。

三、研究結果

1.兩種計分方式下,科目B 成績的均方根誤差均隨選考考生群體能力與全體考生能力水平差距的增加而增大;但在所有實驗條件下,與采用科目內標準化方法相比,采用基于假設總體的量表化方法進行計分時,科目B 成績的均方根誤差均較小

在各實驗條件下,通過科目內標準化方法和基于假設總體的量表化方法得到的選考考生科目B 成績的均方根誤差,如表2 所示。

由表2 可知:當選考考生群體能力呈正態(tài)分布時,采用科目內標準化方法計算選考考生科目B 成績,選考考生科目B 成績與真實成績會存在較大偏差,而且選考考生群體能力與全體考生能力水平差距越大,科目內標準化方法的均方根誤差越大;科目A 與科目B 的相關強度對于該方法的均方根誤差影響不大。雖然與科目內標準化方法下的情況相似,采用基于假設總體的量表化方法時,選考考生科目B 成績的均方根誤差也會隨著選考考生群體能力與全體考生能力水平差距的增加而增大,但在所有的實驗條件下,如果采用基于假設總體的量表化方法對選考考生科目B 成績進行計分,科目B 成績的均方根誤差均會縮小,而且縮小的幅度會隨著科目A 與科目B 相關強度的增加而增大。與科目內標準化方法相比,當科目A 與科目B 觀察分數的相關為0.52時,使用基于假設總體的量表化方法,選考考生科目B 成績的均方根誤差會降低約32%(以選考考生群體的a1~a5 這5 種群體能力水平下的平均值來計);觀察分數的相關為0.61 時,降低約44%;觀察分數的相關為0.70 時,降低約57%;觀察分數的相關為0.79 時,降低約73%。

當選考考生群體能力呈負偏態(tài)分布時,兩種方法下選考考生科目B 成績的均方根誤差與其呈正態(tài)分布時的變化趨勢總體一致:選考考生科目B 成績的均方根誤差均會隨著選考考生群體能力與全體考生能力水平差距的增加而增大;科目A 與科目B 相關強度對于科目內標準化方法的均方根誤差影響不大,而基于假設總體的量表化方法下科目B 成績的均方根誤差會隨著科目A 與科目B 相關強度的增加而減?。辉谒袑嶒灄l件下,采用基于假設總體的量表化方法對選考考生科目B 成績進行計分時,科目B 成績的均方根誤差均會縮小。

不過,當選考考生群體能力呈負偏態(tài)分布時,科目B 的均方根誤差,與其呈正態(tài)分布時也存在一些差異。當選考考生群體能力呈正態(tài)分布時,在選考考生群體的a1~a5 共5 種群體能力水平下,基于假設總體的量表化方法中的均方根誤差與科目內標準化方法中均方根誤差的降低幅度相似且沒有明確的變化趨勢。當選考考生群體能力呈負偏態(tài)分布時,在5 種群體能力水平下,均方根誤差的降低幅度隨群體能力水平的增加而增大。而且,總體上看,科目B 成績的均方根誤差均較選考考生群體能力呈正態(tài)分布時更大,且增幅會隨選考考生群體能力與全體考生能力水平差距的增加而減??;當選考考生群體能力較強(如a4,a5 條件下)且科目A 與科目B 的相關強度較高時(如r3,r4 條件下),若采用基于假設總體的量表化方法進行計分,選考考生群體能力呈負偏態(tài)分布時的均方根誤差與呈正態(tài)分布時差異不大,甚至略小于選考考生群體能力呈正態(tài)分布時的均方根誤差。

表2 選考考生科目B 成績的均方根誤差

2.在計分差異的分布上,全部實驗條件下,采用基于假設總體的量表化方法來計分時,考生成績的偏差都比采用科目內標準化方法時更小

另外,如圖1 所示,為了比較兩種計分方式下計分差異的分布情況,我們繪制了4 種相關強度下,選考考生科目B 成績與真實成績差異(由“選考考生科目B 成績—相應考生的真實成績”計算得來)的箱線圖。每個箱線圖中的5 條線分別表示上下邊緣、上下四分位數和中位數,其中上、下邊緣指的是“上四分位數+1.5×四分位距”和“下四分位數-1.5×四分位距”這個區(qū)間內該組數據的最大值和最小值;兩個星號分別表示這組數據的最大值和最小值;黑點表示這組數據的均值。圖1 中的兩個橫軸為具體的實驗條件,縱軸為兩種計分方式下計分結果與真實成績的差異。為避免圖1 中箱線圖過多導致堆積重疊,每種相關強度僅選取選考考生群體能力的兩端水平(a1和a5)。

圖1 兩種計分方式下選考考生科目B 成績與真實成績的差異

從圖1 可以看出,在全部實驗條件下,當采用基于假設總體的量表化方法來計分時,考生成績偏差的中位數、均值、上下四分位數以及最大值、最小值都比相應實驗條件下采用科目內標準化方法時更小。與此同時,在兩種計分方式下,幾乎所有考生科目B 成績與真實成績的差異均為負值(只有個別實驗條件下,一些差異為零值或正值)。這意味著,在本研究設置的模擬條件下(科目B 考生群體能力比考生總體能力水平高0.1 至0.5 個標準差),幾乎所有考生得分均低于真實成績。最后,選考考生群體的能力,對選考考生科目B 成績偏差的離散情況有影響,且對兩種方法的影響方向一致:當選考考生群體能力與考生總體能力差距為0.1 個標準差時,兩種計分方式下選考考生科目B 成績偏差全距均較小,分布均較集中;當差距為0.5 個標準差時,偏差全距均較大,分布均較分散。

四、結論與討論

1.采用科目內標準化方法進行選考科目的計分存在偏差,采用基于假設總體的量表化方法能夠降低這種計分偏差

本研究結果表明:采用科目內標準化方法進行選考科目的計分存在偏差,采用基于假設總體的量表化方法則能夠降低這種計分偏差。無論是從均方根誤差的角度來看,還是從差異分布來看,采用基于假設總體的量表化方法計分,均能夠在不同程度上降低選考科目計分上的偏差;偏差降低幅度與統(tǒng)考科目、選考科目二者之間的相關強度有關,相關強度越高,偏差降低的幅度越高,選考科目分數量尺調整的效果越好。這一結果和以往研究的理論分析結果[6]一致。從模擬數據來看,即使統(tǒng)考科目和選考科目的觀察分數只存在中等程度的相關,采用基于假設總體的量表化方法仍然可以使得選考科目計分偏差明顯降低。因此,在新一輪高考綜合改革中,如果采用基于假設總體的量表化方法對選考科目分數量尺進行調整,應該能夠產生較好的效果。

2.無論是采用科目內標準化方法還是采用基于假設總體的量表化方法,選考科目的計分偏差均會隨著選考考生群體能力與全體考生能力水平差異的增加而增大

本研究同樣顯示:無論采用科目內標準化方法還是采用基于假設總體的量表化方法,選考科目的計分偏差均會隨著選考考生群體能力與全體考生能力水平差異的增加而增大。如果選考考生群體能力水平與全體考生總體能力水平差異非常大,即使采用基于假設總體的標準化方法進行量尺調整,選考科目的計分還是會有不小的偏差。在實踐中,如果出現選考考生群體與考生總體能力水平差異極大的情況,我們不能僅僅依靠基于假設總體的量表化方法進行選考科目的量尺調整。另外,本研究重點關注在選考考生群體能力分布、選考考生群體能力水平、統(tǒng)考科目與選考科目的相關強度這3 個因素的影響下,當錨測量為單個科目時,單個選考科目的計分情況。在實踐中,選考科目的計分除了受上述3 個因素的影響,還會受到其他因素的影響。比如,目前有些省份歷史、物理科目擬采用原始分計分[16],這樣各選考科目題目參數(比如難度、區(qū)分度)的影響就更加不可忽視。對于這些現實中可能遇到的更為復雜和多變的問題,后續(xù)尚需依據實測數據,經研究后制定預案,為新一輪高考綜合改革中選考科目的計分提供更多的參考建議。

新一輪高考綜合改革提出選考科目以等級形式出現,這一規(guī)定的初衷是摒除不同科目原始分數單位不統(tǒng)一的缺陷,建立起不同科目考生成績的可比性。但在實踐中,具體情況比較復雜,不同科目的選考考生群體并非來自同一總體,因而直接采用科目內標準化方法可能會帶來額外偏差。因此,在新一輪高考綜合改革實踐中,相關部門仍需對實踐中遇到的新問題,進行深入、細致的研究,拿出能夠落地的方案,只有這樣才能更好地將制度設計落到實處。

猜你喜歡
計分方根總體
方根拓展探究
帶定性判斷的計分投票制及其公理刻畫
邏輯學研究(2021年3期)2021-09-29 06:54:38
用樣本估計總體復習點撥
2020年秋糧收購總體進度快于上年
引導素質教育的新高考計分模式構想:線性轉化計分模式
外匯市場運行有望延續(xù)總體平穩(wěn)發(fā)展趨勢
中國外匯(2019年6期)2019-07-13 05:44:06
基于單片機的中國式摔跤比賽計分器開發(fā)設計
電子制作(2019年9期)2019-05-30 09:42:06
直擊高考中的用樣本估計總體
均方根嵌入式容積粒子PHD 多目標跟蹤方法
自動化學報(2017年2期)2017-04-04 05:14:28
揭開心算方根之謎
南澳县| 彭泽县| 怀化市| 临汾市| 新平| 天水市| 田东县| 泽州县| 腾冲县| 安新县| 永定县| 兴安县| 三台县| 晋宁县| 同心县| 铜川市| 鞍山市| 喀喇沁旗| 沂水县| 龙江县| 永清县| 西和县| 万州区| 肇东市| 黄大仙区| 阳西县| 四川省| 临城县| 平安县| 巧家县| 丹阳市| 六盘水市| 平江县| 满城县| 凤台县| 梅州市| 正定县| 永吉县| 房山区| 息烽县| 铅山县|