任子朝,佟 威,趙 軒,陳 昂
?
高考試題難度預(yù)估研究
任子朝,佟 威,趙 軒,陳 昂
(教育部考試中心,北京 100084)
高考由于其高利害性和敏感性,不能通過考前試測(cè)預(yù)先掌握試題難度,只能在命題過程中依靠命題人員主觀預(yù)估確定試題的難度.在命題人員對(duì)每個(gè)試題進(jìn)行難度預(yù)估后,可以采用各種統(tǒng)計(jì)方法對(duì)預(yù)估值進(jìn)行數(shù)據(jù)處理,例如求預(yù)估難度與實(shí)測(cè)難度的相關(guān)系數(shù),計(jì)算每人預(yù)估的平均差異,計(jì)算預(yù)估值的標(biāo)準(zhǔn)差等.根據(jù)數(shù)據(jù)處理的結(jié)果,確定對(duì)預(yù)估值與實(shí)測(cè)值的擬合程度和每個(gè)命題人員的預(yù)估精度,從而在以后的年份科學(xué)地利用預(yù)估數(shù)據(jù)預(yù)測(cè)高考試題的實(shí)測(cè)難度.
高考;預(yù)估難度;實(shí)測(cè)難度;統(tǒng)計(jì)分析
《普通高等學(xué)校招生全國(guó)統(tǒng)一考試大綱》對(duì)高考提出了明確的測(cè)量指標(biāo)要求:“高考應(yīng)具有較高的信度、效度,必要的區(qū)分度和適當(dāng)?shù)碾y度.”[1]高考由于其高利害性和敏感性,不能通過考前試測(cè)的方法來(lái)掌握試題難度.但由于難度是考生和中學(xué)教師最關(guān)注的統(tǒng)計(jì)指標(biāo)之一,對(duì)錄取和中學(xué)教學(xué)都有重要的影響,所以在考前預(yù)估試題難度,以便及時(shí)在命題中進(jìn)行相應(yīng)調(diào)整就顯得尤為重要.這里以2017年高考數(shù)學(xué)試題難度預(yù)估數(shù)據(jù)和實(shí)考的統(tǒng)計(jì)數(shù)據(jù)為基礎(chǔ),討論高考試題難度預(yù)估的策略,對(duì)預(yù)估數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析的方法及對(duì)預(yù)估值的合理利用.
以高考數(shù)學(xué)學(xué)科為例,試題定稿后,每個(gè)命題教師對(duì)高考Ⅰ、Ⅱ、Ⅲ卷文、理科共6套試卷進(jìn)行難度預(yù)估,逐個(gè)估計(jì)每個(gè)試題的難度.命題教師估計(jì)的基礎(chǔ)包括往年類似試題的難度統(tǒng)計(jì)數(shù)據(jù),當(dāng)年試題與往年試題的區(qū)別,當(dāng)年考生的平均水平等.隨后進(jìn)行兩項(xiàng)統(tǒng)計(jì),一是把所有教師在每個(gè)試題的預(yù)估值進(jìn)行平均,得出該題全體教師預(yù)估的平均難度;二是把每個(gè)教師在一份試卷預(yù)估的每個(gè)試題難度進(jìn)行加權(quán)平均,得出該教師對(duì)該份試卷的預(yù)估難度.因保密原因,隱去每個(gè)教師的姓名,只以編號(hào)代替.每個(gè)教師都對(duì)6套試卷的138個(gè)試題進(jìn)行了難度預(yù)估.
高考結(jié)束以后,對(duì)考生數(shù)據(jù)進(jìn)行系統(tǒng)抽樣和計(jì)算分析,得出當(dāng)年6套試卷的實(shí)考數(shù)據(jù).將教師預(yù)估數(shù)據(jù)和實(shí)考數(shù)據(jù)進(jìn)行對(duì)比分析.在表1中,將教師預(yù)估難度的平均值與實(shí)測(cè)統(tǒng)計(jì)值進(jìn)行比較,用平均值減去實(shí)測(cè)統(tǒng)計(jì)值,差值為負(fù)說(shuō)明預(yù)估值低于實(shí)測(cè)值,差值為正說(shuō)明預(yù)估值高于實(shí)測(cè)值.
(1)計(jì)算每個(gè)教師預(yù)估值高于或低于實(shí)測(cè)值的試題數(shù)量.
圖1中零點(diǎn)水平線以上柱體表示6套試卷中該名教師預(yù)估得分率大于實(shí)測(cè)得分率的試題數(shù)量;零點(diǎn)水平線以下柱體表示該名教師預(yù)估得分率小于實(shí)測(cè)得分率的試題數(shù)量.例如第一位教師的估計(jì)有78個(gè)試題過高,60個(gè)試題過低.從圖1中可以看出,預(yù)估值大于實(shí)測(cè)值的試題數(shù)量平均為77.5個(gè),小于實(shí)測(cè)值的試題數(shù)量平均為60.5個(gè),平均多出17個(gè)試題,說(shuō)明專家對(duì)學(xué)生能力的判斷總體偏高.
(2)將每個(gè)教師估計(jì)的誤差值相加,計(jì)算每個(gè)教師的平均差異.
圖2中柱體表示命題專家平均每道試題預(yù)估得分率大于實(shí)測(cè)得分率的值.由于是計(jì)算誤差值的代數(shù)和,所以存在誤差值正負(fù)相抵的問題.從中依然可以看出,所有教師的估計(jì)平均值都高于實(shí)測(cè)值.
(3)將每個(gè)教師估計(jì)的誤差值的絕對(duì)值相加,計(jì)算每個(gè)教師的平均差異.
圖3中柱體表示命題專家每道試題預(yù)估得分率與實(shí)測(cè)得分率之差的絕對(duì)值的平均數(shù).由于是計(jì)算誤差值的絕對(duì)值的和,所以不存在誤差值正負(fù)相抵的問題.絕對(duì)值差可以用來(lái)量化描述命題專家預(yù)估得分率與實(shí)測(cè)得分率的相近程度,即預(yù)估的穩(wěn)定程度.從中可以看出圖2差異值最大的教師,在圖3中的差異值較小,說(shuō)明該教師的預(yù)估雖然總體偏高,但其誤差值的絕對(duì)值的和較小,即預(yù)估的穩(wěn)定性較好.
(4)求每個(gè)教師估計(jì)值與實(shí)測(cè)值的相關(guān)系數(shù),判斷每個(gè)教師預(yù)估值與實(shí)測(cè)值的擬合程度.求全體教師估計(jì)平均值與實(shí)測(cè)值的相關(guān)系數(shù),并與每個(gè)教師進(jìn)行比較.判斷教師預(yù)估平均值的擬合程度.
從表2可以看出,每個(gè)教師的預(yù)估值與實(shí)測(cè)值的相關(guān)系數(shù)都大于0.7,說(shuō)明其相關(guān)性很高,即教師對(duì)試題難易的感知與實(shí)測(cè)結(jié)果吻合度較高.教師的平均值與實(shí)測(cè)值的相關(guān)最高,說(shuō)明全體教師的平均預(yù)估結(jié)果好于每個(gè)教師的預(yù)估結(jié)果.
(5)考察教師每個(gè)試題預(yù)估值的標(biāo)準(zhǔn)差.表1中的標(biāo)準(zhǔn)差是全體教師預(yù)估值的標(biāo)準(zhǔn)差,從表1中可以看出,教師預(yù)估值與實(shí)測(cè)值差異大的試題其預(yù)估值的標(biāo)準(zhǔn)差不一定大,但標(biāo)準(zhǔn)差大的試題其預(yù)估值與實(shí)測(cè)值差異都比較大.例如,全國(guó)III卷理科數(shù)學(xué)的第1題、第10題的預(yù)估與實(shí)際差異非常大,但是預(yù)估值的標(biāo)準(zhǔn)差相對(duì)較?。蝗珖?guó)III卷理科數(shù)學(xué)第5題、第12題的預(yù)估標(biāo)準(zhǔn)差較大,其預(yù)估值與實(shí)測(cè)值的差異也較大,這可能是因?yàn)檫@些試題比較新穎,教師對(duì)其與考生水平的吻合程度估計(jì)不準(zhǔn),教師間的認(rèn)識(shí)分歧較大,所以造成了預(yù)估值的標(biāo)準(zhǔn)差較大.因此在進(jìn)行難度預(yù)估時(shí),應(yīng)特別關(guān)注預(yù)估值標(biāo)準(zhǔn)差較大的試題.
(7)計(jì)算教師在每一道題上的平均預(yù)估難度與實(shí)測(cè)難度的差異(如圖4、圖5所示).
圖5把6套試卷的所有題目進(jìn)行編號(hào)并按照實(shí)測(cè)值從低到高排列;將每道試題對(duì)應(yīng)的教師平均預(yù)估難度畫成曲線圖.可以看出,在試題實(shí)測(cè)值較低的部分,教師平均預(yù)估值整體偏高,說(shuō)明教師對(duì)較難試題的預(yù)估偏容易;在試題實(shí)測(cè)值較高的部分,教師平均預(yù)估值整體偏低,說(shuō)明教師對(duì)較易試題的預(yù)估偏難;在實(shí)測(cè)值較為適中的中間段,教師平均預(yù)估值較為準(zhǔn)確.
(8)計(jì)算教師預(yù)估的試卷難度值與實(shí)測(cè)試卷難度值的差距(如表3、表4所示).
表1 2017年專家預(yù)估難度(全國(guó)Ⅲ卷理科)
圖1 2017年專家預(yù)估與實(shí)測(cè)難度差異的分值對(duì)比
圖2 2017年專家預(yù)估與實(shí)測(cè)難度平均差異對(duì)比
圖3 2017年專家預(yù)估與實(shí)測(cè)難度平均絕對(duì)差對(duì)比
表2 每個(gè)命題教師預(yù)估值與實(shí)測(cè)值的相關(guān)性分析
圖4 教師預(yù)估平均值與實(shí)測(cè)難度散點(diǎn)圖
圖5 教師平均預(yù)估難度與實(shí)測(cè)難度關(guān)系
表3 教師整卷難度預(yù)估
表4 教師整卷難度預(yù)估均值與整卷實(shí)測(cè)難度對(duì)比
教師對(duì)全國(guó)Ⅰ、Ⅲ卷理科預(yù)估值與實(shí)測(cè)值偏差較小,對(duì)全國(guó)Ⅰ卷理科和全國(guó)Ⅲ卷理科的估計(jì)誤差分別為0.01和0.02,達(dá)到了相當(dāng)高的估計(jì)精度.在其余幾套試卷上,例如全國(guó)Ⅱ卷理科,預(yù)估誤差較大,而且教師間的估計(jì)值的波動(dòng)性也較高,因此在今后預(yù)估時(shí),對(duì)標(biāo)準(zhǔn)差比較大的情況應(yīng)該特別關(guān)注,及時(shí)進(jìn)行討論、調(diào)整.整體而言,教師的整卷預(yù)估難度高于實(shí)測(cè)值,說(shuō)明教師對(duì)學(xué)生總體水平的預(yù)估偏高.
(1)全體教師的預(yù)估值和實(shí)測(cè)值都是顯著相關(guān),但總體偏高.應(yīng)在今后每年的命題中更多積累數(shù)據(jù),關(guān)注各年教師估計(jì)偏高的平均值,在以后的命題中,對(duì)教師預(yù)估值進(jìn)行相應(yīng)的調(diào)整和修正.
(2)教師預(yù)估難度時(shí),教師間預(yù)測(cè)的穩(wěn)定性存在差異.有三分之一左右老師的預(yù)測(cè)穩(wěn)定程度較高,即他們的預(yù)估更準(zhǔn),應(yīng)更多關(guān)注他們的預(yù)估值.
(3)預(yù)估值標(biāo)準(zhǔn)差大的題目,預(yù)估數(shù)據(jù)與實(shí)測(cè)數(shù)據(jù)差別相對(duì)較大.應(yīng)該特別關(guān)注標(biāo)準(zhǔn)差大的題目,對(duì)預(yù)估值標(biāo)準(zhǔn)差較大的題目,應(yīng)組織全組討論預(yù)估情況,集體確定更加準(zhǔn)確的預(yù)估值.
(4)兩組之間預(yù)估值沒有顯著差異,可能是經(jīng)過交叉互審,已經(jīng)對(duì)題目非常熟悉.應(yīng)該在第一輪交叉互審時(shí)預(yù)估難度,及時(shí)調(diào)整.
(5)研究試題難度預(yù)估值和試卷難度預(yù)估值之間的關(guān)系,注重研究試卷整體難度預(yù)估的方法和規(guī)律.
(6)在當(dāng)年的命題工作中將預(yù)估與實(shí)測(cè)難度的差異對(duì)比結(jié)果反饋給命題專家,根據(jù)統(tǒng)計(jì)結(jié)果進(jìn)行難度預(yù)估的調(diào)整,并結(jié)合具體試題對(duì)難度評(píng)判的標(biāo)準(zhǔn)進(jìn)行討論和校正,發(fā)揮集體智慧,共同討論難度預(yù)估的合理性與準(zhǔn)確性問題.
[1] 教育部考試中心.普通高等學(xué)校招生全國(guó)統(tǒng)一考試大綱(理科)[M].北京:高等教育出版社,2017:1.
Research on Estimate of College Entrance Examination Difficulty Level
REN Zi-zhao, TONG Wei, ZHAO Xuan, CHEN Ang
(National Education Examinations Authority, Beijing 100084, China)
Because of its interest concern and sensitivity, it was accessible the difficulty level could be determined by the subjective estimate of item writing staff, rather than mastering the difficulty value in advance prior the examination. After the item writing staff estimated the difficulty level of the tests, it was accessible the estimate value could be digitally processed by statistical approach, for instance, calculating the coefficient between estimated and actual difficulty value, calculating the average difference of per capita estimates and calculating the standard deviation of estimated value. According to the digitally processed results, the fitting degree of estimate value and actual value and the estimate precision for each item writing staff, could be determined. Therefore, the actual difficulty level of College Entrance Examination could be estimated scientifically by the data in the following years.
College Entrance Examination; estimate difficulty level; actual difficulty level; statistical analysis
2018–06–28
國(guó)家教育考試科研規(guī)劃2017年度課題——新高考不分文理科后的數(shù)學(xué)命題研究(GJK2017005)
任子朝(1961—),男,北京人,教育部考試中心研究員,主要從事數(shù)學(xué)教育、教育測(cè)量研究.
G632.0
A
1004–9894(2018)05–0013–04
任子朝,佟威,趙軒,等.高考試題難度預(yù)估研究[J].?dāng)?shù)學(xué)教育學(xué)報(bào),2018,27(5):13-16.
[責(zé)任編校:周學(xué)智、陳雋]
數(shù)學(xué)教育學(xué)報(bào)2018年5期