楊聰聰 閆芳
[摘要]運用內(nèi)容分析法、文獻(xiàn)計量法,借助VOSviewer軟件,對國內(nèi)基礎(chǔ)及高等教育數(shù)學(xué)試題難度研究的文獻(xiàn)進(jìn)行綜述。在知網(wǎng)數(shù)據(jù)庫中搜集并篩選獲得關(guān)于數(shù)學(xué)試題難度研究的期刊文獻(xiàn)130篇,從文獻(xiàn)的期刊來源、年份分布、作者情況、關(guān)鍵詞分布、研究內(nèi)容、評估方法6個維度進(jìn)行剖析,發(fā)現(xiàn)研究總體呈上升趨勢,但期刊較分散、各刊發(fā)文量較小、核心期刊文獻(xiàn)較少,近年來多采用比較研究的方法對綜合難度系數(shù)模型、數(shù)學(xué)核心素養(yǎng)等熱點問題進(jìn)行研究。據(jù)此,對未來研究方向提出加強義務(wù)教育階段和高等教育階段數(shù)學(xué)試題難度研究,通過合著提高研究質(zhì)量、研究內(nèi)容及預(yù)估算法應(yīng)當(dāng)更加多樣化等建議。
[關(guān)鍵詞]數(shù)學(xué)試題難度;綜合難度;內(nèi)容分析法
[中圖分類號]G424.74[文獻(xiàn)標(biāo)識碼]A
[文章編號]1673—1654(2023)04—040—013
作者簡介楊聰聰,學(xué)科教學(xué)(數(shù)學(xué))碩士研究生,云南師范大學(xué)數(shù)學(xué)學(xué)院;閆芳(通訊作者),博士,副教授,云南師范大學(xué)數(shù)學(xué)學(xué)院。云南昆明,650500。
一、引言
2019年《國務(wù)院辦公廳關(guān)于新時代推進(jìn)普通高中育人方式改革的指導(dǎo)意見》指出,科學(xué)設(shè)置試題難度,命題要符合相應(yīng)學(xué)業(yè)質(zhì)量標(biāo)準(zhǔn),體現(xiàn)不同考試功能,建立命題評估制度,提高命題質(zhì)量[1]。2020年新一輪高考改革啟動,高考數(shù)學(xué)試題由文理分科逐漸向不區(qū)分文理過渡。新高考數(shù)學(xué)全國卷從2020年在山東省和海南省試用,到2021年使用省份已增加到10個。另外,2021年高考數(shù)學(xué)還將以往高考的全國Ⅰ卷、Ⅱ卷進(jìn)行合并,統(tǒng)稱為全國乙卷,全國Ⅲ卷改為全國甲卷。2022年的高考數(shù)學(xué)試卷類型、使用省份與2021年保持一致。到目前,北京、上海、天津、浙江高考數(shù)學(xué)科仍然采用自主命題。在此大背景下,高考數(shù)學(xué)試題的難度越來越受到學(xué)生、家長、教師以及廣大數(shù)學(xué)教育者的關(guān)注。不僅如此,鑒于高考制度目前仍然是我國教育的“指揮棒”,高考數(shù)學(xué)改革也會影響到其他教育階段的考試評價,其試題難度是否也會發(fā)生相應(yīng)的變化?這是目前有待探究的問題。
試題難度是評價試題質(zhì)量的一個重要指標(biāo),無論是對于教學(xué)過程中的教學(xué)測量,還是最后高考的選拔性考試都有著很大的影響。我國大規(guī)模教育考試試題難度的預(yù)估和控制非常敏感,既是科學(xué)問題,也是社會問題[2]。一份高質(zhì)量的試題,一定具有良好的信度、效度、區(qū)分度以及適當(dāng)?shù)碾y度,使之達(dá)到教育測量的預(yù)定目標(biāo)。怎樣才能編制出一份高質(zhì)量的試題呢?毋庸置疑,這首先與出題者的經(jīng)驗有很大關(guān)系,如果出題者有豐富的教學(xué)經(jīng)驗、先進(jìn)的教育理念,一定能夠讓試題的質(zhì)量大大提高。但是單純依靠經(jīng)驗是不夠的,試題質(zhì)量還必須依賴于試題本身所反映的客觀信息。如果能夠挖掘試題中潛在的客觀信息,提前較為準(zhǔn)確地預(yù)知試題的各個評價指標(biāo),那么命題者就可以根據(jù)預(yù)知指標(biāo)有針對性地對試題作出調(diào)整,進(jìn)而提高試題質(zhì)量??梢?,建立客觀、科學(xué)、合理的試題難度評價體系及模型十分有必要。本研究基于國內(nèi)已有的對數(shù)學(xué)試題難度研究的文獻(xiàn),總結(jié)國內(nèi)的研究現(xiàn)狀及研究動態(tài),發(fā)現(xiàn)需要改進(jìn)或進(jìn)一步研究的問題,提出未來研究的方向,以期為數(shù)學(xué)試題難度研究提供一定的參考。
二、研究方法
通過知網(wǎng)分別以“數(shù)學(xué)試題難度”“數(shù)學(xué)綜合難度”為主題詞,搜索期刊論文,共獲得143篇文獻(xiàn),經(jīng)過研讀和篩選排除掉關(guān)聯(lián)性較小的文獻(xiàn),最后保留130篇研究文獻(xiàn)。運用內(nèi)容分析法、文獻(xiàn)計量法,并借助VOSviewer軟件對這些文獻(xiàn)進(jìn)行整理綜述。主要從期刊來源、年代分布、作者情況、關(guān)鍵詞分布、研究內(nèi)容、評估方法6個維度進(jìn)行剖析,總結(jié)國內(nèi)關(guān)于數(shù)學(xué)試題難度研究的基本狀況,分析尚存的問題,提出未來研究的方向。
三、結(jié)果與討論
(一)期刊來源
通過整理和統(tǒng)計發(fā)現(xiàn),130篇文獻(xiàn)分別發(fā)表于73種不同的期刊,其中發(fā)表相關(guān)文獻(xiàn)超過2篇及以上的期刊有19種。130篇文獻(xiàn)中有47篇發(fā)表于核心期刊,占總發(fā)文量的36.2%。其中有19篇文獻(xiàn)既屬于核心期刊,也屬于CSSCI期刊,占總發(fā)文量的14.6%(如表1所示)。由以上數(shù)據(jù)能夠看出:一方面,目前國內(nèi)發(fā)表有關(guān)數(shù)學(xué)試題難度研究的期刊較多,但是大部分都只是發(fā)表1篇相關(guān)文獻(xiàn),連載量較少;另一方面,有關(guān)數(shù)學(xué)試題難度研究的文獻(xiàn)發(fā)表于核心期刊的量較少,僅占總發(fā)文量三分之一多一點??傮w來看,國內(nèi)發(fā)表數(shù)學(xué)試題難度研究的期刊較分散,載文量較少,發(fā)表于核心期刊的文獻(xiàn)較少,相關(guān)研究的質(zhì)量有待提高。
(二)年份分布
為了分析數(shù)學(xué)試題難度問題研究隨時間發(fā)展的趨勢,圖1給出了相關(guān)文獻(xiàn)發(fā)表年份分布圖,從圖中能夠直觀地看出,國內(nèi)數(shù)學(xué)試題難度相關(guān)研究開始于1987年,在2008年之前發(fā)文量一直較少,只有2001年發(fā)文4篇,2008年后相關(guān)研究的增加趨勢明顯。究其原因,自2000年以來,中國大范圍地啟動了基礎(chǔ)教育課程改革工作。2004年我國實施新課改,考試內(nèi)容增加了對知識的綜合理解以及運用知識分析、解決實際問題的能力的考查,剔除了“偏、難、怪”試題,保證了試題具有適當(dāng)?shù)碾y度和較好的區(qū)分度。特別是從2007年開始,我國首次進(jìn)行了高中課程標(biāo)準(zhǔn)改革后的科目設(shè)置與命題,其主旨是考試科目設(shè)置與內(nèi)容要契合教學(xué)目標(biāo)的改變,符合“三維”教學(xué)理念與人才培養(yǎng)目標(biāo),考試內(nèi)容突出了基礎(chǔ)性、時代性、選擇性的特點[3]。2012年,教育部提出在統(tǒng)一高考基礎(chǔ)上,積極探索建立符合高校自身培養(yǎng)目標(biāo)和要求的創(chuàng)新人才選拔標(biāo)準(zhǔn),完善多位一體的高校人才選拔綜合評價體系[4]。2016年教育部成立了高考考試內(nèi)容改革專家委員會,對高考內(nèi)容改革進(jìn)行戰(zhàn)略性研究與頂層設(shè)計,以保證科學(xué)、公平、合理、有效的考試內(nèi)容,全面突出我國創(chuàng)新人才選拔與培養(yǎng)的目標(biāo)[3]。2020年實施新一輪高考改革,其中一大變化就是不分文理科。除自主命題省份,高考數(shù)學(xué)全國卷歷來分文理科,但2020年首次在山東和海南采用不分文理科的數(shù)學(xué)新高考全國卷。2021年采用新高考全國卷的省份增加到10個,另外將全國III卷改為全國甲卷,將全國I卷和II卷合并為全國乙卷。從以上的相關(guān)教育政策或高考改革政策可以發(fā)現(xiàn),這些政策的頒布對試題難度研究的熱度有很大的導(dǎo)向作用,每個政策提出的當(dāng)年或后一兩年,一般都會成為研究熱度較高的年份。
(三)作者情況分析
1.作者單位類型分布
圖2直觀呈現(xiàn)了作者單位類型分布情況??梢钥闯?,關(guān)于數(shù)學(xué)試題難度的研究絕大部分集中在高等院校(66篇),其發(fā)文量達(dá)到總發(fā)文量的50.8%;然后是中小學(xué)(37篇),占總發(fā)文量的28.5%;再次是教研機構(gòu)(17篇),占總發(fā)文量的13.1%;最少的是這三類機構(gòu)間的相互合作發(fā)文,僅占總發(fā)文量的7.6%。在高等院校的66篇文獻(xiàn)中,有50篇來自于師范類院校。究其原因,師范類院校以培養(yǎng)教師等教育行業(yè)從業(yè)人員為人才培養(yǎng)目標(biāo),其教學(xué)、科研等比較關(guān)注國家教育政策、高考改革以及試題調(diào)整等各方面的變化,因此師范類院校對這方面的信息比較敏銳,進(jìn)而相關(guān)研究也較豐富。
從以上分析可以看出,各機構(gòu)間的合作研究較少。各高校師生雖然對國家教育政策、高考改革以及試題調(diào)整等各方面的變化比較敏銳,但是考慮問題多從理論出發(fā),缺乏一定的實踐基礎(chǔ)。一線教師長期從事中小學(xué)教學(xué)工作,對政策的實施、試題的變化等有更切實的體會,對學(xué)生的實際情況更加了解,這些實踐經(jīng)驗都有利于數(shù)學(xué)試題難度的相關(guān)研究。另外,相關(guān)的教育研究機構(gòu)可以根據(jù)每年學(xué)生統(tǒng)考的情況,掌握大數(shù)據(jù)信息,這對數(shù)學(xué)試題難度的研究來說是非常重要的資源。因此各機構(gòu)間若能夠加強合作,相信對于數(shù)學(xué)試題難度的研究會大有助益。
2.作者合著情況
圖3顯示了作者合著情況。可以發(fā)現(xiàn),目前相關(guān)研究以單人為主(65篇),其次是兩人合著(32篇),接下來是三人合作(25篇),四人及以上合著的較少。另外,在多人合著(3人及以上)中,基本都是高校研究生與導(dǎo)師或研究生與研究生的合著,也有教研單位的多人合作,涉及高校師生與教研人員、高校師生與一線教師的合著很少。
一門學(xué)科的發(fā)展離不開團隊,尤其是多人(3人及以上)參與的團隊合作,群體成員間的共同努力會產(chǎn)生強大且持久的力量,期待未來的相關(guān)研究主體會有更多的“多人團隊”出現(xiàn),以此壯大和發(fā)展該領(lǐng)域的研究實力與學(xué)術(shù)地位。
(四)關(guān)鍵詞分布
關(guān)鍵詞頻次可用于判斷數(shù)學(xué)試題難度研究的熱點、層次、趨勢以及有待探討的方面。利用VOSviewer軟件,對130篇文獻(xiàn)進(jìn)行關(guān)鍵詞分析:
從圖4能夠清晰地看到關(guān)于數(shù)學(xué)試題難度研究熱點,出現(xiàn)頻率較高的關(guān)鍵詞依次有(點越大代表該關(guān)鍵詞出現(xiàn)的頻率越高):數(shù)學(xué)試題、高考數(shù)學(xué)、綜合難度模型、高考數(shù)學(xué)試題、難度系數(shù)、試題難度、區(qū)分度、比較研究等。
圖5顏色的變化顯示出關(guān)鍵詞按照年份熱度變化的情況,近幾年的研究熱點集中在淺灰色區(qū)域,關(guān)鍵詞包括綜合難度系數(shù)模型、數(shù)學(xué)核心素養(yǎng)、比較分析,其熱度圖依次如圖6、圖7、圖8所示。
可見,近幾年研究熱度較高的問題是綜合難度系數(shù)模型、數(shù)學(xué)核心素養(yǎng),采用較多的方法是比較研究。
通過對以上關(guān)鍵詞進(jìn)行分析可以發(fā)現(xiàn):
1.關(guān)于數(shù)學(xué)試題難度的研究,多以高考數(shù)學(xué)試題為研究對象,詳見表2。
研究對象最多的為高考數(shù)學(xué)試題,其次是對數(shù)學(xué)試題難度的整體研究,即未注明具體學(xué)段,高等數(shù)學(xué)試題、中考數(shù)學(xué)試題和小學(xué)數(shù)學(xué)試題方面的研究基本持平,對于初中和高中平時檢測的試題難度研究則較少。這也反映了相關(guān)研究中有待加強之處,一方面高考數(shù)學(xué)試題和學(xué)生平時的檢測試題由于其考查目的不同,所以難度設(shè)置等各方面存在差異,將高考數(shù)學(xué)試題難度的研究結(jié)果直接應(yīng)用于學(xué)生平時的檢測試題可能會產(chǎn)生偏差,所以對于學(xué)生平時測驗試題難度的研究可以作為后期研究的一個切入點。另一方面隨著減負(fù)政策的出臺,中小學(xué)生作業(yè)負(fù)擔(dān)和培訓(xùn)負(fù)擔(dān)問題得到全面整治,這一政策將如何影響義務(wù)教育階段試題難度的變化還有待探究。2009年,《國家中長期教育改革和發(fā)展規(guī)劃綱要(2010—2020年)》提出要“提高人才培養(yǎng)質(zhì)量,著力培養(yǎng)信念執(zhí)著、品德優(yōu)良、知識豐富、本領(lǐng)過硬的高素質(zhì)專門人才和拔尖創(chuàng)新人才”。作為當(dāng)前檢測人才培養(yǎng)成果方式之一的高校課程考試能否有效檢測出學(xué)生的水平?其試題難度在發(fā)生怎樣的變化?目前與此相關(guān)的研究較少。因此,還需加強義務(wù)教育階段和高等教育階段數(shù)學(xué)試題難度的研究。
2.近幾年學(xué)者研究較多的內(nèi)容是綜合難度系數(shù)模型與數(shù)學(xué)核心素養(yǎng)。鮑建生教授于2002年在《中英兩國初中數(shù)學(xué)期望課程綜合難度的比較》[5]中首次提出了數(shù)學(xué)題的綜合難度模型,隨后有不少研究者基于此模型對試題或試卷難度展開探究。本研究的130篇文獻(xiàn)中,有20篇引用了鮑建生教授2002年的研究成果,有15篇引用了2014年王建磐教授和鮑建生教授共同發(fā)表的《高中數(shù)學(xué)教材中例題的綜合難度的國際比較》[6],還有19篇引用了武小鵬和張怡2018年共同發(fā)表的《中國和韓國高考數(shù)學(xué)試題綜合難度比較研究》[7],這幾篇文獻(xiàn)都是關(guān)于數(shù)學(xué)試題綜合難度的研究。其中前兩篇發(fā)表于《全球教育展望》,第三篇發(fā)表于《數(shù)學(xué)教育學(xué)報》,均屬于北大核心和CSSCI期刊,具有權(quán)威性。數(shù)學(xué)試題綜合難度研究使得試題難度的評價更為全面、科學(xué)、客觀。
另外,自2017年高中數(shù)學(xué)課程標(biāo)準(zhǔn)中明確提出高中數(shù)學(xué)教育要注重培養(yǎng)學(xué)生的6大核心素養(yǎng)以來,基于核心素養(yǎng)展開研究的課題較多,試題難度是其中一個。有研究者基于核心素養(yǎng)視角探析數(shù)學(xué)試題難度,使難度的衡量更加符合時代要求[8]。
3.對于數(shù)學(xué)試題難度的研究近幾年多采用對比研究的方法,這與數(shù)學(xué)試題綜合難度的計算方法有很大關(guān)系。數(shù)學(xué)試題綜合難度的研究多是分析影響數(shù)學(xué)試題難度的因素,然后根據(jù)各因素對綜合難度的影響大小,給予不同的權(quán)重并進(jìn)行賦值量化。雖然這種方法使得試題難度評價更為全面,但是利用這種方法得到的難度單獨呈現(xiàn)出來時,其意義比較模糊,綜合難度系數(shù)本質(zhì)上反映的是試題的絕對難度,它能夠在多大程度上反映相對難度(事后難度)則難以明確,只有當(dāng)幾套試題放在一起進(jìn)行比較時,其優(yōu)勢才能夠體現(xiàn)出來,即較為清晰地比較出幾套試題的難度差異。由此可見,進(jìn)一步探究絕對難度與相對難度的關(guān)系十分必要,只有明晰二者的聯(lián)系,才能夠更好地利用絕對難度來預(yù)估相對難度。
(五)研究內(nèi)容分析
通過對130篇文獻(xiàn)進(jìn)行整理,可將其研究內(nèi)容劃分為8大類(如圖9所示),分別是絕對難度(試題本身的客觀難度,即指從試題的背景因素、知識點含量等客觀角度對試題難度進(jìn)行評價)、試題整體分析、相對難度(試后的統(tǒng)計難度)、絕對難度與相對難度二者結(jié)合、影響因素、試題庫、數(shù)學(xué)試題難度文獻(xiàn)綜述,以及其他的相關(guān)研究。其中研究較多的是絕對難度(57篇),其次是試題整體分析(24篇),然后是相對難度(12篇)、二者結(jié)合(11篇),影響因素的相關(guān)研究有8篇,試題庫、文獻(xiàn)綜述的研究較少。
在絕對難度研究方面,研究者多對影響數(shù)學(xué)試題難度的因素進(jìn)行水平劃分,然后針對具體試題進(jìn)行絕對難度的計算。王秋海教授結(jié)合實踐并吸收國內(nèi)的先進(jìn)經(jīng)驗,得到了一種數(shù)學(xué)試題客觀難度測量方法——EQR法,對知識點類型和應(yīng)用方式進(jìn)行賦值[9]。林雪明以潛在傾向理論為基礎(chǔ),結(jié)合區(qū)分度算法,提出了一種新的建立和實現(xiàn)試題難度系數(shù)數(shù)學(xué)模型的方法[10]。李二霞、邵志芳在前人設(shè)計的對試題難度進(jìn)行事前評定的框架和實施程序的基礎(chǔ)上,將試題的事前難度進(jìn)一步劃分為基準(zhǔn)難度和解決難度,使得評價更為科學(xué)合理[11]。曾建國應(yīng)用SOLO分類理論,從知識點考查的視角來評價高考數(shù)學(xué)題,并以三角函數(shù)模塊為例進(jìn)行評價分析[12]。張碧霞等人結(jié)合核心素養(yǎng),對綜合難度模型進(jìn)行改進(jìn),分析在背景因素、認(rèn)知水平、運算水平、推理能力、知識含量和數(shù)據(jù)分析的不同水平上的差異[13]。張玉環(huán)等人采用定性和定量相結(jié)合的方法,對2015年至2019年中國高考理科數(shù)學(xué)全國Ⅰ卷與法國本土業(yè)士考試(也稱畢業(yè)會考)試卷進(jìn)行難度和典型案例分析[14]。韓金璇等人運用綜合難度模型對美國大學(xué)入學(xué)考試試題與中國高考試題進(jìn)行對比分析,發(fā)現(xiàn)中國高考試題的推理因素難度較大,美國大學(xué)入學(xué)考試試題的背景因素難度較大,二者在參數(shù)因素上相差不大[15]。
對于相對難度的研究往往以學(xué)生試后成績?yōu)榛A(chǔ),結(jié)合經(jīng)典測量理論或項目反應(yīng)理論,對試題進(jìn)行難度、區(qū)分度等指標(biāo)的分析。昌國良分析了2002年至2006年部分高考數(shù)學(xué)試題的相對難度,發(fā)現(xiàn)部分高考數(shù)學(xué)試題的難度偏離國家規(guī)定的標(biāo)準(zhǔn),由此對高考數(shù)學(xué)試題的編制提出相關(guān)建議,以便更好地體現(xiàn)新課程改革的理念和創(chuàng)新精神[16]。李瑛基于經(jīng)典測量理論,通過設(shè)定標(biāo)準(zhǔn)選擇當(dāng)年參加高考的少量學(xué)生入圍進(jìn)行試測,結(jié)合對試測生實測數(shù)據(jù)的分析,達(dá)到預(yù)測試卷難度的效果[17]。張?zhí)斓碌热死秒p向細(xì)目表分析了2021年新高考數(shù)學(xué)I卷的知識點、關(guān)鍵能力、學(xué)科素養(yǎng)、情境等考查情況,另外結(jié)合山東省高考數(shù)學(xué)學(xué)科的成績統(tǒng)計,分析了題目的難易程度,并在此基礎(chǔ)上提出2022年新高考的動向以及備考策略[18]。
將相對難度與絕對難度進(jìn)行結(jié)合的研究,一般是先結(jié)合評價框架進(jìn)行絕對難度預(yù)估,然后再結(jié)合相對難度,分析二者的關(guān)系。周華輔采用累加點表估計難度,并將預(yù)估難度和實測難度進(jìn)行比較,預(yù)估效果較好[19]。王曉華提出采用基于AHP的模糊綜合評判方法對試題難度進(jìn)行預(yù)估,并將該方法應(yīng)用于大規(guī)模教育考試數(shù)學(xué)試題的難度預(yù)估和控制,取得了顯著的成效[2]。王煜等人在CAT事前難度評定與綜合難度評定的基礎(chǔ)上,給出了事前綜合難度的概念,建構(gòu)了事前綜合難度評定框架,并對2013年至2017年的全國高考數(shù)學(xué)Ⅱ卷(理科)試題進(jìn)行了事前綜合難度評定,擬合出預(yù)測事后難度的回歸方程[20]。呂世虎等人在試卷相對難度和絕對難度的基礎(chǔ)上提出了試卷綜合難度的概念,結(jié)合中考數(shù)學(xué)試題,構(gòu)建了6個要素刻畫的數(shù)學(xué)試卷綜合難度指標(biāo)體系[21]。宋慧媛等人基于深度神經(jīng)網(wǎng)絡(luò)模型,利用試題文本信息,同時結(jié)合考生作答記錄,建立試題文本信息與實際難度間的關(guān)聯(lián)性,進(jìn)而解決測試中試題難度參數(shù)的預(yù)估等問題[22]。
對于試題的整體分析,多從試題的整體考試范圍、考試內(nèi)容、試卷結(jié)構(gòu)、整體難度、命題趨勢、復(fù)習(xí)建議等方面進(jìn)行綜合分析,一般不會涉及測量理論或算法模型,研究者根據(jù)自己的經(jīng)驗對試題做出分析評判。黎郭凱對2017年美國SAT試題數(shù)學(xué)部分和全國高考理科乙卷試題,從試題形式、題量以及答題時間、試題考查內(nèi)容、試題考查特點等方面進(jìn)行對比分析,發(fā)現(xiàn)我國的高考試題在各個維度上都比SAT試題難度更高,但是SAT試題中豐富的現(xiàn)實情境素材、直觀的圖像表征方式和新穎的題型,以及試題與生活的緊密聯(lián)系等都值得借鑒[23]。李志敏通過對比2016年全國新課標(biāo)卷與廣東卷數(shù)學(xué)試題在試卷結(jié)構(gòu)、考試范圍、題型、知識點考查等方面的差異,發(fā)現(xiàn)全國新課標(biāo)I卷數(shù)學(xué)試題重視基礎(chǔ)知識、突出重點知識、不忘“新增”內(nèi)容和“邊緣”知識,試題有機滲透了“函數(shù)方程思想”等多種思想,對學(xué)生的抽象與概括等多方面能力進(jìn)行了全面的考查,作者在此研究基礎(chǔ)上對高三數(shù)學(xué)復(fù)習(xí)提出了建議[24]。由于試題的整體分析不涉及復(fù)雜的測量理論或是算法模型,以經(jīng)驗判斷為主,所以此類的文章作者多為一線教師。
試題難度的影響因素有多個方面,研究者對其水平的劃分也有不同的標(biāo)準(zhǔn),經(jīng)過對文獻(xiàn)的研讀和整理,得到如圖10所示的難度影響因素統(tǒng)計圖。從總體來看,借鑒較多的是鮑建生教授的5因素難度模型,該模型提出影響數(shù)學(xué)試題難度的因素包括探究、背景、運算、推理、知識含量[5]。張怡等人在此基礎(chǔ)上添加了是否含參、思維方向,使綜合難度系數(shù)模型更加適應(yīng)數(shù)學(xué)標(biāo)準(zhǔn)化試題的比較研究[25]。薛歡等人對武小鵬團隊的綜合難度模型進(jìn)行調(diào)整,增加條件含量、閱讀量(字符)兩個因素,以凸顯高考試題的命題變化[26]。李保臻等人認(rèn)為高考數(shù)學(xué)解答題一般涉及到幾個子問題,子問題之間是否有關(guān)聯(lián)會影響試卷的綜合難度,故而在武小鵬高考試題綜合難度模型的基礎(chǔ)上增加“梯度”因素[27]。呂世虎教授等人構(gòu)建用試卷題型及其順序、試卷題量與考試時間、試題難度分布、試卷閱讀量、試卷新穎性、學(xué)生實際水平等6個要素刻畫的數(shù)學(xué)試卷綜合難度指標(biāo)體系[21]。宋霜霜等人基于綜合難度模型,以2015年至2020年大慶市中考數(shù)學(xué)試題為例進(jìn)行研究,發(fā)現(xiàn)隨著新課程改革的深入,背景類試題增多成為發(fā)展趨勢,并根據(jù)這一變化規(guī)律為學(xué)生備考提出建議[28]。
還有研究者從試題難度角度出發(fā)建立數(shù)學(xué)試題庫。李捷等人研究了網(wǎng)絡(luò)考試系統(tǒng)設(shè)計中利用遺傳算法進(jìn)行智能組卷的問題。針對試卷的難度指標(biāo),采用模糊數(shù)學(xué)方法和項目反應(yīng)理論對試題庫中每一小題進(jìn)行綜合評價試題難度的數(shù)學(xué)建模[29]。
文獻(xiàn)綜述的相關(guān)研究主要從試題難度的影響因素探討,或是試題難度評估方法的發(fā)展方面進(jìn)行綜述。魯慶云、宋乃慶2009年對我國數(shù)學(xué)試題難度影響因素進(jìn)行研究綜述,提出已有研究存在的問題,如提出的影響因素多基于思辨分析,缺乏實際數(shù)據(jù)支持,以及各因素對難度的貢獻(xiàn)率有待商榷等[30]。羅瑪?shù)热藢υ囶}難度的影響因素和試題難度評估方法進(jìn)行綜述,發(fā)現(xiàn)難度評估方法正在向綜合化、科學(xué)化發(fā)展[31]。
綜合以上分析可以發(fā)現(xiàn),目前國內(nèi)關(guān)于數(shù)學(xué)試題難度的研究內(nèi)容較為豐富,但是無論哪種研究都要回歸研究的本質(zhì)。之所以研究數(shù)學(xué)試題難度,其出發(fā)點是服務(wù)于教學(xué)和考試,而教學(xué)和考試又是培養(yǎng)和選拔人才的不同方式,歸根結(jié)底,數(shù)學(xué)試題難度研究的最終落腳點要放在培養(yǎng)學(xué)生的能力和素養(yǎng)之上,這樣的研究才是真正有意義的。
(六)難度評估方法分析
試題難度分為相對難度和絕對難度,對于相對難度的分析大多以經(jīng)典測量理論和項目反應(yīng)理論為理論基礎(chǔ),基于學(xué)生的實測成績進(jìn)行分析,而對于絕對難度的預(yù)估方法則多種多樣,進(jìn)一步整理文獻(xiàn)得到如圖11所示的難度評估方法統(tǒng)計圖。周華輔利用影響試題難度因素的累積點換算得到試題的絕對難度[32]。毛競飛運用命題教師主觀評估、多元線性回歸分析和BP神經(jīng)網(wǎng)絡(luò)建模三種預(yù)測方法,對高考命題過程中試題的難度進(jìn)行預(yù)測,并對三種方法的預(yù)測性能進(jìn)行比較,得出BP神經(jīng)網(wǎng)絡(luò)預(yù)測模型對試題難度的預(yù)側(cè)準(zhǔn)確度相對更高,誤差相對更小[33]。王曉華利用AHP方法和模糊數(shù)學(xué)原理對命題專家的經(jīng)驗進(jìn)行科學(xué)化總結(jié)和提煉,通過定性分析和定量分析相結(jié)合的方法對試題難度進(jìn)行綜合評判[2]。曾建國應(yīng)用SOLO分類理論,從知識點考查的視角來評價高考數(shù)學(xué)試題[12]。王煜等人不僅給出了事前綜合難度評定框架,還擬合出預(yù)測事后難度的回歸方程,明確了事前、事后難度的關(guān)系[20]。佟威等人提出了分別基于卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)的數(shù)學(xué)試題難度預(yù)測模型,以及二者的混合模型,以實現(xiàn)高效、準(zhǔn)確的試題難度評估[34]。
如圖11所示,研究者對數(shù)學(xué)難度模型的構(gòu)建方法不斷改進(jìn),其目的是使難度模型更加全面客觀、科學(xué)合理。例如AHP雖然集合了眾多專家的意見,但是主觀性較強;多元線性回歸雖然較為客觀,但是假定影響因素與難度間呈線性關(guān)系,這是有待商榷的;BP神經(jīng)網(wǎng)絡(luò)算法很好地解決了非線性關(guān)系,但是這種算法的預(yù)測能力和訓(xùn)練能力有時會出現(xiàn)矛盾,即出現(xiàn)所謂的“過擬合”現(xiàn)象,導(dǎo)致預(yù)測能力下降?;诰矸e神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)的數(shù)學(xué)試題難度預(yù)測模型,以及二者的混合模型,均直接對試題文本進(jìn)行理解和語義表征,可保留試題描述的局部語義和語序信息,并且解決了不同考試中學(xué)生群體具有不可比性的問題,使得評價模型具有更好的性能[31]。
四、結(jié)論與展望
(一)研究結(jié)論
1.從研究趨勢來看,國內(nèi)對于數(shù)學(xué)試題難度的研究從2008年開始整體呈現(xiàn)遞增的趨勢,在2022年達(dá)到研究高潮,究其原因,與國家出臺的教育政策緊密相關(guān);研究對象以高考數(shù)學(xué)試題為主,義務(wù)教育階段和高等教育階段的數(shù)學(xué)試題難度研究較少。
2.從發(fā)表期刊和作者單位來看,國內(nèi)發(fā)表關(guān)于數(shù)學(xué)試題難度研究的期刊較分散,載文量較少,發(fā)表于核心期刊的文獻(xiàn)較少,相關(guān)研究的質(zhì)量有待進(jìn)一步提高。對于數(shù)學(xué)試題難度的研究絕大部分集中在高等院校,特別是師范類院校,各機構(gòu)間的合作研究較少。從作者合著情況來看,以單人為主,其次是兩人合作,多人合作的研究較少。
3.從研究熱點來看,關(guān)鍵詞集中在數(shù)學(xué)試題、高考數(shù)學(xué)、難度系數(shù)、高考數(shù)學(xué)試題、試題難度、綜合難度模型、區(qū)分度、高考、綜合難度。近幾年研究的熱點問題是綜合難度系數(shù)模型、數(shù)學(xué)核心素養(yǎng),采用較多的方法是比較研究。
4.從研究內(nèi)容來看,關(guān)于數(shù)學(xué)試題難度的研究內(nèi)容可以劃分為六大類,分別是絕度難度、相對難度、二者結(jié)合、試題整體分析、影響因素、試題庫研究。其中研究較多的是絕對難度,其次是試題整體分析,相對難度、二者結(jié)合與其他研究的文獻(xiàn)數(shù)量持平,影響因素、試題庫的研究較少。
5.從難度預(yù)評估方法來看,目前采用的評估方法包括經(jīng)典測量理論、項目反應(yīng)理論、SOLO分類理論、累積點換算法、層次分析法(AHP)、多元線性回歸、BP神經(jīng)網(wǎng)絡(luò)算法、卷積神經(jīng)網(wǎng)絡(luò)算法、循環(huán)神經(jīng)網(wǎng)絡(luò)算法。
(二)展望
結(jié)合以上分析可以發(fā)現(xiàn),目前國內(nèi)關(guān)于數(shù)學(xué)試題難度的研究已經(jīng)取得了一定成果,但在某些方面還有待進(jìn)一步提高。
1.對義務(wù)教育階段和大學(xué)階段的數(shù)學(xué)試題難度研究有待加強。從相關(guān)文獻(xiàn)來看,目前關(guān)于高考數(shù)學(xué)試題難度的研究較為豐富,這顯然與高考的指揮棒作用密切相關(guān),隨著減負(fù)政策的落實及義務(wù)教育階段新課標(biāo)的頒布,相應(yīng)學(xué)段數(shù)學(xué)試題的難度是否會發(fā)生一些變化?這還有待研究。
2.通過合著,提高研究質(zhì)量。這里所說的合著包括兩層含義,一是同單位間可以多人合作展開研究,二是不同單位間進(jìn)行合作(高校、中小學(xué)、相關(guān)教研機構(gòu)等)。通過整理文獻(xiàn)發(fā)現(xiàn),有24.19%的文獻(xiàn)屬于數(shù)學(xué)試題整體評析,即研究者只需要有一定的實踐經(jīng)驗,就可以展開對試題內(nèi)容、結(jié)構(gòu)、特點等方面的評析。此類論文大部分只是憑經(jīng)驗給出關(guān)于試題難度的簡單結(jié)論,缺乏客觀數(shù)據(jù)的支撐,內(nèi)容淺顯,質(zhì)量相對較低,參考價值較小。數(shù)學(xué)試題難度的研究若要有所突破,就必須深挖試題難度的本質(zhì),不僅要有定性的分析,更要定量與定性相結(jié)合。通過不同單位之間的協(xié)作,可以將理論、實踐、大數(shù)據(jù)信息相互結(jié)合,這樣才能透過現(xiàn)象看到本質(zhì),在相關(guān)領(lǐng)域獲得突破。
3.研究內(nèi)容還應(yīng)更加豐富、多元。目前的相關(guān)研究多是從單獨的試題難度出發(fā),但是對于試題的評價遠(yuǎn)不止難度這一個指標(biāo),如區(qū)分度、信度、效度等指標(biāo),它們之間有著怎樣的聯(lián)系?能否通過難度有效預(yù)估區(qū)分度、信度、效度?目前對這些問題研究較少。另外,試題的評價還要符合時代的發(fā)展與要求,目前已經(jīng)有研究者關(guān)注到將難度與數(shù)學(xué)核心素養(yǎng)結(jié)合,能夠與教育政策緊密聯(lián)系,這是一個很好的思路。當(dāng)然也不止數(shù)學(xué)核心素養(yǎng),隨著高考評價體系的頒布,后期的相關(guān)研究還可以將高考評價體系作為試題難度研究的切入點。
4.預(yù)估算法應(yīng)更加多樣化、綜合化。目前研究中用到的算法模型多是單個應(yīng)用,但是每個算法其實都有其利弊,一種算法可能難以實現(xiàn)較好的預(yù)估效果,能否將不同算法的優(yōu)勢進(jìn)行結(jié)合,使評價模型更為科學(xué)、合理?這還有待研究者繼續(xù)探討。
參考文獻(xiàn):
[1]國務(wù)院辦公廳.關(guān)于新時代推進(jìn)普通高中育人方式改革的指導(dǎo)意見[EB/OL].(2019–09–02)[2019–10–11].https://zhuanlan. zhihu.com/p/80842215.
[2]王曉華.基于AHP的數(shù)學(xué)試題難度模糊綜合評判[J].教育科學(xué),2013,29(05):38-43.
[3]鄭程月.我國考試招生政策演進(jìn)研究(1977—2017)[D].天津:天津師范大學(xué),2018.
[4]王火生.高考制度改革的道與術(shù)——新中國高校招生考試制度改革歷程的回顧與思考[J].教育學(xué)術(shù)月刊,2018,(02):22-33.DOI:10.16477/j.cnki.issn1674-2311.2018.02.003.
[5]鮑建生.中英兩國初中數(shù)學(xué)期望課程綜合難度的比較[J].全球教育展望,2002,31(09):48-52.
[6]王建磐,鮑建生.高中數(shù)學(xué)教材中例題的綜合難度的國際比較[J].全球教育展望,2014,43(08):101-110.
[7]武小鵬,張怡.中國和韓國高考數(shù)學(xué)試題綜合難度比較研究[J].數(shù)學(xué)教育學(xué)報,2018,27(03):19-24+29.
[8]劉清,胡典順,張莘鈿.核心素養(yǎng)視角下的高考試題難度探析——以2019年高考數(shù)學(xué)全國卷(理科)為例[J].數(shù)學(xué)通報,2020,59(12):34-40.
[9]王秋海.如何測量數(shù)學(xué)試題的難度[J].數(shù)學(xué)通報,1993,(07):
26-27.
[10]林雪明.試題難度系數(shù)確定數(shù)學(xué)模型的建立與實現(xiàn)[J].杭州應(yīng)用工程技術(shù)學(xué)院學(xué)報,2001,(01):47-51.
[11]李二霞,邵志芳.試題難度多項指標(biāo)的認(rèn)知任務(wù)分析[J].心理科學(xué),2009,32(06):1342-1344+1317.DOI:10.16719/j.cnki.1671-6981.2009.06.058.
[12]曾建國.基于SOLO分類理論的高考數(shù)學(xué)試題評價研究——知識點考查的視角[J].贛南師范大學(xué)學(xué)報,2016,37(06):130-134. DOI:10.13698/j.cnki.cn36-1346/c.2016.06.031.
[13]張碧霞,李琪,蘇淑華,等.素養(yǎng)導(dǎo)向的數(shù)學(xué)試卷綜合難度比較研究——以2018年高考全國卷Ⅰ、Ⅱ卷為例[J].科教導(dǎo)刊(上旬刊),2019,(19):60-61.DOI:10.16400/j.cnki.kjdks.2019.07.027.
[14]張玉環(huán),周俠.綜合難度視角下中法高考數(shù)學(xué)試題的比較研究——基于2015—2019年中國和法國高考數(shù)學(xué)試卷[J].數(shù)學(xué)教育學(xué)報,2020,29(03):43-50.
[15]韓金璇,楊澤恒,王彭德.中美高考數(shù)學(xué)試卷比較研究[J].數(shù)學(xué)教育學(xué)報,2022,31(02):13-20+76.
[16]昌國良.新課程改革背景下高考數(shù)學(xué)題的教學(xué)導(dǎo)向[J].湖南師范大學(xué)教育科學(xué)學(xué)報,2007,(06):29-30.
[17]李瑛.試測在高考命題試題難度調(diào)控中的實踐研究[J].中國考試,2013,(03):23 - 30. DOI:10.19360 / j. cnki. 11 -3303 / g4.2013.03.004.
[18]張?zhí)斓拢瑥堈偕?,岳峰?牢記立德樹人教育使命助力數(shù)學(xué)教育和人才培養(yǎng)——2021年高考數(shù)學(xué)試卷分析與2022年高考新動向展望[J].中學(xué)數(shù)學(xué)雜志,2022,No.389(03):26-32.
[19]周華輔.關(guān)于會考數(shù)學(xué)試題難度預(yù)估的實踐與探討[J].數(shù)學(xué)通報,1999,(02):34-36+33.
[20]王煜,黃驍.全國高考數(shù)學(xué)試題事前綜合難度分析研究[J].青海師范大學(xué)學(xué)報(自然科學(xué)版),2018,34(01):1-5.DOI:10.16229/j. cnki.issn1001-7542.2018.01.001.
[21]呂世虎,于麗芳,王尚志.數(shù)學(xué)試卷綜合難度的內(nèi)涵及其指標(biāo)體系建構(gòu)[J].數(shù)學(xué)教育學(xué)報,2020,29(04):1-6.
[22]宋慧媛,徐行健,孟繁軍.基于題目關(guān)聯(lián)知識的試題難度預(yù)測研究[J].內(nèi)蒙古師范大學(xué)學(xué)報(自然科學(xué)漢文版),2022,51(03):305-311.
[23]黎郭凱.2017年美國SAT試題數(shù)學(xué)部分與全國高考理科乙卷試題的比較分析[J].中學(xué)數(shù)學(xué)雜志,2018,(05):28-30.
[24]李志敏.全國新課標(biāo)卷與廣東卷數(shù)學(xué)試題對比研究報告[J].中學(xué)數(shù)學(xué)研究(華南師范大學(xué)版),2016,(03):25-30.
[25]張怡,武小鵬,彭乃霞.綜合難度系數(shù)模型在2016年高考數(shù)學(xué)試題評價中的應(yīng)用[J].教育測量與評價,2016,(12):47-53.DOI:10.16518/j.cnki.emae.2016.12.009.
[26]薛歡,杜劍南,路江江.2016—2020年高考數(shù)學(xué)(理科)全國卷“統(tǒng)計與概率”試題探析——基于綜合難度模型[J].教育測量與評價,2020,(12):30-40.DOI:10.16518/j.cnki.emae.2020.12.005.
[27]李保臻,石燁.中國大陸與臺灣地區(qū)高考數(shù)學(xué)試題難度比較研究——以2016—2018年大陸全國卷Ⅰ與臺灣指考試題為例[J].數(shù)學(xué)教育學(xué)報,2020,29(01):58-64.
[28]宋霜霜,陳建強.基于綜合難度模型的中考數(shù)學(xué)試題背景分析——以2015—2020年大慶市中考數(shù)學(xué)試題為例[J].中學(xué)教學(xué)參考,2022,No.474(06):34-36.
[29]李捷,吳玉田.智能組卷中的試題難度評價建模[J].肇慶學(xué)院學(xué)報,2012,33(05):10-13.
[30]魯慶云.我國高考數(shù)學(xué)試題難度影響因素的實證研究[D].重慶:西南大學(xué),2009.
[31]羅瑪,王祖浩.教育考試中試題難度的測評研究——影響因素、評估方法及啟示[J].教育測量與評價,2016,(09):52-57+64.DOI:10.16518/j.cnki.emae.2016.09.010.
[32]周華輔.關(guān)于會考數(shù)學(xué)試題難度預(yù)估的實踐與探討[J].數(shù)學(xué)通報,1999,(02):34-36+33.
[33]毛競飛.高考命題中試題難度預(yù)測方法探索[J].教育科學(xué),2008,24(06):22-26.
[34]佟威,汪飛,劉淇,等.數(shù)據(jù)驅(qū)動的數(shù)學(xué)試題難度預(yù)測[J].計算機研究與發(fā)展,2019,56(05):1007-1019.
Literature Review on the Difficulty of Mathematics Questions in China
Yang Congcong Yan Fang
School of Mathematics,Yunnan Normal University,Kunming,Yunnan,650500
Abstract:With the help of VOSviewer software,this paper sorts out and summarizes the domestic literature on the difficulty of mathematics questions. 130 pieces of journal literature are collected and screened from the CNKI database,and analyzed from six dimensions:journal source,age distribution,author status,keyword distribution,research content and evaluation method. It is found that the research is on the rise in general,but the journals are scattered,the number of published papers is small,and there are few core journal literature. In recent years,the method of comparative research has been used to study hot issues such as comprehensive difficulty coefficient model and mathematical core literacy. In view of this,some suggestions are put forward for the future research direction,such as strengthening the research on the difficulty of mathematics questions in compulsory education and higher education,improving the quality of the research through co-authorship,and making the research content and prediction method more diversified.
Key words:Difficulty of Mathematics Questions,Comprehensive Difficulty,Content Analysis Method
(責(zé)任編輯:吳茳)