王 詩,吳 瑤,王春瑩,朱笑瑩
(遼寧工程技術(shù)大學(xué) 電子與信息工程學(xué)院,遼寧 葫蘆島 125100)
在高等院校的教學(xué)中,習(xí)題布置是幫助學(xué)生鞏固課堂教授的知識點(diǎn)、考察學(xué)生對知識點(diǎn)的掌握程度的重要手段,是一種被廣泛使用的教學(xué)評價方法。針對學(xué)生不同的學(xué)習(xí)階段和不同的教學(xué)目的,教師需要在不同情況下布置難度不同的習(xí)題以滿足教學(xué)期望。因此,對題目難度進(jìn)行量化分級對于教育的改革發(fā)展有著重要幫助。合理把握題目難度可以幫助教師有針對性地命題,使題目難度達(dá)到預(yù)設(shè)效果,使教師能夠更好地規(guī)范其對概念、方法及其關(guān)系的教學(xué),幫助教師更加科學(xué)地在教學(xué)的不同階段進(jìn)行相應(yīng)難度題目的布置,從而提高教學(xué)質(zhì)量。同時,難度量化分級可以使學(xué)生對題目的難易程度有更為直觀的判斷,根據(jù)所做題目的難度,更客觀地了解自身學(xué)習(xí)水平。《電磁場與電磁波》是一門內(nèi)容概念抽象、公式繁多、課程體系嚴(yán)謹(jǐn)且對電子與通信技術(shù)學(xué)科極為重要的科目[1]。所以對《電磁場與電磁波》這門科目進(jìn)行難度量化分級有著重要意義。
經(jīng)典測量理論(Classic Test Theory,CTT)采用通過率法表示題目難度;項目反應(yīng)理論(Item Response Theory,IRT)用項目特征曲線的拐點(diǎn)位置反映該題的難度。CTT或IRT 框架下的難度參數(shù),都需要通過實(shí)際測試考生獲得,這種預(yù)測方式的實(shí)施具有一定的局限性[2]。這種局限性主要體現(xiàn)在獲取大規(guī)模樣本存在極大的操作難度。因此早期的難度預(yù)估主要依賴專家主觀經(jīng)驗(yàn)直接判斷題目難度,這種方法是比較傳統(tǒng)并廣泛使用的一種難度預(yù)估方法。近年來,隨著信息技術(shù)的普及和深入,數(shù)據(jù)分析在教育領(lǐng)域的應(yīng)用也越來越普遍,測試樣本收集導(dǎo)致的局限性不再明顯,通過被測樣本數(shù)據(jù)進(jìn)行難度量化分級在現(xiàn)實(shí)情景中應(yīng)用的可操作性逐步提升。
然而,實(shí)踐中對于題目難度的預(yù)估往往不能盡如人意,其根本原因在于各因素對難度的影響是十分復(fù)雜的。2006 年,LEONG See Cheng 總結(jié)了四個影響試卷難度的因素:內(nèi)容方面,主要指知識量;材料方面,指詞匯和信息呈現(xiàn)方式等難度;被試者因素,主要指被試者的心理和生理等素質(zhì);命題者的決策,指命題者對考試所期望的難易程度[3]。王希年提出難度設(shè)計與預(yù)測應(yīng)結(jié)合題目本質(zhì)難度與考生狀況進(jìn)行,題目的得分率與其難度因素和考生學(xué)業(yè)水平二元相關(guān)[4]。通過文獻(xiàn)分析得知,考慮抄襲因素和學(xué)生能力對難度分級影響的研究相對較少,但抄襲因素和學(xué)生能力是難度分級研究中不可忽視的影響因素,故本研究為難度量化分級提供了更為完善的理論依據(jù),做出了如下貢獻(xiàn):
(1)在教學(xué)實(shí)踐中,布置習(xí)題作業(yè)后收到的結(jié)果,受多方面因素影響,使得習(xí)題的情況往往無法客觀準(zhǔn)確地反映教學(xué)效果的好壞。這些因素包括:①習(xí)題相對固定,難以避免抄襲;②頻繁更新習(xí)題,質(zhì)量難保證;③使用多樣化的題組,難度難以統(tǒng)一把握。針對上述問題,筆者設(shè)計開發(fā)了自定義習(xí)題系統(tǒng),可以定制題干相同但題目內(nèi)具體數(shù)值不相同的多套習(xí)題。
(2)通過正確率客觀量化題目難度,排除人為量化題目難度時專家經(jīng)驗(yàn)、情感等個人主觀因素的影響,客觀量化題目難度。同時剔除了抄襲因素對實(shí)驗(yàn)數(shù)據(jù)的影響,通過對實(shí)驗(yàn)數(shù)據(jù)進(jìn)行卡方檢驗(yàn),得到抄襲因素對正確率影響的理性判斷。
(3)探究學(xué)生能力因素對習(xí)題對錯的影響,作者根據(jù)《電磁場與電磁波》科目特征,對相關(guān)科目進(jìn)行相關(guān)性檢驗(yàn),得到針對《電磁場與電磁波》可以代表學(xué)生能力因素的科目。
(4)綜合考慮抄襲因素對實(shí)驗(yàn)數(shù)據(jù)正確率的影響和學(xué)生能力因素對題目對錯的影響,通過對各影響因素和題目對錯進(jìn)行回歸性分析,成功建立《電磁場與電磁波》題目難度預(yù)測模型。
通過剔除抄襲因素,使被測樣本數(shù)據(jù)的代表性得到保障。同時,考慮學(xué)生能力對難度分級的影響,使難度預(yù)測模型更為完善。本文希望通過以對《電磁場與電磁波》科目難度預(yù)測模型的建立為例,給出剔除抄襲因素并考慮學(xué)生能力對難度分級影響的更為完善的建模方法。
《教育測量與評價》一書中將題目的難度定義為被測試者完成題目(項目)時所遇到的困難程度[5]。難度具有雙重特性:一是客觀性,難度由其本身的復(fù)雜程度所決定;二是相對性,難度除了與測試內(nèi)容本身的難易程度有關(guān)外,還與被測者的知識經(jīng)驗(yàn)和測驗(yàn)的編制技術(shù)有關(guān)。
反映題目難度的指標(biāo)稱為題目的難度系數(shù),也簡稱為題目難度。問題解決者在解決問題的過程中所花費(fèi)的時間越長、正確率越低,說明問題越難,反之,則說明問題相對容易[6]。在經(jīng)典測量理論中,通常以通過率作為難度指標(biāo),表示為:
P 表示難度系數(shù),N 為全體被測人數(shù),R 為答對或通過該項目的人數(shù)。難度系數(shù)可以理解為“正確率”。故本文中對難度的定義如下:正確率數(shù)值越大,可以認(rèn)為題目總體越容易,反之,正確率數(shù)值越小,則表示題目難度越大。
自定義習(xí)題系統(tǒng)是利用python 語言生成所需的LaTeX 源碼,進(jìn)而利用LaTeX 組卷排版生成可定制組數(shù)且各組題型相同、題目中數(shù)值不同的n 組試卷,其中n為定制組數(shù)。該系統(tǒng)可以實(shí)現(xiàn)多種功能:①同時定制題干相同但題目內(nèi)具體數(shù)值不相同的多套習(xí)題;②自動生成規(guī)范示意圖;③自動計算參考答案;④自動排版。通過該套系統(tǒng),在避免學(xué)生作業(yè)抄襲的同時,也大幅提高了教師的命題效率,并形成標(biāo)準(zhǔn)化的批閱流程和客觀評價指標(biāo)。
筆者使用正確率描述題目難度,相關(guān)科目成績描述學(xué)生能力,假設(shè)通過難度和學(xué)生能力可以判斷學(xué)生能否做對相關(guān)習(xí)題。
在研究開始,筆者通過開發(fā)的自定義習(xí)題系統(tǒng)定制題干相同但題目內(nèi)具體數(shù)值不相同的多套習(xí)題,將該套習(xí)題和傳統(tǒng)習(xí)題分發(fā)給知識水平相近的兩組學(xué)生完成,得到作業(yè)評估數(shù)據(jù)的對錯結(jié)果。
圖1 自定義習(xí)題系統(tǒng)生成的三道習(xí)題
如圖1 所示,通過自定義習(xí)題系統(tǒng)生成三道習(xí)題A1、A2、A3,三道習(xí)題題型、題干相同,但題目內(nèi)具體數(shù)值不相同。
本次課程中,一共進(jìn)行了兩次關(guān)于剔除抄襲因素影響的實(shí)驗(yàn)。試驗(yàn)中學(xué)生分組按照教授該課程教師的不同進(jìn)行分組,每組學(xué)生該課程的授課教師相同。
(1)第一次實(shí)驗(yàn),一組學(xué)生使用傳統(tǒng)的習(xí)題布置方式;另一組學(xué)生使用定制化習(xí)題系統(tǒng)批量生成習(xí)題方式。
(2)第二次實(shí)驗(yàn),一組學(xué)生(第一次試驗(yàn)使用定制化習(xí)題系統(tǒng)批量生成習(xí)題方式)使用傳統(tǒng)的習(xí)題布置方式;另一組(第一次試驗(yàn)使用傳統(tǒng)的習(xí)題布置方式)學(xué)生使用定制化習(xí)題系統(tǒng)批量生成習(xí)題方式。
下文將做“題干相同但題目內(nèi)數(shù)值不同”題目的學(xué)生組稱為甲組、做傳統(tǒng)題目的學(xué)生組稱為乙組。
本文將以量化分析和統(tǒng)計檢驗(yàn)的研究方法,分析甲組數(shù)據(jù)和乙組數(shù)據(jù)的統(tǒng)計特征,檢驗(yàn)抄襲因素是否真正對習(xí)題正確率產(chǎn)生顯著影響,如果有影響,在接下來的難度估計模型建模中,只使用剔除抄襲因素影響的數(shù)據(jù)。徐敏在論文中調(diào)查了學(xué)生獨(dú)立完成作業(yè)的情況,并結(jié)合習(xí)題正確率,指出當(dāng)存在抄襲情況時,習(xí)題正確率會提高[7]。本文以量化分析和統(tǒng)計檢驗(yàn)的研究方法,分析甲組數(shù)據(jù)和乙組數(shù)據(jù)的統(tǒng)計特征,檢驗(yàn)抄襲因素是否真正對習(xí)題正確率產(chǎn)生顯著影響。在檢驗(yàn)開始,筆者首先提出以下假設(shè):①如果存在抄襲,會使得正確率與不存在抄襲不同;②甲組習(xí)題每題的數(shù)值不同,筆者因此假設(shè)甲組不存在抄襲;③如果甲組和乙組經(jīng)檢驗(yàn)來自于不同總體,且乙組正確率較甲組高,認(rèn)為乙組存在抄襲行為。
確立了統(tǒng)計檢驗(yàn)的前提條件后,筆者對兩組樣本進(jìn)行卡方檢驗(yàn),判斷兩組樣本是否來自同一總體,操作過程如下:①確立卡方檢驗(yàn)的檢驗(yàn)水準(zhǔn)和檢驗(yàn)假設(shè);②對檢驗(yàn)統(tǒng)計量和概率值進(jìn)行求解,并將概率值和檢驗(yàn)水準(zhǔn)進(jìn)行比較,從而對兩組樣本是否來自同一總體做出判斷。具體實(shí)現(xiàn)的理論和方法如下:
(1)建立檢驗(yàn)假設(shè),確立檢驗(yàn)水準(zhǔn)
本文中,運(yùn)用卡方檢驗(yàn)的檢驗(yàn)方法,分析兩組樣本數(shù)據(jù)的關(guān)聯(lián)性,判斷兩組樣本數(shù)據(jù)是否來自同一整體。檢驗(yàn)開始,首先要確立檢驗(yàn)假設(shè)和檢驗(yàn)水準(zhǔn)。
以四格表資料為例,見表1,該表統(tǒng)計了某道題的對錯情況,判斷甲組和乙組的正確率是否有差異。其中a、b、c、d 是兩個樣本率比較的基本數(shù)據(jù),R1、R2、C1、C2是R 行、C 列邊緣合計數(shù)據(jù)。
提出假設(shè)H0和H1,并確定檢驗(yàn)水準(zhǔn)為α。令兩組總體的正確率分別為π1和π2,假設(shè)兩組的總體正確率相同,檢驗(yàn)兩組樣本率是否由于抽樣誤差引起的檢驗(yàn)水準(zhǔn)為0.05。其統(tǒng)計學(xué)符號表示為:
H0:π1=π2(甲組和乙組總體正確率相等)
H1:π1≠π2(甲組和乙組總體正確率不等)
α=0.05
表1 卡方檢驗(yàn)數(shù)據(jù)四格表
如果假設(shè)H0成立,則兩組總體正確率相等;如果假設(shè)H1成立,則兩組總體正確率不等。
(2)計算檢驗(yàn)統(tǒng)計量和概率
假設(shè)和檢驗(yàn)水準(zhǔn)確立后,需要對具體的檢驗(yàn)統(tǒng)計量和概率P 值進(jìn)行求解。通過四格表數(shù)據(jù)計算得出γ2的大小,結(jié)合自由度ν,從而確定概率P。最后將概率P 值和檢驗(yàn)水準(zhǔn)α 進(jìn)行比較,從而對總體做出判斷。
對于四格表資料,計算統(tǒng)計量χ2的四格表專用公式為:
四格表的自由度為:ν=(R-1)(C-1)=(2-1)(2-1)=1,式中R 為行數(shù),C 為列數(shù)。
根據(jù)χ2,在ν=1 的卡方分布曲線下找到比χ2更極端的尾部面積,即為P 值。在四格表的χ2檢驗(yàn)中,其自由度為1,常用的χ2界值是
將概率P 值與α 進(jìn)行比較,P≤α 則拒絕H0,得出兩樣本來自不同總體的結(jié)論;P>α,則不拒絕H0,認(rèn)為兩樣本來自同一整體。
選取典型的《電磁場與電磁波》習(xí)題作為相關(guān)性分析的對象,將電子與通信技術(shù)學(xué)科學(xué)生部分科目的成績與 《電磁場與電磁波》 習(xí)題的答題情況進(jìn)行量化分析,得到與習(xí)題之間的聯(lián)系有統(tǒng)計學(xué)意義的科目。最后對這些數(shù)據(jù)進(jìn)行l(wèi)ogistics 回歸分析,得到相應(yīng)的回歸系數(shù),從而建立《電磁場與電磁波》習(xí)題難度估計模型。本文通過二項分類logistic 回歸算法,用logistic 函數(shù)預(yù)測一個樣本屬于正樣本的概率值,從而建立難度預(yù)測模型。模型建立的過程如下:①作者首先通過單變量分析從眾多變量中篩掉一些可能無意義的變量,再將剩余變量構(gòu)建logistic 回歸模型。②模型建立后,作者通過似然比檢驗(yàn)的算法,對回歸模型進(jìn)行全局性檢驗(yàn),從而判斷整個模型的擬合情況。③最后根據(jù)logistic 回歸參數(shù)估計方法,用最大似然估計方法去求模型具體的參數(shù)數(shù)值,從而建立難度估計模型。具體實(shí)現(xiàn)的理論與方法如下:
(1)單變量分析
考慮到《電磁場與電磁波》科目的內(nèi)容和特點(diǎn),筆者選取了一些科目的成績作為能夠代表學(xué)生能力量化指標(biāo)的樣本數(shù)據(jù)。在進(jìn)行l(wèi)ogistic 回歸前,由于變量較多,筆者先通過單變量分析(卡方檢驗(yàn))考慮所有自變量和應(yīng)變量之間的關(guān)系,篩掉一些可能無意義的變量。為了避免遺漏某些重要科目,在分析時,作者將P 值放寬,定為0.1。卡方檢驗(yàn)中,采用有與無一個自變量的-2LL 改變量作為卡方統(tǒng)計量,具體操作步驟與上文抄襲因素的統(tǒng)計檢驗(yàn)相同。
(2)回歸模型的全局性檢驗(yàn)
回歸模型建立后,需要對整個模型的擬合情況做出判斷。以單變量分析篩選后的各科成績及《電磁場與電磁波》習(xí)題難度作為自變量,《電磁場與電磁波》習(xí)題對錯作為應(yīng)變量。在logistic 回歸模型擬合中,可采用似然比檢驗(yàn)進(jìn)行全局性假設(shè)檢驗(yàn)。
設(shè)由m 個觀察值X1,X2,…,Xm組成的隨機(jī)樣本來自密度函數(shù)為F(X,βj)的總體,其中βj為未知參數(shù)。要檢驗(yàn)的假設(shè)為:
H1:各βj(j=1,2,…m)不全為0;
檢驗(yàn)水準(zhǔn)為α。
求解似然比統(tǒng)計檢驗(yàn)量的具體步驟如下:①先擬合不包含待檢驗(yàn)因素的Logistic 模型,求對數(shù)似然函數(shù)值lnL0;②再擬合包含待檢驗(yàn)因素的Logistic 模型,求新的對數(shù)似然函數(shù)值lnL1;③最后比較兩個對數(shù)似然函數(shù)值的差異,若兩個模型分別包含1 個自變量和P 個自變量,則似然比統(tǒng)計檢驗(yàn)量G 可表示為:
該統(tǒng)計量服從卡方分布,其自由度為自變量個數(shù)的改變量。
似然比統(tǒng)計量取值在0~1 之間,取值大小表示模型的擬合效果,其值越小,越接近于0,說明模型擬合效果越好。
(3)求解回歸系數(shù),建立難度預(yù)測模型
本研究中,應(yīng)變量Y 為《電磁場與電磁波》習(xí)題對錯,其分布符合二項分布,對記為1,錯記為0。自變量分別為《電磁場與電磁波》習(xí)題難度和學(xué)生能力。
根據(jù)logistic 回歸參數(shù)估計方法,用最大似然估計方法去求模型的參數(shù),估計出在其它自變量固定不變的情況下,每個自變量對題目結(jié)果取1 或0 的概率的數(shù)值影響大小。得出自變量所對應(yīng)的回歸系數(shù),最終建立出相應(yīng)的難度預(yù)測模型為:
(1)正確率差異分析
經(jīng)過實(shí)驗(yàn)取得的部分習(xí)題正確率如表2 所示,從中可以發(fā)現(xiàn)以下現(xiàn)象:①正確率高(高于80%)的習(xí)題中,兩組樣本數(shù)據(jù)正確率差異并不明顯。②正確率適中或偏低(低于80%)的習(xí)題中,兩組樣本數(shù)據(jù)正確率存在明顯差異。
根據(jù)上述現(xiàn)象,我們做出以下判斷:①對于正確率高(高于80%)的習(xí)題,學(xué)生發(fā)生習(xí)題抄襲行為的概率小。②對于正確率適中或偏低(低于80%)的習(xí)題,學(xué)生發(fā)生習(xí)題抄襲行為的概率更大。
(2)卡方檢驗(yàn)數(shù)據(jù)分析
以《電磁場與電磁波》某一習(xí)題數(shù)據(jù)為例,對統(tǒng)計數(shù)據(jù)進(jìn)行卡方檢驗(yàn),判斷兩組樣本是否來自同一整體。得到表3 和表4:①由表3 可知報告記錄缺失值情況,本例中180 個數(shù)據(jù)皆為有效值,無缺失值。②由表4 可知,χ2=35.434,P=0.000;似然卡方比值為35.731,P<0.05,在0.05 檢驗(yàn)水準(zhǔn)下拒絕H0,說明兩組數(shù)據(jù)樣本來自不同的總體,甲組和乙組的正確率差異具有統(tǒng)計學(xué)意義。
對于正確率適中或偏低(低于80%)的習(xí)題,使用相同數(shù)據(jù)的題目,正確率會高于使用不同數(shù)據(jù)的題目。正確率高的數(shù)據(jù)樣本來自乙組,正確率低的數(shù)據(jù)樣本來自甲組。
由上述分析可得,在0.05 的檢驗(yàn)水準(zhǔn)下,甲組和乙組經(jīng)檢驗(yàn)來自于不同總體,且乙組正確率較甲組高,故認(rèn)為乙組存在抄襲行為。
表2 部分習(xí)題正確率
表3 案例處理結(jié)果
表4 卡方檢驗(yàn)結(jié)果
在將每個變量放入難度估計模型前,采用單變量檢驗(yàn)的方法,檢驗(yàn)上述各科目與《電磁場與電磁波》習(xí)題對錯之間有無聯(lián)系。將典型習(xí)題對錯結(jié)果作為應(yīng)變量,各科目成績作為自變量,通過多次的關(guān)聯(lián)性分析,得出《高等數(shù)學(xué)下》與《大學(xué)物理下》兩門課程與《電磁場與電磁波》關(guān)聯(lián)性強(qiáng)的結(jié)論。
經(jīng)過整理得出,在檢驗(yàn)水準(zhǔn)α=0.10 下,《電磁場與電磁波》部分典型題目與《高等數(shù)學(xué)下》和《大學(xué)物理下》兩門課程的關(guān)聯(lián)性情況如表5 所示。
表5 典型習(xí)題對錯關(guān)聯(lián)性分析結(jié)果
由該結(jié)果可初步認(rèn)為,在0.10 的檢驗(yàn)水準(zhǔn)下,變量《高等數(shù)學(xué)下》成績、《大學(xué)物理下》成績與應(yīng)變量之間的聯(lián)系具有統(tǒng)計學(xué)意義。
(1)在表6 中,Model 一行可以看到logistic 回歸模型中所有參數(shù)是否均為0 的似然比檢驗(yàn)結(jié)果。P<0.1 表示本次擬合的模型中,至少有一個變量的OR 值有統(tǒng)計學(xué)意義,即模型總體有意義。故《高等數(shù)學(xué)下》成績、《大學(xué)物理下》成績、題目難度對學(xué)生能否做對《電磁場與電磁波》習(xí)題有顯著影響。
(2)在模型擬合優(yōu)度檢驗(yàn)中,P=0.444,P 值不小于檢驗(yàn)水準(zhǔn),即P>0.1,故我們認(rèn)為當(dāng)前數(shù)據(jù)中的信息已經(jīng)被充分提取,模型擬合優(yōu)度較高。
(3)由表7 可知,由3 個自變量獲得了logistic 回歸概率預(yù)測模型,且這3 個變量都有統(tǒng)計學(xué)意義。令《高等數(shù)學(xué)下》成績?yōu)锳、《大學(xué)物理下》成績?yōu)锽、習(xí)題難度為C。A、B、C 所對應(yīng)的回歸系數(shù)分別為:0.020、0.014、4.584。結(jié)合上文公式和數(shù)據(jù)可建立預(yù)測模型為:
表6 模型系數(shù)的綜合檢驗(yàn)
表7 參數(shù)估計值
本文運(yùn)用量化分析和統(tǒng)計檢驗(yàn)的研究方法以及對比測試的研究方法,對《電磁場與電磁波》習(xí)題難度估計模型的建立進(jìn)行了較為深入的研究,現(xiàn)將本文研究結(jié)論總結(jié)如下:
通過正確率客觀量化題目難度,排除人為量化題目難度時專家經(jīng)驗(yàn)、情感等個人主觀因素的影響,客觀量化題目難度。通過開發(fā)的自定義習(xí)題生成系統(tǒng)布置《電磁場與電磁波》課程習(xí)題,可以排除抄襲因素對難度的影響,使得對題目難度的研究更為客觀。
對于《電磁場與電磁波》這門理論性、系統(tǒng)性強(qiáng)的課程,可以通過《高等數(shù)學(xué)下》和《大學(xué)物理下》的成績代表學(xué)生的能力。《電磁場與電磁波》 課程涉及大量數(shù)學(xué)計算,并與《大學(xué)物理》中“電磁學(xué)”知識緊密聯(lián)系,因此,理論分析和具體事例都說明本文提出的學(xué)生能力代表方式具有可取之處。
最后,通過排除抄襲因素實(shí)驗(yàn)數(shù)據(jù)的正確率、被試者《高等數(shù)學(xué)下》和《大學(xué)物理下》成績得出《電磁場與電磁波》課程難度估計模型。該模型可以運(yùn)用在高等院校電子與通信技術(shù)學(xué)科、物理學(xué)學(xué)科、數(shù)學(xué)相關(guān)科目的習(xí)題布置中,幫助教師針對不同的教學(xué)目的布置難度適宜的習(xí)題。
受條件和時間所限,本研究存在以下可以提高之處:研究中涉及很多變量,雖然考慮到了對無關(guān)變量的控制,但在實(shí)際操作中無法完全控制無關(guān)變量的影響。同時,受數(shù)據(jù)數(shù)量獲取的限制,雖然數(shù)據(jù)基本符合研究對樣本的要求,但如果能夠增加樣本的數(shù)量,則可以使本文的研究質(zhì)量得到進(jìn)一步提高。