馬大付 秦春影 喻曉鋒 何 催
(1 江西師范大學(xué)心理學(xué)院,南昌 330022) (2 濟南市教育教學(xué)研究院,濟南 250002)
(3 南昌師范學(xué)院數(shù)學(xué)與信息科學(xué)學(xué)院,南昌 330032)
近年來,在“以評促學(xué)”理念下,教育測量從對學(xué)生能力測量轉(zhuǎn)向?qū)ξ⒂^知識狀態(tài)(knowledge state,KS)的測量。由此,認知診斷評估(cognitive diagnosis assessment,CDA; Leighton & Gierl,2007;Rupp et al.,2010)技術(shù)應(yīng)運而生。通常,考生KS 為潛在離散變量,因此如何構(gòu)建診斷測驗實現(xiàn)將考生KS 轉(zhuǎn)換為可觀測的外在表現(xiàn)至關(guān)重要,良好的診斷測驗不僅需要反映KS 結(jié)構(gòu),還需充分區(qū)分不同KS(丁樹良 等,2010; von Davier & Lee,2019)。
認知診斷自動測驗組卷(cognitive diagnosis automated test assembly,CD-ATA; Wang et al.,2016)是CDA 實施的關(guān)鍵步驟,是指從已校正題庫中(Becker et al.,2021; Henson & Douglas,2005)根據(jù)測驗統(tǒng)計(如測驗精度) 與非統(tǒng)計約束(如答案平衡)選擇項目的過程,組卷結(jié)果與診斷準確性和有效性直接掛鉤(Lin et al.,2019)。Lin 等人(2017)將CD-ATA 方法分為兩類:面向指標方法(indexoriented methods) 與面向模擬方法(simulationoriented methods)。面向指標方法基于項目區(qū)分度指標,在滿足非統(tǒng)計約束同時,尋求產(chǎn)生最大項目區(qū)分度線性和的J(J為測驗長度)個項目。常用項目區(qū)分度指標包括:CDI(cognitive discrimination index; Henson & Douglas,2005)、ADI(attribute diagnosis index; Henson et al.,2008)、MCDI 與MADI(modified CDI; modified ADI; Kuo et al.,2016)、EAMR(expected attribute match rate; 汪文義 等,2018)等;面向模擬方法通過模擬N個被試在M(M為題庫大小)個項目的作答,將組卷問題轉(zhuǎn)換為求取對N個被試產(chǎn)生最佳診斷精度的J個項目組合。該類方法常采用優(yōu)化算法求解,如遺傳算法(generic algorithm,GA; Finkelman et al.,2009),蟻群算法(ant colony optimization,ACO; Lin et al.,2017)等。
然而,上述研究僅停留在屬性二分且項目二級計分,未見有研究探索更加復(fù)雜的屬性多水平或項目多級計分診斷測驗組卷,這在一定程度上無法滿足實際測驗需求。實際測驗的計分題型不僅為二級計分,測驗?zāi)繕艘膊⒎强疾鞂傩哉莆张c否,測驗中可能既包括二分屬性又包括多分屬性為屬性k最高水平,Lk≥1},且同時包含二級與多級計分項目。例如:TIMSS 2007 四年級科學(xué)教育測驗從“了解、應(yīng)用和推理”三種水平測量屬性掌握程度(Mullis et al.,2005),使用168 個0/1 二級計分與19 個0/1/2 三級計分項目。
因此,探究更符合實際測驗的屬性多水平或項目多級計分組卷,為實際組卷提供參考存在一定價值。為解決此類復(fù)雜組卷,需開發(fā)相應(yīng)CDATA 方法。盡管現(xiàn)有部分CD-ATA 方法適用于任意組卷場景(如CDI、ADI、面向模擬方法),但這些方法均存在一定缺陷,如CDI 與ADI 組卷精度較低且易忽略屬性層級結(jié)構(gòu)(attribute hierarchy,以下稱“屬性結(jié)構(gòu)”) (唐小娟 等,2013; Kuo et al.,2016),面向模擬方法需要大量迭代過程,組卷效率低(Finkelman et al.,2010; Lin et al.,2017)。而MCDI 與MADI 同時考慮屬性結(jié)構(gòu)與屬性測量次數(shù),相較CDI 與ADI 的組卷結(jié)果更優(yōu)(Kuo et al.,2016)。因此,考慮對MCDI 與MADI 進行屬性多水平擴展,使其可適用于復(fù)雜的實際診斷測驗組卷將是一種更優(yōu)策略。
本研究的首要問題是如何使MCDI 與MADI方法適用于屬性多水平組卷。而后,為使研究結(jié)果更貼合實際,基于屬性多水平,考慮三種實際組卷測驗:二級計分測驗、多級計分測驗、二級與多級計分混合測驗,將不同指標組卷方法用于上述三種測驗。為解決上述問題,首先需選擇一個可同時滿足屬性多水平,多級計分的認知診斷模型(cognitive diagnosis model,CDM)?,F(xiàn)有此類CDM 包括GDM(von Davier,2008)、GPC-HO-RPa-DINA(Zhan et al.,2017)、GRPa-DINA(王立君 等,2022)等,其中,GRPa-DINA 模型有著參數(shù)少、易解釋、模型易應(yīng)用等優(yōu)勢,因此本研究擬選用該模型作為題庫的底層模型。
依據(jù)累積類別反應(yīng)函數(shù)建模思路,王立君等人(2022)對RPa-DINA(詹沛達 等,2016)模型和PDINA(涂冬波 等,2010)模型進行相應(yīng)拓展,得到同時處理屬性多水平、項目多級計分的GRPa-DINA模型,見公式1、公式2、公式3。
CDI 與ADI 均基于D 矩陣(Henson & Douglas,2005),D 矩陣用于描述任意兩個KS 的KL (Kullback-Leibler)距離(Chang & Ying,1996),項目j上任意的D 矩陣見公式4。
CDI 與ADI 在描述項目區(qū)分度時采用了不同思路,CDI 考慮KS 的加權(quán)平均KL 距離,體現(xiàn)項目的整體區(qū)分能力;ADI 則使用相似KS 的KL 距離,體現(xiàn)項目屬性區(qū)分能力。屬性多水平CDI 與ADI 的計算公式分別為公式5、公式6。
Kuo 等人(2016)為CDI 與ADI 增加屬性結(jié)構(gòu)與屬性測量次數(shù)兩項權(quán)重,改進后的MCDI、MADI見公式7、公式8。
當屬性m為屬性n的先決條件時,為1,否則為0。分母部分為屬性二水平線性型可達矩陣(reach matrix,以下稱“R 陣”)之和。屬性為線性型時,為1,獨立型=2K/[K(K+1)]。
為使MCDI 與MADI 適用于屬性多水平組卷,需考慮兩方面信息。首先,屬性由二水平轉(zhuǎn)向多水平時,對屬性的測量應(yīng)轉(zhuǎn)向?qū)傩愿魉降臏y量。其次,屬性多水平R 陣與屬性二水平不同,蔡艷和涂冬波(2015)指出屬性多水平R 陣可由兩階段獲得,第一階段通過擴張算法得到屬性二水平R 陣,再根據(jù)屬性結(jié)構(gòu)插補得到屬性多水平R陣。以線性型為例,K=5,每個屬性的水平數(shù)分別為2、2、3、3、4。屬性多水平插補過程如圖1 所示。
圖1 屬性多水平插補過程
需要說明的是,CDI 與ADI,GMCDI 與GMADI 均采用順序組卷。首選題庫中區(qū)分度最高的項目,后根據(jù)限制條件篩選滿足條件的項目,選擇剩余題庫中區(qū)分度最高的項目,以此類推,直至達到組卷長度。不同的是,CDI 與ADI 組卷時,項目區(qū)分度為定值,而GMCDI 與GMADI 組卷時項目區(qū)分度為變值,組卷時通過兩項權(quán)重不斷更新項目區(qū)分度。
模擬研究目的是為探討四種項目區(qū)分度組卷方法在屬性多水平組卷中的表現(xiàn),為使測驗更符合實際,操控多種可能影響組卷結(jié)果的因素進行兩項模擬研究。研究1 模擬二級與多級計分題庫,比較屬性多水平時,二級計分與多級計分哪種題型更適合進行診斷分析以及不同區(qū)分度指標在兩種題庫下的組卷表現(xiàn)。研究2 模擬更加實際的、同時包含二級與多級計分項目的混合比例測驗,探究測驗中不同計分題型存在一定比例時,組卷精度的變化。
4.1.1 研究設(shè)計
研究1 采用2×4×3×5 的四因素完全隨機設(shè)計,自變量為題庫類型、屬性結(jié)構(gòu)、組卷長度、組卷方法。四種因素的水平設(shè)置見表1。
表1 研究1 四因素水平
參考已有研究的屬性結(jié)構(gòu)設(shè)計(蔡艷,涂冬波,2015),固定屬性數(shù)量K為5,屬性水平數(shù)為2、2、3、3、4。
題庫生成:生成兩種計分題庫,0/1 二級計分題庫,0/1/2/3 多級計分題庫(王立君 等,2022);為保證每種q向量有被測量3 次的可能,固定題庫大小J為500(以獨立型結(jié)構(gòu)為例,除去全為0 的KS,將144-1=143 種KS 重復(fù)三次,剩余71 題從143 種KS 中隨機抽取)(Kuo et al.2016);二級與多級計分項目的計分類別參數(shù)采取王立君等人的生成方法,第一計分類別參數(shù)與從均勻分布U(0,0.25)中隨機抽取,多級計分的其他計分類別參數(shù)
被試生成:固定被試量N為1000,為方便模擬,被試KS 從相應(yīng)屬性結(jié)構(gòu)的所有KS 中隨機抽取。
作答生成:根據(jù)被試的掌握模式、項目q向量及項目參數(shù),通過GRPa-DINA 模型計算被試在項目上正確作答各計分水平的概率,得到累計概率和,與生成的U(0,1)隨機數(shù)比較,隨機數(shù)落在哪個累計概率和區(qū)間則得到相應(yīng)區(qū)間的分數(shù)。例如,0/1/2/3 多級計分項目,假設(shè)被試得到4 種分數(shù)的概率分別為0.1、0.1、0.1、0.7,4 種分數(shù)概率區(qū)間為0~0.1、0.1~0.2、0.2~0.3、0.3~1,生成隨機數(shù)0.8,落在第4 分數(shù)區(qū)間,被試在該項目上得3 分。
4.1.2 評價指標
組卷首要考慮的是精度問題,采用模式判準率(pattern accuracy rate,PAR)與屬性判準率(attribute accuracy rate,AAR) 作為精度指標。見公式13、公式14。
采用最大后驗概率(maximum a posterior,MAP;Huebner & Wang,2011)估計被試KS,每種條件重復(fù)100 次。
4.1.3 結(jié)果
圖2、圖3 展示了多級計分項目的PAR 與AAR,二級計分項目的精度變化與多級計分項目趨勢相同。
圖2 五種組卷方法多級計分組卷模式判準率
圖3 五種組卷方法多級計分組卷屬性判準率
從圖2 可發(fā)現(xiàn),隨組卷長度增加,各組卷方法精度都獲得提高,組卷長度越長,精度越高。四種屬性結(jié)構(gòu)中,GMCDI 與GMADI 始終是PAR 最高的兩種組卷方法,且隨組卷長度增加,GMCDI 與GMADI 的差距逐漸減小,出現(xiàn)天花板效應(yīng)。屬性為獨立型時,CDI 與ADI 同GMCDI 與GMADI 的差異較小,遠優(yōu)于RD 組卷;除獨立型結(jié)構(gòu),CDI、ADI 與RD 的PAR 接近,線性型結(jié)構(gòu)下,RD 組卷在部分條件上優(yōu)于CDI 與ADI,這與Kuo 等人(2016)針對屬性二水平的組卷結(jié)果相似,即屬性結(jié)構(gòu)較復(fù)雜時,基于CDI 與ADI 的PAR 較低,甚至低于RD 方法。
圖3 與圖2 具有相同趨勢,五種組卷方法的AAR 均隨組卷長度增加而提高;GMCDI 與GMADI的AAR 始終最高;除線性型時,RD 組卷高于CDI 與ADI,其他條件下RD 組卷均接近或低于CDI、ADI??傊?,圖2、圖3 展示了GMCDI 與GMADI 是兩種不受屬性結(jié)構(gòu)影響且更為有效的屬性多水平組卷方法。
研究1 的另一目標在于比較二級與多級計分項目的屬性多水平組卷精度?;诤唵坞S機抽樣,相較其他組卷方法,RD 組卷是比較二級與多級計分項目的更優(yōu)選擇。從表2 與表3 的RD 部分可看出,所有條件下,RD 在多級計分項目上的組卷精度(PAR 與AAR)均高于二級計分,表明多級計分項目更適用于屬性多水平組卷。另外,從表2和表3 還可發(fā)現(xiàn),多數(shù)情況下CDI 與ADI 在二級計分項目上的組卷精度更高,而GMCDI 與GMADI絕大多數(shù)時都在多級計分項目上取得更高診斷精度,這表明CDI 與ADI 方法并不適用于多級計分項目組卷。值得注意的是,除獨立型結(jié)構(gòu)外,GMCDI最大P↑值均出現(xiàn)在組卷長度為20 上,后隨組卷長度增加而降低。
表2 二級與多級計分項目組卷模式判準率比較
表3 二級與多級計分項目組卷屬性判準率比較
4.2.1 研究設(shè)計
研究2 采用4×5×9 三因素完全隨機設(shè)計,自變量為屬性結(jié)構(gòu)、組卷方法、組卷比例。屬性結(jié)構(gòu),組卷方法與研究1 一致,組卷比例設(shè)置為1∶9、2∶8、3∶7、…、9∶1 等9 個水平。
研究2 的題庫產(chǎn)生、被試KS、考生作答模擬與研究1 一致。固定組卷長度為30,采用兩階段組卷:首先從二級計分題庫中選擇項目,后從多級計分題庫中選取,例如組卷比例為1∶9 時,則先從二級計分題庫中選擇30×0.1=3 題,后從多級計分題庫中選取剩余27 題。
4.2.2 結(jié)果
從表4 和表5 中可看出,相同條件下,GMCDI與GMADI 的組卷精度最優(yōu),盡管組卷比例相似時這兩種方法存在一定程度的精度起伏,但總體上滿足隨組卷比例提高而組卷精度逐漸降低的規(guī)律。值得注意的是,在某些條件下,GMCDI 與GMADI 的混合計分組卷結(jié)果優(yōu)于二級或多級計分的結(jié)果,例如收斂型時,GMADI 的最高模式判準率為0.918,高于二級與多級計分的0.902、0.916。而RD、CDI、ADI 在混合計分組卷上未表現(xiàn)出規(guī)律性、混合計分組卷時二級與多級計分項目非簡單線性求和的方式,即多級計分項目越多,組卷精度越高;并且在某些條件下,使用這三種方法進行混合計分組卷會出現(xiàn)嚴重低于二級或多級計分組卷精度的情況,例如線性型,使用CDI 組卷,最低模式判準率為0.619,低于二級計分的0.674。這表明,RD、CDI、ADI 并不適用于混合計分組卷。綜上,GMCDI 與GMADI 在混合計分組卷時有著很好的選題延續(xù)性,可有效用于混合計分組卷,而RD、CDI 與ADI 則不適用。
表4 五種組卷方法30 題時的混合計分模式判準率
表5 五種組卷方法30 題時的混合計分屬性判準率
組卷是診斷測驗的一項必要工作,組卷指標將決定題目的選用而影響最終的組卷結(jié)果。為實現(xiàn)屬性多水平測驗組卷,本研究將兩種區(qū)分度指標CDI、ADI 及擴展項目區(qū)分度指標GMCDI、GMADI 應(yīng)用于此類測驗。研究結(jié)果表明:(1)多級計分項目較二級計分項目更有利于進行屬性多水平認知診斷;(2)CDI 與ADI 適用于二級計分組卷且易受屬性結(jié)構(gòu)影響,混合計分組卷結(jié)果較差。(3)無論是二級或多級計分項目的單獨或混合計分組卷,GMCDI 與GMADI 均可取得最高組卷精度且不受屬性結(jié)構(gòu)影響,兩者之間的組卷精度差異隨測驗長度增加而逐漸降低。
出現(xiàn)上述結(jié)果的可能原因是:首先,GMCDI與GMADI 組卷精度更優(yōu)是因為指標組卷的思想差異,CDI 與ADI 基于最大期望判準率的組卷思想,一次性選取題庫中最大區(qū)分能力的項目進行組卷,忽略了項目q向量組合是影響診斷測驗的重要因素(Lin et al.,2017; Zeng et al.,2010);而GMCDI 與GMADI 則兼顧項目區(qū)分度與屬性水平平衡,保證選用較高區(qū)分度項目的同時也對不同屬性進行多次測量,因而獲得更高組卷精度。其次,多級計分項目的診斷結(jié)果優(yōu)于二級計分項目,但兩者的差異似乎并不大的原因是,當屬性存在多個水平時,二級計分項目僅可將被試歸為兩類:掌握組與未掌握組,而多級計分項目對被試群體有著更詳細的劃分,因此多級計分項目的診斷結(jié)果更加準確;而兩者差異較小的原因一方面可能是組卷長度較長,組卷精度逐漸達到天花板;另一方面可能與所使用的診斷模型有關(guān),盡管該模型在多級計分項目上可對不同KS 被試進行更詳細分類,但由于屬性數(shù)量水平較多,因此盡管使用多級計分項目,也難以對所有KS 進行精確劃分。最后,GMCDI 與GMADI 在混合計分組卷結(jié)果上較優(yōu),而CDI 與ADI 則并不適用于混合計分組卷,這是因為盡管項目的計分方式不同,但GMCDI 與GMADI 仍然能夠保證項目選擇過程中項目q向量的組合方式是連續(xù)的;而C D I 與ADI 的組卷方式則是分割的,組卷時將二級與多級計分項目的選擇看作是兩個獨立的過程,結(jié)果也表明這種分割的過程不適用于混合計分組卷。
盡管本研究的結(jié)果具有一定理論與實際意義,但仍存在一些不足。首先,本研究使用GRPa-DINA 模型作為題庫的底層模型,未來也可使用其它同類CDM,如GDM(von Davier,2008)與GPCHO-RPa-DINA(Zhan et al.,2017),pG-DINA(Chen &de la Torre,2013)等;其次,本研究僅比較了不同區(qū)分度指標的組卷精度差異,并未深入討論各指標的組卷特性,如不同指標對不同屬性數(shù)量項目的偏好或?qū)Σ煌嫹址绞巾椖康钠?。另外,在混合計分組卷時,對GMCDI 與GMADI 采用的是先二級再多級的組卷順序,未來可探討先多級再二級或二級與多級依次進行的順序,探究不同組卷順序是否會對組卷結(jié)果產(chǎn)生影響;除此之外,為符合測驗要求,組卷測驗研究通常需要符合某些非統(tǒng)計約束(Becker et al.,2021; Henson & Douglas,2005),如Finkelman 等人(2020)為使測驗符合一定的時限要求,將反應(yīng)時(response time,RT)作為非統(tǒng)計約束考慮進組卷,而出于簡便性考慮,本研究并未對此類約束進行操控,未來可探討含非統(tǒng)計約束的屬性多水平組卷。最后,本研究使用的均為參數(shù)化組卷方法,而實際要想獲得穩(wěn)定的項目參數(shù),需要較大被試量,這在一定程度上限制了診斷方法的使用,未來也可開發(fā)屬性多水平非參數(shù)組卷方法,如使用R 陣組卷(丁樹良 等,2016;Zeng et al.,2010)。
CDI 與ADI 不適用于屬性多水平、項目多級計分與混合計分組卷。通過對已有指標組卷方法M C D I 與M A D I 進行屬性多水平拓展,得到GMCDI 與GMADI,這兩類組卷方法適用于多種實際組卷情形,且不受屬性層級結(jié)構(gòu)與項目計分比例影響。