韓裕娜,張敏強(qiáng),方 杰
(1.華南師范大學(xué)心理應(yīng)用研究中心,廣州510631;2.華南師范大學(xué)基礎(chǔ)教育培訓(xùn)與研究院,廣州510631;3.廣東財(cái)經(jīng)大學(xué)人文與傳播學(xué)院,廣州510320)
《國(guó)家中長(zhǎng)期教育改革和發(fā)展規(guī)劃綱要(2010-2020 年)》提出,在黨和國(guó)家工作全局中,必須始終堅(jiān)持把教育擺在優(yōu)先發(fā)展的位置,堅(jiān)持育人為本,以改革創(chuàng)新為動(dòng)力,以促進(jìn)公平為重點(diǎn),以提高質(zhì)量為核心,全面實(shí)施素質(zhì)教育,推動(dòng)教育事業(yè)在新的歷史起點(diǎn)上科學(xué)發(fā)展。測(cè)量理論和技術(shù)為教育改革提供了支持,只有通過科學(xué)的測(cè)量才能準(zhǔn)確地知道學(xué)生的真實(shí)情況,才能因材施教,培養(yǎng)出高素質(zhì)人才,促進(jìn)教育事業(yè)科學(xué)發(fā)展。
然而基于經(jīng)典測(cè)驗(yàn)理論、概化理論和項(xiàng)目反應(yīng)理論的傳統(tǒng)測(cè)驗(yàn)最終只能給出一個(gè)分?jǐn)?shù)或等級(jí)。但是有的考生分?jǐn)?shù)或等級(jí)雖然相同,所掌握的知識(shí)卻不同。為了從考生的反應(yīng)模式中獲得更多考生的信息,進(jìn)而因材施教,許多研究者都做了一些嘗試,他們認(rèn)為其中的一個(gè)出路就是“將認(rèn)知與測(cè)量相結(jié)合”,并沿著不同的路線,按照不同的假設(shè),提出了各自不同的認(rèn)知診斷模型。
AHM 模型是影響較大的認(rèn)知診斷模型之一。該研究將以AHM 模型為研究對(duì)象,首先簡(jiǎn)單介紹AHM 模型及其診斷步驟,分析方法A 和方法B 的計(jì)算公式,對(duì)其進(jìn)行改良得到兩種新分類方法——方法C 和方法D。并以模式判準(zhǔn)率和邊際判準(zhǔn)率為評(píng)價(jià)指標(biāo),通過兩個(gè)蒙特卡洛模擬實(shí)驗(yàn)探討各種測(cè)驗(yàn)因素對(duì)A、B、C、D 四種診斷方法分類準(zhǔn)確率的影響,為使用者(研究者)在不同測(cè)驗(yàn)情景下該選擇哪種方法提供有益的參考。
AHM 模型是由Leigton 等人(2004)對(duì)RSM 模型進(jìn)行改造而產(chǎn)生的。使用屬性層級(jí)模型進(jìn)行認(rèn)知診斷共 包 含 四 個(gè) 步 驟(Gierl,Leighton,& Hunka,2007):(1)構(gòu)建和表征測(cè)驗(yàn)內(nèi)容的屬性層級(jí)模型;(2)根據(jù)層級(jí)關(guān)系模型編制測(cè)驗(yàn)并施測(cè);(3)使用一種判別方法,根據(jù)被試作答情況,對(duì)被試進(jìn)行診斷分類;(4)報(bào)告認(rèn)知診斷分析結(jié)果。
AHM 中分類方法有兩種IRT 分類法(Leigton,2004):方法A 和方法B。方法A 和方法B 都是通過分析觀察反應(yīng)模式同各類期望反應(yīng)模式的一致程度來進(jìn)行分類。
方法A 認(rèn)為,當(dāng)被試的觀察反應(yīng)模式和任何一類期望反應(yīng)模式都不一樣時(shí),則計(jì)算各種期望反應(yīng)模式轉(zhuǎn)化為觀察反應(yīng)模式的概率,假設(shè)第p 種期望反應(yīng)模式的轉(zhuǎn)化概率最大,則將被試歸為第p 類被試。轉(zhuǎn)化概率的計(jì)算公式如下:
其中:
Si(0 →1)表示對(duì)于被試i 期望反應(yīng)為0,但觀察反應(yīng)模式為1 的所有題的集合;
Si(1 →0)表示對(duì)于被試i 期望反應(yīng)為1,但觀察反應(yīng)模式為0 的所有題的集合;
方法B 則認(rèn)為,擁有某個(gè)觀察反應(yīng)模式的被試掌握了所有邏輯包含在其中的期望反應(yīng)模式的屬性組合。方法B 計(jì)算轉(zhuǎn)化概率的公式如下:
以往的研究(Cui,Leighton,& Zheng,2006)表明,方法A 和方法B 的診斷準(zhǔn)確率均不高,說明這兩種方法還有待進(jìn)一步改進(jìn)。仔細(xì)查看方法A 的計(jì)算公式,可以發(fā)現(xiàn):方法A 在判別具有觀察反應(yīng)模式Si的被試是否屬于第j 類被試時(shí),計(jì)算和比較的是第j類被試出現(xiàn)觀察反應(yīng)模式Si的概率,使用到的是正確作答概率Pk(θj)和錯(cuò)誤作答概率1 - Pk(θj)。
事實(shí)上,在對(duì)被試進(jìn)行診斷時(shí),并不知道他到底是哪一類被試,也不知道他是否真的掌握對(duì)應(yīng)題目所考察的屬性.因而方法A 在判別被試屬于哪一類時(shí)使用上述概率并不合理,這應(yīng)該是方法A 診斷準(zhǔn)確率不高的一個(gè)原因。在判別具有觀察反應(yīng)模式Si的被試是否屬于第j 類被試的關(guān)系時(shí),計(jì)算和比較的應(yīng)該是具有觀察反應(yīng)模式Si的被試是第j 類被試的概率。
因而使用到的概率應(yīng)該是另2 種:
(1)當(dāng)受測(cè)者答對(duì)試題q 時(shí),受測(cè)者實(shí)際上并未掌握試題q 所考察的屬性的概率P(q:1 →0),稱為猜測(cè)概率,用PG(q)表示。
(2)當(dāng)受測(cè)者答錯(cuò)試題q 時(shí),受測(cè)者實(shí)際上掌握了試題q 所考察的屬性的概率P(q:0 →1),稱為失誤概率,用PS(q)表示。
由方法A 的計(jì)算公式,以猜測(cè)概率PG(q)和失誤概率PS(q)代替Pk(θj)、1 - Pm(θj),即得到判別方法C:計(jì)算具有觀察反應(yīng)模式Si的被試是各類被試的概率,假設(shè)第p 類被試對(duì)應(yīng)的概率最大,則將被試歸為第p 類被試。
同樣地,可由方法B 得到對(duì)應(yīng)的D 方法,D 方法使用的公式如下:
從理論上看,方法C 和方法D 的計(jì)算方法比方法A 和方法B 更為科學(xué),應(yīng)該比方法A 和方法B 有更高的診斷性能。為了比較新舊四種方法——方法A、方法B、方法C 和方法D 的診斷性能,擬通過蒙特卡洛模擬實(shí)驗(yàn),采用隨機(jī)化實(shí)驗(yàn),針對(duì)四種判別方法的診斷性能進(jìn)行考察。
文劍兵(2003)和田偉等人(2012)的研究表明,規(guī)則空間模型的診斷性能會(huì)受到屬性結(jié)構(gòu)、屬性個(gè)數(shù)、失誤水平的影響;Cui,Leighton 和Zheng(2006)的研究也表明,屬性層級(jí)模型方法A 和方法B 的診斷性能也會(huì)受到屬性結(jié)構(gòu)、失誤水平的影響。因此,AHM 四種判別方法評(píng)價(jià)指標(biāo)的高低除了跟診斷方法有關(guān),還有可能受其他因素影響,例如:屬性的結(jié)構(gòu)、屬性個(gè)數(shù)和失誤水平等因素有關(guān)。本研究共設(shè)計(jì)了兩個(gè)模擬實(shí)驗(yàn)來討論不同因素對(duì)四種診斷方法的分類準(zhǔn)確率的影響,同時(shí)比較四種診斷方法的診斷性能。比較診斷性能時(shí)采取兩種評(píng)價(jià)指標(biāo)——模式判準(zhǔn)率和邊際判準(zhǔn)率,評(píng)價(jià)指標(biāo)越高,說明分類準(zhǔn)確性越好。
4.1.1 研究設(shè)計(jì)
實(shí)驗(yàn)一旨在考察屬性的結(jié)構(gòu)和個(gè)數(shù)對(duì)診斷性能的影響。由于屬性間的復(fù)雜關(guān)系可由四種基本關(guān)系組合生成,其他復(fù)雜的關(guān)系可以由這四種基本關(guān)系組合 生 成(Leighton,Gierl,& Hunka,2004;Cui,Leighton,& Zheng,2006)。參照以往研究(文劍兵,2003;Cui,Leighton,& Zheng,2006;丁樹良,汪文義,楊淑群,2011;田偉,辛濤,2012),實(shí)驗(yàn)一將考察四種屬性結(jié)構(gòu)(發(fā)散型、收斂型、線型、無結(jié)構(gòu)型)和四種屬性個(gè)數(shù)(6、7、8、9)(圖1、圖2、圖3、圖4)對(duì)四種判別方法診斷性能的影響,實(shí)驗(yàn)一共有4 ×4 =16 種實(shí)驗(yàn)情景。
圖1 六個(gè)屬性的四種屬性層級(jí)關(guān)系
圖2 七個(gè)屬性的四種屬性層級(jí)關(guān)系
圖3 八個(gè)屬性的四種屬性層級(jí)關(guān)系
圖4 九個(gè)屬性的四種屬性層級(jí)關(guān)系
其他測(cè)驗(yàn)條件假定如下:測(cè)驗(yàn)項(xiàng)目數(shù)設(shè)置為20;被試成績(jī)的先驗(yàn)分布假設(shè)為正態(tài)分布,參與診斷的被試人數(shù)為5000;IRT 模型選取二參數(shù)Logistic IRT模型;失誤水平參數(shù)假定為0.1。
4.1.2 數(shù)據(jù)的產(chǎn)生和分析
各種實(shí)驗(yàn)情景下產(chǎn)生數(shù)據(jù)和分析數(shù)據(jù)的模擬步驟相同。在每種實(shí)驗(yàn)情景中,模擬步驟如下:首先依據(jù)假設(shè)的條件,模擬產(chǎn)生試題、得到期望反應(yīng)矩陣和觀察反應(yīng)矩陣;接著編程估計(jì)被試能力參數(shù)及項(xiàng)目參數(shù);再分別使用AHM 模型四種分類方法對(duì)觀察反應(yīng)模式進(jìn)行診斷,計(jì)算各自的模式判準(zhǔn)率和邊際判準(zhǔn)率;為了盡量減少無關(guān)變量的影響,每種實(shí)驗(yàn)情景重復(fù)模擬10 次;最后,求十次模擬各種指標(biāo)的平均值,分析比較各種情境下各種方法的診斷性能指標(biāo),得到實(shí)驗(yàn)結(jié)果。整個(gè)數(shù)據(jù)的產(chǎn)生和分析過程均采用R 軟件編程實(shí)現(xiàn)。
4.1.3 實(shí)驗(yàn)結(jié)果
實(shí)驗(yàn)一共16 種測(cè)驗(yàn)情景,結(jié)果如表1 所示,每一個(gè)單元格中的統(tǒng)計(jì)量值均是10 次模擬結(jié)果的平均,以此降低誤差。
表1 實(shí)驗(yàn)一各種診斷方法的屬性診斷準(zhǔn)確率
4.2.1 研究設(shè)計(jì)
實(shí)驗(yàn)二旨在考察失誤水平對(duì)各種方法診斷性能的影響。由于實(shí)驗(yàn)一和以往的研究(Cui,Leighton,& Zheng,2006)均表明,屬性結(jié)構(gòu)對(duì)診斷性能的影響非常明顯,所以在實(shí)驗(yàn)二中,仍分別考察四種屬性結(jié)構(gòu):發(fā)散型、收斂型、線型、無結(jié)構(gòu)型。失誤水平則共考察5 種情形:0.05、0.1、0.15、0.2、0.25。實(shí)驗(yàn)二共有4 ×5 =20 種實(shí)驗(yàn)情景。其他測(cè)驗(yàn)條件假定如下:測(cè)驗(yàn)項(xiàng)目數(shù)設(shè)置為20;屬性個(gè)數(shù)為7 個(gè);被試成績(jī)的先驗(yàn)分布假設(shè)為正態(tài)分布,參與診斷的被試人數(shù)為5000;IRT 模型選取二參數(shù)Logistic IRT 模型。
4.2.2 數(shù)據(jù)的產(chǎn)生和分析
實(shí)驗(yàn)二的模擬數(shù)據(jù)產(chǎn)生和分析的方法步驟同實(shí)驗(yàn)一,數(shù)據(jù)的產(chǎn)生和分析也是采用R 軟件編程實(shí)現(xiàn)。
4.2.3 實(shí)驗(yàn)結(jié)果
實(shí)驗(yàn)二共20 種測(cè)驗(yàn)情景,對(duì)相同的模擬數(shù)據(jù),使用方法A、方法B、方法C、方法D 分別診斷,結(jié)果如表2 所示,每一個(gè)單元格中的統(tǒng)計(jì)量值均是10 次模擬結(jié)果的平均,以此降低誤差。
表2 實(shí)驗(yàn)二各種診斷方法的屬性診斷準(zhǔn)確率
實(shí)驗(yàn)一和實(shí)驗(yàn)二的結(jié)果(表1、表2、圖5、圖6)表明,蒙特卡洛模擬實(shí)驗(yàn)的結(jié)果與理論研究結(jié)果相符,經(jīng)過改良得到的方法C 和方法D 的診斷性能均優(yōu)于對(duì)應(yīng)的原方法。且從總體上看,新方法的評(píng)價(jià)指標(biāo)比對(duì)應(yīng)原方法的評(píng)價(jià)指標(biāo)有較大幅度的提高。使用方法C 和方法D 更能準(zhǔn)確地得到被試真實(shí)的知識(shí)狀態(tài)和認(rèn)知結(jié)構(gòu),為教學(xué)提供更為準(zhǔn)確的診斷結(jié)果。從總體上看,四種診斷方法中C 方法最佳。
圖5 實(shí)驗(yàn)一四種診斷方法對(duì)應(yīng)的診斷指標(biāo)平均數(shù)
圖6 實(shí)驗(yàn)二四種診斷方法對(duì)應(yīng)的診斷指標(biāo)平均數(shù)
圖5 和圖6 也表明,雖然實(shí)驗(yàn)一和實(shí)驗(yàn)二的實(shí)驗(yàn)情景不同,但是兩個(gè)實(shí)驗(yàn)得到的結(jié)果非常一致。兩個(gè)實(shí)驗(yàn)均表明,該研究對(duì)方法A 和方法B 的改良是成功的。
實(shí)驗(yàn)一和實(shí)驗(yàn)二的結(jié)果(表1、表2)表明,屬性結(jié)構(gòu)對(duì)診斷性能的影響非常明顯。由表1 計(jì)算可得實(shí)驗(yàn)一16 種實(shí)驗(yàn)情景中,線型、收斂型、發(fā)散型、無結(jié)構(gòu)型四種結(jié)構(gòu)對(duì)應(yīng)的診斷指標(biāo)的平均數(shù),如圖7所示。由表2 計(jì)算可得實(shí)驗(yàn)二20 種實(shí)驗(yàn)情景中,線型、收斂型、發(fā)散型、無結(jié)構(gòu)型四種結(jié)構(gòu)對(duì)應(yīng)的診斷指標(biāo)的平均數(shù),如圖8 所示。由圖7 和圖8 可見,兩個(gè)實(shí)驗(yàn)得到的結(jié)果非常一致,從總體上看,線型結(jié)構(gòu)對(duì)應(yīng)的各種診斷指標(biāo)最低。而其他三種結(jié)構(gòu)對(duì)應(yīng)的診斷指標(biāo)相差不大。四種基本結(jié)構(gòu)中,收斂型結(jié)構(gòu)對(duì)應(yīng)的診斷指標(biāo)最高。
圖7 實(shí)驗(yàn)一四種屬性結(jié)構(gòu)對(duì)應(yīng)的診斷指標(biāo)平均數(shù)
圖8 實(shí)驗(yàn)二四種屬性結(jié)構(gòu)對(duì)應(yīng)的診斷指標(biāo)平均數(shù)
從實(shí)驗(yàn)一結(jié)果(表1)也可以看到,對(duì)線型結(jié)構(gòu)進(jìn)行診斷,最優(yōu)方法是D 方法,平均邊際判準(zhǔn)率在0.7 以上。不過模式判準(zhǔn)率還是偏低,僅有0.396。對(duì)其他結(jié)構(gòu)進(jìn)行診斷,最優(yōu)方法是C 方法,平均邊際判準(zhǔn)率均在0.9 以上,模式判準(zhǔn)率均在0.6 以上。由此可見,使用D 方法對(duì)線型結(jié)構(gòu)進(jìn)行診斷雖然最優(yōu),但是模式判準(zhǔn)率還是偏低。相對(duì)來說,使用C方法對(duì)發(fā)散型、收斂型和無結(jié)構(gòu)型三種屬性結(jié)構(gòu)進(jìn)行診斷的各項(xiàng)指標(biāo)則較好。使用C 方法對(duì)發(fā)散型、收斂型和無結(jié)構(gòu)型進(jìn)行診斷對(duì)教學(xué)有一定借鑒作用。實(shí)驗(yàn)二的結(jié)果和實(shí)驗(yàn)一一致。因而在設(shè)計(jì)測(cè)驗(yàn)時(shí),不妨設(shè)法增加待測(cè)屬性,使線型結(jié)構(gòu)轉(zhuǎn)化為發(fā)散型、收斂型或者由基本關(guān)系組合生成的復(fù)雜結(jié)構(gòu),以便提高診斷準(zhǔn)確率。
表1 表明,當(dāng)屬性結(jié)構(gòu)一樣而測(cè)驗(yàn)屬性個(gè)數(shù)不同時(shí),診斷指標(biāo)的大小會(huì)有變化,有些變化還存在一定的規(guī)律。例如,使用C 方法來診斷發(fā)散型和無結(jié)構(gòu)型,各種診斷指標(biāo)會(huì)隨著屬性個(gè)數(shù)的增多而降低。而使用方法A、C 方法來診斷線型結(jié)構(gòu),各種診斷指標(biāo)會(huì)隨著屬性個(gè)數(shù)的增多而提高。
由表1 可以計(jì)算實(shí)驗(yàn)一16 種實(shí)驗(yàn)情景中,不同屬性個(gè)數(shù)對(duì)應(yīng)的診斷指標(biāo)的平均數(shù),如圖9 所示。圖9 表明,雖然不同屬性個(gè)數(shù)對(duì)應(yīng)的各種診斷指標(biāo)有所差異,不過從總體上看,屬性個(gè)數(shù)對(duì)診斷性能的影響不明顯。
圖9 實(shí)驗(yàn)一四種屬性個(gè)數(shù)對(duì)應(yīng)的診斷指標(biāo)平均數(shù)
由表2 表明,不管對(duì)于哪種屬性結(jié)構(gòu),不管使用哪種診斷方法,當(dāng)失誤水平參數(shù)變大時(shí),診斷性能指標(biāo)均下降。
由表2 可以計(jì)算實(shí)驗(yàn)二20 種實(shí)驗(yàn)情景中,不同失誤水平對(duì)應(yīng)的診斷指標(biāo)的平均數(shù),如圖10 所示。圖10 表明,當(dāng)失誤水平參數(shù)變大時(shí),各種診斷指標(biāo)均逐步下降。究其原因,失誤水平參數(shù)變大說明出現(xiàn)猜測(cè)現(xiàn)象和失誤現(xiàn)象的概率比較大,因而提高了診斷的難度,故診斷準(zhǔn)確率有所下降,診斷性能指標(biāo)逐漸變小。
圖10 實(shí)驗(yàn)二五種失誤水平對(duì)應(yīng)的診斷指標(biāo)平均數(shù)
本研究對(duì)AHM 模型兩種IRT 分類方法方法A和方法B 進(jìn)行改良,得到兩種新方法方法C 和方法D。進(jìn)而以模式判準(zhǔn)率和邊際判準(zhǔn)率為評(píng)價(jià)指標(biāo),通過兩個(gè)蒙特卡洛模擬實(shí)驗(yàn)來比較新舊四種方法的診斷性能,以及考察四種分類方法的診斷性能如何受到測(cè)驗(yàn)不同的因素的影響,為使用者(研究者)在不同測(cè)驗(yàn)情景下該選擇哪種方法提供有益的參考。
6.1 不管是以哪種評(píng)價(jià)指標(biāo)為依據(jù),方法C 優(yōu)于方法A,方法D 優(yōu)于方法B,即新方法比對(duì)應(yīng)的原方法有更好的診斷性能??偟膩碚f,C 方法的診斷性能最佳。
6.2 各種方法診斷指標(biāo)的高低跟屬性結(jié)構(gòu)有關(guān)。對(duì)線型結(jié)構(gòu)進(jìn)行診斷,D 方法的各種診斷指標(biāo)最高;對(duì)其他三類結(jié)構(gòu)進(jìn)行診斷,C 方法的各種診斷指標(biāo)最高。
6.3 測(cè)驗(yàn)屬性個(gè)數(shù)對(duì)各種方法診斷性能的影響不明顯。
6.4 各種方法的各種診斷性能指標(biāo)隨著失誤水平參數(shù)提高而降低。
陳秋梅,張敏強(qiáng). (2010). 認(rèn)知診斷模型發(fā)展及其應(yīng)用方法述評(píng).心理科學(xué)進(jìn)展,18(3),522 -529.
丁樹良,汪文義,楊淑群. (2011). 認(rèn)知診斷測(cè)驗(yàn)藍(lán)圖的設(shè)計(jì).心理科學(xué),34(2),258 -265.
丁樹良,楊淑群,汪文義.(2010).可達(dá)矩陣在認(rèn)知診斷測(cè)驗(yàn)編制中的重要作用.江西師范大學(xué)學(xué)報(bào)(自然科學(xué)版),34(5),490 -494.
田偉,辛濤.(2012).基于等級(jí)反應(yīng)模型的規(guī)則空間方法.心理學(xué)報(bào),44(1),249 -262.
涂冬波,蔡艷,戴海崎,漆書青. (2008). 現(xiàn)代測(cè)量理論下四大認(rèn)知診斷模型述評(píng).心理學(xué)探新,28(2),63 -67.
文劍冰.(2003).規(guī)則空間模型在診斷性計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)中的應(yīng)用.博士論文.香港中文大學(xué).
張敏強(qiáng),簡(jiǎn)小珠,陳秋梅.(2011).規(guī)則空間模型在瑞文智力測(cè)驗(yàn)中的認(rèn)知診斷分析.心理科學(xué),34(2),266 -271.
祝玉芳.(2008).RSM 改進(jìn)及多級(jí)評(píng)分AHM 的開發(fā)研究.碩士學(xué)位論文.南昌:江西師范大學(xué).
Cui,Y.,Leighton,J. P.,Gierl,M. J.,& Hunka,S. (2006). A person-fit statistic for the attribute hierarchy method:The hierarchy consistency index. Paper Presented at the Annual Meeting of the National Council on Measurement in Education,San Francisco,CA.
Cui,Y.,Leighton,J.P.,& Zheng,Y.(2006).Simulation studies for evaluating the performance of the two classification methods in the AHM. Paper Presented at the Annual Meeting of the National Council on Measurement in Education,San Francisco,CA.
Gierl,M.J. (2007). Making diagnostic inferences about cognitive attributes using the rule space model and attribute hierarchy method. Journal of Educational Measurement,44,325 -340.
Gierl,M.J.,& Leighton,J.P.(2007).Part C:Future challenges in psychometrics:Linking cognitively-based models and psychometric methods. In C. R. Rao & S. Sinharay(Eds.),Handbook of statistics:Psychometrics(Volume 26,pp.1103 -1106).North Holland,UK:Elsevier.
Gierl,M.J.,Bisanz,J.,Bisanz,G.L.,Boughton,K.A.,& Khaliq,S.N. (2001).Illustrating the utility of differential bundle functioning analyses to identify and interpret group differences on achievement tests. Educational Measurement:Issues and Practices,20,26 -36.
Gierl,M.J.,Cui,Y.,& Zhou,J.(2009).Reliability and attribute- based scoring in cognitive diagnostic assessment. Journal of Educational Measurement,46,293 -313.
Gierl,M.J.,Leighton,J.P.,& Hunka,S.(2000).Exploring the logic of Tatsuoka’s rule -space model for test development and analysis. Educational Measurement:Issues and Practice,19,34 -44.
Gierl,M.J.,Leighton,J.P.,& Hunka,S.(2007).Using the attribute hierarchy method to make diagnostic inferences about examinees’cognitive skills. In J. P. Leighton & M. J. Gierl(Eds.),Cognitive diagnostic assessment for education:Theory and applications(pp.242 -274).Cambridge,UK:Cambridge University Press.
Gierl,M. J.,Wang,C.,& Zhou,J. (2008). Using the attribute hierarchy method to make diagnostic inferences about examinees’cognitive skills in algebraon the SAT. Journal of Technology,Learning,and Assessment,6(6).
Gierl,M. J.,Zheng,Y.,& Cui,Y. (2008). Using the attribute hierarchy method to identify and interpret the cognitive skills that produce group differences. Journal of Educational Measurement,45,65 -89.
Junker,B. W.,& Sijtsma,K. (2001). Cognitive assessment models with few assumptions,and connections with nonparametric item response theory. Applied Psychological Measurement,25(3),258 -272.
Leighton,J. P. (2004). Avoiding misconceptions,misuse,and missed opportunities:The collection of verbal reports in educational achievement testing. Educational Measurement:Issues and Practice,23,6 -15.
Leighton,J.P.,& Gierl,M.J.(2007a).Defining and evaluating models of cognition used in educational measurement to make inferences about examinees’thinking processes. Educational Measurement:Issues and Practice,26,3 -16.
Leighton,J. P.,& Gierl,M. J. (2007b). Verbal reports as data for cognitive diagnostic assessment.In J.P.Leighton & M.J.Gierl(Eds.),Cognitive diagnostic assessment for education:Theory and applications(pp. 146 - 172). Cambridge,UK:Cambridge University Press.
Leighton,J.P.,Gierl,M.J.,& Hunka,S.(2004).The attribute hierarchy model:An approach for integrating cognitive theory with assessment practice. Journal of Educational Measurement,41,205 -236.
Maris,E. (1999). Estimating multiple classification latent class models.Psychometrika,64(2),187 -212.
Tatsuoka,K.(1985). A probabilistic model for diagnosing misconceptions in the pattern classification approach. Journal of Educational Statistics,10,55 -73.