多級(jí)評(píng)分認(rèn)知診斷題組模型*

2023-10-24 10:00:54周文杰童望望

應(yīng)用心理學(xué) 2023年5期

周文杰童望望郭磊，2**

（1.西南大學(xué)心理學(xué)部，重慶 400715；2.中國(guó)基礎(chǔ)教育質(zhì)量監(jiān)測(cè)協(xié)同創(chuàng)新中心西南大學(xué)分中心，重慶 400715）

1 引言

當(dāng)前傳統(tǒng)測(cè)驗(yàn)領(lǐng)域僅提供籠統(tǒng)的測(cè)驗(yàn)總分或?qū)W生能力值來(lái)衡量學(xué)生的學(xué)業(yè)水平，但隨著對(duì)教育評(píng)估要求愈加精細(xì)，這種傳統(tǒng)測(cè)驗(yàn)形式已不能滿足人們對(duì)評(píng)估的需求。因此，心理教育研究者不斷深入認(rèn)知診斷測(cè)評(píng)（cognitive diagnostic assessment，CDA）研究，使其既可報(bào)告?zhèn)€體具有的認(rèn)知結(jié)構(gòu)或?qū)χR(shí)的掌握情況，也便于教育者為學(xué)生進(jìn)行更客觀、更有針對(duì)性的教育評(píng)價(jià)，并為教育補(bǔ)救指明方向。

在各種大型測(cè)驗(yàn)中，如高考、TOEFL、PISA 等，常存在多個(gè)題目隸屬于一個(gè)共同刺激的情況，如閱讀理解、完形填空、選詞填空等。這種一組題目共用一個(gè)刺激或材料的集合稱為題組（testlet）（Wainer &Kiely，1987）。使用題組有較多優(yōu)勢(shì)：閱讀材料能被充分利用，不僅節(jié)約作答時(shí)間提高作答效率，還能節(jié)約成本（DeMars，2012；Huang，2013）；由于題目隸屬于相同刺激，使得題目結(jié)構(gòu)更復(fù)雜，相關(guān)性與邏輯性更強(qiáng)，就能測(cè)量被試更高層次思維能力（Haladyna，1992）。例如，圖1 是一道考察“確定平面圖中物體的位置的方法”（屬性1）和“線段比例尺的應(yīng)用”（屬性2）的六年級(jí)數(shù)學(xué)綜合題，該題目有兩個(gè)小題，考生在作答過(guò)程中受到材料的共同刺激，因此這兩個(gè)小題屬于一個(gè)題組結(jié)構(gòu)，題目（1）考察了屬性1，滿分為3 分，題目（2）考察了屬性1和屬性2，滿分為4 分。這是一個(gè)典型的帶有題組結(jié)構(gòu)的多級(jí)計(jì)分題目。

圖1 六年級(jí)數(shù)學(xué)能力測(cè)試?yán)}

在項(xiàng)目反應(yīng)理論（item response theory，IRT）的領(lǐng)域中，研究者提出了多種處理題組結(jié)構(gòu)的方式，其中具有代表性的方法有：（1）視同一個(gè)題組下的題目具有雙重維度特性，一個(gè)維度是題組效應(yīng)，一個(gè)維度是題目自身的效應(yīng)，例如二階模型（second-order mode）（Rijmen，2010）和雙因子模型（bi-factor model）（Demars，2006；Li et al.，2005）；（2）將題目得分合成為題組得分，把同一個(gè)題組的題目看作一個(gè)多級(jí)評(píng)分題目（Wainer & Kiely，1987；Rosenbaum，1988）；（3）將題組效應(yīng)視為影響反應(yīng)結(jié)果的潛變量，例如題組反應(yīng)模型（testlet response models，TRM）（Bradlow et al.，1999）等。第一種處理方法具有較強(qiáng)的限制，僅能處理當(dāng)題目只具有一層題組結(jié)構(gòu)時(shí)的情況。第二種方法則會(huì)導(dǎo)致信息丟失，能得到題組得分，卻不能獲得被試精確的作答結(jié)果，且測(cè)驗(yàn)信度會(huì)被低估（Yen，1993）。第三種處理方法更靈活地表征了題組內(nèi)的局部依賴性，獲得更精確的參數(shù)估計(jì)結(jié)果，且具有較好的拓廣性，可以處理多維題組的情況，是目前最常見(jiàn)的方式，本研究即采用該方法處理題組效應(yīng)。

認(rèn)知診斷領(lǐng)域中，詹沛達(dá)等人（2015）提出了能處理題組效應(yīng)的認(rèn)知診斷模型，后續(xù)結(jié)合反應(yīng)時(shí)模型提出聯(lián)合題組認(rèn)知診斷模型（Zhan et al.，2018），Hansen（2013）結(jié)合2-tier 模型（Cai，2010）和LCDM 也提出了一種適用于認(rèn)知診斷測(cè)驗(yàn)的題組模型。但這些模型只適用于二級(jí)評(píng)分?jǐn)?shù)據(jù)，無(wú)法處理多級(jí)評(píng)分?jǐn)?shù)據(jù)。而實(shí)際上，心理、教育及社會(huì)學(xué)等領(lǐng)域中存在大量多級(jí)評(píng)分題型，如簡(jiǎn)答題、材料分析題、Likert 量表等，尤其我國(guó)許多測(cè)驗(yàn)二級(jí)和多級(jí)評(píng)分題目經(jīng)常混合使用（涂冬波等，2010），若采用二分模型擬合多級(jí)評(píng)分?jǐn)?shù)據(jù)，會(huì)造成信息丟失（Ma&de la Torre，2016）。另外，雖然研究者已開(kāi)發(fā)多種多級(jí)評(píng)分診斷模型，如Sequential GDINA 模型（Ma et al.，2016）、一般化多級(jí)評(píng)分認(rèn)知診斷模型（General Polytomous Diagnosis Model，GPDM）（Chen & de la Torre，2018）、一般化分部評(píng)分認(rèn)知診斷模型（General Partial Credit Diagnostic Model，GPCDM）（高旭亮等，2019）等，但是均不能處理題組效應(yīng)。可以看出，目前能夠處理題組數(shù)據(jù)的診斷模型不適用于多級(jí)評(píng)分?jǐn)?shù)據(jù)，而已有的多級(jí)評(píng)分診斷模型不能處理題組效應(yīng)，多級(jí)診斷模型與題組反應(yīng)模型仍處于獨(dú)立研究階段。

綜上所述，本研究擬將多級(jí)評(píng)分診斷與題組效應(yīng)融合，開(kāi)發(fā)多級(jí)評(píng)分認(rèn)知診斷題組模型（Polytomous Cognitive Diagnosis Testlet Model，PCDTM）。本文首先介紹PCDTM 開(kāi)發(fā)過(guò)程；其次介紹馬爾可夫鏈蒙特卡洛算法（Markov chain Monte Carlo，MCMC）參數(shù)估計(jì)內(nèi)容；第三，使用模擬研究探究模型參數(shù)返真性；第四，使用實(shí)證數(shù)據(jù)檢驗(yàn)?zāi)Ｐ蜕鷳B(tài)效度。最后總結(jié)研究結(jié)果，展望未來(lái)研究發(fā)展方向。

2 多級(jí)評(píng)分認(rèn)知診斷題組模型的開(kāi)發(fā)

2.1 多級(jí)評(píng)分認(rèn)知診斷模型（GPCDM）簡(jiǎn)介

GPCDM 由高旭亮等（2019）提出，是一種以飽和模型GDINA 作為加工函數(shù)開(kāi)發(fā)的多級(jí)評(píng)分認(rèn)知診斷模型。GPCDM 用公式可描述為：

式中a1=（al1，al2，…，alk，…，alK）為被試屬性掌握模式，l=1，…，L，L=2K。alk為屬性掌握模式為a1的被試在第k 個(gè)屬性掌握情況，若被試掌握第k 個(gè)屬性，有alk=1，否則alk=0。qjx=（qjx1，qjx2，…，qjxk，…，qjxK）為第j 題第x 分屬性考察情況，若考察了第k 個(gè)屬性，則qjxk=1，否則qjxk=0。P（Xj=x）為屬性掌握模式為a1的被試在第j 題得x 分的概率。λjx，k為alk主效應(yīng)，λjx，k′k為alk′和alk的二階交互效應(yīng)；λjx，12，…，Kjx是掌握所有屬性時(shí)對(duì)作答產(chǎn)生的效應(yīng)大小。

2.2 多級(jí)評(píng)分認(rèn)知診斷題組模型構(gòu)建

2.2.1 多維題組效應(yīng)

圖2（a）表示單維題組效應(yīng)，除被試能力θ 外，題目3 的作答還受到一個(gè)題組影響，且不同題組之間相互獨(dú)立；而圖2（b）多維題組測(cè)驗(yàn)中的題目3，4，5 同時(shí)受到了兩個(gè)題組的影響（魏丹等，2017；詹沛達(dá)等，2015）?？梢?jiàn)，單維題組是多維題組的特例。

圖2 單維/多維題組示意圖

多維題組效應(yīng)用公式可以描述為：

公式（2）表示被試i 在題目j 上共受到M 個(gè)題組效應(yīng)的影響。協(xié)方差矩陣Σ 表示題組效應(yīng)大小，Σ=（γi1，…，γim，…，γiM），γim～N（0，），γim表示被試i 在第m 個(gè)題組上的效應(yīng)大小。用判定矩陣U 矩陣表示每個(gè)題目在不同題組上的歸屬，其中列表示題組，行表示題目，U=（Uj1，…，Ujm，…，UjM），Ujm表示題目j 是否歸屬于第m 個(gè)題組，屬于則Ujm=1，否則Ujm=0。根據(jù)判定規(guī)則，圖2（b）的題組效應(yīng)可用圖3 表示。

圖3 U 矩陣示意圖

2.2.2多級(jí)評(píng)分認(rèn)知診斷題組模型（PCDTM）

進(jìn)一步結(jié)合多維題組和多級(jí)評(píng)分結(jié)構(gòu)，見(jiàn)圖4（a）表示二級(jí)評(píng)分的多維題組結(jié)構(gòu)，圖4（b）表示多級(jí)計(jì)分的多維題組結(jié)構(gòu)，mj表示第j 題的滿分，可以發(fā)現(xiàn)在多級(jí)計(jì)分題組結(jié)構(gòu)中，被試屬性掌握模式α 影響所有的題目作答，同時(shí)題組效應(yīng)γ 可以影響同一個(gè)題組中不同題目在不同得分的作答，從而進(jìn)一步區(qū)別題組效應(yīng)在不同得分水平的影響。為使多級(jí)評(píng)分認(rèn)知診斷模型能有效處理題組效應(yīng)，本研究在GPCDM基礎(chǔ)上引入多維題組效應(yīng)參數(shù)，得到了多級(jí)評(píng)分認(rèn)知診斷題組模型（PCDTM），其函數(shù)表達(dá)式為：

圖4 二級(jí)/多級(jí)評(píng)分多維題組示意圖

3 參數(shù)估計(jì)

研究采用R 語(yǔ)言R2jags 包，調(diào)用MCMC 算法進(jìn)行參數(shù)估計(jì)，設(shè)定每種實(shí)驗(yàn)條件循環(huán)30 次，每次循環(huán)設(shè)定鏈數(shù)為3，每條鏈長(zhǎng)5000，間隔數(shù)5，預(yù)熱前2000 次，取后3000 次參數(shù)收斂結(jié)果平均數(shù)為該鏈參數(shù)估計(jì)結(jié)果。若所有被估計(jì)參數(shù)的小于1.1 或1.2，則參數(shù)基本收斂（Brooks&Gelman，1998）。參考Zhan 等（2019）設(shè)置，設(shè)定待估計(jì)參數(shù)的先驗(yàn)分布為：λjx0～N（-1.096，4），λjx，k～N（0，4）I（λjx，k＞0），λjx，k′k～N（0，4），alk～Bernoulli（0.5），γim～N（0，），～invGam（1，1）。PCDTM 模型代碼已上傳https://doi.org/10.6084/m9.figshare.21581331，供讀者參考和使用。

4 模擬研究

4.1 研究設(shè)計(jì)

模擬研究使用模型對(duì)比的方式，分別以PCDTM 和GPCDM 為真模型，生成有題組和無(wú)題組效應(yīng)作答數(shù)據(jù)，再分別使用兩個(gè)模型擬合數(shù)據(jù)。研究自變量包括：（1）真模型（GPCDM，PCDTM）；（2）樣本量（500，1000，2000）；（3）題目質(zhì)量（高，低）；（4）題目數(shù)量（20，40 題）。

4.2 類別Q 矩陣與U 矩陣設(shè)定

類別Q 矩陣（Category-Q，Cat-Q）和U矩陣間附表1 和附表2 所示（40 題Cat-Q矩陣與U 矩陣為20 題重復(fù)）。在Cat-Q 矩陣中，共考察了5 個(gè)屬性，每個(gè)得分類別最多考察2 個(gè)屬性，且每個(gè)屬性考察次數(shù)相同。測(cè)驗(yàn)中第1～11 題為三級(jí)評(píng)分題目，第12～15 題為四級(jí)評(píng)分題目，第16～20 題為二級(jí)評(píng)分題目。測(cè)驗(yàn)包含四個(gè)題組結(jié)構(gòu)，題組1 包含第1～11 題，題組2 包含12～15 題，題組3 包含16～20 題，3 個(gè)題組分別有部分題目包含于題組4，構(gòu)成項(xiàng)目?jī)?nèi)多維題組結(jié)構(gòu)。

表1 被試判準(zhǔn)率PCCR/AACCR 值

4.3 模擬過(guò)程

4.3.1 被試參數(shù)設(shè)置

被試屬性從伯努利分布中隨機(jī)生成，即alk～Bernoulli（0.5），alk＞0.5 取1，alk≤0.5則取0 從而得到不同屬性掌握模式。

4.3.2 題目參數(shù)與題組效應(yīng)設(shè)置

參考Ma 等人（2016）和高旭亮等（2019）的生成方法，將高質(zhì)量題目參數(shù)設(shè)置為：logit｛gx［P（Xj=x | a1=0）］｝從均勻分布U（0，0.25）中隨機(jī)生成，logit｛gx［P（Xj=x |a1=0）］｝從均勻分布U（0.75，1）中隨機(jī)生成；低質(zhì)量題目參數(shù)設(shè)置為：logit｛gx［P（Xj=x | a1=0）］｝從均勻分布U（0，0.4）中隨機(jī)生成，logit｛gx［P（Xj=x | a1=0）］｝從均勻分布U（0.6，1）中隨機(jī)生成。

4 個(gè)題組效應(yīng)滿足多元正態(tài)分布，γ～MVN4（0，Σ），題組效應(yīng)方差取值=0.25，=0.5，=0.75，=1（Wang & Wilson，2005），對(duì)角矩陣如下所示：

4.3.3 模擬作答

將被試及題目參數(shù)真值帶入公式（1）和公式（3），計(jì)算被試在第j 題得x 分的作答概率P（Xj=x | a1），被試在該題最終作答結(jié)果根據(jù)對(duì)應(yīng)概率大小進(jìn)行抽取。

4.4 評(píng)價(jià)指標(biāo)

使用均方根誤差（root mean square error，RMSE）和相對(duì)偏差的絕對(duì)值（the absolute of relative bias，ARB）作為題目參數(shù)和題組參數(shù)評(píng)價(jià)指標(biāo)。平均屬性判準(zhǔn)率（average attribute correct classification rate，AACCR）考察屬性返真性；屬性模式判準(zhǔn)率（pattern correct classification rate，PCCR）作為屬性掌握模式返真性評(píng)價(jià)指標(biāo)。以上指標(biāo)是認(rèn)知診斷研究中常見(jiàn)的參數(shù)估計(jì)精度的評(píng)價(jià)指標(biāo)（詹沛達(dá)等，2015；Ma et al.，2016；Chen&de la Torre，2018）。

4.5 模擬研究結(jié)果

4.5.1 被試判準(zhǔn)率返真性

表1 為被試判準(zhǔn)率返真性。當(dāng)真模型為GPCDM 時(shí)，PCDTM 與GPCDM 的判準(zhǔn)精度非常相近，二者的PCCR 值最大差異僅為0.003，AACCR 最大差異為0.001。當(dāng)真模型為PCDTM 時(shí)，PCDTM 明顯優(yōu)于GPCDM，二者PCCR 最大差異0.094，AACCR 最大差異0.021。這說(shuō)明，當(dāng)存在題組效應(yīng)時(shí)，PCDTM 可以更準(zhǔn)確地對(duì)被試進(jìn)行判別。

當(dāng)存在題組效應(yīng)時(shí)，自變量中，題目質(zhì)量的影響最大，樣本量的影響最小。具體而言：①題目質(zhì)量越高，被試判準(zhǔn)率越高。在各題目質(zhì)量條件下，PCDTM 判準(zhǔn)精度均優(yōu)于GPCDM，隨著題目質(zhì)量提高，使得兩個(gè)模型判準(zhǔn)精度均有較大提高，PCCR 最大可分別提高12.5%和12.3%。②隨著題目數(shù)量增多，兩個(gè)模型判準(zhǔn)率均有所提高，但PCDTM 對(duì)題目數(shù)量變化更敏感，PCDTM的PCCR 最大可提升17%，GPCDM 最大僅為12.7%。在低質(zhì)量條件下，隨著題目數(shù)量的增加，兩個(gè)模型判準(zhǔn)率差距也隨之增大，PCDTM 模式判準(zhǔn)率大幅度提高，均維持在0.9 以上；而在高題目質(zhì)量條件下，不論題目數(shù)量如何變化，PCDTM 始終有著較高判準(zhǔn)率。③隨著樣本量增加，PCDTM 模型判準(zhǔn)率也在穩(wěn)步提升，PCCR 從［0.748，0.918］提高至［0.766，0.974］。

4.5.2 題目參數(shù)返真性

附表3 為題目參數(shù)返真性。整體上，當(dāng)真模型為GPCDM 時(shí)，PCDTM 可以達(dá)到與GPCDM 相近的題目參數(shù)估計(jì)精度；而當(dāng)真模型為PCDTM 時(shí)，GPCDM 參數(shù)估計(jì)精度要明顯差于PCDTM。當(dāng)GPCDM 為真模型時(shí)，兩個(gè)模型題目參數(shù)估計(jì)精度大致相同。當(dāng)PCDTM 為真模型時(shí)，GPCDM 的RMSE和ARB 整體增大，題目參數(shù)估計(jì)精度大幅度降低，而PCDTM 有較高的題目參數(shù)估計(jì)精度，且隨著樣本量、題目質(zhì)量、題目數(shù)量的提高，估計(jì)精度進(jìn)一步提高。其中，樣本量影響最大，其次是題目質(zhì)量，題目數(shù)量影響相對(duì)較小，GPCDM 題目參數(shù)返真性卻出現(xiàn)混亂的情況。

表3 實(shí)證研究模型擬合結(jié)果

4.5.3 題組效應(yīng)估計(jì)結(jié)果

圖5 和圖6 分別為PCDTM 為真模型時(shí)（即存在題組效應(yīng)）和GPCDM 為真模型時(shí)（即不存在題組效應(yīng)時(shí)）時(shí)，PCDTM 的題組效應(yīng)參數(shù)返真性。整體上PCDTM 具有較小的估計(jì)偏差，隨著樣本量、題目數(shù)量的提高，對(duì)題組效應(yīng)參數(shù)估計(jì)精度進(jìn)一步提高，并且PCDTM 能較好識(shí)別沒(méi)有題組效應(yīng)的情境，結(jié)果表明PCDTM 模型在各種情境下均能較好地估計(jì)題組效應(yīng)參數(shù)。

圖5 PCDTM 為真模型時(shí)，PCDTM 的題組效應(yīng)參數(shù)誤差均方根（RMSE）

圖6 GPCDM 為真模型時(shí)，PCDTM 的題組效應(yīng)參數(shù)誤差均方根（RMSE）

綜上所述，當(dāng)GPCDM 為真模型時(shí)，GPCDM 和PCDTM 判準(zhǔn)率和題目參數(shù)估計(jì)精度差異較小；當(dāng)PCDTM 為真模型時(shí)，PCDTM 判準(zhǔn)率和題目參數(shù)估計(jì)精度明顯優(yōu)于GPCDM，且有較好的題組效應(yīng)參數(shù)估計(jì)結(jié)果，而GPCDM 估計(jì)精度大幅度降低，且估計(jì)結(jié)果還出現(xiàn)混亂情況。因此，PCDTM診斷能力更佳，更具普適性。

5 實(shí)證研究

5.1 研究目的

分別使用PCDTM 與GPCDM 模型分析2012 年數(shù)學(xué)大規(guī)模測(cè)評(píng)數(shù)據(jù)，探查二者在實(shí)際數(shù)據(jù)應(yīng)用中的效果。該測(cè)驗(yàn)為二級(jí)與多級(jí)評(píng)分題目混合，共114 題，考察了9476 名學(xué)生的三個(gè)數(shù)學(xué)認(rèn)知屬性：數(shù)與代數(shù)、空間幾何與概率統(tǒng)計(jì)（魏丹等，2017），Cat-Q 矩陣見(jiàn)附表4。其中，測(cè)驗(yàn)有7 個(gè)題組，Testlet7 中5 個(gè)題目又分別屬于其他5個(gè)題組中，形成項(xiàng)目?jī)?nèi)多維題組效應(yīng)，加粗的題目即構(gòu)成項(xiàng)目?jī)?nèi)多維題組效應(yīng)（如表2 所示）。

表4 題目參數(shù)估計(jì)均值（括號(hào)內(nèi)為估計(jì)標(biāo)準(zhǔn)誤）

5.2 評(píng)價(jià)指標(biāo)

使用MCMC 參數(shù)估計(jì)中常用的偏差信息量準(zhǔn)則（Deviance information criterion，DIC）擬合指標(biāo)來(lái)評(píng)價(jià)模型在實(shí)證數(shù)據(jù)中的擬合效果。

5.3 研究結(jié)果

5.3.1 模型與測(cè)驗(yàn)整體擬合度比較

表3 為模型擬合結(jié)果。由結(jié)果可知，PCDTM 的擬合指標(biāo)更小，數(shù)據(jù)擬合更優(yōu)，表明在包含題組結(jié)構(gòu)的測(cè)驗(yàn)中，更適合用PCDTM 進(jìn)行分析。PCDTM 對(duì)七個(gè)題組效應(yīng)方差的估計(jì)結(jié)果為=0.001，=0.507，=0.639，=0.397，=0.498，=0.846，=1.071。其中，第一個(gè)題組效應(yīng)非常小，該題組可能不存在，其余6 個(gè)題組對(duì)該數(shù)學(xué)測(cè)驗(yàn)產(chǎn)生中等或高程度的題組效應(yīng)。正是由于GPCDM 忽視了該測(cè)驗(yàn)的題組效應(yīng)，導(dǎo)致模型擬合偏差增大。

5.3.2 題目參數(shù)估計(jì)均值比較

表4 為兩個(gè)模型對(duì)實(shí)證研究題目的截距項(xiàng)和主效應(yīng)項(xiàng)的參數(shù)估計(jì)均值及標(biāo)準(zhǔn)誤。其中λjx0為截距項(xiàng)，λjx，1，λjx，2和λjx，3分別為三個(gè)屬性的主效應(yīng)參數(shù)。結(jié)果顯示，相比于GPCDM，PCDTM 的題目參數(shù)估計(jì)的標(biāo)準(zhǔn)誤更小，表明PCDTM 模型估計(jì)的可靠性更高。

整體而言，PCDTM 模型與實(shí)證數(shù)據(jù)的擬合情況更好，題目參數(shù)估計(jì)結(jié)果更佳，是處理帶題組測(cè)驗(yàn)的優(yōu)勢(shì)模型。

6 研究結(jié)論與討論

6.1 研究結(jié)論

本文將多維題組隨機(jī)效應(yīng)參數(shù)引入多級(jí)評(píng)分認(rèn)知診斷模型中，成功構(gòu)建了PCDTM 模型，并得出以下結(jié)論：

（1）PCDTM 合理有效，無(wú)論測(cè)驗(yàn)是否含有題組效應(yīng)，均能得到精確的參數(shù)估計(jì)結(jié)果。隨著樣本量、題目質(zhì)量、題目數(shù)量增加，被試判準(zhǔn)率、題目參數(shù)與題組效應(yīng)參數(shù)估計(jì)精度均有所提高。

（2）忽視題組效應(yīng)，會(huì)降低題目參數(shù)估計(jì)精度和被試判準(zhǔn)率，甚至出現(xiàn)估計(jì)結(jié)果混亂的情況。

（3）實(shí)證研究中，PCDTM 模型擬合更優(yōu)，參數(shù)估計(jì)精度更高，是處理題組數(shù)據(jù)的優(yōu)勢(shì)模型，值得推廣。

6.2 討論與展望

6.2.1 PCDTM 適用性

整體而言，PCDTM 模型具有較好的參數(shù)估計(jì)表現(xiàn)，對(duì)無(wú)題組效應(yīng)的作答數(shù)據(jù)也能達(dá)到與GPCDM 相近的精度，同時(shí)對(duì)有題組效應(yīng)的作答數(shù)據(jù)，PCDTM 模型擬合效果更佳，參數(shù)估計(jì)精度也更高。這是因?yàn)镻CDTM 模型對(duì)局部依賴性進(jìn)行表征，將其視為影響作答結(jié)果的另一種影響因素，不僅能有效處理題目間存在的依賴性，還能減少了模型的系統(tǒng)誤差，提高了模型對(duì)數(shù)據(jù)的擬合程度，從而提高對(duì)被試能力和題目參數(shù)估計(jì)的精確性。

6.2.2 PCDTM 使用建議

模擬研究中，題目質(zhì)量對(duì)判準(zhǔn)率影響最大，樣本量影響最??；樣本量對(duì)題目參數(shù)影響最大，其次是題目質(zhì)量。當(dāng)樣本量增多，題目參數(shù)表現(xiàn)情況更好，若想得到較精準(zhǔn)的參數(shù)估計(jì)結(jié)果，又保證運(yùn)行效率，建議樣本量不低于1000。高題目質(zhì)量時(shí)，參數(shù)估計(jì)精度均較高，低題目質(zhì)量時(shí)，即使樣本量增加，判準(zhǔn)率也較低，此時(shí)通過(guò)提高題目數(shù)量，參數(shù)估計(jì)精度便能大幅度提高。因此，在實(shí)際應(yīng)用時(shí)樣本量至少1000 人；題目質(zhì)量較低時(shí)，題目至少40 題。

6.2.3 研究展望

未來(lái)研究可從以下方面探索：（1）本研究是以分部評(píng)分思想構(gòu)建模型，未來(lái)可基于不同建模思想，構(gòu)建豐富的多級(jí)評(píng)分題組模型；（2）項(xiàng)目功能差異檢驗(yàn)（differential item function，DIF）是衡量測(cè)驗(yàn)公平性的重要指標(biāo)，而目前基于題組模型的DIF 檢驗(yàn)方法大多基于CTT 或IRT，也需要適合認(rèn)知診斷的題組DIF 檢驗(yàn)方法；（3）多項(xiàng)選擇題（Multiple-Choice，MC）常以題組形式出現(xiàn)，雖已有對(duì)MC 題診斷方法的研究（Di-Bello et al.，2015；Liu&Liu，2021；郭磊，周文杰，2021），卻未處理存在的題組效應(yīng)，未來(lái)也需開(kāi)發(fā)合適的診斷模型。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡