国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

多級(jí)評(píng)分認(rèn)知診斷題組模型*

2023-10-24 10:00:54周文杰童望望
應(yīng)用心理學(xué) 2023年5期
關(guān)鍵詞:題組樣本量參數(shù)估計(jì)

周文杰 童望望 郭 磊,2**

(1.西南大學(xué)心理學(xué)部,重慶 400715;2.中國(guó)基礎(chǔ)教育質(zhì)量監(jiān)測(cè)協(xié)同創(chuàng)新中心西南大學(xué)分中心,重慶 400715)

1 引 言

當(dāng)前傳統(tǒng)測(cè)驗(yàn)領(lǐng)域僅提供籠統(tǒng)的測(cè)驗(yàn)總分或?qū)W生能力值來(lái)衡量學(xué)生的學(xué)業(yè)水平,但隨著對(duì)教育評(píng)估要求愈加精細(xì),這種傳統(tǒng)測(cè)驗(yàn)形式已不能滿足人們對(duì)評(píng)估的需求。因此,心理教育研究者不斷深入認(rèn)知診斷測(cè)評(píng)(cognitive diagnostic assessment,CDA)研究,使其既可報(bào)告?zhèn)€體具有的認(rèn)知結(jié)構(gòu)或?qū)χR(shí)的掌握情況,也便于教育者為學(xué)生進(jìn)行更客觀、更有針對(duì)性的教育評(píng)價(jià),并為教育補(bǔ)救指明方向。

在各種大型測(cè)驗(yàn)中,如高考、TOEFL、PISA 等,常存在多個(gè)題目隸屬于一個(gè)共同刺激的情況,如閱讀理解、完形填空、選詞填空等。這種一組題目共用一個(gè)刺激或材料的集合稱為題組(testlet)(Wainer &Kiely,1987)。使用題組有較多優(yōu)勢(shì):閱讀材料能被充分利用,不僅節(jié)約作答時(shí)間提高作答效率,還能節(jié)約成本(DeMars,2012;Huang,2013);由于題目隸屬于相同刺激,使得題目結(jié)構(gòu)更復(fù)雜,相關(guān)性與邏輯性更強(qiáng),就能測(cè)量被試更高層次思維能力(Haladyna,1992)。例如,圖1 是一道考察“確定平面圖中物體的位置的方法”(屬性1)和“線段比例尺的應(yīng)用”(屬性2)的六年級(jí)數(shù)學(xué)綜合題,該題目有兩個(gè)小題,考生在作答過(guò)程中受到材料的共同刺激,因此這兩個(gè)小題屬于一個(gè)題組結(jié)構(gòu),題目(1)考察了屬性1,滿分為3 分,題目(2)考察了屬性1和屬性2,滿分為4 分。這是一個(gè)典型的帶有題組結(jié)構(gòu)的多級(jí)計(jì)分題目。

圖1 六年級(jí)數(shù)學(xué)能力測(cè)試?yán)}

在項(xiàng)目反應(yīng)理論(item response theory,IRT)的領(lǐng)域中,研究者提出了多種處理題組結(jié)構(gòu)的方式,其中具有代表性的方法有:(1)視同一個(gè)題組下的題目具有雙重維度特性,一個(gè)維度是題組效應(yīng),一個(gè)維度是題目自身的效應(yīng),例如二階模型(second-order mode)(Rijmen,2010) 和雙因子模型(bi-factor model)(Demars,2006;Li et al.,2005);(2)將題目得分合成為題組得分,把同一個(gè)題組的題目看作一個(gè)多級(jí)評(píng)分題目(Wainer & Kiely,1987;Rosenbaum,1988);(3)將題組效應(yīng)視為影響反應(yīng)結(jié)果的潛變量,例如題組反應(yīng)模型(testlet response models,TRM)(Bradlow et al.,1999)等。第一種處理方法具有較強(qiáng)的限制,僅能處理當(dāng)題目只具有一層題組結(jié)構(gòu)時(shí)的情況。第二種方法則會(huì)導(dǎo)致信息丟失,能得到題組得分,卻不能獲得被試精確的作答結(jié)果,且測(cè)驗(yàn)信度會(huì)被低估(Yen,1993)。第三種處理方法更靈活地表征了題組內(nèi)的局部依賴性,獲得更精確的參數(shù)估計(jì)結(jié)果,且具有較好的拓廣性,可以處理多維題組的情況,是目前最常見(jiàn)的方式,本研究即采用該方法處理題組效應(yīng)。

認(rèn)知診斷領(lǐng)域中,詹沛達(dá)等人(2015)提出了能處理題組效應(yīng)的認(rèn)知診斷模型,后續(xù)結(jié)合反應(yīng)時(shí)模型提出聯(lián)合題組認(rèn)知診斷模型(Zhan et al.,2018),Hansen(2013)結(jié)合2-tier 模型(Cai,2010)和LCDM 也提出了一種適用于認(rèn)知診斷測(cè)驗(yàn)的題組模型。但這些模型只適用于二級(jí)評(píng)分?jǐn)?shù)據(jù),無(wú)法處理多級(jí)評(píng)分?jǐn)?shù)據(jù)。而實(shí)際上,心理、教育及社會(huì)學(xué)等領(lǐng)域中存在大量多級(jí)評(píng)分題型,如簡(jiǎn)答題、材料分析題、Likert 量表等,尤其我國(guó)許多測(cè)驗(yàn)二級(jí)和多級(jí)評(píng)分題目經(jīng)常混合使用(涂冬波等,2010),若采用二分模型擬合多級(jí)評(píng)分?jǐn)?shù)據(jù),會(huì)造成信息丟失(Ma&de la Torre,2016)。另外,雖然研究者已開(kāi)發(fā)多種多級(jí)評(píng)分診斷模型,如Sequential GDINA 模型(Ma et al.,2016)、一般化多級(jí)評(píng)分認(rèn)知診斷模型(General Polytomous Diagnosis Model,GPDM)(Chen & de la Torre,2018)、一般化分部評(píng)分認(rèn)知診斷模型(General Partial Credit Diagnostic Model,GPCDM)(高旭亮等,2019)等,但是均不能處理題組效應(yīng)。可以看出,目前能夠處理題組數(shù)據(jù)的診斷模型不適用于多級(jí)評(píng)分?jǐn)?shù)據(jù),而已有的多級(jí)評(píng)分診斷模型不能處理題組效應(yīng),多級(jí)診斷模型與題組反應(yīng)模型仍處于獨(dú)立研究階段。

綜上所述,本研究擬將多級(jí)評(píng)分診斷與題組效應(yīng)融合,開(kāi)發(fā)多級(jí)評(píng)分認(rèn)知診斷題組模型(Polytomous Cognitive Diagnosis Testlet Model,PCDTM)。本文首先介紹PCDTM 開(kāi)發(fā)過(guò)程;其次介紹馬爾可夫鏈蒙特卡洛算法(Markov chain Monte Carlo,MCMC)參數(shù)估計(jì)內(nèi)容;第三,使用模擬研究探究模型參數(shù)返真性;第四,使用實(shí)證數(shù)據(jù)檢驗(yàn)?zāi)P蜕鷳B(tài)效度。最后總結(jié)研究結(jié)果,展望未來(lái)研究發(fā)展方向。

2 多級(jí)評(píng)分認(rèn)知診斷題組模型的開(kāi)發(fā)

2.1 多級(jí)評(píng)分認(rèn)知診斷模型(GPCDM)簡(jiǎn)介

GPCDM 由高旭亮等(2019)提出,是一種以飽和模型GDINA 作為加工函數(shù)開(kāi)發(fā)的多級(jí)評(píng)分認(rèn)知診斷模型。GPCDM 用公式可描述為:

式中a1=(al1,al2,…,alk,…,alK)為被試屬性掌握模式,l=1,…,L,L=2K。alk為屬性掌握模式為a1的被試在第k 個(gè)屬性掌握情況,若被試掌握第k 個(gè)屬性,有alk=1,否則alk=0。qjx=(qjx1,qjx2,…,qjxk,…,qjxK)為第j 題第x 分屬性考察情況,若考察了第k 個(gè)屬性,則qjxk=1,否則qjxk=0。P(Xj=x)為屬性掌握模式為a1的被試在第j 題得x 分的概率。λjx,k為alk主效應(yīng),λjx,k′k為alk′和alk的二階交互效應(yīng);λjx,12,…,Kjx是掌握所有屬性時(shí)對(duì)作答產(chǎn)生的效應(yīng)大小。

2.2 多級(jí)評(píng)分認(rèn)知診斷題組模型構(gòu)建

2.2.1 多維題組效應(yīng)

圖2(a)表示單維題組效應(yīng),除被試能力θ 外,題目3 的作答還受到一個(gè)題組影響,且不同題組之間相互獨(dú)立;而圖2(b)多維題組測(cè)驗(yàn)中的題目3,4,5 同時(shí)受到了兩個(gè)題組的影響(魏丹等,2017;詹沛達(dá)等,2015)??梢?jiàn),單維題組是多維題組的特例。

圖2 單維/多維題組示意圖

多維題組效應(yīng)用公式可以描述為:

公式(2)表示被試i 在題目j 上共受到M 個(gè)題組效應(yīng)的影響。協(xié)方差矩陣Σ 表示題組效應(yīng)大小,Σ=(γi1,…,γim,…,γiM),γim~N(0,),γim表示被試i 在第m 個(gè)題組上的效應(yīng)大小。用判定矩陣U 矩陣表示每個(gè)題目在不同題組上的歸屬,其中列表示題組,行表示題目,U=(Uj1,…,Ujm,…,UjM),Ujm表示題目j 是否歸屬于第m 個(gè)題組,屬于則Ujm=1,否則Ujm=0。根據(jù)判定規(guī)則,圖2(b)的題組效應(yīng)可用圖3 表示。

圖3 U 矩陣示意圖

2.2.2多級(jí)評(píng)分認(rèn)知診斷題組模型(PCDTM)

進(jìn)一步結(jié)合多維題組和多級(jí)評(píng)分結(jié)構(gòu),見(jiàn)圖4(a)表示二級(jí)評(píng)分的多維題組結(jié)構(gòu),圖4(b)表示多級(jí)計(jì)分的多維題組結(jié)構(gòu),mj表示第j 題的滿分,可以發(fā)現(xiàn)在多級(jí)計(jì)分題組結(jié)構(gòu)中,被試屬性掌握模式α 影響所有的題目作答,同時(shí)題組效應(yīng)γ 可以影響同一個(gè)題組中不同題目在不同得分的作答,從而進(jìn)一步區(qū)別題組效應(yīng)在不同得分水平的影響。為使多級(jí)評(píng)分認(rèn)知診斷模型能有效處理題組效應(yīng),本研究在GPCDM基礎(chǔ)上引入多維題組效應(yīng)參數(shù),得到了多級(jí)評(píng)分認(rèn)知診斷題組模型(PCDTM),其函數(shù)表達(dá)式為:

圖4 二級(jí)/多級(jí)評(píng)分多維題組示意圖

3 參數(shù)估計(jì)

研究采用R 語(yǔ)言R2jags 包,調(diào)用MCMC 算法進(jìn)行參數(shù)估計(jì),設(shè)定每種實(shí)驗(yàn)條件循環(huán)30 次,每次循環(huán)設(shè)定鏈數(shù)為3,每條鏈長(zhǎng)5000,間隔數(shù)5,預(yù)熱前2000 次,取后3000 次參數(shù)收斂結(jié)果平均數(shù)為該鏈參數(shù)估計(jì)結(jié)果。若所有被估計(jì)參數(shù)的小于1.1 或1.2,則參數(shù)基本收斂(Brooks&Gelman,1998)。參考Zhan 等(2019)設(shè)置,設(shè)定待估計(jì)參數(shù)的先驗(yàn)分布為:λjx0~N(-1.096,4),λjx,k~N(0,4)I(λjx,k>0),λjx,k′k~N(0,4),alk~Bernoulli(0.5),γim~N(0,),~invGam(1,1)。PCDTM 模型代碼已上傳https://doi.org/10.6084/m9.figshare.21581331,供讀者參考和使用。

4 模擬研究

4.1 研究設(shè)計(jì)

模擬研究使用模型對(duì)比的方式,分別以PCDTM 和GPCDM 為真模型,生成有題組和無(wú)題組效應(yīng)作答數(shù)據(jù),再分別使用兩個(gè)模型擬合數(shù)據(jù)。研究自變量包括:(1)真模型(GPCDM,PCDTM);(2) 樣本量(500,1000,2000);(3)題目質(zhì)量(高,低);(4)題目數(shù)量(20,40 題)。

4.2 類別Q 矩陣與U 矩陣設(shè)定

類別Q 矩陣(Category-Q,Cat-Q)和U矩陣間附表1 和附表2 所示(40 題Cat-Q矩陣與U 矩陣為20 題重復(fù))。在Cat-Q 矩陣中,共考察了5 個(gè)屬性,每個(gè)得分類別最多考察2 個(gè)屬性,且每個(gè)屬性考察次數(shù)相同。測(cè)驗(yàn)中第1~11 題為三級(jí)評(píng)分題目,第12~15 題為四級(jí)評(píng)分題目,第16~20 題為二級(jí)評(píng)分題目。測(cè)驗(yàn)包含四個(gè)題組結(jié)構(gòu),題組1 包含第1~11 題,題組2 包含12~15 題,題組3 包含16~20 題,3 個(gè)題組分別有部分題目包含于題組4,構(gòu)成項(xiàng)目?jī)?nèi)多維題組結(jié)構(gòu)。

表1 被試判準(zhǔn)率PCCR/AACCR 值

4.3 模擬過(guò)程

4.3.1 被試參數(shù)設(shè)置

被試屬性從伯努利分布中隨機(jī)生成,即alk~Bernoulli(0.5),alk>0.5 取1,alk≤0.5則取0 從而得到不同屬性掌握模式。

4.3.2 題目參數(shù)與題組效應(yīng)設(shè)置

參考Ma 等人(2016) 和高旭亮等(2019)的生成方法,將高質(zhì)量題目參數(shù)設(shè)置為:logit{gx[P(Xj=x | a1=0)]}從均勻分布U(0,0.25)中隨機(jī)生成,logit{gx[P(Xj=x |a1=0)]}從均勻分布U(0.75,1)中隨機(jī)生成;低質(zhì)量題目參數(shù)設(shè)置為:logit{gx[P(Xj=x | a1=0)]}從均勻分布U(0,0.4)中隨機(jī)生成,logit{gx[P(Xj=x | a1=0)]}從均勻分布U(0.6,1)中隨機(jī)生成。

4 個(gè)題組效應(yīng)滿足多元正態(tài)分布,γ~MVN4(0,Σ),題組效應(yīng)方差取值=0.25,=0.5,=0.75,=1(Wang & Wilson,2005),對(duì)角矩陣如下所示:

4.3.3 模擬作答

將被試及題目參數(shù)真值帶入公式(1)和公式(3),計(jì)算被試在第j 題得x 分的作答概率P(Xj=x | a1),被試在該題最終作答結(jié)果根據(jù)對(duì)應(yīng)概率大小進(jìn)行抽取。

4.4 評(píng)價(jià)指標(biāo)

使用均方根誤差(root mean square error,RMSE) 和相對(duì)偏差的絕對(duì)值(the absolute of relative bias,ARB)作為題目參數(shù)和題組參數(shù)評(píng)價(jià)指標(biāo)。平均屬性判準(zhǔn)率(average attribute correct classification rate,AACCR)考察屬性返真性;屬性模式判準(zhǔn)率(pattern correct classification rate,PCCR)作為屬性掌握模式返真性評(píng)價(jià)指標(biāo)。以上指標(biāo)是認(rèn)知診斷研究中常見(jiàn)的參數(shù)估計(jì)精度的評(píng)價(jià)指標(biāo)(詹沛達(dá)等,2015;Ma et al.,2016;Chen&de la Torre,2018)。

4.5 模擬研究結(jié)果

4.5.1 被試判準(zhǔn)率返真性

表1 為被試判準(zhǔn)率返真性。當(dāng)真模型為GPCDM 時(shí),PCDTM 與GPCDM 的判準(zhǔn)精度非常相近,二者的PCCR 值最大差異僅為0.003,AACCR 最大差異為0.001。當(dāng)真模型為PCDTM 時(shí),PCDTM 明顯優(yōu)于GPCDM,二者PCCR 最大差異0.094,AACCR 最大差異0.021。這說(shuō)明,當(dāng)存在題組效應(yīng)時(shí),PCDTM 可以更準(zhǔn)確地對(duì)被試進(jìn)行判別。

當(dāng)存在題組效應(yīng)時(shí),自變量中,題目質(zhì)量的影響最大,樣本量的影響最小。具體而言:①題目質(zhì)量越高,被試判準(zhǔn)率越高。在各題目質(zhì)量條件下,PCDTM 判準(zhǔn)精度均優(yōu)于GPCDM,隨著題目質(zhì)量提高,使得兩個(gè)模型判準(zhǔn)精度均有較大提高,PCCR 最大可分別提高12.5%和12.3%。②隨著題目數(shù)量增多,兩個(gè)模型判準(zhǔn)率均有所提高,但PCDTM 對(duì)題目數(shù)量變化更敏感,PCDTM的PCCR 最大可提升17%,GPCDM 最大僅為12.7%。在低質(zhì)量條件下,隨著題目數(shù)量的增加,兩個(gè)模型判準(zhǔn)率差距也隨之增大,PCDTM 模式判準(zhǔn)率大幅度提高,均維持在0.9 以上;而在高題目質(zhì)量條件下,不論題目數(shù)量如何變化,PCDTM 始終有著較高判準(zhǔn)率。③隨著樣本量增加,PCDTM 模型判準(zhǔn)率也在穩(wěn)步提升,PCCR 從[0.748,0.918]提高至[0.766,0.974]。

4.5.2 題目參數(shù)返真性

附表3 為題目參數(shù)返真性。整體上,當(dāng)真模型為GPCDM 時(shí),PCDTM 可以達(dá)到與GPCDM 相近的題目參數(shù)估計(jì)精度;而當(dāng)真模型為PCDTM 時(shí),GPCDM 參數(shù)估計(jì)精度要明顯差于PCDTM。當(dāng)GPCDM 為真模型時(shí),兩個(gè)模型題目參數(shù)估計(jì)精度大致相同。當(dāng)PCDTM 為真模型時(shí),GPCDM 的RMSE和ARB 整體增大,題目參數(shù)估計(jì)精度大幅度降低,而PCDTM 有較高的題目參數(shù)估計(jì)精度,且隨著樣本量、題目質(zhì)量、題目數(shù)量的提高,估計(jì)精度進(jìn)一步提高。其中,樣本量影響最大,其次是題目質(zhì)量,題目數(shù)量影響相對(duì)較小,GPCDM 題目參數(shù)返真性卻出現(xiàn)混亂的情況。

表3 實(shí)證研究模型擬合結(jié)果

4.5.3 題組效應(yīng)估計(jì)結(jié)果

圖5 和圖6 分別為PCDTM 為真模型時(shí)(即存在題組效應(yīng))和GPCDM 為真模型時(shí)(即不存在題組效應(yīng)時(shí))時(shí),PCDTM 的題組效應(yīng)參數(shù)返真性。整體上PCDTM 具有較小的估計(jì)偏差,隨著樣本量、題目數(shù)量的提高,對(duì)題組效應(yīng)參數(shù)估計(jì)精度進(jìn)一步提高,并且PCDTM 能較好識(shí)別沒(méi)有題組效應(yīng)的情境,結(jié)果表明PCDTM 模型在各種情境下均能較好地估計(jì)題組效應(yīng)參數(shù)。

圖5 PCDTM 為真模型時(shí),PCDTM 的題組效應(yīng)參數(shù)誤差均方根(RMSE)

圖6 GPCDM 為真模型時(shí),PCDTM 的題組效應(yīng)參數(shù)誤差均方根(RMSE)

綜上所述,當(dāng)GPCDM 為真模型時(shí),GPCDM 和PCDTM 判準(zhǔn)率和題目參數(shù)估計(jì)精度差異較小;當(dāng)PCDTM 為真模型時(shí),PCDTM 判準(zhǔn)率和題目參數(shù)估計(jì)精度明顯優(yōu)于GPCDM,且有較好的題組效應(yīng)參數(shù)估計(jì)結(jié)果,而GPCDM 估計(jì)精度大幅度降低,且估計(jì)結(jié)果還出現(xiàn)混亂情況。因此,PCDTM診斷能力更佳,更具普適性。

5 實(shí)證研究

5.1 研究目的

分別使用PCDTM 與GPCDM 模型分析2012 年數(shù)學(xué)大規(guī)模測(cè)評(píng)數(shù)據(jù),探查二者在實(shí)際數(shù)據(jù)應(yīng)用中的效果。該測(cè)驗(yàn)為二級(jí)與多級(jí)評(píng)分題目混合,共114 題,考察了9476 名學(xué)生的三個(gè)數(shù)學(xué)認(rèn)知屬性:數(shù)與代數(shù)、空間幾何與概率統(tǒng)計(jì)(魏丹等,2017),Cat-Q 矩陣見(jiàn)附表4。其中,測(cè)驗(yàn)有7 個(gè)題組,Testlet7 中5 個(gè)題目又分別屬于其他5個(gè)題組中,形成項(xiàng)目?jī)?nèi)多維題組效應(yīng),加粗的題目即構(gòu)成項(xiàng)目?jī)?nèi)多維題組效應(yīng)(如表2 所示)。

表4 題目參數(shù)估計(jì)均值(括號(hào)內(nèi)為估計(jì)標(biāo)準(zhǔn)誤)

5.2 評(píng)價(jià)指標(biāo)

使用MCMC 參數(shù)估計(jì)中常用的偏差信息量準(zhǔn)則(Deviance information criterion,DIC)擬合指標(biāo)來(lái)評(píng)價(jià)模型在實(shí)證數(shù)據(jù)中的擬合效果。

5.3 研究結(jié)果

5.3.1 模型與測(cè)驗(yàn)整體擬合度比較

表3 為模型擬合結(jié)果。由結(jié)果可知,PCDTM 的擬合指標(biāo)更小,數(shù)據(jù)擬合更優(yōu),表明在包含題組結(jié)構(gòu)的測(cè)驗(yàn)中,更適合用PCDTM 進(jìn)行分析。PCDTM 對(duì)七個(gè)題組效應(yīng)方差的估計(jì)結(jié)果為=0.001,=0.507,=0.639,=0.397,=0.498,=0.846,=1.071。其中,第一個(gè)題組效應(yīng)非常小,該題組可能不存在,其余6 個(gè)題組對(duì)該數(shù)學(xué)測(cè)驗(yàn)產(chǎn)生中等或高程度的題組效應(yīng)。正是由于GPCDM 忽視了該測(cè)驗(yàn)的題組效應(yīng),導(dǎo)致模型擬合偏差增大。

5.3.2 題目參數(shù)估計(jì)均值比較

表4 為兩個(gè)模型對(duì)實(shí)證研究題目的截距項(xiàng)和主效應(yīng)項(xiàng)的參數(shù)估計(jì)均值及標(biāo)準(zhǔn)誤。其中λjx0為截距項(xiàng),λjx,1,λjx,2和λjx,3分別為三個(gè)屬性的主效應(yīng)參數(shù)。結(jié)果顯示,相比于GPCDM,PCDTM 的題目參數(shù)估計(jì)的標(biāo)準(zhǔn)誤更小,表明PCDTM 模型估計(jì)的可靠性更高。

整體而言,PCDTM 模型與實(shí)證數(shù)據(jù)的擬合情況更好,題目參數(shù)估計(jì)結(jié)果更佳,是處理帶題組測(cè)驗(yàn)的優(yōu)勢(shì)模型。

6 研究結(jié)論與討論

6.1 研究結(jié)論

本文將多維題組隨機(jī)效應(yīng)參數(shù)引入多級(jí)評(píng)分認(rèn)知診斷模型中,成功構(gòu)建了PCDTM 模型,并得出以下結(jié)論:

(1)PCDTM 合理有效,無(wú)論測(cè)驗(yàn)是否含有題組效應(yīng),均能得到精確的參數(shù)估計(jì)結(jié)果。隨著樣本量、題目質(zhì)量、題目數(shù)量增加,被試判準(zhǔn)率、題目參數(shù)與題組效應(yīng)參數(shù)估計(jì)精度均有所提高。

(2)忽視題組效應(yīng),會(huì)降低題目參數(shù)估計(jì)精度和被試判準(zhǔn)率,甚至出現(xiàn)估計(jì)結(jié)果混亂的情況。

(3)實(shí)證研究中,PCDTM 模型擬合更優(yōu),參數(shù)估計(jì)精度更高,是處理題組數(shù)據(jù)的優(yōu)勢(shì)模型,值得推廣。

6.2 討論與展望

6.2.1 PCDTM 適用性

整體而言,PCDTM 模型具有較好的參數(shù)估計(jì)表現(xiàn),對(duì)無(wú)題組效應(yīng)的作答數(shù)據(jù)也能達(dá)到與GPCDM 相近的精度,同時(shí)對(duì)有題組效應(yīng)的作答數(shù)據(jù),PCDTM 模型擬合效果更佳,參數(shù)估計(jì)精度也更高。這是因?yàn)镻CDTM 模型對(duì)局部依賴性進(jìn)行表征,將其視為影響作答結(jié)果的另一種影響因素,不僅能有效處理題目間存在的依賴性,還能減少了模型的系統(tǒng)誤差,提高了模型對(duì)數(shù)據(jù)的擬合程度,從而提高對(duì)被試能力和題目參數(shù)估計(jì)的精確性。

6.2.2 PCDTM 使用建議

模擬研究中,題目質(zhì)量對(duì)判準(zhǔn)率影響最大,樣本量影響最??;樣本量對(duì)題目參數(shù)影響最大,其次是題目質(zhì)量。當(dāng)樣本量增多,題目參數(shù)表現(xiàn)情況更好,若想得到較精準(zhǔn)的參數(shù)估計(jì)結(jié)果,又保證運(yùn)行效率,建議樣本量不低于1000。高題目質(zhì)量時(shí),參數(shù)估計(jì)精度均較高,低題目質(zhì)量時(shí),即使樣本量增加,判準(zhǔn)率也較低,此時(shí)通過(guò)提高題目數(shù)量,參數(shù)估計(jì)精度便能大幅度提高。因此,在實(shí)際應(yīng)用時(shí)樣本量至少1000 人;題目質(zhì)量較低時(shí),題目至少40 題。

6.2.3 研究展望

未來(lái)研究可從以下方面探索:(1)本研究是以分部評(píng)分思想構(gòu)建模型,未來(lái)可基于不同建模思想,構(gòu)建豐富的多級(jí)評(píng)分題組模型;(2)項(xiàng)目功能差異檢驗(yàn)(differential item function,DIF)是衡量測(cè)驗(yàn)公平性的重要指標(biāo),而目前基于題組模型的DIF 檢驗(yàn)方法大多基于CTT 或IRT,也需要適合認(rèn)知診斷的題組DIF 檢驗(yàn)方法;(3)多項(xiàng)選擇題(Multiple-Choice,MC)常以題組形式出現(xiàn),雖已有對(duì)MC 題診斷方法的研究(Di-Bello et al.,2015;Liu&Liu,2021;郭磊,周文杰,2021),卻未處理存在的題組效應(yīng),未來(lái)也需開(kāi)發(fā)合適的診斷模型。

猜你喜歡
題組樣本量參數(shù)估計(jì)
善用變式題組突破二項(xiàng)展開(kāi)式問(wèn)題
題組助力學(xué)習(xí)“光現(xiàn)象”
題組助力學(xué)習(xí)“聲現(xiàn)象”
基于新型DFrFT的LFM信號(hào)參數(shù)估計(jì)算法
醫(yī)學(xué)研究中樣本量的選擇
航空裝備測(cè)試性試驗(yàn)樣本量確定方法
商榷這道商榷題的修改題組
Sample Size Calculations for Comparing Groups with Binary Outcomes
Logistic回歸模型的幾乎無(wú)偏兩參數(shù)估計(jì)
基于向前方程的平穩(wěn)分布參數(shù)估計(jì)
东港市| 四川省| 延庆县| 扎兰屯市| 朔州市| 阳东县| 长兴县| 碌曲县| 南昌市| 琼海市| 精河县| 黄浦区| 铜梁县| 肥乡县| 泗水县| 云南省| 和田县| 霍林郭勒市| 鄯善县| 清苑县| 洪洞县| 太保市| 和田县| 神木县| 炉霍县| 嘉鱼县| 当涂县| 财经| 洛扎县| 汝州市| 安庆市| 甘德县| 多伦县| 岳阳市| 彭阳县| 临江市| 高州市| 孟州市| 高邮市| 章丘市| 荣成市|