艾國金,甘登文,丁樹良,熊建華
(江西師范大學(xué)計(jì)算機(jī)信息工程學(xué)院,江西南昌330022)
教育認(rèn)知診斷由于可以為家長、老師和學(xué)生提供診斷信息,為因材施教提供參考和指導(dǎo),因而備受國內(nèi)外研究者和應(yīng)用者的青睞.認(rèn)知診斷計(jì)算機(jī)化自適應(yīng)測(cè)驗(yàn)(cognitive diagnosis computerized adaptive testing,CD_CAT)運(yùn)用能夠體現(xiàn)“因人施教、量體裁衣”的CD_CAT選題策略和終止規(guī)則,根據(jù)被試當(dāng)前的狀態(tài)自適應(yīng)匹配項(xiàng)目進(jìn)行測(cè)驗(yàn),獲得被試對(duì)項(xiàng)目的反應(yīng),通過反應(yīng)快速、準(zhǔn)確地診斷出被試對(duì)測(cè)驗(yàn)所涉及屬性的掌握情況[1].近些年來,國內(nèi)外對(duì)CD_CAT的研究越來越多,也越來越深入,與傳統(tǒng)CAT不同的是目前CD_CAT中還沒有找到類似Fisher信息量指標(biāo)衡量測(cè)量誤差,因此認(rèn)知診斷CAT通常采用施測(cè)起來較為方便的定長CAT的形式作為其終止規(guī)則或者采用其他指標(biāo)作為不定長的終止規(guī)則.
目前對(duì)不定長CD_CAT終止規(guī)則的研究并不多,如C.Tatsuoka[2]建議如果被試的后驗(yàn)概率達(dá)到0.8以上,測(cè)驗(yàn)終止;Cheng Ying[3]則建議當(dāng)后驗(yàn)的SHE值或鄰近SHE值的變化足夠小時(shí),或鄰近2次后驗(yàn)KL距離足夠小時(shí),測(cè)驗(yàn)終止;C.L.Hsu等[4]通過大量實(shí)驗(yàn)提出當(dāng)最大潛在模式后驗(yàn)概率大于某個(gè)預(yù)定的值(如0.7)或當(dāng)最大潛在模式后驗(yàn)概率大于某個(gè)預(yù)定的值(如0.7)且第2大潛在模式后驗(yàn)概率小于某個(gè)預(yù)定值(如0.1)時(shí),測(cè)驗(yàn)終止;郭磊等[5]則認(rèn)為當(dāng)鄰近后驗(yàn)概率之差等于某個(gè)足夠小的值或?qū)傩詷?biāo)準(zhǔn)誤之差足夠小時(shí),測(cè)驗(yàn)終止.以上方法通過模擬實(shí)驗(yàn)都獲得了較好的效果.不定長CD_CAT至少在用題量方面可能比定長情形要節(jié)省一點(diǎn),本文討論CD_CAT的新的終止規(guī)則.
DINA 模型(deterministic inputs,noisy and gatemodel)表達(dá)式為
其中αi為被試i的知識(shí)狀態(tài)描述被試i是否掌握項(xiàng)目j所考察的所有屬性.若ηij=1,說明被試i掌握了項(xiàng)目j所考察的全部屬性;若ηij=0,則說明被試i對(duì)項(xiàng)目j所考察的屬性至少有1個(gè)未掌握,qjk為項(xiàng)目j所考察的屬性分量,其值為0或1.若qjk=1說明項(xiàng)目j考察了第k個(gè)屬性;若qjk=0則說明項(xiàng)目j未考察第k個(gè)屬性.
sj=P(Xij=0|ηij=1)表示被試i在掌握了項(xiàng)目j所考察的全部屬性的情況下,答錯(cuò)項(xiàng)目j的概率,通常稱為失誤參數(shù),gj=P(Xij=1|ηij=0)表示被試i在未全部掌握項(xiàng)目j所考察所有屬性的情況下,答對(duì)項(xiàng)目j的概率,通常稱為猜測(cè)參數(shù).
對(duì)各種不同終止規(guī)則本文均采用尚志勇等[6]提出的按屬性模式分層選題策略作為模擬試驗(yàn)的CD_CAT選題策略,利用MAP方法估計(jì)被試的知識(shí)狀態(tài),即將在作答模式Xi已知的條件下先計(jì)算被試各種可能的知識(shí)狀態(tài)對(duì)應(yīng)的后驗(yàn)概率分布,然后將具有最大后驗(yàn)概率對(duì)應(yīng)的知識(shí)狀態(tài)作為被試知識(shí)狀態(tài)的估計(jì)值,公式為
1.3.1 Hsu等方法 當(dāng)被試屬于某個(gè)知識(shí)狀態(tài)的最大后驗(yàn)概率P1st大于某個(gè)預(yù)定的值(如0.7)并且第2大后驗(yàn)概率P2nd小于某個(gè)預(yù)定值(如0.1)時(shí),測(cè)驗(yàn)終止,并給出了第2大后驗(yàn)概率的計(jì)算公式[4]:
其中K為考察屬性個(gè)數(shù),通常d根據(jù)需要取值,Hsu等在模擬實(shí)驗(yàn)中d取0,0.25,0.5和0.75.
1.3.2 鄰近后驗(yàn)概率之差法 鄰近后驗(yàn)概率之差法(difference of the adjacent posterior probabilitymethod,DAPP)[5]規(guī)定在測(cè)試過程中當(dāng)出現(xiàn)從屬于同一個(gè)知識(shí)狀態(tài)的前后2次鄰近的最大后驗(yàn)概率差的絕對(duì)值小于某個(gè)預(yù)設(shè)值時(shí),測(cè)驗(yàn)終止.
1.3.3 3種新終止規(guī)則 由于被試i每做一題,其不同潛在模式的后驗(yàn)概率就會(huì)更新一次.因此,若被試i做了t題,則不同潛在模式的后驗(yàn)概率累積的更新次數(shù)更多.對(duì)于好的選題策略,t越大最接近被試i真實(shí)知識(shí)狀態(tài)的潛在模式后驗(yàn)概率值會(huì)越來越大,其他潛在模式的后驗(yàn)概率值則會(huì)越來越小.受Hsu等方法2和DAPP法的啟發(fā),本文給出幾種新的終止規(guī)則.
方法1 被試i測(cè)驗(yàn)t題后觀察其最大后驗(yàn)概率與第2大后驗(yàn)概率之差,若差值足夠大,則說明被試i能夠較好地區(qū)分最大后驗(yàn)概率值對(duì)應(yīng)的知識(shí)狀態(tài)和其他潛在知識(shí)狀態(tài).最大后驗(yàn)概率與第2大后驗(yàn)概率之差M大于某個(gè)預(yù)設(shè)值,計(jì)算公式為
方法2 若最大后驗(yàn)概率與最小后驗(yàn)概率之差值足夠大,則說明被試i在作答最大后驗(yàn)概率對(duì)應(yīng)的項(xiàng)目時(shí),其答對(duì)的概率非常大.這也說明對(duì)被試i能夠較好地區(qū)分最大后驗(yàn)概率值對(duì)應(yīng)的知識(shí)狀態(tài)和其他潛在知識(shí)狀態(tài).最大后驗(yàn)概率與最小后驗(yàn)概率之差N大于某個(gè)預(yù)設(shè)值,計(jì)算公式為
方法3 如果方法1與方法2的差的絕對(duì)值,即第2大后驗(yàn)概率與最小后驗(yàn)概率之差的絕對(duì)值足夠小,說明此時(shí)最大后驗(yàn)概率已足夠大,按照MAP估計(jì)方法也能說明被試i能夠較好地區(qū)分與自己真值接近的知識(shí)狀態(tài)和其他潛在知識(shí)狀態(tài).方法1與方法2的差的絕對(duì)值小于某個(gè)預(yù)設(shè)值ξ,計(jì)算公式為
本文使用模式判準(zhǔn)率、人均測(cè)驗(yàn)用時(shí)、人均測(cè)驗(yàn)用題數(shù)、單個(gè)被試最大用題數(shù)和最小用題數(shù)、χ2統(tǒng)計(jì)量和測(cè)試重疊率作為考察指標(biāo).模式判準(zhǔn)率(patternmatch ratio,PMR),即被試掌握模式并判準(zhǔn)的人數(shù)占總?cè)藬?shù)的百分比,計(jì)算公式為:PMR=NP/N,其中NP指被試掌握模式并判對(duì)的人數(shù),N指總?cè)藬?shù);Time為N個(gè)被試開始測(cè)驗(yàn)到結(jié)束測(cè)驗(yàn)的總耗時(shí),SItems為 N個(gè)被試總使用題數(shù),人均測(cè)驗(yàn)用時(shí):T=Time/N,人均測(cè)驗(yàn)用題數(shù):S=SItems/N,單個(gè)被試最大用題數(shù)和最小用題數(shù),即被試在不同終止規(guī)則下在模擬實(shí)驗(yàn)過程中測(cè)驗(yàn)需要的最大題數(shù)和最小題數(shù);χ2統(tǒng)計(jì)量是用來反映項(xiàng)目被調(diào)用的均勻性,χ2指標(biāo)越小說明整個(gè)題庫的使用越均勻,計(jì)算公式為
其中Ajt為第j個(gè)項(xiàng)目模式下的第t個(gè)題目的曝光率,計(jì)算Ajt的公式為Ajt=nt/N,nt為第j個(gè)項(xiàng)目模式下的第t個(gè)題目的使用次數(shù).測(cè)試重疊率(Rt)也是用來衡量安全性的指標(biāo),計(jì)算公式為
其中Li為第i個(gè)人測(cè)試長度.
為驗(yàn)證新方法,本文在Window 7系統(tǒng),內(nèi)存2 GB的環(huán)境下,采用Matlab8.0(R2012b)為工具進(jìn)行Monte Carlo模擬實(shí)驗(yàn).實(shí)驗(yàn)中共考察了6個(gè)屬性,分為4種結(jié)構(gòu):線型、收斂型、發(fā)散型、無結(jié)構(gòu)型[7],如圖 1 所示,依次為 L、C、D、U.
圖1 4種屬性層級(jí)結(jié)構(gòu)圖
被試人數(shù)設(shè)為1000人,對(duì)于每種類型的屬性層級(jí)結(jié)構(gòu),有相應(yīng)的項(xiàng)目類qj(qj為潛在Q陣的某一列),每個(gè)項(xiàng)目類的屬性相同但參數(shù)不同,每類模式的項(xiàng)目設(shè)為100,項(xiàng)目的失誤參數(shù)和猜測(cè)參數(shù)均服從均勻分布U(0.05,0.25),以此建立題庫[8].
實(shí)驗(yàn)中將定長L=30、Tatsuoka提出的方法(以下簡(jiǎn)稱Tatsuoka法)、Hsu方法2(其中P1st>0.95,d=0.25)作為參照終止規(guī)則,方法1中M >0.99,方法2中N >0.99,方法3中ξ=0.001.利用Monte Carlo模擬測(cè)驗(yàn)并重復(fù)30次求平均值的方法,得到4種結(jié)構(gòu)下不同終止規(guī)則的模式判準(zhǔn)率如表1所示,人均測(cè)驗(yàn)用時(shí)如表2所示,人均測(cè)驗(yàn)用題數(shù)如表3所示,單個(gè)被試最大用題數(shù)和最小用題數(shù)如表4、表5所示,各方法的χ2統(tǒng)計(jì)量、測(cè)試重疊率如表6.
表1 4種結(jié)構(gòu)下不同終止規(guī)則的模式判準(zhǔn)率
表2 4種結(jié)構(gòu)下不同終止規(guī)則模擬實(shí)驗(yàn)人均測(cè)驗(yàn)用時(shí) 單位:s
表3 4種結(jié)構(gòu)下不同終止規(guī)則模擬實(shí)驗(yàn)人均測(cè)驗(yàn)用題數(shù) 單位:個(gè)
表4 4種結(jié)構(gòu)下不同終止規(guī)則模擬實(shí)驗(yàn)單個(gè)被試最大用題數(shù) 單位:個(gè)
表5 4種結(jié)構(gòu)下不同終止規(guī)則模擬實(shí)驗(yàn)單個(gè)被試最小用題數(shù) 單位:個(gè)
表6 不同終止規(guī)則模擬實(shí)驗(yàn)χ2指標(biāo)和測(cè)試重疊率指標(biāo)
從表1中可以得出:定長終止規(guī)則得到的模式判準(zhǔn)率要比不定長終止規(guī)則得到的稍好些,但是表現(xiàn)出的優(yōu)勢(shì)十分有限;在不定長終止規(guī)則中方法1、方法2和方法3要比Tatsuoka法和Hsu方法好,而方法1和方法2在不同屬性層級(jí)結(jié)構(gòu)下其模式判準(zhǔn)率表現(xiàn)也各有優(yōu)勢(shì).從表2、表3中可以看出:不定長終止規(guī)則的人均測(cè)驗(yàn)用時(shí)和人均測(cè)驗(yàn)用題數(shù)表現(xiàn)要優(yōu)于定長終止規(guī)則,方法3的表現(xiàn)又優(yōu)于其他終止規(guī)則;從表4、表5中可以看出:不同終止規(guī)則在單個(gè)被試最大用題數(shù)上的表現(xiàn)幾乎相當(dāng),在單個(gè)被試最小用題數(shù)上,不定長終止規(guī)則要優(yōu)于定長終止規(guī)則.從表6可以看出不定長終止規(guī)則χ2指標(biāo)和Rt指標(biāo)都優(yōu)于定長終止規(guī)則,結(jié)合前5個(gè)指標(biāo),在小幅度降低模式判準(zhǔn)率的前提下,方法3的表現(xiàn)要優(yōu)于其他終止規(guī)則.考慮到CD_CAT要實(shí)現(xiàn)“快速、準(zhǔn)確、安全”測(cè)驗(yàn)這個(gè)特點(diǎn),綜合表1~表6可以得出方法1、方法2、方法3要優(yōu)于其他方法.
雖然方法1、方法2和方法3在上述5個(gè)指標(biāo)上的表現(xiàn)都不錯(cuò),但在不同指標(biāo)上的優(yōu)勢(shì)卻不盡相同.新方法只討論了在DINA模型下的表現(xiàn)情況,如果改成其他模型新方法[9-11]是否可用.另外能否開發(fā)一個(gè)或多個(gè)不定長終止規(guī)則在上述7個(gè)指標(biāo)上的表現(xiàn)都為最佳,這些都有待在未來研究中進(jìn)一步探索.
[1]漆書青,戴海琦,丁樹良.現(xiàn)代教育與心理測(cè)量學(xué)原理[M].北京:高等教育出版社,2002.
[2]Tatsuoka C.Data analyticmethods for latent partially ordered classificationmodels[J].Applied Statistics,2002,51(3):337-350.
[3]Cheng Ying.Computerized adaptive testing:New developments and applications[D].Urbana-Champaign:University ofIllinois,2008.
[4]Hsu C L,Wang W C,Chen S Y.Variable-length computerized adaptive testing based on cognitive diagnosismodels[J].Applied Psychological Measurement,2014,4:6-7.
[5]郭磊,邊玉芳.認(rèn)知診斷計(jì)算機(jī)化自適應(yīng)測(cè)驗(yàn)變長終止規(guī)則的研究[C]//心理學(xué)與創(chuàng)新能力提升——第十六屆全國心理學(xué)學(xué)術(shù)會(huì)議論文集,2013.
[6]尚志勇,丁樹良.認(rèn)知診斷自適應(yīng)測(cè)驗(yàn)選題策略探新[J].江西師范大學(xué)學(xué)報(bào):自然科學(xué)版,2011,35(4):418-421.
[7]Leighton J P,Gierl M,Hunka S M.The attribute hierarchymethod for cognitive assessment:a variation on Tatsuoka’s rule-space approach [J].Journal of Educational Measurement,2004,41(3):205-236.
[8]唐小娟,丁樹良,毛萌萌,等.基于屬性層級(jí)結(jié)構(gòu)的認(rèn)知診斷測(cè)驗(yàn)的組卷[J].心理學(xué)探新,2013,33(3):252-259.
[9]丁樹良,羅芬,汪文義.多級(jí)評(píng)分認(rèn)知診斷測(cè)驗(yàn)藍(lán)圖的設(shè)計(jì)——獨(dú)立型和收斂型結(jié)構(gòu)[J].江西師范大學(xué)學(xué)報(bào):自然科學(xué)版,2014,38(2):265-269.
[10]丁樹良,羅芬,汪文義.多級(jí)評(píng)分認(rèn)知診斷測(cè)驗(yàn)藍(lán)圖的設(shè)計(jì)——根樹型結(jié)構(gòu)[J].江西師范大學(xué)學(xué)報(bào):自然科學(xué)版,2014,38(2):111-118.
[11]艾國金,甘登文,丁樹良.計(jì)算機(jī)化自適度認(rèn)知診斷測(cè)驗(yàn)按模式分層選題策略[J].江西師范大學(xué)學(xué)報(bào):自然科學(xué)版,2014,38(3):270-273.