劉 永 涂冬波
近年來,隨著認(rèn)知心理學(xué)、心理測量學(xué)和計(jì)算機(jī)技術(shù)的飛速發(fā)展,認(rèn)知診斷以微觀認(rèn)知角度對(duì)被試做出準(zhǔn)確評(píng)估與反饋的優(yōu)勢在心理與教育測量領(lǐng)域展現(xiàn)出巨大發(fā)展?jié)摿ΑH欢?,編制一份?yōu)良的認(rèn)知診斷測驗(yàn)并非易事。正如Tatsuoka所言,認(rèn)知診斷是一項(xiàng)復(fù)雜的工程,它至少包括“Q矩陣?yán)碚摗焙汀霸\斷分類”兩大部分[1]。Q矩陣是對(duì)測驗(yàn)項(xiàng)目與認(rèn)知屬性關(guān)系的描述,是診斷分類的基礎(chǔ)。以往許多研究中,一般均假設(shè)所界定的測驗(yàn)Q矩陣是正確的,并在此基礎(chǔ)上進(jìn)行診斷分類。但是,合理界定測驗(yàn)Q矩陣并非易事,典型的例子就是國外許多研究者[2-9]對(duì)Tatsuoka的分?jǐn)?shù)減法測驗(yàn)的屬性界定就爭論了二十多年,到目前為止仍未有定論。以至于DeCarlo曾感嘆測驗(yàn)屬性界定的復(fù)雜性,并認(rèn)為它是導(dǎo)致目前認(rèn)知診斷在實(shí)際應(yīng)用中受限的主要原因之一[6,10]。研究表明錯(cuò)誤界定的測驗(yàn)Q矩陣會(huì)嚴(yán)重影響模型參數(shù)估計(jì)及被試分類準(zhǔn)確性[11]。因此,對(duì)高質(zhì)量認(rèn)知診斷測驗(yàn)而言,合理界定測驗(yàn)Q矩陣十分必要。
縱觀國內(nèi)外相關(guān)研究[7,10,12-14],目前界定測驗(yàn)Q矩陣有三種基本思路:
(1)項(xiàng)目的簡單檢查(Simple inspection of the items):該界定思路比較普遍,其主要做法是在測驗(yàn)Q矩陣界定之初,依據(jù)編制者自身在該領(lǐng)域內(nèi)的經(jīng)驗(yàn)確定項(xiàng)目所測屬性。運(yùn)用該思路Henson等人對(duì)1999年 TIMSS(Third International Mathematics and Science Study)化學(xué)測驗(yàn)的題目屬性進(jìn)行界定[13]。
(2)多評(píng)分者法(Multiple Rater Methods):該思路主要是邀請(qǐng)領(lǐng)域內(nèi)若干經(jīng)驗(yàn)豐富的專家,通過討論或發(fā)放調(diào)查表來確定測驗(yàn)項(xiàng)目所測的屬性。運(yùn)用該思路界定測驗(yàn)Q矩陣比較廣泛,比如Li等人就運(yùn)用該方法對(duì)MELAB(Michigan English Language Assessment Battery)閱讀測驗(yàn)的Q矩陣進(jìn)行界定[12]。
(3)基于項(xiàng)目參數(shù)的迭代過程(Iterative procedures based on item parameters),該方法是在Q矩陣界定后進(jìn)行模型參數(shù)估計(jì),然后修正項(xiàng)目參數(shù)存在異常的項(xiàng)目屬性,最后將修正后的Q矩陣重新納入?yún)?shù)估計(jì)直到項(xiàng)目參數(shù)不再出現(xiàn)異常為止。判斷項(xiàng)目參數(shù)是否存在異常的方法包括:MCMC估計(jì)結(jié)果是否收斂;被試屬性類別的概率是否太低;擬合檢驗(yàn)結(jié)果是否理想等[13,14]?;谶@種思路de la Torre提出測驗(yàn)Q矩陣修正的δ法[7]、涂冬波等人提出γ法[10]。
不難發(fā)現(xiàn),上述三種思路存在缺陷:第一,項(xiàng)目的簡單檢查和多評(píng)分者法采用研究者或?qū)<乙庖娊缍y驗(yàn)Q矩陣雖然可以確保界定結(jié)果的可解釋性,但是,不同專家知識(shí)經(jīng)驗(yàn)間的差異及專家的遴選標(biāo)準(zhǔn)是這兩種思路必須面對(duì)的問題,目前而言對(duì)這些問題的回答并沒有統(tǒng)一的結(jié)論;第二,基于項(xiàng)目參數(shù)的迭代過程較前兩種雖有一定客觀性,但該方法往往以測驗(yàn)編制初期已經(jīng)界定好的Q矩陣為基礎(chǔ),前期界定的Q矩陣的正確與否會(huì)嚴(yán)重影響模型的參數(shù)估計(jì)進(jìn)而影響后續(xù)對(duì)Q矩陣修正的效果;第三,錯(cuò)誤界定的Q矩陣對(duì)診斷模型擬合也比較敏感[11],一旦模型發(fā)生改變修正所得的結(jié)果往往也千差萬別。
既然對(duì)高質(zhì)量認(rèn)知診斷測驗(yàn)而言合理構(gòu)建Q矩陣十分必要,而上述三種界定思路又存在著諸多缺陷,那么可否存從被試作答反應(yīng)入手估計(jì)出測驗(yàn)Q矩陣為專家界定測驗(yàn)Q矩陣提供參考呢?本文以Chiu[2]對(duì)Q矩陣估計(jì)方法分類為基礎(chǔ)①Chiu(2013)按是否涉及參數(shù)估計(jì)過程將Q矩陣估計(jì)分為參數(shù)化法和非參數(shù)化法,她將數(shù)據(jù)驅(qū)動(dòng)學(xué)習(xí)法歸為非參數(shù)化法,但本文認(rèn)為數(shù)據(jù)驅(qū)動(dòng)學(xué)習(xí)法要對(duì)模型參數(shù)進(jìn)行MLE估計(jì),應(yīng)屬參數(shù)化法。,從參數(shù)化與否出發(fā)介紹6種基于被試作答反應(yīng)的Q矩陣估計(jì)方法的思想、步驟及應(yīng)用情況,總結(jié)這些方法的特點(diǎn)并展望未來研究方向,為認(rèn)知診斷研究及應(yīng)用提供借鑒和基礎(chǔ)。
為表述方便,現(xiàn)對(duì)基本符號(hào)做統(tǒng)一規(guī)定:N、J分別為被試數(shù)和項(xiàng)目數(shù);U為被試作答反應(yīng)矩陣,uij為被試i對(duì)項(xiàng)目j的作答(1答對(duì),0答錯(cuò));K為測驗(yàn)考核的屬性數(shù)目,qjk為項(xiàng)目j對(duì)屬性k的考核狀況(1考核,0未考核);α為被試的知識(shí)狀態(tài)(Knowledge State,KS),αik為被試i對(duì)屬性k的掌握狀況(1掌握,0未掌握)。
非參數(shù)化估計(jì)法(Nonparametric estimation method)特點(diǎn)是使用統(tǒng)計(jì)聚類技術(shù),以距離最短為原則確定測驗(yàn)Q矩陣元素,包括爬山法[15-17]和統(tǒng)計(jì)提純法[2]。
該法源于Tatsuoka等人提出的規(guī)則空間法(Rule Space Method,RSM)[1,18,19]。RSM認(rèn)為如果由某一理想掌握模式(Ideal Mastery Pattern,IMP)對(duì)應(yīng)的理想項(xiàng)目反應(yīng)模式(Ideal Response Pattern,IRP)所確定的純規(guī)則點(diǎn)與由被試作答反應(yīng)向量(Response Vector,RV)確定的規(guī)則點(diǎn)之間距離最短,那么該IMP就為被試的屬性掌握模式。爬山法沿襲這一思路,不同之處在于計(jì)算IRP上。對(duì)屬性數(shù)目K已知的測驗(yàn),該法具體描述如下:
(1)隨機(jī)生成一個(gè)J行K列元素值在0,1之間的Q矩陣,同時(shí)生成2k個(gè)長度為K的IMP;
(2)由Q矩陣和IMP計(jì)算IRP,其第j個(gè)分量的計(jì)算公式如下:
(3)計(jì)算每個(gè)被試RV與所有IRP間的距離d,即:
(4)將最小的d作為該被試的誤差,對(duì)所有被試誤差求和作為Q矩陣總誤差;
(5)給單個(gè)Q矩陣元素加或減很小的值(如0.1),計(jì)算變化后Q矩陣總誤差,如果總誤差降低則將該元素值保存,繼續(xù)下一個(gè)元素估計(jì);
(6)重復(fù)(2)到(5)直到Q矩陣總誤差小于預(yù)設(shè)值(也稱終止規(guī)則)為止。
當(dāng)屬性數(shù)目K未知時(shí),可依次增加屬性個(gè)數(shù)直到符合終止規(guī)則①Barnes(2003,2010)認(rèn)為有兩種終止規(guī)則:(1)預(yù)先設(shè)定的值;(2)取Q矩陣總誤差相對(duì)較小的那個(gè)Q矩陣。為止。
Barnes[15]使用該方法對(duì)北卡萊羅納州立大學(xué)2002年秋季離散代數(shù)課程(Discrete Mathematics Course at North Carolina State University in Fall 2002)的數(shù)據(jù)進(jìn)行分析,結(jié)果發(fā)現(xiàn):(1)由專家定義的Q矩陣和估計(jì)的Q矩陣存在很大差異,差異主要表現(xiàn)在較難或較復(fù)雜項(xiàng)目上;(2)當(dāng)項(xiàng)目數(shù)量較多時(shí),估計(jì)Q的矩陣更準(zhǔn)確;(3)如果被試作答涉及高猜測或失誤,則需要大量被試,屬性個(gè)數(shù)也比低猜測或低失誤時(shí)要小。
該法初次嘗試基于被試作答反應(yīng)估計(jì)測驗(yàn)Q矩陣,結(jié)果雖粗糙且有不確定性,但它為后來研究提供了新思路。
Chiu認(rèn)為基于模型的Q矩陣修正或估計(jì)的方法的缺點(diǎn)是當(dāng)模型發(fā)生改變或模型—數(shù)據(jù)不擬合或擬合較差時(shí),效果會(huì)大打折扣[2]。此外,隨著屬性、測驗(yàn)項(xiàng)目及樣本量的增加,估計(jì)所耗費(fèi)的時(shí)間也成倍增加。因此,Chiu提出非參數(shù)化Q矩陣估計(jì)方法——統(tǒng)計(jì)提純法。
該方法認(rèn)為如果某一項(xiàng)目的被試作答反應(yīng)與理想反應(yīng)間的殘差平方和(Residual Sum of Squares,RSS)達(dá)到最小,就表明該項(xiàng)目的q向量被正確指定。具體可用下式表示:
公式3中,RSSj為所有被試在項(xiàng)目j的殘差平方和;ηij為被試i在項(xiàng)目j上的理想反應(yīng)(對(duì)于DINA模型,但是,現(xiàn)實(shí)情況下被試屬性向量α一般是未知的,不能直接得到ηij,需對(duì)公式3作如下變換:
其中,Cm為第m類潛在掌握類別(Latent Proficiency-class)被試的集合;ηmj表示第m類被試對(duì)項(xiàng)目j的理想反應(yīng)。盡管采用潛在類別m替代單個(gè)被試i,但屬性分類依舊困難。Chiu(2013)指出該法以一種非參數(shù)分類法為基礎(chǔ),通過計(jì)算加權(quán)的Hamming距離(Weighted Hamming Distance)對(duì)被試進(jìn)行分類[20]。該方法可以理解為:若屬性模式αi對(duì)應(yīng)的ηj能使dwh(ui,ηi)最小,那么αi就為該被試的屬性掌握模式。公式表述如下:
為使該法成為可能,Chiu(2013)開發(fā)了Q矩陣提純算法(The Q-matrix Refinement Algorithm),該算法的詳細(xì)步驟如下:
(1)將S(0)={1,...,J}和Q(0)②一般而言,Q(0)為測驗(yàn)編制之初由專家界定的Q矩陣。分別作為搜索項(xiàng)目池(Item Pool)和輸入Q矩陣(Input Q-matrix);
(2)基于Q(0)使用非參數(shù)分類法獲取被試屬性掌握模式α;
(3)使用 α 和Q(0)計(jì)算理想項(xiàng)目反應(yīng) η(DINA模型中
(4)使用η和觀察項(xiàng)目反應(yīng)u計(jì)算每個(gè)項(xiàng)目上所有被試的平均RSS(mean RSS across examinees),選擇項(xiàng)目池S(0)中最大RSS的項(xiàng)目,將其q向量記為;
(7)在S(0)中刪除項(xiàng)目j并更新為S(1);
(8)用 Q(1)和 S(1)替換 Q(0)和 S(0),重復(fù)(2)至(7)步,直到所有項(xiàng)目都被更新;
(9)重復(fù)(1)至(8)直到每個(gè)項(xiàng)目的RSS不再變化為止。
Chiu模擬考察了樣本量、屬性個(gè)數(shù)、被試屬性分布、項(xiàng)目參數(shù)上限、Q矩陣錯(cuò)誤率、誤設(shè)類型及診斷模型等對(duì)該法的影響,結(jié)果發(fā)現(xiàn):(1)Q矩陣平均判準(zhǔn)率(Mean q-entry Recovery Rate,MRR)隨樣本量和測驗(yàn)長度增加而增加;(2)屬性個(gè)數(shù)及項(xiàng)目參數(shù)上限與MRR呈反比;(3)被試屬性掌握模式呈離散均勻分布(Discrete Uniform Distribution)和高階分布(Higher Order Model)比多元正態(tài)分布(Multivariate Normal Threshold Model)的MRR要高;(4)無論何種Q矩陣錯(cuò)誤率、誤設(shè)類型及診斷模型,MRR都比較高。此外,她還對(duì)Tatsuoka分?jǐn)?shù)減法的數(shù)據(jù)進(jìn)行分析證實(shí)了模擬研究的結(jié)論[2]。
該方法的優(yōu)勢在于:(1)該方法較少受Q矩陣錯(cuò)誤率及誤設(shè)類型的影響;(2)它可以拓展到任意一種應(yīng)用屬性掌握模式和Q矩陣的診斷模型中,適用性比較廣;(3)與參數(shù)化估計(jì)方法相比,該方法只需要少量被試(200人以上)就可以達(dá)到很好的效果,適用于中小樣本的教育測驗(yàn)項(xiàng)目。但是,該法也有不足之處:(1)該方法以非參數(shù)分類為基礎(chǔ),由于非參數(shù)分類無法處理屬性數(shù)目不確定的情況,因此屬性數(shù)目不確定或錯(cuò)誤設(shè)定會(huì)嚴(yán)重影響該方法的估計(jì)效果;(2)雖然不同診斷模型(如DINA和NIDA)對(duì)該方法的效果沒有影響,但它不能識(shí)別診斷模型誤設(shè),必須以模型—數(shù)據(jù)擬合為前提。
參數(shù)化估計(jì)法(Parametric Estimation Method)是將Q矩陣視為模型參數(shù),用極大似然估計(jì)(Maximum Likelihood Estimation,MLE)或貝葉斯抽樣確定未知Q矩陣元素。包括數(shù)據(jù)驅(qū)動(dòng)學(xué)習(xí)法[21-23]、貝葉斯法、因素分析法和非線性懲罰估計(jì)法。
研究表明錯(cuò)誤界定的Q矩陣會(huì)導(dǎo)致模型資料嚴(yán)重失擬,進(jìn)而出現(xiàn)屬性識(shí)別錯(cuò)誤[2,11,14,24]。因此,開發(fā)能夠偵測Q矩陣誤設(shè)及從作答數(shù)據(jù)獲取Q矩陣的方法是值得探討的。基于此Liu等人提出數(shù)據(jù)驅(qū)動(dòng)學(xué)習(xí)法(也稱Q矩陣自學(xué)習(xí)理論[21])。
Liu等人認(rèn)為:若Q矩陣被正確指定,隨著被試人數(shù)增加,由Q矩陣確定反應(yīng)向量的分布與觀察反應(yīng)向量的分布趨于一致。其邏輯可以采用下式表示:
公式(6)中,Q'為待考慮Q矩陣(也可以稱為Q矩陣估計(jì)值);Qtrue為Q矩陣真值;P(u|Q',p,s,g)表示由參數(shù)(Q',p,s,g)確定的反應(yīng)向量u的分布;P?(u)為作答向量u的觀察分布。即:
其中,u為作答向量;Pα為P的分量,表示屬性向量α在所有屬性向量中的比例;ui為項(xiàng)目j作答;ui為被試i作答向量。
為使該邏輯具有實(shí)際意義,Liu等人引入T陣(T-matrix)的概念。T陣反映的是觀察反應(yīng)分布公式(8)與模型結(jié)構(gòu)公式(7)間的關(guān)系,它數(shù)據(jù)驅(qū)動(dòng)學(xué)習(xí)的核心。其構(gòu)建過程大致如下:
(1)對(duì)于單個(gè)項(xiàng)目而言,令BQ',s,g(j)表示長度為2K包含P(uj=1|Q',p,s,g)有序排列的行向量,根據(jù)DINA模型,公式(7)可表示為:
(2)就項(xiàng)目對(duì)(Pair of Items)而言,公式(9)可以表示為:
(3)同理,構(gòu)建T陣如下:
公式(11)中的 BQ',s,g(J)與公式(1)中的 BQ',s,g(j)區(qū)別在于J表示的是多個(gè)項(xiàng)目的組合而非單個(gè)項(xiàng)目。依據(jù)公式(9),T陣可表示為:
令 β為與公式(12)對(duì)應(yīng)的列向量,其分量為該項(xiàng)目組合的人數(shù)比,即:當(dāng)N→∞且β=Ts,g(Q')p時(shí),Q'就為正確指定的Q矩陣。此時(shí),可建立目標(biāo)函數(shù)(Objective Function)如下:
(1)確定初始Q矩陣(稱為Q0),在實(shí)際應(yīng)用中可用專家判斷得到的Q矩陣代替。對(duì)于每個(gè)Q'而言,令Ωj(Q')為除Q'中第J行(項(xiàng)目)外的J×K個(gè)矩陣系列。
(2)將Q0作為迭代初值,即Q(0)=Q0。對(duì)于第m次迭代,Q0從前一次迭代Qm-1中得到;
(6)重復(fù)(2)到(4)直到Q(m)=Q(m-1)。
對(duì)于每一次迭代m,算法都要更新J個(gè)項(xiàng)目中的一個(gè)。如果第j個(gè)項(xiàng)目得到更新,那么下一次迭代的Q陣就包含了項(xiàng)目j的屬性向量,記為Qj。由于對(duì)(3)步中目標(biāo)函數(shù)S的優(yōu)化估計(jì)最多需要2K次,因此,每一次迭代對(duì)目標(biāo)函數(shù)S的優(yōu)化估計(jì)(Optimization Evaluating)需要J×2K次,這大大低于將整個(gè)Q陣進(jìn)行優(yōu)化所需的2J×K次。
Liu等人模擬考察樣本量、屬性個(gè)數(shù)、被試屬性分布等因素對(duì)該方法的影響,結(jié)果發(fā)現(xiàn):屬性無結(jié)構(gòu)、小樣本(500人)且項(xiàng)目數(shù)固定(20題),估計(jì)Q矩陣與原始Q矩陣不一致率隨屬性個(gè)數(shù)增加而增加,K=5,不一致率達(dá)62%;早期終止規(guī)則①Liu等人建議設(shè)定為0.045,具體可參考Liu等人(2012)的研究。(early stopping rule)可降低小樣本的高不一致率;屬性α為非均勻分布(屬性間存在相關(guān)),樣本量影響隨屬性間相關(guān)程度降低而變小[22]。
樣本足夠多情況下應(yīng)用該方法是不錯(cuò)的選擇。但若違反“猜測參數(shù)已知”和“Q矩陣必須是完備的”①“Q陣必須是完備的”指對(duì)于無結(jié)構(gòu)型的屬性層級(jí)而言,測驗(yàn)Q矩陣必須包含單位陣。假設(shè)將導(dǎo)致Q矩陣無法識(shí)別,實(shí)際中能否滿足還存在疑問。此外,其計(jì)算復(fù)雜度隨樣本量、項(xiàng)目和屬性數(shù)目增多而變難,對(duì)大規(guī)模測驗(yàn)而言是不可接受的。
絕大多數(shù)診斷模型需要正確的測驗(yàn)Q矩陣,但正確界定測驗(yàn)Q矩陣所有元素是異常困難的。因此,Templin和Henson提出將Q矩陣若干(非全部)不確定元素視為該項(xiàng)目考核已知屬性的主觀概率,通過抽樣獲取這些元素的后驗(yàn)分布,用后驗(yàn)均值替代這些未知元素[24]。這是貝葉斯思想用于Q矩陣估計(jì)的雛形。
DeCarlo在Templin和Henson的基礎(chǔ)上進(jìn)行了深入研究,DeCarlo認(rèn)為:允許Q矩陣某些元素是隨機(jī)而不是固定的,將這些元素視為某一概率參數(shù)的Bernoulli變量,通過貝葉斯抽樣來獲取這些元素[4]。具體步驟如下:
(1)定義未知參數(shù)的先驗(yàn)分布:Q矩陣未知元素服從以Beta分布為先驗(yàn)分布的共軛分布(conjugate prior),即
(2)由先驗(yàn)分布對(duì)未知元素進(jìn)行抽樣,得到后驗(yàn)分布并計(jì)算后驗(yàn)均值。公式如下:
(3)將后驗(yàn)均值作為 pjk帶入(1)步得到未知元素qjk。
DeCarlo模擬考察Q矩陣元素缺失率、已知元素錯(cuò)誤率及屬性數(shù)目未知等因素對(duì)該法的影響,結(jié)果發(fā)現(xiàn):估計(jì)準(zhǔn)確率隨Q矩陣元素缺失率增加而下降;估計(jì)準(zhǔn)確率隨已知元素錯(cuò)誤率增加而降低;屬性個(gè)數(shù)未知,估計(jì)準(zhǔn)確率降低。隨后,他分析Tatsuoka分?jǐn)?shù)減法數(shù)據(jù)得到Q矩陣估計(jì)結(jié)果與前人研究不相上下的結(jié)論。這表明相比de la Torre的方法,該法更簡便。但它在Q矩陣其他元素(非未知元素)都正確時(shí)才具有很好的效果,即它不能處理Q矩陣其他元素確定性不高或所有元素都缺失的情形。
該方法源于因素分析技術(shù),用成分(component)表示測驗(yàn)涉及的技能或技能系列(skills or skill sets),通過專家對(duì)這些成分進(jìn)行分析來獲取Q矩陣[5]。包含兩步:
(1)因素分析過程:用因素分析中主成分分析法(Principal Components Analysis,PCA)從被試作答矩陣中抽取成分矩陣和成分間相關(guān)系數(shù)矩陣;
(2)專家判斷過程:邀請(qǐng)領(lǐng)域內(nèi)專家對(duì)成分矩陣和成分間相關(guān)系數(shù)矩陣進(jìn)行分析,得到最終Q矩陣。
為便于理解主成分分析過程,Close(2012)將DINA模型變換為符合主成分模型的形式。即:
其中,M為項(xiàng)目涉及的技能或技能系列數(shù)目(相當(dāng)于主成分分析模型的成分?jǐn)?shù)目);λjm為項(xiàng)目j在技能系列m的標(biāo)準(zhǔn)負(fù)荷;fim為被試i在技能系列m的標(biāo)準(zhǔn)得分。一般不能直接獲取λjm和fim,需用下式得到:
Close模擬發(fā)現(xiàn):使用該法得到技能系列數(shù)目與原始Q矩陣中技能組合數(shù)目一致。隨后,她以項(xiàng)目參數(shù)及被試分類的準(zhǔn)確性為指標(biāo)交叉驗(yàn)證(crossvalidation)了 Tatsuoka分?jǐn)?shù)減法數(shù)據(jù)、NEAP(National Assessment of Educational Progress)2003年8年級(jí)數(shù)學(xué)測驗(yàn)數(shù)據(jù)和MDE(Minnesota Department of Education)2006年4年級(jí)數(shù)學(xué)測驗(yàn)數(shù)據(jù),結(jié)果表明該法得到的Q矩陣無論項(xiàng)目參數(shù)精度還是被試分類準(zhǔn)確性都要優(yōu)于原始Q矩陣。
該方法有兩個(gè)優(yōu)點(diǎn):第一,它可用于屬性數(shù)目未知的測驗(yàn),而這是其他方法達(dá)不到的;第二,計(jì)算簡便,一般采用SPSS軟件就可完成主成分提取。但該方法也有缺點(diǎn):首先,它不適用于項(xiàng)目較少的測驗(yàn),它要求每種技能或技能系列必須被多個(gè)項(xiàng)目考核,現(xiàn)實(shí)情況下這一前提很難得到滿足;其次,它并不能直接獲取Q矩陣,需專家判定才能得到,仍擺脫不了專家意見不一致及專家遴選標(biāo)準(zhǔn)不一致的困難;最后,該方法只開發(fā)出DINA模型主成分形式,在其他模型日益應(yīng)用的今天略顯單薄。
該方法是針對(duì)Liu等人數(shù)據(jù)驅(qū)動(dòng)學(xué)習(xí)法缺點(diǎn)提出來的。Xiang認(rèn)為數(shù)據(jù)驅(qū)動(dòng)學(xué)習(xí)法“Q矩陣必須是完備的”假設(shè)很難滿足,當(dāng)項(xiàng)目少而考核屬性多時(shí),它無法對(duì)Q矩陣進(jìn)行準(zhǔn)確估計(jì)[3]。此外,離散二分變量估計(jì)耗時(shí)較長,對(duì)項(xiàng)目較多的測驗(yàn)而言是不可接受的。
Xiang沿用Barnes對(duì)項(xiàng)目屬性間關(guān)系的描述,用概率表示項(xiàng)目考核該屬性的可能性。他認(rèn)為屬性掌握模式為αi的被試答對(duì)考核模式為qj項(xiàng)目的概率等同于該項(xiàng)目未考核且被試未掌握的概率見公式(19)[3,15]。具體步驟如下:
(1)令 P(uij=1|αi,qj)為屬性掌握模式 αi的被試答對(duì)項(xiàng)目考核模式qj的概率,其公式表示如下:
(2)根據(jù)條件獨(dú)立性假設(shè),可以構(gòu)建被試i在J道題上作答概率的似然為:
(3)為了使qjk∈(0,1),需要對(duì)qjk進(jìn)行指數(shù)變換,用替換qjk,即:
(4)由于被試的屬性向量αi無法直接獲取,需要用潛在掌握模式進(jìn)行替換,更具條件獨(dú)立性假設(shè),可以構(gòu)建項(xiàng)目反應(yīng)函數(shù)的似然函數(shù)如下式:
其中,P(ui|αl,γj)與公式(20)含義相同;Pαl表示屬性掌握模式為αl的被試占總?cè)藬?shù)的比例。
(5)為了使結(jié)果加精確和穩(wěn)健,Xiang引入懲罰函數(shù)(penalty function),具體表示如下:
上式中,λ為懲罰因子,λ越大懲罰力度越大。經(jīng)Xiang驗(yàn)證當(dāng)λ取值為9時(shí),懲罰力度比較合適。
(6)結(jié)合公式(21)和公式(22)構(gòu)建懲罰似然函數(shù)(Penalized Log-Likelihood function,LPenalized)并取對(duì)數(shù),即:
(7)對(duì)目標(biāo)函數(shù)-2log(LPenalized)進(jìn)行極大似然估計(jì)(maximum likelihood estimate,MLE),得到估計(jì)Q矩陣。
(8)①如果沒有專家定義的Q矩陣,該步可省略。計(jì)算專家定義Q矩陣(記為QExpert,元素為qjk)與估計(jì)Q矩陣(記為 QEstimate,元素為 q?jk)間差異距離(discrepancy distance),通過距離最小匹配QEstimate的元素的列,即:
(9)以分界點(diǎn)(cut-off point)將估計(jì)Q矩陣離散化,得最終Q矩陣。
Xiang模擬考察了項(xiàng)目數(shù)量、懲罰力度和分界點(diǎn)對(duì)該法的影響,結(jié)果發(fā)現(xiàn):判準(zhǔn)率隨項(xiàng)目數(shù)量增加(15題增至30題)而提高;λ取9或11,判準(zhǔn)率最高(30題為91.3%,15題為88%);以0.5為分界點(diǎn)的判準(zhǔn)率最大但誤判概率也比較高。隨后,他分析Tatsuoka(1990)分?jǐn)?shù)減法數(shù)據(jù)發(fā)現(xiàn):估計(jì)Q矩陣與de la Torre(2008)[7]界定的Q矩陣略有差異。究其原因可能與多種解題策略有關(guān),de la Torre等人認(rèn)為Tatsuoka(1990)分?jǐn)?shù)減法數(shù)據(jù)存在多種解題策略[26]。
使用該法有兩個(gè)明顯的優(yōu)勢:第一,當(dāng)專家無法給出合理Q矩陣或不同專家給出Q矩陣差異較大時(shí),該方法可獲取估計(jì)Q矩陣,為專家界定Q矩陣提供借鑒;第二,它可為事后修改Q矩陣提供數(shù)據(jù)支撐。但該方法也有缺陷:第一,包含較強(qiáng)數(shù)理分析導(dǎo)致步驟復(fù)雜難懂嚴(yán)重阻礙該方法應(yīng)用;第二,λ沒有固定標(biāo)準(zhǔn),需進(jìn)一步討論分析;第三,以0.5為分界點(diǎn)可能導(dǎo)致(9)步中的Q矩陣元素出現(xiàn)誤判現(xiàn)象。此外,Xiang的研究將項(xiàng)目參數(shù)s和g固定為0.1,而現(xiàn)實(shí)情境中這一條件很難得到滿足。
認(rèn)知診斷以結(jié)合認(rèn)知心理學(xué)與心理測量學(xué)的優(yōu)勢在心理與教育領(lǐng)域展現(xiàn)出巨大發(fā)展?jié)摿?,但目前?yīng)用認(rèn)知診斷理論編制的測驗(yàn)不多,其主要困難在于反映項(xiàng)目和屬性間關(guān)系的Q矩陣無法合理界定。傳統(tǒng)的專家評(píng)估和基于項(xiàng)目參數(shù)的迭代過程雖可用于界定Q矩陣但結(jié)果較粗糙,易出現(xiàn)專家意見不一致、專家遴選標(biāo)準(zhǔn)難確定、模型失擬和參數(shù)誤差較大等問題[11,13,14]。本文從參數(shù)化與否的角度出發(fā)對(duì)現(xiàn)有基于被試作答反應(yīng)的Q矩陣估計(jì)方法的思想、步驟及實(shí)際應(yīng)用進(jìn)行闡述,以期為認(rèn)知診斷研究及應(yīng)用提供借鑒。上述6種方法:爬山法和統(tǒng)計(jì)提純法屬于非參數(shù)化估計(jì)法,其他四種屬于參數(shù)化估計(jì)法;爬山法、因素分析法和非線性懲罰估計(jì)法不需要提前界定Q矩陣,其他3種則需要;爬山法、因素分析法和非線性懲罰估計(jì)法可處理屬性個(gè)數(shù)未知情況,其他3種則不能;爬山法和統(tǒng)計(jì)提純法可用于除DINA模型外的其他診斷模型,其他4種則不能。值得注意的是:上述6種方法得到的Q矩陣并不表示完全排除專家意見,而是為專家判斷提供數(shù)據(jù)支撐。下面以表格形式給本文涉及的6種Q矩陣估計(jì)方法作總體描述(見表1)。
Q矩陣是認(rèn)知診斷的基礎(chǔ),正確界定Q矩陣對(duì)測驗(yàn)編制者至關(guān)重要,出于發(fā)展角度,本文對(duì)Q矩陣估計(jì)方法未來研究作以下五點(diǎn)展望。
第一,未來可用Monte Carlo模擬或?qū)嵶C綜合比較各種估計(jì)方法的優(yōu)劣?,F(xiàn)有研究僅僅只是對(duì)各自提出的方法進(jìn)行闡述并加以驗(yàn)證,鮮有對(duì)這些估計(jì)方法進(jìn)行系統(tǒng)比較,也未有研究探討每種方法的特點(diǎn)及其適用條件,這都不利于推動(dòng)Q矩陣估計(jì)方法的研究。今后的研究應(yīng)著重探討如樣本量、測驗(yàn)長度、屬性個(gè)數(shù)及分布、項(xiàng)目參數(shù)分布、Q矩陣錯(cuò)誤率和誤設(shè)類型等因素對(duì)方法選擇的影響,并開發(fā)出Q矩陣估計(jì)方法的應(yīng)用軟件,為實(shí)際應(yīng)用者提供借鑒。
表1 Q矩陣估計(jì)方法的特點(diǎn)概覽
第二,未來可將現(xiàn)有估計(jì)方法拓展到其他模型。上述6種方法只有統(tǒng)計(jì)提純法和爬山法能處理除DINA模型外其他模型,而其他方法則不能。雖然DINA模型淺顯易懂且估計(jì)簡便,但相比其他模型(如RUM),它對(duì)被試知識(shí)狀態(tài)與作答反應(yīng)間關(guān)系描述相對(duì)比較簡單[12,27,28]。因此,有必要將現(xiàn)有估計(jì)方法拓展到其他模型。此外,隨著實(shí)踐應(yīng)用不斷深入,認(rèn)知診斷實(shí)踐將日益關(guān)注那些多級(jí)評(píng)分項(xiàng)目,而上述6種方法并未涉及多級(jí)評(píng)分項(xiàng)目。今后研究也可將這些方法拓展到多級(jí)評(píng)分項(xiàng)目中。
第三,未來可結(jié)合這些方法優(yōu)缺點(diǎn)開發(fā)新方法。如將非線性懲罰估計(jì)法不需要提前界定Q矩陣的優(yōu)勢與貝葉斯法準(zhǔn)確率高的優(yōu)勢結(jié)合,開發(fā)一種既不需要提前界定Q矩陣又能保證高準(zhǔn)確率的新方法。
第四,優(yōu)化現(xiàn)有算法的運(yùn)算效率。任何一種估計(jì)方法其算法的運(yùn)算效率嚴(yán)重制約著該方法的應(yīng)用范圍,不論是基于參數(shù)化的方法還是基于非參數(shù)化的方法,這些估計(jì)方法都沒能解決參數(shù)過多和計(jì)算耗時(shí)的問題。Chiu指出基于MLE方法的Q矩陣估計(jì)方法其面臨著估計(jì)技術(shù)復(fù)雜和收效甚微的問題,反復(fù)迭代也會(huì)使計(jì)算過程耗時(shí)過長進(jìn)一步限制了參數(shù)化估計(jì)方法的應(yīng)用[2];相比于參數(shù)化法非參數(shù)估計(jì)法計(jì)算較為簡單,但是也不能避免參數(shù)化所面臨的隨著屬性個(gè)數(shù)的增加計(jì)算負(fù)擔(dān)也將加劇的問題。因此,減輕估計(jì)方法的計(jì)算負(fù)擔(dān)也應(yīng)該是今后研究中應(yīng)該注意的問題。
第五,未來可將這些方法應(yīng)用于計(jì)算機(jī)化自適應(yīng)診斷測驗(yàn)(cognitive diagnostic computerized adaptive testing,CD-CAT)屬性標(biāo)定。隨著心理與教育測量理論與計(jì)算機(jī)技術(shù)的飛速發(fā)展,CD-CAT引起國內(nèi)外學(xué)者的廣泛關(guān)注[29-36]。與CAT一樣,CD-CAT也涉及題庫建問題甚至比CAT更復(fù)雜,除進(jìn)行項(xiàng)目參數(shù)等值外還需對(duì)新題進(jìn)行屬性標(biāo)定[33,37]。上述6種方法能否應(yīng)用于CD-CAT新題屬性標(biāo)定呢?未來研究可著重探討將當(dāng)前Q矩陣估計(jì)方法與CDCAT屬性標(biāo)定相結(jié)合。
[1] Tatsuoka K K.Cognitive assessment:An introduction to the rule space method[M].Routledge,2009.
[2] Chiu C.Statistical Refinement of the Q-matrix in Cognitive Diagnosis[J].Applied Psychological Measurement,2013,37(8):598-618.
[3] Xiang R.Nonlinear penalized estimation of true Q-matrix in cognitive diagnostic models[D].Columbia University,2013.
[4] DeCarlo L T.Recognizing Uncertainty in the Q-Matrix via a Bayesian Extension of the DINA Model[J].Applied Psychological Measurement,2012,36(6):447-468.
[5] Close C N.An exploratory technique for finding the Q-matrix for the DINA model in cognitive diagnostic assessment:Combining theory with data[D].UNIVERSITY OF MINNESOTA,2012.
[6] DeCarlo L T.On the analysis of fraction subtraction data:The DINA model,classification,latent class sizes,and the Q-matrix[J].Applied Psychological Measurement,2010,35(1):8-26.
[7] de la Torre J.An Empirically Based Method of Q-Matrix Validation for the DINA Model:Development and Applications[J].Journal of Educational Measurement,2008,45(4):343.
[8] de la Torre J,Douglas J A.Higher-order latent trait models for cognitive diagnosis[J].Psychometrika,2004,69(3):333-353.
[9] Tatsuoka K K.Toward an integration of item-response theory and cognitive error diagnosis[J].Diagnostic monitoring of skill and knowledge acquisition,1990:453-488.
[10] 涂冬波,蔡艷,戴海琦.基于DINA模型的Q矩陣修正方法[J].心理學(xué)報(bào),2012,44(4):558-568.
[11] Rupp A A,Templin J.The effects of Q-matrix misspecification on parameter estimates and classification accuracy in the DINA model[J].Educational and Psychological Measurement,2008,68(1):78-96.
[12] Li H,Suen H K.Constructing and Validating a Q-Matrix for Cognitive Diagnostic Analyses of a Reading Test[J].Educational Assessment,2013,18(1):1-25.
[13] Henson R.Q-Matrix Development[R].Annual meeting of National Council on Measurement in Education,2009.
[14] Henson R,Templin J.Q-Matrix Construction[R].Annual meeting of National Council on Measurement in Education,2007.
[15] Barnes T.Novel derivation and application of skill matrices:The q-matrix method[J].Handbook on educational data mining,2010:159-172.
[16] Barnes T.The q-matrix method:Mining student response data for knowledge[R].American Association for Artificial Intelligence,2005.
[17] Barnes T M.The q-matrix method of fault-tolerant teaching in knowledge assessment and data mining[D].North Carolina State University,2003.
[18] Birenbaum M,Kelly A E,Tatsuoka K K.Diagnosing knowledge states in algebra using the rule-space model[J].Journal for Research in Mathematics Education,1993:442-459.
[19] Tatsuoka K K.Rule space:An approach for dealing with misconceptions based on item response theory[J].Journal of Educational Measurement,1983,20(4):345-354.
[20] Chiu C,Douglas J.A nonparametric approach to cognitive diagnosis by proximity to ideal response patterns[J].Journal of Classification,2013,30(2):225-250.
[21] Liu J,Xu G,Ying Z.Theory of the self-learning Q-matrix[J].Bernoulli:official journal of the Bernoulli Society for Mathematical Statistics and Probability,2013,19(5A):1790.
[22] Liu J,Xu G,Ying Z.Data-driven learning of Q-matrix[J].Applied psychological measurement,2012,36(7):548-564.
[23] Liu J,Xu G,Ying Z.Learning Item-Attribute Relationship in QMatrix Based Diagnostic Classification Models[J].arXiv preprint arXiv:1106.0721,2011.
[24] Stout W.Skills Diagnosis Using IRT Based Continuous Latent Trait Models[J].Journal of Educational Measurement,2007,44(4):313-324.
[25] Templin J,Henson R A.A Bayesian method for incorporating uncertainty into Q-matrix estimation in skills assessment[R].Annual meeting of National Council on Measurement in Education,2006.
[26] de la Torre J,Douglas J A.Model evaluation and multiple strategies in cognitive diagnosis:An analysis of fraction subtraction data[J].Psychometrika,2008,73(4):595-624.
[27] DiBello L V,Roussos L A,Stout W.Review of cognitively diagnostic assessment and a summary of psychometric models[J].Handbook of statistics,2007,26:979-1030.
[28] Fu J,Li Y.An integrative review of cognitively diagnostic psychometric models[R].Annual meeting of National Council on Measurement in Education,2007.
[29] 駱聰,王霞,鐘陽,等.CD—CAT選題策略及其應(yīng)用[J].心理研究,2014,7(2):23-27.
[30] 汪文義,丁樹良,宋麗紅.兼顧測驗(yàn)效率和題庫使用率的CD—CAT 選題策略[J].心理科學(xué),2014,37(001):212-216.
[31] 駱聰,王霞,鐘陽,等.CD—CAT選題策略及其應(yīng)用[J].心理研究,2014,7(2):23-27.
[32] 涂冬波,蔡艷,戴海琦.認(rèn)知診斷CAT選題策略及初始題選取方法[J].心理科學(xué),2013,36(2),469-474.
[33] 陳平,張佳慧,辛濤.在線標(biāo)定技術(shù)在計(jì)算機(jī)化自適應(yīng)測驗(yàn)中的應(yīng)用[J].心理科學(xué)進(jìn)展,2013,21(10):1883-1892.
[34] Cheng Y.Improving cognitive diagnostic computerized adaptive testing by balancing attribute coverage:the modified maximum global discrimination index method[J].Educational and Psychological Measurement,2010,70(6):902-913.
[35] Cheng Y.When cognitive diagnosis meets computerized adaptive testing:CD-CAT[J].Psychometrika,2009,74(4):619-632.
[36] Xu X,Chang H,Douglas J.A simulation study to compare CAT strategies for cognitive diagnosis[R].Annual meeting of the American Educational Research Association,2003.
[37] 陳平.認(rèn)知診斷計(jì)算機(jī)化自適應(yīng)測驗(yàn)的項(xiàng)目增補(bǔ):以DINA模型為例[D].北京師范大學(xué),2011.
A Comparison of Q-matrix Estimation Method for the Cognitive Diagnosis Test
LIU Yong&TU Dongbo