陳琦鵬 詹沛達(dá),2,3**
(1.浙江師范大學(xué)心理學(xué)院,金華 321004;2.浙江省兒童青少年心理健康與危機(jī)干預(yù)智能實(shí)驗(yàn)室,金華 321004;3.浙江省智能教育技術(shù)與應(yīng)用重點(diǎn)實(shí)驗(yàn)室,金華 321004)
在心理與教育研究中,研究者通常對個(gè)體或群體在特定時(shí)間跨度中的認(rèn)知或行為的發(fā)展變化感興趣。這類研究的目標(biāo)側(cè)重于刻畫每個(gè)個(gè)體的發(fā)展趨勢和群體的平均變化軌跡(劉紅云,孟慶茂,2003)。目前,針對不同的觀測變量類型和潛變量類型(連續(xù)或分類)研究者們提出了眾多縱向數(shù)據(jù)分析模型,比如縱向Rasch/IRT 模型(Andersen,1985;von Davier er al.,2011)、潛在增長曲線模型(Kaplan,2000)和潛在轉(zhuǎn)換分析模型(Collins & Lanza,2010)等。盡管縱向模型本身并沒有限制所分析的數(shù)據(jù)類型及所測量的潛在建構(gòu),但縱觀已有研究可發(fā)現(xiàn)幾乎所有縱向模型僅關(guān)注對傳統(tǒng)題目作答結(jié)果(response accuracy,RA)數(shù)據(jù)(e.g.,答對答錯(cuò)或李克特式題目得分)的分析,忽略了其他模態(tài)數(shù)據(jù),進(jìn)而局限于追蹤RA 數(shù)據(jù)測量的心理建構(gòu)(e.g.,潛在能力)的發(fā)展變化。
隨著計(jì)算機(jī)(網(wǎng)絡(luò))化測評的普及,除傳統(tǒng)RA 數(shù)據(jù)外,對諸如題目作答時(shí)間(response time,RT)等過程數(shù)據(jù)的采集已越發(fā)普遍(韓雨婷等,2022;劉耀輝等,2022)。在心理與教育測評中,RT 數(shù)據(jù)作為一種RA數(shù)據(jù)的補(bǔ)充數(shù)據(jù),描述了個(gè)體解決單一問題的總耗時(shí),可用于分析個(gè)體解決問題時(shí)的潛在加工速度。這在一定程度上打破了傳統(tǒng)心理測量中對速度測驗(yàn)和難度測驗(yàn)的功能劃分。另外,因RT 數(shù)據(jù)“具有標(biāo)準(zhǔn)化數(shù)據(jù)結(jié)構(gòu),符合心理計(jì)量模型的建模與分析要求”(詹沛達(dá),2022,p1417),近些年受到了研究者們的廣泛關(guān)注,開發(fā)了諸多RT模型(郭磊等,2017),比如對數(shù)正態(tài)RT 模型(lognormal RT model,LRTM)(van der Linden,2006;Klein Entink,F(xiàn)ox et al.,2009)。但縱觀已有研究可發(fā)現(xiàn)幾乎所有RT 模型都僅適用于分析橫斷測評數(shù)據(jù),即僅能分析被試在單一時(shí)間點(diǎn)測驗(yàn)中的潛在加工速度,無法追蹤個(gè)體潛在加工速度的發(fā)展軌跡。
目前,隨著計(jì)算機(jī)化測驗(yàn)的普及,一些形成性學(xué)測項(xiàng)目已經(jīng)可以便捷地采集每個(gè)時(shí)間點(diǎn)上個(gè)體對每道題目的RT 數(shù)據(jù)(即縱向RT 數(shù) 據(jù))(e.g.,Wang & Nydick,2020;Wang,Zhang et al.,2018)。Wang 和Zhang等人(2018)發(fā)現(xiàn)在自適應(yīng)學(xué)測系統(tǒng)中,隨著干預(yù)(反饋/ 學(xué)習(xí))次數(shù)的增加,學(xué)生群體在下一個(gè)時(shí)間點(diǎn)上作答所有題目的平均RT 會呈現(xiàn)下降趨勢。Shi 等人(2018)發(fā)現(xiàn)在閱讀理解任務(wù)中借助智能導(dǎo)學(xué)系統(tǒng)能夠在一定程度上減少被試的RT。而上述例子中導(dǎo)致觀測變量RT 減少的一個(gè)主要可能原因是被試的潛在加工速度隨時(shí)間發(fā)生了提高。此時(shí),如何合理分析縱向RT 數(shù)據(jù)以實(shí)現(xiàn)對潛在加工速度發(fā)展的客觀追蹤,是一個(gè)兼具理論與實(shí)踐意義的議題。
綜上所述,已有的縱向數(shù)據(jù)分析模型主要聚焦對縱向RA 數(shù)據(jù)的分析,少有研究關(guān)注縱向RT 數(shù)據(jù)的分析;且已有的RT模型多限于分析橫斷測評數(shù)據(jù),無法追蹤學(xué)生潛在加工速度隨時(shí)間的發(fā)展。除聯(lián)合分析RA 和RT 數(shù)據(jù)外,單獨(dú)關(guān)注RT 數(shù)據(jù)的 分 析 也 很 常 見(e.g.,Guo et al.,2021;Klein Entink,van der Linden et al.,2009;van der Linden,2006;Wang,et al.,2013;詹沛達(dá)等,2020)。對此,本研究擬基于兩類常見的縱向數(shù)據(jù)分析方法(i.e.,多元正態(tài)分布建模和潛在增長曲線建模) 對最具代表性的LRTM 進(jìn)行拓展,提出四個(gè)縱向RT 模型;以期實(shí)現(xiàn)對個(gè)體潛在加工速度發(fā)展的客觀追蹤并豐富縱向RT 數(shù)據(jù)的分析方法。對此,下文將按如下邏輯撰寫。首先,簡單回顧橫斷LRTM,并基于此提出四個(gè)縱向RT模型。其次,通過對一則有關(guān)空間旋轉(zhuǎn)能力的縱向RT 數(shù)據(jù)的分析,呈現(xiàn)新模型的實(shí)踐表現(xiàn)。然后,使用一則模擬研究去探究新提出的縱向RT 模型在不同模擬測驗(yàn)條件下的表現(xiàn)。
在心理計(jì)量模型中,縱向模型的一個(gè)核心作用是描述不同時(shí)間點(diǎn)上被試潛在建構(gòu)的變化關(guān)系。本研究關(guān)注兩類縱向建模方式:一類是基于多元正態(tài)分布的縱向模型(e.g.,Andersen,1985;Paek,Li,& Park,2016;von Davier et al.,2011;Zhan et al.,2019),另一類是基于潛在增長曲線的縱向模型(e.g.,Bollen & Curran,2006;Kaplan,2000;Wang & Nydick,2020)。前者類似于多維IRT 模型,直接利用多元正態(tài)分布對被試在各時(shí)間點(diǎn)上的潛在建構(gòu)進(jìn)行建模,并可利用均值向量描述不同時(shí)間點(diǎn)上群體的發(fā)展軌跡;后者通過構(gòu)建潛在建構(gòu)與測驗(yàn)時(shí)間點(diǎn)之間的線性或非線性回歸函數(shù)來描述潛在建構(gòu)隨時(shí)間點(diǎn)增加的變化趨勢。
基于上述兩種建模邏輯,本文提出兩類縱向RT 模型:基于多元正態(tài)分布的縱向RT 模型和潛在增長曲線的縱向RT 模型。上述兩類模型的差異在于描述各時(shí)間點(diǎn)上潛在構(gòu)建關(guān)系的結(jié)構(gòu)模型,而測量模型保持一致。因此,下文先介紹統(tǒng)一的測量模型,然后再結(jié)合不同的結(jié)構(gòu)模型逐一闡述四個(gè)新模型。
針對橫斷RT 數(shù)據(jù),LRTM 是目前最常用的RT 測量模型之一。設(shè)定Tni為被試n(n=1,...,N)對 題 目i(i=1,...,I)的 作 答 時(shí)間。則LRTM 可表示為
或
其中,τn是被試n 的潛在加工速度;ξi為題目i 的時(shí)間強(qiáng)度參數(shù),表示被試群體作答題目i 的平均耗時(shí);?i為題目i 的時(shí)間區(qū)分度參數(shù),反映潛在加工速度對觀察作答時(shí)間的影響程度;εni為殘差,ωi為題目i 的時(shí)間精度參數(shù)。
對于縱向測評而言,當(dāng)整個(gè)測驗(yàn)包含P 個(gè)測驗(yàn)時(shí)間點(diǎn),則第p 個(gè)時(shí)間點(diǎn)上縱向LRTM 的測量模型可表示為:
其中,Tnip是時(shí)間點(diǎn)p 上被試n 對題目i 的作答時(shí)間;ξip、φip和ωip分別是時(shí)間點(diǎn)p上題目i 的時(shí)間強(qiáng)度參數(shù)、時(shí)間區(qū)分度參數(shù)和時(shí)間精度參數(shù);τnp是時(shí)間點(diǎn)p 上被試n 的潛在加工速度。
為描述P 個(gè)時(shí)間點(diǎn)上τnp之間的關(guān)系,一種最直接的方法是構(gòu)建多元正態(tài)分布,如圖1(a)。即假設(shè)τn=(τn1,…,τnP)T是遵循多元正態(tài)分布的多維潛在加工速度向量:
圖1 四個(gè)縱向題目作答時(shí)間模型示意圖(P=3)
式中,μ=(μ1,…,μP)T為P 個(gè)時(shí)間點(diǎn)的潛在加工速度的均值向量;Σ 為方差協(xié)方差矩陣,描述了P 個(gè)時(shí)間點(diǎn)的潛在加工速度之間的關(guān)系。該模型直接估計(jì)的各個(gè)時(shí)間點(diǎn)上的潛在加工速度,因此可直接使用^τn描述被試個(gè)體潛在加工速度的發(fā)展軌跡。此時(shí),可以用^τn(p+1)-^τnp描述相鄰時(shí)間點(diǎn)個(gè)體水平的變化程度,用^μp+1-^μp描述相鄰時(shí)間點(diǎn)群體均值的變化程度。
該模型可視為多維LRTM(詹沛達(dá)等,2020)在縱向RT 數(shù)據(jù)分析中的應(yīng)用。與多維LRTM 一樣,該模型中的所有元素均需自由估計(jì),即中有個(gè)待估計(jì)參數(shù)。該做法相對優(yōu)點(diǎn)是考慮了所有時(shí)間點(diǎn)上潛在加工速度之間的相互影響,相對缺點(diǎn)是當(dāng)時(shí)間點(diǎn)P 數(shù)量較多時(shí)參數(shù)估計(jì)計(jì)算量較大且易出現(xiàn)估計(jì)不收斂問題。
為縮減待估計(jì)參數(shù)數(shù)量,可通過引入馬爾可夫性質(zhì)來約束中的待估計(jì)參數(shù),如圖1(b)。目前已有許多研究將馬爾可夫性質(zhì)引入縱向數(shù)據(jù)分析中(e.g.,de Haan-Rietdijk et al.,2017;Zhan,2020)。基于馬爾可夫性質(zhì),可假設(shè)被試在時(shí)間點(diǎn)p 的潛在加工速度只與其在時(shí)間點(diǎn)p-1 的潛在加工速度有直接關(guān)系。對此,將做如下轉(zhuǎn)換:
其中,S 為標(biāo)準(zhǔn)差矩陣,Ω 為相關(guān)系數(shù)矩陣。然后,因只考慮相鄰時(shí)間點(diǎn)之間的直接關(guān)系,所以只需將相關(guān)矩陣Ω 中相鄰時(shí)間點(diǎn)的相關(guān)系數(shù)ρ(p-1)p作為待估參數(shù);而跨時(shí)間點(diǎn)的相關(guān)系數(shù)不視為待估計(jì)參數(shù),由各相鄰時(shí)間點(diǎn)上的相關(guān)系數(shù)連乘而來:
其中,ρa(bǔ)b為兩個(gè)不相鄰的兩個(gè)時(shí)間點(diǎn)a 和b 之間的相關(guān)系數(shù),比如,ρ13=ρ12ρ23。此時(shí),Σ中待估計(jì)參數(shù)數(shù)量由P(P+1)/2 縮減為2P-1。
為便于闡述,下文將不包含馬爾可夫性質(zhì)的和包含馬爾可夫性質(zhì)的模型分別簡稱為MVN-LRTM 和MVN-LRTM-M。另外,在采用錨題設(shè)計(jì)和重復(fù)測量設(shè)計(jì)的情況下,可將第一時(shí)間點(diǎn)上所有被試的潛在加工速度的均值和方差分別約束為μ1=0和σ2τ1=1 以保證模型的可識別性(Paek et al.,2016)。
為描述P 個(gè)時(shí)間點(diǎn)上τnp之間的關(guān)系,多元正態(tài)分布外的另一種方法是構(gòu)建潛在增長曲線,如圖1(c):
①也有研究不考慮殘差項(xiàng)(e.g.,Curtis,2010),即τnp=π0n+π1n(p-1);預(yù)研究結(jié)果表明不考慮殘差項(xiàng)的模型對實(shí)證數(shù)據(jù)的擬合結(jié)果較差.
式中,π0n為被試n 的截距系數(shù),表示被試n的初始潛在加工速度水平;π1n為被試n 的增長系數(shù),表示被試n 的潛在加工速度隨時(shí)間變化的程度;π0n和π1n服從二元正態(tài)分布,兩者的均值μ0n和μ1n分別代表群體潛在加工速度的均值和群體潛在加工速度的平均增長率,方差協(xié)方差矩陣則描述了潛在加工速度的初始水平和增長系數(shù)之間的關(guān)系:ρπ1π0>0 意味著初始水平越高的被試,其潛在加工速度隨時(shí)間的增幅越大,反之則反;εnp為殘差。與MVN-LRTM 不同,該模型沒有直接估計(jì)各時(shí)間點(diǎn)上的τnp,而是估計(jì)了每個(gè)被試的增長曲線系數(shù)(i.e.,π0n和π1n);此時(shí),可以用^π1n描述相鄰時(shí)間點(diǎn)個(gè)體水平的變化程度,用^μπ1描述相鄰時(shí)間點(diǎn)群體均值的變化程度。
公式9 假設(shè)τnp隨測驗(yàn)時(shí)間點(diǎn)的增加呈線性增長,而現(xiàn)實(shí)中τnp隨測驗(yàn)時(shí)間點(diǎn)的增加也可能呈非線性增長。此時(shí),可在公式9 中增加二次增長項(xiàng)來實(shí)現(xiàn)對潛在加工速度的非線性變化的描述,如圖1(d):
式中,π2n為被試n 的二次增長系數(shù),其余參數(shù)同上。
除包含二次增長項(xiàng)外,非線性增長模型中還可以進(jìn)一步包含三次增長項(xiàng)或自由估計(jì)時(shí)間參數(shù),限于篇幅限制本文暫不關(guān)注它們。為便于闡述,下文將基于線性增長曲線和基于非線性增長曲線的模型分別稱為LGC-LRTM-L 和LGC-LRTM-N。另外,在采用錨題設(shè)計(jì)和重復(fù)測量設(shè)計(jì)的情況下,可將第一時(shí)間點(diǎn)上所有被試的潛在加工速度的均值和方差分別約束為μπ0=0 和σ2π1+σ2ε1=1 以 保 證 模 型 的 可 識 別 性(e.g.,Wang&Nydick,2020)。
本研究以一則有關(guān)空間旋轉(zhuǎn)能力的自適應(yīng)學(xué)測數(shù)據(jù)(Wang,Yang et al.,2018)為例來展現(xiàn)所提出模型的實(shí)踐可應(yīng)用性。該數(shù)據(jù)集包含350 名被試在5 個(gè)時(shí)間點(diǎn)上的作答數(shù)據(jù),數(shù)據(jù)集的詳細(xì)描述信息可見附錄S1。圖2 呈現(xiàn)了題目的對數(shù)RT 隨時(shí)間變化趨勢(剔除缺失值),可發(fā)現(xiàn)明顯的下降趨勢。
圖2 實(shí)證研究5 個(gè)時(shí)間點(diǎn)上50 道題目的對數(shù)題目作答時(shí)間分布
分別使用MVN-LRTM、MVN-LRTM-M、LGC-LRTM-L 和LGC-LRTM-N 作為數(shù)據(jù)分析模型。模型參數(shù)估計(jì)設(shè)定及不同信息量先驗(yàn)下的穩(wěn)健型分析可見附錄S2。使用潛在量尺縮減因子(PSRF;Brooks & Gelman,1998) 對作為MCMC 算法的收斂指標(biāo)。使用后驗(yàn)預(yù)測模型檢驗(yàn)(PPMC)評估模型對數(shù)據(jù)的絕對擬合程度;在計(jì)算后驗(yàn)預(yù)測概率(ppp)時(shí)較了觀察數(shù)據(jù)X 和后驗(yàn)預(yù)測數(shù)據(jù)Xpostpred之間的差異:ppp=∑Ee=1(Sum(Xpostpred(e))≥Sum(Y))/E ,其中E 為MCMC中的抽樣次數(shù),Xpostpred(e)為第e 次抽樣中的后驗(yàn)預(yù)測值,由公式3 計(jì)算得到。使用-2LL(-2×log likelihood)和DIC(Spiegelhalter et al.,2002)作為模型-數(shù)據(jù)相對擬合指標(biāo)。有關(guān)擬合指標(biāo)更多的信息可見附錄S3。
需要強(qiáng)調(diào)的是,MVN-LRTM 中潛在加工速度的方差協(xié)方差矩陣中部分元素沒有達(dá)到收斂標(biāo)準(zhǔn)(PSRF<1.2),表明模型參數(shù)估計(jì)值沒有穩(wěn)定在一個(gè)特定值附近;在不收斂情況下得到的估計(jì)值(后驗(yàn)均值),無法排除MCMC 隨機(jī)抽樣誤差的影響,難以反映數(shù)據(jù)本身所蘊(yùn)含的特性;因此,該模型與數(shù)據(jù)的擬合結(jié)果僅供參考。其他三個(gè)模型的所有模型參數(shù)均達(dá)到收斂標(biāo)準(zhǔn)。
表1 呈現(xiàn)了四個(gè)模型對實(shí)證數(shù)據(jù)的擬合情況。首先,根據(jù)各時(shí)間點(diǎn)上的ppp 值,表明四個(gè)模型均擬合該數(shù)據(jù)。其次,不考慮MVN-LRTM 時(shí),剩余三個(gè)模型的對數(shù)據(jù)的相對擬合比較接近。其中,-2LL 指標(biāo)值表明,在不考慮模型復(fù)雜性懲罰的前提下,LGC-LRTM-N 對該數(shù)據(jù)的擬合相對最好,即該模型得到的參數(shù)估計(jì)值相對最能反映數(shù)據(jù)的特征。 而 DIC 指標(biāo)值表明MVN-LRTM-M 對該數(shù)據(jù)擬合相對最好,LGC-LRTM-L 次之且和LGC-LRTM-N 幾乎沒有差異??傊?,當(dāng)考慮模型復(fù)雜性懲罰時(shí),MVN-LRTM-M 對該數(shù)據(jù)擬合相對最好,而不考慮模型復(fù)雜性懲罰時(shí),LGC-LRTM-N 的參數(shù)估計(jì)結(jié)果最能反映數(shù)據(jù)本身特征。
表1 實(shí)證研究中模型-數(shù)據(jù)擬合結(jié)果.
圖3 呈現(xiàn)了四個(gè)模型中所有被試潛在加工速度隨時(shí)間的變化趨勢(含群體均值變化)。對任何模型而言,潛在加工速度的群體均值都呈較明顯的增長趨勢。圖4 呈現(xiàn)了四個(gè)模型中所有時(shí)間點(diǎn)上潛在加工速度的估計(jì)值之間的相關(guān)系數(shù)圖??梢钥吹?,無論是同一模型對5 個(gè)時(shí)間點(diǎn)上潛在加工速度的估計(jì)值之間,還是不同模型對同一時(shí)間點(diǎn)上潛在加工速度的估計(jì)值之間,均呈現(xiàn)高程度相關(guān)。一方面表明不同模型的估計(jì)值之間具有高度一致性,另一方面表明不同時(shí)間點(diǎn)上潛在加工速度之間也具有高度一致性(主要原因是該測驗(yàn)中各時(shí)間點(diǎn)之間的間隔較短)。
圖3 實(shí)證研究中潛在加工速度隨時(shí)間的變化趨勢
圖4 實(shí)證研究中所有模型對所有時(shí)間點(diǎn)上潛在加工速度的估計(jì)值之間的相關(guān)系數(shù)圖
圖5 呈現(xiàn)了四個(gè)模型的題目參數(shù)估計(jì)值。首先,四個(gè)模型的題目參數(shù)估計(jì)值之間具有較高的一致性,尤其是時(shí)間強(qiáng)度參數(shù)和時(shí)間精度參數(shù)。其次,同一類模型的時(shí)間區(qū)分度參數(shù)估計(jì)值相對更接近。
圖5 實(shí)證研究中所有模型的題目參數(shù)估計(jì)值
綜上所述,實(shí)證研究結(jié)果表明四個(gè)縱向RT 模型均具有實(shí)踐可應(yīng)用性且對同一批數(shù)據(jù)的分析結(jié)果具有較高的一致性。此外,本研究還包含模擬研究,以探討模型的心理計(jì)量學(xué)性能,可見附錄S4。
為實(shí)現(xiàn)對個(gè)體潛在加工速度發(fā)展的客觀追蹤,本文基于多元正態(tài)分布和潛在增長曲線提出了四個(gè)縱向RT 模型。四個(gè)模型的測量模型一致,差異主要體現(xiàn)在描述潛在加工速度如何隨時(shí)間變化的結(jié)構(gòu)模型上。具體而言,前兩個(gè)模型直接估計(jì)各時(shí)間點(diǎn)上的潛在加工速度,未直接關(guān)注變化的過程;相反,后兩個(gè)模型直接估計(jì)潛在加工速度隨時(shí)間的變化(增長)系數(shù),沒有直接估計(jì)各時(shí)間點(diǎn)上的潛在加工速度。實(shí)證研究結(jié)果表明四個(gè)模型均有實(shí)踐可應(yīng)用性,且它們的數(shù)據(jù)分析結(jié)果具有較高的一致性。模擬研究表明四個(gè)模型在不同模擬條件下的參數(shù)估計(jì)返真性良好,且兩個(gè)LGC-LRTM 對潛在加工速度的估計(jì)精度略高于兩個(gè)MVN-LRTM 的??傊?,本文提出的四個(gè)縱向RT 模型具有實(shí)踐可應(yīng)用性,且心理計(jì)量學(xué)性能良好,不僅豐富了心理與教育測量中縱向RT 數(shù)據(jù)的分析方法,也拓展了縱向潛變量模型的應(yīng)用范圍。
限于精力和能力,本文也有一些局限有待未來研究做進(jìn)一步探討。比如,盡管本文一次性提出了四個(gè)縱向RT 模型,但鑒于縱向數(shù)據(jù)分析的快速發(fā)展,目前還有諸如增長混合建模和多水平增長建模等多種縱向建模方法。未來可嘗試在縱向RT 數(shù)據(jù)分析中引入更多的縱向建模方法,以期進(jìn)一步豐富縱向RT 數(shù)據(jù)的分析方法。其次,本文僅關(guān)注單維潛在加工速度隨時(shí)間的變化,隨著測評情境復(fù)雜性日益增加,如何追蹤多維潛在加工速度(詹沛達(dá)等,2020)隨時(shí)間的變化也值得關(guān)注和探究。詳細(xì)討論內(nèi)容見附錄S5。