溫忠麟 陳虹熹 方 杰 葉寶娟 蔡保貞
新世紀(jì)20年國(guó)內(nèi)測(cè)驗(yàn)信度研究*
溫忠麟1陳虹熹1方 杰2葉寶娟3蔡保貞1
(1華南師范大學(xué)心理學(xué)院/心理應(yīng)用研究中心, 廣州 510631) (2廣東財(cái)經(jīng)大學(xué)新發(fā)展研究院/應(yīng)用心理學(xué)系, 廣州 510320) (3江西師范大學(xué)心理學(xué)院/心理健康教育研究中心, 南昌 330022)
隨著驗(yàn)證性因子分析模型的應(yīng)用, 信度研究進(jìn)入了嶄新的發(fā)展階段。新世紀(jì)前20年國(guó)內(nèi)有關(guān)測(cè)驗(yàn)信度的研究有三條發(fā)展主線。一是基于驗(yàn)證性因子模型的信度發(fā)展, 包括同質(zhì)性系數(shù)、合成信度、最大信度等; 二是數(shù)據(jù)類型的拓展, 包括兩水平和追蹤數(shù)據(jù)的信度; 三是信度用途的拓展, 如評(píng)分者信度、編碼者信度等。對(duì)于通常的測(cè)驗(yàn)(題目之間的測(cè)量誤差不相關(guān)), 如果α系數(shù)夠高, 信度就夠高; 否則使用合成信度。如果一個(gè)統(tǒng)計(jì)模型中所有變量的合成信度都很高(超過(guò)0.95), 使用顯變量建模與使用潛變量建模的結(jié)果差別不大; 否則, 使用潛變量建模較好。
信度, α系數(shù), 同質(zhì)性系數(shù), 合成信度, 區(qū)間估計(jì)
在心理、教育、管理等領(lǐng)域, 研究者廣泛使用問(wèn)卷測(cè)驗(yàn)進(jìn)行實(shí)證研究, 測(cè)驗(yàn)信度(reliability)是測(cè)驗(yàn)結(jié)果的穩(wěn)定性(stability)或一致性(consistency)程度, 是衡量測(cè)驗(yàn)質(zhì)量的一個(gè)重要指標(biāo)。信度反映了測(cè)驗(yàn)的可靠性和精確性, 即使一個(gè)完美的研究設(shè)計(jì)也無(wú)法彌補(bǔ)不可靠和不精確測(cè)量所帶來(lái)的缺陷, 所以, 評(píng)價(jià)測(cè)驗(yàn)信度是進(jìn)行數(shù)據(jù)分析的必要前提和重要步驟(葉寶娟等, 2012)。
信度的定義以經(jīng)典測(cè)驗(yàn)理論的真分?jǐn)?shù)模型=+為基礎(chǔ), 其中為觀測(cè)分?jǐn)?shù),為真分?jǐn)?shù),為測(cè)量誤差。對(duì)于被試總體, 假設(shè)、、滿足:誤差的均值為0, 誤差與真分?jǐn)?shù)零相關(guān), 各題目誤差之間零相關(guān)。測(cè)驗(yàn)信度ρ定義為真分?jǐn)?shù)的方差與觀測(cè)分?jǐn)?shù)的方差之比:ρ= S22(Lord & Novick, 1968; 孟慶茂, 劉紅云, 2002)。在有了樣本數(shù)據(jù)后, 可以得到觀測(cè)分?jǐn)?shù)的方差, 但在經(jīng)典測(cè)驗(yàn)理論中, 真分?jǐn)?shù)的方差卻無(wú)法估計(jì), 因而研究者只好用一些替代的方法去評(píng)估信度, 這就有了人們熟知的重測(cè)信度、復(fù)本信度、分半信度、α系數(shù)(coefficient alpha)等。
直至上世紀(jì)末, 國(guó)內(nèi)信度研究的成果主要是針對(duì)α系數(shù)的不足提出了改進(jìn)的信度估計(jì)的β和γ系數(shù)(陳希鎮(zhèn), 1991; 謝小慶, 1998), 但這些工作都和α系數(shù)一樣沒(méi)有從信度的定義出發(fā), 因此提出的信度估計(jì)方法都只是某種程度上比α系數(shù)有改進(jìn), 但難有根本的突破。隨著驗(yàn)證性因子分析(confirmatory factor analysis, CFA)的引入, 新世紀(jì)伊始, 國(guó)內(nèi)信度研究進(jìn)入了嶄新的發(fā)展階段。
新世紀(jì)前20年, 測(cè)驗(yàn)信度是僅次于結(jié)構(gòu)方程模型的心理統(tǒng)計(jì)方法研究熱點(diǎn)(溫忠麟等, 2021)。國(guó)內(nèi)學(xué)者對(duì)信度的研究主要集中于尋找更加合適的信度指標(biāo), 以及如何在不同的情況下更加精確地估計(jì)信度。以中國(guó)知網(wǎng)(https://www.cnki.net/)全文數(shù)據(jù)庫(kù)為數(shù)據(jù)源, 出版年限設(shè)為2001~2020年, 關(guān)鍵詞包括:信度、測(cè)驗(yàn)信度、重測(cè)信度、復(fù)本信度、分半信度、α系數(shù)、同質(zhì)性系數(shù)、內(nèi)部一致性系數(shù)、合成信度、最大信度、評(píng)分者信度、編碼者信度、信度概化, 經(jīng)篩查得到有關(guān)信度的方法學(xué)研究論文51篇(見(jiàn)表1)。從發(fā)表刊物看, 大多數(shù)文章都發(fā)表在心理學(xué)期刊上(33篇), 這可能與心理學(xué)研究常需要使用問(wèn)卷并報(bào)告問(wèn)卷的信度有關(guān), 其中《心理科學(xué)》17篇, 《心理學(xué)探新》6篇, 《心理學(xué)報(bào)》4篇, 《中國(guó)臨床心理學(xué)雜志》3篇, 《心理科學(xué)進(jìn)展》、《心理發(fā)展與教育》與《應(yīng)用心理學(xué)》各1篇。此外, 《教育測(cè)量與評(píng)價(jià)(理論版)》3篇, 《中國(guó)衛(wèi)生統(tǒng)計(jì)》3篇, 《統(tǒng)計(jì)與信息論壇》2篇, 其余10篇。從研究?jī)?nèi)容來(lái)看, 研究最多的是α系數(shù); 其次是合成信度(composite reliability)和同質(zhì)性系數(shù)(homogeneity coefficient)。
表1 2001~2020年國(guó)內(nèi)信度的方法學(xué)研究文獻(xiàn)一覽
注:表中文獻(xiàn)按發(fā)表時(shí)間先后排序
國(guó)內(nèi)測(cè)驗(yàn)信度的研究有三條發(fā)展主線, 第一條主線是基于驗(yàn)證性因子模型的測(cè)驗(yàn)信度的發(fā)展, 從圍繞α系數(shù)的研究發(fā)展到基于驗(yàn)證性因子模型的信度研究, 包括同質(zhì)性系數(shù)、合成信度、最大信度(maximum reliability)、單指標(biāo)信度和整個(gè)題目集分?jǐn)?shù)的信度; 第二條主線是數(shù)據(jù)類型的拓展, 從單水平數(shù)據(jù)的測(cè)驗(yàn)信度發(fā)展到多水平數(shù)據(jù)和追蹤數(shù)據(jù)(追蹤數(shù)據(jù)也可看成是多水平數(shù)據(jù))的測(cè)驗(yàn)信度; 第三條主線是信度用途的拓展, 從測(cè)驗(yàn)本身的信度發(fā)展到其他用途的信度, 如評(píng)分者信度、編碼者信度、認(rèn)知診斷屬性分類一致性信度和差異分?jǐn)?shù)的信度等。以下將按照這三條主線逐一評(píng)述國(guó)內(nèi)新世紀(jì)前20年的信度研究。
α系數(shù)是最常用的信度指標(biāo), 信度的發(fā)展大都以α系數(shù)為基礎(chǔ), α系數(shù)的計(jì)算公式為:
其中為量表中的題數(shù), 根據(jù)樣本計(jì)算α系數(shù)時(shí)將方差改為樣本方差便可。α系數(shù)可以用SPSS軟件計(jì)算得出, 也可在SAS軟件中調(diào)用PROC CORR過(guò)程計(jì)算α系數(shù), 只要在選擇項(xiàng)加上參數(shù)α即可(馬文軍, 潘波, 2000), 也可用Mplus軟件編寫(xiě)程序計(jì)算α系數(shù)(王孟成, 葉寶娟, 2014)。
α系數(shù)是一個(gè)總體參數(shù), 在實(shí)證研究中通常用樣本的α系數(shù)來(lái)估計(jì), 最好同時(shí)計(jì)算其置信區(qū)間, 以此得到在所研究的總體上重復(fù)取樣時(shí)α系數(shù)的精確性(Raykov & Shrout, 2002; Zinbarg et al., 2006)。尤其在樣本容量不大、α較小時(shí), 非常有必要報(bào)告α系數(shù)的置信區(qū)間(Maydeu-Olivares et al., 2007)。葉寶娟和溫忠麟(2013a)介紹了10種計(jì)算α系數(shù)置信區(qū)間的方法, 并通過(guò)模擬研究比較了其中較好的7種方法(包括Fisher法、Bonett-02法、Bonett-10法、精確Koning-Franses法、漸近ID法、漸近Koning-Franses法和ADF法)。結(jié)果發(fā)現(xiàn)Bonett-10法和精確Koning-Franses法較好。這兩種方法都比較簡(jiǎn)單, 只需要樣本的α值、測(cè)驗(yàn)題數(shù)、被試人數(shù)及臨界值, 通過(guò)簡(jiǎn)單的運(yùn)算便可得到α系數(shù)的置信區(qū)間。
許多研究表明, α系數(shù)不能很好地估計(jì)測(cè)驗(yàn)信度(陳炳為等, 2005; 劉拓, 戴曉陽(yáng), 2011; 李春會(huì), 朱永忠, 2012)。劉紅云(2008)通過(guò)模擬研究表明, 在基本τ-等價(jià)(essentially τ equivalent)測(cè)驗(yàn)的條件下(即任意兩個(gè)題目的真分?jǐn)?shù)只相差一個(gè)常數(shù), Graham, 2006), α系數(shù)于測(cè)驗(yàn)信度, 否則α系數(shù)容易低估測(cè)驗(yàn)信度。有時(shí)候α系數(shù)甚至還會(huì)出現(xiàn)負(fù)值(席仲恩, 汪順玉, 2007)。溫忠麟和葉寶娟(2011)通過(guò)梳理文獻(xiàn)后指出, 如果(i)各題的誤差不相關(guān)(這個(gè)條件容易滿足); (ii)測(cè)驗(yàn)是基本τ等價(jià)(這個(gè)條件很強(qiáng), 通常的測(cè)驗(yàn)難以滿足), α系數(shù)等于測(cè)驗(yàn)信度; 如果滿足條件(i), 但不滿足條件(ii), α系數(shù)小于信度。總之, 如果各題的誤差不相關(guān), α系數(shù)是信度的下限(即有可能低估信度); 否則α系數(shù)有可能高估信度。多數(shù)情況下, 各題的誤差是不相關(guān)的, 若α系數(shù)高到可以接受, 那么測(cè)驗(yàn)信度就可以接受, 所以α系數(shù)還可以繼續(xù)使用(溫忠麟, 葉寶娟, 2011)。
傳統(tǒng)上將α系數(shù)稱為內(nèi)部一致性信度或者同質(zhì)性系數(shù), 但實(shí)際上α系數(shù)不能用來(lái)衡量測(cè)驗(yàn)的內(nèi)部一致性, 也不能用來(lái)衡量測(cè)驗(yàn)的同質(zhì)性(溫忠麟, 葉寶娟, 2011), 因?yàn)轭}目數(shù)量的增加會(huì)導(dǎo)致α系數(shù)的增加, 哪怕是多維度的測(cè)驗(yàn), 只要題目夠多, α系數(shù)就會(huì)高(孟慶茂, 劉紅云, 2002)。已有研究發(fā)現(xiàn)α系數(shù)高不代表測(cè)驗(yàn)是同質(zhì)的(劉紅云, 2008)。為了避免研究者為提高α系數(shù)而增加多余條目的行為, 有人認(rèn)為α系數(shù)不宜超過(guò)0.9 (安勝利, 陳平雁, 2001; 孟慶茂, 劉紅云, 2002)。后面我們會(huì)看到, 合成信度可以用來(lái)衡量測(cè)驗(yàn)的內(nèi)部一致性, 同質(zhì)性則要使用同質(zhì)性系數(shù)來(lái)衡量(見(jiàn)第2節(jié))。
在應(yīng)用α系數(shù)的過(guò)程中容易忽視正態(tài)分布這一使用前提。因?yàn)棣料禂?shù)以經(jīng)典測(cè)量理論的真分?jǐn)?shù)模型為基礎(chǔ), 但經(jīng)典測(cè)量理論是以正態(tài)分布為前提的。焦璨等(2008)通過(guò)模擬研究表明, 當(dāng)測(cè)驗(yàn)數(shù)據(jù)為非正態(tài)時(shí), 偏度越大, α系數(shù)越小。焦璨等建議, 先將非正態(tài)數(shù)據(jù)進(jìn)行聚類, 假設(shè)聚為3個(gè)組, 則分別求3個(gè)組的α系數(shù), 用多個(gè)α系數(shù)來(lái)描述測(cè)驗(yàn)可靠性。關(guān)守義(2009)進(jìn)一步指出, α系數(shù)在實(shí)際應(yīng)用中除了需要滿足正態(tài)分布的前提, 還需要確保每個(gè)個(gè)體方差相同、每次觀測(cè)均相互獨(dú)立, 并且各測(cè)量題目需要具有相同的心理刻度。
隨著驗(yàn)證性因子模型(包括雙因子模型)的引入, 信度研究得到了迅猛發(fā)展, 其中研究最多且成果最豐富的當(dāng)屬同質(zhì)性系數(shù)和合成信度。
同質(zhì)性是指所有題目都測(cè)量了相同的特質(zhì)(Revelle & Zinbarg, 2009; 劉紅云, 2008), 如果所有題目之間的相關(guān)都高, 則同質(zhì)性高。無(wú)論單維還是多維測(cè)驗(yàn), 都可以考慮測(cè)驗(yàn)同質(zhì)性。
2.1.1 單維測(cè)驗(yàn)的同質(zhì)性系數(shù)
其實(shí)新世紀(jì)前后國(guó)內(nèi)已經(jīng)有學(xué)者發(fā)現(xiàn)α系數(shù)不能很好地衡量同質(zhì)性, 提出了一些新的同質(zhì)性指標(biāo)。陳希鎮(zhèn)(1991)提出了β系數(shù), 謝小慶(1998)提出了γ系數(shù), 丁樹(shù)良和周新蓮(2002)提出ξ系數(shù)。這些系數(shù)都只是某種程度上比α系數(shù)有改進(jìn), 但也和α系數(shù)一樣, 沒(méi)有從信度的定義出發(fā), 所以沒(méi)有根本上的突破。
基于驗(yàn)證性因子模型, Raykov (2001)提出用ρ系數(shù)作為單維測(cè)驗(yàn)(也稱為同屬測(cè)驗(yàn))的同質(zhì)性系數(shù), 這是方法上的突破。在建立單因子模型后, 整份測(cè)驗(yàn)的總分 = (題目的因子負(fù)荷之和) × 因子+ (題目誤差之和), 加號(hào)前面的為真分?jǐn)?shù)部分, 加號(hào)后面的為誤差部分。這樣, 總分的方差就可以分解為真分?jǐn)?shù)方差和誤差方差。將信度的定義應(yīng)用于總分, 就得到ρ系數(shù), 它等于測(cè)驗(yàn)總分的方差中, 真分?jǐn)?shù)方差所占的比例(Raykov, 2001;陳希鎮(zhèn), 李學(xué)娟, 2011)。ρ系數(shù)可以用任意一款結(jié)構(gòu)方程軟件計(jì)算得到。
顧海根和李超(2005)采用概化理論的研究方法, 對(duì)ρ系數(shù)、α系數(shù)、β系數(shù)、γ系數(shù)、ξ系數(shù)進(jìn)行了比較研究。結(jié)果發(fā)現(xiàn), ρ系數(shù)最優(yōu), 表現(xiàn)在ρ系數(shù)最接近信度的真值, α系數(shù)最劣, βγξ系數(shù)基本處于一個(gè)水平, 介于ρ和α系數(shù)之間。因此, 應(yīng)當(dāng)將ρ系數(shù)作為單維測(cè)驗(yàn)的同質(zhì)性系數(shù)指標(biāo)。
2.1.2 多維測(cè)驗(yàn)的同質(zhì)性系數(shù)
對(duì)于多維測(cè)驗(yàn), 在決定將多個(gè)維度的測(cè)驗(yàn)分?jǐn)?shù)合成測(cè)驗(yàn)總分時(shí), 應(yīng)當(dāng)考慮測(cè)驗(yàn)同質(zhì)性的高低。如果測(cè)驗(yàn)同質(zhì)性高(例如大于0.5), 合成總分是有意義的(溫忠麟等, 2018); 如果同質(zhì)性太低, 合成總分沒(méi)有什么意義, 以合成總分為基礎(chǔ)進(jìn)行的統(tǒng)計(jì)分析也就沒(méi)有什么意義, 這時(shí)應(yīng)當(dāng)以維度為變量進(jìn)行統(tǒng)計(jì)分析。
估計(jì)同質(zhì)性系數(shù)可以使用雙因子模型(bi- factor model, 詳見(jiàn):顧紅磊等, 2014)。在雙因子模型中, 測(cè)驗(yàn)總分的方差就可以分解為三部分:全局因子分?jǐn)?shù)的方差、局部因子分?jǐn)?shù)的方差和誤差方差。測(cè)驗(yàn)的同質(zhì)性系數(shù)定義為:測(cè)驗(yàn)總分的方差中, 全局因子分?jǐn)?shù)方差所占的比例, 有些文獻(xiàn)將其記為ω(Revelle & Zinbarg, 2009; 溫忠麟, 葉寶娟, 2011)。
葉寶娟和溫忠麟(2012b)用Delta法推導(dǎo)出計(jì)算同質(zhì)性系數(shù)的標(biāo)準(zhǔn)誤公式, 進(jìn)而計(jì)算其置信區(qū)間。他們通過(guò)模擬比較了用Delta法和Bootstrap法計(jì)算的置信區(qū)間, 發(fā)現(xiàn)兩者差異很小。他們還提供了簡(jiǎn)單的計(jì)算多維測(cè)驗(yàn)的同質(zhì)性系數(shù)及其置信區(qū)間的LISREL和Mplus程序。
與同質(zhì)性密切相關(guān)的一個(gè)概念是單維性。在雙因子模型中, 將全部題目的全局因子分?jǐn)?shù)的方差相加是全局因子解釋的方差, 將全部題目的局部因子分?jǐn)?shù)的方差相加后再加上全局因子解釋的方差就是公共方差。全局因子對(duì)公共方差的解釋比例(explained common variance, ECV) = (各題的全局因子分?jǐn)?shù)的方差之和) / (各題的全局因子分?jǐn)?shù)的方差之和 + 各題的局部因子分?jǐn)?shù)的方差之和)。ECV通常作為單維性指標(biāo)(Bentler, 2009), 用來(lái)判斷多維測(cè)驗(yàn)的單維傾向性的程度。如果ECV超過(guò)0.7, 可以認(rèn)為測(cè)驗(yàn)是單維的(顧紅磊, 溫忠麟, 2017; Reise, 2012)。ECV指標(biāo)可用Mplus軟件進(jìn)行計(jì)算(王孟成, 葉寶娟, 2014; 顧紅磊, 溫忠麟, 2017)。
綜上可知, 同質(zhì)性系數(shù)和單維性指標(biāo)ECV是兩個(gè)同源指標(biāo), 都源于雙因子模型將每個(gè)題目分解為三個(gè)部分, 如果從整份測(cè)驗(yàn)的總分入手進(jìn)行分析, 則可得同質(zhì)性系數(shù); 如果從題目的方差入手進(jìn)行分析, 則可得ECV。隨著全局因子的方差的變大, 同質(zhì)性系數(shù)和ECV都會(huì)變高。兩者的區(qū)別也明顯, 因?yàn)镋CV沒(méi)有涉及誤差方差, 單維測(cè)驗(yàn)的同質(zhì)性不一定高(因?yàn)榭赡苷`差方差大)。但同質(zhì)性系數(shù)越高, ECV也越高。
2.1.3 題目表述效應(yīng)對(duì)同質(zhì)性系數(shù)的影響
題目表述效應(yīng)是指由題目表述方式的差異(如正向題和反向題)引起的與測(cè)量?jī)?nèi)容無(wú)關(guān)的系統(tǒng)變異。題目表述效應(yīng)模型本質(zhì)上是一種雙因子模型, 包括全局因子(所測(cè)特質(zhì), 影響全部題目)、局部因子(如正向題目效應(yīng)因子1, 反向題目效應(yīng)因子2)和測(cè)量誤差。評(píng)價(jià)這類測(cè)驗(yàn)的同質(zhì)性系數(shù)可以了解, 在排除了題目表述效應(yīng)和測(cè)驗(yàn)誤差引起的變異之后, 所測(cè)特質(zhì)的變異占總變異的比例, 進(jìn)而評(píng)價(jià)合成總分是否有意義。顧紅磊和溫忠麟(2014)發(fā)現(xiàn)忽視題目表述效應(yīng)會(huì)高估測(cè)驗(yàn)的同質(zhì)性系數(shù)。韋嘉等(2017)發(fā)現(xiàn)忽視題目表述效應(yīng), 還會(huì)高估測(cè)驗(yàn)的α系數(shù)和合成信度。
2.2.1 合成信度的點(diǎn)估計(jì)和區(qū)間估計(jì)
合成信度是量表的合成分?jǐn)?shù)(均值或者總分)的信度。對(duì)于單維測(cè)驗(yàn), 合成信度與同質(zhì)性系數(shù)相同(溫忠麟, 葉寶娟, 2011), 即測(cè)驗(yàn)總分的方差中真分?jǐn)?shù)方差所占的比例。單維測(cè)驗(yàn)的合成信度可用SPSS軟件(楊強(qiáng)等, 2014b)、LISREL和Mplus軟件(溫忠麟, 葉寶娟, 2011)計(jì)算得到。
對(duì)于多維測(cè)驗(yàn), 使用雙因子模型將總分的方差分解為三部分:全局因子分?jǐn)?shù)的方差、局部因子分?jǐn)?shù)的方差和誤差方差。測(cè)驗(yàn)的合成信度定義為:測(cè)驗(yàn)總分方差中, 全局因子和所有局部因子分?jǐn)?shù)方差所占的比例, 有些文獻(xiàn)將其記為ω(Revelle & Zinbarg, 2009; 溫忠麟, 葉寶娟, 2011)。總分的方差中, 如果將誤差方差之外的都理解為真分?jǐn)?shù)的方差, 按信度定義計(jì)算得到的就是合成信度。多維測(cè)驗(yàn)的合成信度可用LISREL (徐萬(wàn)里, 2008; 屠金路等, 2010)和Mplus (王孟成, 葉寶娟, 2014)等結(jié)構(gòu)方程軟件計(jì)算得到。
值得注意的是, 合成信度在計(jì)算測(cè)驗(yàn)總分的時(shí)候, 通常直接將題目得分相加求和, 即將測(cè)驗(yàn)所有的題目賦予了同樣的權(quán)重(權(quán)重為1)。也有研究者利用驗(yàn)證性因子分析的結(jié)果, 選擇一組權(quán)重(每個(gè)題目的權(quán)重=該題目的因子負(fù)荷/該題目的誤差方差), 將題目得分乘以該題的權(quán)重, 再求和合成一個(gè)總分, 此時(shí)求得的合成信度達(dá)到最大值, 稱為最大信度(Fu et al., 2018; 田雪垠等, 2019; 葉寶娟, 楊強(qiáng), 2011)。最大信度即可用于通常的單維測(cè)驗(yàn)(葉寶娟, 楊強(qiáng), 2011)和多維測(cè)驗(yàn)(Fu et al., 2018), 也可用于被試有層級(jí)結(jié)構(gòu)的測(cè)驗(yàn)(即多水平測(cè)驗(yàn); 田雪垠等, 2019)。
有三種方法可以估計(jì)合成信度的標(biāo)準(zhǔn)誤進(jìn)而計(jì)算合成信度的置信區(qū)間:Bootstrap法(屠金路等, 2005)、Delta法、直接用結(jié)構(gòu)方程建模軟件輸出的標(biāo)準(zhǔn)誤。葉寶娟和溫忠麟(2011)比較了以上三種方法在計(jì)算單維測(cè)驗(yàn)合成信度的置信區(qū)間中的表現(xiàn), 推薦用Mplus軟件估計(jì)Delta法的單維測(cè)驗(yàn)合成信度的置信區(qū)間。后續(xù)的一系列研究都表明, 無(wú)論單維還是多維, 是否偏態(tài)分布, 測(cè)驗(yàn)誤差是否相關(guān), 都推薦使用Delta法估計(jì)合成信度的置信區(qū)間(楊強(qiáng)等, 2014a; 葉寶娟, 2012; 葉寶娟, 溫忠麟, 2012a; 葉寶娟, 楊強(qiáng), 2014, 2015)。
2.2.2 合成信度與內(nèi)部一致性、同質(zhì)性的關(guān)系
內(nèi)部一致性可以定義為題目之間的相關(guān)性(Revelle & Zinbarg, 2009), 如果同一維度內(nèi)部的題目之間相關(guān)高, 則內(nèi)部一致性高。對(duì)于多維量表, 內(nèi)部一致性應(yīng)當(dāng)理解為同一維度內(nèi)部的題目之間的相關(guān)性, 而不是全部題目之間的相關(guān)性。這樣, 合成信度可以理解為內(nèi)部一致性信度 (Bentler, 2009; 溫忠麟, 葉寶娟, 2011)。同質(zhì)性高的測(cè)驗(yàn), 內(nèi)部一致性也高, 但反過(guò)來(lái)不一定成立(張力為, 2002)。
可以證明同質(zhì)性系數(shù)不超過(guò)合成信度(因?yàn)楹铣尚哦鹊姆肿又邪植恳蜃臃讲?, 當(dāng)且僅當(dāng)局部因子不存在時(shí)(即單維), 兩者相等(溫忠麟, 葉寶娟, 2011)。不論誤差是否相關(guān), 合成信度都不超過(guò)測(cè)驗(yàn)信度(溫忠麟, 葉寶娟, 2011), 即同質(zhì)性系數(shù)≤合成信度≤測(cè)驗(yàn)信度。因此, 用合成信度來(lái)估計(jì)測(cè)驗(yàn)信度更為準(zhǔn)確。溫忠麟和葉寶娟(2011)總結(jié)出一個(gè)測(cè)驗(yàn)信度分析流程(見(jiàn)圖1), 可以對(duì)量表合成分?jǐn)?shù)的信度做出評(píng)價(jià)。
圖1 測(cè)驗(yàn)信度分析流程(溫忠麟, 葉寶娟, 2011)
2.2.3 合成信度的實(shí)際意義
研究變量之間關(guān)系既有基于顯變量(合成分?jǐn)?shù))的分析(可以使用回歸模型), 也有基于潛變量(帶有指標(biāo))的分析(可以使用結(jié)構(gòu)方程模型)。什么時(shí)候使用顯變量分析已經(jīng)足夠, 什么時(shí)候需要潛變量分析才好, 判斷的主要依據(jù)就是量表的合成信度。兩個(gè)顯變量之間的相關(guān)系數(shù), 等于兩個(gè)相應(yīng)的潛變量之間的相關(guān)系數(shù)乘以兩個(gè)合成信度的幾何平均(侯杰泰等, 2004)。如果兩個(gè)合成信度都超過(guò)0.95 (題目較多的許多量表都滿足), 使用顯變量分析與使用潛變量分析的結(jié)果差別不大, 否則, 使用潛變量分析較好。對(duì)于回歸系數(shù), 關(guān)鍵是自變量的合成信度(因?yàn)橐蜃兞客ㄟ^(guò)殘差考慮了測(cè)驗(yàn)誤差)。使用顯變量得到的回歸系數(shù), 等于使用潛變量得到的回歸系數(shù)乘以自變量的合成信度。如果自變量的合成信度超過(guò)0.95, 使用顯變量分析與使用潛變量分析的結(jié)果差別不大, 否則, 使用潛變量分析較好。
2.3.1 單指標(biāo)信度
根據(jù)真分?jǐn)?shù)模型, 測(cè)驗(yàn)中的單個(gè)題目是無(wú)法按信度的定義計(jì)算其信度的。但基于驗(yàn)證性因子分析, 真分?jǐn)?shù)的方差也是可以估計(jì)的, 因而可以估計(jì)單個(gè)題目的信度, 即單指標(biāo)信度。單指標(biāo)信度反映單一題目得分受潛變量影響的程度, 其值越高, 表示真分?jǐn)?shù)所占的比重越大(方敏, 2009)。王孟成和葉寶娟(2014)給出了計(jì)算單指標(biāo)信度的Mplus程序。對(duì)于完全標(biāo)準(zhǔn)化估計(jì), 題目負(fù)荷的平方就是單指標(biāo)信度。
2.3.2 整個(gè)題目集分?jǐn)?shù)的信度
用合成信度和最大信度衡量測(cè)驗(yàn)的信度是有前提的, 即測(cè)驗(yàn)的各個(gè)題目可以相加得一總分。而在實(shí)際應(yīng)用中, 有些測(cè)驗(yàn)的各個(gè)題目相加得一總分并沒(méi)有多大意義, 雖然此時(shí)仍可計(jì)算合成信度及最大信度, 但沒(méi)有意義。Alonso等(2010)用驗(yàn)證性因子分析推導(dǎo)出了兩個(gè)新的信度系數(shù)R和Λ。R信度系數(shù)是用觀測(cè)分?jǐn)?shù)與誤差分?jǐn)?shù)的方差-協(xié)方差矩陣的跡, 來(lái)概括觀測(cè)分?jǐn)?shù)與誤差分?jǐn)?shù)的變異得到的; 而Λ是用觀測(cè)分?jǐn)?shù)與誤差分?jǐn)?shù)方差?協(xié)方差矩陣的行列式, 來(lái)概括觀測(cè)分?jǐn)?shù)與誤差分?jǐn)?shù)的變異得到的。
葉寶娟和楊強(qiáng)(2011)比較了合成信度、最大信度、R和Λ, 并討論了這4種信度系數(shù)估計(jì)方法的差異:(1)信度計(jì)算時(shí)對(duì)每個(gè)題目分?jǐn)?shù)的處理方法不一樣。合成信度及最大信度是將各題目分?jǐn)?shù)單位加權(quán)或不等加權(quán)合成總分, 計(jì)算的是測(cè)驗(yàn)總分的信度, 而R和Λ系數(shù)計(jì)算的是整個(gè)測(cè)驗(yàn)題目集分?jǐn)?shù)的信度。(2)測(cè)驗(yàn)長(zhǎng)度對(duì)信度的影響不一樣。隨著題目的增多, 合成信度不一定變大, 如果加入質(zhì)量不好的題目(如題目的因子負(fù)荷小), 合成信度和R都可能降低; 而最大信度和Λ會(huì)隨著題目的增多而增大。(3)信度系數(shù)的數(shù)值大小不同。最大信度=Λ≥合成信度≥R。
前面介紹的信度用于常規(guī)的測(cè)驗(yàn)數(shù)據(jù)。對(duì)于有層級(jí)結(jié)構(gòu)的數(shù)據(jù)(多水平數(shù)據(jù))、追蹤研究的重復(fù)測(cè)量數(shù)據(jù)(縱向數(shù)據(jù)), 需要有相應(yīng)的方法得到更準(zhǔn)確的信度估計(jì)。
在心理、教育、管理等研究領(lǐng)域中, 經(jīng)常會(huì)遇到兩水平的數(shù)據(jù)結(jié)構(gòu), 如學(xué)生嵌套于班級(jí)中, 員工嵌套于企業(yè)中, 這樣的兩層數(shù)據(jù)結(jié)構(gòu)能夠更準(zhǔn)確地研究變量之間的關(guān)系。葉寶娟和溫忠麟(2013b)用兩水平驗(yàn)證性因子分析模型推導(dǎo)出兩水平研究中單維測(cè)驗(yàn)的信度公式, 無(wú)論組間因子負(fù)荷是自由還是固定都適用。組間因子負(fù)荷自由估計(jì)的兩水平研究中, 單維測(cè)驗(yàn)信度的點(diǎn)估計(jì)可用Mplus軟件得到(葉寶娟, 溫忠麟, 2013b)。但如何得到單維測(cè)驗(yàn)信度的區(qū)間估計(jì)還亟待解決。
田雪垠等(2019)以兩層數(shù)據(jù)為例討論多水平研究的信度估計(jì)。將觀察分?jǐn)?shù)分解為層1真分?jǐn)?shù)和層2真分?jǐn)?shù)、層1誤差和層2誤差四個(gè)部分。然后分別估計(jì)層1信度和層2信度, 包括層1和層2的α系數(shù)、合成信度和最大信度。例如, 將α系數(shù)公式分別應(yīng)用于層1的方差和層2的方差, 得到層1的α系數(shù)和層2的α系數(shù)。他們使用Mplus軟件展示了如何利用兩水平驗(yàn)證性因子分析計(jì)算兩水平多維測(cè)驗(yàn)的信度。但如何得到多維測(cè)驗(yàn)信度的區(qū)間估計(jì)還亟待解決。另外, 劉霖芯等(2018)將單層數(shù)據(jù)(個(gè)被試完成個(gè)題目)看成是題目嵌套于被試的兩層數(shù)據(jù)(題目為層1, 被試為層2), 利用兩水平模型計(jì)算α系數(shù)。
有研究者用體現(xiàn)追蹤數(shù)據(jù)特點(diǎn)的數(shù)學(xué)模型提出相應(yīng)的信度估計(jì), 包括基于單純形模型的ρ, 基于概化單純形模型的ρ(S), 但ρ和ρ(S)都只估計(jì)了單個(gè)時(shí)間點(diǎn)測(cè)驗(yàn)的信度, 而沒(méi)有給出整個(gè)追蹤研究測(cè)驗(yàn)的信度。還有研究者基于線性混合模型, 利用前面介紹的計(jì)算R和Λ的思想定義了追蹤數(shù)據(jù)中的R和Λ,R和Λ既可估計(jì)追蹤研究中單個(gè)時(shí)間點(diǎn)的測(cè)驗(yàn)信度, 也可估計(jì)整個(gè)追蹤研究的測(cè)驗(yàn)信度, 推薦同時(shí)使用R和Λ來(lái)估計(jì)追蹤研究的測(cè)驗(yàn)信度(葉寶娟等, 2012)。但是在非線性條件以及非平衡設(shè)計(jì)等條件下, 它們的適用性還有待進(jìn)一步的研究。實(shí)際上, 追蹤數(shù)據(jù)還可看成重復(fù)測(cè)量的時(shí)間點(diǎn)嵌套于被試的兩水平嵌套數(shù)據(jù), 用兩水平信度測(cè)量方法進(jìn)行信度估計(jì)。關(guān)于R和Λ與兩水平信度系數(shù)在追蹤數(shù)據(jù)的信度計(jì)算中的表現(xiàn)孰優(yōu)孰劣, 有待進(jìn)一步研究。
除了用來(lái)評(píng)價(jià)測(cè)驗(yàn)(如問(wèn)卷和試題)結(jié)果的一致性外, 信度還可以有其他用途, 例如評(píng)價(jià)不同評(píng)分者對(duì)被試作答的評(píng)分的一致性(評(píng)分者信度)、評(píng)價(jià)不同編碼者對(duì)相同文本獨(dú)立編碼的一致性(編碼者信度)、評(píng)價(jià)認(rèn)知診斷屬性分類的一致性(認(rèn)知診斷屬性分類一致性信度)、評(píng)價(jià)培訓(xùn)或者練習(xí)效果的一致性(差異分?jǐn)?shù)的信度)等。
評(píng)分者信度的計(jì)算方法有相關(guān)法(孫曉敏, 張厚粲, 2005; 何佳等, 2007; 蔣小花等, 2010), 百分比法(孫曉敏, 張厚粲, 2005)和基于概化理論的方法(嚴(yán)芳, 李偉明, 2002; 李斌等, 2011)。相比相關(guān)法和百分比法, 概化理論對(duì)評(píng)分者一致性的估計(jì)更為靈活(所需前提假設(shè)更少, 適用面更廣)和主動(dòng)(不僅可以得到概化系數(shù), 還可以根據(jù)所得到的方差分量估計(jì)值算出為達(dá)到一定的概化系數(shù), 選擇多少評(píng)分者是合適的), 孫曉敏和張厚粲(2005)推薦用概化理論估計(jì)表現(xiàn)性評(píng)價(jià)中的評(píng)分者信度。
檢驗(yàn)編碼者信度的方法有歸類一致性指數(shù)、編碼信度系數(shù)、相關(guān)系數(shù)、中位數(shù)檢驗(yàn)、概化系數(shù)(徐建平, 張厚粲, 2005)。其中, 歸類一致性指數(shù)是指對(duì)編碼歸類相同數(shù)占?xì)w類總數(shù)的百分比, 因此其穩(wěn)定性更多地受相同編碼數(shù)目的影響, 相同編碼數(shù)據(jù)越多, 歸類一致性指數(shù)越高; 概化系數(shù)則受編碼者和編碼題目數(shù)量的影響。具體地, 編碼者側(cè)面、以及與編碼者相關(guān)的交互效應(yīng)變異分量越小, 編碼者一致性就越高。在編碼題目數(shù)量較小時(shí), 概化系數(shù)的增幅較大(徐建平, 張厚粲, 2005)。
對(duì)于認(rèn)知診斷的屬性分類一致性信度的點(diǎn)估計(jì), 可用改進(jìn)后的α系數(shù)法(汪文義等, 2018)、四分相關(guān)法(郭磊, 張金明, 2018)、一致性法(郭磊, 張金明, 2018; 汪文義等, 2018)、基于Bootstrap的積差相關(guān)法和修正的一致性法(郭磊, 張金明, 2018)進(jìn)行估計(jì)。郭磊和張金明(2018)的模擬研究表明, 積差相關(guān)法表現(xiàn)最優(yōu)(平均偏差的絕對(duì)值更接近0和誤差均方根指標(biāo)最小), 修正的一致性法和一致法居中, 四分相關(guān)法最差。
對(duì)于認(rèn)知診斷屬性分類一致性信度的區(qū)間估計(jì), 汪文義等(2018)在一致法獲得屬性分類一致性的點(diǎn)估計(jì)的基礎(chǔ)上, 比較了三種估計(jì)信度置信區(qū)間的方法:Bootstrap法、平行測(cè)驗(yàn)配對(duì)法和平行測(cè)驗(yàn)法, 推薦使用Bootstrap法估計(jì)認(rèn)知診斷屬性分類一致性信度的置信區(qū)間。汪文義等(2020)進(jìn)一步發(fā)現(xiàn), 用Bootstrap法估計(jì)的屬性分類一致性信度平均數(shù)和標(biāo)準(zhǔn)誤在不同研究條件的模型選擇率較穩(wěn)定, 總體表現(xiàn)較好。
差異分?jǐn)?shù)(也稱增長(zhǎng)分?jǐn)?shù))是指同一批被試兩次測(cè)試的得分之差, 用以判斷培訓(xùn)或者練習(xí)的效果。關(guān)丹丹等(2005)給出了差異分?jǐn)?shù)的信度點(diǎn)估計(jì)的計(jì)算公式, 差異分?jǐn)?shù)的信度不超過(guò)兩次測(cè)試中信度相對(duì)較高的那次測(cè)試的信度。兩次測(cè)試的信度、標(biāo)準(zhǔn)差和相關(guān)都會(huì)影響差異分?jǐn)?shù)的信度。
新世紀(jì)20年來(lái), 國(guó)內(nèi)學(xué)者努力探索如何更準(zhǔn)確地估計(jì)測(cè)驗(yàn)的信度, 既包括理論層面的探索(從經(jīng)典測(cè)驗(yàn)理論→概化理論; 陳社育, 余嘉元, 2001), 也包括工具層面的探索(從無(wú)因子分析模型→驗(yàn)證性因子分析模型→雙因子模型), 使得信度領(lǐng)域的方法學(xué)研究取得了長(zhǎng)足的發(fā)展, 加深了我們對(duì)信度的認(rèn)識(shí)。本文從有關(guān)α系數(shù)的研究開(kāi)始, 系統(tǒng)回顧了這期間國(guó)內(nèi)有關(guān)信度的研究, 重心是基于驗(yàn)證性因子分析模型的信度, 也包括兩水平和追蹤數(shù)據(jù)的信度、其他用途的測(cè)驗(yàn)信度等。但也還有一些尚未介紹的發(fā)展情況需要補(bǔ)充一下。
第一, 國(guó)內(nèi)信度研究在信度的元分析方面也有發(fā)展。信度的元分析有兩類研究。一類是利用變化系數(shù)模型對(duì)單維測(cè)驗(yàn)的合成信度進(jìn)行元分析, 并提出用Delta法估計(jì)合成信度元分析置信區(qū)間(葉寶娟等, 2013)。他們還以區(qū)間覆蓋率為衡量指標(biāo), 用模擬研究證明Delta法的合成信度元分析區(qū)間估計(jì)的方法是得當(dāng)?shù)?。另一類是信度概?reliability generalization), 信度概化是概化理論的應(yīng)用, 它是以某一特定的測(cè)驗(yàn)工具(如問(wèn)卷)在不同研究中的信度系數(shù)作為研究樣本, 對(duì)這些信度系數(shù)作再研究, 探究影響信度的變量, 即使信度系數(shù)發(fā)生變化的預(yù)測(cè)源, 并研究與信度系數(shù)有關(guān)的測(cè)量條件及因素的變異性(關(guān)丹丹, 張厚粲, 2004; 焦璨等, 2009)。
第二, 已有一些學(xué)者嘗試在傳統(tǒng)心理測(cè)驗(yàn)中引入計(jì)算機(jī)化自適應(yīng)測(cè)驗(yàn)技術(shù)(例如, 李宇斌等, 2020; 汪大勛, 涂冬波, 2021; 張龍飛等, 2020), 但目前還沒(méi)有合適的方法估計(jì)計(jì)算機(jī)化自適應(yīng)測(cè)驗(yàn)信度, 有待研究。
為了更好地對(duì)信度的當(dāng)下研究有所了解, 下面從三個(gè)方面介紹國(guó)外期刊信度研究的情況, 或許可以發(fā)現(xiàn)一些值得未來(lái)探索和拓展的方向。
McNeish (2018)認(rèn)為α系數(shù)過(guò)時(shí)了, 建議用合成信度、最大信度等替代α系數(shù)。Raykov和Marcoulides (2019)則認(rèn)為, 在某些條件下, α系數(shù)還可以作為信度的估計(jì)值, 不用放棄。Sijtsma和Pfadt (2021)指出, 即使題目誤差相關(guān), α系數(shù)的屬性仍保持不變。國(guó)外學(xué)者現(xiàn)在還在爭(zhēng)論的這個(gè)問(wèn)題, 國(guó)內(nèi)學(xué)者在10年前已經(jīng)說(shuō)得相當(dāng)清楚。溫忠麟和葉寶娟(2011)已明確指出, 對(duì)于大多數(shù)測(cè)驗(yàn)來(lái)說(shuō), 假設(shè)誤差不相關(guān)是合理的, 如果α系數(shù)高到可以接受, 那么測(cè)驗(yàn)信度就可以接受。因而對(duì)于大多數(shù)測(cè)驗(yàn)來(lái)說(shuō), 計(jì)算并報(bào)告α系數(shù), 已經(jīng)足以支持測(cè)驗(yàn)信度。所以, 多數(shù)情況下, α系數(shù)還可以繼續(xù)使用。
Edwards等(2021)比較了單維的合成信度、多維的合成信度、信度的最大下限和α系數(shù)的表現(xiàn), 結(jié)果發(fā)現(xiàn)合成信度和α系數(shù)比較準(zhǔn)確地反映了總體信度, 且信度估計(jì)受樣本大小、基本τ-等價(jià)的違反程度、總體信度大小和題目數(shù)量的影響。合成信度受樣本大小和題目數(shù)量的影響更大, 特別是當(dāng)總體信度低的時(shí)候, 而α系數(shù)對(duì)違反τ-等價(jià)性的程度比較敏感。
Padilla和Divers (2016)比較了6種合成信度的置信區(qū)間獲得方法(不包括貝葉斯法), 結(jié)果發(fā)現(xiàn)bootstrap置信區(qū)間表現(xiàn)最優(yōu)。Kelley和Pornprasertmanit (2016)比較了4種信度系數(shù)的置信區(qū)間, 包括類別變量的合成信度, 建議使用bootstrap置信區(qū)間。Pfadt等(in press)提出在貝葉斯框架下, 利用Gibbs抽樣得到信度系數(shù)的后驗(yàn)分布后, 估計(jì)信度系數(shù)的可信區(qū)間。模擬研究表明, 在無(wú)信息先驗(yàn)條件下, 95%的貝葉斯可信區(qū)間與95%的bootstrap置信區(qū)間相當(dāng)。
如果因子模型有跨因子負(fù)荷卻被忽略, 結(jié)果會(huì)如何?Fu等(2022)用模擬研究比較了探索性結(jié)構(gòu)方程模型(麥玉嬌, 溫忠麟, 2013)和驗(yàn)證性因子模型在求合成信度中的表現(xiàn)。結(jié)果表明, 基于探索性結(jié)構(gòu)方程模型和驗(yàn)證性因子模型得到的合成信度相當(dāng)接近, 說(shuō)明忽略跨因子負(fù)荷對(duì)合成信度的估計(jì)影響不大。
Lai等(2020)將合成信度拓展到多水平模型中, 定義了6種適用于多水平數(shù)據(jù)的合成信度指標(biāo), 并給出R和Mplus程序計(jì)算信度的置信區(qū)間。
Scherer和Teo (2020)指出信度概化存在三個(gè)不足:信度系數(shù)估計(jì)中存在不切實(shí)際的假設(shè)(例如, α系數(shù)的基本τ-等價(jià)假設(shè)); 忽略量表總分和分量表分?jǐn)?shù)的信度系數(shù)的相關(guān)性; 不同類型的信度系數(shù)之間缺乏可比性。他們提出元分析結(jié)構(gòu)方程(meta-analytic structural equation modeling, MASEM)來(lái)解決這三個(gè)不足, 進(jìn)行信度概化分析。ten Hove等(in press)將評(píng)分者信度拓展到多水平模型, 用概化理論考察多水平觀測(cè)數(shù)據(jù)的評(píng)分者信度, 用馬爾可夫鏈蒙特卡羅法來(lái)估計(jì)多水平觀測(cè)數(shù)據(jù)的方差。
安勝利, 陳平雁. (2001). 量表的信度及其影響因素.(4), 315–318.
陳炳為, 許碧云, 倪宗瓚, 楊惠芳. (2005). 證實(shí)性因子分析在量表信度中的應(yīng)用研究.(4). 261–263.
陳社育, 余嘉元. (2001). 經(jīng)典真分?jǐn)?shù)理論與概化理論信度觀評(píng)析.(3), 258–263.
陳希鎮(zhèn). (1991). 如何正確使用信度估計(jì)公式.(1), 41–49.
陳希鎮(zhèn), 李學(xué)娟. (2011). 結(jié)構(gòu)方程模型下的信度估計(jì).(1), 13–15.
丁樹(shù)良, 周新蓮. (2002). 一種新的信度估計(jì).(3), 222–224.
方敏. (2009). 結(jié)構(gòu)方程模型下的信度檢驗(yàn).(5), 524–526.
顧海根, 李超. (2005). 同質(zhì)信度多種指標(biāo)的比較研究.(5), 1196–1198.
顧紅磊, 溫忠麟. (2014). 項(xiàng)目表述效應(yīng)對(duì)自陳量表信效度的影響——以核心自我評(píng)價(jià)量表為例.(5), 1245–1252.
顧紅磊, 溫忠麟. (2017). 多維測(cè)驗(yàn)分?jǐn)?shù)的報(bào)告與解釋: 基于雙因子模型的視角.(4), 504–512.
顧紅磊, 溫忠麟, 方杰. (2014). 雙因子模型: 多維構(gòu)念測(cè)量的新視角.,(4), 973–979.
關(guān)丹丹, 張厚粲. (2004). 信度的再認(rèn)識(shí)與信度概括化研究.(2), 445–448.
關(guān)丹丹, 張厚粲, 李中權(quán). (2005). 差異分?jǐn)?shù)的信度分析.(1), 161–163.
關(guān)守義. (2009). 克龍巴赫α系數(shù)研究述評(píng).(3), 685–687.
郭磊, 張金明. (2018). 使用Bootstrap方法計(jì)算認(rèn)知診斷評(píng)估中的信度.(5), 433–439.
何佳, 何懼, 席雁, 徐超. (2007). 評(píng)分者信度的分析方法簡(jiǎn)介及比較.(6), 76–77.
侯杰泰, 溫忠麟, 成子娟. (2004).北京:教育科學(xué)出版社.
蔣小花, 沈卓之, 張楠楠, 廖洪秀, 徐海燕. (2010). 問(wèn)卷的信度和效度分析.(3), 429–431.
焦璨, 吳利, 張敏強(qiáng), 張文怡. (2009). 信度概化研究的新進(jìn)展評(píng)析.(2), 54–59.
焦璨, 張敏強(qiáng), 黃慶均, 張文怡, 黎光明. (2008). 非正態(tài)分布測(cè)量數(shù)據(jù)對(duì)克隆巴赫信度α系數(shù)的影響.(3), 276–281.
李斌, 辛濤, 張淑梅, 孫佳楠. (2011). 多評(píng)分者多任務(wù)情境下評(píng)分者信度的模型擬合研究.(6), 107–110.
李春會(huì), 朱永忠. (2012). 基于信度系數(shù)與α系數(shù)分析結(jié)構(gòu)方程模型.,(3), 250–252.
李宇斌, 蔡艷, 涂冬波. (2020). 手機(jī)依賴的計(jì)算機(jī)化自適應(yīng)測(cè)量及其效果評(píng)估.(3), 748–755.
劉紅云. (2008). α系數(shù)與測(cè)驗(yàn)的同質(zhì)性.(1), 185–188.
劉霖芯, 張韜, 楊珉. (2018). 利用多水平模型計(jì)算及校正Cronbach alpha系數(shù).(6), 838–842.
劉拓, 戴曉陽(yáng). (2011). 不擬合被試對(duì)測(cè)驗(yàn)信、效度的影響.(6), 743–745.
馬文軍, 潘波. (2000). 問(wèn)卷的信度和效度以及如何用SAS軟件分析.(6), 364–365.
麥玉嬌, 溫忠麟. (2013). 探索性結(jié)構(gòu)方程建模(ESEM): EFA和CFA的整合.(5), 934–939.
孟慶茂, 劉紅云. (2002). α系數(shù)在使用中存在的問(wèn)題.(3), 42–47.
孫曉敏, 張厚粲. (2005). 表現(xiàn)性評(píng)價(jià)中評(píng)分者信度估計(jì)方法的比較研究——從相關(guān)法、百分比法到概化理論.(3), 646–649.
田雪垠, 鄭蟬金, 郭少陽(yáng), 賀冠瑞. (2019). 基于多層驗(yàn)證性因素分析的各種信度系數(shù)方法.(5), 461–467.
屠金路, 金瑜, 王庭照. (2005). bootstrap法在合成分?jǐn)?shù)信度區(qū)間估計(jì)中的應(yīng)用.(5), 1199–1200.
屠金路, 王庭照, 金瑜. (2010). 結(jié)構(gòu)方程模型下多因子非同質(zhì)測(cè)量合成分?jǐn)?shù)的信度估計(jì).(3), 666–669.
汪大勛, 涂冬波. (2021). 認(rèn)知診斷計(jì)算機(jī)化自適應(yīng)測(cè)量技術(shù)在心理障礙診斷與評(píng)估中的應(yīng)用.(2), 111–117.
王孟成, 葉寶娟. (2014). 通過(guò)Mplus計(jì)算幾種常用的測(cè)驗(yàn)信度.(1), 48–52.
汪文義, 方小婷, 葉寶娟. (2018). 認(rèn)知診斷屬性分類一致性信度區(qū)間估計(jì)三種方法.(6), 1492–1499.
汪文義, 朱黎君, 葉寶娟, 方小婷. (2020). Bootstrap區(qū)間估計(jì)在認(rèn)知診斷模型誤設(shè)中的應(yīng)用.(6), 1498–1505.
韋嘉, 郭磊, 張進(jìn)輔. (2017). 表述效應(yīng)對(duì)平衡量表內(nèi)部一致性信度的影響.(8), 133–139.
溫忠麟, 方杰, 沈嘉琦, 譚倚天, 李定欣, 馬益銘. (2021). 新世紀(jì)20年國(guó)內(nèi)心理統(tǒng)計(jì)方法研究回顧.(8). 1331–1344.
溫忠麟, 黃彬彬, 湯丹丹. (2018). 問(wèn)卷數(shù)據(jù)建模前傳.(1), 204–210.
溫忠麟, 葉寶娟. (2011). 測(cè)驗(yàn)信度估計(jì): 從α系數(shù)到內(nèi)部一致性信度.(7), 821–829.
吳瑞林, 袁克海. (2012). 基于結(jié)構(gòu)方程模型的合成信度及其使用問(wèn)題研究.(12), 14–20.
席仲恩, 汪順玉. (2007). 論負(fù)克倫巴赫alpha系數(shù)和分半信度系數(shù).(6), 785–787.
謝小慶. (1998). 信度估計(jì)的γ系數(shù).(2), 193–196.
徐建平, 張厚粲. (2005). 質(zhì)性研究中編碼者信度的多種方法考察.(6), 152–154.
徐萬(wàn)里. (2008). 結(jié)構(gòu)方程模式在信度檢驗(yàn)中的應(yīng)用.(7), 9–13.
嚴(yán)芳, 李偉明. (2002). 用結(jié)構(gòu)方程建模(SEM)估計(jì)概化理論(GT)中的評(píng)分者信度.(5), 534–539.
楊強(qiáng), 葉寶娟, 溫忠麟. (2014a). 兩種估計(jì)多維測(cè)驗(yàn)合成信度置信區(qū)間方法比較.(1), 43–47.
楊強(qiáng), 葉寶娟, 溫忠麟. (2014b). 用SPSS軟件計(jì)算單維測(cè)驗(yàn)的合成信度.(3), 496–498.
葉寶娟. (2012). 偏態(tài)分布下單維測(cè)驗(yàn)合成信度三種區(qū)間估計(jì)的比較.(10), 28–32.
葉寶娟, 溫忠麟. (2011). 單維測(cè)驗(yàn)合成信度三種區(qū)間估計(jì)的比較.(4), 453–461.
葉寶娟, 溫忠麟. (2012a). 用 Delta 法估計(jì)多維測(cè)驗(yàn)合成信度的置信區(qū)間.(5), 1213–1217.
葉寶娟, 溫忠麟. (2012b). 測(cè)驗(yàn)同質(zhì)性系數(shù)及其區(qū)間估計(jì).(12), 1687–1694.
葉寶娟, 溫忠麟. (2013a). α系數(shù)的區(qū)間估計(jì)方法比較.(1), 215–222.
葉寶娟, 溫忠麟. (2013b). 兩水平研究中單維測(cè)驗(yàn)信度的估計(jì).(3), 728–733.
葉寶娟, 溫忠麟, 陳啟山. (2012). 追蹤研究中測(cè)驗(yàn)信度的估計(jì).(3), 467–474.
葉寶娟, 溫忠麟, 胡竹菁. (2013). 單維測(cè)驗(yàn)合成信度元分析.(6), 1464–1469.
葉寶娟, 楊強(qiáng). (2011). 用驗(yàn)證性因子分析估計(jì)單維測(cè)驗(yàn)的信度.(11), 8–12.
葉寶娟, 楊強(qiáng). (2014). 偏態(tài)分布下多維測(cè)驗(yàn)合成信度區(qū)間估計(jì)的比較.,(11), 8–11.
葉寶娟, 楊強(qiáng). (2015). 用Delta法估計(jì)誤差相關(guān)測(cè)驗(yàn)合成信度的置信區(qū)間: 以FAD為例.(3), 251–256.
張力為. (2002). 信度的正用與誤用.(3), 348–350.
張龍飛, 劉凱, 宋鴿, 涂冬波. (2020). 計(jì)算機(jī)化自適應(yīng)測(cè)驗(yàn)技術(shù)在情緒智力智能測(cè)評(píng)中的初步應(yīng)用——基于項(xiàng)目反應(yīng)理論.(5), 454–461.
Alonso, A., Laenen, A., Molenberghs, G., Helena Geys, H., & Vangeneugden, T. (2010). A unified approach to multi- item reliability.(4), 1061–1068.
Bentler, P. M. (2009). Alpha, dimension-free, and model- based internal consistency reliability.(1), 137–143.
Edwards, A. A., Joyner, K. J., & Schatschneider, C. (2021). A simulation study on the performance of different reliability estimation methods.(6), 1089–1117.
Fu, Y., Wen, Z., & Wang, Y. (2018). The total score with maximal reliability and maximal criterion validity: An illustration using a career satisfaction measure.(6), 1108–1122.
Fu, Y., Wen, Z., & Wang, Y. (2022). A comparison of reliability estimation based on confirmatory factor analysis and exploratory structural equation models.,(2), 205–224.
Graham, J. M. (2006). Congeneric and (essentially) tau- equivalent estimates of score reliability: What they are and how to use them.(6)930–944.
Kelley, K., & Pornprasertmanit, S. (2016). Confidence intervals for population reliability coefficients: Evaluation of methods, recommendations, and software for composite measures.(1), 69–92.
Lai, M. H. C. (2020). Composite reliability of multilevel data: It's about observed scores and construct meanings.(1), 90–102.
Lord, F. M., Novick, M. R. (1968).. Reading, MA: Addison-Wesley.
Maydeu-Olivares, A., Coffman, D. L., & Hartmann, W. M. (2007). Asymptotically distribution free (ADF) interval estimation of coefficient alpha.(2)157–176.
McNeish, D. (2018). Thanks coefficient alpha, we’ll take it from here.(3), 412–433.
Padilla, M. A., & Divers, J. (2016). A comparison of composite reliability estimators: Coefficient omega confidence intervals in the current literature.(3), 436–453.
Pfadt, J. M., van den Bergh, D., Sijtsma, K., Moshagen, M., & Wagenmakers, E. (in press). Bayesian estimation of single-test reliability coefficients..
Raykov, T. (2001). Estimation of congeneric scale reliability using covariance structure analysis with nonlinear constraints.(2), 315–323.
Raykov, T., & Marcoulides, G. A. (2019). Thanks coefficient alpha, we still need you!(1), 200–210.
Raykov, T., & Shrout, P. E. (2002). Reliability of scales with general structure: Point and interval estimation using a structural equation modeling approach.(2), 195–212.
Reise, S. P. (2012). The rediscovery of bifactor measurement models. Multivariate Behavioral Research(5), 667–696.
Revelle, W., & Zinbarg, R. E. (2009). Coefficients alpha, beta, omega, and the glb: Comments on Sijtsma.(1), 145–154.
Scherer, R., & Teo, T. (2020). A tutorial on the meta- analytic structural equation modeling of reliability coefficients.(6), 747–775.
Sijtsma, K., & Pfadt, J. M. (2021). Part Ⅱ: On the use, the misuse, and the very limited usefulness of cronbach's alpha: Discussing lower bounds and correlated errors.(4), 843–860.
ten Hove, D., Jorgensen, T. D., & van der Ark, L. A. (in press). Interrater reliability for multilevel data: A generalizability theory approach..
Zinbarg, R. E., Yovel, I., Revelle, W., & McDonald, R. P. (2006). Estimating generalizability to a latent variable common to all of a scale's indicators: A comparison of estimators for ω.(2), 121–144.
Research on test reliability in China’s mainland from 2001 to 2020
WEN Zhonglin1, CHEN Hongxi1, FANG Jie2, YE Baojuan3, CAI Baozhen1
(1School of Psychology & Center for Studies of Psychological Application, South China Normal University, Guangzhou 510631, China) (2Institute of New Development & Department of Applied Psychology, Guangdong University of Finance & Economics, Guangzhou 510320, China) (3School of Psychology & Center of Mental Health Education and Research, Jiangxi Normal University, Nanchang 330022, China)
With the application of confirmatory factor analysis, research on reliability has entered a new stage. In the first two decades of the 21st century, the studies on test reliability in China’s mainland show three main lines of development. The first is the development of test reliability based on confirmatory factor models, including homogeneity coefficient, composite reliability, maximum reliability, etc. The second is the expansion of data types collected by scales, including the reliability of two-level data and longitudinal study. The third is the extended use of reliability, involving rater reliability, encoder reliability, etc. For a common test (with item-errors uncorrelated each other), if the coefficient αis high enough, test reliability is acceptable; otherwise composite reliability is recommended. If the composite reliability of every variable in a statistical model is very high (over 0.95), modeling with composite scores does not differ much from modeling with latent variables. Otherwise, it is better to use latent variable modeling.
reliability, coefficient α, homogeneity coefficient, composite reliability, interval estimation
2021-12-29
* 國(guó)家自然科學(xué)基金項(xiàng)目(32171091)資助。
溫忠麟, E-mail: wenzl@scnu.edu.cn
B841