国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

全信息項目雙因子分析:模型、參數(shù)估計及其應(yīng)用*

2018-02-04 13:02:06毛秀珍夏夢連
心理科學(xué)進展 2018年2期
關(guān)鍵詞:測驗特質(zhì)維度

毛秀珍 夏夢連 辛 濤

(1四川師范大學(xué)教育科學(xué)學(xué)院; 2四川師范大學(xué)教師教育與心理學(xué)院, 成都 610068)

(3北京師范大學(xué)協(xié)同創(chuàng)新中心, 北京 100875)

1 引言

隨著心理測量理論和技術(shù)的發(fā)展, 科學(xué)研究與實踐工作已越來越離不開各類測驗(量表)了。測驗(量表)的結(jié)構(gòu)作為解釋測驗分?jǐn)?shù)的基礎(chǔ), 一直是測驗(量表)開發(fā)的重要內(nèi)容之一。事實上, 大部分測驗都是為了測量單一特質(zhì)而從多個相互關(guān)聯(lián)的維度或?qū)用孢M行抽樣來設(shè)計項目。例如, 在建構(gòu)生活質(zhì)量量表時, 研究者一般會從工作滿意、家庭經(jīng)濟狀況、健康和社會生活等多個方面來抽樣和設(shè)計項目。這種兩階段抽樣程序, 往往導(dǎo)致領(lǐng)域內(nèi)部相關(guān)高于領(lǐng)域之間的相關(guān), 項目反應(yīng)在測驗考察的主要維度上不滿足條件獨立性, 從而使測驗結(jié)構(gòu)變得更加復(fù)雜。一般地, 測驗或量表的測量結(jié)構(gòu)可以劃分為以下五類:單維模型(unidimensional model)、多個單維模型(multiunidimensional model)、相關(guān)特質(zhì)多維模型(correlated traits multidimensional model)、二階因子模型(secondorder factor model)和雙因子模型(bifactor model)。

其中, 單維模型(見圖 1(a))的限制條件最嚴(yán)格, 它要求所有項目測量同一個特質(zhì), 該特質(zhì)解釋所有項目反應(yīng)的協(xié)方差。圖 1(b)和(c)所示的兩類項目間多維模型(between-item multidimensional model)要求每個項目只在一個因子上有負(fù)載。它們雖然包含多個因子, 但是可形成多個子量表,并可用單維項目反應(yīng)理論(Item Response Theory,IRT)模型去擬合各個子量表。圖 1(b)假設(shè)因子之間相互獨立, 結(jié)構(gòu)簡單, 又稱為多個單維 IRT模型。但是它很少用于檢測實證數(shù)據(jù)的潛特質(zhì)結(jié)構(gòu)。而圖1(c)允許因子相關(guān), 能同時估計多個潛在特質(zhì), 與多個單維模型相比提高了測驗效率。但相關(guān)特質(zhì)模型通常存在高階特質(zhì), 混淆了一階因子和高階因子, 當(dāng)測驗(項目)擬合檢驗很差時,不能指出因子結(jié)構(gòu)的錯誤(Reise, 2012)。圖1 (d)所示的二階因子模型包括6個觀察變量、兩個一階因子和一個二階因子。如圖所示, 二階因子與觀察變量不直接相關(guān), 它對觀察變量的效應(yīng)通過一階因子的中介起作用, 其效應(yīng)量與一階因子在二階因子上的負(fù)載成比例(Seo & Weiss, 2015)。二階因子反映一階因子之間的相關(guān), 根據(jù)二階因子在一階因子上的負(fù)載可以反映其能夠解釋一階因子的程度。因而, 二階因子在概念上是一個抽象結(jié)構(gòu), 根據(jù)研究者對一階因子的理解從而對二階因子的解釋可能不同。圖1 (e)所示的雙因子模型中, 一般因子(general factor, G)和特定領(lǐng)域因子或稱為組因子(specific domain factor or group factor, S)與觀察變量直接相關(guān), 相互獨立地解釋觀察變量的變異。其中, 一般因子解釋所有項目間的相關(guān), 多個“組因子”獨立于一般因子, 解釋項目組中去掉被一般因子所解釋的那部分變異外的共同變異。組因子可能代表子量表或項目組測量的特殊特質(zhì), 也可能是無關(guān)因子(例如項目在表達上存在正相關(guān)或負(fù)相關(guān), 或者觀察變量受到共同提示的影響)。

除了圖 1所示的差異外, 這幾個測量模型同時還具有密切聯(lián)系。雙因子模型中當(dāng)一般因子的負(fù)載顯著大于組因子的負(fù)載時, 一般因子可以解釋為本質(zhì)上是單維模型所測量的潛在特質(zhì)。Yung,Thissen和 McLeod (1999)運用推廣的 Schmidleiman轉(zhuǎn)換方法(Schmid & Leiman, 1957), 證明在不滿足有關(guān)比例的約束條件時二階因子模型潛套于雙因子模型, 當(dāng)加上關(guān)于比例的約束條件時雙因子模型和二階因子模型等價。這里比例的約束條件包括(1)雙因子模型中一般因子在項目上的負(fù)載等于二階因子模型中二階因子在對應(yīng)一階因子的負(fù)載與該一階因子在項目上負(fù)載的乘積; 和(2)雙因子模型中, 一般因子和對應(yīng)組因子在每個項目上的負(fù)載的比例相等(Chen, West, & Sousa,2006)。一般地, 當(dāng)維度之間不相關(guān)或相關(guān)較弱(相關(guān)系數(shù)在 0.1以下), 建議采用多個單維模型; 當(dāng)維度之間存在中、低等相關(guān)時(相關(guān)介于0.1到0.4),項目在一般因子的負(fù)載小于組因子的負(fù)載, 建議使用相關(guān)特質(zhì) MIRT模型; 當(dāng)維度間存在中、高等相關(guān)時(相關(guān)系數(shù)在0.4以上), 建議采用雙因子模型(Reise, Morizot, & Hays, 2007)。

與二階因子模型、相關(guān)特質(zhì)模型和單維模型相比, 雙因子模型具有很多優(yōu)勢。首先, 雙因子模型很容易解釋一般因子對項目的影響, 通過檢驗一般因子與組因子對項目的直接影響, 可以比較不同因子的重要性(Canivez, 2016)。然而, 二階因子模型中高階因子代表一階因子的變異, 不能直接檢驗高階因子和項目之間關(guān)系的強度。其次,雙因子模型中還可以檢驗去掉一般因子的影響之后, 組因子的測量結(jié)構(gòu)在兩個或多個被試組之間是否等價。特別地, 當(dāng)給定足夠水平的測量不變性時, 它能比較不同被試組在一般因子和組因子上的差異。然而, 二階因子模型中只能檢驗二階因子的測量不變性和比較不同被試組在二階因子上的差異。再次, 與多個單維模型相比, 雙因子模型可以提供更準(zhǔn)確的項目參數(shù)、特質(zhì)估計和測驗信度(DeMars, 2006)。此外, 雙因子模型還可以檢驗單維模型在擬合多維數(shù)據(jù)時的失真情況。

Holzinger和 Swineford (1937)提出的雙因子模型在近 20年得到了重新認(rèn)識并作為一種多維特質(zhì)模型廣泛應(yīng)用于醫(yī)學(xué)、心理學(xué)和教育學(xué)領(lǐng)域。下面首先介紹了全信息項目雙因子分析的概念,然后描述全信息項目雙因子分析的基礎(chǔ)模型, 并介紹參數(shù)估計中體現(xiàn)的維度縮減思想, 接著例舉全信息項目雙因子方法在分析測驗結(jié)構(gòu)、分?jǐn)?shù)解釋和計算機化自適應(yīng)測驗(Computerized Adaptive Testing, CAT)中的應(yīng)用, 最后對全信息項目雙因子分析的理論研究和實踐應(yīng)用提出一些思考和建議。

圖1 五種測驗(量表)結(jié)構(gòu)

2 全信息項目雙因子分析的概念與特征

雙因子模型最初定義在測驗水平上(Holzinger& Swineford, 1937), 表示由多個高相關(guān)領(lǐng)域共同測量一個一般特質(zhì)的因素結(jié)構(gòu)模型并用于分析具有連續(xù)分布的測驗分?jǐn)?shù)。如今, 雙因子模型主要應(yīng)用到項目水平, 并通常用圖 1(e)所示的路徑圖來表示其測量結(jié)構(gòu)。具體而言, 雙因子模型要求每個觀察變量測量一般因子和一個組因子, 多個觀察變量共同測量一個組因子。換言之, 每個變量只在一般因子和一個組因子的負(fù)載不等于 0,圖1(e)中因子負(fù)載矩陣y表示為,

表示一般因子在第j個項目的負(fù)載;和分別表示第一個和第二個組因子在第j個項目上的負(fù)載; T表示矩陣轉(zhuǎn)置。

全信息項目雙因子分析是以雙因子模型為基礎(chǔ), 應(yīng)用項目反應(yīng)理論分析作答反應(yīng), 獲得有關(guān)項目、測驗和被試特征的數(shù)據(jù)分析方法。它具有如下特征, 第一, 全信息項目雙因子分析中雙因子模型定義在項目水平上。第二, 全信息項目雙因子分析運用雙因子項目反應(yīng)理論模型分析被試在項目上的原始作答數(shù)據(jù)。而傳統(tǒng)線性雙因子分析方法則對項目反應(yīng)數(shù)據(jù)(或子量表總分)的相關(guān)或協(xié)方差矩陣進行分析。基于原始數(shù)據(jù)來源于項目水平, 沒有經(jīng)過統(tǒng)計處理包含了被試的全部信息, 因而稱其為“全信息項目雙因子分析”。全信息項目雙因子分析中為保證模型識別問題并且可以直接使用“維度縮減” (dimension reduction)方法,通常假設(shè)一般因子與組因子相互獨立, 組因子之間相互獨立?!熬S度縮減”方法是全信息項目雙因子分析的重要特征。因為無論測驗考察多少個能力維度, 它都使雙因子項目反應(yīng)模型中項目參數(shù)邊際似然函數(shù)的積分化簡為多個二維迭代積分。事實上, 若僅針對模型識別問題, 雙因子模型假設(shè)可以放松為在一般因子條件下特定領(lǐng)域因子之間滿足條件獨立性(Rijmen, 2009)。

3 全信息項目雙因子分析的基礎(chǔ)模型和參數(shù)估計

全信息項目雙因子分析的模型基礎(chǔ)是雙因子項目反應(yīng)理論模型。根據(jù)雙因子模型對每個項目只測量一般因子和一個組因子的假設(shè)對多維項目反應(yīng)理論(multidimensional item response theory,MIRT)模型進行改寫可以獲得雙因子項目反應(yīng)理論模型。目前, 較為熟知的雙因子項目反應(yīng)模型包括適用于二級評分項目的正態(tài)肩形模型和logistic模型、適用于多級評分項目的等級反應(yīng)模型、分部評分模型和稱名反應(yīng)模型。

3.1 雙因子項目反應(yīng)理論模型

3.1.1 二級評分雙因子項目反應(yīng)模型

Gibbons和Hedeker (1992)首次將雙因子因素結(jié)構(gòu)引入IRT, 提出雙因子正態(tài)肩形模型。Gibbons等人 (2007) 進一步將雙因子正態(tài)肩形模型推廣到雙因子等級反應(yīng)模型。他們利用邊際極大似然估計方法推導(dǎo)項目參數(shù)估計值時發(fā)現(xiàn), 雙因子模型假設(shè)能力相互獨立, 極大地簡化了似然方程的計算。但是他們的推導(dǎo)依賴于雙變量正態(tài)積分,從而將測量模型限制為正態(tài)肩形模型。Rijmen(2009) 運用圖理論證明雙因子模型假設(shè)在更一般IRT模型下同樣能簡化邊際似然函數(shù)的計算。Cai, Yang和Hansen (2011)則進一步描述了雙因子logistic模型、多級評分項目雙因子模型以及參數(shù)估計方法。其中, 雙因子三參數(shù)logistic模型中被試i正確做答項目j的概率表示為:

這里,a0j和asj分別表示項目j在一般因子和組因子上的斜率參數(shù), 代表了項目反應(yīng)與因子之間聯(lián)系的緊密程度, 或者說項目在這個潛變量上的區(qū)分度。cj表示下漸近概率, 多項選擇項目中通常解釋為猜測概率, 心理測量的項目還反映了項目內(nèi)容的模糊或晦澀程度。表示項目截距, 它與項目的難度或位置參數(shù)bj負(fù)相關(guān)。

3.1.2 多級評分雙因子項目反應(yīng)模型

對多級評分項目而言, 令K表示項目的反應(yīng)類別數(shù),表示項目反應(yīng),表示類別截距, 則在Samejima (1969)提出的等級反應(yīng)模型基礎(chǔ)上結(jié)合雙因子模型假設(shè), 可得雙因子等級反應(yīng)模型。它首先計算作答反應(yīng)大于等于類別k (k=0,1,2,…,K?1)的概率, 即:

等級反應(yīng)模型從累積概率出發(fā)計算類別反應(yīng)概率屬于兩步模型, 分部評分模型和稱名反應(yīng)模型直接計算類別作答概率屬于 divide-by-total模型。其中, 分部評分模型有多種等價表示方式, 在雙因子模型假設(shè)下對Muraki (1992)中單維分部評分模型進行擴展, 得到如下雙因子分部評分模型:

其中,Tt稱為類別t的評分函數(shù), 解釋為評分者分配給反應(yīng)類別t的分?jǐn)?shù), 通常取值為t。注意到, 如果給每個dk加上常數(shù)m, 類別反應(yīng)概率將保持不變, 因而不能直接估計類別截距。為解決參數(shù)估計問題, 通常限制某個類別截距(如d0)等于0。

分部評分模型中通過事先規(guī)定有序的評分函數(shù)的值, 從而使K個反應(yīng)類別有一定的優(yōu)劣次序。實際上, 某些項目的反應(yīng)與特質(zhì)類型有關(guān), 項目反應(yīng)并不具備嚴(yán)格次序。這時, 稱名反應(yīng)模型就非常適合了。 稱名反應(yīng)模型同(4)式, 其評分函數(shù)的值通過估計而得, 描述了能力線性組合條件下反應(yīng)類別間的次序。Thissen, Reeve, Bjorner和Chang (2007)曾將該模型用于探索病人自我報告數(shù)據(jù)中反應(yīng)類別的等級次序??傮w上, 稱名反應(yīng)模型是最靈活的 IRT參數(shù)模型之一, 它能很好地代表項目反應(yīng)過程。同分部評分模型一樣, 估計稱名反應(yīng)模型的類別截距參數(shù)時通常假設(shè)第一個類別截距為0。

3.2 參數(shù)估計

雙因子項目反應(yīng)理論模型作為驗證性項目因素分析模型, 可運用Mplus、NOHARM、IRTPRO、FlexMIRT等軟件估計模型參數(shù), 也可以根據(jù)馬爾可夫鏈蒙特卡洛方法或最大邊際似然估計方法的思想編輯程序來估計模型參數(shù)。特別地, Gibbons和 Hedeker (1992)在運用最大邊際似然估計方法估計項目參數(shù)時提出的“維度縮減”方法是全信息項目雙因子分析的重要特征。下面以最大邊際似然估計為例介紹“維度縮減”思想。

該方法首先將能力視為無關(guān)參數(shù)將其從似然函數(shù)中積分出來, 得到項目參數(shù)的邊際似然函數(shù),然后在項目參數(shù)范圍內(nèi)對邊際似然函數(shù)求最優(yōu),從而獲得項目參數(shù)估計值。以圖 1(e)中所示的雙因子模型為例, 項目 1、2、3考察一般因子和第一個組因子, 項目4、5、6考察一般因子和第二個組因子。因為雙因子模型下能力相互獨立, 其聯(lián)合概率分布為于是, 基于項目參數(shù)集合、項目作答概率和能力聯(lián)合分布可得反應(yīng)y的邊際分布, 即:

由于項目反應(yīng)滿足條件獨立性, 于是

因為組因子相獨立, 因而可將兩個組因子維度先獨立地在聯(lián)合分布中積分, 然后對一般因子積分, 即

從而化簡為二維迭代積分。特別地, 若每個維度固定20個積分節(jié)點, 這里只需要估計800個函數(shù)的值, 而直接積分則需要估計8000個函數(shù)的值。利用標(biāo)準(zhǔn)數(shù)值技術(shù), 可以在范圍中找到最優(yōu)解,獲得最大邊際似然估計值

由此可見, 維度縮減思想就是對項目參數(shù)的邊際似然函數(shù)在雙因子模型假設(shè)下進行適當(dāng)重組,進而化簡積分方程(5)。一般地, 若有Q個特殊組因子, 每維度有P個積分節(jié)點, 則維度縮減方法只需要計算個函數(shù)值, 而直接積分需要計算個函數(shù)值。由此可見, 維度縮減方法大大簡化了積分計算的復(fù)雜度。

3.3 雙因子項目反應(yīng)理論模型簡評

雙因子項目反應(yīng)模型是多維項目反應(yīng)模型在雙因子模型假設(shè)下的特殊形式, 具有多維項目反應(yīng)模型的一般特征。例如, 雙因子等級反應(yīng)模型中類別反應(yīng)概率是能力的增函數(shù), 雙因子分部評分模型和稱名反應(yīng)模型則由類別評分函數(shù)的值而定。若類別評分函數(shù)的值遞增, 則類別反應(yīng)概率是能力的增函數(shù)。反之能力高的被試在低得分類別上的反應(yīng)概率可能更高, 在高得分反應(yīng)類別的反應(yīng)概率反而更小。又如, 分部評分模型通過事先給定評分函數(shù)的值, 成為稱名反應(yīng)模型的特例。特別地, 分部評分模型與等級反應(yīng)模型對項目反應(yīng)過程的假設(shè)不同, 但二者的項目特征曲線沒有明顯差異, 加之分部評分模型作為 divideby-total模型其計算更簡單, 因而它常常代替等級反應(yīng)模型分析實際數(shù)據(jù)。

上述雙因子項目反應(yīng)模型能夠分析二級評分、有序評分和類別反應(yīng)模式的項目, 特別是等級反應(yīng)、分部評分和稱名反應(yīng)模型的提出顯著提高了雙因子模型的應(yīng)用范圍。統(tǒng)計上講, 雙因子模型的廣泛應(yīng)用應(yīng)歸功于維度縮減思想在參數(shù)估計中的應(yīng)用。特別地, 雙因子模型中能力獨立的假設(shè)條件下對能力進行積分的計算都可以將Q個組因子能力維度先獨立地求積分, 然后對一般因子維度積分, 從而將Q+1維積分簡化為Q個二維迭代積分。雙因子項目反應(yīng)理論模型的提出和計算中維度縮減方法的實現(xiàn)將極大地推進雙因子模型的應(yīng)用。此外, Cai, Yang和Hansen (2011) 以及Cai (2010)在雙因子模型的基礎(chǔ)上擴展提出似雙因子模型、多組雙因子分析和兩層模型。其中, 似雙因子模型允許部分項目只在一般因子上有非零負(fù)載; 多組項目雙因子分析不僅能估計各組被試潛特質(zhì)的均值和方差, 還能判斷項目在不同組之間是否存在項目功能差異等問題; 兩層模型則是囊括了雙因子模型、多維IRT模型和題組反應(yīng)模型在內(nèi)的更一般的項目反應(yīng)模型。

4 全信息項目雙因子分析的應(yīng)用

大量研究表明雙因子模型符合認(rèn)知能力、心理特質(zhì)、精神病理等多類測驗的結(jié)構(gòu)特征。目前,全信息項目雙因子分析已廣泛應(yīng)用于探索和驗證測驗或量表的維度結(jié)構(gòu)、檢驗一般因子與組因子對項目的貢獻、評估被試的能力水平以及CAT中。

4.1 在分析測驗結(jié)構(gòu)中的應(yīng)用

雖然項目反應(yīng)理論是一個廣受歡迎的分析量表結(jié)構(gòu)的方法, 在探索測驗結(jié)構(gòu)時, 研究者仍大量采用傳統(tǒng)線性因素分析方法。例如, Watkins和Beaujean (2014), Dombrowski, Canivez, Watkins和Beaujean (2015)分別使用驗證性和探索性雙因子模型檢測韋氏智力量表的因素結(jié)構(gòu), 研究表明一般因子解釋了大部分共有的子測驗方差, 組因子解釋的方差比例可以忽略不計, 雙因子結(jié)構(gòu)比Wechsler (2012, 2014)提出的高階智力結(jié)構(gòu)更符合數(shù)據(jù)事實。又如, Colwell, Gordon, Fujimoto, Kaestner和 Korenman (2013)以及 Hindman, Pendergast和Gooze (2016)指出照顧者交互量表(Caregiver Interaction Scale, CIS)測量了一個一般因子和兩個方法因子。另外, 傳統(tǒng)雙因子因素分析還用于分析自我領(lǐng)導(dǎo)結(jié)構(gòu)(Furthner, Rauthmann, & Schse,2015)、研究測量活力及相關(guān)概念題庫的結(jié)構(gòu)(Deng, Guyer, & Ware, 2015)、分析學(xué)校適應(yīng)不良行為(Wiesner & Schanding, 2013)、教育成就動機(Cham, Hughes, West, & Im, 2015)以及家庭作業(yè)的功能(Power, et al., 2015)。這些研究都表明雙因子模型符合許多心理學(xué)、病理學(xué)和教育學(xué)測驗特征, 具有廣泛的應(yīng)用前景。

盡管傳統(tǒng)線性因素分析方法能夠快速處理數(shù)據(jù), 但全信息項目分析方法克服了傳統(tǒng)線性因素分析中高估維度、低估負(fù)荷的缺陷, 并能在因素分析中考慮猜測參數(shù)等優(yōu)勢(俞宗火, 2005)。特別地, 全信息雙因子分析運用“維度縮減”方法極大地降低了計算復(fù)雜度顯著減少計算時間。因而,全信息項目雙因子分析已越來越多地被用到教育和心理測驗維度研究。例如, 消費者保健計劃評估調(diào)查(Consumer Assessment of Healthcare Providers and Systems, CAHPS)數(shù)據(jù)的分析(Reise, et al.,2007)、精神病診斷篩選測驗(psychiatric diagnostic screening questionnaire, PDSQ)因素結(jié)構(gòu)的分析(Gibbons, Rush, & Immekus, 2009)、barratt沖動量表結(jié)構(gòu)的分析(Steinberg, Sharp, Stanford, & Tharp,2013)以及State Metacognitive Inventory的維度評估(Immekus & Imbrie 2008)。其中, Reise等(2007)發(fā)現(xiàn), 盡管單維IRT模型、相關(guān)特質(zhì)多維IRT模型和雙因子模型對 CAHPS提供了相似擬合度,但雙因子模型分析的結(jié)果表明項目反應(yīng)違反了局部獨立性假設(shè), 并且當(dāng)去掉一般因子的方差解釋量時, CAHPS項目不再充分測量每個子量表特質(zhì)。這種情況下, 單維 IRT的分析結(jié)果將存在偏差, 即可能扭曲或歪曲被試的評分, 而多維分析中的兩個維度實質(zhì)上共同反映了一個更一般的能力因子。因此, 他們指出雙因子模型允許研究者考察單維模型在擬合多側(cè)面數(shù)據(jù)時的失真情況和考證多維分析中各子量表的有用性。上述研究都表明雙因子模型能幫助澄清和解釋給定測驗、問卷或量表的結(jié)構(gòu), 很多情況下比其它競爭模型(如單維、高階和相關(guān)特質(zhì)模型)能更準(zhǔn)確地反映量表維度。

4.2 在分?jǐn)?shù)解釋中的應(yīng)用

雙因子模型中組因子往往是研究者不感興趣的無關(guān)因子, 而雙因子模型能控制一些難以分離的干擾因子的影響更準(zhǔn)確地解釋一般特質(zhì)。例如,Rijmen (2010)在分析國際英語評估數(shù)據(jù)時將項目組領(lǐng)域的相關(guān)作為特殊因子控制后分析整體英語能力水平。事實上, 大部分教育測驗項目都是圍繞一定的生活背景, 而并沒有呈現(xiàn)出有意義的認(rèn)知能力, 如果控制這些無關(guān)因素將會得到更有意義的特質(zhì)分?jǐn)?shù)。反過來, 研究者也可能對控制一般因子之后特殊因子的分?jǐn)?shù)感興趣。例如, 在一項幼兒園評估中, Betts, Pickart和Heistad (2011)就在控制一般因子之后考察了文學(xué)和數(shù)字兩個組因子是否能夠預(yù)測今后的閱讀和數(shù)學(xué)成就。特別地, DeMars (2013) 建議當(dāng)控制一般因子后只有存在足夠的信度去解釋子量表分?jǐn)?shù)時使用子量表分?jǐn)?shù)才有意義, 否則不建議使用子量表分?jǐn)?shù)。

4.3 在CAT中的應(yīng)用

如前所述, 全信息項目雙因子分析已廣泛應(yīng)用于分析心理量表、病人自我報告、教育調(diào)查問卷以及教育評估測驗獲得的數(shù)據(jù), 加之CAT技術(shù)的成熟及其實踐應(yīng)用, 探索雙因子模型下CAT的理論、技術(shù)和方法開拓了全信息項目項目雙因子分析應(yīng)用的新領(lǐng)域。目前, 有關(guān)雙因子模型 CAT的研究很少, 主要包括雙因子模型CAT的實現(xiàn)和選題策略的研究。

首先, Weiss和Gibbons (2007)以雙因子模型題庫為基礎(chǔ)將CAT分為多個階段, 每個階段測量一種能力實現(xiàn)了雙因子測量結(jié)構(gòu)在單維CAT中的應(yīng)用。具體來講, 第一階段在所有項目中選擇題目, 獲得一般能力和領(lǐng)域能力估計值, 以后各階段分別以第一階段中領(lǐng)域能力估計值作為能力初值在各個子量表領(lǐng)域選擇項目, 獲得各個子組能力的估計值。他們通過多個來自615個人格測量項目的數(shù)據(jù)集證明在保證CAT能力估計值與全量表能力估計值的相關(guān)大于0.9時, 雙因子CAT中一般因子的平均測驗長度縮短了 95%, 各個內(nèi)容領(lǐng)域的測驗長度減少了68%到90%。總體上講, 與紙筆測驗相比, 雙因子CAT的平均測驗長度減少了80%, 實際節(jié)省約82%的測驗時間。其次, Zheng,Chang和Chang (2013)采用Weiss和Gibbons (2007)的雙因子CAT方法, 考察了內(nèi)容約束條件對測量精度和項目使用率的影響。

上述研究都是在單維情況下開展雙因子 CAT,通過多階段CAT實現(xiàn)多維能力評估, 并沒有實現(xiàn)在CAT中的直接應(yīng)用雙因子項目反應(yīng)模型。鑒于此, Seo (2011)將傳統(tǒng)多維CAT項目選擇方法和能力估計方法應(yīng)用到雙因子 IRT模型, 實現(xiàn)多維雙因子模型CAT。Seo和Weiss (2015)進一步在低雙因子結(jié)構(gòu)、高雙因子結(jié)構(gòu)和似雙因子結(jié)構(gòu)下比較了D-優(yōu)化、Ds優(yōu)化, A優(yōu)化和E優(yōu)化四種項目選擇方法。Seo (2011) (Seo & Weiss, 2015)的研究呈現(xiàn)了雙因子模型下項目選擇和能力估計的特點,為雙因子模型CAT的相關(guān)研究打下基礎(chǔ)。

4.4 全信息項目雙因子分析應(yīng)用簡評

首先, 全信息項目雙因子分析中雙因子模型提供了一個極好的測量結(jié)構(gòu)框架, 在探索和驗證測驗結(jié)構(gòu)時具有一些獨特性。例如, 雙因子模型通過分離一般因子和組因子對項目集合的貢獻,更容易解釋因子含義、檢測項目是否違背局部獨立性假設(shè)、發(fā)展子量表并指明多維量表中分量表的信度和有用性。當(dāng)多個采用了相同反應(yīng)類別、措辭、表述特征的項目集合帶來的方法效應(yīng)解釋了控制主要因素之后獨特的方差時, 雙因子模型能檢測非研究目的的方法性方差, 并指出這些項目如何捆綁在一起, 從而更好地澄清工具的維度結(jié)構(gòu)。特別地, 雙因子模型通過識別方法效應(yīng)不僅提高了模型擬合統(tǒng)計, 還能幫助識別有實質(zhì)意義的維度, 而這些維度可能在傳統(tǒng)探索性因素分析中受到方法效應(yīng)的影響而被掩蓋。值得注意的是, 雖然雙因子模型假設(shè)測驗考察一個主要維度,但當(dāng)測驗顯示出很強的單因子結(jié)構(gòu)時不適合使用雙因子模型。同樣, 當(dāng)項目在多個組因子維度有負(fù)載時也不適合使用雙因子模型。只有當(dāng)研究者有很強的理論證據(jù)支持所考察領(lǐng)域的雙因子結(jié)構(gòu)或者有證據(jù)表明雙因子結(jié)構(gòu)比其他模型更適合的時候采用雙因子模型才更有意義。

其次, 全信息項目雙因子分析中雙因子項目反應(yīng)模型關(guān)注被試在不相關(guān)的一般特質(zhì)和多個領(lǐng)域因子上的表現(xiàn), 這與多維項目反應(yīng)理論模型通常在多個相關(guān)領(lǐng)域上對個體進行評定不同。因而,全信息項目雙因子分析依賴能夠在一定程度上準(zhǔn)確測量那些獨立于一般因子的多個特定領(lǐng)域因子的測驗。這一點上, 雙因子 IRT模型與其它多維IRT模型相比, 一方面能更清楚解釋特質(zhì)的含義,另一方面卻不能提高測驗效率。

再次, 全信息項目雙因子分析在CAT中的應(yīng)用也具有一些特殊性。多維CAT中測驗考察的維度越多, 能力估計和項目選擇的計算越復(fù)雜。當(dāng)多維CAT中運用二階因子模型時, 其參數(shù)估計的效率和復(fù)雜性同樣會受到一階潛特質(zhì)因子數(shù)量的限制。而雙因子IRT模型中假設(shè)一般因子與組因子正交、組因子之間正交能極大地簡化有關(guān)能力的積分運算, 例如簡化CAT中期望后驗?zāi)芰烙嫼晚椖啃畔⒘?Kullback-Leibler信息量、互信息、連續(xù)熵)的計算。于是, 當(dāng)多維CAT中運用雙因子IRT模型時, 其受因子個數(shù)的影響不大。另外, 雙因子IRT模型中一般因子和組因子都是一階因子,因而雙因子IRT模型下CAT的計算不比單維CAT更復(fù)雜多少, 與此同時雙因子IRT模型下CAT與其它多維CAT相比并不會提高CAT的測驗效率。

5 研究展望

全信息項目雙因子分析中雙因子模型要求每個項目測量一般因子和一個組因子, 并假設(shè)能力相互正交, 是一類特殊的多維模型。首先, 雙因子模型中不相關(guān)因素結(jié)構(gòu)能解釋獨特的因素方差變異量, 而相關(guān)特質(zhì)多維模型中只能獲得共享的因素方差變異量。其次, 雙因子模型將題目變異分解為一般因子變異、領(lǐng)域組因子變異和誤差變異,測驗的同質(zhì)性信度和內(nèi)部一致性信度的計算也具有特殊性(顧紅磊,溫忠麟,方杰, 2014)。再次, 雙因子模型通過指明一般因子與組因子的地位克服了二階因子模型中對高階因子解釋的不確定性和模糊性, 通過考察一般因子和組因子對項目變異的解釋量還能檢驗?zāi)P偷膯尉S性假設(shè)。全信息項目雙因子分析結(jié)合了雙因子模型和項目反應(yīng)理論模型, 具備二者的優(yōu)勢和特征。目前, 全信息項目雙因子分析在驗證測驗結(jié)構(gòu)方面已得到廣泛應(yīng)用,但對雙因子項目反應(yīng)模型的相關(guān)研究, 如:參數(shù)估計、模型特征、量表連接、項目功能差異、模型和項目擬合以及CAT應(yīng)用方面都還有待開展深入研究。

首先, 針對雙因子項目反應(yīng)理論模型參數(shù)估計問題, 還缺乏系統(tǒng)研究考察參數(shù)估計中選用不同初始值或不同先驗分布的效應(yīng); 缺乏研究考察違反特定假設(shè)時參數(shù)估計的結(jié)果; 也需要進一步探討不同估計方法的特點, 系統(tǒng)比較它們在各種測驗條件下的估計結(jié)果。

其次, 分析雙因子項目反應(yīng)理論模型下項目特征曲線和條件項目類別特征曲線, 不僅可以解釋能力如何影響項目作答反應(yīng), 還能比較不同被試群體中能力對項目反應(yīng)的影響是否相同。Toland, Sulis, Giambona, Porcu和Campbell (2017)描述了雙因子等級反應(yīng)模型中條件項目類別特征曲線和信息函數(shù)的定義、特征及其解釋。由于項目信息函數(shù)在不同模型下的表達式不同, 因而推導(dǎo)雙因子項目反應(yīng)理論模型下信息函數(shù)的計算對分析項目與測驗特征, 開展CAT都極其重要。另外, 分析測驗信息與測驗中不同項目類型的比例之間的關(guān)系將對測驗組卷具有重要指導(dǎo)意義。

再次, 雙因子 IRT模型下量表連接、項目功能差異檢驗也都具有特殊性。眾所周知, 測驗考察維度越多, 量表連接和項目功能差異的檢驗都越復(fù)雜。如果研究者只對一般因子感興趣, 而忽視組因子維度, 那么標(biāo)準(zhǔn)的量表連接方法在雙因子模型下就顯得容易了。Cai等(2011)曾對項目功能差異檢驗的似然比檢驗方法和Langer (2008)描述的 Wald方法進行調(diào)整后適用于雙因子模型。另外, Fukuhara和Kamata (2011)基于題組項目提出雙因子多維項目反應(yīng)理論模型項目功能差異檢驗?zāi)P? Somerville (2012) 提出全信息項目雙因子分析中五步題組項目功能差異檢測方法。特別地, 雙因子模型將一般因子和組因子分離開來,將更容易解釋項目功能差異的來源。此外, IRT背景下已有大量模型擬合指標(biāo)和項目擬合指標(biāo), 如Li和Rupp (2011)討論了全信息項目雙因子模型中S? χ2在檢驗個人擬合中的表現(xiàn)。在雙因子測驗結(jié)構(gòu)下檢驗這些指標(biāo)的性能、提出新的模型和項目擬合指標(biāo)都顯得格外重要。

最后, 雙因子IRT模型下CAT作為全信息項目雙因子分析的一個重要的應(yīng)用領(lǐng)域還有很多實際問題值得進一步研究。例如, 考察雙因子 IRT模型下Kullback-Leibler信息量選題方法、香農(nóng)熵和互信息等選題方法在一般能力維度和領(lǐng)域能力維度的選題表現(xiàn); 又如, 考察在是否具有無關(guān)能力維度, 是否關(guān)注線性能力組合條件下比較選題方法的表現(xiàn); 再如, 探索雙因子 IRT模型下 CAT中項目曝光控制和內(nèi)容約束、探索雙因子IRT模型下混合測驗CAT中多級評分項目的比例和呈現(xiàn)方式如何影響測驗表現(xiàn)、題庫增補等都是有意義的研究問題。

顧紅磊, 溫忠麟, 方杰.(2014).雙因子模型: 多維構(gòu)念測量的新視角.心理科學(xué), 37(4), 973–979.

俞宗火.(2005).FIFA方法及其與CLFA方法在EPQ因素分析中的比較研究(碩士學(xué)位論文).江西師范大學(xué), 南昌.

Betts, J., Pickart, M., & Heistad, D.(2011).Investigating early literacy and numeracy: Exploring the utility of the bifactor model.School Psychology Quarterly, 26(2), 97–107.

Cai, L.(2010).A two-tier full-information item factor analysis model with applications.Psychometrika, 75(4), 581–612.

Cai, L., Yang, S., & Hansen, M.(2011).Generalized fullinformation item bifactor analysis.Psychological Methods,16(3), 221–248.

Canivez, G.L.(2016).Bifactor modeling in construct validation of multifactored tests: Implications for understanding multidimensional constructs and test interpretation.In K.Schweizer & C.DiStefano (Eds.),Principles and methods of test construction: Standards and recent advancements.Gottingen, Germany: Hogrefe Publishers.

Cham, H.N., Hughes, J.N., West, S.G., & Im, M.H.(2015).Effect of retention in elementary grades on grade 9 motivation for educational attainment.Journal of School Psychology,53(1), 7–24.

Chen, F.F., West, S., & Sousa, K.(2006).A comparison of bifactor and second-order models of quality of life.Multivariate Behavioral Research, 41(2), 189–225.

Colwell, N., Gordon, R.A., Fujimoto, K., Kaestner, R., &Korenman, S.(2013).New evidence on the validity of the Arnett caregiver interaction scale: Results from the early childhood longitudinal study-birth cohort.Early Childhood Research Quarterly, 28(2), 218–233.

DeMars, C.E.(2006).Application of the bi-factor multidimensional item response theory model to testletbased tests.Journal of Educational Measurement,43(2),145–168.

DeMars, C.E.(2013).A tutorial on interpreting bifactor model scores.International Journal of Testing, 13(4),354–378.

Deng, N.N., Guyer, R., Ware, J.E., Jr.(2015).Energy,fatigue, or both? A bifactor modeling approach to the conceptualization and measurement of vitality.Quality of Life Research, 24(1), 81–93.

Dombrowski, S.C., Canivez, G.L., Watkins, M.W., &Beaujean, A.A.(2015).Exploratory bifactor analysis of the Wechsler Intelligence Scale for Children—Fifth Edition with the 16 primary and secondary subtests.Intelligence,53, 194–201.

Fukuhara, H., & Kamata, A.(2011).A bifactor multidimensional item response theory model for differential item functioning analysis on testlet-based items.Applied Psychological Measurement, 35(8), 604–622.

Furthner, M.R., Rauthmann, J.F., & Schse, P.(2015).Unique self-leadership: A bifactor model approach.Leadership,11(1), 105–125.

Gibbons, R.D., Bock, R.D., Hedeker, D., Weiss, D.J.,Segawa, E., Bhaumik, D.K., Kupfer, D.K.,...Stover, A.(2007).Full-information item bifactor analysis of graded response data.Applied Psychological Measurement, 31(1),4–19.

Gibbons, R.D., & Hedeker, D.R.(1992).Full-information item bi-factor analysis.Psychometrika, 57(3), 423–436.

Gibbons, R.D., Rush, A.J., & Immekus, J.C.(2009).On the psychometric validity of the domains of the PDSQ: An illustration of the bi-factor item response theory model.Journal of Psychiatric Research, 43, 401–410.

Hindman, A.H., Pendergast, L.L., Gooze, R.A.(2016).Using bifactor models to measure teacher-child interaction quality in early childhood: Evidence from the caregiver interaction scale.Early Childhood Research Quarterly, 36,366–378.

Holzinger, K.J., & Swineford, F.(1937).The bi-factor method.Psychometrika, 2(1), 41–54.

Immekus, J.C., & Imbrie, P.K.(2008).Dimensionality assessment using the full-information item bifactor analysis for graded response data: An illustration with the state metacognitive inventory.Educational and Psychological Measurement, 68(4), 695–704.

Langer, M.M.(2008).A reexamination of Lord’s Wald test for differential item functioning using item response theory and modern error estimation(Unpublished doctorial dissertation).University of North Carolina at Chapel Hill.

Li, Y., & Rupp, A.A.(2011).Performance of thestatistic for full-information bifactor models.Educational and Psychological Measurement, 71(6), 986–1005.

Muraki, E.(1992).A generalized partial credit model:Application of an EM algorithm.Applied PsychologicalMeasurement, 16(2), 159–176.

Power, T.J., Watkins, M.W., Mautone, J.A., Walcott, C.M.,Coutts, M.J., & Sheridan, S.M.(2015).Examining the validity of the homework performance questionnaire:Multi-informant assessment in elementary and middle school.School Psychology Quarterly, 30(2), 260–275.

Reise, S.P.(2012).The rediscovery of bifactor measurement models.Multivariate Behavioral Research, 47(5), 667–696.

Reise, S.P., Morizot, J., & Hays, R.D.(2007).The role of the bifactor model in resolving dimensionality issues in health outcomes measures.Quality of Life Research,16,19–31.

Rijmen, F.(2009).Efficient full information maximum likelihood estimation for multidimensional IRT models(Tech.Rep.No.RR-09-03).Princeton, NJ: Educational Testing Service.

Rijmen, F.(2010).Formal relations and an empirical comparison among the bi-factor, the testlet, and a secondorder multidimensional IRT model.Journal of Educational Measurement, 47(3), 361–372.

Samejima, F.(1969).Estimation of latent ability using a response pattern of graded scores(Psychometric Monograph No.17).Richmond, VA: Psychometric Society.

Schmid, J., & Leiman, J.M.(1957).The development of hierarchical factor solutions.Psychometrika, 22(1), 53–61.

Seo, D.G.(2011).Application of the bifactor model to computerized adaptive testing(Unpublished doctorial dissertation).The University of Minnesota.

Seo, D.G., & Weiss, D.J.(2015).Best design for multidimensional computerized adaptive testing with the bifactor model.Educational and Psychological Measurement,75(6), 954–978.

Somerville, J.T.(2012).Detection of differential item functioning in the generalized full-information item bifactor analysis model(Unpublished doctorial dissertation).University of California, Los Angeles.

Steinberg, L., Sharp, C., Stanford, M.S., & Tharp, A.T.(2013).New tricks for an old measure: The development of the Barratt Impulsiveness Scale-Brief (BIS-Brief).Psychological Assessment, 25(1), 216–226.

Thissen, D., Reeve, B.B., Bjorner, J.B., & Chang, C.-H.(2007).Methodological issues for building item banks and computerized adaptive scales.Quality of Life Research, 16,109–119.

Toland, M.D., Sulis, I., Giambona, F., Porcu, M.&Campbell, J.M.(2017).Introduction to bifactor polytomous item response theory analysis.Journal of School Psychology,60, 41–63.

Watkins, M.W., & Beaujean, A.A.(2014).Bifactor structure of the Wechsler Preschool and Primary Scale of Intelligence-Fourth edition.School Psychology Quarterly, 29(1), 52–63.

Wechsler, D.(2012).Wechsler preschool and primary scale of intelligence(4th ed.).Bloomington, MN: Pearson.

Wechsler, D.(2014).Wechsler intelligence scale for children(5th ed.).Bloomington, MN: Pearson.

Weiss, D.J., & Gibbons, R.D.(2007).Computerized adaptive testing with the bifactor model.Paper presented at the New CAT Models session at the 2007 GMAC Conference on Computerized Adaptive Testing.Retrieved from http://www.iacat.org/sites/default/files/biblio/cat07weiss%26gibbons.pdf

Wiesner, M., & Schanding, G.T.(2013).Exploratory structural equation modeling, bifactor models, and standard confirmatory factor analysis models: Application to the BASC-2 behavioral and emotional screening system teacher form.Journal of School Psychology, 51(6), 751–763.

Yung, Y.-F., Thissen, D., & McLeod, L.D.(1999).On the relationship between the higher-order factor model and the hierarchical factor model.Psychometrika, 64(2), 113–128.

Zheng, Y., Chang, C.-H., & Chang, H.H.(2013).Contentbalancing strategy in bifactor computerized adaptive patient-reported outcome measurement.Quality of Life Research, 22, 491–499.

猜你喜歡
測驗特質(zhì)維度
文人的心理探索之“癡顛狂怪”特質(zhì)
國畫家(2021年4期)2021-10-13 07:32:06
淺論詩中“史”識的四個維度
中華詩詞(2019年7期)2019-11-25 01:43:00
《新年大測驗》大揭榜
趣味(語文)(2018年7期)2018-06-26 08:13:48
論馬克思主義的整體性特質(zhì)
兩個處理t測驗與F測驗的數(shù)學(xué)關(guān)系
考試周刊(2016年88期)2016-11-24 13:30:50
光的維度
燈與照明(2016年4期)2016-06-05 09:01:45
“五個維度”解有機化學(xué)推斷題
抓住特質(zhì),教出說明文的個性
語文知識(2015年11期)2015-02-28 22:01:58
你知道嗎?
人生三維度
吐魯番(2014年2期)2014-02-28 16:54:43
霸州市| 宝坻区| 兖州市| 栖霞市| 宜州市| 怀宁县| 革吉县| 丰镇市| 阜南县| 泾川县| 汉沽区| 孟津县| 鄂尔多斯市| 宜兰县| 闵行区| 同心县| 赞皇县| 合肥市| 上杭县| 青州市| 龙岩市| 扶余县| 安国市| 霸州市| 高台县| 库车县| 望城县| 进贤县| 壶关县| 庆城县| 张家港市| 邢台县| 舒城县| 安顺市| 庐江县| 策勒县| 拜泉县| 邵阳县| 惠东县| 阿图什市| 同心县|