張 軍
(北京語言大學(xué)漢語進修學(xué)院,北京100083)
單維項目反應(yīng)理論模型分參數(shù)型(Parametric Item Response Theory,PIRT)與非參數(shù)型(Nonparametric Item Response Theory,NIRT)兩種。PIRT 模型適合于等距量表或比率量表水平的測量;而NIRT的測量限于順序量表水平。(Meijer,Sijtsma,&Smid,1990;Sijtsma & Verweij,1992)前者使用難度、區(qū)分度、猜測度等若干項目參數(shù)刻畫項目特征曲線,描寫項目的測量特性;而后者不要求反應(yīng)數(shù)據(jù)符合某種特定函數(shù)形態(tài),比前者限制要少,只使用量表適宜性系數(shù)H(scalability coefficients)衡量項目測量被試的適宜性。
關(guān)于PIRT 與NIRT 兩種模型下項目參數(shù)之間的關(guān)系,有的研究者做了有益的分析。Roskam 等(1986)、Jansen(1982)和Mokken 等(1986)認為H 系數(shù)是一個能反映項目綜合性能的統(tǒng)計量,它與潛在能力的方差、難度的全距(the spread of item difficulties)和區(qū)分度三個因素有關(guān),當其中兩個因素保持不變,H系數(shù)就是另一個因素的遞增函數(shù),但是一個特定的H值并不能提供有關(guān)三個因素的具體信息。
Sijtsma,Emons,Bouwmeester 和Ivan(2008)認為Hi 系數(shù)的取值取決于項目區(qū)分度、難度與潛在變量分布的交互作用。他們模擬了分布情況分別為(均值= -2,標準差=1)和(均值=1,標準差=1)兩種能力群體對5 個多級項目的反應(yīng)數(shù)據(jù),樣本容量都是5000 人,這5 個項目的三個等級的難度各不相同,區(qū)分度都是1.4。經(jīng)計算,雖然項目的區(qū)分度相同,但Hi 系數(shù)卻因為能力分布與難度的不同而大小不同。張軍(2010)使用自動選題策略分析試卷維度時,發(fā)現(xiàn)項目的區(qū)分度對通過H 系數(shù)進行的量表構(gòu)建過程有較大影響。除以上三個因素以外,是否還存在其他因素與H 系數(shù)有關(guān),如潛在能力分布的均值、難度分布的均值等,以及潛在能力、難度、區(qū)分度三個因素如何綜合影響H 系數(shù),這些問題尚未有研究涉及。
單維性和局部獨立性是單維參數(shù)型項目反應(yīng)理論兩大基本假設(shè),除此以外,PIRT 還要求潛在能力與被試項目反應(yīng)之間的關(guān)系符合某種特定的函數(shù)形態(tài)。根據(jù)函數(shù)的不同,主要有兩種單維PIRT 模型:正態(tài)拱形模型(Lord,1952)和邏輯斯蒂克模型(Birnbaum,1957)。這兩種模型的項目特征曲線的形態(tài)都呈S 型,根據(jù)所含項目參數(shù)的多寡又分為單參數(shù)模型(難度)、雙單數(shù)模型(難度、區(qū)分度)和三參數(shù)模型(難度、區(qū)分度、猜測度)。
若給邏輯斯蒂克模型添加個調(diào)節(jié)系數(shù)1.7,那么兩種模型差別極小,但邏輯斯蒂克模型計算起來相對方便,遂使用更為廣泛。難度參數(shù)與潛在能力參數(shù)在同一量綱中(Hambleton & Swaminathan,1984),一般處于-3 到3 之間,取值越大,說明項目越不容易答對;區(qū)分度處于0 到2 之間,取值越大,項目特征曲線越陡峭,項目對被試的區(qū)分能力越強;猜測度愈高,被試愈容易通過猜測回答正確。
單參數(shù)模型不含區(qū)分度,相當于區(qū)分度等于1的雙參數(shù)模型,是雙參數(shù)模型的特殊形態(tài),其對數(shù)據(jù)的要求更嚴格,所以雙參數(shù)或三參數(shù)模型在擬合數(shù)據(jù)上更加靈活。在大樣本數(shù)據(jù)情況下,難度和區(qū)分度兩參數(shù)都能得到良好的估計,猜測度卻相對不太穩(wěn)定,因此在實踐中,雙參數(shù)模型優(yōu)勢最明顯。雙參數(shù)邏輯斯蒂克模型的形式如下:
注:ai為項目i 區(qū)分度;bi為項目i 區(qū)分度
D 為調(diào)節(jié)系數(shù),取值1.7;θ 為被試潛在能力參數(shù)
Mokken(1971)提出了NIRT 中的單調(diào)勻質(zhì)模型(The Monotone Homogeneity Model,MHM)和雙單調(diào)模型(The Double Monotonicity Model,DMM)。MHM 模型有三個基本假設(shè):單維性、局部獨立性、單調(diào)性。前兩個假設(shè)與PIRT 相同,但是NIRT 不要求被試潛在能力與項目反應(yīng)之間的關(guān)系符合某種特定函數(shù)形態(tài),只要求項目反應(yīng)曲線非單調(diào)遞減,即若存在兩個潛在能力值θa和θb,且θa≤θb,那么P(xj= 1| θ = θa〉)≤P(xj= 1| θ = θb〉。DMM 除以上三個假設(shè)外,另要求所有項目特征曲線不交叉,即非交叉性,類似于PIRT 中的單參數(shù)模型。從假設(shè)要求來看,NIRT 模型比PIRT 模型更自由,其對被試潛在能力與項目反應(yīng)之間關(guān)系的理解更寬泛,所以若某數(shù)據(jù)擬合PIRT 模型,那它必然亦擬合NIRT 模型。
為衡量數(shù)據(jù)是否擬合NIRT 模型,Mokken 采用了Loveinger(1947)提出的量表適宜性系數(shù)(scalability coefficients)。系數(shù)分為:項目i 與項目j 間的量表適宜系數(shù)Hij;項目i 與剩余項目全體的量表適宜系數(shù)Hi;全體項目的量表適宜系數(shù)H。計算公式如下:
注:R(i)指除i 以外其他題的總分。
若數(shù)據(jù)擬合NIRT 模型,那么三種量表適宜性系數(shù)就都處于0 和1 之間。Mokken(1971)認為僅當H >c 時,那個量表才有用。c 是低限,可根據(jù)需要設(shè)定,至少為0.3。當0.3 ≤H <0.4 時,被認為是較弱程度的量表;當0.4 ≤H <0.5 時,程度中等;當0.5≤H 時,程度強。換言之,如果H 處于0 到0.3 之間,我們就不能相信項目組有足夠共同的東西能將被試在一有意義的潛在特質(zhì)上排序(張軍,2010)。
為研究被試能力、項目難度和區(qū)分度三個因素與量表適宜性系數(shù)的關(guān)系,設(shè)計本實驗。
實驗希望解決四個問題:(1)區(qū)分度分布不同,難度分布相同的項目測量能力高低不同的群體時,項目的Hi 系數(shù)是否不同,即區(qū)分度分布與Hi 系數(shù)的關(guān)系。(2)難度分布不同,區(qū)分度分布相同的項目測量能力高低不同的群體時,項目的Hi 系數(shù)是否不同,即難度分布與Hi 系數(shù)的關(guān)系。(3)項目區(qū)分度分布、難度分布、被試群體潛在能力分布三個因素對試卷H 系數(shù)的綜合影響。
由于真實的測驗數(shù)據(jù)難以嚴格滿足實驗控制要求,實驗使用軟件WinGen3(Han & Hambleton,2007),采用蒙特卡羅方法模擬若干套擬合雙參數(shù)邏輯斯蒂克模型的數(shù)據(jù),然后再計算這些項目的Hi與H 系數(shù),進而比較分析NIRT 與PIRT 兩種模型項目參數(shù)的異同。為保證被試與項目樣本的充分性,模擬的數(shù)據(jù)為10000 個被試對100 個項目的反應(yīng)。
潛在能力一般服從正態(tài)分布,實驗?zāi)M了三個能力高低不同的被試群體:低能力分布Θ1(均值= -2,標準差= 1)、中等能力分布Θ2(均值= 0,標準差= 1)與高能力分布Θ3(均值= 2,標準差=1)。在項目反應(yīng)理論中,難度參數(shù)與能力參數(shù)處于同一量綱中,所以實驗?zāi)M了三個與不同能力分布相對應(yīng)的難度參數(shù)分布,分別為:Β1(- 2,1)、Β2(0,1)、Β3(2,1)。區(qū)分度處于0 到2 之間,服從均勻分布。按取值大小,分四種類型:低區(qū)分度分布A1(0.1,0.5)、較低區(qū)分度分布A2(0.6,1.0)、較高區(qū)分度分布A3(1.1,1.5)和高區(qū)分度分布A4(1.6,2.0)。
被試能力分布、項目難度分布、項目區(qū)分度分布為三個自變量,量表適宜性系數(shù)為因變量。被試能力與項目難度分布分別有3 個水平,區(qū)分度分布有4個水平,實驗為3 ×3 ×4 交叉設(shè)計,共36 套模擬數(shù)據(jù),具體見表1。
表1 實驗設(shè)計表
實驗使用統(tǒng)計軟件R 中2.7.5 版本的mokken軟件包(Van der Ark,2010)計算36 套模擬數(shù)據(jù)中100 個項目的Hi 系數(shù)與每套試卷的H 系數(shù),使用SPSS13.0 計算每套試卷中所有項目區(qū)分度與Hi 系數(shù)、難度與Hi 系數(shù)之間的皮爾遜相關(guān)系數(shù)。
4.3.1 區(qū)分度分布與項目Hi 系數(shù)的關(guān)系
相關(guān)系數(shù)的高低代表了兩列變量的共變性,正相關(guān)表示其存在一致性變化,反之,負相關(guān)表示其存在相反的變化趨勢。表2a、b、c 列出當難度分別固定為B1(- 2,1)、B2(0,1)、B3(2,1),不同區(qū)分度分布的項目測量不同能力分布的被試群體時,項目區(qū)分度與Hi 系數(shù)之間的皮爾遜相關(guān)系數(shù)。如表2a 中第一行的0.971、0.965 和0.944 分別表示當難度分布為B1(-2,1),區(qū)分度分布為A1(0.1,0.5)的100 個項目在用于測量三個不同能力分布時,項目區(qū)分度與Hi 系數(shù)的相關(guān)系數(shù)。同樣,表中每列表示不同區(qū)分度分布的項目用于測量同一能力分布被試時,項目區(qū)分度與Hi 系數(shù)之間的相關(guān)系數(shù)。**表示在0.01 水平上顯著,*表示在0.05 水平上顯著。
表2a 難度固定為B1(-2,1)
表2b 難度固定為B2(0,1)
表2c 難度固定為B3(2,1)
表2 里36 個相關(guān)系數(shù)中有29 個在0.01 或0.05水平上顯著,這說明無論被試能力是什么分布,當難度固定時,區(qū)分度與Hi 系數(shù)存在正相關(guān),但區(qū)分度越大,它與Hi 系數(shù)相關(guān)的程度愈趨于弱化。如表2a第一列,從上到下,隨著項目區(qū)分度的增加,相關(guān)系數(shù)從0.971 降到0.307。只有當B2(0,1)和Θ1(-2,1)時,A3(1.1,1.5)與A4(1.6,2.0)兩個分布的區(qū)分度與Hi 系數(shù)呈相反情況。當B1(-2,1)和Θ3(2,1)時,A3(1.1,1.5)和A3(1.1,1.5)兩個分布的區(qū)分度與Hi 系數(shù)也呈相反情況,但由于在統(tǒng)計上都不顯著,所以不予考慮。因此,換言之,Hi 系數(shù)與項目區(qū)分度有一定相關(guān)性,但項目Hi 系數(shù)的計算能防止區(qū)分度大的項目對其取值造成過度影響。
另外,測驗用于測量與難度分布相匹配的能力分布群體時,其區(qū)分度與Hi 系數(shù)的相關(guān)總是高于難度分布于能力分布不匹配時的相關(guān)。如表2a 的每行中,總是第一列的相關(guān)最高;表2b 的每行中,總是第二列的相關(guān)最高;表2c 的每行中,第三列的相關(guān)最高。所以,當難度分布于被試群體能力分布匹配時,項目區(qū)分度與Hi 系數(shù)一致性會得到加強。
4.3.2 難度分布對項目Hi 系數(shù)的關(guān)系
表3a、b、c、d 列出當區(qū)分度分別固定為A1(0.1,0.5)、A2(0.6,1.0)、A3(1.1,1.5)和A4(1.6,2.0),不同難度分布的項目測量不同能力分布的被試群體時,項目難度與Hi 系數(shù)之間的皮爾遜相關(guān)系數(shù)。表3a 表明,當固定為低區(qū)分度分布A1(0.1,0.5)時,不同難度分布的項目區(qū)分度與Hi 系數(shù)均無相關(guān)。側(cè),即于被試而言,項目較容易時,難度與Hi 系數(shù)呈正相關(guān)。換言之,項目越難,其Hi 系數(shù)越大。如表3b中,當難度為B1(-2,1),能力分布分別為Θ2(0,1)和Θ3(2,1)時,相關(guān)系數(shù)為0.586 和0.786。
表3a 區(qū)分度固定為A1(0.1,0.5)
表3b 區(qū)分度固定為A2(0.6,1.0)
表3c 區(qū)分度固定為A3(1.1,1.5)
表3d 區(qū)分度固定為A4(1.6,2.0)
(2)當項目難度分布處于被試能力分布的右側(cè),即于被試而言,項目較難時,難度與Hi 系數(shù)呈負相關(guān),即項目越容易,其Hi 系數(shù)越大。如表3c 中,當難度為B3(2,1),能力分布分別為Θ1(- 2,1)和Θ2(0,1)時,相關(guān)系數(shù)為-0.821 和-0.779。
(3)當項目難度分布和被試能力分布匹配,即于被試而言,項目難度適當時,難度與Hi 系數(shù)無相關(guān)或呈非常弱的相關(guān)性。如表3c 中,當B1(- 2,1)和Θ1(-2,1)時,相關(guān)僅為0.009,且不顯著。只有表3d 中,當B1(- 2,1)和Θ1(- 2,1)、B3(2,1)和Θ3(2,1)兩種情況時,情況特殊,系數(shù)分別為0.417和0.656,且均在0.01 水平上顯著,這可能與高區(qū)分度這一因素有關(guān)。
4.3.3 三個因素對試卷H 系數(shù)的綜合影響
H 系數(shù)的大小反映了整個試卷測量某被試群體的綜合性能。36 套試卷代表了36 種情境,實驗計算了這不同情境下H 系數(shù)的取值,取值大小的變化揭示三個因素對試卷H 系數(shù)的綜合影響,具體見表4。
表4 不同情境下H 系數(shù)的取值
經(jīng)分析,表4 中H 系數(shù)的變化表現(xiàn)出三種規(guī)律:
(1)當能力與難度分布不變時,區(qū)分度越大,H值越大。如當B1(-2,1)和Θ1(-2,1)時,隨著區(qū)分度分布從A1到A4,H 系數(shù)從0.025 增加到0.474。
(2)當區(qū)分度分布不變時,測驗難度分布與被試能力分布匹配時,H 值最大。如第一、二、三、四列中,B1(-2,1)與Θ1(-2,1)分布匹配,所以這四列中第一行的H 系數(shù)在每列中都是最大的。同理,第五、六、七、八列中,第二行的H 系數(shù)在每列中最大;第九、十、十一、十二列中,第三行的H 系數(shù)在每列中最大。
(3)當能力與難度分布匹配時,區(qū)分度達到1.1以上時,測驗才能達到0.3 的低限,如B1(-2,1)與Θ1(-2,1)分布匹配,當區(qū)分度分布為A3(1.1,1.5)和A4(1.6,2.0)時,H 系數(shù)取值為0.327 和0.474;當能力分布與難度分布接近匹配時,區(qū)分度達到1.6 以上時,測驗才能達到0.3 的低限,如B1(-2,1)與Θ2(0,1)分布臨近,當區(qū)分度分布為A4(1.6,2.0)時,H 系數(shù)為0.366;當能力分布與難度分布差異較大時,無論區(qū)分度多大,測驗都達不到0.3 的低限,如B1(- 2,1)與Θ3(2,1)分布差異較大,在何種區(qū)分度分布下,H 系數(shù)均小于0.3。
NIRT 模型比PIRT 的基本假設(shè)更寬松、自由,它為理解潛在能力與項目反應(yīng)之間的關(guān)系提供了一個更寬闊的視角。項目反應(yīng)數(shù)據(jù)若擬合PIRT 模型,那必然擬合NIRT 模型,某種程度上,PIRT 模型是NIRT 模型的特例。
兩者使用不同的項目參數(shù)描寫項目的測量特性,研究的實驗結(jié)果表明項目難度分布、區(qū)分度分布和被試群體的能力分布這三個因素交互影響著Hi系數(shù)和H 系數(shù),兩種模型的項目參數(shù)間有著復(fù)雜的關(guān)聯(lián)性。
張軍.(2010).非參數(shù)項目反應(yīng)理論在維度分析中的運用與評價.心理學(xué)探新,30(3),80 -83.
Birnbaum,A.(1957).Efficient design and use of tests of a mental ability for various decision - making problems. USAF School of Aviation Medicine,Randolph Air Force Base,Texas.
Hambleton,R.,& Swaminathan,H.(1984).Item response theory:Principles and applications.Hingham:Kluwer.
Han,K. T.,& Hambleton,R. K. (2007).“Windows Software that Generates IRT Model Parameters and Item Responses”WinGen3.Retrieved from http://www.umass.edu/remp/software/wingen/
Jansen,P. W. G. (1982). Measuring homogeneity by means of Loevinger’s coefficient H:A critical discussion. Psychologische Beitrage,24,96 -105.
Lord,F(xiàn). (1952). A theory of test scores. Psychometric Society,New York.
Loevinger,J.(1947).A systematic approach to the construction and evaluation of tests of ability. Psychological Monographs,61,4.
Meijer,R.R.,Sijtsma,K.,& Smid,N. G. (1990). Theoretical and empirical comparison of the Mokken and the Rasch approach to IRT.Applied Psychological Measurement,14,283 -298.
Mokken,R.J.(1971).A theory and procedure of scale analysis.The Hague:Mouton/Berlin:De Gruyter.
Mokken,R. J.,Lewis,C.,& Sijtsma,K. (1986). Rejoinder to“The Mokken Scale:A critical discussion”. Applied Psychological Measurement,10,279 -285.
Roskam,E.E.,Van den Wollenberg,A.L.,& Jansen,P.G.W.(1986). The Mokken Scale:A critical discussion. Applied Psychological Measurement,10,265 -277.
Sijtsma,K.,Emons,W.H.M.,Bouwmeester,S.,& Nyklicek,I.(2008). Nonparametric IRT analysis of quality - of - life scales and its application to the world health organization quality-of-life scale(WHOOL -Bref).Quality of Life Research,17,275 -290.
Sijtsma,K.,& Verweij,A. C. (1992). Mokken scale analysis:Theoretical considerations and an application to transitivity tasks.Applied Measurement in Education,5,355 -373.
Van der Ark,L.A.(2010).“Getting Started with Mokken Scale Analysis in R.”Retrieved from http://CRAN. R - project.org/package=mokken.