吳瑞林 衛(wèi)靜遠
中文篇章測驗的題組效應分析
吳瑞林 衛(wèi)靜遠
語言類篇章測驗中經常出現題組題,由于可能違背局部獨立性假設,使用傳統(tǒng)項目反應理論會導致一系列誤差。本文在討論三個改進模型Polytomous模型、題組模型和雙因子模型的基礎上,分別使用題組模型和獨立模型對漢語能力測試的題目進行檢驗和分析。結果發(fā)現:漢語能力測試中的題組題總體依存度不高;題組模型適合于漢語能力測試的篇章聽力和篇章閱讀類的題目;獨立模型和題組模型對題目難度參數的估計較為接近,對于區(qū)分度則有明顯差異;兩種模型對個人能力估計的一致性很高,但在能力估計的標準誤上差別很大。
漢語能力;測驗;題組效應
教育考試中經常出現多道題目圍繞同一材料命題的情況,其中語言類測試的篇章聽力和篇章閱讀題目更是如此,這樣的多道題目共同組成了一個題組(testlet)。題組中的題目往往會因為關聯于共同的測試材料,而違背各題目間相互獨立的假設條件,進而給項目反應理論(IRT)的分析帶來誤差。
為了更加有效地處理題組題,幾個新的測量模型被提出,包括題組模型(testlet response theory,簡寫為TRT模型)[1]、將題組中各題得分加和為一道超級題的Polytomous模型[2]、來自結構方程模型的雙因子模型(bi-factor model)[3]和二階因子模型(secondorder IRT model)[4]、考慮題目獨立性和被試獨立性假設均不滿足的四層模型[5],也有中文綜述對相關模型進行過較為詳細的介紹[6]。已經有一些研究者者對這些模型進行過理論和數據仿真的比較,表明使用改進模型對于消除題組效應具有實際效果[4,7,8,9]。Li等人使用題組模型分析過LSAT考試中的篇章閱讀測驗[10],Eckes運用題組模型和Polytomous模型分析了德福考試(TestDaF)的聽力測試部分[11]。
教育部考試中心研發(fā)的“漢語能力測試”中同樣出現了篇章聽力和篇章閱讀類型的題目。本文將通過分析其試點考試的數據,監(jiān)測漢語能力測試中篇章題目的題組效應大小,并分別使用獨立模型和題組模型擬合測試數據。擬合結果將被比較和分析,以期為選擇最為適合的統(tǒng)計模型提供參考信息。
項目反應理論已經被廣泛應用到教育考試的題目分析、能力估計、測驗等值、自適應測驗當中,并衍生出Rasch模型、兩參數模型、三參數模型、等級反應模型、稱名數據模型等多種模型。其中最具代表性的是兩參數項目反應理論模型:被試j回答正確題目i的可能性,取決于個人能力值θj、題目的區(qū)分度ai以及題目的難度bi,其中的關系如以下公式。
這種傳統(tǒng)項目反應理論模型建立在各題目相互獨立的假設之上,也就是說,各題目除了測量同一能力外,不再存在相關關系,即題目的殘差間相關為零或接近于零。對于多道題目具有相同背景的題組題,傳統(tǒng)IRT模型并沒有特殊的處理措施,而是將題組題中的每道相互獨立的小題進行統(tǒng)計,在題目參數估計和個人能力估計過程中均如此。
然而,這種忽略題組題間相關關系的做法,有可能導致一系列的誤差:(1)它有可能使個人能力估計的標準誤減少,從而過高地估計個人能力估值的精確度;(2)也可能過高地估計測驗的信度和測驗提供的信息量(test information);(3)還會低估題目參數的標準誤,或者產生有偏的題目難度和題目區(qū)分度估計值;(4)影響測驗等值的準確性。
在Polytomous模型中,題組內各小題得分被首先加總求和,形成一個超級題(super-item),從而消除了題組效應的影響。超級題具有多級反應的特征,其等級數量等于題組內題目數量加1,因其呈現等級排列的多級反應結果,所以被稱為Polytomous模型。該模型也已經被實際應用到部分語言類測驗的分析中。[7,12]
但在求和的過程中,實際損失了部分題目所提供的測驗信息。如某一題組上兩名被試同樣計3分,但他們答對的小題可能完全不同。盡管相對于題組效應帶來的影響,Polytomous模型損失的測驗信息是有限的,但這仍然會降低參數估計的準確性和模型擬合程度[11]。題組模型和雙因子模型避免了這部分測驗信息的遺失,因此本研究中不再考慮使用Polytomous模型。
在題目間局部獨立性假性違背的情況下,從項目反應理論角度來看,目前被認為最好的解決模型是Wainer等人給出的題組模型。以兩參數項目反應理論模型為例,它在傳統(tǒng)模型的基礎上增加了個人題組效應參數γjd,這個參數對某一題組內每道題目均是相同的。加入該參數后的模型可以表達為下式,這里的第d個題組包含題目i。
該模型用參數γjd表達題組中共同材料對每道題目的影響,因其來自共同的材料,可以認為對每道題目的影響相同;而個體間存在的差異,使這種題組效應參數不同于難度和區(qū)分度,其對每個人的影響大小被設為不同。
從公式中可以看到,當題組效應對某個人不存在時(γjd=0),題組模型的表達式就蛻變?yōu)橐话愕膬蓞的P?。而要判斷一個題組整體上是否存在題組效應,需要考察被試的題組效應參數γjd。被試群體該參數的方差越大,則認為其題目間的相互依存度越高;如果該參數方差為零,表示題目間相互獨立。更為復雜的三參數題組模型和多級反應題組模型也均被開發(fā)出來[1],這里不再做詳細介紹。
與此同時,在心理測量中廣泛運用的驗證性因素分析模型與項目反應理論模型在很多方面具有等價性[13],結構方程模型中的雙因子模型也可以應用于題組的分析中。如圖1所示,在雙因子模型中,題組內的每道題目在兩個潛變量上存在因素載荷。首先,所有題目加載于一般能力因子θg上,該因子在語言測試中表示為聆聽能力或閱讀能力等具體的語言能力;另外,題組中的題目還會加載于題組特殊因子θtd之上,通過這個因素載荷反映了題組共同刺激材料所帶來的效應。表達該模型的公式如下:
其中對一般能力的斜率αig和截距 βi,與兩參數模型中的區(qū)分度系數ai和難度系數bi具有對應的轉換關系。
圖1 雙因子模型結構示意圖
雙因子模型雖然也將題組效應的影響納入到模型之中,但其與題組模型并不完全一致。與題組模型相同的是,它也允許每名被試針對某個題組有不同的題組效應,即圖1中的變量θt1和θt2是與個人有關的參數;不同的是,在雙因子模型中每道題目的題組效應完全相同,但由于題目到題組因子的載荷(如圖1中的 α1t1,α2t1,α3t1)不同,同一題組內題目的題組效應大小可以存在差異。如果設置同一題組內題目到題組因子的載荷相同(即強制令α1t1=α2t1=α3t1,α4t2=α5t2=α6t2),那么雙因子模型可以和題組模型完全等價。鑒于此,本研究中沒有再使用雙因子模型進行計算和比較。
漢語能力測試項目是教育部考試中心研發(fā)的一項國家級語言類標準化水平測試,旨在評估以漢語作為生活、學習、工作基本用語人群的漢語應用能力。該測試分為聆聽、說話、閱讀和寫作四個部分,分別從語言的輸入和輸出角度考察漢語的交際能力。其中的聆聽部分和閱讀部分是典型意義上的題組題與獨立題混合而成的。整個項目設置了六個等級,其中四級和五級的開發(fā)最早,分別對應相當于大學本科和研究生水平的人群。本研究選擇漢語能力測試在試點時使用的一套四級和五級試卷進行題組效應的檢驗和分析。
2011年年底舉行的漢語能力測試項目在北京、上海、天津、江蘇、云南、湖南、內蒙古七個?。ㄗ灾螀^(qū)、直轄市)進行了試點測試,參加測試的人員主要是大學生、教師和公務員。四級試卷的有效樣本為624人,其中男性占30.6%,女性占69.4%;五級試卷的有效樣本人數為1229,男性占31.0%,女性占69.0%。
四級和五級兩套試卷的聆聽部分都由10道題目組成,且都為3個題組;閱讀部分分別由20道題和25道題組成,題組數分別為5個和7個,五級閱讀的題組數多、題組中的題目數量相對較少,且獨立題目數略多(見表1)。總的來看,這兩套試卷題組內的題目數量都不多,都在2道至4道。
表1 兩套試卷的題組數量和分布情況
Q3指標法是目前使用較多的用于檢驗項目間相依程度的指標。該指標為被試在任意兩個項目實際觀察得分與期望得分(項目真分數)之間殘差的相關,相關的絕對值越大,則這兩個項目間相依程度越高,反之則越低。Yen提出Q3的取值一般為輕度負值,當其等于-1/(n-1)時,項目間絕對獨立;若Q3的絕對值大于0.2,則可以判定項目間存在相依[14]。對兩套試卷的所有題目間計算Q3指標,僅在五級聆聽部分有兩道題目的Q3絕對值大于0.2,且這兩道題目并不在同一題組中。12個題組的平均Q3值列于表2,從中可以看出各題組的Q3值都不大,但部分題組的平均Q3與理想值-1/( )n-1有距離??梢哉J為這兩套試卷的題組內的依存度雖然存在,但程度并不嚴重,這樣的情況與一些英語閱讀理解測驗的結果相似[15]。
另一個反映題目間相依程度的指標為題組方差,它指被試在題組上不同的題組效應參數γjd的方差。該指標距離0越遠,題目間的依存度越高,但目前還不存在判斷題組方差大小的絕對標準。從語言類測試的情況看,報告的題組方差從0.1到2.0均存在。本研究中兩套試卷的數據也計算了題組方差,結果見表2,18個題組方差從0.5附近到接近2.0不等??紤]到題組方差的標準誤,四級試卷中3個題組的效應方差顯著,五級試卷中則有7個題組的效應方差顯著。
在應用IRT模型時,主要關注題目參數估計和個人能力估計兩個內容。這里分別對獨立模型和題組模型的估計結果進行統(tǒng)計分析,以比較兩種模型在漢語能力篇章測驗上的使用效果。本研究使用題組計分軟件SCORIGHT3.0版[16]實現兩參數獨立模型和兩參數題組模型的估計,SCORIGHT采用了馬爾可夫鏈蒙特卡洛仿真(MCMC)估計法(有關介紹可參閱文獻[17]),在我們的估計過程中啟動了4條馬爾可夫鏈,被試的平均能力值設為0、標準差為1。
在題目參數估計方面(如表3所列),兩個模型對區(qū)分度和難度估計的平均值都較為接近,只是在五級聆聽部分出現了一些差異;從估計值的標準差和值域范圍看,兩個模型的結果也互有高低,且差距不大。表3中的RMSE為均方根誤差(Root Mean-Square estimation Error),它表示參數估計值的精確度,該值越小,模型給出的題目參數估計值的精確性越高。統(tǒng)計結果顯示,四級閱讀部分中題組模型給出的RMSE值更小,而在其他測驗部分,獨立模型的參數估計精確度更高。另外,在五級聆聽部分的區(qū)分度上,題組模型的RMSE值比獨立模型大了很多。
表2 各題組效應大小統(tǒng)計
具體看每道題目的情況,圖2分別給出了四級和五級兩套試卷中題目區(qū)分度和難度的分布情況。每幅小圖的橫坐標為題組模型估計出的題目區(qū)分度(或難度),縱坐標為獨立模型估計而得的區(qū)分度(難度),以反映兩個模型估計結果的一致性。首先可以從圖2(b)和圖2(d)中看出,兩個模型對于題目難度的估計一致性較高,圖中代表聆聽和閱讀題的標記都在中心分割線附近,且兩者的相關系數都在0.99以上。四級題目的難度估計值絕對差為0.34,與難度標準差的比例為9.8%(=0.34/3.46);五級的難度估計值絕對差為0.38,與難度標準差的比例為9.9%(=0.38/3.85)。
兩個模型對區(qū)分度的估計呈現出一些分化,在四級題目的區(qū)分度估計值小于0.6時,兩個模型較為一致,而當區(qū)分度大于0.6時,兩個模型的估計值出現了一定幅度的差異。在五級試題中則出現了一個異常點(outlier),一道聆聽部分的題目在題組模型中的區(qū)分度估計值很大(接近5),而其在獨立模型中僅為1.4左右,這也造成了五級題目區(qū)分度的相關系數降為了0.735。該題目還影響到表3中的五級聆聽部分區(qū)分度的統(tǒng)計值,增大了其平均值、標準差和RMSE,該題處于一個題組中,但與題組中的題目相關并不大。此外,四級區(qū)分度估計值絕對差為0.08,與標準差的比例為29.6%(=0.08/0.27);五級估計值絕對差為0.15,與區(qū)分度標準差的比例為40.5%(=0.15/0.37),該結果也遠大于難度估計值差異的大小。
兩個模型對被試個人能力估計的統(tǒng)計結果見表4,兩模型估計的能力平均值都為零或接近于零,這符合模型對個人能力的假設;題組模型所獲能力估計值的標準差和值域范圍都略小于獨立模型。同樣,此處的RMSE反映了對個人能力估計的精確程度。題組模型的RMSE在各測試部分均大于獨立模型,且在四級閱讀部分存在相對較大的差異。
圖3和圖4分別給出了四級和五級兩套試卷所估計的個人能力值以及能力估計標準誤的比較情況。從兩圖中的(a)和(c)部分可以看到,兩個模型對個人能力的估計值吻合程度較高,代表個人能力的小圓圈主要分布在中間分割線的上下兩側。四級試題中,聆聽和閱讀能力估計值的相關系數達到了0.929和0.872;五級試題的相關系數更高,在0.98附近,這主要與五級測試的被試數量大大增多有關。
表3 題目參數估計值的統(tǒng)計結果
圖2 題目參數估計值的比較
表4 個人能力估計值的統(tǒng)計結果
圖3 四級試卷個人能力估計值的比較
兩圖中(b)和(d)給出的標準誤比較情況相對復雜,兩個模型給出的標準誤估計值存在較大的不一致,四級測試中兩模型的標準誤估計值完全不相關,五級測試中存在統(tǒng)計意義顯著相關,但相關系數也不大。在四級測試的聆聽部分中,可以明顯的看到很多小圓圈標記分布在分割線的下側,也就是說獨立模型給出的標準誤估計值要小于題組模型的估計值;在閱讀部分,這種趨勢更為明顯。此外,這里能力估計標準誤的分布趨勢與Eckes對德福測驗的分析結果[11]存在明顯不同,這可能與參加測驗的被試數量不同有很大關系。
圖4 五級試卷個人能力估計值的比較
與其他語言類測試一樣,漢語能力測試也在聆聽和閱讀兩個部分設置了大量可能具有依存關系的題組題??紤]到題組題可能違背項目反應理論所要求的題目間局部獨立的假設,一些針對題組的計分模型被提出,本文中分別使用獨立模型和題組模型對漢語能力測試的一套四級和一套五級試卷進行了分析。結果發(fā)現:(1)題目間的Q3指標平均值和題組效應方差大小顯示,漢語能力測試中的部分題組各題目間存在相互依存的現象,但總體的依存度不高。(2)題組模型適合于漢語能力測試的篇章聽力和篇章閱讀類的題目,且題組模型與雙因子模型在本質上是等價的。(3)在題組效應不大、樣本量中等(分別為624人和1 229人)的條件下,獨立模型和題組模型對題目難度參數的估計較為接近,但在高區(qū)分度的題目上對區(qū)分度參數的估計有明顯差異。(4)兩種模型對被試個人能力的估計一致性很高,但在個人能力標準誤的估計上差別很大,且兩個模型四級標準誤估計的差異比五級更大,這可能與樣本量和題目數的比值存在聯系。
[1]Wainer,H.,Bradlow,E.T.,&Wang,X.Testlet Response Theory and Its Applications[M].Cambridge:Cambridge University Press,2007.
[2]Cook K F,Dodd B G,Fitzpatrick S J.A comparison of three polytomous item response theory models in the context of testlet scoring[J].Journal of outcome measurement,1998,3(1):1-20.
[3]Gibbons R D,Hedeker D R.Full-information item bi-factor analysis[J].Psychometrika,1992,57(3):423-436.
[4]Rijmen F.Formal Relations and an Empirical Comparison among the Bi-Factor,the Testlet,and a Second-Order Multidimensional IRT Model[J].Journal of Educational Measurement,2010,47(3):361-372.
[5]Jiao,H.,Kamata,A.,Wang,S.,&Jin,Y.A multilevel testlet model for dual local dependence[J].Journal of Educational Measurement,2012,49(1):82–100.
[6]詹沛達,王文中,王立君.項目反應理論新進展之題組反應理論[J].心理科學進展,2013,21(12):2265–2280.
[7]Li,Y.,Li,S.,&Wang,L.Application of a General Polytomous Testlet Model to the Reading Section of a Large-Scale English Language Assessment[R].2010,ETS RR-10-21,1–42.
[8]DeMars C E.Confirming testlet effects[J].Applied Psychological Measurement,2012,36(2):104-121.
[9]劉玥,劉紅云.貝葉斯題組隨機效應模型的必要性及影響因素[J].心理學報,2012,44(2):263-275.
[10]Li Y,Bolt D M,Fu J.A comparison of alternative models for testlets[J].Applied Psychological Measurement,2006,30(1):3-21.
[11]Eckes,T.Examining testlet effects in the TestDaF listening section:A testlet response theory modeling approach[J].Language Testing,2014,31(1):39–61.
[12]Eckes T.Item banking for C-tests:A polytomous Rasch modeling approach[J].Psychological Test and Assessment Modeling,2011,53(4):414-439.
[13]吳瑞林,涂冬波.題目因素分析:基于SEM和基于IRT的兩類方法[J].心理與行為研究,2013,11(1):124–131.
[14]Yen W M.Scaling performance assessments:Strategies for managing local item dependence[J].Journal of Educational Measurement,1993,30(3):187-213.
[15]Lee Y W.Examining passage-related local item dependence(LID)and measurement construct using Q3statistics in an EFL reading comprehension test[J].Language Testing,2004,21(1):74-100.
[16]Wang X,Bradlow E T,Wainer H.A user’s guide for SCORIGHT Version 3.0(ETS Technical Report RR-04-49)[J].Princeton,NJ:Educational Testing Service,2004.
[17]涂冬波,蔡艷,漆書青,丁樹良,戴海崎.項目反應理論新進展——題組模型及其參數估計的實現[J].心理科學,2009,32(6):1433-1435.
(責任編輯 吳四伍)
Testlet Effects on Chinese Passage-based Test
WU Ruilin and WEI Jingyuan
Testlets are commonly used in language passage-based testing.Since we know that they could violate the assumption of local item independence,a series of errors might be produced by using standard IRT.This paper discussed three revised models,including polytomous model,testlet response model and bi-factor model.The monitoring and assessment of testlet effects on HNC are mainly from three aspects.The results showed as follows:(1)there is not a high-degree dependence of testlet-based items in the test;(2)to estimate item difficulty by using conventional IRT and TRT respectively has similar result,but it has obvious difference in item discrimination;(3)the two types of models have high coherence in personal ability estimation but a considerable discrepancy in standard error.
Testlet Response Model;HNC;Bifactor Model;Item Response Theory;Local Item Dependence
G405
A
1005-8427(2014)12-0042-9
本文系國家語委“十二五”科研規(guī)劃重大項目“國民語言文字能力標準與測評體系研究”(ZDA125-1)的研究成果之一。
吳瑞林,男,北京航空航天大學心理與行為研究所,副教授、碩士生導師(北京 100191)
衛(wèi)靜遠,女,北京航空航天大學心理與行為研究所,碩士研究生(北京 100191)