国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

項目反應(yīng)理論的局部獨立性與局部依賴性研究述評

2018-11-06 01:23:04李莉任杰
中國考試 2018年8期
關(guān)鍵詞:題組依賴性獨立性

李莉 任杰

(北京語言大學(xué),北京 100083)

項目反應(yīng)理論(Item Response Theory,IRT)的基本思想起源于20世紀(jì)30年代末,1952年美國心理測量學(xué)家Lord在其博士論文中首次提出項目反應(yīng)模型,即雙參數(shù)正態(tài)穹形模型,這標(biāo)志著IRT的正式誕生。IRT建立在兩個基本概念上:一是考生在某一測試題目上的表現(xiàn)可由一組因素加以預(yù)測或解釋,這組因素被叫做潛在特質(zhì)或能力;二是考生的表現(xiàn)情形與這組潛在特質(zhì)間的關(guān)系,可以通過一條連續(xù)遞增函數(shù)加以詮釋,這個函數(shù)被叫做項目特征曲線(Item Characteristic Curve,ICC)[1-5]。任何一條項目特征曲線所代表的含義是:答對某一題目的概率,由考生的能力和題目的特性共同決定;考生的潛在特質(zhì)水平越高,其在某一題目上的正確反應(yīng)概率就越大。

IRT有兩個最基本的理論假設(shè):一是單維性假設(shè)。假定測驗中各項目共同測量一個變量、一種能力或知識,被試在測驗上的表現(xiàn)只能由一種潛在特質(zhì)來解釋,這便于測驗編制者提高分?jǐn)?shù)的解釋力。二是局部獨立性假設(shè)。經(jīng)典測驗理論(Classical Test Theory,CTT)和IRT中都有題目分?jǐn)?shù)條件獨立的假設(shè)。在CTT中,考生真分?jǐn)?shù)的測量誤差之間互不相關(guān)。在IRT中,該假設(shè)被稱為局部獨立性假設(shè);也就是考生在某道題目上的答對概率獨立于在其他題目上的答對概率,在全部題目上的聯(lián)合答對概率是各個題目答對概率的乘積。IRT最大的優(yōu)點是題目參數(shù)的不變性,即題目參數(shù)的估計獨立于被試組。IRT所做出的一切理論都必須以局部獨立性假設(shè)為前提[6-7]。目前測量學(xué)界對于局部獨立性這一假設(shè)并沒有形成統(tǒng)一、準(zhǔn)確的認識,因此,局部獨立性假設(shè)究竟指什么、局部依賴性是如何產(chǎn)生的以及如何緩解局部依賴現(xiàn)象成為IRT值得深入探討的話題。本文針對上述問題梳理相關(guān)文獻及經(jīng)典著作,以期推動IRT在測量學(xué)界的新發(fā)展。

1 局部獨立性假設(shè)的幾種觀點

局部獨立性假設(shè)(Local Independence,LI)的“局部”究竟指什么?Bachman認為“局部”指難度相同的題目[1]。他認為,局部獨立性假設(shè)是指被試對一個給定題目的反應(yīng)不依賴于其對相同難度的其他題目的作答反應(yīng)。這種說法顯然有失妥當(dāng),如果局部獨立性假設(shè)僅僅要求相同難度題目之間的反應(yīng)相互獨立,它就沒有考慮到難度不相同題目之間的情況,那么難度不相同的題目之間很可能會產(chǎn)生局部依賴性,這樣整個測驗就不滿足IRT的局部獨立性假設(shè)。如果要使整個測驗都滿足局部獨立性假設(shè),那么只能使測驗中每道題目的難度均相同,而在實際試題命制中這顯然不可能做到。因此,“局部”指的是某一給定特質(zhì)水平θ的考生對測驗中每個題目的作答。搞清楚這個概念之后,再進一步分析學(xué)界對局部獨立性假設(shè)的幾種不同定義。

1.1 局部獨立性

1.1.1 一被試對不同題目反應(yīng)獨立

局部獨立性假設(shè)是指對于任一特定被試,題目反應(yīng)都是獨立分布的,他在一個題目上的表現(xiàn)不影響他在其他任一題目上的表現(xiàn)[8]。這一觀點的提出者是Jannarone。這個觀點假設(shè)同一個被試在第1道題目上的作答反應(yīng)不影響他在其他任何一道題目上的作答反應(yīng),他答對了第1題,并不一定能答對第2題,也不一定會答錯第2題,即答對第1題不會對他接下來題目的作答產(chǎn)生任何好的或壞的影響。

1.1.2 同一能力值θ的被試群體間對不同題目的反應(yīng)獨立

Lord在1968年最早提出了局部獨立性的概念。他指出:“局部獨立性意味著在由相同的θ1,θ2,…,θk值所刻畫的任何被試群體內(nèi)部,題目分?jǐn)?shù)的(條件)分布都是相互獨立的。這絕不表明題目分?jǐn)?shù)在被試總體內(nèi)相互間是無關(guān)的,其含義是題目分?jǐn)?shù)相互有關(guān)僅僅通過潛在變量θ1,θ2,…,θk?!盵9]這被稱為局部獨立性假設(shè)的經(jīng)典理論定義。這個定義可以理解為:假設(shè)有300名被試參加了同一場考試,那么這300名被試對該測驗中任何一道題目的反應(yīng)都是獨立的。當(dāng)然,這并不是指所有被試群體內(nèi)部的分?jǐn)?shù)之間沒有相關(guān),被試分?jǐn)?shù)之間的相關(guān)僅僅通過潛在特質(zhì)水平θ而不是其他因素引起的。

如果將Jannarone所提出的“某一給定能力值的被試”和Lord所提出的“同一能力值θ的被試群體”看作等價的話,那么上述兩種關(guān)于“局部獨立性假設(shè)”的定義實質(zhì)上是沒有差別的。

1.1.3 同一能力值θ的被試群體間對同一題目的反應(yīng)獨立

條件獨立性(即局部獨立性)在下述條件下也假定是成立的,即一同質(zhì)的亞群體中具有相同θ值的個體對同一個題目的回答也是獨立的[10]。這一觀點是具有相同能力值的不同被試,在一套試題上的真分?jǐn)?shù)一樣,但每個人作答題目的隨機誤差之間不相關(guān)。因此,相同能力值的被試群體在同一道題目上所獲得的觀察分?jǐn)?shù)是相互獨立的,分?jǐn)?shù)之間并不相關(guān)。

1.2 局部被試獨立性

漆書青認為,局部獨立性假設(shè)包括兩個方面:一方面,被試對測驗中各個項目的作答反應(yīng)是彼此獨立的;另一方面,除了項目間彼此相互獨立外,被試間也是彼此相互獨立的[2]。第二個方面所描述的是:一被試對題目的作答反應(yīng)既不影響也不取決于其他任何一被試對題目的作答反應(yīng)。張凱認為,“局部獨立性”可以在兩個意義上為真:一是題目之間不要有連帶關(guān)系(即無干擾),二是被試不要作弊[6]。

將“局部獨立性假設(shè)”簡單地看作“局部被試獨立性”,在理解上存在著一定的偏差。因為不論是CTT還是IRT,任何一個標(biāo)準(zhǔn)化考試都不允許出現(xiàn)作弊行為:也就是說如果某一考生在某道題目上的作答受到其他考生的影響,這將歸因于測試流程把控不嚴(yán),并不是IRT模型本身的問題,解決此類問題需要嚴(yán)格、科學(xué)地執(zhí)行測試的監(jiān)考及評分程序,避免出現(xiàn)作弊行為及評分缺陷。

綜上,IRT的局部獨立性假設(shè)主要是指局部題目獨立性。如果局部獨立性假設(shè)成立,那么具有相同能力值的被試群體在某道題目上的反應(yīng)不影響他們在另一題目上的反應(yīng)。這一解釋包括了同一被試對不同題目反應(yīng)相互獨立和同一潛在特質(zhì)水平的不同被試在同一道題目上的反應(yīng)獨立兩個方面;也就是說被試的作答反應(yīng)僅受被試能力水平的影響。此時,任何一個能力為θ的被試對一組題目反應(yīng)的總概率等于他在各題目上反應(yīng)概率的乘積,用數(shù)學(xué)公式[11]來表示為:

Pi(θ)為能力值為θ的被試在第i道題目上的答對概率,Qi(θ)為能力值為θ的被試在第i道題目上的答錯概率,P(U1=u1,U2=u2,…,Un=un|θ)是能力值為θ的被試在整套試題上的反應(yīng)概率。

1.3 局部獨立性假設(shè)與單維性假設(shè)

由1.2可知,IRT有兩大理論假設(shè):局部獨立性假設(shè)和單維性假設(shè),早期很多學(xué)者將局部獨立性與單維性看作一對等同的概念。Lord認為局部獨立性是題目的一個特性,它隨著單維性自動產(chǎn)生[7]。IRT建立在潛在特質(zhì)理論的基礎(chǔ)上,單維性假設(shè)建立在維度概念的基礎(chǔ)上。如圖1所示,潛在特質(zhì)分為被試潛在特質(zhì)和非被試潛在特質(zhì)[12],廣義維度概念包括測驗所測得的所有潛在特質(zhì),狹義維度僅指被試能力(θ1,θ2,…,θk)這一潛在特質(zhì)。我們通常所說的單維性假設(shè)是指狹義單維,代表整個測驗只測得被試某一方面的能力(k=1,k為維度數(shù)目)。而局部獨立性假設(shè)指個體正確作答一道題目的概率,僅由測驗所測的一個或若干特質(zhì)的水平?jīng)Q定,其中每個特質(zhì)都對應(yīng)于潛在特質(zhì)空間中的一個維度。無論一個測驗是單維還是多維,要考查學(xué)生能力的幾個維度,局部獨立性概念都是存在的。事實上,很多測驗和題型會同時考查學(xué)生能力的不同維度,比如中國少數(shù)民族漢語水平等級考試四級讀后寫題目,同時考查了學(xué)生的閱讀能力和寫作能力。如果在這個多維IRT模型中,存在沒有被模型化、不屬于測驗所考查的非被試潛在特質(zhì)維度出現(xiàn),那么此時測驗就不滿足局部獨立性假設(shè)。如果該測驗沒有其他的非被試潛在特質(zhì)維度出現(xiàn),測驗就滿足局部獨立性假設(shè),但是卻不滿足單維性假設(shè);也就是說,與局部獨立性假設(shè)相對應(yīng)的是維度的概念,局部獨立性假設(shè)和單維性假設(shè)僅在能力單維(k=1)且不存在非被試潛在特質(zhì)維度的情況下等價[12]。

圖1 潛在特質(zhì)結(jié)構(gòu)圖

1.4 局部獨立性假設(shè)與相關(guān)

Hambleton等提出局部獨立性假設(shè)看上去是違反直覺的,因為我們不能期待同一個被試在若干題目上的反應(yīng)完全不相關(guān),這是不符合常理的[13]。在通常情況下,答對某道難度較大題目的被試更容易在其他題目上獲得正確的作答反應(yīng),但這僅僅是由被試的能力水平而非其他因素所決定的。因此,“局部獨立性假設(shè)”認為,一被試在某道題目上的作答反應(yīng)不影響他在其他題目上的作答反應(yīng),但這并不說明被試分?jǐn)?shù)的條件分布之間完全不相關(guān)。當(dāng)違背了局部獨立性假設(shè)時,被試分?jǐn)?shù)的條件分布之間會得出高得多的相關(guān)系數(shù)。

局部獨立性假設(shè)所真正表達的含義是命制試題時題目之間不能有連帶關(guān)系,而這正是客觀性試題的一個科學(xué)編寫原則,無論是使用CTT還是IRT,都要滿足這個要求。因此,我們不能認為局部獨立性假設(shè)是IRT特有的假設(shè)前提,測驗所使用的任何理論都要求滿足局部獨立性假設(shè),否則就會對題目參數(shù)及能力參數(shù)估計產(chǎn)生影響,導(dǎo)致過高估計測驗的信度和測驗的信息量。目前,在計算機多階段自適應(yīng)測驗發(fā)展的推動之下,測驗形式正在由傳統(tǒng)的獨立客觀性試題向以題組(模塊)為單位的組合性試題轉(zhuǎn)型,同一題組內(nèi)的題目很難滿足局部獨立性假設(shè),題組內(nèi)各項目間的反應(yīng)很容易受同一材料(刺激)的影響,產(chǎn)生局部依賴性。下文將詳細介紹這一現(xiàn)象。

2 局部依賴性

局部獨立性的對立面是局部依賴性。從統(tǒng)計角度講,局部獨立性意味著對于同一能力水平的考生,兩個測驗題目之間的相關(guān)應(yīng)該僅僅依賴于測驗考查的潛在特質(zhì)θ,將θ的影響從題目中排除之后,題目之間的相關(guān)就接近零,那么,當(dāng)局部獨立性不滿足時,也就是兩個題目的觀察分?jǐn)?shù)與預(yù)測真分?jǐn)?shù)的殘差之間仍然存在顯著水平的相關(guān),它們就產(chǎn)生了局部依賴性[14-16]。

在實際測驗中,各題目之間完全獨立的情況很難做到。比如篇章測驗中使用同一閱讀材料連帶若干題目,外語測試的完形填空題、匹配題,甚至相同單元、相同題型及相同知識點的題目前后作答間的相互啟發(fā)、練習(xí)效應(yīng)等,很多因素都會導(dǎo)致局部題目依賴性的出現(xiàn)。在教育測量中,導(dǎo)致局部題目依賴性最普遍的因素是材料間的相關(guān)。如果某些題目使用了相同材料,這些題目就會共享材料中的相同內(nèi)容,基于同一材料(刺激)的多個題目可以被概念化為“題組”[17],當(dāng)被試依賴于對材料的整體理解去作答這些題目時,其作答反應(yīng)就可能受到對整體背景理解的影響而產(chǎn)生相依性,這時就會產(chǎn)生局部依賴現(xiàn)象,也被稱為題組效應(yīng)(Testlet-effect)。局部獨立性假設(shè)是IRT的重要前提,若測驗不滿足局部獨立性假設(shè)而產(chǎn)生了局部依賴現(xiàn)象,此時我們依然用二值IRT計分的Rasch、雙參模型或三參Logistic模型進行參數(shù)估計,很顯然會產(chǎn)生項目參數(shù)和能力參數(shù)估計不準(zhǔn)確等一系列問題[18]。因此,在參數(shù)估計前對局部依賴性進行檢驗以及如何避免局部依賴性給IRT參數(shù)估計帶來的危害,已成為當(dāng)前IRT在測量學(xué)領(lǐng)域得以應(yīng)用發(fā)展的關(guān)鍵。

2.1 局部依賴性的檢驗

早期部分專家認為,局部獨立性原則本身是一個不可檢驗的假設(shè)。但近些年不少學(xué)者研究得出了一些檢驗局部依賴性的方法:Q3法、比較信度系數(shù)法、皮爾森X2法、IRT擬合統(tǒng)計等方法。其中Q3是最常用的檢驗題目間局部依賴性的標(biāo)準(zhǔn),它等于由觀察分?jǐn)?shù)減去預(yù)測真分?jǐn)?shù)所形成的題目殘差之間的相關(guān)[14]。用數(shù)學(xué)方法表示為:

其中,dik為考生k在第i道題目上的觀察分?jǐn)?shù)與IRT預(yù)測真分?jǐn)?shù)之間的偏差,rdidj是考生在題目i和題目j兩個題目上偏差分?jǐn)?shù)之間的相關(guān)。一般來說,Q3大于0.2就認為產(chǎn)生了局部依賴,否則,即滿足局部獨立性假設(shè)。

2.2 運用多級計分IRT模型解決局部依賴問題

從上文可以了解到,以題組為單位的試題間多會產(chǎn)生局部依賴現(xiàn)象。比如大學(xué)英語四、六級考試,無論是聽力理解的篇章、長對話聽力,還是閱讀理解中的選詞填空和信息匹配題,95%的題目都在各自題組內(nèi)具有連帶關(guān)系。當(dāng)局部依賴性產(chǎn)生時,需要尋找恰當(dāng)、有效的方法減少其帶來的影響,比如:重新修改或者刪減部分題目,縮短文章長度,每個材料下僅命制一道試題,但是這種方法浪費了材料的有效信息、效率低;或者采用多級計分的IRT模型;在測驗中引入新的理論模型——題組反應(yīng)理論(Testlet Response Theory,TRT)等。

Rosenbaum針對題組內(nèi)項目間相互依賴的問題提出了一個具體的解決方案——將題組內(nèi)項目合并為一個多級評分項目,從而消除題組內(nèi)項目間的依賴性[19]。在多級計分IRT模型中,每個題組都被看作是一個獨立的大項目(Super-item),采用多級計分,理論模型包括等級反應(yīng)模型(Graded Response Model)、分部評分模型(Partial Credit Model)和拓廣分部評分模型(Generalized Partial Credit Model)。這種基于分?jǐn)?shù)的方法保持了各題組之間的局部獨立性,同時也消除了題組內(nèi)的題目依賴性。一些學(xué)者表示,使用多級評分模型在一定程度上可以減輕局部依賴性對參數(shù)估計精度和信度的影響,但仍然存在一些不足,比如:無法區(qū)分分?jǐn)?shù)相同被試的分?jǐn)?shù)組合,不能充分利用題組內(nèi)每個項目的具體信息;此外采用多級計分的評分方法可能會低估測驗信度,不適用于計算機自適應(yīng)測驗等。

2.3 引入題組反應(yīng)理論解決局部依賴問題

部分學(xué)者認為,直接將題組內(nèi)項目轉(zhuǎn)變?yōu)槎嗉売嫹植⑽丛趯嵸|(zhì)上解決局部依賴問題,反而會低估測驗信度和測驗信息量?;谶@些討論,Wainer等提出了更為合理的做法——在有局部依賴性的測驗中采用承認局部依賴性的題組反應(yīng)理論[20],用數(shù)學(xué)方法表示為:

此公式是Wainer等提出的三參數(shù)Logistic題組反應(yīng)模型,也是目前使用較廣的題組反應(yīng)模型,Pi(θ)是能力為θ的被試j在題目i上作答正確的概率。此公式在原有IRT三參數(shù)Logistic模型的基礎(chǔ)上增加了一個新的參數(shù):γjk(i),表示被試j在題組k內(nèi)的題目i上的題組效應(yīng),被試在同一題組內(nèi)所有項目上的題組效應(yīng)相等,但在不同題組內(nèi)的效應(yīng)可以不相等。當(dāng)測驗中不存在題組效應(yīng)時,滿足局部獨立性假設(shè),此時γjk(i)=0,題組反應(yīng)模型仍然變?yōu)樵瓉淼腎RT模型。涂冬波等在2009年進行了一項模擬研究,對存在依賴性的題組數(shù)據(jù)分別采用傳統(tǒng)標(biāo)準(zhǔn)IRT的Logistic模型(即忽視題目間的依賴性)和Logistic題組反應(yīng)模型進行參數(shù)估計;結(jié)果表明:當(dāng)項目之間存在依賴時,采用承認局部依賴性的題組反應(yīng)模型進行參數(shù)估計,其精度要高于傳統(tǒng)標(biāo)準(zhǔn)IRT模型參數(shù)估計結(jié)果[21]。也有研究表明:題組長度影響參數(shù)估計的精度,若題組長度適中(即含4~6個項目),那么題組內(nèi)出現(xiàn)的項目依賴不會對參數(shù)估計精度造成很大影響,隨著題組長度的增加,參數(shù)估計偏差會逐漸增加[22]。近年來,學(xué)界又提出了很多適用于題組的測量模型,如固定效應(yīng)模型、兩因子模型等[23],但采用實證數(shù)據(jù)來驗證這些數(shù)學(xué)模型的研究比較少見。因此,對題組反應(yīng)模型的理論定義與應(yīng)用價值的探討應(yīng)該是接下來研究的重點關(guān)注問題,這樣才能推動IRT在測量學(xué)領(lǐng)域的迅速發(fā)展。

3 結(jié)束語

局部獨立性假設(shè)是IRT的基本假設(shè)。本文主要對測量學(xué)界目前關(guān)于局部獨立性和局部依賴性的相關(guān)討論進行了文獻梳理,主要得出以下結(jié)論:

第一,局部獨立性假設(shè)是指處于同一潛在特質(zhì)水平的被試群體,題目之間的作答反應(yīng)相互獨立。這一定義包括了同一被試對不同題目反應(yīng)相互獨立和同一潛在特質(zhì)水平的不同被試在同一道題目上的反應(yīng)獨立兩個方面,也就是說被試的作答反應(yīng)僅受被試能力水平的影響。

第二,局部獨立性假設(shè)和單維性假設(shè)僅在能力單維(k=1)且不存在非被試潛在特質(zhì)維度的情況下等價。局部獨立性并不意味著被試群體內(nèi)部分?jǐn)?shù)分布完全不相關(guān),而是說分?jǐn)?shù)分布的相關(guān)不由被試能力以外的其他因素所決定。

第三,在命題實踐中,要盡量滿足局部獨立性假設(shè),但因為某些題型或者客觀因素的影響,尤其是基于題組的計算機多階段自適應(yīng)測驗的迅速發(fā)展需要組合性題目的客觀存在?;谶@種情形繼續(xù)采用傳統(tǒng)的標(biāo)準(zhǔn)IRT模型,就有可能出現(xiàn)參數(shù)估計不精確、過高估計測驗的信度以及等值誤差過大等問題。不少學(xué)者提出題組反應(yīng)模型可以緩解局部依賴現(xiàn)象對傳統(tǒng)IRT參數(shù)估計帶來的影響,目前這一理論沒有運用到實際工作當(dāng)中,隨著計算機自適應(yīng)測驗的發(fā)展,要對這一問題持續(xù)地研究討論,以追求更加公平、公正、科學(xué)的測驗。

猜你喜歡
題組依賴性獨立性
善用變式題組突破二項展開式問題
題組助力學(xué)習(xí)“光現(xiàn)象”
題組助力學(xué)習(xí)“聲現(xiàn)象”
培養(yǎng)幼兒獨立性的有效策略
甘肅教育(2020年12期)2020-04-13 06:25:10
非等熵 Chaplygin氣體極限黎曼解關(guān)于擾動的依賴性
淺論我國非審計服務(wù)及對審計獨立性的影響
商榷這道商榷題的修改題組
關(guān)于N—敏感依賴性的迭代特性
商情(2017年38期)2017-11-28 14:08:59
N-月桂酰基谷氨酸鹽性能的pH依賴性
考慮誤差非獨立性的電力系統(tǒng)參數(shù)辨識估計
六枝特区| 偏关县| 昭苏县| 杭州市| 兰州市| 古田县| 石家庄市| 新巴尔虎左旗| 鄄城县| 望都县| 仪陇县| 萍乡市| 靖西县| 九龙城区| 嘉善县| 含山县| 洛阳市| 博爱县| 东阳市| 新巴尔虎左旗| 铅山县| 福建省| 通辽市| 长春市| 文安县| 西畴县| 双牌县| 普陀区| 德钦县| 鄂尔多斯市| 沙河市| 南岸区| 无极县| 新建县| 伊宁市| 句容市| 化州市| 南宁市| 五华县| 岳阳县| 榕江县|