項目反應(yīng)理論在健康相關(guān)量表中的應(yīng)用現(xiàn)狀及展望*

2018-09-20 06:48哈爾濱醫(yī)科大學大慶護理學院163319王偉梁周郁秋

中國衛(wèi)生統(tǒng)計 2018年4期

哈爾濱醫(yī)科大學(大慶)護理學院(163319) 王偉梁周郁秋

項目反應(yīng)理論(item response theory，IRT)屬于現(xiàn)代測量理論的一種，是針對經(jīng)典測量理論(classic test theory，CTT)在實踐中的局限性而提出的，其主要優(yōu)點為參數(shù)和能力估計的不變性[1]。除此之外，IRT在量表編制中優(yōu)于CTT的三個特點：CTT注重量表的整體特性，而IRT則關(guān)注構(gòu)成量表的每一條目的特性；根據(jù)待測潛在特質(zhì)水平選擇項目；對項目和量表特性的視覺化表示[2]。其在健康相關(guān)領(lǐng)域中的應(yīng)用，使量表在評估被試潛在特質(zhì)的精確度及臨床應(yīng)用的簡潔性、效率化上有一定的提高。鑒于以上優(yōu)點，近年來IRT在量表編制和評價中得以廣泛應(yīng)用。本文通過檢索國內(nèi)關(guān)于IRT應(yīng)用于健康相關(guān)領(lǐng)域的研究，分析其在健康相關(guān)量表編制和評價中的應(yīng)用現(xiàn)狀，并總結(jié)IRT在應(yīng)用過程中存在的問題以及最新的應(yīng)用動態(tài)。

本文通過檢索知網(wǎng)、萬方和維普數(shù)據(jù)庫，共篩選出86篇相關(guān)文獻，文獻的基本信息見表1。結(jié)合數(shù)據(jù)分析可以看出，近年來文獻數(shù)量有了很大的增長，2010年至今，相關(guān)文獻達74篇(86%)，從這一發(fā)展趨勢看，今后IRT勢必會成為量表編制和評價中的應(yīng)用熱點。但在文獻數(shù)量增加的同時，文獻質(zhì)量也呈現(xiàn)出參差不齊。存在的主要問題為：一是部分研究只根據(jù)經(jīng)驗來選擇模型，而缺少統(tǒng)計學的評價；二是研究中未重視IRT的基本假設(shè)檢驗；三是部分研究樣本量未達要求。這樣得出的結(jié)果就會有很大的誤差。IRT的理論基礎(chǔ)較為難懂，限制了其廣泛應(yīng)用，同時國內(nèi)相關(guān)應(yīng)用相對較少，缺少參照標準，均導(dǎo)致大多研究者未意識到或忽略上述問題對于IRT分析的重要性。

IRT在量表編制和評價中的應(yīng)用

1.條目篩選

IRT的條目篩選是通過一系列的參數(shù)估計來實現(xiàn)的，具體包括區(qū)分度參數(shù)(a)、難度參數(shù)(b)、項目信息量(information function，IF)和項目功能差異(differential item functioning，DIF)。從檢索到的文獻來看，應(yīng)用最多的是a、b和IF，但不同研究所依據(jù)的參數(shù)參考范圍有很大差別。

表1 IRT在國內(nèi)健康相關(guān)量表研究中的應(yīng)用現(xiàn)況

*：量表再評價包括已有量表條目質(zhì)量評價、簡化和DIF；CAT：計算機適應(yīng)性測驗;MIRT:多維項目反應(yīng)理論；NIRT：非參數(shù)項目反應(yīng)理論。

(1)難度和區(qū)分度：難度和區(qū)分度的理論取值范圍均為[-∞，+∞]，但在實踐中通常采用的參考值范圍分別為∈[-3,+3],a[-2.80,+2.80][3]。也有研究表明：在健康相關(guān)領(lǐng)域中，由于測量的潛在特質(zhì)概念界定相對狹窄，應(yīng)用IRT參數(shù)估計出的區(qū)分度值總體偏高，此時仍參照[-2.80,+2.80]已無實際意義，為挑選最佳量表條目，會在其研究中對區(qū)分度范圍重新界定[4-5]，但不應(yīng)超出以上范圍；(2)信息量：一般認為量表信息量>25表明條目質(zhì)量良好；信息量16～25表明測評條目有待改進；信息量<16表明測評條目很差。16和25與條目個數(shù)的比值即為每個條目的平均信息量參考范圍，條目信息量小于平均信息量的建議刪除[6-7]；(3)項目功能差異：質(zhì)量高的量表條目被認為其對不同亞組人群(年齡、性別等)的潛在特質(zhì)鑒別上應(yīng)沒有差別。當同一條目在兩個亞組中的平均閾值差異大于0.5，則可認為該條目存在DIF，考慮刪除[8]。

檢索到的相關(guān)文獻中，23篇(72%)采用IRT結(jié)合CTT進行條目篩選。CTT注重的是量表的宏觀評價，即量表的整體特性，IRT注重的是量表的微觀評價，即每一條目的測量學特質(zhì)，所以在量表條目篩選中，建議結(jié)合IRT和CTT對量表條目進行綜合評價，評價結(jié)果一致，則為條目的取舍提供更強的說服力;評價結(jié)果不同，則有助于我們從不同角度分析問題，找出原因所在，為條目的篩選提供更寬的視角。

2.量表再評價

量表簡化：IRT在量表編制中的一大特點為用最精簡的條目反映最大的信息量。一些基于CTT編制的量表，有必要在IRT下進行進一步的簡化，提高臨床和科研效率，減輕被試負擔，增強其臨床適用性[9-10]。量表結(jié)構(gòu)和條目質(zhì)量評價：為使量表整體和條目質(zhì)量達到最優(yōu)化，許多研究者將已有量表在IRT的基礎(chǔ)上對其維度結(jié)構(gòu)和條目質(zhì)量再次評價，使其更好地應(yīng)用于臨床實踐[11-13]。

3.計算機適應(yīng)性測驗(computerized adaptive testing,CAT)

CAT主要是根據(jù)受試者的答題反應(yīng)，利用計算機選出符合受試者程度值的題目讓其作答，因此只需要少數(shù)題目就能達到與傳統(tǒng)非適應(yīng)性測驗相當?shù)臏y量精準度[14]。CAT一般應(yīng)用于大型的人格或能力測驗，在健康相關(guān)量表中的應(yīng)用很少，在檢索到的國內(nèi)相關(guān)文獻中，僅有Yang等[15]在其研究中對急性壓力反應(yīng)量表臨床測評應(yīng)用了CAT，而國外近幾年將CAT應(yīng)用于健康相關(guān)量表評價的研究則較多[16-19]。

IRT近年來在量表編制和評價中的應(yīng)用逐漸受到重視，而臨床廣泛使用的量表評價工具都是在CTT的基礎(chǔ)上發(fā)展而來的，往往帶有CTT固有的局限性，所以有必要在現(xiàn)代測量理論的基礎(chǔ)上進行量表特性的再分析評價，使其更好地應(yīng)用于臨床實踐；量表簡化和CAT在科學的基礎(chǔ)上，保證測量精準度不變的情況下，大大提高臨床和科研效率，更加符合實踐應(yīng)用的要求。

IRT在應(yīng)用中需注意的問題

IRT是建立在復(fù)雜的數(shù)學模型基礎(chǔ)上的，其應(yīng)用條件相對嚴格，只有數(shù)據(jù)符合IRT的基本要求時，其優(yōu)越性才能體現(xiàn)出來，否則，IRT的參數(shù)估計就無實際參考意義。結(jié)合IRT在國內(nèi)健康相關(guān)量表中的應(yīng)用狀況分析，其主要問題為樣本量和假設(shè)檢驗。

1.模型擬合檢驗

選擇合適的模型是保證IRT數(shù)據(jù)分析結(jié)果準確性的前提。從檢索到的文獻來看，僅1篇(1.2%)從統(tǒng)計學角度評估模型適配程度，大多數(shù)模型的選擇是依據(jù)相關(guān)經(jīng)驗或文獻回顧，而缺少統(tǒng)計學的評價指標。除Rasch模型外，其他模型的擬合檢驗均是通過嵌套模型之間的對比間接評價的，常用的統(tǒng)計評價指標為對數(shù)似然函數(shù)值(-2 Log Likelihood)，其值越小，表明模型-數(shù)據(jù)擬合越好，目前IRTPRO、BIOLOG、MUITILOG、PARSCALE及Stata14.0等軟件均可進行這一參數(shù)估計。除此之外，還有S-G2、S-χ2等也可用于評價模型擬合的好壞[20]。除模型擬合檢驗外，往往還需要進行條目擬合檢驗，在條目水平上評估模型與實際資料是否相吻合,可用于篩選量表中的個別條目[8,21]。

2.假設(shè)檢驗

IRT建立在很強的假設(shè)基礎(chǔ)上，要滿足相應(yīng)的假設(shè)檢驗，得出的參數(shù)估計才有意義，否則，會出現(xiàn)很大的誤差。項目反應(yīng)理論的兩個重要的基本假設(shè)即單維性和局部獨立性。目前檢索到的文獻中，共30篇(34.0%)進行了單維性檢驗，而僅3篇(3.4%)文獻中進行了局部獨立性檢驗。

(1)單維性檢驗

單維性即所有量表條目反映的是同一潛在特質(zhì)。所有的IRT模型(除MIRT)均需要單維性檢驗，而大多數(shù)的研究中往往忽略這一點，一是因為部分研究者未意識到單維檢驗對數(shù)據(jù)分析的重要性，二是相關(guān)統(tǒng)計方法不明確。參考國內(nèi)外相關(guān)研究，單維性檢驗的方法有：特征根比值法[22-24]、主成分分析[25]、平行分析[26]和殘差分析[27]。其中特征根比值法最為常用。

(2)局部獨立性檢驗

局部獨立性即被試的潛在特質(zhì)是影響被試反應(yīng)的唯一因素，此假設(shè)是建立在單維性假設(shè)的基礎(chǔ)上的，只有單維性假設(shè)成立，該假設(shè)才有可能成立。

局部獨立性檢驗的方法有(1)殘差相關(guān)：驗證性因子分析的殘差相關(guān)來檢驗條目間獨立性，殘差相關(guān)絕對值≤0.3，表示局部獨立性假設(shè)成立[28]；(2)X2檢驗：Chen和Thissen建議局部獨立性χ2值≥10，表示假設(shè)成立[29]。此外還有G2檢驗、Q3檢驗等[30]。

局部獨立性檢驗是IRT應(yīng)用的一個前提，然而諸多學者建議，在認為能力是單維的情況下，局部獨立性和單維性假定是等價的，即數(shù)據(jù)只要滿足單維性檢驗，就一定符合局部獨立性[24,31-32]。因此，建議在實際應(yīng)用中，若數(shù)據(jù)很好地滿足單維的標準，則可以認為單維性和局部獨立性是等價的。

3.樣本量

IRT的不同模型對樣本量的需求尚無統(tǒng)一標準，模型越復(fù)雜，需要的樣本量越大。Linacre等[33]建議Rasch模型(1PL)參數(shù)估計時樣本量至少100例，而Wright等[34]則建議至少要達到200才能得出穩(wěn)定結(jié)果；Hulin等[35]建議雙參數(shù)模型(2PL)至少需要500被試，參數(shù)估計才具有準確性；對于三參數(shù)模型(3PL)，樣本量則至少要達到1000。而等級反應(yīng)模型(GRM)至少需要250例數(shù)據(jù)才能得出準確的參數(shù)估計[36]。

總的來說，樣本量越大，條目的參數(shù)估計越準確,得分的標準誤差越小[37]。本研究檢索到的86篇相關(guān)文獻中，樣本量范圍為133～7229例，其中20篇(23%)存在樣本量過小的問題，最小的樣本量僅133例(非Rasch模型)，這樣估計出來的參數(shù)顯然是不可靠的。在健康相關(guān)領(lǐng)域中，由于某些疾病本身特點的影響，使樣本量的可及性受到一定的限制，在模型和基本檢驗較好的情況下，樣本量可適當縮小，但不應(yīng)低于最低要求。

項目反應(yīng)理論的發(fā)展

IRT的參數(shù)估計依賴于一系列的假設(shè)基礎(chǔ)，而實際的數(shù)據(jù)往往難以滿足IRT的基本假設(shè)，給實踐應(yīng)用造成很大的不便，這就使得近年來在IRT基礎(chǔ)上發(fā)展的多維項目反應(yīng)理論(multidimensional item response theory,MIRT)和非參數(shù)項目反應(yīng)理論(nonparametric item response theory,NIRT)受到更多的關(guān)注。

1.多維項目反應(yīng)理論

對于不滿足單維性假設(shè)的數(shù)據(jù)，MIRT為其提供了替代方案。對于健康相關(guān)量表而言，測量的潛在特質(zhì)往往是多維的，且量表維度跨度較大，維度之間同質(zhì)性較差，所以較難滿足單維假設(shè)。目前，對于不滿足單維假定的數(shù)據(jù)有兩種處理方法：整體量表不滿足單維性，分每個維度進行單維性檢驗，若滿足，進行進一步分析[38-39]；應(yīng)用MIRT處理數(shù)據(jù)[15,40]。然而若將每個維度單獨進行檢驗和參數(shù)估計，則忽略了量表整體之間的相關(guān)性，測量結(jié)果也會受影響。所以在數(shù)據(jù)不滿足單維時，MIRT應(yīng)作為首選。

2.非參數(shù)項目反應(yīng)理論

NIRT不是通過一系列的參數(shù)估計來評價被試的潛在特質(zhì)水平，而是直接按被試在測試中所得的分數(shù)進行排序，從而得出被試特質(zhì)水平的高低[41]。由于其對基本假設(shè)和樣本量要求相對寬泛，國外已有諸多研究將NIRT應(yīng)用于健康相關(guān)量表的評價[9,11]。

展望

IRT因其在量表應(yīng)用中的顯著優(yōu)點，近年來相關(guān)研究日漸增多。在條目篩選中，IRT結(jié)合CTT將從不同角度為量表條目篩選提供更加全面的依據(jù)；量表再評價、簡化以及CAT將大大提高量表測量工具在臨床應(yīng)用和研究中的效率，以最簡潔、優(yōu)質(zhì)的條目準確地評估被試特征，在今后的相關(guān)研究中應(yīng)更多地引入IRT。同時，IRT建立在復(fù)雜的數(shù)學模型基礎(chǔ)上，依賴于較強的假設(shè)，對數(shù)據(jù)要求比較嚴格，所以國外研究近年來較為推崇MIRT和NIRT,而國內(nèi)在這方面的應(yīng)用則非常有限。本文對IRT在我國健康相關(guān)量表中的應(yīng)用現(xiàn)狀進行了分析總結(jié)，并對應(yīng)用中存在的問題及近年來國外研究中的應(yīng)用熱點進行了介紹，為今后IRT在我國量表編制和評價中更為廣泛的應(yīng)用提供參考。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡