国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

非參數(shù)高斯核平滑法估計能力值的精度

2015-07-06 00:36:38張軍
中國考試 2015年5期
關(guān)鍵詞:題量樣本數(shù)估計值

張軍

1 問題的提出

單維項目反應(yīng)理論在刻畫被試潛在能力與作答反應(yīng)間的關(guān)系時,根據(jù)理論模型是否含參數(shù),劃分為兩類:參數(shù)型項目反應(yīng)理論(Parametric Item Response Theory,PIRT)和非參數(shù)型項目反應(yīng)理論(Nonparametric Item Response Theory,NIRT)。前者不僅要求數(shù)據(jù)滿足單維性、單調(diào)性、局部獨立性三個假設(shè)外,還要求數(shù)據(jù)擬合邏輯斯蒂函數(shù)或正態(tài)密度函數(shù)等,模型包含1個或多個參數(shù),因此PIRT對數(shù)據(jù)的約束更多,對題目參數(shù)和被試能力參數(shù)的估計都需要較大樣本,方法更復(fù)雜;后者只要求數(shù)據(jù)滿足單維性、單調(diào)性、局部獨立性三個假設(shè),并不假設(shè)數(shù)據(jù)擬合某種特定函數(shù),模型不含參數(shù)。因此與PIRT相比,NIRT更靈活、更容易被理解和接受,更適于描寫人格測驗等小樣本數(shù)據(jù)[1][2][3]。

運用單維NIRT項目反應(yīng)理論估計被試潛在能力時,需要根據(jù)數(shù)據(jù)本身的特性,估計潛在能力與答對概率間的對應(yīng)關(guān)系,刻畫項目特征反應(yīng)曲線(ICC)。NIRT的ICC不具備某種特殊形態(tài),如PIRT中ICC的“S”形等。Ramsay[4]提出用非參數(shù)高斯核平滑法平滑估計ICC,模擬研究表明這種方法估計時間快速,速度是LOGIST和BILOG兩款軟件的500~1000倍;而且能充分利用數(shù)據(jù)本身的特點,有效地估計被試能力并刻畫ICC[5]。目前,這種方法的介紹與運用在國內(nèi)尚屬少見,而且此方法在題目數(shù)(題量)、被試樣本數(shù)等不同測驗條件下的適用性尚未進行過具體考察。

2 非參數(shù)高斯核平滑估計法

假設(shè)有N個被試,J個題目,題目有M個選項。被試的潛在能力值為θa,a=1,…,N。yjma為被試a選擇題目j中選項m的指示變量,當被試a選擇題目j中的選項m時,yjma取值為1,反之為0。被試a選擇題目 j中選項m的概率是Pjm(θa),在非參數(shù)高斯核平滑估計法中,通過平滑處理被試潛在能力θa與題目作答反應(yīng)的關(guān)系進行估計。在高斯核平滑估計前,應(yīng)進行如下步驟:

1.排序。被試按某統(tǒng)計量取值由小到大排序,統(tǒng)計量通常采用被試總分;

2.賦值。按標準正態(tài)分布規(guī)律,計算被試的百分位數(shù),并將其百分位數(shù)作為被試潛在能力值θa的值,a=1,…,N。

3.整理。按θa取值大小給全體被試的作答反應(yīng)形式進行整理排序,如第a個被試的反應(yīng)形式為(xa1,xa2,…,xaj)。

對自變量θa與因變量Pjm(θa)進行平滑處理,就是根據(jù)二者之間的對應(yīng)關(guān)系,構(gòu)擬出一條平滑曲線。被試潛在能力值一般從-3到3,在這一區(qū)間取若干個值θq作為估計點,比如以0.1為步長,取-3,-2.9,-2.8,……,2.9,3這61個值為估計點。 θa可能與θq重合,也可能不同。通過公式(1)估計每個估計點θq的Pjm(θq),構(gòu)擬出一條平滑曲線。

平滑估計的關(guān)鍵原則是局部平均(local averaging),Pjm(θq)是以 θq為中心,以h為寬度的某一范圍中所有θa所對應(yīng)的yjma的加權(quán)平均數(shù)。在理論上,θa越接近 θq,θa所對應(yīng)的 yjma與 Pjm(θq)關(guān)系越密切,權(quán)重waq越大,反之權(quán)重越小。計算權(quán)重時,使用高斯核函數(shù)K(u ) =e(-u2/2),其中 u=(θa-θq)/h 。因此,

設(shè)定寬度h時,不宜過寬或過窄,過寬導(dǎo)致范圍內(nèi)θq過多,直接影響精度;過窄導(dǎo)致范圍內(nèi)θq過少,以致誤差過大。一般設(shè)定h=1.1N-0.2。

3 實驗研究

為檢測非參數(shù)高斯核平滑法在不同題量、不同樣本數(shù)條件下,估計被試能力值的精確性設(shè)計本實驗。

3.1 目的

實驗希望解決三個問題:(1)非參數(shù)高斯核平滑法是否適用于估計小樣本被試的能力值;(2)題量和樣本數(shù)兩個因素對這種方法的估計精度是否存在顯著影響;(3)如果題量、樣本數(shù)對這種方法有顯著影響,那么兩者應(yīng)滿足何種條件才能保證或達到相應(yīng)的估計精度。

3.2 設(shè)計

由于真實的測驗數(shù)據(jù)難以嚴格滿足實驗控制要求,實驗使用軟件WinGen3[6],采用蒙特卡羅方法模擬若干套擬合雙參數(shù)邏輯斯蒂克模型的二分(0/1)項目反應(yīng)數(shù)據(jù),然后使用Testgraf98[7],運用非參數(shù)高斯核平滑法估計被試能力值,估計程序中設(shè)定了61個估計點,h=1.1N-0.2。最后,實驗比較分析模擬被試的能力值與估計值之間的一致性與偏差。

本實驗為6×7設(shè)計,含題量和樣本數(shù)兩個因素,題量因素分6個水平,每個水平分別含20、50、100、150、200、250個題;樣本數(shù)分7個水平,每個水平分別含200、500、1000、2000、3000、4000、5000個被試。潛在能力一般服從正態(tài)分布,實驗?zāi)M了7個被試群體,均為單維能力,分布為Θ(均值=0,標準差=1)。在項目反應(yīng)理論中,難度參數(shù)與能力參數(shù)處于同一量綱中,所以實驗?zāi)M了6種題量的難度分度都是B(0,1),區(qū)分度處于0到2之間,服從均勻分布。實驗共模擬42套數(shù)據(jù),具體見表1。

3.3 結(jié)果與分析

被試群體的模擬能力值是判定非參數(shù)高斯核平滑法估計精度的唯一標準。判定的指標有兩個:(1)模擬能力值與估計值兩組數(shù)據(jù)的皮爾遜相關(guān)系數(shù),系數(shù)越大,兩者的一致性越強;(2)兩組數(shù)據(jù)之差的絕對值的平均數(shù)B平均,公式為B平均越大說明兩組數(shù)據(jù)間的總體偏差越大。42組數(shù)據(jù)的相關(guān)系數(shù)及B平均,分別見表2、表3。

表2、表3數(shù)據(jù)表明:在某種樣本數(shù)條件下,隨著題量的增加,模擬能力值與估計值的相關(guān)逐漸增大,如第2行從左至右,相關(guān)系數(shù)從0.86增至0.99;而且模擬能力值與估計值之間的偏差越來越小,如第2行從左至右,B平均從0.38縮減至0.12。因此,使用非參數(shù)高斯核平滑法估計被試能力值,題量越大,估計的精度越高。當試卷含50個題以上時,可保證能力估計值與模擬值一致程度在0.9以上,平均偏差在0.29以下。如果希望達到一個更良好的精度,如相關(guān)系數(shù)0.95以上,那么試卷至少應(yīng)含100個題。

表1 實驗設(shè)計表

表2 能力估計值與實際值的皮爾遜系數(shù)

表3 B平均值

另外,在某種題量條件下,樣本數(shù)的增加對模擬能力值與估計值的相關(guān)程度、B平均大小似乎無明顯改善趨勢,如表2和表3的第1列。為進一步考察樣本數(shù)和題量兩個因素對兩組數(shù)據(jù)間的B平均的影響,實驗以表3中的B平均值為因變量,以樣本數(shù)和題量兩個因素為自變量,分別做單因素方差分析,見表4、表5。

樣本數(shù)因素有7個水平,各水平間的F值為.055,P=.999,組間差異不顯著,被試樣本數(shù)的增加,并未顯著改善非參數(shù)高斯核平滑法對能力值得估計精度。換言之,被試樣本數(shù)對估計精度沒有影響。由此可知,非參數(shù)高斯平滑法不僅適用于估計大樣本被試,同樣也適用于小樣本被試。

題量因素有6個水平,6個水平間的F值為240.478,組間差異在.01水平下顯著,這說明題量的大小對估計精度有顯著影響。經(jīng)方差齊次性檢驗,Levene 統(tǒng)計量為3.905,P=.006>.5,方差不齊,因此使用Tamhane法對題量不同水平間進行多重比較。表6中第1列中1~6依次代表20題、50題、100題、150題、200題和250題6個水平。

從表6可知,題量為100和150時(水平3和水平4),兩種條件下的模擬能力值與估計值的B平均無顯著差別,即估計精度無顯著改善;題量為200和250時(水平5和水平6)同理。除此之外,其他水平間偏差大小有顯著差異,對估計精度有顯著改善。

4 結(jié)論

(1)在某種樣本數(shù)條件下,隨著題量的增加,模擬能力值與估計值的相關(guān)系數(shù)逐漸加大,一致性越來越強;而且估計的偏差越來越小,精度越高。

(2)被試樣本數(shù)因素的7個水平的B平均的組間差異在統(tǒng)計上不顯著,樣本數(shù)的多寡對估計精度沒有影響,非參數(shù)和平滑法不僅適用于估計大樣本被試,同樣也適用于小樣本被試。

(3)題量因素的6個水平的B平均的組間差異在統(tǒng)計上顯著,題量的增加能較好改善非參數(shù)高斯核平滑法對被試潛在能力值的估計精度。

(4)當試卷含50個題以上時,可保證能力估計值與實際值一致程度在0.9以上,平均偏差在0.29以下。如果希望達到一個良好的精度,如相關(guān)系數(shù)0.95以上,那么試卷至少應(yīng)含100個題。

(5)題量為100題和150題、200題和250題時,這兩對水平間的估計總體偏差無顯著差異。因此,當試卷從100題增加至150題時,或者從200題增加到250題時,總體偏差并未縮小,對估計精度沒有顯著改善。在測驗實際中,如果只從估計精度考慮,沒有必要把題量從100題增加至150題,或從200題增加到250題。

表4 樣本數(shù)單因素方差分析

表5 題量單因素方差分析

表6 題量因素6個水平間多重比較

[1] Junker,B.W.&Sijtsma,K.,Nonparametric item response theory in action:An overview of the special issue[J].Applied Psychological Measurement,2001.

[2] Meijer,R.R.,&Sijtsma,K.,Methodology review:Evaluating person fit[J].Applied Psychological Measurement,2001.

[3] 張軍.非參數(shù)項目反應(yīng)理論在小規(guī)模測驗中的運用[J].考試研究,2014(1).

[4] Ramsay,J.O.,Kernel smoothing approaches to nonparametric item characteristic curve estimation[J].Psychometrika,1991(56):611-630.

[5] Ramsay,J.O.TestGraf:A Program for the Graphical Analysis of Multiple Choice Test and Questionnaire Data[EB/OL].http://www.psych.mcgill.ca/faculty/ramsay/TestGraf.html,2000.

[6] Han,K.T.&Hambleton,R.K.,“Windows Software that Generates IRT Model Parameters and Item Responses”WinGen3[EB/OL].http://www.umass.edu,2007.

[7] J.O.Ramsay,TestGraf[M].McGill University,2000.

猜你喜歡
題量樣本數(shù)估計值
勘 誤 聲 明
體育單招考試數(shù)學(xué)試卷命題特點分析與展望
體育時空(2021年10期)2021-09-17 01:49:59
一道樣本的數(shù)字特征與頻率分布直方圖的交匯問題
統(tǒng)計信息
2018年4月世界粗鋼產(chǎn)量表(續(xù))萬噸
思想政治課練習(xí)的布置及講評
考試周刊(2017年79期)2018-02-03 14:15:18
提高化學(xué)習(xí)題課教學(xué)有效性的“五招”
三時間間隔圓錐補償姿態(tài)更新算法性能分析
田間鑒定雜交棉品種純度的適宜時期和樣本數(shù)
2014年5月世界粗鋼產(chǎn)量表萬噸
金门县| 屯昌县| 华池县| 聂荣县| 太康县| 砀山县| 巨鹿县| 墨竹工卡县| 民勤县| 潢川县| 沙田区| 应城市| 仁怀市| 逊克县| 桑植县| 凤冈县| 广元市| 五指山市| 措美县| 新疆| 华池县| 辛集市| 沙湾县| 平利县| 虞城县| 调兵山市| 镇沅| 绵竹市| 平和县| 临潭县| 松阳县| 大城县| 汤阴县| 澄城县| 建昌县| 宜章县| 敖汉旗| 东宁县| 耿马| 昌图县| 崇礼县|