国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于Rasch模型的參數(shù)估計(jì)方法比較研究

2017-12-13 05:49:15王佶旻李瀟
中國(guó)考試 2017年9期
關(guān)鍵詞:初值參數(shù)估計(jì)邊際

王佶旻 李瀟

(1.北京語(yǔ)言大學(xué),北京 100083;2.北京師范大學(xué),北京 100875)

基于Rasch模型的參數(shù)估計(jì)方法比較研究

王佶旻1李瀟2

(1.北京語(yǔ)言大學(xué),北京 100083;2.北京師范大學(xué),北京 100875)

本研究的目的是基于Rasch模型,比較聯(lián)合極大似然估計(jì)法、邊際極大似然估計(jì)法和EM算法、邊際貝葉斯估計(jì)法參數(shù)估計(jì)結(jié)果的準(zhǔn)確程度。實(shí)驗(yàn)數(shù)據(jù)為2 185名被試在HSK試卷170道試題中的作答矩陣,考慮到初值和收斂精度對(duì)參數(shù)估計(jì)結(jié)果的影響,將三種參數(shù)估計(jì)方法按照初值設(shè)置和收斂精度不同分別進(jìn)行參數(shù)估計(jì),然后通過(guò)計(jì)算項(xiàng)目參數(shù)估計(jì)標(biāo)準(zhǔn)誤判斷參數(shù)估計(jì)方法的準(zhǔn)確度。

項(xiàng)目反應(yīng)理論;參數(shù)估計(jì);聯(lián)合極大似然估計(jì)法;邊際極大似然估計(jì)法和EM算法;邊際貝葉斯估計(jì)法

1 引言

1952年,美國(guó)測(cè)量學(xué)家Frederic M.Lord在自己的博士論文中將能力與答對(duì)率之間的函數(shù)關(guān)系用雙參數(shù)正態(tài)拱形曲線模型(Two-parameter Normal Ogive Model)描述出來(lái),并基于這一模型建立了一套項(xiàng)目反應(yīng)理論(Item Response Theory,簡(jiǎn)稱為IRT),同時(shí)提出了相應(yīng)的參數(shù)估計(jì)方法[1]。

至今,項(xiàng)目反應(yīng)理論模型在不斷發(fā)展演變,參數(shù)估計(jì)方法也是層出不窮。目前應(yīng)用最廣泛的參數(shù)估計(jì)方法有聯(lián)合極大似然估計(jì)法、邊際極大似然估計(jì)法和EM算法以及邊際貝葉斯估計(jì)法。從算法的角度分析,Mislevy R.J和Stocking M.L認(rèn)為貝葉斯估計(jì)法更為精確;Baker和Kim也認(rèn)為由于邊際貝葉斯估計(jì)法利用了更多參數(shù)的先驗(yàn)信息,因此估計(jì)結(jié)果會(huì)更加穩(wěn)定和精確[2]。

目前運(yùn)用實(shí)證數(shù)據(jù)對(duì)這三種參數(shù)估計(jì)方法進(jìn)行比較的研究并不多,基本都采用現(xiàn)成的商業(yè)軟件來(lái)估計(jì)模擬作答矩陣的各項(xiàng)參數(shù),再進(jìn)行方法的比較。缺點(diǎn)顯而易見(jiàn),首先,蒙特卡洛模擬數(shù)據(jù)概率分布過(guò)于規(guī)則化,無(wú)法代表真實(shí)的作答反應(yīng);其次,進(jìn)行參數(shù)估計(jì)的各種商業(yè)軟件的功能以及默認(rèn)的參數(shù)設(shè)置并不統(tǒng)一,這將給實(shí)驗(yàn)結(jié)果帶來(lái)不可避免的系統(tǒng)誤差。

有鑒于此,本文采用漢語(yǔ)水平考試(HSK)[初、中等]真實(shí)考生數(shù)據(jù)作為實(shí)驗(yàn)材料,運(yùn)用VFP6.0[3]自行編制的程序進(jìn)行參數(shù)估計(jì)。這樣可以將三種方法的初值、迭代次數(shù)和精度,先驗(yàn)信息的分布參數(shù)都控制好,以保證參數(shù)估計(jì)方法的可比性。為了降低編程難度,本研究選擇最簡(jiǎn)單的Rasch模型進(jìn)行參數(shù)估計(jì)。Rasch模型如下:

P表示能力為θ的被試答對(duì)難度為b的題目的概率[4]。

2 參數(shù)估計(jì)方法

2.1 聯(lián)合極大似然估計(jì)法

Birnbaum在1968年提出聯(lián)合極大似然估計(jì)法的概念。

假設(shè)被試作答模式相互獨(dú)立,同一被試對(duì)各個(gè)項(xiàng)目的作答相互獨(dú)立,Uaj表示a個(gè)被試在第j個(gè)項(xiàng)目上的反應(yīng)。似然函數(shù)如公式①所示,對(duì)數(shù)似然函數(shù)如公式②所示。

其中Paj為被試a在第j個(gè)項(xiàng)目上的答對(duì)概率;Qaj=1-Paj。

接下來(lái)對(duì)θ參數(shù)(或b參數(shù))設(shè)置初始值,求取使似然函數(shù)最大化的b參數(shù),再代入b參數(shù),求取新的θ參數(shù),循環(huán)往復(fù),直到似然函數(shù)最大值收斂。

聯(lián)合極大似然估計(jì)法幫助項(xiàng)目反應(yīng)理論完成了從理論向?qū)嵺`的飛躍,但是,仍然暴露了很多問(wèn)題。首先,如果一個(gè)被試答對(duì)或者答錯(cuò)了全部題目,那么被試的能力就無(wú)法被估計(jì);其次,當(dāng)被試的能力所對(duì)應(yīng)的項(xiàng)目難度出現(xiàn)斷層時(shí),似然函數(shù)在極值點(diǎn)附近就會(huì)顯得比較平坦,從而造成迭代無(wú)法收斂于定值,當(dāng)然對(duì)于題目的難度估計(jì)也是如此;再次,難以確定合理的初值;最后,能力參數(shù)的個(gè)數(shù)依賴于樣本量的變化,但是項(xiàng)目參數(shù)永遠(yuǎn)固定,隨著樣本量的增加無(wú)法保證項(xiàng)目參數(shù)估計(jì)的恒定性[5]。

2.2 邊際極大似然估計(jì)法和EM算法

邊際極大似然估計(jì)與聯(lián)合極大似然估計(jì)最大的不同點(diǎn)在于,前者假設(shè)已知被試的能力先驗(yàn)分布,將被試看成從這一能力總體中抽取的樣本,然后根據(jù)貝葉斯定理,將似然函數(shù)中的能力參數(shù)通過(guò)積分去掉,得到僅含有項(xiàng)目參數(shù)的邊際似然函數(shù),然后再用邊際似然函數(shù)導(dǎo)出項(xiàng)目參數(shù)的邊際似然估計(jì)。

由于邊際似然估計(jì)法的計(jì)算量過(guò)大,需要通過(guò)EM算法來(lái)真正得以實(shí)現(xiàn)。EM算法實(shí)際上也是極大似然估計(jì)法中求參數(shù)的一種迭代方法。它分為兩個(gè)步驟,分別是期望步驟E步和最大化步驟M步。我們將EM算法應(yīng)用在項(xiàng)目反應(yīng)理論中,那么就是未觀察數(shù)據(jù),反應(yīng)矩陣U為可觀察數(shù)據(jù)。為的聯(lián)合概率密度函數(shù),其中ζ為項(xiàng)目參數(shù)。我們先給項(xiàng)目參數(shù)ζ設(shè)定一個(gè)初值,代入這個(gè)值計(jì)算出似然函數(shù)條件分布的期望值,這樣就使得大量含有未知參數(shù)的表達(dá)式變成了期望常數(shù)。通過(guò)最大化步驟M步得到第一次估出的項(xiàng)目參數(shù)后,把參數(shù)再代入期望步驟E步,調(diào)整期望值,繼續(xù)修正項(xiàng)目參數(shù),直到參數(shù)收斂為止。采用這種算法,大大簡(jiǎn)化了邊際極大似然估計(jì)的計(jì)算,同時(shí)消除了能力參數(shù)的影響。

邊際極大似然估計(jì)法和EM算法仍然存在很多不足。首先,這種方法仍然無(wú)法估計(jì)特殊的反應(yīng)模式;其次,在迭代求項(xiàng)目參數(shù)時(shí),有些特定數(shù)據(jù)會(huì)使得區(qū)分度被估計(jì)得過(guò)大,而接近于零的區(qū)分度又會(huì)導(dǎo)致難度的絕對(duì)值增大;再次,EM算法的迭代速度很慢,而且是想要的結(jié)果越精確,迭代的速率就越慢。

2.3 邊際貝葉斯估計(jì)

如前所述,在邊際極大似然估計(jì)法中,得滿分或得零分的被試都無(wú)法估計(jì)其能力,而所有被試都答對(duì)或答錯(cuò)的題目也無(wú)法估計(jì)其難度。邊際貝葉斯估計(jì)法則解決了這個(gè)難題。

貝葉斯參數(shù)估計(jì)法其實(shí)是對(duì)邊際極大似然估計(jì)法的延伸,因此也被稱為邊際貝葉斯參數(shù)估計(jì)法。它與后者的最顯著區(qū)別是后者不僅要給出被試的能力先驗(yàn)分布,同時(shí)還要給出所有待估參數(shù)的先驗(yàn)分布。

由貝葉斯定理可知:

其中g(shù)(θ|τ)為能力參數(shù)的先驗(yàn)分布;為項(xiàng)目參數(shù)的先驗(yàn)分布;為基于U的似然函數(shù)。

邊際貝葉斯估計(jì)法的參數(shù)估計(jì)步驟與邊際極大似然估計(jì)法基本是一樣的,只是在似然函數(shù)中加入了項(xiàng)目參數(shù)和能力參數(shù)的先驗(yàn)信息,將參數(shù)值自動(dòng)限制在可接受的范圍內(nèi)。因此,即使測(cè)試中出現(xiàn)一個(gè)被試在所有項(xiàng)目全部正確作答或錯(cuò)誤作答的情況,也不會(huì)被無(wú)限估計(jì)。

3 實(shí)驗(yàn)

3.1 算法評(píng)價(jià)標(biāo)準(zhǔn)

我們?cè)O(shè)計(jì)了三個(gè)參數(shù)估計(jì)實(shí)驗(yàn),每個(gè)實(shí)驗(yàn)使用一種參數(shù)估計(jì)方法得到能力參數(shù)和難度參數(shù),再通過(guò)計(jì)算項(xiàng)目參數(shù)估計(jì)標(biāo)準(zhǔn)誤作為評(píng)價(jià)參數(shù)估計(jì)精確度的指標(biāo)。標(biāo)準(zhǔn)誤越小,表示估計(jì)越精確。項(xiàng)目參數(shù)估計(jì)標(biāo)準(zhǔn)誤[6]是由Lord提出的,是從測(cè)驗(yàn)信息函數(shù)演變而來(lái)的衡量參數(shù)估計(jì)精確度的指標(biāo)[7-8]。

bi的項(xiàng)目參數(shù)估計(jì)標(biāo)準(zhǔn)誤表示為:

其中,

在Rasch模型中,a=1,c=0。

需要說(shuō)明的是,求標(biāo)準(zhǔn)誤的前提條件是我們假定能力參數(shù)為真值且已知。因此,在實(shí)際應(yīng)用的過(guò)程中,由于能力參數(shù)也是被估計(jì)出來(lái)的,會(huì)導(dǎo)致項(xiàng)目參數(shù)的標(biāo)準(zhǔn)誤被低估。但是只要樣本量足夠大(>2 000人),被低估的現(xiàn)象就可以被忽略[7]。

3.2 篩選被試

由于參加HSK[初、中等]考試的31 648名考生原始總分呈明顯的負(fù)偏態(tài)分布(如圖1所示),為了滿足極大似然估計(jì)法的要求,盡量保證每道題目的難度和每個(gè)被試的能力能夠相互匹配,我們?cè)趯?shí)驗(yàn)之前對(duì)全部考生數(shù)據(jù)進(jìn)行了分層抽樣和極端值剔除。

圖1全體被試的原始總分分布

第一步:分層抽取被試樣本

在剔除極端值被試樣本(分?jǐn)?shù)為0分和170分)之后,根據(jù)正態(tài)分布表每段分?jǐn)?shù)所占全部分?jǐn)?shù)的百分比進(jìn)行抽樣,得到基本符合正態(tài)分布的2 301人被試樣本,如圖2所示。

圖2抽樣被試原始總分分布

第二步:為避免能力異常值出現(xiàn),剔除答對(duì)率在猜測(cè)概率(25%)以下的被試(共116人),得到最終參加實(shí)驗(yàn)的被試人數(shù)為2 185人。

3.3 初值和收斂精度

本實(shí)驗(yàn)分別對(duì)相同樣本采取兩種初值計(jì)算方法:第一種方法是Lord提出的初值設(shè)定方法,我們簡(jiǎn)稱Z分?jǐn)?shù)法。能力初值為被試原始分?jǐn)?shù)的標(biāo)準(zhǔn)分?jǐn)?shù)Zj,難度初值為Zi/rbi(Zi為每道題答對(duì)率的標(biāo)準(zhǔn)分?jǐn)?shù),rbi為每道題的雙列相關(guān)值);第二種方法首先根據(jù)漆書(shū)清和戴海琦提出的能力初值計(jì)算方法得到能力初值[7],我們簡(jiǎn)稱對(duì)數(shù)法:

其中,Xj為被試j在測(cè)試中答對(duì)題數(shù)的個(gè)數(shù),n為題目總數(shù)。

接下來(lái),設(shè)定難度初值為:

經(jīng)過(guò)參數(shù)預(yù)估后發(fā)現(xiàn),難度初值設(shè)為Zi/rbi時(shí),三個(gè)實(shí)驗(yàn)均出現(xiàn)了參數(shù)無(wú)法收斂的現(xiàn)象。我們只好對(duì)Z分?jǐn)?shù)法中的難度初值作出調(diào)整,也采用對(duì)數(shù)法進(jìn)行計(jì)算。因此,本實(shí)驗(yàn)中“Z分?jǐn)?shù)法”和“對(duì)數(shù)法”的初值計(jì)算差異僅體現(xiàn)在能力上。

本實(shí)驗(yàn)設(shè)置兩個(gè)收斂精度分別是0.01和0.001。

3.4 實(shí)驗(yàn)一

3.4.1 實(shí)驗(yàn)設(shè)計(jì)

實(shí)驗(yàn)一對(duì)Rasch模型進(jìn)行聯(lián)合極大似然估計(jì),根據(jù)初值和收斂精度的不同,設(shè)計(jì)了四個(gè)子實(shí)驗(yàn),如表1所示。

表1子實(shí)驗(yàn)分類

表2各子實(shí)驗(yàn)的迭代次數(shù)和項(xiàng)目參數(shù)估計(jì)標(biāo)準(zhǔn)誤

3.4.2 結(jié)果分析

我們對(duì)四個(gè)子實(shí)驗(yàn)基本收斂(收斂率在95%以上)所需要的迭代次數(shù)以及在達(dá)到最大收斂率時(shí)各個(gè)子實(shí)驗(yàn)的全卷項(xiàng)目參數(shù)估計(jì)標(biāo)準(zhǔn)誤進(jìn)行了統(tǒng)計(jì),具體數(shù)值如表2所示。

由表2可以看出,以Z分?jǐn)?shù)法作為初值的聯(lián)合A、B子實(shí)驗(yàn)收斂效率均較高,都是10次迭代后收斂率就達(dá)到了95%以上。其次是聯(lián)合D子實(shí)驗(yàn),迭代次數(shù)為11次。收斂效率最低的是利用對(duì)數(shù)法計(jì)算初值且收斂精度為0.001進(jìn)行參數(shù)估計(jì)的聯(lián)合C子實(shí)驗(yàn)。而四個(gè)實(shí)驗(yàn)的項(xiàng)目參數(shù)估計(jì)標(biāo)準(zhǔn)誤最低的是聯(lián)合A子實(shí)驗(yàn),數(shù)值為12.518,最高的是聯(lián)合C子實(shí)驗(yàn),數(shù)值為13.322。

接下來(lái),我們就初值、收斂精度對(duì)收斂率和項(xiàng)目參數(shù)估計(jì)標(biāo)準(zhǔn)誤的影響做進(jìn)一步的分析。

(1)初值和收斂精度對(duì)收斂率的影響

從圖3我們可以看出,四個(gè)子實(shí)驗(yàn)由于初值不同,收斂精度不同,收斂率與迭代次數(shù)相對(duì)應(yīng)的變化趨勢(shì)還是有一些差別的:聯(lián)合D子實(shí)驗(yàn)由于精度設(shè)置較低,收斂效率明顯高于聯(lián)合C子實(shí)驗(yàn)。相對(duì)而言,聯(lián)合A、B子實(shí)驗(yàn)并沒(méi)有在收斂效率上呈現(xiàn)太大的差異(不明原因?qū)е侣?lián)合A子實(shí)驗(yàn)在第12次迭代時(shí)收斂率極低,我們認(rèn)為屬于偶然現(xiàn)象),它們的收斂趨勢(shì)也是比較相近的。

就收斂的效果而言,聯(lián)合D子實(shí)驗(yàn)和聯(lián)合A子實(shí)驗(yàn)都是比較理想的。不僅從第五次迭代開(kāi)始就有較高的收斂率,收斂率的最大值也分別達(dá)到了100%和99.41%的高水平。

從實(shí)驗(yàn)結(jié)果來(lái)看:收斂精度對(duì)聯(lián)合極大似然估計(jì)法的收斂效率產(chǎn)生影響,收斂精度越高,收斂效率越低,反之亦然。而初值則對(duì)參數(shù)估計(jì)收斂率的變化趨勢(shì)和收斂效率均有較大影響(對(duì)參數(shù)是否收斂也起到重大作用,如難度初值設(shè)為Zi/rbi時(shí),迭代根本無(wú)法收斂)??傮w來(lái)說(shuō),利用Z分?jǐn)?shù)法設(shè)定能力初值相比于利用對(duì)數(shù)法計(jì)算能力初值收斂效率更高,迭代效果更好一些。

表3各實(shí)驗(yàn)在不同迭代次數(shù)下的收斂比率

圖3各子實(shí)驗(yàn)的收斂概率變化趨勢(shì)

(2)項(xiàng)目參數(shù)估計(jì)標(biāo)準(zhǔn)誤

我們將四個(gè)子實(shí)驗(yàn)的參數(shù)估計(jì)結(jié)果利用自編的VFP程序進(jìn)行了項(xiàng)目參數(shù)估計(jì)標(biāo)準(zhǔn)誤的計(jì)算。根據(jù)收斂率和迭代次數(shù)的關(guān)系,我們分別取迭代次數(shù)為10、迭代次數(shù)為15,以及四個(gè)實(shí)驗(yàn)各自收斂率達(dá)到最大的迭代次數(shù)所對(duì)應(yīng)的參數(shù)估計(jì)結(jié)果計(jì)算了項(xiàng)目參數(shù)估計(jì)標(biāo)準(zhǔn)誤。

由表4可以看出,在迭代10次之后,項(xiàng)目參數(shù)估計(jì)標(biāo)準(zhǔn)誤最低的是聯(lián)合B子實(shí)驗(yàn),數(shù)值為12.722。標(biāo)準(zhǔn)誤最高的是聯(lián)合C子實(shí)驗(yàn),數(shù)值為14.099。聯(lián)合A、D子實(shí)驗(yàn)的標(biāo)準(zhǔn)誤基本相同,分別是13.018和12.976。結(jié)合標(biāo)準(zhǔn)差來(lái)看,聯(lián)合C子實(shí)驗(yàn)的標(biāo)準(zhǔn)差最高,為0.065,聯(lián)合D子實(shí)驗(yàn)的標(biāo)準(zhǔn)差最低,為0.047。由此來(lái)看,聯(lián)合C子實(shí)驗(yàn)所估計(jì)的參數(shù)值無(wú)論是從準(zhǔn)確性還是穩(wěn)定性來(lái)看都是四個(gè)子實(shí)驗(yàn)中最差的。而聯(lián)合B子實(shí)驗(yàn)參數(shù)估計(jì)的準(zhǔn)確性最高,但穩(wěn)定性稍差。其次是聯(lián)合D子實(shí)驗(yàn)的結(jié)果,雖然準(zhǔn)確性不如聯(lián)合B子實(shí)驗(yàn),但是標(biāo)準(zhǔn)差最低,說(shuō)明參數(shù)估計(jì)準(zhǔn)確度的穩(wěn)定性相對(duì)高一些。

如表5所示,我們更換成迭代15次的數(shù)據(jù)后,各個(gè)實(shí)驗(yàn)的項(xiàng)目參數(shù)估計(jì)標(biāo)準(zhǔn)誤與參數(shù)估計(jì)標(biāo)準(zhǔn)差出現(xiàn)了變化??傮w來(lái)說(shuō),在換成迭代15次的數(shù)據(jù)之后,聯(lián)合A子實(shí)驗(yàn)無(wú)論是在參數(shù)估計(jì)的準(zhǔn)確度還是穩(wěn)定性來(lái)看都是最好的,相比而言聯(lián)合B、C子實(shí)驗(yàn)的結(jié)果則不太理想。

表4迭代10次后計(jì)算項(xiàng)目參數(shù)估計(jì)標(biāo)準(zhǔn)誤的統(tǒng)計(jì)量數(shù)據(jù)

表5迭代15次后計(jì)算項(xiàng)目參數(shù)估計(jì)標(biāo)準(zhǔn)誤的統(tǒng)計(jì)量數(shù)據(jù)

表6取最大收斂率的迭代次數(shù)計(jì)算項(xiàng)目參數(shù)估計(jì)標(biāo)準(zhǔn)誤的統(tǒng)計(jì)量數(shù)據(jù)

最后,我們分別選擇各個(gè)子實(shí)驗(yàn)中收斂率最大的迭代次數(shù)中的參數(shù)值計(jì)算項(xiàng)目參數(shù)估計(jì)標(biāo)準(zhǔn)誤。得到的數(shù)據(jù)如表6所示。我們發(fā)現(xiàn),與“迭代10次”和“迭代15次”的數(shù)據(jù)相比,四個(gè)子實(shí)驗(yàn)的項(xiàng)目參數(shù)估計(jì)標(biāo)準(zhǔn)誤以及標(biāo)準(zhǔn)誤的標(biāo)準(zhǔn)差均有所下降。相比而言,聯(lián)合C子實(shí)驗(yàn)的標(biāo)準(zhǔn)誤是全部實(shí)驗(yàn)中最高的,達(dá)到了13.322。

我們將各個(gè)實(shí)驗(yàn)的項(xiàng)目參數(shù)估計(jì)標(biāo)準(zhǔn)誤以及收斂率的變化趨勢(shì)繪成圖表如圖4和圖5所示。

我們從圖4中可以看出,利用對(duì)數(shù)法計(jì)算初值,且精度設(shè)為0.001(高精度)的聯(lián)合C子實(shí)驗(yàn)基本都處于高標(biāo)準(zhǔn)誤的水平;利用Z分?jǐn)?shù)法計(jì)算初值,且精度設(shè)為0.001(高精度)的聯(lián)合A子實(shí)驗(yàn)以及利用對(duì)數(shù)法計(jì)算初值且精度設(shè)為0.01(低精度)的聯(lián)合D子實(shí)驗(yàn)的項(xiàng)目參數(shù)標(biāo)準(zhǔn)誤走勢(shì)很相似且都處于數(shù)值較低的水平;而利用Z分?jǐn)?shù)法計(jì)算初值,且精度設(shè)為0.01(低精度)的聯(lián)合B子實(shí)驗(yàn)在收斂率的影響下標(biāo)準(zhǔn)誤的數(shù)值波動(dòng)較大。

我們比較圖4和圖5不難發(fā)現(xiàn),收斂率和項(xiàng)目參數(shù)估計(jì)標(biāo)準(zhǔn)誤的變化趨勢(shì)基本呈水平對(duì)稱。也就是說(shuō),收斂率會(huì)直接影響項(xiàng)目參數(shù)估計(jì)標(biāo)準(zhǔn)誤,且收斂率越高,項(xiàng)目參數(shù)估計(jì)標(biāo)準(zhǔn)誤越低。

圖4各個(gè)子實(shí)驗(yàn)的項(xiàng)目參數(shù)估計(jì)標(biāo)準(zhǔn)誤變化趨勢(shì)

圖5各個(gè)子實(shí)驗(yàn)的收斂率變化趨勢(shì)

3.5 實(shí)驗(yàn)二

3.5.1 實(shí)驗(yàn)設(shè)計(jì)

本實(shí)驗(yàn)對(duì)Rasch模型利用邊際極大似然估計(jì)法和EM算法進(jìn)行參數(shù)估計(jì)。與實(shí)驗(yàn)一不同的是,邊際極大似然估計(jì)法和EM算法只需要求取難度參數(shù)初值。由于“Z分?jǐn)?shù)法”和“對(duì)數(shù)法”求難度初值的過(guò)程是相同的。因此本實(shí)驗(yàn)只根據(jù)收斂精度的差異設(shè)計(jì)了2個(gè)子實(shí)驗(yàn),如表7所示。

表7子實(shí)驗(yàn)分類

實(shí)驗(yàn)過(guò)程中,我們運(yùn)用BILOG軟件估計(jì)全體被試能力值,以及全體被試能力的求積節(jié)點(diǎn)和權(quán)重。

從理論上講,被試能力的先驗(yàn)分布是先前無(wú)數(shù)次測(cè)驗(yàn)信息積累得到的結(jié)果。但是由于客觀條件限制,我們無(wú)法得到測(cè)驗(yàn)分布累積的數(shù)據(jù)。因此決定采用全部被試(31 648人)的能力分布代替這2 185人的能力先驗(yàn)分布。利用SPSS計(jì)算得出被試總體的能力參數(shù)分布直方圖,如圖6所示。

圖6全體被試能力值分布

根據(jù)SPSS的統(tǒng)計(jì)結(jié)果來(lái)看,被試能力值基本呈現(xiàn)均值為0、標(biāo)準(zhǔn)差為1的標(biāo)準(zhǔn)正態(tài)分布。

我們根據(jù)被試總體的能力分布利用BILOGMG軟件計(jì)算出10個(gè)能力求積節(jié)點(diǎn)和相應(yīng)的權(quán)重,如表8所示。

3.5.2 結(jié)果分析

與聯(lián)合極大似然估計(jì)法相比,邊際極大似然估計(jì)法和EM算法最大的優(yōu)點(diǎn)就是收斂效率非常高。聯(lián)合極大似然估計(jì)法一共迭代了16次,而邊際極大似然估計(jì)法和EM算法都是估計(jì)兩次就可以成功收斂。并且每次估計(jì)的運(yùn)算速度也相比前者要快很多。

但需要說(shuō)明的是,邊際極大似然估計(jì)法和EM算法在估計(jì)出難度參數(shù)之后,只能估計(jì)出能力參數(shù)的后驗(yàn)分布概率,而無(wú)法得到確切的能力參數(shù)值。因此,在實(shí)踐中,這種方法只用來(lái)估計(jì)項(xiàng)目參數(shù),能力參數(shù)的估計(jì)還要依靠聯(lián)合極大似然估計(jì)法或邊際貝葉斯估計(jì)法來(lái)實(shí)現(xiàn)。

我們對(duì)兩個(gè)子實(shí)驗(yàn)的項(xiàng)目參數(shù)估計(jì)標(biāo)準(zhǔn)誤進(jìn)行了描述性統(tǒng)計(jì)分析,結(jié)果如表9所示(統(tǒng)一采用對(duì)數(shù)法迭代15次的能力參數(shù)值計(jì)算項(xiàng)目參數(shù)估計(jì)標(biāo)準(zhǔn)誤)。

我們可以看出,邊際A子實(shí)驗(yàn)和邊際B子實(shí)驗(yàn)受收斂精度的影響并不大,數(shù)值基本相同,標(biāo)準(zhǔn)差也基本趨于一致。

3.6 實(shí)驗(yàn)三

3.6.1 實(shí)驗(yàn)設(shè)置

實(shí)驗(yàn)三采用邊際貝葉斯估計(jì)法進(jìn)行參數(shù)估計(jì)。邊際貝葉斯估計(jì)法是邊際極大似然估計(jì)法和EM算法以及聯(lián)合極大似然估計(jì)法相結(jié)合的產(chǎn)物。在估計(jì)項(xiàng)目參數(shù)時(shí)算法與前者基本一致,在估計(jì)能力參數(shù)時(shí),算法與后者基本一致。本實(shí)驗(yàn)根據(jù)收斂精度和初值設(shè)置差異分為四個(gè)子實(shí)驗(yàn)(與實(shí)驗(yàn)一相同),如表10所示。

表8 10個(gè)能力求積點(diǎn)和相應(yīng)的權(quán)重

表9項(xiàng)目參數(shù)估計(jì)標(biāo)準(zhǔn)誤的統(tǒng)計(jì)量數(shù)據(jù)

表10子實(shí)驗(yàn)分類

在邊際貝葉斯估計(jì)法中不僅需要得到被試能力參數(shù)的先驗(yàn)分布,還要求得到項(xiàng)目難度參數(shù)的先驗(yàn)分布。我們根據(jù)全體被試樣本(共31 648人)的作答矩陣,利用BILOG-MG軟件,對(duì)170道題的難度參數(shù)進(jìn)行估計(jì),并利用SPSS軟件得到難度參數(shù)的分布如圖7所示。

圖7難度參數(shù)先驗(yàn)分布

SPSS軟件的統(tǒng)計(jì)數(shù)據(jù)顯示:難度參數(shù)基本服從平均值為-0.3282、標(biāo)準(zhǔn)差為0.5767的正態(tài)分布。我們以此作為難度參數(shù)的先驗(yàn)分布。

3.6.2 結(jié)果分析

由于邊際貝葉斯估計(jì)法在求取能力參數(shù)時(shí)不需要反復(fù)迭代,因此在統(tǒng)計(jì)收斂精度和迭代次數(shù)的關(guān)系時(shí)無(wú)須考慮能力初值的影響。經(jīng)過(guò)計(jì)算我們發(fā)現(xiàn),邊際貝葉斯估計(jì)法無(wú)論在高精度還是低精度的情況下,兩次收斂率均達(dá)到100%,項(xiàng)目參數(shù)估計(jì)標(biāo)準(zhǔn)誤則隨著初值和收斂精度設(shè)置不同略有差異。表11為四組子實(shí)驗(yàn)的項(xiàng)目參數(shù)估計(jì)標(biāo)準(zhǔn)誤的描述統(tǒng)計(jì)量。

從表11可以看出,四組子實(shí)驗(yàn)的項(xiàng)目參數(shù)估計(jì)標(biāo)準(zhǔn)誤差異是很細(xì)微的。在高精度水平上,貝葉斯C子實(shí)驗(yàn)比A子實(shí)驗(yàn)的標(biāo)準(zhǔn)誤略低;在低精度水平上,貝葉斯D子實(shí)驗(yàn)比B子實(shí)驗(yàn)的標(biāo)準(zhǔn)誤略低。這說(shuō)明在同一收斂精度下,利用對(duì)數(shù)法計(jì)算初值比利用Z分?jǐn)?shù)法代替能力初值所得參數(shù)結(jié)果要準(zhǔn)確一些;在以Z分?jǐn)?shù)求取初值的貝葉斯A、B子實(shí)驗(yàn)中,收斂精度高的A實(shí)驗(yàn)的標(biāo)準(zhǔn)誤低于收斂精度低的B實(shí)驗(yàn);在以對(duì)數(shù)法求取初值的貝葉斯C、D子實(shí)驗(yàn)中,收斂精度高的C實(shí)驗(yàn)的標(biāo)準(zhǔn)誤高于收斂精度低的D實(shí)驗(yàn)。這說(shuō)明以Z分?jǐn)?shù)法計(jì)算初值時(shí),高收斂精度估計(jì)結(jié)果更準(zhǔn)確,而以對(duì)數(shù)法計(jì)算初值時(shí),低收斂精度估計(jì)結(jié)果反而更理想。這一點(diǎn)與聯(lián)合極大似然估計(jì)法的實(shí)驗(yàn)結(jié)果是一致的。

表11項(xiàng)目參數(shù)估計(jì)標(biāo)準(zhǔn)誤的統(tǒng)計(jì)量數(shù)據(jù)

3.7 三組實(shí)驗(yàn)數(shù)據(jù)匯總

我們將聯(lián)合極大似然估計(jì)法實(shí)驗(yàn)(取最大收斂率所對(duì)應(yīng)的迭代次數(shù)計(jì)算標(biāo)準(zhǔn)誤)、邊際極大似然估計(jì)法和EM算法實(shí)驗(yàn)、邊際貝葉斯估計(jì)法實(shí)驗(yàn)共10個(gè)子實(shí)驗(yàn)的項(xiàng)目參數(shù)估計(jì)標(biāo)準(zhǔn)誤進(jìn)行橫向?qū)Ρ龋瑪?shù)據(jù)如表12所示。

由表12和圖8可以看出,三種實(shí)驗(yàn)方法中聯(lián)合極大似然估計(jì)法參數(shù)估計(jì)的準(zhǔn)確性最低;邊際貝葉斯估計(jì)法的標(biāo)準(zhǔn)誤均值為5.658,參數(shù)估計(jì)的準(zhǔn)確性最高。

表12各實(shí)驗(yàn)項(xiàng)目參數(shù)估計(jì)標(biāo)準(zhǔn)誤對(duì)比

圖8各實(shí)驗(yàn)項(xiàng)目參數(shù)估計(jì)標(biāo)準(zhǔn)誤變化趨勢(shì)

初值和收斂精度不同對(duì)于聯(lián)合極大似然估計(jì)法影響最大,而對(duì)于邊際貝葉斯估計(jì)法以及邊際極大似然估計(jì)法和EM算法的影響是非常微弱的。

從A、B、C、D四組子實(shí)驗(yàn)項(xiàng)目參數(shù)估計(jì)標(biāo)準(zhǔn)誤的均值來(lái)看,收斂精度對(duì)標(biāo)準(zhǔn)誤的影響隨著初值設(shè)置的改變而有所不同。

4 結(jié)論

從參數(shù)估計(jì)方法的準(zhǔn)確性和穩(wěn)定性來(lái)看,聯(lián)合極大似然估計(jì)法的參數(shù)估計(jì)結(jié)果不僅精度低,而且容易受到初值和收斂精度的影響,穩(wěn)定性也比較差。導(dǎo)致這一結(jié)果的原因可能是:(1)似然函數(shù)在構(gòu)建的過(guò)程中沒(méi)有充分利用被試總體和項(xiàng)目總體的先驗(yàn)信息分布,導(dǎo)致在估計(jì)能力過(guò)高或過(guò)低的被試(難度過(guò)難或過(guò)易的項(xiàng)目)時(shí)容易出現(xiàn)異常值;(2)在迭代求取非線性方程的未知參數(shù)時(shí),由于多個(gè)駐點(diǎn)的存在,我們無(wú)法保證選取的初值就在最大值所在定義域范圍內(nèi),因此導(dǎo)致收斂于偽值或不收斂的概率大大增加;(3)聯(lián)合極大似然估計(jì)法要求每個(gè)能力值和難度值的被試與項(xiàng)目匹配,當(dāng)某個(gè)能力的被試找不到適合他難度的試題時(shí),參數(shù)估計(jì)精度就會(huì)降低。

相比于聯(lián)合極大似然估計(jì)法,邊際極大似然估計(jì)法和EM算法以及邊際貝葉斯估計(jì)法則在準(zhǔn)確度方面體現(xiàn)出比較大的優(yōu)勢(shì)。主要原因是這兩種方法都在計(jì)算的過(guò)程中充分利用到了被試總體的能力先驗(yàn)分布,尤其是邊際貝葉斯估計(jì)法,在構(gòu)造似然函數(shù)時(shí)又加入了項(xiàng)目參數(shù)先驗(yàn)分布的表達(dá)式。先驗(yàn)分布可以把異常值收縮到參數(shù)均值附近,從而提高參數(shù)估計(jì)的準(zhǔn)確性和穩(wěn)定性。

從初值設(shè)置對(duì)參數(shù)估計(jì)結(jié)果的影響來(lái)看,利用原始分?jǐn)?shù)的Z分?jǐn)?shù)值代替能力初值更適用于聯(lián)合極大似然估計(jì)法。原因可能是Z分?jǐn)?shù)值與被試能力參數(shù)的正常范圍比較吻合;而通過(guò)對(duì)數(shù)法計(jì)算的初值基本與正常能力值相差較遠(yuǎn),對(duì)最終的參數(shù)估計(jì)結(jié)果產(chǎn)生不利影響;而在邊際貝葉斯估計(jì)法中,先驗(yàn)分布函數(shù)起到了收縮能力初值的作用,因此最終的參數(shù)估計(jì)結(jié)果并不會(huì)受到很大影響。

收斂精度和初值設(shè)置會(huì)對(duì)參數(shù)估計(jì)結(jié)果產(chǎn)生交互影響。遺憾的是,我們還不清楚產(chǎn)生交互影響的真正原因。這是一個(gè)值得進(jìn)一步深入分析和研究的問(wèn)題。

[1]LORD F M.A theory of test scores[J].Psychometric Monograph,1952(7).

[2]FRANK B BAKER,SEOCK-HO KIM.Item Response Theory Parameter Estimation Techniques[M].New York:Marcel Dekker,Inc,2004.

[3]魯俊生.VFP程序設(shè)計(jì)簡(jiǎn)明教程[M].西安:西安電子科技大學(xué)出版社,2010.

[4]漆書(shū)清,戴海琦,丁樹(shù)良.現(xiàn)代教育與心理測(cè)量學(xué)原理[M].北京:高等教育出版社,2003.

[5]NEYMAN J,SCOTT E L.Consistent estimates based on partially consistent observations[J].Econometrica,1948(16):1-32.

[6]LORD F M.Applications of item response theory to practical testing problems[M].Hillsdale,NJ:Erlbaum,1980.

[7]漆書(shū)清,戴海琦.項(xiàng)目反應(yīng)理論及其應(yīng)用研究[M].南昌:江西高校出版社,1992.

[8]HAMBLETON R K,SWAMINATHAN H,ROGERS H J.Fundamentals of item response theory[M].Newbury Park,CA:Sage Publications,1991.

(責(zé)任編輯:周黎明)

The Comparison between the Method of MLE,MLE/EM and BMES under the Rasch Model

WANG Jimin1,LI Xiao2
(1.Beijing Language and Culture University,Beijing 100083,China;2.Beijing Normal University,Beijing 100875,China)

The objective of this article is to assess the accuracy of the Joint Maximum Likelihood Estimation(JMLE),the Marginal Maximum Likelihood Estimation/EM algorithm(MMLE/EM),Marginalized Bayesian Parameter Estimation(BMEs)based on the single parameter logistic model.Experimental subject is the answer matrix of 2 185 examinees,who were tested in the HSK examination(including 170 questions)on Dec 9th,2005.We assessed the accuracy of parameter estimation by comparing the standard errors from each estimation method.This study also conducted the parameter estimation under different initial values and convergence precisions for each approach,taking into account the effects of initial value and convergence precision setting for parameter estimation results.

IRT;Parameter Estimation;JMLE;MMLE/EM;BMEs

G405

A

1005-8427(2017)09-0011-11

10.19360/j.cnki.11-3303/g4.2017.09.002

本研究得到北京市社科規(guī)劃項(xiàng)目“首都留學(xué)生跨文化適應(yīng)研究”(項(xiàng)目號(hào):13WYB014)和北京語(yǔ)言大學(xué)院級(jí)項(xiàng)目(項(xiàng)目號(hào):17YJ050011)的資助。

王佶旻(1974—),女,北京語(yǔ)言大學(xué)漢語(yǔ)考試與教育測(cè)量研究所,教授,博士生導(dǎo)師;李 瀟(1987—),女,北京師范大學(xué)中國(guó)基礎(chǔ)教育質(zhì)量監(jiān)測(cè)協(xié)同創(chuàng)新中心,講師。

猜你喜歡
初值參數(shù)估計(jì)邊際
隨身新配飾
基于新型DFrFT的LFM信號(hào)參數(shù)估計(jì)算法
具非定常數(shù)初值的全變差方程解的漸近性
一種適用于平動(dòng)點(diǎn)周期軌道初值計(jì)算的簡(jiǎn)化路徑搜索修正法
三維擬線性波方程的小初值光滑解
追求騎行訓(xùn)練的邊際收益
社會(huì)治理的邊際成本分析
Logistic回歸模型的幾乎無(wú)偏兩參數(shù)估計(jì)
基于向前方程的平穩(wěn)分布參數(shù)估計(jì)
基于競(jìng)爭(zhēng)失效數(shù)據(jù)的Lindley分布參數(shù)估計(jì)
台中市| 龙口市| 通海县| 哈巴河县| 施秉县| 上犹县| 亚东县| 喀喇沁旗| 阿坝县| 大安市| 洪江市| 永寿县| 亚东县| 嘉黎县| 乌恰县| 无锡市| 长治市| 盖州市| 股票| 大洼县| 扎赉特旗| 北票市| 霍城县| 林芝县| 恩施市| 舞阳县| 阿拉善盟| 林西县| 绵阳市| 金湖县| 农安县| 云梦县| 凤庆县| 遂昌县| 平顶山市| 镇沅| 福安市| 汝城县| 梓潼县| 溆浦县| 滁州市|