国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于項(xiàng)目反應(yīng)理論的公開招聘考試的最優(yōu)題型選擇

2016-06-05 14:18:00陳冠宇熊碧蓮姜亞麗陳海平栗小霞
中國(guó)考試 2016年1期
關(guān)鍵詞:區(qū)分度信息量測(cè)驗(yàn)

陳冠宇 熊碧蓮 李 霓 姜亞麗 陳海平 丁 玎 栗小霞

基于項(xiàng)目反應(yīng)理論的公開招聘考試的最優(yōu)題型選擇

陳冠宇1熊碧蓮1李 霓1姜亞麗1陳海平1丁 玎2栗小霞2

本研究基于項(xiàng)目反應(yīng)理論,探索題目變動(dòng)的公開招聘考試的最優(yōu)題型。利用《北京市新進(jìn)人員通用能力考試》專業(yè)技術(shù)崗位1 000名考生成績(jī),通過探索性因素分析保證僅包含一個(gè)維度的情況下,使用項(xiàng)目反應(yīng)理論等級(jí)反應(yīng)模型分析10個(gè)題型的性能。先將各個(gè)題型不同題目的得分加和,將不同得分的頻數(shù)轉(zhuǎn)換為等級(jí),分別計(jì)算區(qū)分度、難度、類別反應(yīng)曲線和信息函數(shù)。最優(yōu)題型用兩種方法確定,一是選取信息量占比高于均值的題型,二是排除各種參數(shù)達(dá)不到常用標(biāo)準(zhǔn)的題型。兩種方法得到非常接近的結(jié)果,即邏輯推理、圖表解讀、短文加工、閱讀理解四個(gè)題型最優(yōu)。

項(xiàng)目反應(yīng)理論;經(jīng)典測(cè)量理論;等級(jí)反應(yīng)模型;類別反應(yīng)曲線

1 引言

《北京市新進(jìn)人員通用能力考試》(以下簡(jiǎn)稱《通用能力考試》)是北京市事業(yè)單位公開招聘考試,2012年開始推廣使用。它基于北京市事業(yè)單位公開招聘工作人員的基本需要研發(fā),重點(diǎn)考察進(jìn)入事業(yè)單位崗位工作所需的公共基本能力。報(bào)考崗位分為管理崗、專業(yè)技術(shù)崗和工勤崗,每種崗位使用一套試卷,其中管理崗和專業(yè)技術(shù)崗采用的題型較多,考試時(shí)間為150分鐘。為了提高《通用能力考試》針對(duì)不同崗位考查的有效性,同時(shí)減少考試時(shí)間,以提高考試的效度和效率,有必要探索其最優(yōu)題型。

根據(jù)經(jīng)典測(cè)量理論篩選最優(yōu)題型的統(tǒng)計(jì)方法存在局限性。[1-2]經(jīng)典測(cè)量理論對(duì)于測(cè)驗(yàn)項(xiàng)目的分析主要通過項(xiàng)目的難度和區(qū)分度進(jìn)行,受樣本量和樣本特征等因素的影響,故不能很好地估計(jì)項(xiàng)目特性。[3]而項(xiàng)目反應(yīng)理論對(duì)信效度以及潛在作答反應(yīng)的理解不同于經(jīng)典測(cè)量理論,并且提供經(jīng)典測(cè)量理論所沒有的信息。[4]項(xiàng)目反應(yīng)理論有以下優(yōu)點(diǎn):①項(xiàng)目反應(yīng)理論用信息量代替信度概念,能夠借助信息函數(shù)(Information Function)針對(duì)不同考生精確估計(jì)每個(gè)項(xiàng)目及測(cè)驗(yàn)的測(cè)量誤差,[5]給不同能力水平考生的估計(jì)提供了獨(dú)立的信度指標(biāo)。②基于不同能力水平、項(xiàng)目區(qū)分度和作答結(jié)果之間的關(guān)系,能夠考察題目對(duì)不同能力考生的區(qū)分情況,不會(huì)因?yàn)橛捎诤?jiǎn)單選擇與總分相關(guān)的項(xiàng)目導(dǎo)致因素結(jié)構(gòu)變化。即使是多因素結(jié)構(gòu),只要應(yīng)用多維項(xiàng)目反應(yīng)理論(Multidimensional Item Response Theory)就不會(huì)出現(xiàn)類似問題。[6]③項(xiàng)目反應(yīng)理論的參數(shù)估計(jì)不依賴于樣本量和項(xiàng)目量,具有參數(shù)不變性。[7]也就是說項(xiàng)目反應(yīng)理論在排除隨機(jī)誤差的情況下,對(duì)于項(xiàng)目參數(shù)而言,在不同總體下的估計(jì)值應(yīng)該是一致的,這意味著簡(jiǎn)版的信效度與完整版沒有區(qū)別。因此,項(xiàng)目反應(yīng)理論能夠避開傳統(tǒng)簡(jiǎn)版測(cè)驗(yàn)開發(fā)存在的問題,保證簡(jiǎn)版測(cè)驗(yàn)的質(zhì)量。

鑒于《通用能力考試》的特點(diǎn),本研究采用項(xiàng)目反應(yīng)理論的等級(jí)反應(yīng)模型(Graded Response Model,GRM)進(jìn)行分析。GRM將各個(gè)題型的題目進(jìn)行合并,作為多級(jí)評(píng)分項(xiàng)目進(jìn)行處理,可以消除題組內(nèi)項(xiàng)目間的相依問題。[8]GRM根據(jù)各個(gè)項(xiàng)目的積累反應(yīng)分布,計(jì)算出不同分?jǐn)?shù)等級(jí)之間的閾值。[9]GRM用θ表示考生能力水平,假定其平均數(shù)為0,方差為1,理論上θ的取值范圍為正無(wú)窮到負(fù)無(wú)窮,一般為了方便討論限制為[-3,3],但并不意味著一定服從正態(tài)分布。[10]GRM每道題目的類別反應(yīng)曲線(Catego?ry Response Curve,CRC)通過難度參數(shù)b提供特質(zhì)水平一定情況下所有選項(xiàng)的作答概率,同時(shí)通過項(xiàng)目區(qū)分度參數(shù)a來估計(jì)不同特質(zhì)水平下項(xiàng)目的區(qū)分情況。類別反應(yīng)曲線揭示不同能力考生在不同題型上取得不同得分的概率,一個(gè)具有良好檢驗(yàn)力的項(xiàng)目應(yīng)該保證能力越高的考生越有可能得高分,能力越低的考生得低分的可能性越大。項(xiàng)目信息函數(shù)是項(xiàng)目反應(yīng)理論用來刻畫一個(gè)測(cè)試或一道試題有效性的工具,反映不同特性的項(xiàng)目在評(píng)價(jià)不同考生能力水平時(shí)的信息貢獻(xiàn)關(guān)系,[11]實(shí)現(xiàn)對(duì)不同項(xiàng)目的評(píng)價(jià)。項(xiàng)目提供的信息量越大,表明這個(gè)項(xiàng)目在評(píng)價(jià)此能力水平時(shí)越有價(jià)值。

2 研究方法

2.1 研究數(shù)據(jù)

本研究的數(shù)據(jù)來自于《通用能力考試》2011年 3月1 000名專業(yè)技術(shù)崗考生的考試成績(jī)(學(xué)生版的IRTPRO統(tǒng)計(jì)軟件限制,樣本量不能超過1 000)。前期研究表明,《通用能力考試》具有良好的信效度,經(jīng)過連續(xù)5年的實(shí)際應(yīng)用,用人單位反應(yīng)良好。[12-14]專業(yè)技術(shù)崗的《通用能力考試》共有10種題型,分別是時(shí)新知識(shí)、空間關(guān)系、邏輯推理、文稿校對(duì)、句段排序、閱讀理解、圖表解讀、圖形比較、短文加工及實(shí)用寫作。除空間關(guān)系、邏輯推理、句段排序、閱讀理解和圖表解讀這些傳統(tǒng)題型外,采用的新題型經(jīng)過了專家論證和研究分析,證明了其有效性。[15]目前它已經(jīng)成為北京市事業(yè)單位進(jìn)人的基本考試,每次更換題目但題型保持不變。

2.2 驗(yàn)證性因素分析

使用項(xiàng)目反應(yīng)理論對(duì)題目進(jìn)行分析必須考慮擬合度(goodness of fit),如果擬合度過低則其研究結(jié)果沒有意義。目前對(duì)項(xiàng)目反應(yīng)理論的模型擬合研究并沒有給出一個(gè)絕對(duì)的標(biāo)準(zhǔn),[16-18]一般認(rèn)為基本的要求是滿足單維度假設(shè),建議使用驗(yàn)證性因素分析來證實(shí)。[19]本研究采用LISREL 8.8進(jìn)行驗(yàn)證性因素分析,檢驗(yàn)10個(gè)題型僅包含一個(gè)因素的假設(shè)。驗(yàn)證性因素分析的結(jié)果為:χ2=74.09,df=35,P= 0.00013,RMSEA=0.029,CFI=0.99,NNFI=0.98,表明滿足GRM的單維度假設(shè),10個(gè)題型僅僅測(cè)量一個(gè)因素。

2.3 項(xiàng)目反應(yīng)理論的計(jì)算

采用IRTPRO 3.1對(duì)各個(gè)題型的總分進(jìn)行項(xiàng)目反應(yīng)理論的分析。按照GRM先要對(duì)同一項(xiàng)目的不同等級(jí)進(jìn)行分析。只要各個(gè)等級(jí)分布了全距足夠大的考生能力水平,那么項(xiàng)目參數(shù)的估計(jì)就不依賴于具體的考生樣本群體及分布。[20]把各個(gè)題型的總分看作順序變量,在不改變順序的情況下,將一些人數(shù)過少的分?jǐn)?shù)合并排列等級(jí),盡量使得不同等級(jí)有足夠的考生用于估計(jì)。10種題型轉(zhuǎn)換后的等級(jí)數(shù)分別是8、4、7、8、5、6、7、7、8和6,各個(gè)等級(jí)確保有足夠的不同能力的考生用于參數(shù)估計(jì)。

3 結(jié)果與分析

3.1 擬合度檢驗(yàn)

使用IRTPRO軟件對(duì)GRM進(jìn)行擬合度分析,結(jié)果如表1所示。RMSEA(root-mean-square error of approximation)是近似誤差均方根,評(píng)價(jià)模型不擬合的程度。一般地,RMSEA=0表示模型完全擬合,RMSEA<0.05表示模型接近擬合。本研究獲得的RMSEA值為0,據(jù)此可認(rèn)為《通用能力考試》數(shù)據(jù)能夠完全擬合GRM。M2類似于卡方值,本研究中并不顯著,表示模型可以接受。[21-22]

表1 模型擬合度檢驗(yàn)

3.2 參數(shù)估計(jì)

把每個(gè)題型當(dāng)作項(xiàng)目,采用最大似然法(Maxi?mum Likelihood Estimation)分析《通用能力考試》數(shù)據(jù),估計(jì)出GRM的區(qū)分度參數(shù)和難度參數(shù)如表2所示。

a為該測(cè)驗(yàn)的項(xiàng)目區(qū)分度參數(shù),b為難度參數(shù)。表2顯示,《通用能力考試》10種題型的區(qū)分度在0.47~1.51,均值為0.96(SD=0.34)。根據(jù)既往的理論研究,a值在0.01~0.24為非常低,0.25~0.63為低,0.64~1.34為中等,1.35~1.69為高。[23]表2大部分題型區(qū)分度中等,其中時(shí)新知識(shí)和圖形比較的區(qū)分度較低,而邏輯推理和閱讀理解的區(qū)分度較高。

按照一般經(jīng)驗(yàn),參數(shù)b最好在-2~2之間,這樣可以避免試題太難或太易的情況。將題型的得分轉(zhuǎn)換為不同等級(jí)后,不同的等級(jí)有其相應(yīng)的閾值參數(shù),b1到b7代表了得分等級(jí)2到8的閾值參數(shù)(任何人得分在最低等級(jí)之上,所以不需要估計(jì)最低等級(jí)的閾值參數(shù))。如空間關(guān)系有4個(gè)等級(jí),等級(jí)2到等級(jí)4對(duì)應(yīng)b1到b3。表2各個(gè)題型不同分?jǐn)?shù)等級(jí)的難度參數(shù)在整個(gè)能力范圍內(nèi)分布并不均勻,難度梯級(jí)差有大有小,顯示分?jǐn)?shù)等級(jí)的難度遞增不夠平穩(wěn)。所有題型都有小于-2.0的難度參數(shù)值,表明所有題型的最低分?jǐn)?shù)等級(jí)很容易,絕大多數(shù)考生都可以獲得這一分?jǐn)?shù);時(shí)新知識(shí)、文稿校對(duì)、句段排序、圖表解讀、圖形比較以及實(shí)用寫作6個(gè)題型都有大于2.0的難度參數(shù),表明這些題型的高分等級(jí)難度比較大,而邏輯推理和短文加工兩個(gè)題型的高分端難度接近2.0,尚屬比較好,只有空間關(guān)系和閱讀理解兩個(gè)題型的最高分?jǐn)?shù)等級(jí)的難度值小于2.0,顯示這兩個(gè)題型難度偏低,而時(shí)新知識(shí)和圖形比較兩個(gè)題型最高分?jǐn)?shù)等級(jí)的難度值分別為5.08和4.20,顯示這兩個(gè)題型的高分等級(jí)很難,同時(shí)這兩個(gè)題型的區(qū)分度最低。

3.3 類別反應(yīng)曲線

類別反應(yīng)曲線的橫軸為考生的能力水平,從左至右代表能力由低到高,縱軸為作答正確的概率,從下到上代表答對(duì)的可能性由低到高,每一條曲線代表了不同能力水平的考生在該題型中獲得相應(yīng)等級(jí)分?jǐn)?shù)的可能性。一般而言,性能好的項(xiàng)目中高能力的考生更有可能獲得高等級(jí)分?jǐn)?shù)。

表2 《通用能力考試》專業(yè)技術(shù)崗題型參數(shù)

圖1是10種題型的類別反應(yīng)曲線。其中,時(shí)新知識(shí)和圖形比較兩個(gè)題型不同等級(jí)得分的曲線比較平坦(峰值?。?,彼此難以區(qū)分,表明其區(qū)分不同能力水平考生的效果較差。文稿校對(duì)和實(shí)用寫作兩個(gè)題型的中間等級(jí)峰值也偏小,曲線間難以區(qū)分,其他題型特別是邏輯推理、句段排序、圖表解讀、閱讀理解對(duì)不同分?jǐn)?shù)等級(jí)的區(qū)分都很理想。

3.4 題型的信息量

在項(xiàng)目反應(yīng)理論中,信息量表示的是項(xiàng)目和測(cè)驗(yàn)在評(píng)價(jià)考生能力水平狀態(tài)時(shí)所提供的信息的確定性水平。一道題的信息量越大,表示它對(duì)準(zhǔn)確評(píng)價(jià)考生能力水平的貢獻(xiàn)越大,也就能越準(zhǔn)確地估計(jì)考生水平。

圖2是10種題型的信息函數(shù),表3是每種題型的信息總量以及占總測(cè)驗(yàn)信息量的比重??梢钥吹?,各項(xiàng)目的信息量在2.22~19.38之間,占比在2.51%~19.38%之間。同時(shí)結(jié)合表2和圖1,可知信息量低的題型對(duì)應(yīng)的類別反應(yīng)曲線都較為平坦且曲線重疊難以區(qū)分,而能夠區(qū)別不同能力考生作答反應(yīng)的題型,給出的信息量也更多。邏輯推理、句段排序、圖表解讀和短文加工4個(gè)題型的信息量較大,其信息量之和超過總信息量的2/3,達(dá)到67.79%。

圖1 各題型的類別反應(yīng)曲線

如上文所述:一道題的信息量越大,表示它對(duì)準(zhǔn)確評(píng)價(jià)考生能力水平的貢獻(xiàn)越大。同理,在一道題的角度上,題目提供的信息量在不同的能力水平上是不同的,出現(xiàn)最大的信息量的能力水平,即為題目區(qū)分度最高的位置,也就是說題目對(duì)于這一能力水平的被試提供了最大的信息量,最能區(qū)分這一能力水平的考生。表4顯示,幾乎所有題型最大信息量位置對(duì)應(yīng)的都是平均水平以下的能力水平,即除文稿校對(duì)和圖表解讀兩個(gè)題型外,其他題型區(qū)分度最高點(diǎn)對(duì)應(yīng)的能力水準(zhǔn)都低于群體平均水平,意味著大多數(shù)題型最適合區(qū)分的人群是低于平均水準(zhǔn)的考生群體。

圖2 項(xiàng)目信息函數(shù)

表3 測(cè)驗(yàn)項(xiàng)目信息量及其占比

表4 各題型最大信息量及其出現(xiàn)時(shí)所對(duì)應(yīng)的能力水平(θ)

圖3 測(cè)驗(yàn)信息函數(shù)

將各個(gè)題型對(duì)某一能力水平考生的信息量加和,就能得到測(cè)驗(yàn)信息函數(shù)(Test Information Func? tion,TIF),反映整個(gè)《通用能力考試》對(duì)于該能力水平的考生提供了多少信息量。從圖3能夠清晰地看到《通用能力考試》對(duì)于考生能力水平評(píng)估的總體情況,圖中虛線為邏輯推理、閱讀理解、圖表解讀和短文加工4個(gè)信息量最大題型構(gòu)成的簡(jiǎn)版考試信息量。可以看到,《通用能力考試》能在評(píng)估中等能力水平的考生時(shí)能提供最大的信息量,而對(duì)于能力水平較低的考生不能提供太多的信息,且能力水平升高時(shí)信息量快速下降。

4 結(jié)論

本研究通過項(xiàng)目反應(yīng)理論的等級(jí)反應(yīng)模型對(duì)《通用能力考試》進(jìn)行最優(yōu)題型分析,發(fā)現(xiàn)根據(jù)題型信息量占比大于均值得出的結(jié)果,與綜合權(quán)衡區(qū)分度、難度、類別反應(yīng)曲線和信息函數(shù)得出的最優(yōu)題型都是邏輯推理、圖表解讀、短文加工、閱讀理解。表2的區(qū)分度和等級(jí)難度參數(shù)值表明,《通用能力考試》既有容易得分的題型(閱讀理解和空間關(guān)系),又有比較難的題型(時(shí)新知識(shí)和圖形比較),兩者結(jié)合既可以讓考生得到一個(gè)基本分?jǐn)?shù),同時(shí)也能夠有效拉開分?jǐn)?shù)距離,為擇優(yōu)留出空間。

目前已經(jīng)有研究者采用項(xiàng)目反應(yīng)理論進(jìn)行最優(yōu)題型的分析,但還沒有統(tǒng)一的標(biāo)準(zhǔn)。[24-25]常用的方法有兩種:一是比較測(cè)驗(yàn)項(xiàng)目的信息函數(shù),選擇信息量較大的題目;[26]二是通過對(duì)信息量進(jìn)行計(jì)算,求出測(cè)量的標(biāo)準(zhǔn)誤,即(TIF即測(cè)驗(yàn)信息函數(shù)),并據(jù)此進(jìn)行分析。[27]兩種方法歸根結(jié)底都是依賴測(cè)驗(yàn)信息函數(shù),謀求簡(jiǎn)版測(cè)驗(yàn)的測(cè)驗(yàn)信息量盡可能接近完整版測(cè)驗(yàn)。本研究選擇題型信息量占總信息量的比例進(jìn)行取舍,所有題型平均占比為10%,占比高于此均值的題型有邏輯推理、閱讀理解、圖表解讀和短文加工4個(gè)題型,表示它們最優(yōu)。

另外,本研究認(rèn)為最優(yōu)題型可以結(jié)合區(qū)分度、難度、類別反應(yīng)曲線和信息函數(shù)進(jìn)行綜合考慮。從區(qū)分度參數(shù)看,只有時(shí)新知識(shí)和圖形比較沒有達(dá)到要求;從難度參數(shù)看,只有空間關(guān)系不太理想;從類別反應(yīng)曲線看,時(shí)新知識(shí)和圖形比較較差,文稿校對(duì)和實(shí)用寫作稍微差強(qiáng)人意;從題型的信息量看,時(shí)新知識(shí)和圖形比較信息量最小,其次略顯美中不足的是空間關(guān)系、句段排序和實(shí)用寫作。綜合上述結(jié)果,10種題型中,邏輯推理、圖表解讀、閱讀理解和短文加工4種題型的各項(xiàng)指標(biāo)都不錯(cuò),是最優(yōu)題型。

綜合考慮的結(jié)果與上述信息量占比的選擇結(jié)果相同,都是邏輯推理、圖表解讀、閱讀理解和短文加工,與使用經(jīng)典測(cè)量理論開發(fā)的《通用能力考試》簡(jiǎn)版最優(yōu)題型一致,這4個(gè)題型構(gòu)成的簡(jiǎn)版測(cè)驗(yàn)滿足α型錯(cuò)誤概率小于0.05、統(tǒng)計(jì)檢驗(yàn)力達(dá)0.9以上、考生覆蓋率達(dá)95%以上的標(biāo)準(zhǔn)。[28]顯然,研究驗(yàn)證了根據(jù)經(jīng)典測(cè)驗(yàn)理論的最優(yōu)簡(jiǎn)版構(gòu)成。

5 研究局限與展望

第一,考試數(shù)據(jù)。本研究選取的數(shù)據(jù)僅僅只是一次專業(yè)技術(shù)崗的考生成績(jī),由于不同崗位針對(duì)的考生不同,不同時(shí)間考試選取的具體題目不同,因此分析的結(jié)果可能會(huì)有誤差的存在。雖然項(xiàng)目反應(yīng)理論不依賴于具體樣本,但是仍然會(huì)受到隨機(jī)誤差的影響。[29]

第二,等級(jí)劃分。根據(jù)頻數(shù)分布將測(cè)驗(yàn)總分轉(zhuǎn)換為等級(jí)數(shù)據(jù),從某種意義而言是減少了題目提供的信息,同時(shí)忽視了猜測(cè)的可能性,并且可能高估總體測(cè)驗(yàn)的信息量。[30]因此進(jìn)一步研究可以考慮采用承認(rèn)相依性的題組模型(testlet model)。

要指出的是,本研究以及既往的簡(jiǎn)版研究都是以專業(yè)技術(shù)崗的某一次考試成績(jī)?yōu)橐罁?jù),這個(gè)結(jié)論是否適合其他崗位的《通用能力考試》,以及每次考試是否會(huì)因?yàn)榭忌鷺颖尽⒖荚囶}目的變動(dòng)而影響最優(yōu)題型的確定,還有待追蹤。

[1]Daseking,M.,Petermann,F.,&Waldmann.H.Estimation of Gener?al Intelligence in Neurological Settings by a Short Form of the WAIS-IV[J].Aktuelle Neurologie,2014,41(6):349-355.

[2][28]陳海平,姜亞麗,車宏生.事業(yè)單位新進(jìn)人員通用能力考試最優(yōu)簡(jiǎn)版探究[J].北京師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2015(3): 320-325.

[3]Cohen,J.The statistical power of abnormal-social psychological re?search:A review[J].Journal of abnormal and social psychology, 1962,65(3):145-153.

[4]Akiskal,H.S.,Mendlowicz,M.V.,Jean-Louis,G.,et al.TEMPSA:validation of a short version of a self-rated instrument designed to measure variations in temperament[J].Journal of Affective Disor?ders,2005,85(1):45-52.

[5][20]Theiling,J.,&Petermann,F.Neuropsychological Profiles on the WAIS-IV of ADHD Adults[J/OL].Journal of attention disorders, 2014:1509099359.[2015-09-20].http://jad.sagepub.com/content/ early/2014/01/21/1087054713518241.abstract.

[6]杜文久,肖涵敏.多維項(xiàng)目反應(yīng)理論等級(jí)反應(yīng)模型[J].心理學(xué)報(bào), 2012(10):1402-1407.

[7]Rupp,A.A.,&Zumbo,B.D.Understanding parameter invariance in unidimensional IRT models[J].Educational and Psychological Measurement,2006,66(1):63-84.

[8]Thissen,D.,Steinberg,L.,&Mooney,J.A.Trace Lines for Testlets: A Use of Multiple Categorical Response Models[J].Journal of Edu?cational Measurement,1989,26(3):247-260.

[9]Samejima,F.Evaluation of mathematical models for ordered poly?chotomous responses[J].Behaviormetrika,1996,23(1):17-35.

[10]Baker,F.B.The Basics of Item Response Theory(Second Edition)[M].ERIC Clearinghouse on Assessment and Evaluation,2001.

[11]羅照盛,歐陽(yáng)雪蓮,漆書青,等.項(xiàng)目反應(yīng)理論等級(jí)反應(yīng)模型項(xiàng)目信息量[J].心理學(xué)報(bào),2008(11):1212-1220.

[12]陳海平,姜亞麗,車宏生.事業(yè)單位新進(jìn)人員通用能力考試最優(yōu)簡(jiǎn)版探究[J].北京師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2015(3):320-325.

[13]陳海平,劉遠(yuǎn)我,張志紅,等.我國(guó)事業(yè)單位公開招聘考試的現(xiàn)狀與挑戰(zhàn)——全國(guó)省地人事考試中心調(diào)查[C]//中國(guó)心理學(xué)會(huì)成立90周年紀(jì)念大會(huì)暨第十四屆全國(guó)心理學(xué)學(xué)術(shù)會(huì)議.西安, 2011.

[14][15]朱鳳艷,陳海平,車宏生,等.事業(yè)單位公開招聘考試新題型預(yù)試研究[J].心理學(xué)探新,2013(3):271-280.

[16]Drasgow,F.,Levine,M.V.,&Williams,E.A.Appropriateness measurement with polychotomous item response models and stan?dardized indices[J].British Journal of Mathematical and Statistical Psychology,1985,38(1):67-86.

[17][19]Hambleton,R.K.Fundamentals of item response theory[M]. Newbury Park:Sage publications,1991.

[18]Ostini,R.,&Nering,M.L.Polytomous item response theory mod?els[M].Thousand Oaks:Sage,2006.

[21]Maydeu-Olivares,A.,&Joe,H.Limited-and full-information esti?mation and goodness-of-fit testing in 2ncontingency tables:a uni?fied framework[J].Journal of the American Statistical Association, 2005,100(471):1009-1020.

[22]Maydeu-Olivares,A.,&Joe,H.Limited information goodness-offit testing in multidimensional contingency tables[J].Psychometri?ka,2006,71(4):713-732.

[23][24]Allen,V.,Rahman,N.,Weissman,A.,et al.The Situational Test of Emotional Management-Brief(STEM-B):Development and validation using item response theory and latent class analysis [J].Personality and Individual Differences,2015(81):195-200.

[25]Bourion-Bédès,S.,Schwan,R.,Epstein,J.,et al.Combination of classical test theory(CTT)and item response theory(IRT)analy?sis to study the psychometric properties of the French version of the Quality of Life Enjoyment and Satisfaction Questionnaire-Short Form(Q-LES-Q-SF)[J].Quality of Life Research,2015,24(2):287-293.

[26]Mueller,A.E.,Segal,D.L.,Gavett,B.,et al.Geriatric Anxiety Scale:item response theory analysis,differential item functioning, and creation of a ten-item short form(GAS-10)[J].International Psychogeriatrics,2014(7):1-13.

[27]Liu,Y.,Wang.J.,Hinds,P.S.,et al.The emotional distress of chil?dren with cancer in China:an item response analysis of C-Ped-PROMIS Anxiety and Depression short forms[J].Quality of Life Re?search,2014(6):1-11.

[29]羅照盛.項(xiàng)目反應(yīng)理論基礎(chǔ)[M].北京:北京師范大學(xué)出版社, 2012.

[30]Wang,X.,Bradlow,E.T.,&Wainer,H.A general Bayesian model for testlets:Theory and applications[J].ETS Research Report Se?ries,2002(1):37.

Choosing the Best Item Types of a Public Recruitment Examination based on Item Response Theory

CHEN Guanyu,XIONG Bilian,LI Ni,JIANG Yali,CHEN Haiping,DING Ding&LI Xiaoxia

This research based on Item Response Theory,explores the best item type of a public recruitment examination.By using the scores of 1 000 candidates who took the Basic Abilities Test of Beijing Public Institutions for a professional/technical position,the characteristics of its 10 subtests are analyzed with IRT Graded Response Model after its factors are confirmed to be only one through explorative factor analysis.The study firstly adds up the scores of all items of each subtest,then converts them into the graded ranks according to their frequency and gets their parameters of discrimination,difficulty,characteristic response curves(CRCs)and information function.Two methods were used to obtain the best subtests:one is to select a subtest that its information percentage is above the average of all subtests,the other one is to delete a subtest that its parameters do not meet normal standards.It is found that the two methods bring quite similar result:Logic Reasoning,Graph Comprehension,Essay Processing and Reading Comprehension are the best four item types,which confirms the conclusion from its analysis of Classical Testing Theory.

Item Response Theory;Classical Testing Theory;Graded Response Model;Category Response Curve

G405

A

1005-8427(2016)01-0039-8

本研究得到北京市人事考試中心委托課題“北京市事業(yè)單位同步考試數(shù)據(jù)分析及新題型完善”及北京師范大學(xué)哲學(xué)社會(huì)科學(xué)報(bào)告支持項(xiàng)目“基于大數(shù)據(jù)的我國(guó)彩票業(yè)發(fā)展監(jiān)測(cè)平臺(tái)研究”(編號(hào):SKZZP2013003)資助。

陳海平,男,北京師范大學(xué)心理學(xué)院,博士

1北京師范大學(xué)心理學(xué)院(北京 100875)

2北京市人事考試中心(北京 100036)

猜你喜歡
區(qū)分度信息量測(cè)驗(yàn)
淺談試卷分析常用的幾個(gè)參數(shù)及其應(yīng)用
基于信息理論的交通信息量度量
圖形推理測(cè)量指標(biāo)相關(guān)性考察*
江淮論壇(2018年4期)2018-08-24 01:22:30
《新年大測(cè)驗(yàn)》大揭榜
淺觀一道題的“區(qū)分度”
兩個(gè)處理t測(cè)驗(yàn)與F測(cè)驗(yàn)的數(shù)學(xué)關(guān)系
考試周刊(2016年88期)2016-11-24 13:30:50
如何增加地方電視臺(tái)時(shí)政新聞的信息量
新聞傳播(2016年11期)2016-07-10 12:04:01
單維參數(shù)型與非參數(shù)型項(xiàng)目反應(yīng)理論項(xiàng)目參數(shù)的比較研究*
基于多尺度互信息量的數(shù)字視頻幀篡改檢測(cè)
你知道嗎?
平利县| 驻马店市| 长治市| 涟水县| 蒙阴县| 固镇县| 台州市| 南充市| 高邮市| 柳江县| 社会| 固镇县| 山丹县| 义乌市| 界首市| 封丘县| 佛冈县| 莱西市| 青州市| 岱山县| 博野县| 荔波县| 昭觉县| 衡东县| 全南县| 西藏| 阳朔县| 如皋市| 皮山县| 巧家县| 威海市| 津南区| 增城市| 卢龙县| 台前县| 玛纳斯县| 抚州市| 青州市| 弋阳县| 余江县| 诏安县|