国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

項(xiàng)目反應(yīng)理論在中考命題質(zhì)量評(píng)價(jià)中的應(yīng)用

2014-02-08 03:25楊建芹
關(guān)鍵詞:區(qū)分度測(cè)驗(yàn)特質(zhì)

趙 娟,楊建芹

(大連教育學(xué)院 學(xué)習(xí)質(zhì)量監(jiān)測(cè)中心,遼寧 大連 116021)

項(xiàng)目反應(yīng)理論在中考命題質(zhì)量評(píng)價(jià)中的應(yīng)用

趙 娟,楊建芹*

(大連教育學(xué)院 學(xué)習(xí)質(zhì)量監(jiān)測(cè)中心,遼寧 大連 116021)

應(yīng)用項(xiàng)目反應(yīng)理論對(duì)中考命題質(zhì)量進(jìn)行分析,可以排除抽樣干擾,準(zhǔn)確評(píng)估試題的難度,客觀精細(xì)地描述試題的區(qū)分度,評(píng)估整套試卷和各試題對(duì)學(xué)生能力估計(jì)的精度,查找賦分標(biāo)準(zhǔn)和閱卷過(guò)程中存在的問(wèn)題。

中考命題;項(xiàng)目反應(yīng)理論;質(zhì)量評(píng)價(jià)

項(xiàng)目反應(yīng)理論是建立在潛在特質(zhì)理論基礎(chǔ)上的現(xiàn)代測(cè)量理論,簡(jiǎn)稱IRT。潛在特質(zhì)是指被試者不能被直接觀察到的某種穩(wěn)定的、支配其對(duì)相應(yīng)的測(cè)驗(yàn)項(xiàng)目做出反應(yīng),并對(duì)反應(yīng)表現(xiàn)出一致性的內(nèi)在特征(記為θ)。被試者的某個(gè)潛在特質(zhì)與測(cè)量該特質(zhì)的項(xiàng)目反應(yīng)之間存在著如下關(guān)系:隨著潛在特質(zhì)θ的提高,正確反應(yīng)該項(xiàng)目的概率P(θ)也提高。IRT是研究θ與P(θ)之間的函數(shù)關(guān)系,并用一定的數(shù)學(xué)模型來(lái)反映兩者關(guān)系的一種測(cè)量理論。[1]

IRT有三個(gè)理論假設(shè):一是能力單維性假設(shè),指組成某個(gè)測(cè)驗(yàn)的所有項(xiàng)目都是測(cè)量同一潛在特質(zhì);二是局部獨(dú)立性假設(shè),指對(duì)某個(gè)被試而言,項(xiàng)目間無(wú)相關(guān)存在;三是項(xiàng)目特征曲線假設(shè),指對(duì)被試某項(xiàng)目的正確反應(yīng)概率與其潛在特質(zhì)之間的函數(shù)關(guān)系所作的模型。

學(xué)業(yè)質(zhì)量測(cè)量可以建立學(xué)生能力這一潛在特質(zhì)與對(duì)試題的正確反應(yīng)概率之間的函數(shù)模型。目前,IRT已廣泛用于評(píng)價(jià)試卷(試題)質(zhì)量,指導(dǎo)試題篩選和測(cè)驗(yàn)編制等方面。

大連市中考是大規(guī)模的標(biāo)準(zhǔn)化考試,在命題過(guò)程中關(guān)注局部獨(dú)立性假設(shè),保證項(xiàng)目間無(wú)顯著相關(guān)。對(duì)測(cè)試數(shù)據(jù)進(jìn)行因素分析,證明各學(xué)科的測(cè)驗(yàn)滿足能力單維性假設(shè)。所以可以借助IRT對(duì)測(cè)驗(yàn)質(zhì)量進(jìn)行分析評(píng)價(jià)。

鑒于大連市中考各學(xué)科的數(shù)據(jù)特點(diǎn),依據(jù)兩參數(shù)模型(2-PL模型)和分步評(píng)分模型(GPCM),使用PARSCALE4軟件對(duì)中考各學(xué)科測(cè)驗(yàn)作出參數(shù)估計(jì),為命審題教師反思試題質(zhì)量提供實(shí)證的參考依據(jù);也為后繼的中考命題積累基礎(chǔ)項(xiàng)目和數(shù)據(jù),逐步提高中考命題的質(zhì)量。

一、IRT可以排除抽樣干擾,準(zhǔn)確評(píng)估試題難度

基于項(xiàng)目反應(yīng)模型可以估算出試題的難度參數(shù)b,并可通過(guò)項(xiàng)目特征曲線直觀地表示出來(lái)。

在經(jīng)典測(cè)驗(yàn)理論中,難度系數(shù)是指0、1計(jì)分試題的通過(guò)率,或非0、1計(jì)分試題的得分率。同一試題的難度系數(shù)會(huì)因抽樣不同而發(fā)生變化。在項(xiàng)目反應(yīng)理論中,難度被定義為試題本身固有的潛在特質(zhì),是指項(xiàng)目特征曲線拐點(diǎn)處的被試能力值。同一試題的難度不會(huì)因抽樣不同而發(fā)生變化。2-PL模型中,難度是指被試正確作答概率為0.5時(shí)對(duì)應(yīng)的能力值。當(dāng)被試能力高于試題難度時(shí),其正確作答的概率大于0.5;反之,則小于0.5。

項(xiàng)目特征曲線表示被試能力(θ)與項(xiàng)目正確反應(yīng)概率P(θ)的關(guān)系,如圖1,橫軸表示被試的能力量尺,b表示項(xiàng)目的難度參數(shù),可見被試的能力值和項(xiàng)目難度值在同一量尺上;縱軸表示不同能力被試正確作答該項(xiàng)目的概率。項(xiàng)目特征曲線可以依據(jù)被試的能力值預(yù)測(cè)出被試可能正確作答該項(xiàng)目的概率。

圖1 項(xiàng)目特征曲線1

根據(jù)圖1,能力為-2.125的被試(能力非常低)正確作答該項(xiàng)目的概率為50%,高于該能力的被試正確作答的概率高于50%,能力在0左右(能力中等)的被試,正確作答的概率接近100%。根據(jù)圖2,能力值為1.978的被試(能力非常高)正確作答該項(xiàng)目的概率為50%,低于該能力的被試正確作答該項(xiàng)目的概率低于50%,能力在0左右(能力中等)的被試,正確作答該項(xiàng)目的概率接近0。

圖2 項(xiàng)目特征曲線2

二、IRT可以更客觀精細(xì)地描述試題區(qū)分度

在經(jīng)典測(cè)驗(yàn)理論中,用來(lái)表示區(qū)分度的鑒別指數(shù)是指高能力水平被試與低能力水平被試在某一題目上得分率的差值。也可以用被試在某一題目上的得分與總分的相關(guān)系數(shù)表示試題的區(qū)分度。在項(xiàng)目反應(yīng)理論中,試題的區(qū)分度就是項(xiàng)目特征曲線上正確作答概率為0.5時(shí)曲線的斜率(a)。因此,項(xiàng)目特征曲線的斜率越大,則項(xiàng)目的區(qū)分度越高。

例1將16 000 000用科學(xué)記數(shù)法表示為__ 。

例1是一道非常簡(jiǎn)單的試題(P=0.97),由于抽取的樣本中能力非常低的學(xué)生數(shù)量少,所以,借助于經(jīng)典測(cè)量理論計(jì)算出的鑒別指數(shù)非常低(D=0.08)。項(xiàng)目特征曲線(圖3)則能夠清晰地呈現(xiàn)出該試題對(duì)能力非常低的考生群體有非常高的區(qū)分能力(a=1.279)。

圖3 例1的項(xiàng)目特征曲線

例2如圖(圖略),拋物線與y軸相交于點(diǎn)A,與過(guò)點(diǎn)A平行于x軸的直線相交于點(diǎn)B(點(diǎn)B在第一象限)。拋物線的頂點(diǎn)C在直線OB上,對(duì)稱軸與x軸相交于點(diǎn)D。平移拋物線,使其經(jīng)過(guò)點(diǎn)A、D,則平移后的拋物線的解析式為__。

例2是一道比較難的試題(P=0.10)。借助經(jīng)典測(cè)量理論計(jì)算出的鑒別指數(shù)沒(méi)有達(dá)到非常好的程度(D=0.32)。這是由于一些中上等的學(xué)生因?yàn)椴荒芤幌伦咏獯鸪鰜?lái)而放棄作答。而項(xiàng)目特征曲線(圖4)則能夠清晰地表明該試題對(duì)能力高的考生群體有非常高的區(qū)分能力(a=1.3)。

圖4 例2的項(xiàng)目特征曲線

由此可見,經(jīng)典測(cè)量理論中試題的區(qū)分度也明顯依賴于抽取的樣本,而IRT中的項(xiàng)目參數(shù)估計(jì)獨(dú)立于樣本,區(qū)分度參數(shù)a能更客觀精細(xì)地描述試題的區(qū)分度。

三、IRT可以評(píng)估整套試卷和各試題對(duì)學(xué)生能力估計(jì)的精度

在項(xiàng)目理論中,信息函數(shù)是用以刻畫一個(gè)測(cè)試或一道試題的有效性,它直接反映測(cè)驗(yàn)分?jǐn)?shù)對(duì)學(xué)生能力估計(jì)的精度。信息函數(shù)值越大,估計(jì)就越精確,測(cè)量誤差越小。

測(cè)驗(yàn)信息函數(shù)則是項(xiàng)目信息函數(shù)的累加和,測(cè)驗(yàn)信息函數(shù)反映了整個(gè)測(cè)驗(yàn)在評(píng)價(jià)不同特質(zhì)水平被試時(shí)的測(cè)量精度。測(cè)驗(yàn)提供的信息量越大,則該測(cè)驗(yàn)在評(píng)價(jià)該被試特質(zhì)水平時(shí)越精確,測(cè)量誤差越小。

一般認(rèn)為,當(dāng)測(cè)驗(yàn)的信息量達(dá)到25時(shí),即測(cè)量標(biāo)準(zhǔn)誤差等于0.2時(shí),測(cè)驗(yàn)質(zhì)量良好;信息量為16~25時(shí),測(cè)驗(yàn)有待改進(jìn)。[2]由于大連市中考是水平考試和選拔考試合二為一的考試,要求測(cè)驗(yàn)的信息量不低于16,但對(duì)每道試題的信息量沒(méi)有硬性規(guī)定。

圖5 數(shù)學(xué)學(xué)科的信息函數(shù)曲線

圖5是2013年大連市中考數(shù)學(xué)學(xué)科的信息函數(shù)曲線,由該圖可以看出,被試能力在-1.24 處,信息量最大,超過(guò)18。對(duì)能力在-1.64~0.78之間的考生(覆蓋了考生的73%)而言,信息量均不小于16。由此可見,2013年大連市中考數(shù)學(xué)學(xué)科的測(cè)驗(yàn)對(duì)絕大部分考生而言,測(cè)量精度比較高。

圖6是某試題的信息函數(shù)曲線,顯示該試題對(duì)于能力水平在0左右(中等能力水平)的考生測(cè)量誤差小,而對(duì)于能力非常高或低的考生測(cè)量誤差較大。

圖6 某題的信息函數(shù)曲線

四、IRT可以查找賦分標(biāo)準(zhǔn)和閱卷過(guò)程中存在的問(wèn)題

例3下面是從網(wǎng)上搜索的關(guān)于宋詞的資料,請(qǐng)分別提煉出主要信息。(不超出所給字格)(2分)

(1)在宋代的多種文學(xué)樣式中,宋詞代表著宋代文學(xué)的最高成就。兩宋期間,大批詞人不斷開闊寫作視野,創(chuàng)新寫作技巧,詞壇呈現(xiàn)出名家輩出、精品如林的鼎盛局面。

圖7 例3的項(xiàng)目特征曲線

(2)從藝術(shù)風(fēng)格上看,宋詞有以蘇軾、辛棄疾的作品為代表的豪放派,詞風(fēng)灑脫曠達(dá)、氣象恢弘,還有以柳永、李清照的作品為代表的婉約派,詞調(diào)蘊(yùn)藉清雅、意境柔婉。

該題設(shè)置了5個(gè)評(píng)分等級(jí)1、2、3、4、5,對(duì)應(yīng)的分值分別為0、0.5、1、1.5、2分。

圖7的特征曲線顯示,被試獲得2、4等級(jí)(0.5分、1.5分)的概率幾乎不隨被試能力的變化而變化。經(jīng)測(cè)算,跨步難度從1等級(jí)跨到2等級(jí)(0分~0.5分)需要的能力水平為4.972,幾乎不存在能達(dá)到此能力水平的被試。同樣,由3等級(jí)跨到4等級(jí)(1分~1.5分)也幾乎是不可能的,具體見表1。

表1 例3的項(xiàng)目參數(shù)

借助以上分析,可以看出在這一試題上,沒(méi)有必要設(shè)5個(gè)等級(jí),設(shè)3個(gè)等級(jí)(0、1、2分)即可。

例4生活中一定有讓你感到“是在愛(ài)的中心,在幸福的中心”的那一刻。請(qǐng)描述當(dāng)時(shí)情景。(7分)

圖8 例4的信息函數(shù)曲線

這是語(yǔ)文學(xué)科中一道讀寫結(jié)合試題。圖8是該題的信息函數(shù)曲線。從整體上看,此試題的信息量大,測(cè)試精度高。但0~1能力段的信息量低于其他能力段。鑒于以上分析,結(jié)合閱卷的實(shí)際情況可以推斷:在閱卷過(guò)程中,評(píng)卷者對(duì)中檔到中上檔的作答沒(méi)有能夠進(jìn)行精細(xì)的區(qū)分,評(píng)分誤差相對(duì)大。因此,以后類似試題的批閱應(yīng)該對(duì)中檔到中上檔的作答之間作出更細(xì)致的劃分,同時(shí)增加評(píng)分標(biāo)準(zhǔn)的可操作性。

[1]鐘軼,季曉輝.兩種教育測(cè)量理論在試卷質(zhì)量控制和評(píng)價(jià)中的應(yīng)用及其展望[J].南京醫(yī)科大學(xué)學(xué)報(bào):社會(huì)科學(xué)版,2013(1):66-69.

[2]趙守盈,石艷梅,朱丹.項(xiàng)目反映理論在大規(guī)模選拔考試試題質(zhì)量評(píng)價(jià)中的應(yīng)用[J].教育學(xué)報(bào),2013(1):74-76.

On Application of Item Response Theory to Evaluate the Test Question Quality of Senior High School Entrance Examination

ZHAO Juan,YANG Jian-qin
(Study Quality Monitoring Center,Dalian Education University,Dalian 116021,China)

The application of item response theory to analyze the test question quality of senior high school entrance examination can eliminate sampling disturbance,evaluate accurately the difficulty degrees of test questions,describe objectively and elaborately the discrimination of test questions,evaluate the assessment precision of students’ability by using the whole set of papers and the test questions,and find the problems of the grading standards and the scoring process.

question-setting of senior high school entrance examination;item response theory;quality evaluation

G632.4

A

1008-388X(2014)01-0017-03*

2014-01-03

趙娟(1966-),女,遼寧撫順人,教授。

惠人]

猜你喜歡
區(qū)分度測(cè)驗(yàn)特質(zhì)
文人的心理探索之“癡顛狂怪”特質(zhì)
淺談試卷分析常用的幾個(gè)參數(shù)及其應(yīng)用
圖形推理測(cè)量指標(biāo)相關(guān)性考察*
《新年大測(cè)驗(yàn)》大揭榜
論馬克思主義的整體性特質(zhì)
淺觀一道題的“區(qū)分度”
兩個(gè)處理t測(cè)驗(yàn)與F測(cè)驗(yàn)的數(shù)學(xué)關(guān)系
單維參數(shù)型與非參數(shù)型項(xiàng)目反應(yīng)理論項(xiàng)目參數(shù)的比較研究*
抓住特質(zhì),教出說(shuō)明文的個(gè)性
你知道嗎?