張穎 盧燕 馮攀 何佳
醫(yī)師資格考試醫(yī)學(xué)綜合筆試“一卷多式”等效性研究
張穎 盧燕 馮攀 何佳
從2009年開始醫(yī)師資格考試醫(yī)學(xué)綜合筆試臨床執(zhí)業(yè)醫(yī)師類別實行“一卷多式”,即試卷的內(nèi)容相同,但試題順序和選項順序不同。為了檢驗不同卷式之間的等效性,本文通過PASS軟件確定了所需要的最適樣本量,借鑒了平行試卷的概念,使用了平行試卷的分析方法,重點從題目功能和結(jié)果分?jǐn)?shù)兩個角度進(jìn)行了討論。數(shù)據(jù)顯示,2010年醫(yī)師資格考試醫(yī)學(xué)綜合筆試(臨床執(zhí)業(yè)醫(yī)師)各單元內(nèi)不同卷式之間的平均數(shù)差異基本低于1分,分?jǐn)?shù)分布形態(tài)基本相似;同一題目不同卷式難度和區(qū)分度的差異很小,基本都不超過0.02。結(jié)果表明2010年醫(yī)師資格考試醫(yī)學(xué)綜合筆試(臨床執(zhí)業(yè)醫(yī)師)不同卷式之間基本等效。
一卷多式;平行試卷;等效性
醫(yī)師資格考試于1999年正式實施,作為行業(yè)準(zhǔn)入考試,其設(shè)立的目的就是評價申請醫(yī)師資格者是否具備從事醫(yī)師工作所必需的職業(yè)精神、專業(yè)知識與技能。考試分為兩級四類,即執(zhí)業(yè)醫(yī)師和執(zhí)業(yè)助理醫(yī)師兩級;每級分為臨床、中醫(yī)、口腔、公共衛(wèi)生四類??荚嚨膬?nèi)容主要包括實踐技能考試和醫(yī)學(xué)綜合筆試兩部分。[1]
醫(yī)師資格考試自舉辦以來,考生逐年增加,考風(fēng)考紀(jì)問題日益突出,作弊形式多樣,作弊手段日益先進(jìn),作弊防范難度增加。為了防范考試中的作弊現(xiàn)象,維護(hù)醫(yī)師資格考試的公平與公正性,衛(wèi)生部相關(guān)考試管理部門逐年加強(qiáng)了考試組織的管理,為考場安裝監(jiān)控設(shè)備,為監(jiān)考人員配備高科技防作弊儀器,與其他公共治安管理部門合作,在考試期間協(xié)同“作戰(zhàn)”治理作弊現(xiàn)象。2009年,國家醫(yī)師資格考試中心開始使用“一卷多式”的考試模式來防治愈演愈烈的考試作弊情況。根據(jù)考后對“錯同率”的研究證明,“一卷多式”考試模式對加強(qiáng)考試管理,抑制考試作弊起到了至關(guān)重要的作用。[2]
但是不同卷式是否具有等效性,影響考試的公平性?查詢國內(nèi)文獻(xiàn),對于一卷多式的研究很少,國外文獻(xiàn)的研究基本也是集中在單個試題相關(guān)指標(biāo)的變化上。因此,本研究嘗試將“一卷多式”的概念放在更廣義的測驗等效這個范疇中,將其與平行試卷這個概念進(jìn)行類比,通過使用分析平行試卷的方法來驗證“一卷多式”的等效性。
平行試卷是指在試題題量、題型、知識內(nèi)容結(jié)構(gòu)、考試結(jié)果的一致性與分?jǐn)?shù)的可比性都完全一致的兩套乃至多套試卷。而一卷的多個卷式因基本上為一套試題順序和選項的不同組合,在前面幾個因素上都具有一致性的前提下,最后兩個因素便成為了探討卷式等效性的關(guān)鍵因素。本研究即嘗試以對考試結(jié)果一致性與分?jǐn)?shù)可比性為基礎(chǔ),通過對不同卷式考生分?jǐn)?shù)的分布、差異性檢驗,以及試題參數(shù)差異的計算分析,來驗證一卷多式的等效性。
本研究使用了2010年參加醫(yī)師資格考試醫(yī)學(xué)綜合筆試(臨床執(zhí)業(yè)醫(yī)師)考生的數(shù)據(jù),由于考生數(shù)量較多,在進(jìn)行分析時考慮了差異性檢驗的統(tǒng)計效力以及分層隨機(jī)抽樣方法的特點對樣本量作了估計,并根據(jù)得出的樣本數(shù)對總體隨機(jī)取樣。研究中所使用的具體樣本量及計算方法將在研究結(jié)果部分詳細(xì)闡述。
本研究首先討論的是對總體抽樣的樣本量估算問題。一般抽樣樣本量是根據(jù)具體抽樣方法計算得出的。由于本研究是以單元為基礎(chǔ),各卷式分別抽取一定比例考生,合成樣本總體,屬于典型的分層抽樣,因此應(yīng)該采用分層抽樣對樣本量的計算方法。但由于本研究將對抽取出的樣本進(jìn)行方差分析,區(qū)間估計等統(tǒng)計檢驗,所以為了提高統(tǒng)計檢驗的效力,本研究還根據(jù)這些分析方法的特點使用PASS軟件分別計算了達(dá)到一定效力標(biāo)準(zhǔn)(α=0.05;β=0.1)所需要的最適樣本量。
在驗證不同卷式之間的等效性時,本研究借鑒了平行試卷的概念,即對副本試卷之間是否具有平行性的檢驗方法來進(jìn)行分析。如前所述,復(fù)本試卷的平行性可界定為相同專業(yè)下同一課程的不同復(fù)本試卷在形式、內(nèi)容、功能和結(jié)果分?jǐn)?shù)上的一致性和可比性[3]。同復(fù)本試卷平行性有關(guān)的因素主要分為四類:試卷結(jié)構(gòu)、題目內(nèi)容、題目功能和結(jié)果分?jǐn)?shù)。[4]由于醫(yī)師資格考試的“一卷多式”采用的是將標(biāo)準(zhǔn)卷的試題重排為幾個不同卷式的方法,因此多個卷式之間的題目本身是相同的,形式和內(nèi)容上也都必然一致,基本上具有一致性和可比性,所以本研究基本集中在對題目功能和結(jié)果分?jǐn)?shù)兩個角度的分析討論上。
對結(jié)果分?jǐn)?shù)的分析上,本研究的重點放在了對同一單元內(nèi)不同卷式之間分?jǐn)?shù)的比較上,一方面對各個卷式的考生分布形態(tài)進(jìn)行研究,另一方面則采用方差分析的方法檢驗同一單元內(nèi)不同卷式考生的得分之間是否存在顯著差異。
對題目功能的分析上,本研究則注重在對不同卷式同一題目的參數(shù)變化上,分析內(nèi)容包括難度的變化以及區(qū)分度的變化,目的是用這種方法來檢驗卷式的不同是否會對題目本身的參數(shù)產(chǎn)生影響。
表1 不同檢驗方法各單元所需樣本量(α=0.05;β=0.1)
表1所示,為使用PASS軟件估算得出的每單元所需的樣本總量。由于醫(yī)師資格考試“一卷多式”是以單元為基礎(chǔ),也即每個單元都各自使用了5個卷式,而后面所作的其他各項差異分析基本也是單元內(nèi)各卷式的比較,所以表中計算的是各個單元5種卷式加和后所需的樣本總量。
表中共使用了三種方法計算樣本量,每種估算標(biāo)準(zhǔn)都滿足α=0.05,統(tǒng)計效力為0.9,也即β=0.1。第一種方法是區(qū)間估計,即使用樣本平均數(shù)估計總體平均數(shù)時要達(dá)到以上統(tǒng)計效力所需最適樣本數(shù);第二種方法為進(jìn)行方差分析達(dá)到以上統(tǒng)計效力所需最適樣本數(shù);第三種方法為分層抽樣所需最低樣本數(shù)。
一般的統(tǒng)計抽樣只使用最后一種方法來估算抽樣樣本量,但由于本研究后面將涉及方差分析和區(qū)間估計等統(tǒng)計分析,為了保證這兩種統(tǒng)計分析的統(tǒng)計效力,也分別對它們作了相應(yīng)的樣本量估算。綜合以上三種估算方法,方差分析所需樣本量最大,因此本研究采用了此方法得出的樣本量來進(jìn)行抽樣。同時為了方便計算樣本量,各單元統(tǒng)一取整10 000個考生樣本,同一單元不同卷式按照各自的考生數(shù)量比例抽取,各單元各卷式實際抽取樣本量見表2。
表2為各單元各卷式樣本考生的人數(shù)、平均數(shù)、標(biāo)準(zhǔn)差、眾數(shù)及中數(shù)等描述性指標(biāo)。由表可知,各單元各卷式之間的平均數(shù)和標(biāo)準(zhǔn)差相差很小,單元內(nèi)卷式平均數(shù)最高與最低值之間的差異都在1.5分以內(nèi)。圖1為各單元各卷式分布圖,由圖中可知,單元內(nèi)各卷式之間的分布形態(tài)基本一致。
表2 各單元各卷式樣本統(tǒng)計描述
圖1 各單元各卷式樣本分布
表3為單元內(nèi)各卷式之間的方差分析檢驗結(jié)果。在進(jìn)行方差分析前,先使用了SPSS軟件內(nèi)ANOVA分析模塊的齊次性檢驗對各單元內(nèi)卷式之間的方差齊次性進(jìn)行了檢驗,結(jié)果表明單元內(nèi)各卷式方差之間的差異均不顯著,基本認(rèn)定滿足方差分析的假設(shè)條件。繼續(xù)使用SPSS軟件ANOVA模塊進(jìn)行各單元方差分析,得到結(jié)果如表3所示。從表3中可知,各單元各卷式檢驗所得P值都大于0.05水平,也就是說各卷式平均數(shù)之間的差異均不顯著,無法推翻原假設(shè),因此可以認(rèn)為同一單元內(nèi)各卷式之間的平均數(shù)基本相等。
表3 各單元不同卷式方差檢驗結(jié)果
表4為各單元不同卷式試題難度的統(tǒng)計描述結(jié)果。為了檢驗試題參數(shù)的一致性,本研究分別計算了各個單元下同一試題在不同卷式中的難度參數(shù),并以單元為基礎(chǔ)進(jìn)行了統(tǒng)計描述分析,結(jié)果如表4所示。從表中可以看出,每個單元每個卷式的試題平均難度都在中等難度0.5~0.6之間,難度最大值接近1,難度最小值接近0.1。本研究中所使用的難度為試題的通過人數(shù)與總?cè)藬?shù)的比,也即通過率,所以難度數(shù)值越大,題目越容易。
表5為同一題目不同卷式所得難度值的差數(shù)分析結(jié)果。具體的計算方法為將同一試題不同卷式所得的難度值兩兩相減,由于每道試題分別對應(yīng)5個卷式,排列組合,也即共有10種兩兩相減的形式,分別計算出這10個差數(shù);因這里的相減沒有涉及方向,所以將10個差數(shù)都取絕對值后進(jìn)行平均,即得到此題的平均差數(shù)。最后以單元為基礎(chǔ)計算各單元內(nèi)部150題的平均難度的各種統(tǒng)計指標(biāo),結(jié)果如表5所示。從表5可知同一試題不同卷式之間的難度絕對差異平均數(shù)基本都在0.02左右,最大值不超過0.2,最小值均為0,全距(指最小值與最大值之間的距離)不超過0.2,因此可以認(rèn)為同一試題在不同卷式中所得難度參數(shù)的差異很小。
表4 各單元試題難度統(tǒng)計描述
表5 各單元同一試題不同卷式難度絕對差異分析
表6為區(qū)分度的統(tǒng)計描述結(jié)果。因醫(yī)師資格考試醫(yī)學(xué)綜合筆試題目均為選擇題,且為0/1計分,所以區(qū)分度的計算公式采用了點二列相關(guān)。如表6所示,各單元試題的區(qū)分度基本在0.2~0.3之間。
表7為同一試題不同卷式區(qū)分度絕對差異的分析結(jié)果。所使用的計算方法同難度差異的計算基本相同。從表7中可以看出,同一試題不同卷式之間的差異平均數(shù)不到0.03,最大值也只在0.1左右,因此可以認(rèn)為同一試題在不同卷式中所得難度參數(shù)的差異很小。
表6 各單元試題區(qū)分度統(tǒng)計描述
表7 各單元同一試題不同卷式區(qū)分度絕對差異分析
資格考試作為一種對人的知識、技能和創(chuàng)力進(jìn)行考核或評價的活動,其結(jié)果直接影響到考標(biāo)對象能否進(jìn)入就業(yè)領(lǐng)域和專業(yè)崗位,因此必須保證考標(biāo)的公平性、科學(xué)性和權(quán)威性[5]。“一卷多式”的考試模式正是為了防范考生作弊,保障考試的公正性所采取的措施。由于試題的排列順序、呈現(xiàn)方式等因素不同就有可能導(dǎo)致作答不同卷式的考生成績出現(xiàn)差異。因此對不同卷式之間的等效性進(jìn)行驗證分析就變得尤為必要。
本研究借鑒了經(jīng)典測量理論中平行測驗這個概念,嘗試從考生分?jǐn)?shù)與試題參數(shù)兩個方面來驗證不同卷式之間是否存在差異。從本研究得到的結(jié)果看,各單元5個卷式之間基本是等效的,單元內(nèi)各卷式之間的平均數(shù)差異基本不足1分,分布圖形態(tài)基本相似;同一題目各卷式難度和區(qū)分度的差異很小,基本都不超過0.02。這個結(jié)果證明了醫(yī)師資格考試醫(yī)學(xué)綜合筆試(臨床執(zhí)業(yè)醫(yī)師)“一卷多式”具有公平性。
但本研究所采用的試題參數(shù)還是經(jīng)典測驗理論下的難度與區(qū)分度,且只是以樣本總體作為計算對象。其實在對試題參數(shù)的變化進(jìn)行分析時可以參考項目功能差異的概念。項目功能差異(DIF)通常是指兩組被試選擇某項目的某一答案的概率除了自身的特質(zhì)水平外還要受到其他因素的影響,使得同一項目具有不同的特征曲線。[6]這個概念其實和本研究所討論的項目等效性基本相同,只是這里的其他影響因素為卷式不同。因此,下一步可以借鑒項目功能差異的分析方法,對試題參數(shù)的等效性進(jìn)行更深入的研究。
[1]盧燕,張穎.使用聚類分析驗證Angoff專家判斷法有效性的研究[J].中國考試,2010(5).
[2]凌玉.醫(yī)師資格考試考場管理和作弊防范措施效果評價[J].華夏醫(yī)學(xué),2010,6(23):310-312.
[3]王橋影,趙海燕.高等教育自學(xué)考試復(fù)本試卷的設(shè)計及其平行性控制[J].中國考試,2011(2).
[4]漆書青,戴海崎,丁樹良.現(xiàn)代教育與心理測量學(xué)原理[M].南昌:南昌江西教育出版社.1998.
[5]劉孟州.日本資格考試制度的現(xiàn)狀及對我們的啟示[J].日本研究,1998(2):52.
[6]Holland P W,Wainer H.Differential item functioning[M].Hills?dale,NJ:Erlaum,1993.
Equivalence Study of National Medical Licensing Examination Comprehensive Written Test
ZHANG Ying,LU Yan,FENG Pan and HE Jia
Since 2009,National Medical Licensing Examination Comprehensive Written Test(NMLE CW Test)has been given in the form of“same content with multiple sequences”.The same test content is presented to examinees with multiple types of item and option sequences.This paper studies the equivalence of papers with different sequences.The best sample size is calculated under the help of PASS software.Parallel paper is defined and analyzed.Discussion is made both from item function and final score.The data shows that the difference of average score between different papers applied in 2010 NMLE CW Test is less than 1.The distribution of scores is basically the same.Difficulty and differentiality varies little across papers(basically <0.02).The result shows that different papers applied in 2011 NMLE CW Test are equivalent.
Same Content with Multiple Sequences;Parallel Paper;Equivalence
G405
A
1005-8427(2012)02-0044-6