黃曉婷 韓雨婷 吳方文
(1.北京大學(xué),北京 100871;2.北京師范大學(xué),北京 100875;3.華東師范大學(xué),上海 200062)
近年來,社會(huì)對(duì)高考公平性的關(guān)注已經(jīng)逐步由程序公平擴(kuò)展到了考試內(nèi)容對(duì)不同群體學(xué)生是否公平上來。特別是高考語文作文題的公平性,曾引起媒體的熱議。例如,2015年的陜西省高考語文作文題為就女大學(xué)生舉報(bào)在高速路上違反交規(guī)的父親引發(fā)的爭(zhēng)議,給女兒、父親或其他相關(guān)方寫一封信。有一種觀點(diǎn)認(rèn)為這道題對(duì)于不了解高速公路及高速上不能打手機(jī)等規(guī)定的農(nóng)村學(xué)生不公平。
國(guó)際上已有很多成熟的統(tǒng)計(jì)模型來估算試題對(duì)于不同群體難度是否存在顯著差異。項(xiàng)目功能差異(Differential Item Functioning,DIF)檢驗(yàn)[1]是最合適、也是目前最常用的鑒別試題是否存在對(duì)某些群體不公平情況的方法。具體來說,DIF是指不同群體(如不同性別、族裔或地區(qū)等)的被試,在能力相同時(shí),在某試題上得分幾率的差異。當(dāng)差異較大時(shí),即DIF指數(shù)的絕對(duì)值在統(tǒng)計(jì)上顯著大于臨界值時(shí),被試在該題上的得分就不僅僅取決于他/她的知識(shí)或能力,而是在很大程度上還取決于被試所屬的群體,該題對(duì)不同的群體就不公平。例如,在上面提到的作文題中,如果學(xué)生得分的高低僅與其作文水平相關(guān),則試題沒有DIF;但如果學(xué)生因?yàn)樯钤谄h(yuǎn)農(nóng)村,不熟悉高速公路等背景知識(shí),從而無法正常完成作文,則可能出現(xiàn)顯著的DIF。
實(shí)際上,在國(guó)際上較為知名的大型標(biāo)準(zhǔn)化考試中,計(jì)算項(xiàng)目的公平指數(shù)已經(jīng)是題庫(kù)建設(shè)和維護(hù)的一項(xiàng)常規(guī)性工作,但我國(guó)在這方面的實(shí)證研究還較少。其中一個(gè)重要的原因在于已有的統(tǒng)計(jì)模型都是針對(duì)國(guó)外標(biāo)準(zhǔn)化考試的,試題絕大部分為客觀題(如單項(xiàng)選擇題、是非判斷題等),且試題的評(píng)分等級(jí)通常只有5個(gè)左右。而在我國(guó)的高考中,主觀題占據(jù)了相當(dāng)?shù)谋戎兀以u(píng)分等級(jí)常常多達(dá)20個(gè),作文題的評(píng)分等級(jí)理論上多達(dá)61級(jí),數(shù)據(jù)結(jié)構(gòu)與國(guó)外標(biāo)準(zhǔn)化考試存在顯著的差異。因此,已有的統(tǒng)計(jì)方法不一定適用。針對(duì)上述問題,本研究先通過模擬實(shí)驗(yàn),從已有的DIF檢驗(yàn)方法中甄選出最優(yōu)方案,再以2015年語文高考的實(shí)證數(shù)據(jù)為例,檢驗(yàn)作文的城鄉(xiāng)公平性。
目前,國(guó)際上已經(jīng)有很多種計(jì)算DIF的方法,各種方法都有以下步驟:
第一步,獲得測(cè)試數(shù)據(jù)。
第二步,明確要對(duì)比的群體,即目標(biāo)組和參照組。
第三步,確定匹配變量。由于DIF不是直接對(duì)比兩組被試的得分高低,而是對(duì)比不同組中能力相同的被試在某道試題上的得分情況,因此,需要先估算被試的能力,再對(duì)同樣能力的被試進(jìn)行對(duì)比。被試能力,通常就是DIF分析中的匹配變量。匹配變量有兩類:測(cè)驗(yàn)總分(即原始分),或是由項(xiàng)目反應(yīng)模型(item response model)估算的被試的潛在真實(shí)能力(即潛變量)[2]。
第四步,估算DIF指數(shù)。根據(jù)是否使用項(xiàng)目反應(yīng)理論或其他測(cè)量模型,檢驗(yàn)DIF的方法可以相應(yīng)地分為兩類:參數(shù)檢驗(yàn)方法(使用項(xiàng)目反應(yīng)理論或其他測(cè)量模型的方法)和非參數(shù)檢驗(yàn)方法(不使用項(xiàng)目反應(yīng)理論或其他測(cè)量模型的方法)。表1展示了每個(gè)類別中的一些常用的檢驗(yàn)方法。
表1 常見DIF檢測(cè)方法
第五步,對(duì)于統(tǒng)計(jì)方法識(shí)別出來的有顯著DIF的試題,還需要進(jìn)一步分析可能的原因和對(duì)應(yīng)的修改辦法。
表1中羅列的方法都適用于一般標(biāo)準(zhǔn)化考試中的選擇題和分步計(jì)分題。但是要用來分析高考作文題時(shí),需要先解決兩個(gè)問題。
第一個(gè)問題是找到匹配變量。過去的標(biāo)準(zhǔn)化考試往往是單一維度的,也就是說所有的試題都在測(cè)量同一種潛在能力。此時(shí),匹配變量可以采用總分或由項(xiàng)目反應(yīng)理論計(jì)算出的潛在能力①有一些方法會(huì)多次循環(huán),排除所有有DIF的試題,用DIF-free的試題作為匹配變量。。近年來,越來越多的測(cè)試是多維度的。當(dāng)每個(gè)維度有相當(dāng)數(shù)量的試題時(shí),研究者可以用該維度的總分或該維度能力潛變量估值作為匹配變量。在高考語文中,測(cè)試學(xué)生作文能力的題僅有1道作文題。如果簡(jiǎn)單地用語文總分或語文能力潛變量,很可能無法較為準(zhǔn)確地匹配能力相同的考生。當(dāng)測(cè)試中沒有相同類別的試題時(shí),匹配變量只能用所測(cè)能力最接近的試題組來代替。除作文題外,高考語文試卷在內(nèi)容上還包含閱讀和表達(dá)兩大類;從題型來說,也有選擇題和開放題②不含默寫式的填空題。兩類。我們分別計(jì)算了不同內(nèi)容的得分、不同題型的得分與作文得分的相關(guān)系數(shù),結(jié)果如表2所示。從表2可以看出,開放題與作文成績(jī)的相關(guān)性最高,基本達(dá)到了匹配變量的使用標(biāo)準(zhǔn),因此,我們將12道開放題的成績(jī)(或由此估算出的潛在能力)作為匹配變量。
表2 不同內(nèi)容、題型與作文題得分的相關(guān)系數(shù)
第二個(gè)問題是模型是否能處理多評(píng)分等級(jí)的項(xiàng)目。在常見的標(biāo)準(zhǔn)化考試中,單項(xiàng)選擇題是0/1計(jì)分,分步計(jì)分題大多數(shù)采用0~5之間的整數(shù),很少有超過10個(gè)分值級(jí)別的。但在高考作文中,總分為60分,理論上就有61個(gè)評(píng)分等級(jí)。在已有的理論研究和實(shí)證分析中,尚未嘗試過分析這種形態(tài)的數(shù)據(jù)。因此,我們無法直接判斷哪種模型能最精確地檢驗(yàn)出DIF。
為了選出檢驗(yàn)高考語文作文題是否存在DIF的最佳方法,我們從不同參數(shù)類型和匹配變量類型中,各選取1~2種較為常用的方法,通過模擬研究,來比較哪種方法能更靈敏、更精確地檢測(cè)出類似高考作文分?jǐn)?shù)的數(shù)據(jù)中的DIF。具體來說,我們選取了以下 4 種 DIF 檢驗(yàn)的方法:P-MH[3]、P-STND[4]、P-SIBTEST[5]和基于PCM(Conquest內(nèi)置)的DIF檢驗(yàn)方法[6]。
在模擬研究中,除了這4種方法外,還有2個(gè)重要的控制條件。一是DIF的大小。由于不知道高考作文題是否存在DIF或DIF的效應(yīng)值多大,我們?cè)O(shè)定了3種情況,即很?。珊雎?,效應(yīng)值為0.1)、中等大?。ㄐ?yīng)值為0.5)和嚴(yán)重DIF(效應(yīng)值為0.8)。第二個(gè)控制條件是試題的評(píng)分等級(jí)數(shù)。高考作文題雖然理論上有61個(gè)等級(jí),但在實(shí)際測(cè)試中,并非所有等級(jí)都會(huì)被經(jīng)常使用。沒有使用到或很少被使用的分?jǐn)?shù)等級(jí)往往會(huì)被合并。因此,我們?cè)谀M研究中也設(shè)置了3種不同的分?jǐn)?shù)等級(jí):10(0~9分)、21(0~20分)和41(0~40分)。這樣,結(jié)果對(duì)于其他10~20級(jí)評(píng)分的開放題也有借鑒意義。綜上,模擬研究采用了4×3×3的完全隨機(jī)設(shè)計(jì)(即4種DIF檢驗(yàn)方法、3種DIF大小、3種分?jǐn)?shù)等級(jí))。
模擬過程如下:
1)參考高考試題的難度分布,固定20個(gè)項(xiàng)目的難度參數(shù)。
2)將其中1題設(shè)為作文題,分別加上0.1、0.5和0.8的DIF。
3)隨機(jī)生成16 524個(gè)被試的能力參數(shù)(同實(shí)證數(shù)據(jù)的樣本量),隨機(jī)將1/3的被試分為目標(biāo)組(農(nóng)村),2/3為參照組(城市)。
4)根據(jù)被試能力、組別和項(xiàng)目難度,生成作答數(shù)據(jù)。
5)采用傾向性匹配法,根據(jù)“作文題”以外的19道題的得分情況,將兩組被試進(jìn)行匹配。
6)隨機(jī)抽樣。當(dāng)樣本量太大時(shí),任何微小的差異都會(huì)被檢測(cè)出來,從而放大“Ⅰ類錯(cuò)誤”的概率。因此,樣本量并非越大越好。根據(jù)董圣鴻等人的模擬研究[7],SIBTEST方法的樣本量在1 000~2 000時(shí),就能得到很好的DIF檢出效果。因此,本研究對(duì)能力匹配后的5 718對(duì)樣本進(jìn)行隨機(jī)抽樣,最后得到1 000對(duì)樣本(城鄉(xiāng)被試各1 000人)。
7)分別采用 P-MH、P-STND、P-SIBTEST和Conquest內(nèi)置DIF檢驗(yàn)方法,對(duì)隨機(jī)抽樣得到的作答數(shù)據(jù)進(jìn)行DIF檢驗(yàn),記錄每一次運(yùn)算的結(jié)果。
8)在每種條件下(4×3×3,共36種),重復(fù)試驗(yàn)100次。
在得到對(duì)模擬數(shù)據(jù)的DIF檢驗(yàn)結(jié)果后,我們依據(jù)該方法犯“Ⅰ類錯(cuò)誤”概率和統(tǒng)計(jì)檢驗(yàn)力來比較4種方法的優(yōu)劣。所謂“Ⅰ類錯(cuò)誤”,就是指把一些沒有DIF的項(xiàng)目錯(cuò)誤地檢測(cè)為存在DIF的情況。如果某種DIF檢測(cè)方法犯“Ⅰ類錯(cuò)誤”的概率較高,那么這種方法會(huì)把某些高質(zhì)量的、沒有DIF的項(xiàng)目誤判為存在DIF,對(duì)DIF真正原因的檢測(cè)帶來很大的困擾。統(tǒng)計(jì)檢驗(yàn)力則是指某種方法正確檢驗(yàn)出實(shí)際存在DIF的能力。
在模擬研究中,我們主要采用統(tǒng)計(jì)軟件R和項(xiàng)目反應(yīng)模型軟件ConQuest來進(jìn)行數(shù)據(jù)分析。其中,使用P-MH和P-STND方法時(shí),采用了R語言的自編程序;使用P-SIBTEST方法時(shí),采用了R語言中的mirt包;使用基于PCM的方法時(shí),采用了ConQuest軟件。
模擬研究的結(jié)果見表3~表5。表3展示了當(dāng)DIF很小,在統(tǒng)計(jì)上可以忽略不計(jì)時(shí),4種方法犯“Ⅰ類錯(cuò)誤”的概率。P-STND和基于PCM的方法表現(xiàn)較好,沒有出現(xiàn)“Ⅰ類錯(cuò)誤”。P-SIBTEST最差,“Ⅰ類錯(cuò)誤”率在處理41級(jí)計(jì)分時(shí)高達(dá)98%。P-MH和P-SIBTEST出現(xiàn)“Ⅰ類錯(cuò)誤”概率較高的原因可能是χ2統(tǒng)計(jì)量對(duì)樣本量變化敏感,當(dāng)樣本容量較大時(shí),微小的差異都會(huì)造成顯著的檢驗(yàn)結(jié)果。
表3 DIF可忽略時(shí)(DIF=0.1),4種方法犯“Ⅰ類錯(cuò)誤”的概率
表4顯示了當(dāng)DIF為中等大小時(shí),4種不同方法的統(tǒng)計(jì)檢驗(yàn)力。可以發(fā)現(xiàn),基于PCM的方法在處理10級(jí)、21級(jí)和41級(jí)計(jì)分的項(xiàng)目中都表現(xiàn)最佳。P-STND在處理10級(jí)和21級(jí)計(jì)分的項(xiàng)目時(shí)也達(dá)到了100%的檢出率,但在處理41級(jí)計(jì)分的項(xiàng)目時(shí),檢出率略低于基于PCM的方法。P-MH方法則在處理10級(jí)計(jì)分項(xiàng)目時(shí)稍顯不足。
表4 存在中等DIF時(shí)(DIF=0.5),4種方法的統(tǒng)計(jì)檢驗(yàn)力
從表5我們可以看出,當(dāng)DIF較大時(shí),基于PCM的方法再次顯示了最強(qiáng)的統(tǒng)計(jì)檢驗(yàn)力。P-STND在這種情況下,和基于PCM的方法不相上下。另兩種方法盡管都有所提高,但仍然低于P-STND和基于PCM的方法。
表5 存在較大DIF時(shí)(DIF=0.8),4種方法的統(tǒng)計(jì)檢驗(yàn)力
由此可見,基于PCM的方法在各種情況下都最為靈敏和準(zhǔn)確。這種方法對(duì)DIF參數(shù)的估算與我們?cè)O(shè)定的值十分接近(如表6)。經(jīng)過100次重復(fù)模擬,當(dāng)項(xiàng)目為10級(jí)計(jì)分時(shí),這種方法對(duì)DIF指數(shù)的估值是0.1051,標(biāo)準(zhǔn)誤為0.0081,與設(shè)定值的差異在統(tǒng)計(jì)上不顯著。從全表來看,當(dāng)真實(shí)的DIF值(設(shè)定值)較小時(shí),這種方法傾向于高估DIF指數(shù),計(jì)分等級(jí)越多,高估傾向越明顯。當(dāng)真實(shí)的DIF值(設(shè)定值)較大時(shí),這種方法傾向于低估DIF指數(shù),計(jì)分等級(jí)越多,低估傾向越明顯。但估計(jì)值與真實(shí)值的差異都不顯著。由于基于PCM的方法犯“Ⅰ類錯(cuò)誤”的概率更小,統(tǒng)計(jì)檢驗(yàn)力更高,估計(jì)較為精準(zhǔn),因此是檢測(cè)高考作文題是否存在DIF的首選。
表6 不同條件下基于PCM的方法對(duì)DIF大小的估算結(jié)果
模擬實(shí)驗(yàn)表明基于PCM的方法在前述4種方法中最適合用來檢驗(yàn)高考作文題是否存在DIF。因此,我們用這種方法對(duì)2015年高考語文作文題進(jìn)行了分析。從東北部某省的考生中隨機(jī)抽取16 524個(gè)樣本(該省總樣本量的5%),其中城市學(xué)生5 718名,農(nóng)村學(xué)生10 806名。初步的統(tǒng)計(jì)描述結(jié)果顯示,城市學(xué)生平均作文成績(jī)?yōu)?0.44分,農(nóng)村學(xué)生平均作文成績(jī)?yōu)?9.95分。盡管兩組學(xué)生成績(jī)差異的t檢驗(yàn)顯著,但實(shí)際效應(yīng)值非常小,僅為0.114。
隨后,使用2015年語文試卷中的12道開放題作為錨題,對(duì)考生進(jìn)行能力匹配。運(yùn)用ConQuest內(nèi)置的程序進(jìn)行運(yùn)算。結(jié)果顯示,12道開放題加1道作文題(共13題)的總體信度為0.66①信度不太高的主要原因可能有兩個(gè)方面,一是題量較少,二是開放題和作文題都受評(píng)分員的較大影響。。試題與分步計(jì)分模型(PCM模型)的擬合良好。DIF指數(shù)為0.012,也就是說作文題對(duì)城鎮(zhèn)學(xué)生比對(duì)農(nóng)村學(xué)生難度差異為0.012,這一差異非常微小,實(shí)際的效應(yīng)值低于Paek指出的臨界值0.426,因此可以忽略。因此,2015年高考語文作文試題不存在顯著的城鄉(xiāng)差異。
公平是高考的基本要求,確保試題對(duì)不同群體考生公平是高考命題和題庫(kù)建設(shè)十分重要的環(huán)節(jié)。DIF分析可以為試題的公平性提供實(shí)證依據(jù)。在本研究中,通過模擬實(shí)驗(yàn)對(duì)現(xiàn)有的DIF檢驗(yàn)方法進(jìn)行了甄選,并嘗試運(yùn)用選出的最佳方法分析實(shí)證數(shù)據(jù)。
本實(shí)證研究還存在一些局限性:一是對(duì)學(xué)生城鄉(xiāng)背景的劃分基于戶籍。隨著我國(guó)城鎮(zhèn)化的飛速發(fā)展、人口向縣城集中等因素,用學(xué)生實(shí)際生活所在地來劃分會(huì)更加科學(xué)。二是在上面的分析中,只關(guān)注了城鄉(xiāng)DIF,而性別DIF、民族DIF等也是保證試題公平性不可忽視的部分。
統(tǒng)計(jì)方法為檢驗(yàn)DIF提供了手段,未來還需要對(duì)存在DIF的試題進(jìn)行深入的質(zhì)性分析,尋找造成DIF的可能原因。只有在命題中避免了這些因素,命題質(zhì)量才能不斷提高。
[1]HOLLAND P W,WAINER H.Differential item functioning[M].Hill?sdale,NJ:Erlbaum,1993.
[2]POTENZA M T,DORANS N J.DIF assessment for polytomously scored items:A framework for classification and evaluation[J].Ap?plied Psychological Measurement,1995,19(1):23-37.
[3]MANTEL N,HAENSZEL W.Statistical aspects of the analysis of data from retrospective studies of disease[J].Journal of the National Cancer Institute,1959,22(4):719-748.
[4]MANTEL N.Chi-square tests with one degree of freedom;exten?sions of the Mantel-Haenszel procedure[J].Journal of the American Statistical Association,1963,58(303):690-700.
[5]DORANS N J,KULICK E.Demonstrating the utility of the standard?ization approach to assessing unexpected differential item perfor?mance on the Scholastic Aptitude Test[J].Journal of educational measurement,1986,23(4):355-368.
[6]SHEALY R,STOUT W.A model-based standardization approach that separates true bias/DIF from group ability differences and de?tects test bias/DIF as well as item bias/DIF[J].Psychometrika,1993,58(2):159-194.
[7]董圣鴻,馬世曄.三種常用dif檢測(cè)方法的比較研究[J].心理學(xué)探新,2001,21(1):43-48.