王欣怡 陳德枝
【摘要】學(xué)前教育質(zhì)量評價(jià)工具的公平性是保證評價(jià)科學(xué)化的前提,項(xiàng)目功能差異檢驗(yàn)是驗(yàn)證工具公平性的重要方法,但其在學(xué)前教育質(zhì)量評價(jià)領(lǐng)域的應(yīng)用存在諸多問題有待探究。本文梳理了項(xiàng)目功能差異檢驗(yàn)的基本概念、應(yīng)用和方法,闡明其是學(xué)前教育質(zhì)量評價(jià)公平性和誤差分析的主要表征和內(nèi)容,同時(shí)從檢驗(yàn)方法、檢驗(yàn)變量和成因分析等方面,對學(xué)前教育質(zhì)量評價(jià)的項(xiàng)目功能差異研究提出展望。
【關(guān)鍵詞】學(xué)前教育質(zhì)量評價(jià);項(xiàng)目功能差異;公平性
【中圖分類號】G610 【文獻(xiàn)標(biāo)識碼】A? ?【文章編號】1004-4604(2023)09-0024-06
學(xué)前教育質(zhì)量評價(jià)是指在系統(tǒng)、科學(xué)和全面地收集、整理、研究分析學(xué)前教育信息的基礎(chǔ)上,對學(xué)前教育價(jià)值做出判斷的過程。中共中央 國務(wù)院出臺《深化新時(shí)代教育評價(jià)改革總體方案》后,教育評價(jià)研究進(jìn)入了新時(shí)期。學(xué)前教育質(zhì)量評價(jià)通常需要質(zhì)量評價(jià)工具為其提供支持,公平的評價(jià)工具是保障評價(jià)結(jié)果科學(xué)性的前提。我國目前缺少關(guān)于學(xué)前教育質(zhì)量評價(jià)公平性的相關(guān)研究,但其重要性不容忽視。當(dāng)前,項(xiàng)目功能差異(Differential Item Functioning,DIF)檢驗(yàn)作為一種驗(yàn)證測量公平性的重要統(tǒng)計(jì)方法,可以避免因評價(jià)項(xiàng)目本身存在的偏差影響評價(jià)的公平性。因此,本文從項(xiàng)目功能差異檢驗(yàn)的基本內(nèi)涵、應(yīng)用和方法來探討其對學(xué)前教育質(zhì)量評價(jià)的價(jià)值,為保障學(xué)前教育質(zhì)量評價(jià)的公平性提供測量學(xué)方法,推動(dòng)學(xué)前教育高質(zhì)量發(fā)展。
一、項(xiàng)目功能差異檢驗(yàn)的基本內(nèi)涵與應(yīng)用
(一)項(xiàng)目功能差異檢驗(yàn)簡介
項(xiàng)目功能差異是指在控制群體水平后,同一個(gè)項(xiàng)目在不同群體中顯示的不同統(tǒng)計(jì)特性?!?〕具體而言,項(xiàng)目功能差異檢驗(yàn)首先依據(jù)評價(jià)對象特征(如性別、地域、種族等)將評價(jià)群體分成目標(biāo)組和參照組。一般把可能受到不公平對待的群體叫作目標(biāo)組(Focus Group),而與之相對的群體叫作參照組(Reference Group)。然后,判斷目標(biāo)組和參照組中被評價(jià)對象的水平是否相同。評價(jià)對象的水平(匹配變量)可以是觀察分?jǐn)?shù),即評價(jià)總得分或總等級,也可以是項(xiàng)目反應(yīng)理論的潛在水平值θ(由項(xiàng)目反應(yīng)模型所得)。最后,在控制評價(jià)群體水平的情況下,采用合適的項(xiàng)目功能差異檢驗(yàn)方法檢驗(yàn)不同被評價(jià)群體在同一項(xiàng)目上的評價(jià)分?jǐn)?shù)或等級是否存在差異。若存在,則說明該項(xiàng)目在不同群體中顯示不同統(tǒng)計(jì)特性,即存在項(xiàng)目功能差異。
項(xiàng)目功能差異的種類主要有一致性項(xiàng)目功能差異(Uniform DIF)和非一致性項(xiàng)目功能差異(Nonuniform DIF)。一致性項(xiàng)目功能差異指評價(jià)對象的水平和組別沒有交互作用。例如不管在任何班級質(zhì)量得分水平上,城市幼兒園在項(xiàng)目A上的評價(jià)等級永遠(yuǎn)高于農(nóng)村幼兒園,則代表存在一致性項(xiàng)目功能差異。非一致性項(xiàng)目功能差異是指二者存在交互作用,如在班級質(zhì)量得分較高水平上,城市幼兒園在項(xiàng)目B上的評價(jià)等級高于農(nóng)村幼兒園,在班級質(zhì)量得分較低水平上,農(nóng)村幼兒園在項(xiàng)目B上的評價(jià)等級卻高于城市幼兒園,這說明項(xiàng)目B存在非一致性項(xiàng)目功能差異。
(二)項(xiàng)目功能差異檢驗(yàn)的應(yīng)用
項(xiàng)目功能差異檢驗(yàn)在國內(nèi)被應(yīng)用于醫(yī)學(xué)、心理學(xué)、教育學(xué)等領(lǐng)域,主要是對這些領(lǐng)域的自陳式測驗(yàn)或量表的題目或項(xiàng)目進(jìn)行公平性檢驗(yàn)。如在醫(yī)學(xué)和心理學(xué)領(lǐng)域,檢驗(yàn)量表項(xiàng)目在性別、受教育程度、跨文化上是否存在項(xiàng)目功能差異?!?-4〕在教育學(xué)領(lǐng)域,相關(guān)研究多集中在數(shù)學(xué)和英語學(xué)科中,如檢驗(yàn)高考數(shù)學(xué)、高考英語題目在性別、城鄉(xiāng)上的項(xiàng)目功能差異。〔5,6〕除了以上常見的檢驗(yàn)變量外,一些研究者還從試卷語言角度對測驗(yàn)公平性進(jìn)行研究,結(jié)果發(fā)現(xiàn)語言也會(huì)導(dǎo)致項(xiàng)目功能差異。〔7,8〕綜合來看,相較于二級計(jì)分的項(xiàng)目,目前國內(nèi)多級計(jì)分項(xiàng)目的研究數(shù)量較少。但是,主觀性評價(jià)的項(xiàng)目通常是多級計(jì)分。這類項(xiàng)目容易受到文化、環(huán)境等因素影響,更容易出現(xiàn)項(xiàng)目功能差異?!?〕
在國外,項(xiàng)目功能差異檢驗(yàn)被廣泛用于大型的國際化教育評估,如國際學(xué)生評估項(xiàng)目(PISA)和課程評估等。〔10-12〕在學(xué)前教育領(lǐng)域,項(xiàng)目功能差異檢驗(yàn)常用于兒童發(fā)展評估,如對兒童數(shù)學(xué)和語言等認(rèn)知發(fā)展量表進(jìn)行檢驗(yàn)。〔13,14〕此外,還有研究探究在主觀性評價(jià)中如何選擇匹配變量的問題,如韋爾奇(Welch)等人的研究結(jié)果建議在主觀性評價(jià)中使用內(nèi)部匹配變量(當(dāng)前測評分?jǐn)?shù)),〔15〕但也有研究建議在主觀性評價(jià)中使用外部匹配變量(其他相關(guān)測試上的分?jǐn)?shù))?!?6〕
綜上,相較于自陳式量表,主觀性評價(jià)中有關(guān)項(xiàng)目功能差異的研究數(shù)量仍顯單薄,尤其是在學(xué)前教育質(zhì)量評價(jià)領(lǐng)域。目前還存在許多有待探討的問題,如匹配變量的選擇等。
二、項(xiàng)目功能差異檢驗(yàn)方法
(一)項(xiàng)目功能差異檢驗(yàn)方法概述
項(xiàng)目功能差異檢驗(yàn)依據(jù)不同的分類角度,常用的方法如表1所示?!?7〕其中,多級計(jì)分方法大多是在二級計(jì)分方法的基礎(chǔ)上衍生出來的。需要特別注意的是,以觀察分?jǐn)?shù)為匹配變量的方法既有參數(shù)形式,也有非參數(shù)形式,以潛在水平值θ為匹配變量的方法亦然。
(二)項(xiàng)目功能差異檢驗(yàn)方法的應(yīng)用步驟
目前,項(xiàng)目功能差異檢驗(yàn)在學(xué)前教育領(lǐng)域的應(yīng)用多集中在兒童發(fā)展評估,尤其是兒童發(fā)展量表的項(xiàng)目功能差異分析,已有研究在性別〔18〕、母親受教育水平、跨文化、語言〔19〕、殘疾和非殘疾〔20〕等方面對兒童發(fā)展量表的公平性進(jìn)行檢驗(yàn)。通常檢驗(yàn)總過程如圖1所示。其中最典型的應(yīng)用是雷斯特雷波(Restrepo)等人的研究。該研究的目的是檢驗(yàn)皮博迪圖片詞匯測試第三版(PPVTⅢ)是否存在跨文化項(xiàng)目功能差異?!?1〕第一步,研究確定以不同文化背景為分組變量;第二步,以非裔美國兒童為目標(biāo)組,歐裔美國兒童為參照組;第三步,將基于項(xiàng)目反應(yīng)理論模型估計(jì)的項(xiàng)目難度值作為匹配變量;第四步,通過t檢驗(yàn)比較項(xiàng)目難度值,檢驗(yàn)項(xiàng)目功能差異;第五步,當(dāng)檢驗(yàn)結(jié)果小于顯著性水平0.05時(shí),代表存在顯著的項(xiàng)目功能差異。結(jié)果顯示,共有10個(gè)項(xiàng)目存在項(xiàng)目功能差異,其中有3個(gè)項(xiàng)目偏向歐裔美國兒童,7個(gè)項(xiàng)目偏向非裔美國兒童。通過這種科學(xué)、有效的方法,可以檢驗(yàn)出評估量表中每一個(gè)可能對不同群體的兒童存在不公平的項(xiàng)目,盡可能確保所有項(xiàng)目都是公平的。
三、項(xiàng)目功能差異檢驗(yàn)對學(xué)前教育質(zhì)量評價(jià)的價(jià)值和展望
(一) 對學(xué)前教育質(zhì)量評價(jià)的價(jià)值
1.項(xiàng)目功能差異是學(xué)前教育質(zhì)量評價(jià)公平性的主要表征
學(xué)前教育質(zhì)量評價(jià)工具的公平性是學(xué)前教育質(zhì)量評價(jià)領(lǐng)域中受到廣泛關(guān)注的重要問題之一,直接關(guān)乎評價(jià)的公平與科學(xué)。如果評價(jià)項(xiàng)目存在公平性問題,那么評價(jià)結(jié)果的解釋、使用及其應(yīng)用都將是不合理的,從而限制研究結(jié)論的科學(xué)性和可推廣性?!督逃托睦頊y試標(biāo)準(zhǔn)》中提到,最重要、最基本的問題就是要求評價(jià)對所有被試應(yīng)是公平的,盡可能地讓被試不受阻礙地有機(jī)會(huì)展示其在所評價(jià)內(nèi)容上的實(shí)際水平?!?2〕然而,在評價(jià)工具編制和評價(jià)實(shí)施的過程中,難免會(huì)遇到一些與被評價(jià)目的無關(guān)的因素,這些因素可能會(huì)使某些群體處于不適當(dāng)?shù)膬?yōu)勢或劣勢。如有研究發(fā)現(xiàn),公辦園和民辦園所能獲得同等資源的機(jī)會(huì)是不一樣的。這兩類幼兒園在每個(gè)評價(jià)指標(biāo)上是否有同等機(jī)會(huì)表現(xiàn)出自身真實(shí)的教育質(zhì)量水平是一個(gè)值得關(guān)注的問題,可以對學(xué)前教育質(zhì)量評價(jià)項(xiàng)目或指標(biāo)進(jìn)行項(xiàng)目功能差異檢驗(yàn),從評價(jià)工具的測量公平性屬性方面來表征其公平性。
2.項(xiàng)目功能差異是學(xué)前教育質(zhì)量評價(jià)誤差分析的重要內(nèi)容
減少或控制偏差是保證評價(jià)效度的必要條件,在評價(jià)工具開發(fā)和使用的各個(gè)階段都需注意這一問題。有時(shí)我們并不清楚組間差異是否存在及其存在的原因,如不同幼兒園群體的評價(jià)結(jié)果存在顯著差異,到底是幼兒園群體間教育質(zhì)量水平的真實(shí)差異,還是某些偏倚來源(如與評價(jià)目的無關(guān)的偏見或評價(jià)內(nèi)容代表性不足)造成的。在大多數(shù)情況下,通??赡苁钦鎸?shí)差異和偏見的組合。另外,學(xué)前教育質(zhì)量評價(jià)是一種主觀性評價(jià)行為,在實(shí)踐中容易受評價(jià)者因素影響,對評價(jià)者的專業(yè)能力以及時(shí)間投入等方面都提出了較高的要求。有時(shí)評價(jià)者與評價(jià)對象的互動(dòng)可能會(huì)造成與評價(jià)目的無關(guān)的評價(jià)誤差。例如,幼兒園或班級的特點(diǎn)和評價(jià)者的評分寬嚴(yán)度間的交互作用可能會(huì)影響評價(jià)結(jié)果。項(xiàng)目功能差異檢驗(yàn)可以對存在偏差的評價(jià)項(xiàng)目、指標(biāo)等進(jìn)行篩選,為后續(xù)修訂提供佐證,盡可能減少評價(jià)的系統(tǒng)誤差。
總的來說,項(xiàng)目功能差異檢驗(yàn)可以為學(xué)前教育質(zhì)量評價(jià)工具的開發(fā)和修訂提供一種新視角和新方法,同時(shí)為學(xué)前教育質(zhì)量評價(jià)的可信性、有效性和權(quán)威性等提供現(xiàn)代測量學(xué)依據(jù),是提高學(xué)前教育質(zhì)量評價(jià)科學(xué)性的重要手段。
(二)展望
1.展望一:學(xué)前教育質(zhì)量評價(jià)項(xiàng)目功能差異概念的拓展
從概念上來看,目前傳統(tǒng)自陳式量表中的項(xiàng)目功能差異概念研究趨于成熟,但是在學(xué)前教育質(zhì)量評價(jià)領(lǐng)域尚未形成具體明確的項(xiàng)目功能差異概念,因而導(dǎo)致項(xiàng)目功能差異檢驗(yàn)在學(xué)前教育質(zhì)量評價(jià)中未產(chǎn)生實(shí)際廣泛的應(yīng)用。在學(xué)前教育質(zhì)量評價(jià)中,項(xiàng)目功能差異可以指兩組質(zhì)量水平相同的幼兒園或班級,在某一評價(jià)項(xiàng)目上的評價(jià)等級或得分存在顯著差異。需要注意的是,學(xué)前教育質(zhì)量評價(jià)是一種較典型的主觀性評價(jià),由評價(jià)者進(jìn)入評價(jià)現(xiàn)場,依據(jù)被評價(jià)對象的現(xiàn)場表現(xiàn)或現(xiàn)場狀態(tài)進(jìn)行評價(jià)。在主觀性評價(jià)中,傳統(tǒng)意義上的項(xiàng)目功能差異還擴(kuò)展到評價(jià)者功能差異(Differential Rater Functioning)。評價(jià)者功能差異是指在控制了潛在變量上的被試和評價(jià)者位置后,評價(jià)者在與評價(jià)目的無關(guān)的被試群組之間表現(xiàn)出系統(tǒng)性嚴(yán)重差異的傾向?!?3〕目前,主觀性評價(jià)中的項(xiàng)目功能差異、評價(jià)者功能差異概念的相關(guān)研究遠(yuǎn)不及傳統(tǒng)的項(xiàng)目功能差異概念研究。未來研究可結(jié)合學(xué)前教育質(zhì)量評價(jià)的特點(diǎn),進(jìn)一步厘清學(xué)前教育質(zhì)量評價(jià)中的項(xiàng)目功能差異、評價(jià)者功能差異的概念,為后續(xù)檢驗(yàn)奠定基礎(chǔ)。
2.展望二:學(xué)前教育質(zhì)量評價(jià)項(xiàng)目功能差異檢驗(yàn)方法的拓展
在學(xué)前教育質(zhì)量評價(jià)這種主觀性評價(jià)中,選擇一個(gè)可靠的內(nèi)部匹配變量是項(xiàng)目功能差異檢驗(yàn)的一個(gè)關(guān)鍵問題。傳統(tǒng)自陳式量表的項(xiàng)目功能差異檢驗(yàn)通常直接采用測驗(yàn)原始總分或是基于項(xiàng)目反應(yīng)理論模型的潛在水平值θ作為匹配變量。而學(xué)前教育質(zhì)量評價(jià)結(jié)果還包含評價(jià)者誤差,直接采用以上方法顯然是不合適的。其次,學(xué)前教育質(zhì)量評價(jià)工具通常采用多級評分,如《走向優(yōu)質(zhì)——中國幼兒園教育質(zhì)量評價(jià)標(biāo)準(zhǔn)》中的子項(xiàng)目采用七級計(jì)分。但目前能同時(shí)解決內(nèi)部可靠的匹配變量和應(yīng)對多級連續(xù)性數(shù)據(jù)的項(xiàng)目功能差異方法少之又少。未來研究可結(jié)合學(xué)前教育質(zhì)量評價(jià)工具的評分特點(diǎn),探究適宜學(xué)前教育質(zhì)量評價(jià)的項(xiàng)目功能差異檢驗(yàn)方法。針對評價(jià)者功能差異,目前最常用的就是基于評價(jià)者寬嚴(yán)度和被試群組之間交互檢驗(yàn)的方法,如多面拉希(Rasch)建模方法;〔24,25〕或者通過雙樣本假設(shè)檢驗(yàn),如萊特(Wright)和斯通(Stone)t檢驗(yàn)?!?6〕在最新研究中,溫德(Wind)等人提出用子組間擬合指數(shù)的方法來檢測評價(jià)者功能差異?!?7〕未來研究可基于真實(shí)的學(xué)前教育質(zhì)量評價(jià)數(shù)據(jù)或模擬數(shù)據(jù),對已有的評價(jià)者功能差異方法研究結(jié)論進(jìn)行驗(yàn)證。
3.展望三:學(xué)前教育質(zhì)量評價(jià)項(xiàng)目功能差異檢驗(yàn)變量的拓展
我國幅員遼闊,學(xué)前教育質(zhì)量在地域上發(fā)展不均衡?!?8〕即使在同一地域,學(xué)前教育質(zhì)量在城鄉(xiāng)、辦園體制上也存在顯著差異?!?9,30〕如果實(shí)行統(tǒng)一的評價(jià),很可能存在一些因素影響評價(jià)的公平性和有效性。例如,農(nóng)村幼兒園的教育質(zhì)量評價(jià)等級總體上是略低于城市的,那么除了教育質(zhì)量存在的真實(shí)差異之外,還需考慮是否有些評價(jià)項(xiàng)目利于城市幼兒園而不利于農(nóng)村幼兒園,即在統(tǒng)計(jì)學(xué)意義上是否存在城鄉(xiāng)項(xiàng)目功能差異。因此,未來研究可考慮從影響學(xué)前教育質(zhì)量的變量(如地域、城鄉(xiāng)、園所性質(zhì)、師幼比、教師學(xué)歷、教師教齡等)上檢驗(yàn)是否存在項(xiàng)目功能差異。另外,學(xué)前教育質(zhì)量評價(jià)中評價(jià)者的性別、個(gè)性特征、專業(yè)態(tài)度、專業(yè)背景等因素可能導(dǎo)致評價(jià)者功能差異。從這些變量入手檢驗(yàn)項(xiàng)目功能差異和評價(jià)者功能差異,對提高學(xué)前教育的公平性和促進(jìn)學(xué)前教育高質(zhì)量發(fā)展都有重要意義。
4.展望四:學(xué)前教育質(zhì)量評價(jià)項(xiàng)目功能差異成因分析的拓展
當(dāng)學(xué)前教育質(zhì)量評價(jià)工具中存在含有項(xiàng)目功能差異的項(xiàng)目或指標(biāo)時(shí),有必要展開項(xiàng)目功能差異成因分析,為質(zhì)量評價(jià)工具的編制和修訂提供有用的建議。導(dǎo)致項(xiàng)目功能差異的因素較多,如可能與樣本、被試以及項(xiàng)目描述等有關(guān)。項(xiàng)目功能差異成因的復(fù)雜性為其分析帶來不小的挑戰(zhàn),目前有僅憑對項(xiàng)目的主觀理解或個(gè)體的測試結(jié)果得出項(xiàng)目功能差異成因;〔31,32〕也有基于統(tǒng)計(jì)分析結(jié)果,再組織專家進(jìn)一步分析測評內(nèi)容,探討項(xiàng)目功能差異成因?!?3〕未來要更科學(xué)、嚴(yán)謹(jǐn)?shù)靥剿鲗W(xué)前教育質(zhì)量評價(jià)的項(xiàng)目功能差異成因,可嘗試從以下方面努力。一方面,多角度、全方位地分析可能造成評價(jià)項(xiàng)目存在項(xiàng)目功能差異的原因,對不同類型的幼兒園或班級在各方面的狀況和特點(diǎn)有更詳細(xì)的認(rèn)識。另一方面,結(jié)合專家討論提出最重要、最有可能的項(xiàng)目功能差異原因假設(shè)進(jìn)行檢驗(yàn),并加以邏輯論證,發(fā)現(xiàn)質(zhì)量評價(jià)存在的問題,這是未來討論學(xué)前教育質(zhì)量評價(jià)項(xiàng)目功能差異成因分析的主要方向。
參考文獻(xiàn):
〔1〕曾秀芹,孟慶茂.項(xiàng)目功能差異及其檢測方法 〔J〕.心理科學(xué)進(jìn)展,1999(2):41-47.
〔2〕黃潔銘,劉步平,鄺潔宜,等.維克森林醫(yī)師信任量表中文版項(xiàng)目功能差異分析〔J〕.現(xiàn)代醫(yī)院,2022(2):193-195.
〔3〕陳維,楊濤,高榮芬,等.Connor-Davidson心理韌性量表簡版在大學(xué)生中的信效度檢驗(yàn)和跨性別等值性 〔J〕.西南師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2021,46(11):38-45.
〔4〕劉文,邊玉芳,陳玲麗,等.馬洛-克羅恩社會(huì)贊許性量表在跨文化研究中的項(xiàng)目功能差異檢驗(yàn) 〔J〕.心理科學(xué),2010,33(6):1473-1476.
〔5〕李付鵬,宋吉祥,杜海燕,等.基于Rasch模型的高考數(shù)學(xué)性別DIF檢驗(yàn) 〔J〕.中國考試,2019(3):43-47.
〔6〕關(guān)丹丹,喬輝,陳康,等.全國高考英語試題的城鄉(xiāng)項(xiàng)目功能差異分析 〔J〕.心理學(xué)探新,2019,39(1):64-69.
〔7〕任玉丹.雙語教育背景下的少數(shù)民族學(xué)生數(shù)學(xué)學(xué)業(yè)測驗(yàn)公平性分析 〔J〕.數(shù)學(xué)教育學(xué)報(bào),2019,28(5):92-97.
〔8〕劉舒暢,黃曉婷.PISA2015合作問題解決能力測試的跨語言公平性分析 〔J〕.中國考試,2019(2):41-47.
〔9〕張龍,涂冬波.多級計(jì)分題項(xiàng)目功能差異常用檢測方法及比較 〔J〕.江西師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2015,39(5):441-448.
〔10〕CHEEMA J R.Cross-country gender DIF in PISA science literacy items 〔J〕.European Journal of Developmental Psychology,2019,16(2):152-166.
〔11〕ARIKAN S,VIJVER F,YAGMUR K.Propensity score matching helps to understand sources of DIF and mathematics performance differences of Indonesian,Turkish,Australian,and Dutch students in PISA〔J〕.International Journal of Research in Education and Science,2018(4):69-81.
〔12〕GERSHON K,RUIPEREZ-VALIENTE J A,ALEXANDRON G.Defining and measuring completion and assessment biases with respect to English language and development status:Not all MOOCs are equal 〔J〕.International Journal of Educational Technology in Higher Education,2021,
18(1):1-21.
〔13〕〔18〕MALASPINA M,ARIAS B.Calibrating the measurement of informal mathematics in Peruvian preschool children〔C〕//LLINARS F S,GUTI?魪RREZ A,PLANAS N.Proceedings of the 45th Conference of the International Group for the Psychology of Mathematics Education.Alicante:PME,2022:257
〔14〕〔21〕RESTREPO M A,SCHWANENFLUGEL P J,BLAKE J,et al.Performance on the PPVT-III and the EVT:Applicability of the measures with African American and European American preschool children 〔J〕.The Quarterly language,Speech,and Hearing Services in Schools,2006,37(1):17-27.
〔15〕WELCH C J,MILLER T R.Assessing differential item functioning in direct writing assessments:Problems and an example 〔J〕.Journal of Educational Measurement,1995,32(2):163-178.
〔16〕CHEN M Y, LAM W, ZUMBO B D.Testing for differential item functioning with no internal matching variable and continuous item ratings〔C〕// International Language Testing Association.Langueage,constructs,contexts,and context in classroom and large-scale assessments.Palermo:Cambridge University Press,2016:127-128.
〔17〕朱乙藝,韋小滿.我國成就測驗(yàn)的項(xiàng)目功能差異研究述評 〔J〕.教育與考試,2012(1):78-81.
〔19〕GOODRICH J M,LONIGAN C J,ALFONSO S V.Measurement of early literacy skills among monolingual English-speaking and Spanish-speaking language-minority children:A differential item functioning analysis 〔J〕.Early Childhood Research Quarterly,2019(47):99-110.
〔20〕CHIEN C W,BROWN T,MCDONALD R.Rasch analysis of the assessment of children’s hand skills in children with and without disabilities 〔J〕.Research in Developmental Disabilities,2011,32(1):253-261.
〔22〕ASSOCIATION A E R.Standards for educational and psychological testing〔M〕.Santiago:American Educational Research Association,2014:49-51.
〔23〕ENGELHARD G.Differential rater functioning 〔J〕.Rasch Measurement Transactions,2008(3):1124.
〔24〕ECKES T.Introduction to many-facet Rasch measurement 〔M〕.Frankfurt am Main:Peter Lang,2011:1-4.
〔25〕WINKE P,GASS S,MYFORD C.Raters’ L2 background as a potential source of bias in rating oral performance 〔J〕.Language Testing,2013(2):231-252.
〔26〕WRIGHT B D,STONE M H.Best test design〔M〕.Chicago,IL:MESA Press,1979:28-205.
〔27〕WIND S A,SEBOK-SYER S S.Examining differential rater functioning using a between-subgroup outfit approach〔J〕.Journal of Educational Measurement,2019,56(2):217-250.
〔28〕崔方方,洪秀敏.我國學(xué)前教育發(fā)展區(qū)域不均衡:現(xiàn)狀、原因與建議〔J〕.教育發(fā)展研究,2010,30(24):20-24.
〔29〕劉占蘭,高丙成.中國學(xué)前教育綜合發(fā)展水平研究 〔J〕.教育研究,2013,34(4):30-37.
〔30〕羅妹,李克建.基于全國428個(gè)班級樣本的學(xué)前教育質(zhì)量城鄉(xiāng)差距透視〔J〕.學(xué)前教育研究,2017(6):13-20.
〔31〕黃春霞.第二語言學(xué)習(xí)者專業(yè)背景對HSK閱讀成績影響的項(xiàng)目功能差異檢驗(yàn)〔J〕.考試研究,2011,7(5):59-66.
〔32〕曹亦薇,張厚粲.漢語詞匯測驗(yàn)中的項(xiàng)目功能差異初探〔J〕.心理學(xué)報(bào),1999(4):460-467.
〔33〕張穎,趙世明.醫(yī)師資格考試中的項(xiàng)目功能差異研究〔J〕.中國考試,2004(10):23-26.
Differential Item Functioning
and Its Value in Evaluating the Quality of Preschool Education
Wang Xinyi, Chen Dezhi
(College of Child Development and Education, Zhejiang Normal University, Hangzhou, Zhejiang, 311231)
【Abstract】The fairness of evaluation tools for preschool education quality is essential for conducting scientific evaluation, and differential item functioning is an important method for verifying tool fairness. However, there are many issues to be addressed in the application of preschool education quality evaluation. This article summarizes the fundamental concepts, applications, and methods of differential item functioning, and emphasizes that it is the primary representation and content of fairness and error analysis in preschool education quality evaluation. Additionally, this article proposes prospects for the study of differential item functioning in the evaluation of preschool education quality from the perspectives of testing methods, testing variables, and factor analysis.
【Keywords】preschool education quality evaluation; differential item functioning; fairness
*本文為浙江省哲學(xué)社會(huì)科學(xué)規(guī)劃重點(diǎn)課題“基于認(rèn)知診斷的幼兒教師隱性知識的情景判斷性測驗(yàn)研究”的研究成果之一,課題編號:20NDJC07Z。
**通信作者:陳德枝,浙江師范大學(xué)兒童發(fā)展與教育學(xué)院副教授,電子郵箱:cdezhi@zjun.cn