国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

理解和運(yùn)用《教育與心理測試標(biāo)準(zhǔn)》
——ETS的案例研究

2018-01-05 03:06:21CathyWendlerBarbaraKirsh
中國考試 2017年10期
關(guān)鍵詞:測驗(yàn)測試標(biāo)準(zhǔn)

Cathy Wendler Barbara Kirsh

(美國教育考試服務(wù)中心,美國新澤西州普林斯頓 08541)

馮采譯

(北京師范大學(xué),北京 100875)

理解和運(yùn)用《教育與心理測試標(biāo)準(zhǔn)》
——ETS的案例研究

Cathy Wendler Barbara Kirsh

(美國教育考試服務(wù)中心,美國新澤西州普林斯頓 08541)

馮采譯

(北京師范大學(xué),北京 100875)

《教育與心理測試標(biāo)準(zhǔn)》由美國心理協(xié)會(huì)(APA)、美國教育研究協(xié)會(huì)(AERA)和美國國家教育測量協(xié)會(huì)(NCME)聯(lián)合制定,美國教育考試服務(wù)中心(ETS)仿效《教育與心理測試標(biāo)準(zhǔn)》,制定了《ETS質(zhì)量和公平標(biāo)準(zhǔn)》。本文介紹這兩套標(biāo)準(zhǔn)的制定過程以及歷史發(fā)展,《ETS質(zhì)量和公平標(biāo)準(zhǔn)》的理念以及在ETS考試產(chǎn)品中的應(yīng)用。

測試標(biāo)準(zhǔn);教育和心理測試標(biāo)準(zhǔn);ETS質(zhì)量和公平標(biāo)準(zhǔn)

許多行業(yè)和機(jī)構(gòu)都有專業(yè)標(biāo)準(zhǔn)。為什么需要專業(yè)標(biāo)準(zhǔn)?一般而言,這些標(biāo)準(zhǔn)的設(shè)計(jì)旨在幫助確保產(chǎn)品的可靠性和一致性,旨在促進(jìn)公平、道德和對(duì)這些產(chǎn)品的有效利用,旨在提供評(píng)估產(chǎn)品的基本原則。因此,標(biāo)準(zhǔn)是為在特定領(lǐng)域工作的人提供指導(dǎo)、幫助開發(fā)產(chǎn)品以及在相關(guān)領(lǐng)域使用產(chǎn)品。有些領(lǐng)域(如醫(yī)學(xué)、教學(xué)或工程等)有政府法規(guī),但是在測試領(lǐng)域卻沒有指導(dǎo)實(shí)踐的政府法規(guī),因此,涉足測試領(lǐng)域的機(jī)構(gòu)自行制定了一系列的指南和標(biāo)準(zhǔn)。

在教育和心理測試領(lǐng)域,標(biāo)準(zhǔn)和指南已經(jīng)存在了幾十年。許多標(biāo)準(zhǔn)和指南反映了測試環(huán)境在不斷變化。這些標(biāo)準(zhǔn)和指南重點(diǎn)關(guān)注測試開發(fā)和使用的具體問題,例如:公平的測試實(shí)踐和道德行為標(biāo)準(zhǔn)[1-4],測試開發(fā)和改進(jìn)方法標(biāo)準(zhǔn)[5-8],考生的權(quán)利和責(zé)任標(biāo)準(zhǔn)[9],測試使用標(biāo)準(zhǔn)[10-11]。

指導(dǎo)測試開發(fā)和使用最著名和應(yīng)用最廣泛的標(biāo)準(zhǔn)是由美國三家涉及測試的專業(yè)機(jī)構(gòu)制定的,這三家機(jī)構(gòu)是美國教育研究學(xué)會(huì)(American Educational Research Association,AERA)、美國心理學(xué)會(huì)(American Psychological Association,APA)和美國國家教育測量委員會(huì)(National Council on Measurement in Education,NCME)。多年來,這三家機(jī)構(gòu)合作倡議、創(chuàng)建和修訂了有關(guān)教育和心理測試領(lǐng)域的標(biāo)準(zhǔn),這些標(biāo)準(zhǔn)以《教育與心理測試標(biāo)準(zhǔn)》(Standards for Educational and Psychological Testing)一書呈現(xiàn)[12]。

1 《教育與心理測試標(biāo)準(zhǔn)》的歷史沿革

若干早期的文件對(duì)目前《教育與心理測試標(biāo)準(zhǔn)》的制定起到了指導(dǎo)作用[12-13]。1954年,APA頒布了《心理測驗(yàn)和診斷方法的技術(shù)建議》文件,該文件由APA的一個(gè)委員會(huì)撰寫,用以指導(dǎo)心理測驗(yàn)的開發(fā)和使用。AERA和美國國家教育測量使用委員會(huì)(National Council on Measurements Used in Education,NCME的前身)也創(chuàng)建了一個(gè)委員會(huì),撰寫了《成就測驗(yàn)的技術(shù)建議》(Technical Recommendations for Achievement Tests)文件,該文件由美國國家教育學(xué)會(huì)(National Education Association,NEA)于1955年頒布[14]。這個(gè)文件的重點(diǎn)是指導(dǎo)成就測驗(yàn)的開發(fā)以及為分?jǐn)?shù)使用者提供的報(bào)告類型上。

20世紀(jì)60年代,APA、AERA和NCME設(shè)立了一個(gè)聯(lián)合委員會(huì),其成員由代表三家機(jī)構(gòu)的人員組成。他們的任務(wù)是起草一個(gè)既適用于心理測驗(yàn)又適用于成就測驗(yàn)的標(biāo)準(zhǔn)文件。1966年,《教育與心理測驗(yàn)標(biāo)準(zhǔn)和使用手冊(cè)》(Standards for Educational and Psychological Tests and Manuals)頒布,取代了1954年和1955年的文件[15]。這個(gè)文件代表了三家學(xué)會(huì)的第一次合作,此后,這三家學(xué)會(huì)又聯(lián)合開發(fā)了其他4個(gè)版本的《教育與心理測試標(biāo)準(zhǔn)》。

第二版于1974年出版[16]。這一版的內(nèi)容得到擴(kuò)展,不僅包括測試開發(fā)和文件指南,還包括測試使用和成績報(bào)告。此外,還介紹了用于其他領(lǐng)域的測試標(biāo)準(zhǔn),如求職和大學(xué)入學(xué)測試。書的標(biāo)題也縮簡為《教育與心理測試標(biāo)準(zhǔn)》。

到1977年,測試領(lǐng)域出現(xiàn)了新的問題,包括技術(shù)進(jìn)步、測試的新興用途以及不斷提高的對(duì)測試在社會(huì)中的作用的關(guān)注。這些表明,標(biāo)準(zhǔn)需要進(jìn)一步修訂。為直面這些關(guān)切,對(duì)1974年版的《教育與心理測試標(biāo)準(zhǔn)》再次進(jìn)行了修訂。另外,本次修訂也特別關(guān)注了有關(guān)效度理論的各種觀點(diǎn)。

1985年修訂的《教育與心理測試標(biāo)準(zhǔn)》將效度視為統(tǒng)一概念[17],同時(shí)仍認(rèn)可不同類型的證據(jù)適用于不同類型的測試成績的解釋和使用[18-19]。

1999年版的《教育與心理測試標(biāo)準(zhǔn)》則是對(duì)1985年版的進(jìn)一步修訂,提出此次修訂建議的是APA的心理測驗(yàn)和評(píng)價(jià)委員會(huì)。作為這次修訂的一部分,“測驗(yàn)”的定義擴(kuò)大到包括更大范圍的評(píng)價(jià)范疇[13]。1999年版的標(biāo)準(zhǔn)還探討了測驗(yàn)在決策過程中的使用問題:“測驗(yàn)的恰當(dāng)使用比不使用能獲得關(guān)于個(gè)體和項(xiàng)目的更明智的決策?!盵20]

Plake和Wise對(duì)2014年版的《教育與心理測試標(biāo)準(zhǔn)》的修訂過程進(jìn)行了詳細(xì)的描述[13]。為監(jiān)督《教育與心理測試標(biāo)準(zhǔn)》的出版和預(yù)算,成立了由三家學(xué)會(huì)的代表組成的管理委員會(huì)。這一版本的修訂工作始于2004年,應(yīng)管理委員會(huì)的要求,向三家學(xué)會(huì)的相關(guān)人員征求修改意見。2007年,收集到修改意見,由三家學(xué)會(huì)的代表組成的聯(lián)合委員會(huì)負(fù)責(zé)修改《教育與心理測試標(biāo)準(zhǔn)》。

當(dāng)時(shí),人們認(rèn)為以下方面需要修訂:1)無障礙性和公平性;2)在問責(zé)中使用測試;3)技術(shù)的影響;4)職場涉及的測試問題;5)《教育與心理測試標(biāo)準(zhǔn)》本身的形式。此外,一些重要關(guān)切需要回應(yīng)。例如,《教育與心理測試標(biāo)準(zhǔn)》的目標(biāo)人群,是否應(yīng)涵蓋課堂評(píng)估,以及三家學(xué)會(huì)觀點(diǎn)的哲學(xué)差異,這些都將直接影響修訂版的形式和內(nèi)容。

測試及測驗(yàn)結(jié)果的使用會(huì)影響個(gè)人,很多關(guān)于個(gè)人、教育項(xiàng)目甚至機(jī)構(gòu)的決策都來源于測驗(yàn)結(jié)果。因此,2014年修訂版的一個(gè)目標(biāo)就是,確保非測量專業(yè)的讀者也可以明白《教育與心理測試標(biāo)準(zhǔn)》。因此,這次修訂也為這些讀者加入了額外的背景和信息[13]。

盡管所有版本的《教育與心理測試標(biāo)準(zhǔn)》(從20世紀(jì)50年代的初始文件到現(xiàn)在的版本)都是從美國的角度出發(fā)撰寫的,但Plake和Wise表示,2014年版的目的是適用于廣泛的讀者[13]。例如,Zumbo討論了標(biāo)準(zhǔn)的國際適用性,并認(rèn)為這些標(biāo)準(zhǔn)在全球的測試領(lǐng)域發(fā)揮了關(guān)鍵性的作用[21]。因此,無論是應(yīng)用于各種測試,還是在不同的國家環(huán)境,這些標(biāo)準(zhǔn)對(duì)測試實(shí)踐的意義都是不可忽視的。

這三家學(xué)會(huì)成員的意見在修訂中發(fā)揮了至關(guān)重要的作用。修訂委員會(huì)還幾次對(duì)《教育與心理測試標(biāo)準(zhǔn)》的不同草稿公開征求意見,最終稿提交各學(xué)會(huì)審批。每家學(xué)會(huì)都有自己的審批程序,最終都批準(zhǔn)了這次修訂[12]。

2 《教育與心理測試標(biāo)準(zhǔn)》2014年版概述

《教育與心理測試標(biāo)準(zhǔn)》旨在適用于心理學(xué)、教育學(xué)及其他領(lǐng)域(如執(zhí)照和證書)的專業(yè)人員。Plake認(rèn)為,標(biāo)準(zhǔn)為解決測試領(lǐng)域的法律、倫理和實(shí)質(zhì)性問題提供了指導(dǎo)[22]。因此,《教育與心理測試標(biāo)準(zhǔn)》被解釋并用作在許多情況下的指導(dǎo)原則,包括測試機(jī)構(gòu)在實(shí)際工作中用它指導(dǎo)測試開發(fā)和成績報(bào)告[23],用于職業(yè)測試和專業(yè)認(rèn)證領(lǐng)域[24],從事教育測量問題研究[25],甚至用在某一國際環(huán)境中[21]。《教育與心理測試標(biāo)準(zhǔn)》還為其他在決策中使用測試成績的個(gè)人(包括政策制定者、學(xué)校行政人員、政府官員)以及教師、醫(yī)生和律師的專業(yè)認(rèn)證機(jī)構(gòu)解釋了基本的測量概念,如效度、信度和公平性。

《教育與心理測試標(biāo)準(zhǔn)》由引言和三部分內(nèi)容組成。“引言”闡述標(biāo)準(zhǔn)的目的,描述了對(duì)1999年版《教育與心理測試標(biāo)準(zhǔn)》所作的主要修訂,概述了該書的形式,并詳細(xì)列出了各項(xiàng)標(biāo)準(zhǔn)適用的測試、測試用途及參與者。其余三個(gè)部分涵蓋了各項(xiàng)標(biāo)準(zhǔn),這些標(biāo)準(zhǔn)被分為13章。每章開頭為介紹性文字,描述了解釋和恰當(dāng)?shù)厥褂酶黜?xiàng)標(biāo)準(zhǔn)所需的關(guān)鍵概念。各項(xiàng)標(biāo)準(zhǔn)還被歸類為與特定主題相關(guān)的標(biāo)準(zhǔn)簇。這三個(gè)部分的內(nèi)容如下。

第一部分:基礎(chǔ)。這個(gè)部分所含的標(biāo)準(zhǔn)舉例說明了心理測量的必要特性,這些特性存在于多種類型的測試環(huán)境的所有測試中。第1章:效度,包括測驗(yàn)結(jié)果的使用和解釋、效度驗(yàn)證中的樣本和背景,以及效度證據(jù)的具體形式;第2章:信度/測量精度和誤差,包括復(fù)制測試程序、記錄和評(píng)估信度/精度、影響信度/精度和測量標(biāo)準(zhǔn)誤的因素,以及決策的一致性;第3章:測試公平性,包括最大限度減少妨礙有效分?jǐn)?shù)解釋的因素、為清除與構(gòu)念無關(guān)的因素所作的安排,以及防范不當(dāng)分?jǐn)?shù)解釋。

第二部分:操作。這個(gè)部分包含與設(shè)計(jì)、管理和成績報(bào)告相關(guān)的活動(dòng)和過程的標(biāo)準(zhǔn)。與第一部分一樣,這些標(biāo)準(zhǔn)適用于各種測驗(yàn)和測試環(huán)境。第4章:測驗(yàn)設(shè)計(jì)與開發(fā),包括測驗(yàn)說明、命題、題目審查、考務(wù)和評(píng)分程序,以及測驗(yàn)修訂;第5章:分?jǐn)?shù)、量表、常模、分?jǐn)?shù)關(guān)聯(lián)及分?jǐn)?shù)線,含分?jǐn)?shù)解釋;第6章:施測、評(píng)分、分?jǐn)?shù)報(bào)告和解釋;第7章:測驗(yàn)的支持性文件,包括文件的恰當(dāng)使用、作為測驗(yàn)開發(fā)組成部分的文件、施測、評(píng)分,以及文件發(fā)布的時(shí)效性;第8章:應(yīng)試者的權(quán)利與責(zé)任,包括測試前的準(zhǔn)備、防止以未經(jīng)授權(quán)的方式使用測試結(jié)果、獲取公平和準(zhǔn)確的分?jǐn)?shù),以及整個(gè)測試過程中的預(yù)期行為;第9章:測驗(yàn)使用者的權(quán)利與責(zé)任,包括分?jǐn)?shù)解釋的有效性、測驗(yàn)結(jié)果的發(fā)布、測驗(yàn)安全以及版權(quán)保護(hù)。

第三部分:測試的應(yīng)用。這個(gè)部分描述適用于特定測試環(huán)境的標(biāo)準(zhǔn)。雖然這些特定環(huán)境中使用的測試也應(yīng)遵循第一部分和第二部分的標(biāo)準(zhǔn),但第三部分的標(biāo)準(zhǔn)是針對(duì)特定測試環(huán)境的附加標(biāo)準(zhǔn)。這些標(biāo)準(zhǔn)涉及的問題包括測驗(yàn)的設(shè)計(jì)、開發(fā)和使用,考務(wù)、評(píng)分和分?jǐn)?shù)報(bào)告,測驗(yàn)選擇,以及測驗(yàn)使用者的資格。第10章:心理測試與評(píng)價(jià);第11章:職場測試與資格認(rèn)證;第12章:教育測試與評(píng)價(jià);第13章:測試在項(xiàng)目評(píng)估、政策研究及問責(zé)中的使用。

2014年版《教育與心理測試標(biāo)準(zhǔn)》反映了三家機(jī)構(gòu)所信奉的什么是測試設(shè)計(jì)、實(shí)施和使用的最佳實(shí)踐,以確保測試結(jié)果對(duì)所有考生群體都是有效、可靠和公正的。然而,《教育與心理測試標(biāo)準(zhǔn)》在測試領(lǐng)域之外的應(yīng)用是有限的。例如,Pullin報(bào)告說,《教育與心理測試標(biāo)準(zhǔn)》在法院案件或政策制定和實(shí)施中最多只是一個(gè)變量。盡管《教育與心理測試標(biāo)準(zhǔn)》可能影響法院的判決或決策者的決定,但它的使用通常并不明顯[26]。

另外,并沒有任何機(jī)制保證《教育與心理測試標(biāo)準(zhǔn)》能夠確保測試公司、測驗(yàn)使用者以及其他個(gè)人在測試開發(fā)、施測、成績報(bào)告和測驗(yàn)結(jié)果的使用過程中能恰當(dāng)?shù)貞?yīng)用這些標(biāo)準(zhǔn)。《教育與心理測試標(biāo)準(zhǔn)》沒有說明濫用測驗(yàn)或不遵循標(biāo)準(zhǔn)可能導(dǎo)致的結(jié)果,也沒有解釋在實(shí)施過程中如何使用和應(yīng)用這些標(biāo)準(zhǔn)。盡管《教育與心理測試標(biāo)準(zhǔn)》指導(dǎo)人們開發(fā)測試、評(píng)分和報(bào)告測試結(jié)果,但它只提供一般性指導(dǎo),并沒有闡述應(yīng)當(dāng)運(yùn)用的技術(shù)和心理測量標(biāo)準(zhǔn)。因此,一些測試公司創(chuàng)建了自己的一套標(biāo)準(zhǔn)來指導(dǎo)內(nèi)部運(yùn)作。例如,《ETS質(zhì)量和公平標(biāo)準(zhǔn)》(ETS Standards for Quality and Fairness)就是《教育與心理測試標(biāo)準(zhǔn)》的操作說明。

3 《ETS質(zhì)量和公平標(biāo)準(zhǔn)》的歷史沿革

《ETS質(zhì)量和公平標(biāo)準(zhǔn)》(以下簡稱《ETS標(biāo)準(zhǔn)》)反映了教育考試服務(wù)中心(Educational Testing Service,ETS)測驗(yàn)和產(chǎn)品的具體屬性,并與ETS所做的工作保持一致,這些標(biāo)準(zhǔn)用于界定ETS工作的基準(zhǔn),包括測驗(yàn)和題目的開發(fā)、心理測量學(xué)、分?jǐn)?shù)報(bào)告、測驗(yàn)發(fā)送系統(tǒng)、客戶服務(wù)以及其他生產(chǎn)活動(dòng)[27]。

早期版本的《ETS標(biāo)準(zhǔn)》被稱為《原則、政策和程序指南》,主要來源于《教育與心理測試標(biāo)準(zhǔn)》。這些早期的ETS文件以非正式的方式指導(dǎo)了ETS測驗(yàn)和其他產(chǎn)品的開發(fā)。20世紀(jì)80年代,ETS領(lǐng)導(dǎo)層指出,《ETS標(biāo)準(zhǔn)》在未來應(yīng)與專業(yè)的測量標(biāo)準(zhǔn)(即《教育與心理測試標(biāo)準(zhǔn)》)保持一致。1981年,《ETS標(biāo)準(zhǔn)》第一版發(fā)布,后續(xù)的修訂版本都與《教育與心理測試標(biāo)準(zhǔn)》的修訂基本保持了一致。為什么需要兩套標(biāo)準(zhǔn)?雖然早期和目前的《ETS標(biāo)準(zhǔn)》與《教育與心理測試標(biāo)準(zhǔn)》相似,但多年來,ETS版本試圖與《教育與心理測試標(biāo)準(zhǔn)》有所區(qū)別。例如,《ETS標(biāo)準(zhǔn)》包括企業(yè)層面的要求,即促進(jìn)科學(xué)測量,承認(rèn)ETS對(duì)顧客、客戶和其他利益相關(guān)者的責(zé)任?!禘TS標(biāo)準(zhǔn)》還制定了一些反映ETS使命的標(biāo)準(zhǔn),即通過提供公正有效的評(píng)價(jià)提高教育質(zhì)量和公平性,保護(hù)知識(shí)產(chǎn)權(quán)和客戶隱私,并以科學(xué)的業(yè)務(wù)流程來防范重大事故。

《ETS標(biāo)準(zhǔn)》指導(dǎo)ETS的實(shí)際工作,包括《教育與心理測試標(biāo)準(zhǔn)》中沒有包含的信息,例如與非測試產(chǎn)品和服務(wù)相關(guān)的資料?!禘TS標(biāo)準(zhǔn)》還剔除了包含在《教育與心理測試標(biāo)準(zhǔn)》中但不屬ETS工作范疇的一些信息,如臨床心理學(xué)家進(jìn)行的個(gè)人心理測試?!禘TS標(biāo)準(zhǔn)》是為ETS工作人員使用而設(shè)計(jì)的,因此無須滿足《教育與心理測試標(biāo)準(zhǔn)》所涉及的其他測試人員(如項(xiàng)目評(píng)估人員,州級(jí)和區(qū)域測試主管以及心理學(xué)家)的需求。此外,《教育與心理測試標(biāo)準(zhǔn)》往往對(duì)測量方法有更多的規(guī)定,而《ETS標(biāo)準(zhǔn)》更強(qiáng)調(diào)希望得到的結(jié)果,而非規(guī)定如何取得這些結(jié)果。表1比較了《ETS標(biāo)準(zhǔn)》與《教育與心理測試標(biāo)準(zhǔn)》的文本結(jié)構(gòu)。

《ETS標(biāo)準(zhǔn)》自1981年啟用之后,分別于1987年和2000年發(fā)布其修訂版,2002年又進(jìn)行了微調(diào),最近一次修訂完成于2014年。十年間,盡管ETS產(chǎn)品發(fā)生了變化,2002年版《ETS標(biāo)準(zhǔn)》仍能適用于ETS的一系列產(chǎn)品。然而,測量領(lǐng)域的變化以及人們對(duì)2014年版《教育與心理測試標(biāo)準(zhǔn)》觀點(diǎn)的變化需要《ETS標(biāo)準(zhǔn)》作進(jìn)一步修訂。2014年版的《ETS標(biāo)準(zhǔn)》更新了一些標(biāo)準(zhǔn),目的是:1)更適用于測試領(lǐng)域的技術(shù)變革(如在線考試報(bào)名、付款以及備考資料,在測試中廣泛使用各種數(shù)字設(shè)備,自動(dòng)評(píng)分);2)反映問責(zé)在教育考試的使用;3)更加關(guān)注非英語母語者和殘障人士。

2014年版《ETS標(biāo)準(zhǔn)》的修訂過程與2014年版《教育與心理測試標(biāo)準(zhǔn)》很相似。ETS成立了一個(gè)內(nèi)部的標(biāo)準(zhǔn)指導(dǎo)委員會(huì)評(píng)論《教育與心理測試標(biāo)準(zhǔn)》的公開草稿,并根據(jù)該公開草稿考慮2002年版《ETS標(biāo)準(zhǔn)》所需的變化。標(biāo)準(zhǔn)指導(dǎo)委員會(huì)還匯總了ETS對(duì)《教育與心理測試標(biāo)準(zhǔn)》公開稿的意見,并提交給AERA、APA和NCME聯(lián)合委員會(huì)。

ETS內(nèi)部標(biāo)準(zhǔn)指導(dǎo)委員會(huì)由來自ETS的幾個(gè)領(lǐng)域的15名員工組成,主要為研發(fā)部門人員,其中有兩名成員也參與了2014版《教育與心理測試標(biāo)準(zhǔn)》的修訂和撰寫。有些委員會(huì)成員負(fù)責(zé)根據(jù)對(duì)《教育與心理測試標(biāo)準(zhǔn)》公開草稿的審讀意見以及來自ETS各領(lǐng)域工作人員的意見修改《ETS標(biāo)準(zhǔn)》中的具體章節(jié)。

表1《教育與心理測試標(biāo)準(zhǔn)》和《ETS標(biāo)準(zhǔn)》的文本結(jié)構(gòu)比較

這些努力的目的是制訂一份能靈活應(yīng)用于ETS所有產(chǎn)品的文件,并能成為未來10~15年的指導(dǎo)性專業(yè)標(biāo)準(zhǔn)。新的《ETS標(biāo)準(zhǔn)》需要具有足夠的靈活性,以保證在可預(yù)見到的技術(shù)、人口以及教育和測量環(huán)境等方面發(fā)生變化時(shí)仍能提供良好的服務(wù)。同時(shí),該文件的內(nèi)容要清晰、具體,以指導(dǎo)測試項(xiàng)目實(shí)踐,并使ETS員工能夠評(píng)估這些實(shí)踐。這些標(biāo)準(zhǔn)還要可實(shí)施,適合ETS所有產(chǎn)品,并支持創(chuàng)新和新產(chǎn)品的開發(fā)。最后,《ETS標(biāo)準(zhǔn)》需要表明,對(duì)廣大外部利益相關(guān)者(包括考生、研究人員、客戶、媒體和公眾)而言,ETS產(chǎn)品是遵循專業(yè)測量標(biāo)準(zhǔn)的。

4 《ETS質(zhì)量和公平標(biāo)準(zhǔn)》2014年版概述

與《教育與心理測試標(biāo)準(zhǔn)》一樣,2014年版《ETS標(biāo)準(zhǔn)》也包含13章,每章包含與特定領(lǐng)域相關(guān)的一套具體標(biāo)準(zhǔn)。有些章節(jié)著重于技術(shù)標(biāo)準(zhǔn),如效度、信度、等值和公平性,其他章節(jié)側(cè)重于重要的非技術(shù)性問題,如施測、測驗(yàn)使用和安全問題。

第1章、第2章和第5章適用于所有產(chǎn)品,包括測驗(yàn)和非測驗(yàn)產(chǎn)品。第3章包含與非測驗(yàn)產(chǎn)品(用于指導(dǎo)、教學(xué)或備考,而不是評(píng)估個(gè)體)相關(guān)的標(biāo)準(zhǔn)。其余章節(jié)適用于評(píng)價(jià)及與測驗(yàn)相關(guān)的活動(dòng)。這些章節(jié)適用于所有類型的測驗(yàn),包括紙筆測驗(yàn)、計(jì)算機(jī)測試、表現(xiàn)性評(píng)價(jià)以及使用多媒體發(fā)送的測試。除了更傳統(tǒng)的多項(xiàng)選擇題和主觀題的測驗(yàn)之外,這些章節(jié)也適用于基于評(píng)估結(jié)果而進(jìn)行決策的任何類型的評(píng)估,例如基于游戲的測驗(yàn)、問卷調(diào)查和非認(rèn)知測試。各章的內(nèi)容如下。

第1章:企業(yè)責(zé)任,包括適用于ETS所有活動(dòng)的企業(yè)層面的標(biāo)準(zhǔn),例如支持ETS使命、法律遵循、了解客戶需求以及對(duì)產(chǎn)品的一般責(zé)任。

第2章:廣泛適用的標(biāo)準(zhǔn),包括適應(yīng)許多其他標(biāo)準(zhǔn)的標(biāo)準(zhǔn)。這些標(biāo)準(zhǔn)包括準(zhǔn)確和清晰的表達(dá)、文件記錄決策、為確保測試結(jié)果解釋恰當(dāng)?shù)某闃臃椒ǖ目剂恳约按_保稱職的專家參與產(chǎn)品開發(fā)。

第3章:非測試產(chǎn)品及服務(wù),用于與非測試產(chǎn)品相關(guān)的標(biāo)準(zhǔn)(如備考產(chǎn)品、指導(dǎo)產(chǎn)品和教師使用的教學(xué)產(chǎn)品)。本章中的標(biāo)準(zhǔn)有助于確保非測試產(chǎn)品和服務(wù)按照預(yù)定的方式服務(wù)目標(biāo)人群,且它們是根據(jù)計(jì)劃和文件規(guī)定的流程進(jìn)行開發(fā)或修訂的。非測試產(chǎn)品和服務(wù)同樣有責(zé)任遵循第1章、第2章和第5章的標(biāo)準(zhǔn)。

第4章:效度,包括與收集適當(dāng)?shù)淖C據(jù)以支持測試項(xiàng)目對(duì)于如何使用測試結(jié)果以及使用后果的聲明有關(guān)的標(biāo)準(zhǔn);還包括與識(shí)別構(gòu)念無關(guān)因素相關(guān)的標(biāo)準(zhǔn),這些無關(guān)因素可能影響測試分?jǐn)?shù)解釋的效度。

第5章:公平性,展示確保所有測試、產(chǎn)品和服務(wù)公平的標(biāo)準(zhǔn)。公平性是一個(gè)包羅萬象的概念,包括要考慮ETS測試和產(chǎn)品所服務(wù)的不同人群,如殘疾人、英語語言學(xué)習(xí)者、來自不同族裔群體的人、性取向、年齡組以及個(gè)人信仰。公平的概念應(yīng)用于整個(gè)測試過程,包括測試的設(shè)計(jì)、開發(fā)、實(shí)施、評(píng)分和分?jǐn)?shù)報(bào)告。

第6章:信度,有助于保證分?jǐn)?shù)或測試結(jié)果對(duì)其預(yù)期目的具有足夠的可靠性的標(biāo)準(zhǔn)。這些標(biāo)準(zhǔn)還有助于確保采用恰當(dāng)程序來判定信度并提供證據(jù)。第4章和第6章都未提出具體應(yīng)該使用何種類型的方法,也未確定信度與效度的最低可接受水平,需要由為項(xiàng)目工作的專家作出判斷。

第7章:測試的設(shè)計(jì)與開發(fā),包括與測試的設(shè)計(jì)和開發(fā)相關(guān)的標(biāo)準(zhǔn)。這些標(biāo)準(zhǔn)有助于確保測試是使用有計(jì)劃、有據(jù)可查的程序開發(fā)的;這些程序使測試為其預(yù)期目的及目標(biāo)人群提供公平、可獲取、可靠和有效的分?jǐn)?shù)解釋。開發(fā)人員要按照詳細(xì)的說明開展工作,獲取對(duì)他們工作的評(píng)論,使用有關(guān)試題和測驗(yàn)質(zhì)量的實(shí)證信息,并對(duì)測驗(yàn)進(jìn)行評(píng)估。

第8章:等值、關(guān)聯(lián)、常模及分?jǐn)?shù)線,包括與程序相關(guān)的標(biāo)準(zhǔn),這些程序有助于確保意在可比的測驗(yàn)分?jǐn)?shù)是可比的,常模數(shù)據(jù)是有意義的,并且分?jǐn)?shù)線的研究遵循合理、清晰的描述程序。本章沒有規(guī)定一個(gè)項(xiàng)目應(yīng)該使用何種分?jǐn)?shù)量尺,也沒有提出等值、關(guān)聯(lián)或設(shè)定分?jǐn)?shù)線的具體方法。

第9章:測驗(yàn)實(shí)施,包括有助于保證測驗(yàn)以適當(dāng)方式實(shí)施的標(biāo)準(zhǔn),以提供準(zhǔn)確、可比和公正的測量。實(shí)施程序(包括所需的安全級(jí)別)隨測驗(yàn)的性質(zhì)和目的而變,但是本章也未具體給出任何一個(gè)測驗(yàn)的準(zhǔn)確程序。然而,無論使用何種施測平臺(tái)或設(shè)備,本章中的標(biāo)準(zhǔn)對(duì)任何測驗(yàn)都是適用的。

第10章:評(píng)分,有助于確保測試項(xiàng)目的建立、記錄,以及所遵循的程序使應(yīng)試者的作答得到準(zhǔn)確、一致的評(píng)分。一個(gè)測試的所有任務(wù)和題型(不管是多項(xiàng)選擇題、主觀題或復(fù)雜表現(xiàn)題,也不管是人工評(píng)分還是機(jī)器評(píng)分)都應(yīng)遵循有據(jù)可查的程序,并進(jìn)行準(zhǔn)確性審查。

第11章:報(bào)告測試結(jié)果,這一章的標(biāo)準(zhǔn)有助于確保分?jǐn)?shù)、測驗(yàn)結(jié)果以及說明性信息對(duì)其受眾而言是清晰、易理解和有意義的。這些標(biāo)準(zhǔn)并不限制測驗(yàn)結(jié)果的報(bào)告方式。

第12章:測驗(yàn)的使用,包括與如何使用測試有關(guān)的標(biāo)準(zhǔn)。這些標(biāo)準(zhǔn)有助于促進(jìn)正確使用測試,并幫助分?jǐn)?shù)接收者公平和適當(dāng)?shù)厥褂脺y驗(yàn)。

第13章:應(yīng)試者的權(quán)利與責(zé)任,有助于確保應(yīng)試者明確自己的權(quán)利和責(zé)任,并明確在測試的任一階段他們的權(quán)利是受到保護(hù)的。其他章節(jié)(如第5章、第9章和第11章)中的有些標(biāo)準(zhǔn)也涉及應(yīng)試者的權(quán)利。

5 《ETS質(zhì)量和公平標(biāo)準(zhǔn)》的應(yīng)用

《ETS標(biāo)準(zhǔn)》一經(jīng)采納便被應(yīng)用于ETS所有產(chǎn)品。與沒有保障機(jī)制或程序的《教育與心理測試標(biāo)準(zhǔn)》不同,ETS要求所有產(chǎn)品都要經(jīng)由系統(tǒng)性的審查流程來評(píng)估其是否符合《ETS標(biāo)準(zhǔn)》。這種審查過程采取內(nèi)部審核的形式,并確定各個(gè)產(chǎn)品(包括測驗(yàn)和非測驗(yàn))是否在事實(shí)上真正符合《ETS標(biāo)準(zhǔn)》。內(nèi)部審核是ETS提供產(chǎn)品和服務(wù)公共問責(zé)不可缺少的一環(huán)。

審核過程有助于確保開發(fā)和維護(hù)高質(zhì)量測驗(yàn)和產(chǎn)品。內(nèi)部審核使用統(tǒng)一、有文獻(xiàn)可查的程序?qū)Ξa(chǎn)品進(jìn)行評(píng)估。審核過程包括多個(gè)步驟;在這個(gè)過程中,要共享并審查信息,而且要對(duì)每一個(gè)接受審核的測驗(yàn)或產(chǎn)品提供反饋。ETS專業(yè)標(biāo)準(zhǔn)遵循辦公室(ETS Office of Professional Standards Compliance,OPSC)負(fù)責(zé)監(jiān)督和管理整個(gè)審核流程,制定計(jì)劃,以使項(xiàng)目和產(chǎn)品能夠得到定期審核。

在審核過程中,要系統(tǒng)地應(yīng)用標(biāo)準(zhǔn)對(duì)測驗(yàn)或產(chǎn)品進(jìn)行評(píng)估。由不同的ETS專業(yè)人員組成的審核團(tuán)隊(duì)負(fù)責(zé)這項(xiàng)任務(wù)。審核人必須獨(dú)立于被分配審核的測驗(yàn)或產(chǎn)品。雖然不期望每個(gè)審核人具備所有與《ETS標(biāo)準(zhǔn)》相關(guān)的各項(xiàng)知識(shí),但作為一個(gè)團(tuán)隊(duì),審核人員必須具備所需的知識(shí)和經(jīng)驗(yàn),以便對(duì)產(chǎn)品是否遵守各項(xiàng)標(biāo)準(zhǔn)進(jìn)行必要的判斷。因此,《ETS標(biāo)準(zhǔn)》的解釋和應(yīng)用依賴于ETS員工的專業(yè)判斷。雖然《ETS標(biāo)準(zhǔn)》提供了專業(yè)判斷的依據(jù),但并不能代替這一判斷。

針對(duì)《ETS標(biāo)準(zhǔn)》和審核過程本身,ETS要向?qū)徍藞F(tuán)隊(duì)成員以及產(chǎn)品所有者提供特別培訓(xùn)。產(chǎn)品所有者負(fù)責(zé)確保他們的測驗(yàn)和產(chǎn)品符合《ETS標(biāo)準(zhǔn)》。他們要完成自我評(píng)估,以顯示他們的測驗(yàn)和產(chǎn)品是如何符合每項(xiàng)標(biāo)準(zhǔn)的,并準(zhǔn)備文件為之提供證據(jù)。審核人員審查這些自我評(píng)估及其支持性文件,并以小組的名義起草一份關(guān)于各項(xiàng)標(biāo)準(zhǔn)符合程度的報(bào)告。如果審核人員認(rèn)為一個(gè)產(chǎn)品或者測驗(yàn)不符合某一特定標(biāo)準(zhǔn),他們必須解釋為什么,并提出解決這個(gè)問題的適當(dāng)建議。審核人員和產(chǎn)品所有者之間要進(jìn)行討論,形成一個(gè)最終報(bào)告和一個(gè)修補(bǔ)所有有缺陷之處的計(jì)劃。這是一個(gè)全面而有效的審核過程。

在特定審核周期內(nèi),要向ETS領(lǐng)導(dǎo)層提交一份所有產(chǎn)品和測驗(yàn)評(píng)估主要結(jié)論的報(bào)告。ETS高層的參與保證了對(duì)《ETS標(biāo)準(zhǔn)》給予的最高級(jí)別的關(guān)注。若產(chǎn)品所有者沒有在合理時(shí)間內(nèi)解決違反標(biāo)準(zhǔn)的相關(guān)問題,則可能導(dǎo)致嚴(yán)重后果,包括停止產(chǎn)品或測驗(yàn)。在某些情況下,測驗(yàn)或產(chǎn)品可能由ETS外部的客戶擁有。雖然客戶制定的政策不一定必須受產(chǎn)品所有者直接控制,但如其政策違反專業(yè)標(biāo)準(zhǔn),產(chǎn)品所有者仍然有責(zé)任通知客戶。

總之,《教育與心理測試標(biāo)準(zhǔn)》通過描述測量領(lǐng)域的最佳實(shí)踐來指導(dǎo)那些正在開發(fā)或使用的測驗(yàn)。這些標(biāo)準(zhǔn)對(duì)各種類型的測驗(yàn)、測試環(huán)境和測驗(yàn)用戶都非常有用。然而,它們是在一般化的層次上制定的,因而不能直接適用于實(shí)際工作。因此,ETS制定了《教育與心理測試標(biāo)準(zhǔn)》的操作例示,既與之一致,又反映了ETS開發(fā)的那些測驗(yàn)和產(chǎn)品的類型。通過內(nèi)部審核程序,《ETS標(biāo)準(zhǔn)》的應(yīng)用得到系統(tǒng)監(jiān)控,以確保所有產(chǎn)品和測驗(yàn)符合標(biāo)準(zhǔn)。

《ETS標(biāo)準(zhǔn)》幫助ETS員工理解ETS每個(gè)測驗(yàn)或產(chǎn)品所必須遵守的準(zhǔn)則。這些標(biāo)準(zhǔn)反映了ETS致力于生產(chǎn)高質(zhì)量的測驗(yàn)和產(chǎn)品的承諾,即生產(chǎn)公平、有效、可信的測驗(yàn)和產(chǎn)品。

[1]Joint Committee on Testing Practices.Code of Fair Testing Practices in Education[M].Washington,DC:Author,1988.

[2]Joint Committee on Testing Practices.Code of Fair Testing Practices in Education[M].Washington,DC:Author,2004.

[3]American Counseling Association.ACA Code of Ethics[M].Alexandria,VA:Author,2014.

[4]American Psychological Association.Ethical Principles of Psychologists and Code of Conduct[M].Washington,DC:American Psychological Association,2010.

[5]Educational Testing Service.ETS guidelines for fairness review of assessments[EB/OL].[2017-06-30].http://www.ets.org/about/fairness.

[6]Educational Testing Service.Guidelines for the Assessment of English Language Learners[EB/OL].[2017-06-30].http://www.ets.org/ about/fairness.

[7]Educational Testing Service.ETS international principles for the fairness of assessments[EB/OL].[2017-06-30].http://www.ets.org/ about/fairness.

[8]International Test Commission.ITC Guidelines for Translating and Adapting Tests[EB/OL].[2017-06-30].http://www.intesetcom.org.

[9]Joint Committee on Testing Practices.Rights and responsibilities of test takers:Guidelines and expectations[M].Washington,DC:Author,1990.

[10]Society for Industrial and Organizational Psychology,Inc.Principles for the validation and use of personnel selection procedures [M].College Park,MD:Author,1987.

[11]American Federation of Teachers,National Council on Measurement in Education,&National Education Association.Standards for Teacher Competence in Educational Assessment of Students [EB/OL].[2017-06-30].http://buros.org/competency-standardsstudent-assessment-educational-administrators.

[12]American Educational Research Association,American Psychological Association,&National Council on Measurement in Education.Standards for Educational and Psychological Testing[M]. Washington,DC:American Educational Research Association, 2014.

[13]PLAKE B S,WISE L L.What is the role and importance of the revised AERA,APA,NCME Standards for Educational and Psychological Testing?[J].Educational Measurement:Issues and Practice, 2014,33(4):4-12.

[14]American Educational Research Association&National Council on Measurements Used in Education.Technical recommendations for achievement tests[M].Washington,DC:National Education Association,1955.

[15]American Psychological Association,American Educational Research Association,&National Council on Measurement in Education.Standards for Educational and Psychological Tests and Manuals[M].Washington,DC:American Psychological Association, 1966.

[16]American Psychological Association,American Educational Research Association,&National Council on Measurement in Education.Standards for Educational and Psychological Tests[M].Washington,DC:American Psychological Association,1974.

[17]American Educational Research Association,American Psychological Association,&National Council on Measurement in Education.Standards for Educational and Psychological Testing[M]. Washington,DC:American Psychological Association,1985.

[18]KANE M T.Validation[M]//Educational Measurement.4th ed. Westport,CT:American Council on Education and Praeger Publishers,2006.

[19]MESSICK S.Validity[M]//LINN R L.Educational Measurement. 3rd ed.New York:American Council on Education and Macmillan, 1989.

[20]American Educational Research Association,American Psychological Association,&National Council on Measurement in Education. Standards for Educational and Psychological Testing[M].Washington,DC:American Educational Research Association,1999:1.

[21]ZUMBO B D.What role does,and should,the test standards play outside of the United States of America?[J].Educational Measurement:Issues and Practice,2014,33(4):31-33.

[22]PLAKE B S.Ready for member comment:Revised Standards for Educational and Psychological Testing[J].Educational Researcher, 2011(40):33.

[23]CAMARA W J.Issues facing testing organizations in using the Standards for Educational and Psychological testing[J].Educational Measurement:Issues and Practice,2014,33(4):13-15.

[24]SACKETT P R.An employment testing and credentialing perspective on the Standards for Educational and Psychological Testing[J]. Educational Measurement:Issues and Practice,2014,33(4):22-24.

[25]SINHARAY S,RIJMEN F,CHOI S,DORANS N.The revised standards and its role in research on educational measurement[J].Educational Measurement:Issues and Practice,2014,33(4):36-37.

[26]PULLIN D.Professional testing standards in the eyes of the law[J]. Educational Measurement:Issues and Practice,2014,33(4):19-21.

[27]Educational Testing Service.ETS Standards for Quality and Fairness[EB/OL].[2017-06-30].http://www.ets.org/about/fairness.

Understanding and Applying theStandards for Educational and Psychological Testing: A Case Study of How the Standards are Applied at Educational Testing Service

Cathy WENDLER,Barbara KIRSH
(Educational Testing Service,Princeton,NJ 08541,USA)

The book,Standards for Educational and Psychological Testing,was developed jointly by three preeminent American-based organizations involved in testing:the American Psychological Association,the American Education Research Association,and the National Council on Measurement in Education.This article briefly presents the history of these standards and the process by which they were developed.Educational Testing Service(ETS)has created its own set of standards,theETS Standards for Quality and Fairness,modeled on theStandards for Educational and Psychological Testing.The rationale for and process of creating the ETS standards and their use at ETS are also described in this article.

Standards for Testing;Standards for Educational and Psychological Testing;ETS Standards for Quality and Fairness

陳寧)

G405

A

1005-8427(2017)10-0027-9

10.19360/j.cnki.11-3303/g4.2017.10.005

Cathy Wendler,美國教育考試服務(wù)中心,博士;Barbara Kirsh,美國教育考試服務(wù)中心,博士。

猜你喜歡
測驗(yàn)測試標(biāo)準(zhǔn)
2022 年3 月實(shí)施的工程建設(shè)標(biāo)準(zhǔn)
幽默大測試
幽默大師(2020年11期)2020-11-26 06:12:12
忠誠的標(biāo)準(zhǔn)
“攝問”測試
美還是丑?
“攝問”測試
“攝問”測試
《新年大測驗(yàn)》大揭榜
趣味(語文)(2018年7期)2018-06-26 08:13:48
兩個(gè)處理t測驗(yàn)與F測驗(yàn)的數(shù)學(xué)關(guān)系
考試周刊(2016年88期)2016-11-24 13:30:50
一家之言:新標(biāo)準(zhǔn)將解決快遞業(yè)“成長中的煩惱”
專用汽車(2016年4期)2016-03-01 04:13:43
英德市| 东乡| 宁津县| 洪洞县| 财经| 洛浦县| 虞城县| 家居| 昔阳县| 延津县| 佳木斯市| 资中县| 阿勒泰市| 孟州市| 丹巴县| 宾川县| 灵台县| 西乌珠穆沁旗| 汝州市| 荆州市| 渝中区| 永寿县| 平果县| 桃源县| 清水河县| 宜良县| 溧水县| 台中市| 鹿邑县| 西城区| 揭阳市| 延安市| 阿荣旗| 嘉鱼县| 巴楚县| 滦平县| 西乌珠穆沁旗| 兴山县| 龙江县| 南京市| 台中市|