戴一飛
效度論證范式下的ECD測試設(shè)計框架
——我國教育考試國家題庫的升級路徑之一
戴一飛
進入效度整體觀時期,測試效度研究衍變?yōu)橛帽M可能多的“證據(jù)”支持考試的有效性,效度論證成為檢驗效度的基礎(chǔ)?!耙宰C據(jù)為中心的測試設(shè)計”(ECD)本著一切服務(wù)于效度論證的宗旨,依托計算機技術(shù)與思維,以教育測量與統(tǒng)計原理為方法,將測試設(shè)計過程模塊化,最大程度地使圍繞測試效度的全部證據(jù)聯(lián)系在一起,成就測試的“證據(jù)鏈”。我國教育考試國家題庫的升級可參考ECD的效度論證框架,以效度為重、以證據(jù)為先,建立被試思維和模塊思維,從根本上提高教育考試的科學性。
效度;效度驗證;ECD;題庫
題庫是個舶來品,20世紀60年代誕生于英國,是目前世界各大考試機構(gòu)普遍接受和采用的心理測量技術(shù)與工作方式。題庫,同樣也是改革我國考試事業(yè),改進評價機制,提升理論創(chuàng)新的“抓手”,是改造考試的“器”[1]。我國教育考試國家題庫建設(shè)始于2006年①我國從20世紀80年代開始關(guān)注題庫,初期研究以題庫的技術(shù)原理與方法介紹為主,在醫(yī)學、計算機科學、外語等具體學科的教學實踐中,嘗試建立小規(guī)模題庫,這一階段的理論與實踐積累為國家題庫建設(shè)奠定了基礎(chǔ)。,以教育部考試中心承擔國家題庫建設(shè)項目為標志。截至目前,包括高考、研究生考試、自考、成人高考在內(nèi)的國家教育統(tǒng)一考試的全部科目都被列入題庫建設(shè)當中,已經(jīng)形成了一定規(guī)模的以試題形式儲存的A類題庫和以試卷形式儲存的B類題庫[2]29。不少考試項目的題庫儲備初具規(guī)模,命題已實現(xiàn)日常化管理,風險應(yīng)對能力有明顯提升[2]2。然而,受政治、社會、安全等多方面因素制約,以高考為代表的高利害大規(guī)模教育考試,依舊采用傳統(tǒng)的“入闈”命題方式,命題者非到考試結(jié)束,不得“出闈”,“泄題”的風險管控以封閉為主??陀^地講,我國的題庫建設(shè)仍在初級階段,距離集管理試題、組配試卷和報告分數(shù)于一體的現(xiàn)代題庫還有一定距離。嚴格說來,題庫若缺乏效度標準,其輸出的考試產(chǎn)品是解釋不了分數(shù)含義的,而我國題庫在效度方面的設(shè)計,確有提升空間。新一輪高考改革要求考試主要服務(wù)于本科院校的招生,突出能力和素養(yǎng)考查,調(diào)整科目數(shù)量,外語實現(xiàn)一年多考;研究生考試、自考等大規(guī)模教育考試目前也都處于改革期,調(diào)整思路正在醞釀,頂層設(shè)計一觸即發(fā);網(wǎng)絡(luò)媒體迅猛發(fā)展,老百姓對于國家教育考試關(guān)注度之高前所未有,社會監(jiān)督的力量不容小覷。面對這些挑戰(zhàn),國家題庫究竟能做些什么?又該怎樣做?
筆者認為,改良與升級國家題庫,突破點不再是硬件的更新?lián)Q代或追求入庫試卷的倍量,而應(yīng)該回歸理論建構(gòu)上來,將效度、信度、等值、分數(shù)解釋等重要的心理測量概念整合進題庫,這之中,尤以效度觀念的建立最為迫切。一項沒有效度做保證的考試,其使用風險是極大的。關(guān)注效度,關(guān)注教育測量的統(tǒng)計屬性,關(guān)注以分數(shù)解釋為出發(fā)點的論證過程,建設(shè)“理論驅(qū)動”[3]的國家題庫,是下一階段教育考試題庫升級的目標與意義所在,也正是本文研究的著眼點。效度理論目前已發(fā)展到新的階段,效度整體觀影響下的效度論證范式,引發(fā)眾多測試模型的提出,本文擬選擇目前指導美國教育考試服務(wù)中心(Educational Testing Service,ETS)考試與評價工作的以證據(jù)為中心的測試設(shè)計框架(Evidence-Centered Design,ECD)作為研究對象,通過分析其工作方式,剖析這一框架對于效度論證的作用,指出ECD所蘊含的思想方法對于升級國家題庫的意義。
一項測試是否有效測量了它所想要測量的東西,是評價這項測試最重要的指標,稱之為效度(va?lidity),而那個“東西”,即某種“概念或?qū)傩浴?,被稱為構(gòu)念(construct)①對于construct的翻譯有多種,除“構(gòu)念”外,也常被譯為“構(gòu)想”“結(jié)構(gòu)”以及“建構(gòu)”。[4]11。如今,心理測量學的話語體系中已不再簡單地描述“一項考試的效度”是多少,是高還是低,因為在沒有前提、也未加限定的情況下,這種討論既不正確,也無意義。效度更多地與“程度”“評價”和“判斷”這些關(guān)鍵詞聯(lián)系在一起,效度驗證(validation)逐步取代對靜態(tài)意義上效度的觀察?;仡櫺Ф壤碚摰陌l(fā)展,大體經(jīng)歷了三個階段:20世紀50年代以前的單一效度觀時期,20世紀50年代至80年代中期的分類效度觀時期,以及20世紀80年代中期至今的效度整體觀時期[5]87。
持單一效度觀者,把效度等同于相關(guān)系數(shù),系數(shù)越大,預(yù)測能力越強,效度也就越好。美國標準化考試運動期間,以GRE、LSAT等教育考試為對象的研究,通常都會報告被試得分與其一年級期末成績的相關(guān)度,以此說明考試的有效性[6]。效度在當時是以系數(shù)呈現(xiàn)出的客觀概念。20世紀50年代起,對效度的認識進入到“三分說”(Trinitarian doc?trine)時期,效度被定義為內(nèi)容效度、效標效度和構(gòu)念效度三種類型。其中,效標效度是對早先提出的預(yù)測效度和同時效度兩個概念的整合。“構(gòu)念”第一次被作為效度類型的識別標準。分類效度觀對效度理論的后續(xù)發(fā)展影響頗為深遠,三種“效度類型”沿用至今。20世紀80年代中后期,對于效度的理解,進入整體觀時期。起先,構(gòu)念效度在“三分說”中占據(jù)上風,進而,構(gòu)念又將構(gòu)念效度取而代之??寺“秃眨↙ee J.Cronbach)在第二版《教育測量》(Educational Measurement)中指出,“效度印證的不是測試本身,而是對具體施測過程中所形成數(shù)據(jù)的解釋”[7]。從此,效度內(nèi)涵已從單純的“某項考試的效度”轉(zhuǎn)為“分數(shù)解釋的效度”。在1985年版《教育與心理測試標準》(Standards for Educational and Psychological Testing,下文簡稱《標準》)中,效度的定義被修訂為“依據(jù)分數(shù)所做的推理是否適恰、是否富有意義、是否具備實用性??荚嚨男Ф闰炞C就是搜集證據(jù)來支持上述推理的過程”[8]。值得注意的是,此時的“效度類型”被“證據(jù)類型”所取代,內(nèi)容證據(jù)與效標證據(jù)被看作是對“與構(gòu)念有關(guān)的證據(jù)”的補充,信度也成為效度證據(jù)的一種。梅西克(Samuel J.Messick)是持效度整體觀的代表人物,他提出“經(jīng)驗證據(jù)和理論依據(jù)在多大程度上指出基于測驗分數(shù)或是其他評估方式所做的推斷或采取的行動是否充分和適當?對這個問題的綜合評價性判斷就是效度”[9][5]89。這一定義與2014版《標準》對效度的闡釋——“在具體使用測驗時,證據(jù)與理論的積累對分數(shù)解釋的支持程度”[4]225已十分接近。從此,效度研究的邏輯衍變?yōu)椤坝帽M可能多的證據(jù)去支持考試”[10]。
用盡可能多的“證據(jù)”證明考試的有效性,成為效度驗證的基礎(chǔ),證據(jù)即為效度。在這種效度觀的影響下,效度驗證的內(nèi)容也發(fā)生著變化:單一效度觀下的效度驗證,是對相關(guān)系數(shù)的計算;分類效度觀下的效度驗證是多重標準的效度證明過程,有經(jīng)驗意義上的,也有實證意義上的;整體效度觀下的效度驗證則體現(xiàn)為對作為統(tǒng)一整體的效度的論證過程,關(guān)注的不僅是形式邏輯與數(shù)理推理,還包括對前提可接受性的反復拷問與證成。
如果說梅西克在第三版《教育測量》中對于效度的定義是效度理論的重大突破,那么第四版《教育測量》中,凱恩(Michael T.Kane)使用“效度驗證”而非“效度”為標題解釋效度理論,可以說是對梅西克將效度問題落腳到“評價”(evaluation)的進一步發(fā)展[11],即強調(diào)證據(jù)收集的過程性。凱恩指出,效度驗證包含兩種論證,一是解釋性論證(interpretive argument),二是效度論證(validity argument),前者運用“如果-那么”(If-Then)規(guī)則,對證據(jù)所支持的分數(shù)解釋與運用作出具體說明,而后者則是對解釋性論證的評價,欲確認對分數(shù)的解釋或運用是有效的,需首先認定其解釋性論證具有相關(guān)性,推理依據(jù)具有合理性,假設(shè)前提具有可接受性[12]23。從形式邏輯來看,只要結(jié)論是按照邏輯規(guī)則得出的,推理就有效,解釋性論證運用的就是這種推理邏輯,但問題是解釋性論證論據(jù)的成立卻不僅僅依賴于形式邏輯,有時還會依據(jù)假設(shè)性推理或非形式邏輯推理[12]23。據(jù)此,效度驗證則不僅要關(guān)照“分數(shù)的合理解釋”,還需要考慮“分數(shù)解釋的可接受性”[13],對那些看似為真的前提作出論證。效度驗證不再是一個封閉的步驟或環(huán)節(jié),而是不斷收集多種證據(jù),在結(jié)論與證據(jù)之間“來回審視”[14]的效度論證過程①在一定意義上,效度論證與法律論證有相似之處。此處借用德國法學家卡爾·恩吉施(Karl Engisch)對法律判斷形成中等置的描述:“等置是事實與規(guī)范相互關(guān)照,在事實與規(guī)范之間來回審視?!?。
基于效度驗證中存在非形式邏輯的現(xiàn)實,心理測量學界開始尋找效度論證的方法。非形式邏輯創(chuàng)始人圖爾敏(Stephen E.Toulmin)提出的論證模型為效度論證提供了依據(jù)。凱恩運用圖爾敏模型構(gòu)建出具體的效度論證模型,嘗試解決證明推論理據(jù)本身的成立問題[12]27-28。圖爾敏認為,在作出某種結(jié)論之前,必須充分證成這種結(jié)論,且當結(jié)論受到挑戰(zhàn)時,能夠?qū)ζ渥鞒鲛q護。圖1展示的是圖爾敏模型的六個基本要素及其相互關(guān)系。
圖1
數(shù)據(jù)(Datum)是運用該模型推衍結(jié)論(Claim)的起點,對考生作答情況的記錄即為數(shù)據(jù),分數(shù)即為結(jié)論。在考生的作答情況與分數(shù)之間,存在一個正當化的過程(Warrant),為正當化提供支持的證據(jù)就是支援(Backing)。這一過程中,一方面需要通過限定(Qualifier)增強結(jié)論的可接受度,另一方面需要排除例外情形對結(jié)論造成的反駁(Rebuttal)。效度論證中的每一項解釋性論據(jù)都經(jīng)歷著若干次從數(shù)據(jù)到結(jié)論的論證過程,且前一次論證的結(jié)論將成為下一次論證的數(shù)據(jù)。
在凱恩等人所描繪的效度驗證論據(jù)鏈基礎(chǔ)上[15],語言測試專家巴赫曼(Lyle F.Bachman)增加了一項推論,即基于分數(shù)的決策。在此,借用巴赫曼延伸后的論證鏈(圖2)[16-17]來說明圖爾敏論證模型在效度論證中的具體運用。
如何證明從考生作答情況的數(shù)據(jù)觀察推導出分數(shù)以及分數(shù)的使用是正當?shù)??從觀察分數(shù)概括出全域分數(shù)的正當化理由,是統(tǒng)計意義上的從樣本均值到期望值的概括過程,對這一過程的支援包括具有代表性的樣本所提供的證據(jù)。從全域分數(shù)外推出目標分數(shù)的正當化理由,是回歸方程(regres?sion equation),對回歸方程的支援包括對于測試分數(shù)與效標分數(shù)之間相互關(guān)系的實證研究。解釋分數(shù)時的推理往往需要明確的限定,如標準誤差和置信區(qū)間,二者表明從觀察分數(shù)到全域分數(shù)推理過程的不確定性,再如從測試分數(shù)到標準分數(shù)的推演伴隨著相關(guān)系數(shù)的標準誤差?;谀繕朔謹?shù)的決策往往會通過限定來增強說服力,例如為擇業(yè)提供的測試,同分班測試或是升學測試所需的限定就有很大差異。而在某些情況下,即使給出了限定,也無法實現(xiàn)從數(shù)據(jù)、正當化再到結(jié)論的跳躍,于是反駁發(fā)生了[18]。從數(shù)據(jù)到結(jié)論的正當化過程,即便已經(jīng)加了限定,依然不能被接受,此時對于分數(shù)的解釋性論證就無法成立。
效度內(nèi)涵在不斷發(fā)展,以論證的方式進行效度驗證是未來的必然趨勢[16-17]。然而,僅有論證模型與概念性術(shù)語,并不足以具體設(shè)計和實施測試,考試機構(gòu)需要更加明確具體的“工具”,即用某種結(jié)構(gòu)或框架來整合論證模型和術(shù)語,使整個測試從設(shè)計到評價的全部過程更為清晰、操作性更強[19]1。ECD正是這樣一種框架性的方案選擇和思想方法。
圖2
ECD起初是ETS于1997年設(shè)立的一個研發(fā)項目,由梅斯雷弗(Robert J.Mislevy)、斯坦伯格(Lin?da S.Steinberg)以及阿蒙德(Russell G.Almond)三人負責[20]。該項目最直接的理論基礎(chǔ)來自1994年梅斯雷弗本人對于測試中證據(jù)與推理問題所做的闡釋,他指出無論何種類型的教育評價,本質(zhì)上關(guān)注的是對學生知識、技能和成就作出一定的推理,評價可以看作“基于證據(jù)進行推理”的過程[21-22]。隨后幾年,梅斯雷弗等人陸續(xù)發(fā)表針對該框架的研究成果,并作出更為系統(tǒng)的闡釋[19,23]。目前,ECD已成為美國教育評價領(lǐng)域主要的應(yīng)用模型之一[24],也是指導ETS開發(fā)和實施具體考試評價產(chǎn)品的平臺。梅西克以構(gòu)念為中心的效度觀對梅斯雷弗開發(fā)ECD有直接影響,證據(jù)推理、統(tǒng)計模型、概率推理等理論發(fā)展,計算機技術(shù)在心理測量領(lǐng)域的應(yīng)用,令ECD的出現(xiàn)成為可能和必要。在整體效度觀的影響下,ECD試圖整合眾多證據(jù),協(xié)調(diào)不同證據(jù)的銜接,以便讓所有證據(jù)都指向效度驗證這個終極目標。微觀上,ECD包含一個概念性框架和四個具體發(fā)布環(huán)節(jié),概念性框架是六種模型的組合,發(fā)布環(huán)節(jié)是對各模型動態(tài)嵌入不同測試運行階段的描述;宏觀上,ECD還意味著由五部分組成的層級關(guān)系,以及將上述各項步驟與各種信息結(jié)合在一起的測試循環(huán)(Delivery Cycle)。
3.1 運行方式①此部分內(nèi)容主要是指計算機輔助環(huán)境下的測試設(shè)計。
3.1.1 概念性測試框架
概 念性 測試 框架(Conceptual Assessment Framework,CAF)[23]6-13反映的是一項測試的設(shè)計藍圖,具體包括六種模型,即考生模型(Student Mod?el)、證據(jù)模型(Evidence Model)、任務(wù)模型(Task Model)、組卷模型(Assembly Model)、呈現(xiàn)模型(Pre?sentation Model)和交付系統(tǒng)模型(Delivery SystemModel)。CAF的每個模型都是圍繞著“要測量什么”“怎樣測量所想要測量的東西”這兩個問題展開的。
考生模型是眾多無法直接觀察到的變量的集合,這些變量來自考生作答情況在概率上的實時調(diào)整??忌趹?yīng)試狀態(tài)下對不同試題作出不同反饋,計算機再根據(jù)最新的反饋,給出下一個任務(wù)??忌P吞峁┝丝忌谧鞔鸱矫娴臄?shù)據(jù),體現(xiàn)為概率分布。
證據(jù)模型包含證據(jù)規(guī)則(Evidence Rules)與測量模型(Measurement Model)兩部分。證據(jù)規(guī)則規(guī)定如何從考生當下的作答情況(可觀察變量)歸納考生的水平,屬于應(yīng)答評分的數(shù)據(jù)。測量模型提供的是有關(guān)考生模型變量與可觀察變量之間的關(guān)聯(lián)性信息。經(jīng)典測量理論、項目反應(yīng)理論、認知診斷模型等都屬于測量模型,這些模型指導了總結(jié)性評分的過程,是對整個測試任務(wù)中各項證據(jù)的積累與整合。
任務(wù)模型解決的是如何向證據(jù)模型提供證據(jù)的問題。考生將看到怎樣的測試任務(wù)、作答后將產(chǎn)生怎樣的結(jié)果都由任務(wù)模型來完成。任務(wù)模型包含不同的任務(wù)模型變量,體現(xiàn)為各項任務(wù)的屬性,以及這些屬性如何同考生看到的測試任務(wù)和作答后的反饋相關(guān)聯(lián)。任務(wù)模型可以幫助命題者寫入試題內(nèi)容,幫助測量專家調(diào)配題量。不同的任務(wù)模型產(chǎn)生不同的任務(wù)組合,呈現(xiàn)出不同的試卷內(nèi)容。這種將任務(wù)模塊化的做法,系統(tǒng)控制了提供一套試卷所需試題的證據(jù)材料和統(tǒng)計參數(shù),其優(yōu)勢在于,可以直接對這些任務(wù)組合進行評價,并提供了開放性設(shè)置任務(wù)組合的途徑。
組卷模型是將考生模型、證據(jù)模型和任務(wù)模型串接在一起。該模型以精準測量考生模型變量為目的,在協(xié)調(diào)不同任務(wù)間相互關(guān)系的同時,恰當?shù)胤从晨己藘?nèi)容的深度與廣度。該模型可以幫助計算機回答“需要對被試測量到什么程度”的問題。
呈現(xiàn)模型規(guī)定了試卷的呈現(xiàn)方式。相同的考試內(nèi)容,既可以紙筆方式呈現(xiàn),也可以通過計算機網(wǎng)絡(luò)呈現(xiàn),區(qū)別在于前者只需要向打印機發(fā)出指令,而后者卻需要編寫代碼來實現(xiàn)。
交付系統(tǒng)模型集學生、證據(jù)、任務(wù)、組卷以及呈現(xiàn)模型于一體,對各個模型的共性內(nèi)容做了統(tǒng)一規(guī)定,如平臺、安全以及時間控制等,協(xié)助不同類別的模型進行搭配,以實現(xiàn)不同的測試目的。
依梅斯雷弗等人看來,這六種模型是溝通測試的效度論證與實操環(huán)節(jié)的橋梁。通過這些模型,一項考試所考核的知識水平與技能、測量條件、各種證據(jù)都得以具象化。圖3是交付系統(tǒng)模型的示意圖,直觀反映了各模型之間的關(guān)聯(lián)。
3.1.2 發(fā)布環(huán)節(jié)
圖3 交付系統(tǒng)模型示意圖
如果說上述模型屬于測試設(shè)計的靜態(tài)框架,發(fā)布環(huán)節(jié)(Four-process Delivery Architecture for As?sessment Delivery)[19]25就是把靜態(tài)框架串聯(lián)起來的動態(tài)過程。一項計算機自適應(yīng)測試的運行離不開以下四個環(huán)節(jié),即呈現(xiàn)(Presentation Process)、證據(jù)識別(Evidence Identification,又稱Response Process?ing)、證據(jù)匯總(Evidence Accumulation,又稱Sum?mary Scoring)以及活動選擇(Activity Selection),各環(huán)節(jié)同時與任務(wù)/證據(jù)合成庫(Task/Evidence Com?posite Library)發(fā)生聯(lián)系——接納數(shù)據(jù)和輸出數(shù)據(jù)?;顒舆x擇環(huán)節(jié)負責從任務(wù)庫中選擇考試任務(wù),然后將呈現(xiàn)該題目的指令發(fā)送給呈現(xiàn)環(huán)節(jié),由該環(huán)節(jié)將試題展現(xiàn)給考生,而這些考試任務(wù)是由任務(wù)模型設(shè)計好的。呈現(xiàn)環(huán)節(jié)收集到考生的作答情況之后,將其傳遞給證據(jù)識別環(huán)節(jié),由該環(huán)節(jié)根據(jù)證據(jù)模型所規(guī)定的方法來完成應(yīng)答過程,把所識別的作答結(jié)果通過證據(jù)模型定義的評價程序給出可觀察變量的值。這個值傳遞給證據(jù)匯總環(huán)節(jié),由其通過考生模型變量的值更新概率分布,得到總結(jié)性評分反饋,立即儲存后用于下一次分數(shù)報告。證據(jù)匯總向活動選擇環(huán)節(jié)提供信息,幫助其判斷選擇何種考試任務(wù)。圖4反映了這四個環(huán)節(jié)的相互關(guān)系。
3.1.3 ECD層級
圖4 計算機自適應(yīng)測試的四個發(fā)布環(huán)節(jié)
表1 ECD層級匯總
ECD層級(ECD Layers)[19]6是2005年梅斯雷弗等人在ECD概念性測試框架和四個發(fā)布環(huán)節(jié)的基礎(chǔ)上提出的新概念,是對ECD框架的完善與拓展。根據(jù)表1,CAF與發(fā)布環(huán)節(jié)只是ECD層級中的兩個層級,CAF之前增加了內(nèi)容分析與內(nèi)容模型兩個層級,在CAF與測試發(fā)布之間,增加了測試實施這個層級。從表1所反映的各層級作用與核心內(nèi)容來看,內(nèi)容分析與內(nèi)容模型是同構(gòu)念效度以及效度論證理論相呼應(yīng)的,也間接同分數(shù)的解釋發(fā)生關(guān)聯(lián)。內(nèi)容分析具體表現(xiàn)在考核內(nèi)容方面,由各專業(yè)領(lǐng)域的專家、學者作出規(guī)定,而內(nèi)容模型則主要由測試設(shè)計者負責,二者協(xié)同合作,確定測試的內(nèi)容與結(jié)構(gòu)。測試實施是將CAF所描繪的測試各個部分實際制造出來,包括命題者撰寫考試任務(wù)、測試模型的匹配、評分細則的制定、仿真程序的編制等內(nèi)容。
3.2 設(shè)計特點
3.2.1 以證據(jù)為中心,一切設(shè)計服務(wù)于效度論證
在證據(jù)即效度這一觀念的影響下,對于測試效度的“計算”,轉(zhuǎn)變?yōu)閷τ跍y試相關(guān)證據(jù)的收集、整理、解釋、論證,ECD的設(shè)計完全圍繞這個主題。ECD處理和整理證據(jù)的方式并非截然分開,而是彼此支持,互為因果,為效度論證提供了完整的證據(jù)鏈。ECD是一種問題導向的設(shè)計,即不斷地去解答以下這些問題:最終要形成怎樣的成績報告?如何用分數(shù)來說明和解釋這份報告?說明與解釋的理由是什么?證據(jù)有哪些?如何收集和處理這些證據(jù)?這些證據(jù)如何能支持結(jié)論?證據(jù)是否可靠?在不斷回答這些問題的過程中,形成ECD的工作模型。
2014版《標準》列舉了五種效度證據(jù):考試內(nèi)容(Test Content)、應(yīng)答過程(Response Processes)、試卷的內(nèi)部結(jié)構(gòu)(Internal Structure)、與其他變量的關(guān)系(Relations to Other Variables)以及測試的效度與社會效應(yīng)(Validity and Consequences of Testing)[4]14-21。ECD巧妙地將這五種證據(jù)關(guān)聯(lián)起來,并為每一種證據(jù)都提供了嵌入模型。
考試內(nèi)容是關(guān)于測量對象即構(gòu)念的證據(jù),主要體現(xiàn)在任務(wù)模型當中??荚嚈C構(gòu)將規(guī)定好各種屬性的試題放入題庫,根據(jù)具體需求,對試題在數(shù)量上和類型上進行組合,向考生呈現(xiàn)試卷內(nèi)容。考試內(nèi)容能否充分反映某一類專業(yè)能力,由專家進行研判,與構(gòu)念形成對應(yīng)關(guān)系,在一定程度上反映與內(nèi)容有關(guān)的證據(jù)的有效性,但尚不足以建立起分數(shù)解釋和效度論證的證據(jù)鏈。
ECD的證據(jù)模型可以提供應(yīng)答過程中產(chǎn)生的證據(jù)以及與試卷內(nèi)部結(jié)構(gòu)相關(guān)的證據(jù)??忌膽?yīng)答過程反映出考生能力表現(xiàn)與構(gòu)念之間的匹配關(guān)系[4]15。具體來說,考試收集的證據(jù)不是考生能否答對某一道試題,而是其究竟能否把試題所希望考查的能力水平體現(xiàn)出來。應(yīng)答環(huán)節(jié)可以收集包括寫作習慣、作答時間、視線活動的分配等證據(jù),目前的計算機技術(shù)可以輕易地記錄下這些痕跡。應(yīng)答過程還可以佐證閱卷質(zhì)量,通過記錄閱卷習慣,判斷閱卷者是否嚴格按照評分標準打分。與試卷內(nèi)部結(jié)構(gòu)相關(guān)的證據(jù)體現(xiàn)為各試題之間以及試卷各部分的組合在多大程度上與分數(shù)解釋的依據(jù)(即構(gòu)念)相符合[4]16。當測試目的單一、構(gòu)念指向明確時,題目的同質(zhì)化程度相對就高,反之亦然。
基于考試同其他變量之間的關(guān)系獲得的證據(jù),反映了這些關(guān)系同解釋分數(shù)的構(gòu)念相一致的程度,主要包括聚合證據(jù)與區(qū)別證據(jù)(convergent and dis?criminant evidence)、與效標之間的關(guān)聯(lián)性以及效度概化(validity generalization)。效度和社會效應(yīng)方面的證據(jù)主要體現(xiàn)為考試產(chǎn)生的社會后果是否同預(yù)期相吻合。ECD的應(yīng)答環(huán)節(jié)和總結(jié)性評分環(huán)節(jié)在測試實際運行時,不斷收集即時性證據(jù)與結(jié)論性證據(jù),各種數(shù)據(jù)的處理過程被完整記錄下來,當需要同外部變量做相關(guān)分析時,可隨時調(diào)用。
3.2.2 以計算機技術(shù)與思維為依托,測試的設(shè)計過程模塊化
專家系統(tǒng)、軟件設(shè)計以及法律論證是ECD框架的主要技術(shù)與理論基礎(chǔ)[19]1。ECD是基于計算機輔助測試技術(shù)的設(shè)計框架,對于考試各個方面的理解都需要考慮計算機的應(yīng)用問題。傳統(tǒng)上,考試工作包含命題、考務(wù)和評價三個方面。在命題環(huán)節(jié),由命題者寫題、組卷、保管;在考務(wù)環(huán)節(jié),由考務(wù)人員儲存、運送、監(jiān)考、回收、閱卷、發(fā)布成績;在評價環(huán)節(jié),由評價者對試卷質(zhì)量做分析與評估。此種模式是按照工作性質(zhì)劃分的。ECD提供的是另一種測試設(shè)計思路,一開始就以效度驗證為工作核心,然后圍繞這個目標將任務(wù)拆分為六大模塊,這些模塊是建立在計算機技術(shù)基礎(chǔ)之上的,命題、考務(wù)與評價三部門都可以使用不同的模塊進行工作,也可以從不同的模塊中獲取數(shù)據(jù)與資源。由于考試設(shè)計任務(wù)已被盡可能細化為一個個計算機指令或程序,當考試的某些方面修訂或更新時,只需要修改相應(yīng)模塊的具體內(nèi)容即可,不會影響到其他模塊的運行,有利于更加便捷和高效地將各種新數(shù)據(jù)、新資料納入修訂后的考試當中。ECD的效度驗證過程基于不同的工作模塊展開,具有開放性與持續(xù)性。
曾有專家在我國恢復高考30年時對考試技術(shù)的變革做過述評,總結(jié)出四項考試手段和技術(shù)方面的革新,即網(wǎng)上報名技術(shù)的興起、網(wǎng)上閱卷的實施、網(wǎng)絡(luò)化考試的實施以及電子考場監(jiān)控技術(shù)的運用[25]。如今,高考恢復已近40年,我國在考試技術(shù)方面的發(fā)展仍然停留在這四個方面。在這四個方面當中,網(wǎng)上報名、網(wǎng)上閱卷以及電子考場監(jiān)控都屬于考務(wù)技術(shù),與命題、評價相關(guān)的僅有網(wǎng)絡(luò)化考試一項。盡管目前我國已有相當多考試采用了網(wǎng)考技術(shù),積攢了豐富的經(jīng)驗,但以高考為代表的高利害的大規(guī)模教育考試幾乎無一采用網(wǎng)絡(luò)化考試技術(shù)。當前,教育考試題庫已初具規(guī)模,高考等國家重大教育考試都在題庫技術(shù)的支持范圍之內(nèi),如能真正地將計算機輔助考試、網(wǎng)絡(luò)化考試以及作為技術(shù)支持的題庫運用到這些考試當中,將從實質(zhì)上提升考試的質(zhì)量。
美國ETS所運用的ECD測試設(shè)計框架,嚴格說來,并不是題庫建設(shè)本身,而是在架構(gòu)上高于題庫的測試設(shè)計框架和統(tǒng)領(lǐng)測試設(shè)計的范式與思想。它將題庫納入其中,讓題庫在一個測試網(wǎng)或是測試循環(huán)[19]27中發(fā)揮作用。ECD框架與運行方式可為我國的國家題庫建設(shè)提供以下三方面的啟示。
首先,建立效度思維,將效度論證納入題庫升級的設(shè)計考量。在現(xiàn)代教育和心理測量學中,效度是一個統(tǒng)一的概念,它需要有多方面的證據(jù)來支持根據(jù)考試結(jié)果對考生心理結(jié)構(gòu)所作出的推測;它關(guān)注的是考試結(jié)果的解釋,不是考試本身;它包含了對考試結(jié)果使用所產(chǎn)生的社會后果的評價[26]33。效度是教育心理測量的基本要求,也是大規(guī)模教育考試科學屬性的基本要素之一[26]31。效度論證既是考試質(zhì)量的求證,也是考試質(zhì)量的說明[27]。在分分必爭的今天,分數(shù)以及分數(shù)解釋的效力如何,要看考試的效度。題庫可以做很多事情,但最核心的功能是輔助命題,命題質(zhì)量的高低應(yīng)以效度為衡量標準,因而題庫的設(shè)計不僅應(yīng)該確保存儲試題的安全性,更應(yīng)該為確保試題的分數(shù)可解釋性與可接受性服務(wù)。
其次,建立被試思維,題庫設(shè)計要從一元視角轉(zhuǎn)變?yōu)槎暯?。題庫的使用者是考試機構(gòu),但題庫的服務(wù)對象卻絕非只是考試機構(gòu)。從手段來看,題庫是運用科技手段命題的好方法,但從目的來看,題庫幫助下產(chǎn)出的試題,依然要面對考生,面對考生家長,面對整個社會,這就不單單是一個方法問題。如果題庫建設(shè)只站在考試機構(gòu)這一元的施考者視角,那么往往采用的是以效率與安全優(yōu)先的價值判斷,尤其是在我國的教育體制之下,考試的效度問題容易被忽略。這種一元視角帶來的最大隱憂就是,經(jīng)不起社會的拷問,一旦有人質(zhì)疑試卷的有效性,如何應(yīng)對會成為最為棘手的事情。且不說完整地將整個效度論證的證據(jù)鏈連接起來,就連分數(shù)意義的解釋都難以完成。建立施考者與被試的二元視角,對于題庫的升級非常關(guān)鍵。任何考試最終都要向被試報告成績或結(jié)果,這個結(jié)果對于考試機構(gòu)而言,往往最容易被忽略,卻恰恰是考生最為看重的。如果不能建立起被試思維,不從考生角度看待考試,考試恐怕只能稱得上是一種行政任務(wù),而非真正意義上的心理測量、教育評價。二元視角要求考試機構(gòu)在設(shè)計考試之初,就必須明確如何向考生解釋分數(shù)以及怎樣使用分數(shù)這些問題。
第三,建立模塊思維,讓命題過程在題庫中模塊化。沒有科學的統(tǒng)計與測量分析功能支持的題庫并不是一個有價值的題庫[28]。ECD給出了一種用模塊思維來構(gòu)筑題庫的路徑選擇。正如前述所分析的,題庫所包含的各種模型,將測試設(shè)計的各個環(huán)節(jié)分解,一方面最大限度地將計算機技術(shù)應(yīng)用到心理測量領(lǐng)域,另一方面也將整個測試設(shè)計的思維過程換算為具體的運行步驟,將對于測試效度的種種證明過程,都融入到了計算機運算模型當中。模塊思維的建立,對于應(yīng)對科技發(fā)展向考試機構(gòu)提出的挑戰(zhàn)具有特殊意義。
如果說,以高考為首的大規(guī)模教育考試目前依舊采用“入闈”來規(guī)避風險,命題者背對背預(yù)測試題難度,采用原始分數(shù)“一刀切”劃定分數(shù)線,以評價會的形式請專家論證考試的內(nèi)容效度,用輿論引導的方式疏通社會對于考試公平性的質(zhì)疑,那么,我們的考試仍舊難以稱為科學的考試,我們的考試機構(gòu)也難以專業(yè)化考試機構(gòu)自居。西方的教育測量學已經(jīng)走了很遠,從一開始的相關(guān)系數(shù)到后來的幾種效度類型,再到構(gòu)念的出現(xiàn)與整體效度觀的建立,人們對于考試的認識已經(jīng)不再是一個分數(shù),而是整個考試過程,人們需要了解的是分數(shù)背后的意義以及意義的有效性與可靠性,考試過程意味著證據(jù)積累的過程。ECD框架就是圍繞證據(jù)的收集設(shè)計的。之所以說ECD框架可為我國的教育考試國家題庫建設(shè)所借鑒,在于其表達了一種以效度為重、以證據(jù)為先的測試設(shè)計思想方法,是一種從構(gòu)念出發(fā),從考生出發(fā),從目的出發(fā)的命題方式,一切以分數(shù)最后的解釋力為核心,這些正是當前國家題庫建設(shè)最需要樹立的觀念。
[1]劉芃.另一個角度看題庫[J].中國考試,2013(11):4.
[2]李光明,等.教育考試國家題庫理論與實踐[M].北京:高等教育出版社,2014.
[3]楊向東.理論驅(qū)動的心理與教育測量[M].上海:華東師范大學出版社,2014.
[4]AERA,APA,NAME.Standards for Educational and Psychological Testing[S].Washington,DC:American Educational Research Asso?ciation,2014.
[5]李清華.語言測試之效度理論發(fā)展五十年[J].現(xiàn)代外語,2006(1).
[6]CRAWFORD A B,GORHAM T J.The Yale Legal Aptitude Test[J]. The Yale Law Journal,1940,49(7):1237-1249.
[7]THORNDIKE R L.Educational Measurement[C].Washington,DC: American Council on Education,1971:447.
[8]AERA,APA,NAME.Standards for Educational and Psychological Testing[S].Washington,DC:American Educational Research Asso?ciation,1985:9.
[9]MESSICK S J.Validity[A]//LINN R L.Educational Measurement. New York:Macmillan,1989:13.
[10]謝小慶.測驗效度概念的新發(fā)展[J].考試研究,2013(3):58.
[11]趙琪鳳.效度理論發(fā)展述評——基于四版《教育測量》異同的比較分析[J].中國考試,2012(7):10.
[12]KANE M T.Validation[A]//BRENNAN R L.Educational Measure?ment.Lanham:Rowman&Littlefield Publishers,2006.
[13]謝小慶.效度:從分數(shù)的合理解釋到可接受解釋[J].中國考試,2013(7):7-8.
[14]鄭永流.法律判斷形成的模式[J].法學研究,2004(1):147.
[15]KANE M T,CROOKS T,COHEN A.Validating Measures of Per?formance[J].Educational Measurement:Issues&Practice,1999, 18(2).
[16]BACHMAN L F.Building and Supporting a Case for Test Use[J]. Language Assessment Quarterly,2005,2(1).
[17]胥云.語言測試中基于論證的效度驗證模式述評[J].外語教學理論與實踐,2011(4):13.
[18]楊寧芳.圖爾敏論證邏輯思想研究[M].北京:人民出版社, 2012:71.
[19]MISLEVY R J,RICONSCENTE M M.Evidence-Centered Assess?ment Design:Layers,Structures,and Terminology[R/OL].[2016-09-01].http://padi.sri.com/downloads/aera/2005/symposium2/pa?pers/MislevyRicLayers.pdf.
[20]MISLEVY R J,STEINBERG L S,ALMOND R G.Evidence-Cen?tered Assessment Design[EB/OL].[2016-09-01].http://www.edu?cation.umd.edu/EDMS/mislevy/papers/ECD_overview.html.
[21]MISLEVY R J.Evidence and Inference in Educational Assessment [EB/OL].[2016-09-01].http://files.eric.ed.gov/fulltext/ED390888. pdf.
[22]馮翠典.“以證據(jù)為中心”的教育評價設(shè)計模式簡介[J].上海教育科研,2012(8):12.
[23]MISLEVY R J,ALMOND R G,LUKAS J F.A Brief Introduction to Evidence-Centered Design[EB/OL].[2016-09-01].http://www. ets.org/Media/Research/pdf/RR-03-16.pdf.
[24]柏毅,呂澤恩.美國教育評估系統(tǒng)的ECD模型[J].教育測量與評價,2016(1):35.
[25]王后雄,何家軍.恢復高考30年考試技術(shù)的變革述評[J].中國考試,2007(8).
[26]雷新勇.大規(guī)模教育考試科學屬性之理論和實踐思考[J].教育與考試,2007(1).
[27]陳寧.Toulmin推斷模型在考試效度論證中的應(yīng)用[J].中國考試,2012(4):20.
[28]楊志明.題庫建設(shè)之統(tǒng)計與測量分析系統(tǒng)[J].教育測量與評價, 2016(3):4.
ECD as the Assessment Design Framework under the Paradigm of Validity Argument:An Approach to Upgrade National Educational Item Bank
DAI Yifei
Validity nowadays refers to the degree to which evidence support the interpretations of test scores for proposed uses of tests.Validity argument is the foundation of validation.Evidence-Centered Design(ECD),guided by educational measurement and statistics,focuses on collecting validity evidence through computer technologies and divides test design into models which identify all kinds of evidence.ECD is to achieve an evidence chain for each test.To build a scientific and valid Chinese national educational item bank,it is essential to build the way of thinking tests as a process of evidence collection.Besides,the practice of ECD of modeling different evidence sets up a successful example to design the item bank technically and scientifically.
Validity;Validation;ECD;Item Bank
G405
A
1005-8427(2016)11-0028-10
(責任編輯:陳睿)
戴一飛,女,博士,教育部考試中心,助理研究員(北京 100084)