劉慶思
(教育部考試中心,北京 100084)
構(gòu)念是心理學(xué)中的一個(gè)重要概念,“是指用來解釋人類行為的理論框架或心理特質(zhì),它是心理學(xué)中抽象的假設(shè)性的概念、特質(zhì)或變量?!盵1]1955年,Cronbach和Meel提出構(gòu)念效度的概念,將構(gòu)念引入到教育和心理測(cè)量中,構(gòu)念效度被定義為“能夠測(cè)量到某一理論構(gòu)念或特質(zhì)的程度”[2]95,成為效度研究的一個(gè)重要方面。1989年,Messick提出以構(gòu)念效度為基礎(chǔ)的效度整體觀,得到教育和心理測(cè)量界的廣泛認(rèn)可,構(gòu)念在測(cè)量研究中的作用日益凸顯。
在教育測(cè)量領(lǐng)域,研究人員傾向于將構(gòu)念直接界定為考生的能力,Bachman等指出“我們可將構(gòu)念視為對(duì)(某項(xiàng))能力的特定界定”[3]21,F(xiàn)ulcher認(rèn)為“構(gòu)念即是學(xué)習(xí)者的能力,我們相信該能力是考生在考試中表現(xiàn)的基礎(chǔ)”[4]96。從內(nèi)涵和性質(zhì)看,考試構(gòu)念具有3個(gè)顯著的特點(diǎn):第一,它是研究者設(shè)計(jì)出來的,尚有待證實(shí)。構(gòu)念并非先天存在,往往是研究人員根據(jù)自己的觀察和研究結(jié)果提出來的理論假設(shè),需要從理論和實(shí)踐2個(gè)層面進(jìn)行綜合性的研究和論證。例如,100多年前研究人員即提出了“智力”(intelligence)這一構(gòu)念,但時(shí)至今日,圍繞這一構(gòu)念的研究和爭論仍在繼續(xù)[4]96。第二,構(gòu)念是抽象的,不可直接觀察,但它往往與穩(wěn)定、可觀察的事件相關(guān)。對(duì)這些構(gòu)念的判斷,在一定程度上來自于從相關(guān)個(gè)體行為中觀察到的很多具體事例[4]96。很多英語考試所考查的交際語言能力即屬于此類沒有實(shí)體的抽象概念,無法直接觀察和測(cè)量,但考試人員卻可以通過向考生提供考試、評(píng)判答題情況來推測(cè)他們?cè)谶@方面的水平。第三,構(gòu)念的界定需要基于特定的理論模型。一個(gè)構(gòu)念往往含有許多構(gòu)成要素,組成一個(gè)相互關(guān)聯(lián)的構(gòu)念子集,或稱構(gòu)念域(construct domain),而構(gòu)念域中各要素間的關(guān)系往往只有借助理論模型才能厘清。如,按照Bachman和Palmer的交際語言能力模型,交際語言能力由語言能力、策略能力、心理生理機(jī)制構(gòu)成,其中的語言能力包括語言組織能力和語用能力,語言組織能力包括語法能力和語篇能力,語用能力則包括語義能力、功能能力和社會(huì)語言能力[5]。
構(gòu)念界定是考試流程中必不可少的一個(gè)環(huán)節(jié),是考試設(shè)計(jì)和評(píng)價(jià)所需要的基礎(chǔ)性工作。考試研究人員歷來都非常重視考試構(gòu)念的界定,F(xiàn)ulcher將構(gòu)念界定列為考試設(shè)計(jì)中的一個(gè)重點(diǎn)環(huán)節(jié)[4]94,Bachman和Palmer明確指出了構(gòu)念界定的3個(gè)主要目的:一是指導(dǎo)考試命題工作,二是為基于預(yù)期目的使用考試分?jǐn)?shù)奠定基礎(chǔ),三是使考試命題者和使用者得以呈現(xiàn)分?jǐn)?shù)解釋的構(gòu)念效度[3]116。
構(gòu)念界定對(duì)考試設(shè)計(jì)和試題命制至關(guān)重要。試卷設(shè)計(jì)的一項(xiàng)重要任務(wù)即是將抽象的構(gòu)念轉(zhuǎn)化為可以觀察、能夠直接測(cè)量的考試任務(wù)。設(shè)計(jì)考試自然首先需要知道要考什么能力,明晰這一能力的構(gòu)成要素,也就是明確考試的構(gòu)念。在此基礎(chǔ)上,才能設(shè)計(jì)出相應(yīng)的考試任務(wù),為其后的試題命制奠定基礎(chǔ)。命題工作同樣需要構(gòu)念界定結(jié)果的支持,這有助于提高試題對(duì)所考查能力要素的覆蓋程度和平衡試卷中各類試題的難度水平。
構(gòu)念界定是確認(rèn)考試分?jǐn)?shù)使用合理性、提高考試分?jǐn)?shù)可解釋性的必要前提。任何考試都有其預(yù)期設(shè)計(jì)目的,或是全面考查或是僅僅考查某個(gè)方面的能力。使用考試分?jǐn)?shù)無疑需要知道分?jǐn)?shù)所承載的這類信息,知曉如果得到某一分?jǐn)?shù)就具備了哪些能力、能做哪些事情,使考試分?jǐn)?shù)的使用有理據(jù)可依,這就需要對(duì)考試構(gòu)念進(jìn)行明確界定、細(xì)化描述。如,2018年教育部考試中心發(fā)布了中國英語能力等級(jí)量表,以“能做之事”的形式從多個(gè)維度、多個(gè)層次對(duì)英語學(xué)習(xí)者的英語語言能力進(jìn)行詳細(xì)描述,為各項(xiàng)英語考試確定考試構(gòu)念提供了重要參考,同時(shí)也有助于提高考試分?jǐn)?shù)的可解釋性。
構(gòu)念界定是進(jìn)行效度研究、呈現(xiàn)效度研究結(jié)果的必要條件。效度是指“我們能夠?qū)ο霚y(cè)量的、作為能力或構(gòu)念標(biāo)識(shí)值的考試分?jǐn)?shù)進(jìn)行解釋的程度”[3]21。因此,效度研究是在構(gòu)念界定工作已經(jīng)完成,考試任務(wù)設(shè)計(jì)、命題、實(shí)施和評(píng)分已經(jīng)結(jié)束的情況下進(jìn)行的,構(gòu)念界定是效度研究的前提。構(gòu)念界定所依據(jù)理論模型的科學(xué)性,所確定構(gòu)念子集的合理性、清晰性和全面性,對(duì)后續(xù)考試各個(gè)環(huán)節(jié)的工作影響重大,會(huì)清楚地呈現(xiàn)在效度研究結(jié)果中。
作為考試設(shè)計(jì)中一項(xiàng)奠基性的工作,考試構(gòu)念界定需要在深入細(xì)致研究的基礎(chǔ)上進(jìn)行。構(gòu)念界定的方式依據(jù)考試的性質(zhì)、用途,大致可分為2種:一是基于教學(xué)大綱或課程標(biāo)準(zhǔn)的界定,另一種則是基于理論的界定[3]118。實(shí)際上,教學(xué)大綱要求培養(yǎng)的各種學(xué)科能力依然來自相應(yīng)的理論,只不過是依據(jù)特定教學(xué)需要進(jìn)行了梳理和細(xì)化,由此看來,基于教學(xué)大綱的構(gòu)念界定也可認(rèn)定為基于理論界定的一個(gè)特例。
基于教學(xué)大綱進(jìn)行構(gòu)念界定的對(duì)象,主要是各級(jí)各類學(xué)校中的成就檢測(cè)類考試,包括學(xué)習(xí)成就考試、診斷性考試、分班考試等,同時(shí)也包括一些以教學(xué)大綱為依據(jù)的升學(xué)類考試。針對(duì)這類考試,構(gòu)念界定的任務(wù)即是將教學(xué)大綱中要求培養(yǎng)的各項(xiàng)能力及構(gòu)成要素詳細(xì)列出,之后從中選出能夠在考試中進(jìn)行考查的內(nèi)容。以我國的高考英語科為例,它雖為高等學(xué)校招生入學(xué)考試,但被要求嚴(yán)格按照課程標(biāo)準(zhǔn)設(shè)計(jì)考試。課程標(biāo)準(zhǔn)中的核心素養(yǎng)可看作是該項(xiàng)考試以語言能力為依托的整體能力框架,包括語言能力、文化意識(shí)、思維品質(zhì)和學(xué)習(xí)能力4個(gè)組成部分;課程內(nèi)容中列出了主體范圍、語篇類型、語言知識(shí)、語言技能、文化意識(shí)和學(xué)習(xí)能力等內(nèi)容。語言知識(shí)和語言技能是該項(xiàng)考試傳統(tǒng)的考查內(nèi)容,其中的絕大部分內(nèi)容在考試中具備可操作性;主體范圍、語篇類型、文化意識(shí)等難以直接考查,但可以適當(dāng)體現(xiàn)在對(duì)語言知識(shí)和語言技能的考查中。語言知識(shí)和語言技能均可細(xì)化為若干項(xiàng)內(nèi)容,而這些構(gòu)成了高考英語科考試構(gòu)念中的主體內(nèi)容。
基于理論進(jìn)行構(gòu)念界定的對(duì)象,主要是一些用于升學(xué)、招工的能力評(píng)測(cè)類考試。針對(duì)這類考試,構(gòu)念界定的任務(wù)即是根據(jù)相應(yīng)的理論模型和招生或用人單位對(duì)人才的需要,總結(jié)歸納出需要評(píng)測(cè)的各項(xiàng)能力要素,并從中選取能夠在特定考試中可以考查的內(nèi)容作為考試的構(gòu)念。例如,ETS的TOEFL 2000將所依據(jù)的理論模型確定為COE(Committee of Examiners)模型,以“學(xué)術(shù)情景下的交際語言能力”為考試的總構(gòu)念,并根據(jù)COE模型從多個(gè)緯度、多個(gè)層面對(duì)考試構(gòu)念進(jìn)行了界定[6]。
考試構(gòu)念界定是一項(xiàng)理論性和實(shí)踐性都很強(qiáng)的工作,研究人員在確定所依據(jù)教學(xué)大綱或理論模型的基礎(chǔ)上,需認(rèn)真考慮以下事項(xiàng):一是構(gòu)念界定的理據(jù)是否充分、可靠。所依據(jù)的教學(xué)大綱必須穩(wěn)定可靠,理論模型必須經(jīng)得起實(shí)證性研究的檢驗(yàn)。二是所界定構(gòu)念是否符合特定考試的實(shí)際情況。為特定考試界定構(gòu)念時(shí),必須充分考慮考生群體、考試用途、考試情境等方面的情況,為其量身定做考試構(gòu)念,如Bachman等所言“考試設(shè)計(jì)者需在深思熟慮的基礎(chǔ)上作出選擇,詳細(xì)列出能夠在特定測(cè)試情景中進(jìn)行檢測(cè)的能力的構(gòu)成要素”[3]116,絕不應(yīng)將其他考試項(xiàng)目的構(gòu)念直接拿來使用。三是所界定的考試構(gòu)念會(huì)對(duì)考試后續(xù)工作帶來何種影響。構(gòu)念界定是考試設(shè)計(jì)中一項(xiàng)最為重要的基礎(chǔ)性工作,直接影響著其后的任務(wù)設(shè)計(jì)、試題命制和評(píng)分標(biāo)準(zhǔn)制訂等,雖然不應(yīng)本末倒置地根據(jù)后續(xù)工作來確定考試構(gòu)念,但界定考試構(gòu)念時(shí)應(yīng)該適當(dāng)考慮到這些構(gòu)念的可操作性。
20世紀(jì)80年代末,隨著效度整體觀被教育和心理測(cè)量界廣泛接受,構(gòu)念效度成為效度研究的主體內(nèi)容,曾經(jīng)的效標(biāo)效度、內(nèi)容效度等都用于支持和協(xié)助構(gòu)念效度的驗(yàn)證。最新發(fā)布的《教育和心理測(cè)量標(biāo)準(zhǔn)(2014版)》總結(jié)了效度研究應(yīng)該關(guān)注的5個(gè)方面的證據(jù):基于考試內(nèi)容的證據(jù)(evidence based on test content)、基于答題過程的證據(jù)(evidence based on response processes)、基于內(nèi)部結(jié)構(gòu)的證據(jù)(evidence based on internal structure)、基于與其他變量關(guān)系的證據(jù)(evidence based on relations to other variables)和基于考試結(jié)果的證據(jù)(evidence based on consequences of tests)[7]。效度驗(yàn)證的主要任務(wù)即是從多方收集證據(jù),對(duì)在考試各階段提出的假設(shè)和推論進(jìn)行驗(yàn)證,而這也就同時(shí)驗(yàn)證了考試構(gòu)念界定的結(jié)果及落實(shí)情況。如果得到足夠的證據(jù)支持,就說明該項(xiàng)考試分?jǐn)?shù)解釋的效度較高;否則,或是因?yàn)樗M(jìn)行構(gòu)念界定所依據(jù)的理論模型存在問題,或是因?yàn)榉謹(jǐn)?shù)解釋的效度低。因此,效度驗(yàn)證應(yīng)包含以下2項(xiàng)任務(wù):一是對(duì)構(gòu)念界定的依據(jù)進(jìn)行驗(yàn)證,二是對(duì)分?jǐn)?shù)解釋的效度進(jìn)行驗(yàn)證。
教學(xué)大綱的制訂是一項(xiàng)極為嚴(yán)肅的工作,往往是由學(xué)科專家起草和審核、權(quán)威部門發(fā)布,事先均經(jīng)過大量的研究和論證。因此,進(jìn)行效度驗(yàn)證時(shí)一般無需再對(duì)教學(xué)大綱中的內(nèi)容進(jìn)行驗(yàn)證。構(gòu)念界定所依據(jù)的理論模型則一般都需經(jīng)過必要的驗(yàn)證,驗(yàn)證的主要內(nèi)容為模型中內(nèi)容的完備性、各構(gòu)成要素的重要性、各要素之間的關(guān)系等,模型驗(yàn)證往往需要多角度、多層次研究的支持。構(gòu)念界定如果以已經(jīng)驗(yàn)證、較為成熟的理論模型為依據(jù),此項(xiàng)驗(yàn)證工作則可以略去。
目前,針對(duì)考試分?jǐn)?shù)解釋和使用進(jìn)行的效度驗(yàn)證模式已涵蓋考試的各個(gè)環(huán)節(jié)和與考試相關(guān)的各項(xiàng)內(nèi)容,涉及參與考試的各類人群[8]。因此,效度驗(yàn)證需要從各方面收集證據(jù),而證據(jù)主要來自考試內(nèi)部、考試與考試之間和考試的使用。
3.2.1 來自考試內(nèi)部的證據(jù)
按照所關(guān)注內(nèi)容的不同,研究人員傾向于將來自考試內(nèi)部的證據(jù)分成3個(gè)類別。
第一,基于考試內(nèi)容的證據(jù)。搜集這類證據(jù)的目的是研究考試內(nèi)容與所界定考試構(gòu)念之間的關(guān)系,即考試在多大程度上檢測(cè)了考試構(gòu)念。研究內(nèi)容應(yīng)包括考試內(nèi)容的各個(gè)方面,含考試任務(wù)設(shè)計(jì)的恰當(dāng)性、應(yīng)該檢測(cè)內(nèi)容的代表性、對(duì)不同考生群體的公平性等。內(nèi)容比對(duì)和專家判斷是搜集和分析這類證據(jù)的主要手段。
第二,基于答題過程的證據(jù)。搜集這類證據(jù)的手段,主要是要求考生進(jìn)行“有聲思維”,說出其在解答試題時(shí)的思維過程;也可觀察和記錄考生答題所花費(fèi)時(shí)間、答題時(shí)的眼動(dòng)情況等。這類證據(jù)可被用來分析考生的思維過程,研究考生行為的性質(zhì)與所界定考試構(gòu)念的擬合情況,對(duì)考試設(shè)計(jì)者的理論假設(shè)進(jìn)行驗(yàn)證。
第三,基于內(nèi)部結(jié)構(gòu)的證據(jù)。這類證據(jù)來自對(duì)試卷各部分內(nèi)容間、各個(gè)試題間關(guān)系的研究,主要用以分析與所界定考試構(gòu)念的一致性程度,對(duì)于驗(yàn)證考試設(shè)計(jì)者的設(shè)計(jì)思想至關(guān)重要。研發(fā)考試時(shí),設(shè)計(jì)人員會(huì)對(duì)試卷各部分的考查內(nèi)容制訂詳細(xì)計(jì)劃;考試結(jié)束后,可以采用探索性因素分析(Exploratory Factor Analysis,EFA)和驗(yàn)證性因素分析(Confirmatory Factor Analysis,CFA)的方法對(duì)設(shè)計(jì)思想的落實(shí)情況進(jìn)行驗(yàn)證。
3.2.2 來自考試之間的證據(jù)
某項(xiàng)考試所界定的考試構(gòu)念可能與其他考試的某些構(gòu)念存在一些關(guān)系,通過研究這種關(guān)系也可以獲得一些重要的效度證據(jù)。研究人員可以采用多種特質(zhì)—多種方法矩陣法(multitrait-multimethod matrix)綜合分析研究對(duì)象與構(gòu)念基本相同考試和構(gòu)念不同考試之間的關(guān)系,獲得聚斂證據(jù)(convergent evidence)和區(qū)分證據(jù)(discriminant evidence),對(duì)分?jǐn)?shù)解釋的效度提供支持。如,高考英語科應(yīng)與全國英語等級(jí)考試(PETS)的特定級(jí)別有較高相關(guān),但與高考地理科不會(huì)有高相關(guān);如果這一推斷得以證實(shí),就說明高考英語科考查了應(yīng)該考查的內(nèi)容、未考查不應(yīng)該考查的內(nèi)容,在分?jǐn)?shù)解釋和使用方面具有一定的效度。考試效標(biāo)方面的證據(jù),即傳統(tǒng)的共時(shí)效度和預(yù)測(cè)效度方面的證據(jù),同樣可以在效度驗(yàn)證中發(fā)揮重要作用。
3.2.3 來自考試使用的證據(jù)
考試分?jǐn)?shù)使用后即會(huì)產(chǎn)生各種各樣的結(jié)果,有些可能與考試設(shè)計(jì)者的期望相符,如找出了學(xué)生學(xué)習(xí)中存在的問題,選出了合適的人選;有些則可能與其期望不完全一致,如某些試題因存在項(xiàng)目功能差異(Differential Item Functioning,DIF)而不利于某個(gè)群體(種族、地域、性別等)的考生,因試卷中試題難度分布不夠合理,考試未能有效區(qū)分不同水平的考生。各項(xiàng)考試依利害程度的不同也會(huì)產(chǎn)生不同程度的后效作用,有些后效作用是正面的,如有助于促進(jìn)因材施教、提高教學(xué)效率;有些則可能是負(fù)面的,如會(huì)導(dǎo)致過度關(guān)注考試內(nèi)容,縮小教學(xué)范圍。目前,研究人員日益重視對(duì)這類證據(jù)的搜集和分析。
總之,作為考試設(shè)計(jì)中的一項(xiàng)基礎(chǔ)性工作,構(gòu)念界定對(duì)確定和穩(wěn)定考試內(nèi)容、提高考試分?jǐn)?shù)的可解釋性、開展考試評(píng)價(jià)工作具有重要意義;而針對(duì)構(gòu)念界定實(shí)施情況的研究則是考試評(píng)價(jià)中的一項(xiàng)重要工作,對(duì)監(jiān)控考試質(zhì)量、推動(dòng)提高考試的科學(xué)性具有重要價(jià)值??荚囋O(shè)計(jì)人員應(yīng)該切實(shí)重視考試構(gòu)念的界定工作,選擇或構(gòu)建恰當(dāng)?shù)睦碚撃P妥饕劳?,厘清?gòu)念域中各要素間的關(guān)系,確保構(gòu)念界定基礎(chǔ)扎實(shí)、邏輯清晰、科學(xué)規(guī)范;考試評(píng)價(jià)人員則應(yīng)持續(xù)不斷地開展構(gòu)念界定及落實(shí)的驗(yàn)證工作,對(duì)考試分?jǐn)?shù)的使用情況進(jìn)行跟蹤研究,為考試的宣傳推廣和改革完善提供有效支撐。