考試的構(gòu)念界定及驗(yàn)證探析

2018-02-08 20:05劉慶思

中國考試 2018年10期

劉慶思

（教育部考試中心，北京 100084）

構(gòu)念是心理學(xué)中的一個(gè)重要概念，“是指用來解釋人類行為的理論框架或心理特質(zhì)，它是心理學(xué)中抽象的假設(shè)性的概念、特質(zhì)或變量?！盵1]1955年，Cronbach和Meel提出構(gòu)念效度的概念，將構(gòu)念引入到教育和心理測(cè)量中，構(gòu)念效度被定義為“能夠測(cè)量到某一理論構(gòu)念或特質(zhì)的程度”[2]95，成為效度研究的一個(gè)重要方面。1989年，Messick提出以構(gòu)念效度為基礎(chǔ)的效度整體觀，得到教育和心理測(cè)量界的廣泛認(rèn)可，構(gòu)念在測(cè)量研究中的作用日益凸顯。

在教育測(cè)量領(lǐng)域，研究人員傾向于將構(gòu)念直接界定為考生的能力，Bachman等指出“我們可將構(gòu)念視為對(duì)（某項(xiàng)）能力的特定界定”[3]21，F(xiàn)ulcher認(rèn)為“構(gòu)念即是學(xué)習(xí)者的能力，我們相信該能力是考生在考試中表現(xiàn)的基礎(chǔ)”[4]96。從內(nèi)涵和性質(zhì)看，考試構(gòu)念具有3個(gè)顯著的特點(diǎn)：第一，它是研究者設(shè)計(jì)出來的，尚有待證實(shí)。構(gòu)念并非先天存在，往往是研究人員根據(jù)自己的觀察和研究結(jié)果提出來的理論假設(shè)，需要從理論和實(shí)踐2個(gè)層面進(jìn)行綜合性的研究和論證。例如，100多年前研究人員即提出了“智力”（intelligence）這一構(gòu)念，但時(shí)至今日，圍繞這一構(gòu)念的研究和爭論仍在繼續(xù)[4]96。第二，構(gòu)念是抽象的，不可直接觀察，但它往往與穩(wěn)定、可觀察的事件相關(guān)。對(duì)這些構(gòu)念的判斷，在一定程度上來自于從相關(guān)個(gè)體行為中觀察到的很多具體事例[4]96。很多英語考試所考查的交際語言能力即屬于此類沒有實(shí)體的抽象概念，無法直接觀察和測(cè)量，但考試人員卻可以通過向考生提供考試、評(píng)判答題情況來推測(cè)他們?cè)谶@方面的水平。第三，構(gòu)念的界定需要基于特定的理論模型。一個(gè)構(gòu)念往往含有許多構(gòu)成要素，組成一個(gè)相互關(guān)聯(lián)的構(gòu)念子集，或稱構(gòu)念域（construct domain），而構(gòu)念域中各要素間的關(guān)系往往只有借助理論模型才能厘清。如，按照Bachman和Palmer的交際語言能力模型，交際語言能力由語言能力、策略能力、心理生理機(jī)制構(gòu)成，其中的語言能力包括語言組織能力和語用能力，語言組織能力包括語法能力和語篇能力，語用能力則包括語義能力、功能能力和社會(huì)語言能力[5]。

1 為什么要界定考試構(gòu)念？

構(gòu)念界定是考試流程中必不可少的一個(gè)環(huán)節(jié)，是考試設(shè)計(jì)和評(píng)價(jià)所需要的基礎(chǔ)性工作。考試研究人員歷來都非常重視考試構(gòu)念的界定，F(xiàn)ulcher將構(gòu)念界定列為考試設(shè)計(jì)中的一個(gè)重點(diǎn)環(huán)節(jié)[4]94，Bachman和Palmer明確指出了構(gòu)念界定的3個(gè)主要目的：一是指導(dǎo)考試命題工作，二是為基于預(yù)期目的使用考試分?jǐn)?shù)奠定基礎(chǔ)，三是使考試命題者和使用者得以呈現(xiàn)分?jǐn)?shù)解釋的構(gòu)念效度[3]116。

構(gòu)念界定對(duì)考試設(shè)計(jì)和試題命制至關(guān)重要。試卷設(shè)計(jì)的一項(xiàng)重要任務(wù)即是將抽象的構(gòu)念轉(zhuǎn)化為可以觀察、能夠直接測(cè)量的考試任務(wù)。設(shè)計(jì)考試自然首先需要知道要考什么能力，明晰這一能力的構(gòu)成要素，也就是明確考試的構(gòu)念。在此基礎(chǔ)上，才能設(shè)計(jì)出相應(yīng)的考試任務(wù)，為其后的試題命制奠定基礎(chǔ)。命題工作同樣需要構(gòu)念界定結(jié)果的支持，這有助于提高試題對(duì)所考查能力要素的覆蓋程度和平衡試卷中各類試題的難度水平。

構(gòu)念界定是確認(rèn)考試分?jǐn)?shù)使用合理性、提高考試分?jǐn)?shù)可解釋性的必要前提。任何考試都有其預(yù)期設(shè)計(jì)目的，或是全面考查或是僅僅考查某個(gè)方面的能力。使用考試分?jǐn)?shù)無疑需要知道分?jǐn)?shù)所承載的這類信息，知曉如果得到某一分?jǐn)?shù)就具備了哪些能力、能做哪些事情，使考試分?jǐn)?shù)的使用有理據(jù)可依，這就需要對(duì)考試構(gòu)念進(jìn)行明確界定、細(xì)化描述。如，2018年教育部考試中心發(fā)布了中國英語能力等級(jí)量表，以“能做之事”的形式從多個(gè)維度、多個(gè)層次對(duì)英語學(xué)習(xí)者的英語語言能力進(jìn)行詳細(xì)描述，為各項(xiàng)英語考試確定考試構(gòu)念提供了重要參考，同時(shí)也有助于提高考試分?jǐn)?shù)的可解釋性。

構(gòu)念界定是進(jìn)行效度研究、呈現(xiàn)效度研究結(jié)果的必要條件。效度是指“我們能夠?qū)ο霚y(cè)量的、作為能力或構(gòu)念標(biāo)識(shí)值的考試分?jǐn)?shù)進(jìn)行解釋的程度”[3]21。因此，效度研究是在構(gòu)念界定工作已經(jīng)完成，考試任務(wù)設(shè)計(jì)、命題、實(shí)施和評(píng)分已經(jīng)結(jié)束的情況下進(jìn)行的，構(gòu)念界定是效度研究的前提。構(gòu)念界定所依據(jù)理論模型的科學(xué)性，所確定構(gòu)念子集的合理性、清晰性和全面性，對(duì)后續(xù)考試各個(gè)環(huán)節(jié)的工作影響重大，會(huì)清楚地呈現(xiàn)在效度研究結(jié)果中。

2 如何界定考試構(gòu)念?

作為考試設(shè)計(jì)中一項(xiàng)奠基性的工作，考試構(gòu)念界定需要在深入細(xì)致研究的基礎(chǔ)上進(jìn)行。構(gòu)念界定的方式依據(jù)考試的性質(zhì)、用途，大致可分為2種：一是基于教學(xué)大綱或課程標(biāo)準(zhǔn)的界定，另一種則是基于理論的界定[3]118。實(shí)際上，教學(xué)大綱要求培養(yǎng)的各種學(xué)科能力依然來自相應(yīng)的理論，只不過是依據(jù)特定教學(xué)需要進(jìn)行了梳理和細(xì)化，由此看來，基于教學(xué)大綱的構(gòu)念界定也可認(rèn)定為基于理論界定的一個(gè)特例。

基于教學(xué)大綱進(jìn)行構(gòu)念界定的對(duì)象，主要是各級(jí)各類學(xué)校中的成就檢測(cè)類考試，包括學(xué)習(xí)成就考試、診斷性考試、分班考試等，同時(shí)也包括一些以教學(xué)大綱為依據(jù)的升學(xué)類考試。針對(duì)這類考試，構(gòu)念界定的任務(wù)即是將教學(xué)大綱中要求培養(yǎng)的各項(xiàng)能力及構(gòu)成要素詳細(xì)列出，之后從中選出能夠在考試中進(jìn)行考查的內(nèi)容。以我國的高考英語科為例，它雖為高等學(xué)校招生入學(xué)考試，但被要求嚴(yán)格按照課程標(biāo)準(zhǔn)設(shè)計(jì)考試。課程標(biāo)準(zhǔn)中的核心素養(yǎng)可看作是該項(xiàng)考試以語言能力為依托的整體能力框架，包括語言能力、文化意識(shí)、思維品質(zhì)和學(xué)習(xí)能力4個(gè)組成部分；課程內(nèi)容中列出了主體范圍、語篇類型、語言知識(shí)、語言技能、文化意識(shí)和學(xué)習(xí)能力等內(nèi)容。語言知識(shí)和語言技能是該項(xiàng)考試傳統(tǒng)的考查內(nèi)容，其中的絕大部分內(nèi)容在考試中具備可操作性；主體范圍、語篇類型、文化意識(shí)等難以直接考查，但可以適當(dāng)體現(xiàn)在對(duì)語言知識(shí)和語言技能的考查中。語言知識(shí)和語言技能均可細(xì)化為若干項(xiàng)內(nèi)容，而這些構(gòu)成了高考英語科考試構(gòu)念中的主體內(nèi)容。

基于理論進(jìn)行構(gòu)念界定的對(duì)象，主要是一些用于升學(xué)、招工的能力評(píng)測(cè)類考試。針對(duì)這類考試，構(gòu)念界定的任務(wù)即是根據(jù)相應(yīng)的理論模型和招生或用人單位對(duì)人才的需要，總結(jié)歸納出需要評(píng)測(cè)的各項(xiàng)能力要素，并從中選取能夠在特定考試中可以考查的內(nèi)容作為考試的構(gòu)念。例如，ETS的TOEFL 2000將所依據(jù)的理論模型確定為COE（Committee of Examiners）模型，以“學(xué)術(shù)情景下的交際語言能力”為考試的總構(gòu)念，并根據(jù)COE模型從多個(gè)緯度、多個(gè)層面對(duì)考試構(gòu)念進(jìn)行了界定[6]。

考試構(gòu)念界定是一項(xiàng)理論性和實(shí)踐性都很強(qiáng)的工作，研究人員在確定所依據(jù)教學(xué)大綱或理論模型的基礎(chǔ)上，需認(rèn)真考慮以下事項(xiàng)：一是構(gòu)念界定的理據(jù)是否充分、可靠。所依據(jù)的教學(xué)大綱必須穩(wěn)定可靠，理論模型必須經(jīng)得起實(shí)證性研究的檢驗(yàn)。二是所界定構(gòu)念是否符合特定考試的實(shí)際情況。為特定考試界定構(gòu)念時(shí)，必須充分考慮考生群體、考試用途、考試情境等方面的情況，為其量身定做考試構(gòu)念，如Bachman等所言“考試設(shè)計(jì)者需在深思熟慮的基礎(chǔ)上作出選擇，詳細(xì)列出能夠在特定測(cè)試情景中進(jìn)行檢測(cè)的能力的構(gòu)成要素”[3]116，絕不應(yīng)將其他考試項(xiàng)目的構(gòu)念直接拿來使用。三是所界定的考試構(gòu)念會(huì)對(duì)考試后續(xù)工作帶來何種影響。構(gòu)念界定是考試設(shè)計(jì)中一項(xiàng)最為重要的基礎(chǔ)性工作，直接影響著其后的任務(wù)設(shè)計(jì)、試題命制和評(píng)分標(biāo)準(zhǔn)制訂等，雖然不應(yīng)本末倒置地根據(jù)后續(xù)工作來確定考試構(gòu)念，但界定考試構(gòu)念時(shí)應(yīng)該適當(dāng)考慮到這些構(gòu)念的可操作性。

3 如何圍繞考試構(gòu)念進(jìn)行效度驗(yàn)證？

20世紀(jì)80年代末，隨著效度整體觀被教育和心理測(cè)量界廣泛接受，構(gòu)念效度成為效度研究的主體內(nèi)容，曾經(jīng)的效標(biāo)效度、內(nèi)容效度等都用于支持和協(xié)助構(gòu)念效度的驗(yàn)證。最新發(fā)布的《教育和心理測(cè)量標(biāo)準(zhǔn)（2014版）》總結(jié)了效度研究應(yīng)該關(guān)注的5個(gè)方面的證據(jù)：基于考試內(nèi)容的證據(jù)（evidence based on test content）、基于答題過程的證據(jù)（evidence based on response processes）、基于內(nèi)部結(jié)構(gòu)的證據(jù)（evidence based on internal structure）、基于與其他變量關(guān)系的證據(jù)（evidence based on relations to other variables）和基于考試結(jié)果的證據(jù)（evidence based on consequences of tests）[7]。效度驗(yàn)證的主要任務(wù)即是從多方收集證據(jù)，對(duì)在考試各階段提出的假設(shè)和推論進(jìn)行驗(yàn)證，而這也就同時(shí)驗(yàn)證了考試構(gòu)念界定的結(jié)果及落實(shí)情況。如果得到足夠的證據(jù)支持，就說明該項(xiàng)考試分?jǐn)?shù)解釋的效度較高；否則，或是因?yàn)樗M(jìn)行構(gòu)念界定所依據(jù)的理論模型存在問題，或是因?yàn)榉謹(jǐn)?shù)解釋的效度低。因此，效度驗(yàn)證應(yīng)包含以下2項(xiàng)任務(wù)：一是對(duì)構(gòu)念界定的依據(jù)進(jìn)行驗(yàn)證，二是對(duì)分?jǐn)?shù)解釋的效度進(jìn)行驗(yàn)證。

3.1 驗(yàn)證構(gòu)念界定的依據(jù)

教學(xué)大綱的制訂是一項(xiàng)極為嚴(yán)肅的工作，往往是由學(xué)科專家起草和審核、權(quán)威部門發(fā)布，事先均經(jīng)過大量的研究和論證。因此，進(jìn)行效度驗(yàn)證時(shí)一般無需再對(duì)教學(xué)大綱中的內(nèi)容進(jìn)行驗(yàn)證。構(gòu)念界定所依據(jù)的理論模型則一般都需經(jīng)過必要的驗(yàn)證，驗(yàn)證的主要內(nèi)容為模型中內(nèi)容的完備性、各構(gòu)成要素的重要性、各要素之間的關(guān)系等，模型驗(yàn)證往往需要多角度、多層次研究的支持。構(gòu)念界定如果以已經(jīng)驗(yàn)證、較為成熟的理論模型為依據(jù)，此項(xiàng)驗(yàn)證工作則可以略去。

3.2 驗(yàn)證分?jǐn)?shù)解釋的效度

目前，針對(duì)考試分?jǐn)?shù)解釋和使用進(jìn)行的效度驗(yàn)證模式已涵蓋考試的各個(gè)環(huán)節(jié)和與考試相關(guān)的各項(xiàng)內(nèi)容，涉及參與考試的各類人群[8]。因此，效度驗(yàn)證需要從各方面收集證據(jù)，而證據(jù)主要來自考試內(nèi)部、考試與考試之間和考試的使用。

3.2.1 來自考試內(nèi)部的證據(jù)

按照所關(guān)注內(nèi)容的不同，研究人員傾向于將來自考試內(nèi)部的證據(jù)分成3個(gè)類別。

第一，基于考試內(nèi)容的證據(jù)。搜集這類證據(jù)的目的是研究考試內(nèi)容與所界定考試構(gòu)念之間的關(guān)系，即考試在多大程度上檢測(cè)了考試構(gòu)念。研究內(nèi)容應(yīng)包括考試內(nèi)容的各個(gè)方面，含考試任務(wù)設(shè)計(jì)的恰當(dāng)性、應(yīng)該檢測(cè)內(nèi)容的代表性、對(duì)不同考生群體的公平性等。內(nèi)容比對(duì)和專家判斷是搜集和分析這類證據(jù)的主要手段。

第二，基于答題過程的證據(jù)。搜集這類證據(jù)的手段，主要是要求考生進(jìn)行“有聲思維”，說出其在解答試題時(shí)的思維過程；也可觀察和記錄考生答題所花費(fèi)時(shí)間、答題時(shí)的眼動(dòng)情況等。這類證據(jù)可被用來分析考生的思維過程，研究考生行為的性質(zhì)與所界定考試構(gòu)念的擬合情況，對(duì)考試設(shè)計(jì)者的理論假設(shè)進(jìn)行驗(yàn)證。

第三，基于內(nèi)部結(jié)構(gòu)的證據(jù)。這類證據(jù)來自對(duì)試卷各部分內(nèi)容間、各個(gè)試題間關(guān)系的研究，主要用以分析與所界定考試構(gòu)念的一致性程度，對(duì)于驗(yàn)證考試設(shè)計(jì)者的設(shè)計(jì)思想至關(guān)重要。研發(fā)考試時(shí)，設(shè)計(jì)人員會(huì)對(duì)試卷各部分的考查內(nèi)容制訂詳細(xì)計(jì)劃；考試結(jié)束后，可以采用探索性因素分析（Exploratory Factor Analysis,EFA）和驗(yàn)證性因素分析（Confirmatory Factor Analysis,CFA）的方法對(duì)設(shè)計(jì)思想的落實(shí)情況進(jìn)行驗(yàn)證。

3.2.2 來自考試之間的證據(jù)

某項(xiàng)考試所界定的考試構(gòu)念可能與其他考試的某些構(gòu)念存在一些關(guān)系，通過研究這種關(guān)系也可以獲得一些重要的效度證據(jù)。研究人員可以采用多種特質(zhì)—多種方法矩陣法（multitrait-multimethod matrix）綜合分析研究對(duì)象與構(gòu)念基本相同考試和構(gòu)念不同考試之間的關(guān)系，獲得聚斂證據(jù)（convergent evidence）和區(qū)分證據(jù)（discriminant evidence），對(duì)分?jǐn)?shù)解釋的效度提供支持。如，高考英語科應(yīng)與全國英語等級(jí)考試（PETS）的特定級(jí)別有較高相關(guān)，但與高考地理科不會(huì)有高相關(guān)；如果這一推斷得以證實(shí)，就說明高考英語科考查了應(yīng)該考查的內(nèi)容、未考查不應(yīng)該考查的內(nèi)容，在分?jǐn)?shù)解釋和使用方面具有一定的效度。考試效標(biāo)方面的證據(jù)，即傳統(tǒng)的共時(shí)效度和預(yù)測(cè)效度方面的證據(jù)，同樣可以在效度驗(yàn)證中發(fā)揮重要作用。

3.2.3 來自考試使用的證據(jù)

考試分?jǐn)?shù)使用后即會(huì)產(chǎn)生各種各樣的結(jié)果，有些可能與考試設(shè)計(jì)者的期望相符，如找出了學(xué)生學(xué)習(xí)中存在的問題，選出了合適的人選；有些則可能與其期望不完全一致，如某些試題因存在項(xiàng)目功能差異（Differential Item Functioning,DIF）而不利于某個(gè)群體（種族、地域、性別等）的考生，因試卷中試題難度分布不夠合理，考試未能有效區(qū)分不同水平的考生。各項(xiàng)考試依利害程度的不同也會(huì)產(chǎn)生不同程度的后效作用，有些后效作用是正面的，如有助于促進(jìn)因材施教、提高教學(xué)效率；有些則可能是負(fù)面的，如會(huì)導(dǎo)致過度關(guān)注考試內(nèi)容，縮小教學(xué)范圍。目前，研究人員日益重視對(duì)這類證據(jù)的搜集和分析。

總之，作為考試設(shè)計(jì)中的一項(xiàng)基礎(chǔ)性工作，構(gòu)念界定對(duì)確定和穩(wěn)定考試內(nèi)容、提高考試分?jǐn)?shù)的可解釋性、開展考試評(píng)價(jià)工作具有重要意義；而針對(duì)構(gòu)念界定實(shí)施情況的研究則是考試評(píng)價(jià)中的一項(xiàng)重要工作，對(duì)監(jiān)控考試質(zhì)量、推動(dòng)提高考試的科學(xué)性具有重要價(jià)值?？荚囋O(shè)計(jì)人員應(yīng)該切實(shí)重視考試構(gòu)念的界定工作，選擇或構(gòu)建恰當(dāng)?shù)睦碚撃Ｐ妥饕劳?，厘清?gòu)念域中各要素間的關(guān)系，確保構(gòu)念界定基礎(chǔ)扎實(shí)、邏輯清晰、科學(xué)規(guī)范；考試評(píng)價(jià)人員則應(yīng)持續(xù)不斷地開展構(gòu)念界定及落實(shí)的驗(yàn)證工作，對(duì)考試分?jǐn)?shù)的使用情況進(jìn)行跟蹤研究，為考試的宣傳推廣和改革完善提供有效支撐。