郭芷含 陳勁松
摘要:高等教育的教學(xué)評(píng)價(jià)是一種廣義上的教育和心理測量,有效性與現(xiàn)代測量效度理論相吻合,同時(shí)又會(huì)牽涉到眾多復(fù)雜的教學(xué)因素,這種二元性容易導(dǎo)致研究中教學(xué)論與測量學(xué)的脫節(jié)。本文嘗試通過現(xiàn)代測量效度理論的新視角去重新審視大學(xué)教學(xué)評(píng)價(jià)的各個(gè)環(huán)節(jié),并探討進(jìn)一步解決問題的研究途徑。考慮到高等教育的復(fù)雜性和多樣性,我們把測量效度的內(nèi)涵重塑為評(píng)價(jià)內(nèi)容、過程和方法、數(shù)據(jù)和模型、校標(biāo)關(guān)聯(lián)、評(píng)價(jià)后果五個(gè)層面,并以此為基礎(chǔ)反思教學(xué)評(píng)價(jià)。希望新的視角能有助于構(gòu)建更加健全和成熟的大學(xué)教學(xué)評(píng)價(jià)體系,同時(shí)能開辟結(jié)合教學(xué)論和測量學(xué)的教育研究的新范式。
關(guān)鍵詞:教學(xué)評(píng)價(jià);測量效度;效度理論;高等教育;教育目標(biāo)
隨著高等教育的普及,高等教育的教學(xué)質(zhì)量及其評(píng)價(jià)日益受到關(guān)注和重視,合理有效的教學(xué)評(píng)價(jià)對(duì)教學(xué)質(zhì)量起著舉足輕重的影響。但目前仍未有共識(shí)該如何界定和衡量教學(xué)質(zhì)量,對(duì)其評(píng)價(jià)也面臨著不少的爭議和挑戰(zhàn),而且隨著教學(xué)質(zhì)量的評(píng)價(jià)在大學(xué)越來越普及,與評(píng)價(jià)相關(guān)的問題和爭論也日益增多,因此迄今還沒有被普遍認(rèn)可的教學(xué)評(píng)價(jià)體系可資高校內(nèi)部的監(jiān)管、改進(jìn)和發(fā)展使用。高等教育的教學(xué)評(píng)價(jià)牽涉到諸多復(fù)雜的因素,包含了教學(xué)目標(biāo)和過程,評(píng)價(jià)的內(nèi)容涵蓋了教與學(xué),評(píng)價(jià)的對(duì)象覆蓋了課堂、課程和整個(gè)學(xué)科的教學(xué),評(píng)價(jià)的主體可以是學(xué)生、專家和教師,評(píng)價(jià)的方式、時(shí)間和地點(diǎn)都有多種選擇,因此構(gòu)建合理的教學(xué)評(píng)價(jià)體系同時(shí)具有迫切性和挑戰(zhàn)性。
針對(duì)教學(xué)評(píng)價(jià)的研究目前主要有兩種視角:一是從典型的教學(xué)論視角出發(fā),研究焦點(diǎn)是評(píng)價(jià)內(nèi)容、指標(biāo)或措施等是否合理,偏重經(jīng)驗(yàn)主義,特點(diǎn)是富于思辨和理論,卻容易忽略測量方法上的可行性或合理性,也缺乏實(shí)證檢驗(yàn);另外一種是從傳統(tǒng)的測量學(xué)視角出發(fā),通過測量和統(tǒng)計(jì)建模分析評(píng)價(jià)方法的信效度和題目參數(shù),特點(diǎn)是分析檢驗(yàn)過程實(shí)證而且嚴(yán)謹(jǐn),不過容易忽視評(píng)價(jià)內(nèi)容的合理性和整體的有效性。兩種視角相對(duì)獨(dú)立,但均未觸及教學(xué)是教育過程、即通過教育活動(dòng)以期達(dá)到特定教學(xué)目標(biāo)這一本質(zhì),因此都不大可能徹底解決教學(xué)評(píng)價(jià)中的問題。教學(xué)評(píng)價(jià)是一種廣義上的教育和心理測量,既有教育測試的內(nèi)核,同時(shí)又會(huì)牽涉到眾多的教育理論和實(shí)踐元素,正是這種二元性容易導(dǎo)致研究中教學(xué)論與測量學(xué)的脫節(jié)?,F(xiàn)代測量效度理論強(qiáng)調(diào)測量的有效性是一個(gè)整體的概念,而且必須圍繞特定的目標(biāo)從內(nèi)容、過程、結(jié)構(gòu)、效標(biāo)和后果等方面構(gòu)建[1][2],這一思路為教學(xué)評(píng)價(jià)的研究和實(shí)踐提供了新的視角。本文嘗試通過這一視角去重新審視大學(xué)教學(xué)評(píng)價(jià)的各個(gè)環(huán)節(jié),并探討進(jìn)一步解決問題的研究途徑。
一、現(xiàn)代測量效度的本質(zhì)
測量效度指一項(xiàng)測試是否有效測量了所想要測量的東西,是衡量這項(xiàng)測試最重要的指標(biāo)。而那個(gè)“東西”指某種“概念或?qū)傩浴保环Q為構(gòu)念(construct)。不過傳統(tǒng)和現(xiàn)代測量學(xué)對(duì)效度的本質(zhì)有不同的認(rèn)識(shí)。傳統(tǒng)測量學(xué)強(qiáng)調(diào)測量的工具性,效度是測量工具的內(nèi)部屬性并絕對(duì)存在。當(dāng)測試能夠測量出所預(yù)設(shè)對(duì)象的特征或?qū)傩詴r(shí),該測量有效;反之則無效。[3][4]因此,教育和心理測量是物理測量在行為和社會(huì)領(lǐng)域的自然延伸,并在此基礎(chǔ)上形成了構(gòu)念效度:測量所要測的構(gòu)念在理論上存在,并且與測量結(jié)果具有因果關(guān)系。這種因果關(guān)系是測量建模和檢驗(yàn)?zāi)P陀行缘睦碚撘罁?jù)。此后衍生出了內(nèi)容效度、效標(biāo)效度等不同的效度概念,分別從內(nèi)容、效標(biāo)等角度去驗(yàn)證測試的有效性。[5]不同類型的效度以及相關(guān)的驗(yàn)證分析相對(duì)獨(dú)立,而且可能在不同場合起著關(guān)鍵作用。
現(xiàn)代效度與傳統(tǒng)效度有著本質(zhì)不同,是指證據(jù)和理論對(duì)測量結(jié)果的特定解讀和使用的支持程度。[6][7]首先,測量結(jié)果的解讀和使用源于測量目標(biāo)或用途。效度不再是測量工具的內(nèi)部屬性,也不是絕對(duì)的,而是與如何使用測量結(jié)果息息相關(guān)。同樣的測量結(jié)果在某種目標(biāo)的使用下是有效的,換一種目標(biāo)或使用可能就是無效的。其次,效度是一個(gè)整體單一的概念,不存在不同類型的效度。構(gòu)念代表著全部測試行為的特征或模式,是全體測試行為的抽象化表征,因此構(gòu)念效度代表著整體的效度。但構(gòu)念效度不再強(qiáng)調(diào)測試行為和結(jié)果之間的理論性和因果性,而是強(qiáng)調(diào)兩者關(guān)聯(lián)具有合理性并且可被驗(yàn)證。再次,效度驗(yàn)證具有多面性,效度論據(jù)可以來自于五個(gè)方面(見圖1),即測試內(nèi)容、應(yīng)答過程、內(nèi)部結(jié)構(gòu)、外部關(guān)聯(lián)、測試后果。完整的效度驗(yàn)證需要從這五個(gè)方面進(jìn)行。多個(gè)方面的效度論據(jù)圍繞著構(gòu)念效度,構(gòu)成了完整的效度整體,任何一個(gè)方面的缺陷都會(huì)導(dǎo)致無效的測試解讀或使用。但不同方面的效度證據(jù)并不互相排斥,而是相互作用和影響。比如測試內(nèi)容的論據(jù)可能會(huì)涉及到內(nèi)部結(jié)構(gòu)或外部關(guān)聯(lián)。因此,對(duì)同一測試用途進(jìn)行多個(gè)方面的效度驗(yàn)證圖1效度驗(yàn)證的五個(gè)方面相當(dāng)于對(duì)有效性進(jìn)行多重檢驗(yàn),從而增加了效度結(jié)論的嚴(yán)謹(jǐn)性和合理性。最后,由于牽涉到多方面的效度證據(jù),效度驗(yàn)證也就需要整合不同類型、性質(zhì),甚至看起來相互矛盾的證據(jù)。論據(jù)整合的目的是形成合理的證據(jù)鏈,以期得出具有說服力、前后連貫并經(jīng)得起考驗(yàn)的效度結(jié)論。論據(jù)的多樣性和證據(jù)鏈的嚴(yán)謹(jǐn)性使得效度驗(yàn)證的過程更富于思辨性或批判性思維。
·課程與教學(xué)·現(xiàn)代測量效度視角下的大學(xué)教學(xué)評(píng)價(jià)
二、現(xiàn)代測量效度視角下的反思
教學(xué)質(zhì)量的評(píng)價(jià)屬于過程性的教學(xué)評(píng)價(jià),過程性評(píng)價(jià)在理論上與泰勒的教學(xué)評(píng)價(jià)涵義吻合[8],重要性也為眾多的教育學(xué)者認(rèn)同[9],其以教育過程(如教學(xué))和資源(如師資和教學(xué)環(huán)境)為評(píng)價(jià)對(duì)象,評(píng)價(jià)目標(biāo)和功能面向教育業(yè)內(nèi)和專業(yè)人士,以特定教育目標(biāo)為前提對(duì)教育活動(dòng)或現(xiàn)象進(jìn)行評(píng)價(jià),強(qiáng)調(diào)的是評(píng)價(jià)對(duì)象與評(píng)價(jià)結(jié)果的因果關(guān)系,賦予教育質(zhì)量內(nèi)在的合法性。教學(xué)評(píng)價(jià)是一種廣義上的教育和心理測量,其測量目標(biāo)內(nèi)含教育目標(biāo),測量構(gòu)念是面向特定目標(biāo)的教學(xué)過程質(zhì)量。與構(gòu)念的本質(zhì)一樣,教學(xué)過程質(zhì)量潛在于可觀察的教學(xué)活動(dòng)之下,是后者的高度抽象或概括,因此評(píng)價(jià)的有效性與現(xiàn)代測量效度理論相吻合??紤]到高等教育的復(fù)雜性和多樣性,對(duì)其教學(xué)過程的評(píng)價(jià)牽涉到眾多的教育理論和實(shí)踐元素,我們對(duì)測量效度五個(gè)方面的內(nèi)涵進(jìn)行適當(dāng)重塑,并分別命名為評(píng)價(jià)內(nèi)容、過程和方法、數(shù)據(jù)和模型、校標(biāo)關(guān)聯(lián)、評(píng)價(jià)后果五個(gè)層面。
(一)評(píng)價(jià)內(nèi)容
效度的內(nèi)容層面關(guān)注評(píng)價(jià)內(nèi)容是否合理,即評(píng)價(jià)什么的問題,具體包括內(nèi)容域如何界定及其理論或?qū)嵶C依據(jù)是否充足,評(píng)價(jià)目標(biāo)與內(nèi)容域是否一致,以及實(shí)際內(nèi)容如題目或指標(biāo)是否足以代表內(nèi)容域并表達(dá)適宜。內(nèi)容域作為銜接評(píng)價(jià)目標(biāo)與評(píng)價(jià)題目或指標(biāo)的主要橋梁起著重要作用,其定義需要詳細(xì)規(guī)范和具有可操作性,并建立在充足的理論或?qū)嵶C依據(jù)上。界定良好的內(nèi)容域往往具有結(jié)構(gòu)性、層次性和明確的邊界。同時(shí),大規(guī)模測評(píng)的內(nèi)容域經(jīng)常是多維度,甚至多級(jí)別的。
教學(xué)評(píng)價(jià)的內(nèi)容問題牽涉到教學(xué)理論和實(shí)踐。在效度視角下,第一個(gè)問題是很難在現(xiàn)有的教學(xué)評(píng)價(jià)中找到嚴(yán)格界定的內(nèi)容域,而往往只有一些簡單的內(nèi)容分類或指標(biāo),如“教學(xué)態(tài)度”、“教學(xué)方法”、“教學(xué)互動(dòng)”和“教學(xué)效果”之類。這些指標(biāo)既沒有詳細(xì)或具有可操作性的定義,更缺乏理論基礎(chǔ)或?qū)嵶C檢驗(yàn)。由于缺乏內(nèi)容范圍這座橋梁,評(píng)價(jià)的實(shí)際內(nèi)容往往與評(píng)價(jià)目標(biāo)不相符,比如適用于診斷性或形成性的內(nèi)容卻用于高風(fēng)險(xiǎn)性和終結(jié)性的目的。其次,指標(biāo)或題目內(nèi)容容易有嚴(yán)重缺陷,比如表達(dá)模糊多義或者容易產(chǎn)生歧義,很難讓評(píng)價(jià)者準(zhǔn)確判斷,或者讓非專業(yè)評(píng)價(jià)者去評(píng)價(jià)需要專業(yè)知識(shí)的內(nèi)容,比如讓學(xué)生判斷教師是否遵守教學(xué)工作規(guī)程或者教學(xué)內(nèi)容是否具有先進(jìn)性等。最后是內(nèi)容表征不足,題目或者指標(biāo)分布不均,內(nèi)容大多只適用于評(píng)價(jià)課堂,課堂之外的教學(xué)內(nèi)容比如課程目標(biāo)、材料和結(jié)構(gòu)、內(nèi)容價(jià)值等較少涉及,對(duì)于課程體系的評(píng)價(jià)更付諸厥如。
針對(duì)以上問題,解決途徑包括通過教學(xué)理論或?qū)嵶C研究去界定嚴(yán)謹(jǐn)?shù)膬?nèi)容域,組織有豐富教學(xué)實(shí)踐經(jīng)驗(yàn)的專家根據(jù)評(píng)價(jià)的目標(biāo)重新設(shè)計(jì)指標(biāo)或題目內(nèi)容等。內(nèi)容域需要更多覆蓋課程整體,并且納入課程體系,使得課堂、課程和課程體系的評(píng)價(jià)協(xié)調(diào)一致,并足以代表整個(gè)學(xué)科的知識(shí)體系。
(二)過程和方法
效度的過程和方法層面關(guān)注整個(gè)評(píng)價(jià)過程及方法是否合理,即如何評(píng)價(jià)的問題,包括評(píng)價(jià)的過程、方式和工具是否合適,評(píng)價(jià)者選擇是否恰當(dāng)?shù)?。在教學(xué)評(píng)價(jià)中評(píng)價(jià)者扮演著重要的角色,主要可區(qū)分位兩類評(píng)價(jià)者——學(xué)生和專業(yè)人士。這兩類評(píng)價(jià)者會(huì)導(dǎo)致完全不同的評(píng)價(jià)過程與方式,各有各的優(yōu)缺點(diǎn),并且在理論上可以互補(bǔ),但如何互補(bǔ)還沒有實(shí)際的案例,二者的關(guān)系也還缺乏實(shí)證的檢驗(yàn)。
學(xué)生是教學(xué)過程的直接參與者,是最重要的接受者和教育對(duì)象,全程參與了所有的教育活動(dòng)(課堂、課程和課程體系),對(duì)教學(xué)的過程具有直觀的判斷和主觀感受,最具發(fā)言權(quán)。而且學(xué)生評(píng)教的方法較容易進(jìn)行,人數(shù)多且方便多次測試,大學(xué)生群體還容易接受新的測試技術(shù)、方式或內(nèi)容。事實(shí)上,學(xué)生一直是教學(xué)的主要評(píng)價(jià)者。但是學(xué)生評(píng)教也發(fā)現(xiàn)了不少問題,包括反應(yīng)偏差較大,隨機(jī)、默認(rèn)或從眾等效應(yīng)明顯,評(píng)教的結(jié)果重測信度不高,且分?jǐn)?shù)同質(zhì)性較高、區(qū)分度較低,容易出現(xiàn)偏態(tài)分布等。[10][11]出現(xiàn)以上問題主要的原因有:(1)評(píng)教的結(jié)果更多的是作為教師的考核指標(biāo),而弱化了對(duì)教師的改進(jìn)教學(xué)和對(duì)學(xué)生的有效學(xué)習(xí)提供幫助這兩方面的作用,使得學(xué)生不能在評(píng)教活動(dòng)中感受到對(duì)切身利益的影響,缺乏評(píng)教動(dòng)力,容易抱著“應(yīng)付了事”的態(tài)度隨意選擇。[12](2)每學(xué)期的例行評(píng)教,使用的是不變的量表,使得學(xué)生對(duì)量表過于熟悉而產(chǎn)生麻木感,評(píng)價(jià)時(shí)間集中在期末,評(píng)價(jià)結(jié)果容易受到首因效應(yīng)的干擾,每學(xué)期近十門課的評(píng)價(jià)負(fù)擔(dān)過大,易產(chǎn)生疲乏感,采取被動(dòng)消極的態(tài)度,這些因素都大大增加了反應(yīng)偏差。(3)評(píng)教內(nèi)容難以判斷,學(xué)生的評(píng)教更多基于自己的學(xué)習(xí)體驗(yàn),而較為抽象的評(píng)價(jià)內(nèi)容(例如“課程內(nèi)容是否反映學(xué)科前沿”、“是否符合課程大綱要求”等),學(xué)生不了解或無法判斷,不能夠做出客觀的評(píng)價(jià)。[13][14][15](4)學(xué)生對(duì)教學(xué)評(píng)價(jià)的作用并不了解,或者感覺教學(xué)評(píng)價(jià)形式重于內(nèi)容,擔(dān)心評(píng)分過低會(huì)影響教師的職業(yè),因此打分過于“仁慈”,導(dǎo)致分?jǐn)?shù)虛高而且不具有區(qū)分度。
相比較于學(xué)生評(píng)教,專家評(píng)教能夠體現(xiàn)其專業(yè)性和客觀性,更有公信力和說服力。但是其主要的缺點(diǎn)是人力資源和時(shí)間制約,人數(shù)少或參與成本高;專家難以全程參與和覆蓋全部課程,往往只能根據(jù)短暫的課堂聽課印象對(duì)整個(gè)課程評(píng)分,有失片面;而且專家在課堂的出現(xiàn)容易對(duì)教學(xué)產(chǎn)生影響,甚至?xí)a(chǎn)生完全不同的教學(xué)效果;對(duì)專家的專業(yè)性要求高,尤其受到學(xué)科方向的限制而選擇面小,甚至容易產(chǎn)生一個(gè)小圈子內(nèi)相互評(píng)價(jià)對(duì)方的現(xiàn)象,這些都是專家評(píng)教中較為嚴(yán)重的爭議。還有,老專家或教師容易對(duì)教學(xué)評(píng)價(jià)中的新技術(shù)、政策和理念產(chǎn)生抵觸情緒,影響評(píng)價(jià)的執(zhí)行。另外,目前仍沒有令人滿意的方法可以使得學(xué)生和專家評(píng)教互相兼容,形成一體。
對(duì)于以上問題,最合適的解決途徑是依賴于研究和實(shí)踐經(jīng)驗(yàn)建立完善的學(xué)生和專家評(píng)分機(jī)制,在克服二者缺點(diǎn)的同時(shí)使得兩者能良性互動(dòng)。同時(shí),我們還可通過質(zhì)性研究(學(xué)生的有聲思維分析、專家的深度或結(jié)構(gòu)化方法等)對(duì)應(yīng)答過程進(jìn)行效度檢驗(yàn)。
(三)數(shù)據(jù)和模型
效度的數(shù)據(jù)和模型層面關(guān)注評(píng)價(jià)的模型和數(shù)據(jù)是否經(jīng)得起實(shí)證檢驗(yàn),具體包括模型結(jié)構(gòu)的宏觀層面、題目參數(shù)層面和題目量尺的微觀層面,驗(yàn)證過程建立在測量建模和統(tǒng)計(jì)分析之上。在教學(xué)評(píng)價(jià)的情境中,評(píng)價(jià)模型具有多維和多層次(比如總分與各維度分)的特點(diǎn),宏觀層面指內(nèi)容維度的關(guān)聯(lián)性和內(nèi)容結(jié)構(gòu)的層次性,但在實(shí)際中宏觀結(jié)構(gòu)經(jīng)常被忽視或缺乏清晰的概念,類似維度概念如內(nèi)容指標(biāo)也一般沒經(jīng)過實(shí)證數(shù)據(jù)檢驗(yàn);題目參數(shù)比如辨別度決定了題目質(zhì)量和計(jì)分權(quán)重。理想情況下評(píng)價(jià)題目應(yīng)該質(zhì)量接近,計(jì)分權(quán)重均等,但實(shí)際中題目的權(quán)重往往相差幾倍,而權(quán)重設(shè)置同樣很少經(jīng)過模型數(shù)據(jù)驗(yàn)證。這兩個(gè)層面的問題與內(nèi)容問題具有一體兩面的關(guān)系,即測量學(xué)下的內(nèi)部結(jié)構(gòu)不合理對(duì)應(yīng)著教學(xué)論下的測試內(nèi)容不合理。評(píng)價(jià)題目的量尺一般應(yīng)該選用典型的心理量尺比如李克特或等級(jí)評(píng)定量尺。但在實(shí)際中經(jīng)常會(huì)出現(xiàn)不規(guī)則的量尺,比如優(yōu)、良、中、差分別代表0.95、0.75、0.60、0.30的計(jì)分系數(shù),這樣的量尺既不符合心理測量的序數(shù)或連續(xù)尺度,也很難讓評(píng)價(jià)者理解和選擇,而且目前還沒有發(fā)現(xiàn)可以證明其合理性的實(shí)證研究。
以上問題的解決依賴于以測量建模和統(tǒng)計(jì)分析為基礎(chǔ)的實(shí)證檢驗(yàn),分別在宏觀層面檢驗(yàn)通過數(shù)據(jù)模型擬合檢驗(yàn)內(nèi)容結(jié)構(gòu),在題目參數(shù)層面分析題目質(zhì)量并優(yōu)化,在題目量尺層面使用經(jīng)典量尺并驗(yàn)證其合理性。
(四)效標(biāo)關(guān)聯(lián)
效度的效標(biāo)關(guān)聯(lián)層面關(guān)注評(píng)價(jià)結(jié)果與效標(biāo)變量的關(guān)聯(lián)是否合理。教學(xué)評(píng)價(jià)是過程導(dǎo)向的評(píng)價(jià),強(qiáng)調(diào)的是評(píng)價(jià)對(duì)象與評(píng)價(jià)結(jié)果的因果關(guān)系,提供教育質(zhì)量內(nèi)在的成因或機(jī)制,賦予教育質(zhì)量內(nèi)在的合法性;而效標(biāo)是成果導(dǎo)向的,面向教育外界和社會(huì),強(qiáng)調(diào)的是評(píng)價(jià)對(duì)象與評(píng)價(jià)結(jié)果的相關(guān)關(guān)系,賦予教育質(zhì)量外在的合法性;兩者相輔相成。在教學(xué)評(píng)價(jià)中忽略效標(biāo)關(guān)聯(lián)將使我們難以從外部去驗(yàn)證教學(xué)評(píng)價(jià)的合理性,甚至?xí)绊懺u(píng)價(jià)結(jié)果的公信力和說服力。
實(shí)際上可以用作教學(xué)評(píng)價(jià)的效標(biāo)很多,短期效標(biāo)可以包括學(xué)生參與度、教師滿意度、學(xué)業(yè)成績等,中長期效標(biāo)可以是學(xué)生升學(xué)或就業(yè)率,畢業(yè)若干年后的收入等,還可以綜合間接產(chǎn)出指標(biāo)(如學(xué)術(shù)聲譽(yù)、研究成果和校友捐贈(zèng))和輔助指標(biāo)(如財(cái)政資源和學(xué)校規(guī)模)等建立起長短期結(jié)合的效標(biāo)體系,為教學(xué)評(píng)價(jià)的有效性提供外部依據(jù)。
(五)評(píng)價(jià)后果
效度的后果層面關(guān)注評(píng)價(jià)結(jié)果的解讀或使用所帶來的社會(huì)效應(yīng),包括預(yù)期和意外的。(1)預(yù)期的后果,也就是直接或者間接地來自于評(píng)價(jià)結(jié)果的解讀或使用,是否成立;(2)是否存在顯著的意外后果,尤其是負(fù)面的。需要說明的是,后果層面旨在檢驗(yàn)后果的來源是否與評(píng)價(jià)有關(guān),而不會(huì)對(duì)后果性質(zhì)的好壞做出價(jià)值判斷。檢驗(yàn)后果是否來自于評(píng)價(jià)的設(shè)計(jì)或過程是測量技術(shù)層面的,而判斷后果性質(zhì)是價(jià)值觀層面的。
在教學(xué)評(píng)價(jià)的情境中,評(píng)價(jià)結(jié)果的使用可能具有高風(fēng)險(xiǎn)性,無論是預(yù)期還是意外的后果檢驗(yàn)都非常重要。比如,我們基本會(huì)假定采用教學(xué)評(píng)價(jià)的實(shí)施會(huì)帶來教學(xué)質(zhì)量或水平的提升,但這預(yù)期后果目前還缺乏堅(jiān)實(shí)的研究證據(jù)。如果檢驗(yàn)不到相應(yīng)后果,必然意味著效度驗(yàn)證的其他某方面存在問題,如評(píng)價(jià)內(nèi)容或方式有缺陷,必須修正。若教學(xué)評(píng)價(jià)的結(jié)果對(duì)于教師發(fā)展重要,比如用于教師的人事考核,決定教師的獎(jiǎng)懲甚至是未來升遷,而學(xué)生是評(píng)價(jià)主體的話,這樣高風(fēng)險(xiǎn)的使用很有可能帶來師生間相互妥協(xié)的后果,教師對(duì)獎(jiǎng)懲的關(guān)注超過了對(duì)教學(xué)活動(dòng)改進(jìn)的關(guān)注,影響到教師與學(xué)生關(guān)系,甚至出現(xiàn)教師給分高那么學(xué)生評(píng)教分?jǐn)?shù)就高的現(xiàn)象,導(dǎo)致教師為討好大多數(shù)學(xué)生而降低教學(xué)難度和深度,[16][17]反而會(huì)降低了教學(xué)質(zhì)量,扭曲了教學(xué)評(píng)價(jià)的本來意義。
三、新視角下的深入研究
在測量效度的新視角下,研究者可以從多個(gè)方面對(duì)教學(xué)評(píng)價(jià)進(jìn)行更深入的研究分析。首先是應(yīng)該評(píng)價(jià)什么的首要問題。完善的教學(xué)評(píng)價(jià)體系應(yīng)該具有堅(jiān)實(shí)的理論基礎(chǔ),因此我們可以結(jié)合教學(xué)理論構(gòu)建合理的評(píng)價(jià)原理和內(nèi)容框架。好的評(píng)價(jià)原理應(yīng)具有承上啟下的作用,上可以厘清高等教育的目標(biāo)和方向,下可以引導(dǎo)教學(xué)評(píng)價(jià)的方法和實(shí)踐層面,也就是如何評(píng)價(jià)以及在具體情境下如何實(shí)施的問題。高等教育的教學(xué)是通過教育活動(dòng)以期達(dá)到特定教育目標(biāo)的過程,因此,教學(xué)評(píng)價(jià)是建立在特定教育目標(biāo)的基礎(chǔ)上的??紤]到高等教育的復(fù)雜性和多樣性,我們可以借鑒教育目標(biāo)理論和目標(biāo)分類學(xué)[18][19][20]構(gòu)建適合高等教育的教學(xué)目標(biāo)、目標(biāo)分類和相應(yīng)的評(píng)價(jià)原理和內(nèi)容框架。同時(shí),考慮到高等教育的教學(xué)活動(dòng)以學(xué)科為中心,主要通過課堂、課程和課程體系的三級(jí)教學(xué)層次去實(shí)施,所對(duì)應(yīng)的教育目標(biāo)和評(píng)價(jià)原理也應(yīng)該具有相應(yīng)的層級(jí)關(guān)系。
其次,對(duì)學(xué)生評(píng)價(jià)的過程和方式的研究可從以下幾方面入手:(1)研究分析學(xué)生的評(píng)教心理,如何基于這種心理進(jìn)行宣傳、引導(dǎo)和培訓(xùn),以及如何設(shè)計(jì)量表和題目以減少因心理差異引起的反應(yīng)偏差,比如量表和題目的輪換和隨機(jī)出現(xiàn)、反向題目的比例等,還可以分析采用不同的反應(yīng)格式和不同尺度的心理量規(guī)對(duì)學(xué)生評(píng)教的影響;(2)研究課堂、課程和課程體系評(píng)教的次數(shù)和時(shí)間節(jié)點(diǎn)上更合理的選擇;(3)研究如何結(jié)合新的計(jì)算機(jī)和信息技術(shù)構(gòu)建現(xiàn)代化的評(píng)教方式和系統(tǒng),以及對(duì)師生們所可能帶來的影響。對(duì)專家評(píng)教過程的研究可從以下幾方面入手:(1)研究如何按不同學(xué)科進(jìn)行專家分類,以及如何為不同學(xué)科、課程和課程體系篩選專家,還可以研究專家的評(píng)教心理,以及如何更好規(guī)范專家的職責(zé)。(2)研究者需要建立具體的模型和算法去監(jiān)測專家的評(píng)教行為,尤其是評(píng)教的一致性和波動(dòng)性;還可以利用專家評(píng)教結(jié)果修正學(xué)生評(píng)教結(jié)果,從而構(gòu)建專家對(duì)教學(xué)過程的監(jiān)測機(jī)制。(3)研究如何利用現(xiàn)代化的信息技術(shù)幫助專家評(píng)教,比如整合所有課程和課程體系的信息和材料、對(duì)課堂教學(xué)錄播并隨機(jī)給予專家評(píng)教等。
最后,對(duì)評(píng)價(jià)結(jié)果的使用和評(píng)價(jià)體系的監(jiān)管研究可從以下幾方面入手:(1)研究如何對(duì)評(píng)價(jià)結(jié)果按不同的標(biāo)準(zhǔn)等級(jí)進(jìn)行分級(jí)使用,以及如何通過具體的建模分析建立或調(diào)整分?jǐn)?shù)線;同時(shí)需要追蹤評(píng)價(jià)結(jié)果使用帶來的不同后果,以及分析此類后果是否來自于評(píng)價(jià)設(shè)計(jì)或過程上的不合理因素。(2)收集合適的效標(biāo)變量(短期或中長期效標(biāo)),并分析它們與評(píng)價(jià)結(jié)果的相關(guān)性。具有一定關(guān)聯(lián)的效標(biāo)變量可以用于構(gòu)建成果導(dǎo)向的指標(biāo),而指標(biāo)權(quán)重可以從相關(guān)強(qiáng)弱推算,也就是說與過程性評(píng)價(jià)結(jié)果的相關(guān)研究可以賦予成果性評(píng)價(jià)更高的外部有效性。(3)研究如何以評(píng)價(jià)效度為基礎(chǔ)銜接其他的效度概念,比如教學(xué)效度[21],從而促進(jìn)教學(xué)評(píng)價(jià)與教學(xué)實(shí)踐的良性互動(dòng),把教學(xué)評(píng)價(jià)拓展到更廣闊的教育領(lǐng)域,甚至催生教育改革和創(chuàng)新。
借助現(xiàn)代測量效度的視角能有助于構(gòu)建更加健全和成熟的高等教學(xué)評(píng)價(jià)體系,同時(shí)能開辟結(jié)合教學(xué)論和測量學(xué)的教育研究的新范式。教學(xué)評(píng)價(jià)不但從內(nèi)部界定了教育質(zhì)量,還能衡量高等教育的人才培養(yǎng)標(biāo)準(zhǔn),解讀教育質(zhì)量內(nèi)在的成因或機(jī)制,可用于學(xué)校內(nèi)部的監(jiān)管和診斷,追蹤縱向的成長,并能促進(jìn)教育過程與活動(dòng)不斷調(diào)適、改進(jìn)和發(fā)展。完善的教學(xué)評(píng)價(jià)對(duì)學(xué)科和課程建設(shè)、教師教學(xué)以及學(xué)生學(xué)習(xí)都有著舉足輕重的影響,具有承上啟下的作用,上可以引導(dǎo)教學(xué)和課程改革,激發(fā)教學(xué)熱情,下可以促進(jìn)學(xué)生學(xué)習(xí),從而形成“教學(xué)評(píng)價(jià)教學(xué)改革人才培養(yǎng)”的良性循環(huán)。希望在后續(xù)研究中進(jìn)一步探索如何結(jié)合現(xiàn)代測量和教育理論,并能形成與之相關(guān)的、更為大規(guī)模和高水平的高等教育研究,從而為進(jìn)一步提升我國高等教育的質(zhì)量做出貢獻(xiàn)。
參考文獻(xiàn):
[1][6]AERA,APA,NCME.Standards for educational and psychological testing[M].Washington,DC:American Educational Research Association; 1999:8-9.
[2][7]AERA,APA,NCME.Standards for educational and psychological testing[M].Washington,DC:American Educational Research Association; 2014:9-11.
[3]Kelley T L.Interpretation of educational measurements[M].New York,NY:Macmillan; 1927:6-8.
[4]Cattell R B.Description and measurement of personality[M].New York,NY:World Book; 1946:3-4.
[5]Crocker L M,Algina J.Introduction to classical and modern test theory[M].New York,NY:Holt,Rinehart,and Winston; 1986:122-125.
[8][18]拉爾夫·泰勒.課程與教學(xué)的基本原理[M].北京:中國輕工業(yè)出版社,2014:113-117.
[9]劉志軍.教育評(píng)價(jià)的反思和建構(gòu)[J].教育研究,2004(2):59-64.
[10][13][16]林光彬,張?zhí)K,樊彬彬.大學(xué)生評(píng)價(jià)教學(xué)質(zhì)量的邏輯——來自調(diào)查研究的證據(jù)[J].教育研究,2012(10):93-98.
[11][14][17]林光彬,洪煜.學(xué)生評(píng)教的行政化與學(xué)術(shù)化論析[J].教育研究,2016(8):40-46.
[12]童亨茂,劉瑞珣.中國高等學(xué)校學(xué)生評(píng)教之痛——問題與對(duì)策[J].中國地質(zhì)教育,2014,23(4).
[15]楊曉峰.高?!懊翊獗疚弧苯虒W(xué)質(zhì)量評(píng)價(jià)的困惑與出路[J].高教探索,2012(3):78-81.
[19]Anderson L W,Krathwohl D R.A taxonomy for learning,teaching,and assessing:A revision of Bloom's taxonomy of educational objectives[M].New York:Addison Wesley Longman; 2001:4-6.
[20]Marzano R J,Kendall J S.The new taxonomy of educational objectives.2nd ed.[M].Thousand Oaks,CA:Corwin Press; 2007:12-14.
[21]Pellegrino J W,Dibello L V,Goldman S R .A Framework for Conceptualizing and Evaluating the Validity of Instructionally Relevant Assessments[J].Educational Psychologist,2016,51(1):59-81.
(責(zé)任編輯陳志萍)