趙玉
摘 ?要:本研究利用多面 Rasch模型對(duì)118名大學(xué)生評(píng)價(jià)10名任課教師的課堂教學(xué)能力的數(shù)據(jù)進(jìn)行分析。研究結(jié)果表明不同學(xué)生對(duì)評(píng)教的寬嚴(yán)程度不一致的現(xiàn)象,多面RASCH模型可消除評(píng)分者效應(yīng),從而提高學(xué)生評(píng)教的信度。
關(guān)鍵詞:多面Rasch模型;學(xué)生評(píng)教;方法
中圖分類(lèi)號(hào):G640 ? ? ? ? 文獻(xiàn)標(biāo)志碼:A ? ? ? ? 文章編號(hào):2096-000X(2019)20-0056-03
Abstract: This study used many-faceted Rasch model to analyze the data of 118 college students evaluating the classroom teaching ability of 10 teachers. The empirical results show that there is inconsistency in the degree of leniency and strictness of grading among different students. The many-faceted RASCH model can eliminate the rater effect and improve the reliability of students'evaluation of teaching.
Keywords: many-faceted Rasch model; student evaluation of teaching; method
一、概述
(一)學(xué)生評(píng)教結(jié)果的有效性
目前,學(xué)生評(píng)教已經(jīng)成為高校評(píng)價(jià)教師教學(xué)質(zhì)量的一項(xiàng)重要參考指標(biāo)。盡管學(xué)術(shù)界關(guān)于學(xué)生評(píng)教有效性、影響因素等開(kāi)展過(guò)大量研究,但在一些關(guān)鍵問(wèn)題上仍爭(zhēng)議不斷。
國(guó)外學(xué)者對(duì)學(xué)生評(píng)教的有效性進(jìn)行了大量實(shí)證研究,但結(jié)論不一。Overall和Marsh(1980)的大規(guī)模追蹤研究經(jīng)常被引用作為學(xué)生評(píng)教合理性的證據(jù),其研究顯示,1400名學(xué)生在完成課程一年后與其剛完成課程時(shí)的評(píng)價(jià)結(jié)果相關(guān)系數(shù)高達(dá)0.83。國(guó)內(nèi)外從理論到實(shí)證均有支持上述觀點(diǎn)的研究,但結(jié)論與之不同的研究也一直存在。例如,韓婷等人(2007)發(fā)現(xiàn)學(xué)生評(píng)價(jià)與教學(xué)督導(dǎo)組的評(píng)價(jià)之間的Kappa系數(shù)不到0.4,這是非常弱的一致性;Dennis E. Clayson(2009)的元分析研究顯示,學(xué)生評(píng)教與學(xué)習(xí)結(jié)果的一致性與學(xué)習(xí)結(jié)果的測(cè)量方式有關(guān),測(cè)量方式越客觀,則二者的一致性越低。
事實(shí)上,影響學(xué)生評(píng)教結(jié)果的因素可能有多方面,如課程難度、學(xué)生對(duì)該課程的興趣、對(duì)學(xué)業(yè)的預(yù)望及選擇該課程的原因等(Marsh & Roche,1997)。課程類(lèi)別、班級(jí)人數(shù)等因素也會(huì)顯著影響對(duì)教師的評(píng)分(王永林,2005),但不同教師所任授課程本身不具可比性。因此學(xué)生評(píng)教應(yīng)當(dāng)綜合多方面因素,以保證評(píng)價(jià)的有效性和公平性。
(二)學(xué)生評(píng)教數(shù)據(jù)的分析方法
目前,多數(shù)研究與實(shí)踐中使用加權(quán)平均法或名次法分析評(píng)教數(shù)據(jù)。加權(quán)平均法與名次法分別使用原始分?jǐn)?shù)和名次來(lái)評(píng)價(jià)教學(xué)效果,優(yōu)點(diǎn)是操作簡(jiǎn)便,意義直觀,但不同班級(jí)、不同課程的評(píng)價(jià)結(jié)果不具有可比性,教師教學(xué)水平之間差距也難以客觀量化地分析。
為更好地使用學(xué)生評(píng)教數(shù)據(jù)分析教學(xué)質(zhì)量,研究者們對(duì)評(píng)價(jià)方法進(jìn)行了多方面的改進(jìn)。例如,評(píng)價(jià)方案可改為評(píng)教只在“同質(zhì)課程”內(nèi)進(jìn)行,以解決可比性問(wèn)題(艾文國(guó),2012),但這種做法有回避問(wèn)題之嫌。有研究者使用標(biāo)準(zhǔn)分?jǐn)?shù)代替原始分?jǐn)?shù)(崔國(guó)生,2009),或以一定權(quán)重匯總學(xué)生評(píng)教、教研室主任評(píng)價(jià)等多種信息,并根據(jù)全校平均水平對(duì)標(biāo)準(zhǔn)分進(jìn)行線(xiàn)性轉(zhuǎn)換,將前一年度評(píng)教結(jié)果和本年度評(píng)教結(jié)果以1:2加權(quán),以校正后的分?jǐn)?shù)作為最終評(píng)教結(jié)果(馬天梅,2007),這些改進(jìn)措施能對(duì)不同課程、不同班級(jí)的評(píng)教結(jié)果進(jìn)行比較。
綜上,學(xué)者們?yōu)閷?shí)現(xiàn)學(xué)生評(píng)教結(jié)果的可比性提出了多種方法,在一定程度上提高了評(píng)價(jià)的有效性。但前述各種方法的一個(gè)明顯局限是,評(píng)價(jià)結(jié)果的準(zhǔn)確性均依賴(lài)于學(xué)生群體的代表性。即,被試樣本要有足夠的代表性,評(píng)教結(jié)果才是可靠的。例如,若評(píng)價(jià)尺度嚴(yán)格的學(xué)生較多,教師獲得的評(píng)價(jià)就低。以往的解決方法是預(yù)處理數(shù)據(jù)時(shí)去除極端數(shù)據(jù)(馬天梅,2007),但確定極端數(shù)據(jù)所占比例有主觀成分在內(nèi),而且即便去除了極端數(shù)據(jù)也難以保證樣本數(shù)據(jù)構(gòu)成與總體完全一致。
(三)多側(cè)面Rasch模型
學(xué)生評(píng)教過(guò)程中存在各種誤差,因而評(píng)教結(jié)果的有效性需綜合考慮各種影響因素,傳統(tǒng)教育測(cè)量學(xué)方法難以勝任,而多側(cè)面Rasch模型(Multi-Faceted Rasch Model)可以滿(mǎn)足上述要求。
多側(cè)面Rasch模型由Linacre于1989年在Rasch模型的基礎(chǔ)上拓廣而來(lái)(Lunz & Linacre,2010),是用于對(duì)測(cè)量結(jié)果具有潛在影響的多變量進(jìn)行細(xì)致的分析的一類(lèi)應(yīng)用測(cè)量模型。相對(duì)于其他方法(如概化理論),多側(cè)面Rasch模型具有多方面的優(yōu)勢(shì)(Randall & Engelhard, 2009),它繼承了Rasch模型的優(yōu)良特性,各參數(shù)具有充分統(tǒng)計(jì)量,估計(jì)結(jié)果具有等距量尺。多側(cè)面Rasch模型為檢查測(cè)量情景中各種側(cè)面的影響(如評(píng)分者嚴(yán)厲程度、指標(biāo)難度)提供了方法,可提高測(cè)量結(jié)果的客觀性和公平性。
目前此模型在各類(lèi)考試主觀題評(píng)分領(lǐng)域應(yīng)用非常廣泛(He et.al.,2013)。然而,由于多側(cè)面Rasch模型在模型設(shè)定、參數(shù)估計(jì)、數(shù)學(xué)計(jì)算等方面的復(fù)雜性,在學(xué)生評(píng)教領(lǐng)域未見(jiàn)有采用此模型的探索與實(shí)踐。
綜上所述,本研究將采用多面Rasch模型為代表的現(xiàn)代教育測(cè)量學(xué)理論, 主要從學(xué)生側(cè)面、被評(píng)教師側(cè)面和評(píng)教指標(biāo)側(cè)面三個(gè)方面進(jìn)行分析,其數(shù)學(xué)模型為:
Pnijk是被評(píng)教師n在項(xiàng)目i上被學(xué)生j評(píng)定為k等的概率。
Bn是教師n的課堂教學(xué)能力參數(shù)。
Di是評(píng)教指標(biāo)i的難度參數(shù)。
Cj是學(xué)生j的評(píng)教寬嚴(yán)程度。
Fk是分部評(píng)分模型中教師得分從k-1等到k等級(jí)的難度,每個(gè)評(píng)教指標(biāo)均為h級(jí)評(píng)分。
二、研究設(shè)計(jì)
(一)數(shù)據(jù)來(lái)源
2018年3-6月,118名在校大學(xué)生對(duì)10名任課教師課堂教學(xué)能力進(jìn)行評(píng)分,其中58名學(xué)生對(duì)1-6號(hào)教師打分,另外60名學(xué)生對(duì)5-10號(hào)教師打分。采用10個(gè)指標(biāo),每個(gè)指標(biāo)分4級(jí)評(píng)分,學(xué)生從教學(xué)的態(tài)度、內(nèi)容、方法和效果四個(gè)方面對(duì)教師課堂教學(xué)能力進(jìn)行評(píng)分,滿(mǎn)分100分。
(二)數(shù)據(jù)分析
本次研究使用FACETS軟件對(duì)數(shù)據(jù)進(jìn)行分析。此情境下影響被試分?jǐn)?shù)有三個(gè)側(cè)面,其一是教師的教學(xué)水平特質(zhì),其二是學(xué)生評(píng)分的寬嚴(yán)程度,其三是評(píng)教指標(biāo)難度。Facets 軟件能將教師、學(xué)生和評(píng)教指標(biāo)作為三個(gè)單獨(dú)的面進(jìn)行分析,體現(xiàn)教師教學(xué)能力差異、學(xué)生評(píng)教差異和評(píng)教指標(biāo)難度差異。
三、結(jié)果
(一)教師側(cè)面
表1所示,教師教學(xué)的能力值范圍是0.40Logits 至 0.70Logits 之間。能力值最高的是 2號(hào)教師(0.70Logists),最低的是9號(hào)教師(0.40Logists)。Infit和Oufit數(shù)值大小可以反映評(píng)委使用評(píng)分量表評(píng)定被試成績(jī)的一致性,其值越接近于1,測(cè)評(píng)精度越高??ǚ綑z驗(yàn)結(jié)果顯示教師間的教學(xué)能力差異達(dá)到顯著水平,說(shuō)明教師間的能力存在顯著差異。
(二)學(xué)生側(cè)面,即評(píng)教寬嚴(yán)程度分析
多面RASCH模型可以直接給出評(píng)分者的寬嚴(yán)程度,表2中第一列為評(píng)分者的寬嚴(yán)程度;第二列為寬嚴(yán)程度參數(shù)的估計(jì)標(biāo)準(zhǔn)誤,后兩列為相應(yīng)評(píng)分者的擬合指標(biāo)??梢钥闯?8號(hào)學(xué)生評(píng)分(-1.67LOGITS)最為寬松,116號(hào)學(xué)生評(píng)分(2.82LOGITS)最為嚴(yán)格,兩者相差4.49個(gè)LOGITS。同時(shí),F(xiàn)ACETS還給出多個(gè)評(píng)分者寬嚴(yán)程度差異的指標(biāo),如分離指標(biāo)為6.35,即評(píng)分者的寬嚴(yán)程度至少可以分為6個(gè)水平;信度指標(biāo)為0.98,此指標(biāo)越大,表示評(píng)分者寬嚴(yán)程度差異越大。對(duì)評(píng)分者之間的寬嚴(yán)程度的卡方檢驗(yàn)(x2=4479.8,df=117,p=0.00),也顯示他們之間的差異達(dá)到了顯著性水平。
(三)項(xiàng)目側(cè)面
注:
由表3可以看出, 項(xiàng)目4(評(píng)教指標(biāo)為教學(xué)內(nèi)容方面的,即內(nèi)容充分,表達(dá)清楚,重點(diǎn)突出)和項(xiàng)目9(評(píng)教指標(biāo)為教學(xué)效果方面的,即學(xué)生理解和掌握課程內(nèi)容)是難度(均為0.04 LOGITS)最大的,項(xiàng)目6(評(píng)教指標(biāo)為教學(xué)方法方面的,即語(yǔ)言精練,生動(dòng)明確,能夠配合肢體語(yǔ)言,富有感染力)難度(-0.05 LOGITS)最低。同時(shí)卡方值也較小,說(shuō)明項(xiàng)目之間的難度沒(méi)有太大區(qū)別。
四、結(jié)論
研究結(jié)果表明不同學(xué)生存在評(píng)教的寬嚴(yán)程度不一致的現(xiàn)象,將多面RASCH模型運(yùn)用于高校學(xué)生評(píng)教中,可消除評(píng)分者效應(yīng),更加客觀地對(duì)教師教學(xué)能力進(jìn)行評(píng)價(jià),從而提高學(xué)生評(píng)教的信度。
參考文獻(xiàn):
[1]艾文國(guó),王桂偉,關(guān)玉晶.高校學(xué)生評(píng)教系統(tǒng)改進(jìn)研究[J].中國(guó)大學(xué)教學(xué),2012(12):76-79.
[2]崔國(guó)生.學(xué)生評(píng)教誤差的幾種校正方法[J].沈陽(yáng)工程學(xué)院學(xué)報(bào)(社會(huì)科學(xué)版),2009(3):402-403,409.
[3]韓婷,李慧梁,張宏,等.Kappa統(tǒng)計(jì)量評(píng)價(jià)教學(xué)督導(dǎo)組與學(xué)生評(píng)教的一致性[J].醫(yī)學(xué)教育探索,2007,6(12):1117-1119.
[4]馬天梅.提高學(xué)生評(píng)教有效性的實(shí)證分析[J].中國(guó)高等醫(yī)學(xué)教育,2007(8):65-67.
[5]黎光明,張敏強(qiáng).基于學(xué)生評(píng)教的多元概化理論分析[J].教育測(cè)量與評(píng)價(jià)(理論版),2013(7):4-6,17.
[6]王永林.學(xué)生評(píng)教的特性及其影響因素初探[J].教育科學(xué),2005,21(1):28-30.
[7]肖繼軍.基于PLS-SEM模型的高校學(xué)生評(píng)教實(shí)證分析[J].統(tǒng)計(jì)與決策,2009(5):158-161.
[8]He, T. H., Gou, W. J., Chien, Y. C., Chen, I. S. J., & Chang, S. M.(2013). Multi-faceted Rasch Measurement and Bias Patterns in EFL Writing Performance Assessment. Psychological Reports, 112(2),469-485.
[9]Lunz, M. E., & Linacre, J. M. (2010). Reliability of Performance Examinations: Revisited. Journal of Applied Measurement, 11(2),172-181.
[10]Marsh, H. W., & Roche, L. A.(1997). Making students' evaluations of teaching effectiveness effective: The critical issues of validity, bias, and utility. American Psychologist, 52(11),1187-1197.
[11]Randall, J., & Engelhard, G.(2009). Examining teacher grades using Rasch measurement theory. Journal of Educational Measurement, 46(1),1-18.
[12]Overall, J. U., & Marsh, H. W.(1980). Students' evaluations of instruction: A longitudinal study of their stability. Journal of Educational Psychology, 72,321-325.
[13]Linacre,J. M.,& Wright. B.D. A User's Guide to FACETS: Rasch Model Computer Program,Version 2.4 for PC CompatibleComputers [M].Chicago,IL:MESAPress,1993.