◎何義華 肖芳蘭
教學(xué)質(zhì)量是學(xué)校的生命線。在學(xué)校狠抓教學(xué)質(zhì)量的同時(shí),教學(xué)質(zhì)量的測評越發(fā)引起老師們的強(qiáng)烈關(guān)注。目前,對教學(xué)質(zhì)量的測評都是基于一些簡單的指標(biāo),如平均分、優(yōu)秀率、及格率等。盡管這些指標(biāo)有一定的參考價(jià)值,但是在實(shí)際操作時(shí)還是會(huì)顯得不科學(xué),比如平均分對低分和高分敏感、優(yōu)秀率只對高分敏感、及格率對低分太不敏感。在許多的重點(diǎn)學(xué)校中都會(huì)存在平行班級,對于平行班級教學(xué)質(zhì)量的測評更加需要客觀、科學(xué)的評價(jià)體系。所以建立科學(xué)、合理、客觀的教學(xué)質(zhì)量測評體系顯得尤為重要。通常,評價(jià)教學(xué)質(zhì)量的主要依據(jù)就是學(xué)生的考試成績,如何分析評價(jià)平行班級的考試成績就是本文要研究的主要問題。
所謂平行班級,就是學(xué)習(xí)成績相近的班級。事實(shí)上,不管學(xué)校有沒有重點(diǎn)班,基本上學(xué)校都會(huì)存在若干個(gè)平行班級。重點(diǎn)班之間可算是平行班級、非重點(diǎn)班之間也可算是平行班級,所不同的是平行的層次。由于平行班級的考試成績差異本來就不大,定性分析測評、幾個(gè)簡單的指標(biāo)量化測評都不足已為教學(xué)決策提供有力的依據(jù)。對于這些平行班級之間教學(xué)質(zhì)量的比較需要更加精準(zhǔn)、穩(wěn)健的測評體系。為了更有效地解決平行班級教學(xué)質(zhì)量的評價(jià)問題,基于數(shù)理統(tǒng)計(jì)的視角引入生物學(xué)中的等效性檢驗(yàn)來進(jìn)行比較。
等效性檢驗(yàn)的研究始于20世紀(jì)60年代,但是直到90年代才由Westlake將其廣泛運(yùn)用到生物制藥上。歷經(jīng)數(shù)十年的發(fā)展,等效性檢驗(yàn)已經(jīng)相當(dāng)成熟,并得到了廣泛的推廣和應(yīng)用。在臨床研究中,等效性檢驗(yàn)的原假設(shè)是“治療方案一與治療方案二不等效”,而備擇假設(shè)是“治療方案一與治療方案二等效”。這種等效性檢驗(yàn)不同于一般的差異性檢驗(yàn),它不是針對點(diǎn)進(jìn)行檢驗(yàn)而是針對區(qū)間來進(jìn)行檢驗(yàn)。下面以藥物臨床研究為例介紹等效性檢驗(yàn)理論。
臨床等效性檢驗(yàn)主要考察不同治療方法下臨床結(jié)果上是否相似或相近,即不同治療方法是否等效。以兩組對照試驗(yàn)的均值比較為例,不妨假設(shè):試驗(yàn)組(test)和對照組(control)的樣本容量分別為nT和nC,總體均值分別為μT,μC;試驗(yàn)所得樣本的樣本均值分別為;兩組試驗(yàn)被認(rèn)為相似或相近的等效臨界值為Δ(治療效果相似或相近的度量測度不超過Δ,則稱Δ為等效臨界值)的標(biāo)準(zhǔn)差,其中兩樣本合并后的方差。那么所得的等效性檢驗(yàn)情況如下:
取檢驗(yàn)統(tǒng)計(jì)量,在原假設(shè)下此檢驗(yàn)統(tǒng)計(jì)量近似服從t分布,故此種檢驗(yàn)也稱t檢驗(yàn)。
當(dāng)時(shí),則兩法肯定不等效;當(dāng)已知μT>μC且μT-μC≥Δ時(shí),兩法肯定也不等效;當(dāng)已知μT<μC且μC-μT≥Δ時(shí),兩法肯定仍不等效;時(shí),則拒絕原假設(shè),即認(rèn)為兩法是等效的。若給定假設(shè)檢驗(yàn)的顯著性水平為α及t檢驗(yàn)的自由度為ν=nT+nC-2,那么當(dāng)時(shí),則拒絕原假設(shè)且認(rèn)為兩法等效;當(dāng)時(shí),則沒有理由拒絕原假設(shè)且認(rèn)為兩法不等效。有關(guān)等效性檢驗(yàn)的具體知識(shí)和詳細(xì)理論基礎(chǔ)可參看醫(yī)學(xué)統(tǒng)計(jì)學(xué)的相關(guān)書籍,在此不再詳細(xì)介紹。
教學(xué)質(zhì)量是否能進(jìn)行等效性評價(jià)呢?從醫(yī)學(xué)的角度來看,如果把學(xué)生當(dāng)成是藥物試驗(yàn)的樣本對象,那么老師就可以看成是一種藥物,兩個(gè)班級考試的成績就是樣本的取值。此時(shí),對兩個(gè)平行班級教學(xué)質(zhì)量的評價(jià)就等價(jià)于比較兩組樣本。一般地,平行班級的起始成績都是相近的,不妨假設(shè)一次正??荚嚨姆种刀紤?yīng)該服從正態(tài)分布。那么,在正常情況下兩個(gè)班級考試成績就符合等效性檢驗(yàn)的理論條件,從而能夠利用等效性檢驗(yàn)來進(jìn)行教學(xué)質(zhì)量的測評。
當(dāng)?shù)刃詸z驗(yàn)的樣本值取學(xué)生成績時(shí),我們只要將兩個(gè)平行班級分別看成試驗(yàn)班(test)和對照班(control)即可。在實(shí)際中,兩個(gè)平行班的學(xué)生情況肯定不會(huì)完全一樣,那么根據(jù)統(tǒng)計(jì)學(xué)的理論應(yīng)該盡可能取更多的學(xué)生進(jìn)行對照試驗(yàn)。但是一個(gè)班的學(xué)生不可能有很多,我們只能從全班人數(shù)出發(fā),最多用全班學(xué)生的成績?nèi)ミM(jìn)行對比從而推斷出哪個(gè)班的教學(xué)質(zhì)量好。大家都清楚平行班級的教學(xué)質(zhì)量一般不是考試的平均分就能完全衡量的,在文中引用一個(gè)理想評價(jià)指標(biāo)來衡量教學(xué)質(zhì)量。從現(xiàn)今的實(shí)際出發(fā),這個(gè)理想評價(jià)指標(biāo)一般都是取所有學(xué)生考試的平均分,只是文中的這個(gè)平均分是衡量兩班教學(xué)質(zhì)量的理想平均分,并不是用某次考試的成績來計(jì)算而是用某次考試的平均分來推斷這個(gè)理想平均分。通常認(rèn)為,考試平均分越高理想平均分也應(yīng)該越高,考試平均分較低理想平均分也應(yīng)該較低。當(dāng)然具體地操作時(shí),兩班參與試驗(yàn)的學(xué)生成績應(yīng)該進(jìn)行排序并且按照序號(hào)依次對照(高分和高分對照、低分與低分對照),那么參照臨床等效性檢驗(yàn)不妨記:
①試驗(yàn)班(test)和對照班(control)的學(xué)生人數(shù)分別為nT和nC;
②兩班教學(xué)質(zhì)量的理想評價(jià)指標(biāo)(學(xué)生考試的理想平均分)分別為μT和 μC;
④兩班被認(rèn)為教學(xué)質(zhì)量相當(dāng)?shù)钠骄值淖畲蟛铑~或所設(shè)定的等效臨界值為Δ;
⑤為的標(biāo)準(zhǔn)差,其中兩樣本合并后的方差。
那么所得的教學(xué)質(zhì)量的等效性檢驗(yàn)情況如下:
H0:(兩班教學(xué)質(zhì)量不等效) VS(兩班教學(xué)質(zhì)量等效)同樣地,取檢驗(yàn)統(tǒng)計(jì)量,在原假設(shè)下此檢驗(yàn)統(tǒng)計(jì)量仍近似服從t分布,故也可以用t檢驗(yàn)來檢驗(yàn)兩班的教學(xué)質(zhì)量是否等效。根據(jù)不同的比較需要,在若給定假設(shè)檢驗(yàn)的顯著性水平為α及自由度為ν=nT+nC-2時(shí),有如下檢驗(yàn)結(jié)果:
①當(dāng)時(shí),則兩班教學(xué)質(zhì)量肯定不等效,故需要檢驗(yàn)時(shí)統(tǒng)計(jì)量t的值都是非負(fù)的:當(dāng)時(shí),試驗(yàn)班的教學(xué)質(zhì)量高于對照班的教學(xué)質(zhì)量;當(dāng)時(shí),對照班的教學(xué)質(zhì)量高于試驗(yàn)班的教學(xué)質(zhì)量。
②當(dāng)時(shí),則沒有理由拒絕原假設(shè),即認(rèn)為兩法不等效:當(dāng)已知μT>μC且μT-μC≥Δ時(shí),顯然不需要檢驗(yàn)也知道試驗(yàn)班的教學(xué)質(zhì)量高于對照班的教學(xué)質(zhì)量;當(dāng)已知μT<μC且μC-μT≥Δ時(shí),不需要檢驗(yàn)也知道對照班的教學(xué)質(zhì)量高于試驗(yàn)班的教學(xué)質(zhì)量。
③當(dāng)時(shí),且記給定假設(shè)檢驗(yàn)的顯著性水平為α及自由度為ν=nT+nC-2,那么當(dāng)時(shí),則拒絕原假設(shè)且認(rèn)為兩法等效;當(dāng)時(shí),則接受原假設(shè)且認(rèn)為兩法不等效。
等效臨界值的確定是一個(gè)非常重要的問題,到底平行班級理想平均成績相差幾分認(rèn)為教學(xué)質(zhì)量相當(dāng)呢?如果這個(gè)等效臨界值Δ設(shè)定過大,則不能比較出平行班級的教學(xué)質(zhì)量;如果Δ過小就變成了點(diǎn)檢驗(yàn),不能很好地包容非老師因素導(dǎo)致的教學(xué)質(zhì)量偏差。在理論上有文獻(xiàn)指出當(dāng)Δ難以確定時(shí),可考慮取個(gè)標(biāo)準(zhǔn)差或者對照組均值的較適宜。在臨床醫(yī)學(xué)上Δ的取值是由經(jīng)驗(yàn)豐富的專家來決定,并且經(jīng)過反復(fù)論證最后確定。那么,在教學(xué)評價(jià)中同樣可以借鑒相同的方法確定等效臨界值。
實(shí)例:同一個(gè)老師所教的平行班級在某次考試的成績?nèi)缦拢?/p>
A班成績(60人):
100,97,93,92,92,91,89,86,86,85,84,83,82,80,80,80,79,79,77,76,74,73,68,66,64,63,63,62,62,61,60,59,58,55,55,55,54,54,53,53,48,48,46,44,43,42,41,38,38,38,38,36,32,29,29,23,21,21,17
B班成績(60人):
97,93,93,93,91,89,89,87,86,86,86,85,85,83,83,81,81,81,80,79,79,78,78,77,75,74,73,71,69,68,65,63,63,58,56,54,54,50,49,47,47,45,45,43,40,40,40,38,37,36,34,29,28,28,25,17,17,13,12,10
假設(shè)A班為試驗(yàn)班、B班為對照班,經(jīng)計(jì)算可得:
①當(dāng)給定 Δ=5,α=0.05時(shí),,故認(rèn)為兩班教學(xué)質(zhì)量不等效;當(dāng)給定Δ=5,α=0.01時(shí),98,仍可得兩班教學(xué)質(zhì)量不等效。
②當(dāng)給定Δ=10,α=0.05時(shí),,可得兩班教學(xué)質(zhì)量不等效;當(dāng)給定Δ=10,α=0.01時(shí),,可得兩班教學(xué)質(zhì)量等效。
③當(dāng)給定Δ=15,α=0.05時(shí),,可得兩班教學(xué)質(zhì)量等效;當(dāng)給定Δ=10,α=0.01時(shí),,仍可得兩班教學(xué)質(zhì)量等效。
由此可見,教學(xué)質(zhì)量于同一個(gè)老師、不同班級也是有差異的。如果正確的選擇了等效臨界值Δ和顯著性水平α,利用等效性檢驗(yàn)的方法就能夠很好地度量出兩個(gè)班級的教學(xué)質(zhì)量;如果Δ和α的確定不是很科學(xué)、合理,那么即使用等效性檢驗(yàn)也不會(huì)得出合理的結(jié)論。對于不同老師之間的教學(xué)質(zhì)量評價(jià)仍然可以采用等效性檢驗(yàn)的方法,只要準(zhǔn)確的確定Δ和α的值即可。
等效性檢驗(yàn)理論還在發(fā)展,等效性檢驗(yàn)的應(yīng)用也在逐漸拓展。文中說明了等效性檢驗(yàn)應(yīng)用于教學(xué)評價(jià)的合理性。從統(tǒng)計(jì)學(xué)的視覺出發(fā),很好地解決了平行班級教學(xué)質(zhì)量的評價(jià)問題,對于任意兩個(gè)班級或老師之間的教學(xué)質(zhì)量評價(jià)可以同樣的進(jìn)行等效性檢驗(yàn),甚至是非劣性檢驗(yàn)等。