趙曉霞 譚夏侃
試卷質(zhì)量評(píng)價(jià)就是“客觀、公正、科學(xué)地對(duì)試卷質(zhì)量進(jìn)行分析與評(píng)價(jià)”。它是評(píng)價(jià)考試質(zhì)量,檢驗(yàn)考試可靠性、有效性的最基本也最重要的方法,是改進(jìn)考試工作、提高命題綜合質(zhì)量的基礎(chǔ),是獲取教學(xué)效果反饋信息的有效途徑[1]。
基于數(shù)據(jù)包絡(luò)分析的模糊綜合評(píng)判法是一種科學(xué)而有效地評(píng)價(jià)試卷質(zhì)量的建模方法。通過(guò)將模糊綜合評(píng)判和數(shù)據(jù)包絡(luò)分析方法的結(jié)合應(yīng)用,建立起一個(gè)科學(xué)的試卷質(zhì)量評(píng)價(jià)模型,按照教育測(cè)量學(xué)的有關(guān)理論和方法,通過(guò)對(duì)試卷考試結(jié)果的測(cè)量與分析,提供對(duì)試題篩選的依據(jù)及對(duì)命題質(zhì)量的評(píng)價(jià),并由此指導(dǎo)課程的題庫(kù)或試卷庫(kù)的建設(shè),做到對(duì)學(xué)生的學(xué)習(xí)評(píng)價(jià)準(zhǔn)確、可靠,使考試這一教學(xué)環(huán)節(jié)逐步走上科學(xué)化和規(guī)范化的軌道。
模糊綜合評(píng)判法的基本原理是:首先確定被評(píng)判對(duì)象的因素(指標(biāo))集和評(píng)價(jià)(等級(jí))集;再分別確定各個(gè)因素的權(quán)重及它們的隸屬度向量,獲得模糊評(píng)判矩陣;最后把模糊評(píng)判矩陣與因素的權(quán)向量進(jìn)行模糊運(yùn)算并進(jìn)行歸一化,得到模糊評(píng)價(jià)綜合結(jié)果[2]。
數(shù)據(jù)包絡(luò)分析的基本思想是:對(duì)一組給定的決策單元,選定一組輸入、輸出的評(píng)價(jià)指標(biāo),通過(guò)輸入和輸出數(shù)據(jù)的綜合分析,數(shù)據(jù)包絡(luò)分析可以得出每個(gè)決策單元綜合效率的數(shù)量指標(biāo)。之后我們將各個(gè)決策單元定級(jí)排隊(duì),確定有效的決策單元,并可給出其他決策單元非有效的原因和程度[3]。
模糊綜合評(píng)判法目前在多個(gè)領(lǐng)域中應(yīng)用廣泛,但在具體應(yīng)用中,它的缺陷與不足還是存在的,首先,模糊綜合評(píng)判法僅能告訴各決策方案的好壞程度,卻無(wú)法找出較差方案無(wú)效的原因。
其次,必須首先確定權(quán)重。在模糊綜合評(píng)判過(guò)程中,各因素的權(quán)重分配主要靠人的主觀判斷,而當(dāng)因素較多時(shí),權(quán)重往往難以恰當(dāng)分配。
還有,模糊綜合評(píng)判法僅從被評(píng)價(jià)對(duì)象自身的角度進(jìn)行評(píng)價(jià),而事實(shí)上各評(píng)價(jià)對(duì)象是有聯(lián)系的。而同類(lèi)型單元的這種聯(lián)系對(duì)評(píng)價(jià)結(jié)果與改進(jìn)是大有幫助的。
數(shù)據(jù)包絡(luò)分析方法恰恰可以互補(bǔ),應(yīng)用它,決策單元是不是有效是相對(duì)于其他所有決策單元而言的。特別是,它把決策單元中各“輸入”和“輸出”的權(quán)重作為變量,通過(guò)對(duì)決策單元的實(shí)際原始數(shù)據(jù)進(jìn)行計(jì)算而確定,排除了人為因素,具有很強(qiáng)的客觀性,從而避免了認(rèn)為主觀確定權(quán)重的缺點(diǎn)。
基于以上分析,有必要也有可能將模糊綜合評(píng)判法和數(shù)據(jù)包絡(luò)分析法進(jìn)行集成。在模糊綜合評(píng)判過(guò)程基礎(chǔ)上,引入數(shù)據(jù)包絡(luò)分析理論,通過(guò)巧妙構(gòu)造數(shù)據(jù)包絡(luò)分析的“輸入”和“輸出”指標(biāo),建立新的綜合評(píng)價(jià)模型方法。
下面對(duì)基于數(shù)據(jù)包絡(luò)分析的模糊綜合評(píng)判法的機(jī)理作介紹[4]:
一個(gè)評(píng)價(jià)對(duì)象相對(duì)于各因素的評(píng)價(jià)具有一定的模糊性,那么需要運(yùn)用模糊集合論來(lái)研究。首先確定評(píng)價(jià)對(duì)象集W={w1,w2,…wt},評(píng)價(jià)因素集U={u1,u2,…um},評(píng)價(jià)等級(jí)集V={v1,v2,…vn}。
2.對(duì)每個(gè)評(píng)價(jià)對(duì)象,有模糊矩陣R,稱(chēng)為某一評(píng)價(jià)對(duì)象的評(píng)價(jià)矩陣。
3.數(shù)據(jù)包絡(luò)分析模型——C2R模型,即應(yīng)用最廣泛的模型進(jìn)行討論。
設(shè)某個(gè)決策單元在某活動(dòng)中的輸入向量為x={x1,x2,…,xs}T,輸出向量為 y={y1,y2,…,ys}T。用(x,y)來(lái)表示這個(gè)決策單元的整個(gè)生產(chǎn)活動(dòng)。
選取需要評(píng)價(jià)的對(duì)象(針對(duì)某因素而言)或因素(針對(duì)某對(duì)象而言)作為數(shù)據(jù)包絡(luò)分析的決策單元,以其評(píng)價(jià)矩陣R的轉(zhuǎn)置矩陣作為決策單元的“輸入”和“輸出”矩陣。對(duì)于一個(gè)決策單元,有t種類(lèi)型的“輸入”以及s種類(lèi)型的“輸出”。s+t=n,n為評(píng)價(jià)等級(jí)的個(gè)數(shù)。
以評(píng)價(jià)對(duì)象為決策單元時(shí),l=k;以評(píng)價(jià)因素為決策單元時(shí),l=m.v1,v2,…vt為數(shù)據(jù)包絡(luò)分析輸入的一種量度(或稱(chēng)權(quán)),u1,u2,…us為數(shù)據(jù)包絡(luò)分析輸出的一種量度(或稱(chēng)權(quán)),如圖1所示。
圖1
記 X=(x1j,x2j,…xtj),Y=(y1j,y2j,…ysj),j=1,2,…l,則可用(Xj,Yj)表第 j個(gè)決策單元。
相對(duì)應(yīng)于權(quán)系數(shù)V={v1,v2,…vt},U={u1,u2,…us},每一個(gè)決策單元都有相應(yīng)的效率評(píng)價(jià)指數(shù)
可以適當(dāng)?shù)剡x取權(quán)系數(shù)V和U,使hj≤1。對(duì)于第 j0個(gè)決策單元的效率指數(shù)為目標(biāo),以所有決策單元(包括第 j0個(gè)決策單元)的效率指數(shù)為約束,構(gòu)成最優(yōu)化模型。原始的C2R模型是一個(gè)分式規(guī)劃,當(dāng)使用Charnes-Cooper變化時(shí),可將分式規(guī)劃化為一個(gè)等價(jià)的線(xiàn)性規(guī)劃(LP)問(wèn)題。
相應(yīng)于第 j0(1≤j0≤l)個(gè)決策單元的線(xiàn)性規(guī)劃模型為:
用線(xiàn)性規(guī)劃的最優(yōu)解來(lái)判斷決策單元 j0的有效性。利用上述模型評(píng)價(jià)決策單元是不是有效是相對(duì)于其他所有決策單元而言的。
4.若要評(píng)價(jià)k個(gè)對(duì)象,即評(píng)價(jià)系統(tǒng)的決策單元有k個(gè)。對(duì)某個(gè)評(píng)價(jià)因素來(lái)說(shuō),可以得到一共k個(gè)線(xiàn)性規(guī)劃模型。這k個(gè)線(xiàn)性規(guī)劃模型的最優(yōu)目標(biāo)函數(shù)值,即為這k個(gè)評(píng)價(jià)對(duì)象在該因素上的評(píng)價(jià)結(jié)果。對(duì)k個(gè)對(duì)象的m個(gè)因素分別進(jìn)行計(jì)算,將每個(gè)評(píng)價(jià)對(duì)象的m個(gè)結(jié)果相乘(或相加),其積(或和)可作為該對(duì)象的總的評(píng)價(jià)結(jié)果。
本文抽取了四份高等數(shù)學(xué)的期末試卷進(jìn)行評(píng)價(jià),分別是08級(jí)高數(shù)上,07級(jí)高數(shù)上,07級(jí)高數(shù)下,06級(jí)高數(shù)下,即上冊(cè)與下冊(cè)各兩份試卷。獲取每份試卷的全部應(yīng)試者成績(jī)和應(yīng)試者的各題得分情況.應(yīng)用基于數(shù)據(jù)包絡(luò)分析的模糊綜合評(píng)判法建模,通過(guò)獲取的數(shù)據(jù),確定評(píng)價(jià)指標(biāo)體系,接下來(lái)結(jié)合教育測(cè)量學(xué)與統(tǒng)計(jì)相關(guān)知識(shí)確定各指標(biāo)的統(tǒng)計(jì)方法與區(qū)分好中差的標(biāo)準(zhǔn),得出科學(xué)評(píng)價(jià)。
我們?nèi)∷姆菰嚲碜髟u(píng)價(jià),上冊(cè)下冊(cè)各兩份試卷,便于作比較。設(shè)評(píng)價(jià)對(duì)象集為 W={w1,w2,…,wn},n=4,w1=08級(jí)高數(shù)上,w2=07級(jí)高數(shù)上,w3=07級(jí)高數(shù)下,w4=06級(jí)高數(shù)下。評(píng)價(jià)等級(jí)集為V={v1,v2,…,vt},t=3,v1= 好,v2= 中,v3= 差。
試卷質(zhì)量評(píng)價(jià)是指評(píng)價(jià)試卷的整體質(zhì)量,影響試卷整體質(zhì)量的主要因素有:試卷的難度、區(qū)分度、信度、內(nèi)容效度、試題覆蓋率、試題及格率以及反映試卷成績(jī)分布正態(tài)性的偏度和峰度[5]。可將這8個(gè)因素分為兩層三組,便于直觀了解,如圖2所示:
圖2
設(shè)評(píng)價(jià)指標(biāo)集為U={u1,u2,…,uk},k=8,u1= 難度,u2=區(qū)分度,u3=信度,u4=內(nèi)容效度,u5=覆蓋率,u6=及格率,u7=偏度,u8=峰度。
通過(guò)計(jì)算獲得各個(gè)評(píng)價(jià)對(duì)象的模糊評(píng)判矩陣,以下先以“08級(jí)高數(shù)上”的評(píng)判矩陣做說(shuō)明:
我們選取每份試卷,即評(píng)價(jià)對(duì)象(針對(duì)某評(píng)價(jià)指標(biāo)而言)作為數(shù)據(jù)包絡(luò)分析的決策單元,以其評(píng)判矩陣的轉(zhuǎn)置矩陣作為決策單元的“輸入”和“輸出”矩陣。
本模型中,決策單元個(gè)數(shù)為l=4,評(píng)價(jià)等級(jí)個(gè)數(shù)為n=3,則對(duì)于一個(gè)決策單元,設(shè)它有t種類(lèi)型的“輸入”以及s種類(lèi)型的“輸出”,那么t+s=3,即t=1或2,對(duì)應(yīng)s=2或1.
下面以區(qū)分度為例進(jìn)行說(shuō)明。對(duì)于區(qū)分度,我們選取好作為輸出,以中、差作為輸入。由上一小節(jié)每個(gè)評(píng)價(jià)對(duì)象的模糊評(píng)判矩陣,我們可以得到區(qū)分度的評(píng)判矩陣的轉(zhuǎn)置矩陣,輸出的度量以 p表示,輸入的度量以q表示,如表1所示:
表1
根據(jù)C2R模型,對(duì)“07級(jí)高數(shù)上”來(lái)說(shuō),可以得到一個(gè)線(xiàn)性規(guī)劃模型,即:
同理可以得到其他3份試卷在區(qū)分度指標(biāo)上的線(xiàn)性規(guī)劃模型。通過(guò)求解得到這4個(gè)線(xiàn)性規(guī)劃的最優(yōu)目標(biāo)函數(shù)值[6],分別為:
同樣我們還可以得到一下結(jié)論:
我們可以對(duì)每個(gè)評(píng)價(jià)對(duì)象的6個(gè)因素都相加,可以得到每個(gè)對(duì)象的總的評(píng)價(jià)結(jié)果。如表2所示:
表2
為了便于查看,將它們匯總到表3中:
表3
從表2中我們可以看出,這四份卷子的各項(xiàng)指標(biāo)數(shù)值除了峰度之外,兩兩之間并沒(méi)有太大差異,并且我們可以將表3中的數(shù)值與表2的評(píng)價(jià)標(biāo)準(zhǔn)進(jìn)行對(duì)比之后得出結(jié)論,整卷難度系數(shù)、區(qū)分度、信度、及格率、覆蓋率基本全都達(dá)到“好”的等級(jí),可見(jiàn)本課程命題水平穩(wěn)定在一個(gè)較高水平,達(dá)到標(biāo)準(zhǔn)參照性考試的要求;整卷的內(nèi)容效度略遜,基本處在“中”的等級(jí);偏度的負(fù)值較大,即負(fù)偏差數(shù)值較大,為正偏或者右偏,即長(zhǎng)尾巴拖在左邊,表明學(xué)生成績(jī)偏高的居多,峰度均略大于0,表明比正態(tài)分布的高峰更加陡峭,不同程度地呈現(xiàn)尖頂峰。
運(yùn)用模型求解前的表1的整卷數(shù)據(jù)所能帶來(lái)的分析結(jié)果有限,并且不能對(duì)比出試卷之間的差異,我們通過(guò)建模求解后獲取的表2來(lái)進(jìn)一步分析評(píng)價(jià)。
表2中,在難度系數(shù)指標(biāo)上,08上、07上、06下的表現(xiàn)都達(dá)到了最優(yōu),而07下的偏低;可以看到表3中07下的整卷難度系數(shù)最小??芍?7下的總體難度偏難,而另外三份試卷的難度則把握得非常好。
表2中,在區(qū)分度指標(biāo)上,07下的表現(xiàn)最優(yōu),表明它的區(qū)分度最合適;另外三份卷子的區(qū)分度也很接近于最優(yōu)??芍@四份卷子的區(qū)分度都比較合適。
表2中,在內(nèi)容效度的指標(biāo)上,07上的表現(xiàn)最優(yōu),具有最高的內(nèi)容效度,這與07上在表3中有最大的內(nèi)容效度也是相符合的。另外三份卷子的內(nèi)容效度相對(duì)不理想,都獲得了較低的目標(biāo)函數(shù)值。我在分析后認(rèn)為,普遍的內(nèi)容效度偏低是受到高數(shù)這個(gè)學(xué)科的特點(diǎn)所影響,高數(shù)中有些章節(jié)是為了后面的章節(jié)做鋪墊,占的學(xué)時(shí)并不少,而在試卷中很少甚至不會(huì)單獨(dú)考察,這造成了該章的吻合率較低,從而影響了總內(nèi)容效度指標(biāo)。比如下冊(cè)的“第7章空間解析幾何與向量代數(shù)”,可以說(shuō)是下冊(cè)的基礎(chǔ),學(xué)時(shí)分配有18,而試卷中的分?jǐn)?shù)往往只是幾分。
表2中,在覆蓋率的指標(biāo)上,07上的獲得最大的目標(biāo)值,這與07上在表3中有最大的覆蓋率也是相符合的。08上的覆蓋率也達(dá)到較高的目標(biāo)值,07下、06下覆蓋率的目標(biāo)值則相對(duì)不理想。覆蓋率與內(nèi)容效度普遍偏低的原因是一樣的,都是受到了小部分基礎(chǔ)章節(jié)的影響,但是從整卷的覆蓋率來(lái)看,四份卷子都是比較理想的。
表2中,在偏度的指標(biāo)上,08上表現(xiàn)最好,而出現(xiàn)了一個(gè)無(wú)效的決策單元06下,剩余的07上、07下則是處于中等。也就是說(shuō),06下的成績(jī)分布過(guò)于負(fù)偏,即成績(jī)偏高的人相對(duì)較多,而06下的難度、區(qū)分度、及格率均較理想,所以我認(rèn)為06級(jí)學(xué)生的掌握水平較好是其中一個(gè)原因。
表2中,在峰度的指標(biāo)上,08上、06下達(dá)到了最大的目標(biāo)值,表明兩者成績(jī)的分布與標(biāo)準(zhǔn)正態(tài)分布的高峰更接近,而07上、07下的成績(jī)分布的高峰要陡峭些,成績(jī)也相對(duì)集中。
總的來(lái)看,08上這份試卷獲得了最高的總評(píng)價(jià)分?jǐn)?shù),其次是07上、06下、07下??陀^地說(shuō),這四份試卷總體來(lái)看都是優(yōu)秀的教學(xué)檢測(cè)試卷,通過(guò)這種新的綜合評(píng)判方法建模求解,我們可以清晰地了解各份卷子的所長(zhǎng)所短,同時(shí)可以對(duì)該課程的命題提些建議,在目前及格率偏高與偏度負(fù)值較大的情況下,稍難題與較難題的數(shù)量可以適量增加,細(xì)節(jié)基礎(chǔ)的知識(shí)點(diǎn)可以通過(guò)客觀小題的形式適量增加,使學(xué)生對(duì)該課程更加重視,學(xué)生的成績(jī)分布更加趨于正態(tài),敦促學(xué)生不斷提高自身學(xué)習(xí)能力,為今后學(xué)習(xí)打下堅(jiān)實(shí)的基礎(chǔ)。
[1]雷新勇.大規(guī)??荚嚱逃?命題與評(píng)價(jià)[M].上海:華東師范大學(xué)出版社.2006.
[2]劉承平.數(shù)學(xué)建模方法[M].北京:高等教育出版社.2002.
[3]胡運(yùn)權(quán),郭耀煌.運(yùn)籌學(xué)教程[M].北京:清華大學(xué)出版社.2003.
[4]杜棟,龐慶華,吳炎.現(xiàn)代綜合評(píng)價(jià)方法與案例精選[M].北京:清華大學(xué)出版社.2008.
[5]張敏強(qiáng).教育測(cè)量學(xué)[M].北京:人民教育出版社.2001.
[6]袁新生.LINGO和EXCEL在數(shù)學(xué)建模中的應(yīng)用[M].北京:科學(xué)出版社.2007.