郭東威
(周口師范學(xué)院 數(shù)學(xué)與統(tǒng)計學(xué)院, 河南 周口 466000)
主觀題型是現(xiàn)代考試和競賽中常見的題型,由于其能夠考查學(xué)生的綜合能力而備受歡迎。然而對主觀題的評分卻較為復(fù)雜,難以把握。本文以大學(xué)生數(shù)學(xué)建模競賽為例探討主觀題型競賽評分和排名的優(yōu)化模型。大學(xué)生數(shù)學(xué)建模競賽是一項能夠檢測大學(xué)生綜合能力的競技活動,也是我國高等院校規(guī)模最大的科技活動之一。數(shù)學(xué)建模競賽論文的評閱問題是一個典型的群組決策問題,即每個參賽隊最終提交一篇論文,由專家評委組按百分制評閱打分。而建模題目比較靈活,參賽隊提交的論文對問題的分析及建立的模型也具有多樣性,因此對論文質(zhì)量的評價沒有確切客觀的標(biāo)準(zhǔn),在一定程度上受主觀因素的影響。比如對同一篇論文有的評委可能認為對問題的分析合理、模型建立準(zhǔn)確、具有一定的創(chuàng)新等,而另一個評委可能認為分析不夠合理、創(chuàng)新性也很一般等。由于每年參賽隊眾多,比如2014年共有25 347個隊參賽,而評委數(shù)量及評閱時間都有限制,因此每篇論文不能由每個評委逐一評閱打分。實際采用的辦法是每篇論文只隨機分配給某幾個評委分別進行評閱打分,通常是每篇論文隨機分配給其中的三個評委。但是,不同的評委打分的習(xí)慣有所不同,有的評委打分普遍偏低,而有的評委打分普遍偏高,如果直接取論文得分的均分進行排名就會出現(xiàn)嚴(yán)重的偏差。為了減小偏差,目前采用的處理方法是標(biāo)準(zhǔn)分法[1]。我國專家學(xué)者易昆南等提出了根據(jù)相關(guān)度或線性回歸理論對殘缺評分矩陣填補的方法[2-3]。文獻[4]和[5]分別根據(jù)成對比較矩陣和逼近理想點法及誤差平方和最小模型確定了評委的權(quán)重,對T分數(shù)加權(quán)排名。文獻[6]應(yīng)用無偏方法“科利法”研究了主觀評分型競賽排名問題,結(jié)果表明科利法的評判結(jié)果受系統(tǒng)誤差及個別異常分數(shù)的影響較小,具有較高的穩(wěn)定性。為了保證評委打分的信度,近年來興起了網(wǎng)上評卷方式,該方式可以實時監(jiān)控評委打分的情況,比如均分、方差及分布等。網(wǎng)評模式在一定程度上控制了評委打分的系統(tǒng)誤差,提高了打分的一致性,但是也導(dǎo)致了評委打分保守的負面影響[7]。本文首先建立論文分配的數(shù)學(xué)模型,其次借鑒梅西評分法原理[8-9],建立一個矛盾的線性評分系統(tǒng),最后求該線性系統(tǒng)的最佳逼近解作為論文的廣義評分進行排名。
為了公平起見,對參賽論文進行密封、編號,并遵循以下分配原則:
(1)每篇論文分配給3個評委分別獨立打分;
(2)各評委不得評閱其所在學(xué)校的論文;
(3)論文的分配盡可能均勻,即每個學(xué)校的論文盡可能分給多個評委;
(4)評委之間盡可能有交叉評閱論文。
變量符號說明:
xsri=0 or 1,若評委i評閱了來自第s號學(xué)校的r(r=1,2,…,Ns)號論文,則xsri=1,否則xsri=0;
ui、di分別表示評委i能夠評閱論文數(shù)量的上、下界;
mi∧mj=0 or 1,若評委i與評委j評閱的論文有交叉,則mi∧mj=1,否則,mi∧mj=0。
論文分配的多目標(biāo)數(shù)學(xué)模型[10]:
目標(biāo)函數(shù)說明:(1)分配給各個評委的論文數(shù)量極差最小,即要求分配給各個評委的論文數(shù)量盡可能接近;(2)有交叉評閱論文的評委組合(每兩位評委視為一個組合)數(shù)最大,即要求評委之間盡可能有交叉評閱論文。
約束條件及說明:
約束條件1:xiri=0,表示評委不得評閱來自其所在學(xué)校的論文;
約束條件6:xsri=0 or 1,mi∧mj=0 or 1。
由于下文建立的模型是一個矛盾方程組,需要用到其最佳逼近解,因此我們有必要在此對最佳逼近解理論做簡單介紹。
定義 設(shè)A∈Rm×n,若有X∈Rn×m滿足:(1)AXA=A;(2)XAX=X;(3)(AX)T=AX;(4)(XA)T=XA。則稱X為矩陣A的廣義逆,記為A+。
定義 當(dāng)方程組Ax=b(A∈Rm×n,b∈Rm)無解時,如何確定xLS∈Rn,使得
稱這樣的xLS為方程組Ax=b(A∈Rm×n,b∈Rm)的最佳逼近解或極小范數(shù)最小二乘解,簡記為LNLS解。
定理 如果線性方程組Ax=b(A∈Rm×n,b∈Rm)無解,則它的極小范數(shù)最小二乘解xLS唯一,并且xLS=A+b。
式中U=(u1,u2,…,um)和V=(v1,v2,…,vn)為正交矩陣;Σr=diag{σ1,σ2,…,σr},σ1≥σ2≥…≥σr>0。則
不失一般性,我們將所有論文依次編號為1,2,…,N,所有評委依次編號為1,2,…,M,記bik表示k號評委對i號論文的原始評分。模型假設(shè)如下:
(1)每個評委都具有很高的水平且評分公平公正,即如果論文i不比論文j質(zhì)量差,且都被評委k評閱,則bik≥bjk;
(2)不考慮評委誤判的情況;
(3)論文的客觀水平及各評委的評分服從正態(tài)分布。
根據(jù)梅西評分法[8-9]的思想建立如下評分系統(tǒng):
ri-rj=yk=zik-zjk,
(1)
yk=zik-zjk表示在k號評委的打分中,論文i,j的分差,ri和rj是論文i,j的廣義上的未知評分。
Xr=y,
(2)
其中,系數(shù)矩陣X中的每一行有N-2個元素為0,只有在位置i上有一個1,而在位置j上有一個-1。對(2)式兩邊同時左乘XT,就得到含有N個未知量N個方程的線性方程組(3)。
XTXr=XTy,
(3)
令M=XTX,p=XTy,則線性方程組(3)變?yōu)?/p>
Mr=p,
(4)
(4)中,M是N×N系數(shù)矩陣,其對角線元素Mii表示論文i和其它論文進行比較的次數(shù),非對角線元素Mij(i≠j)表示論文i與論文j比較次數(shù)的相反數(shù),即論文i與論文j被|Mij|個評委共同評閱過。由于每篇論文只有三個評委評閱,因此非對角線元素Mij(i≠j)只能取0、-1、-2、-3中的某一個數(shù),即任意兩篇論文可能沒有共同的評委、只有一個共同評委、有兩個共同評或三個評委都一樣。顯然M矩陣每行的和為0,因此rank(M) (5) 統(tǒng)計資料表明,在大型競賽或考試中,考生總體成績及評委評分的分布一般呈正態(tài)分布或偏態(tài)分布[11-13],因此在本文所做的模擬試驗中,論文的客觀成績及各評委所打的分數(shù)均服從正態(tài)分布,具體操作如下。 本文采用文獻[9]中的檢驗排名結(jié)果好壞的指標(biāo)。 定義1 導(dǎo)出分:根據(jù)一定的方法將原始分變異得到的分數(shù)稱為導(dǎo)出分。如熟知的“標(biāo)準(zhǔn)分”“T分數(shù)”等都是導(dǎo)出分。 定義2 主觀名次:依據(jù)原始評分或?qū)С龇值玫降膮①悓ο蟮拿畏Q為主觀名次。 定義3 重合度:主觀名次與客觀名次相同的個數(shù)稱為重合度。 定義4 亂序度:主觀名次與客觀名次差的絕對值的和稱為亂序度。 不難理解,重合度越大、亂序度越小時表示排名越科學(xué)合理,差異度β越小說明主觀名次與客觀名次越一致。 取參賽論文數(shù)量N=100,評委數(shù)M分別取5、8、12、20四中情況,客觀成績均服從正態(tài)分布N(50,12),分別進行模擬試驗100次,并將本文方法的排名結(jié)果與標(biāo)準(zhǔn)分法做比較,具體結(jié)果見下表1,表中方法1指標(biāo)準(zhǔn)分法,方法2指本文方法。 表1 實驗結(jié)果 根據(jù)實驗結(jié)果的對比分析可以得出以下結(jié)論: (1)無論評委數(shù)量多少,從檢驗排名效果的三個指標(biāo)重合度、亂序度、差異度看,本文方法排名結(jié)果都遠比標(biāo)準(zhǔn)分方法的排名結(jié)果優(yōu)良; (2)從各指標(biāo)的標(biāo)準(zhǔn)差來看,本文方法重合度的標(biāo)準(zhǔn)差比標(biāo)準(zhǔn)分法略高,亂序度及差異度的標(biāo)準(zhǔn)差均比標(biāo)準(zhǔn)分法小很多,這就說明本文方法的排名效果較標(biāo)準(zhǔn)分法更加穩(wěn)定; (3)當(dāng)參賽論文數(shù)量一定時,評委的數(shù)量越多,殘缺評分的排名效果越差。因此在保證完成評閱工作的同時,要盡可能的減少評委數(shù)量,以提高排名質(zhì)量。 限于篇幅,下表2給出評委數(shù)為M=5,論文數(shù)為100的某次具體實驗的數(shù)據(jù)。表中傳統(tǒng)方法指直接取原始評分的均分,方法1指T分數(shù)法(標(biāo)準(zhǔn)分法),方法2指本文方法。方法2使用公式(5)時參數(shù)設(shè)置為σ=10及u=60。 由表2可知,方法2的亂序度、差異度都明顯優(yōu)于傳統(tǒng)方法和方法1,說明本文方法的排名結(jié)果較傳統(tǒng)方法和T分數(shù)法都要科學(xué)合理。 表2 分數(shù)與名次 續(xù)表 群組決策旨在對所評價對象做出相對公正準(zhǔn)確的評價,但是即便各個評委都是水平很高、公正無私的,由于評分習(xí)慣的不同,也會因系統(tǒng)誤差帶來最終排名結(jié)果的誤差,尤其是像大學(xué)生數(shù)學(xué)建模競賽類的缺損評分,如果直接取原始評分的均值排名(傳統(tǒng)方法)就會造成較大的誤差。標(biāo)準(zhǔn)分法減小了評委打分的系統(tǒng)誤差,因此其排名效果要比傳統(tǒng)方法好很多。但是標(biāo)準(zhǔn)分法對于殘缺評分矩陣也有不妥之處,即標(biāo)準(zhǔn)分法統(tǒng)一了每個評委所評閱的論文的平均分和方差,而事實上每個評委評閱的論文整體水平是有差異的。本文先用標(biāo)準(zhǔn)分減小系統(tǒng)誤差,再利用梅西評分理論建立一個矛盾評分系統(tǒng),通過求解最佳逼近解作為論文的廣義評分進行排名,改善了單單使用標(biāo)準(zhǔn)分法的排名效果,使排名結(jié)果更科學(xué)合理。 對于主觀型評分的競賽,為了使排名更加科學(xué)準(zhǔn)確,筆者提出以下建議。 第一,閱卷前對評委進行統(tǒng)一培訓(xùn),討論并掌握各個主觀題的評分標(biāo)準(zhǔn)。 第二,正式閱卷前試評。抽取一定數(shù)量的論文,有每個評委對這些論文分別打分排名,比較每個評委的排名結(jié)果是否相差較大。如果某評委的排名結(jié)果與其他評委的結(jié)果相差太大,及時對該評委進行培訓(xùn)或調(diào)整。 第三,強化排名結(jié)果的一致性。注重排名結(jié)果的一致性可以避免評委打分保守的現(xiàn)象。在試評中如果每個評委的排名結(jié)果均相差不大(可以用重合度、亂序度、差異度來衡量),那么可以認為每個評委的打分都是有效的。 主觀題型的客觀評判是一項復(fù)雜的系統(tǒng)問題,本文所用梅西評分法主要降低了評分打分的系統(tǒng)誤差,從而提高了對參賽論文綜合評價及排名的科學(xué)性。但是,沒有考慮評委打分的隨機誤差及誤判。因此,進一步提高評判的科學(xué)性,可以從降低隨機誤差和識別評委誤判等方面考慮。當(dāng)然,系統(tǒng)誤差是影響殘缺型評分準(zhǔn)確性的主要原因,研究如何進一步降低系統(tǒng)誤差是該課題需要解決的關(guān)鍵問題。3 模擬試驗及比較分析
3.1 成績的生成
3.2 檢驗排名結(jié)果好壞的指標(biāo)
3.3 仿真實驗及分析
4 結(jié)束語