曾 情, 首照宇, 趙 暉, 張 彤
(1.桂林電子科技大學(xué) 信息與通信學(xué)院,廣西 桂林 541004;2.桂林電子科技大學(xué) 機電工程學(xué)院,廣西 桂林 541004)
理論教學(xué)評估體系具有多元評價主體和多維評價指標(biāo)復(fù)雜的特點,建立一個科學(xué)有效的評估體系首先需要處理好多元主體和多維指標(biāo)之間的關(guān)系,而評價指標(biāo)的衡量界限是非常模糊和難以量化的。為了解決理論教學(xué)評估中多維指標(biāo)權(quán)重分配的難題,學(xué)者們提出了很多指標(biāo)融合計算的方法,目前常見的主要有AHP法[1]、Dijkstra法[2-4]、粗糙集法[5-8]和信息熵法[9-11]等單一的方法及簡單的融合賦權(quán)法[12-19]等。文獻[1]采用AHP建立關(guān)于資源分配的層次結(jié)構(gòu)模型,構(gòu)造資源分配矩陣,從而確定各資源的權(quán)重分配系數(shù),但由于構(gòu)造的矩陣具有較大的主觀性,其判斷結(jié)果是粗糙的。文獻[5]基于改進的粗糙集條件信息熵計算各指標(biāo)的權(quán)重,構(gòu)建了指標(biāo)體系下的改進的粗糙集-云模型,但所得到的權(quán)重只重視不同指標(biāo)的表現(xiàn)情況,忽視了指標(biāo)本身重要性的排序,其評價結(jié)果往往不太理想。文獻[12]利用模糊數(shù)學(xué)原理提出了一種新的主客觀賦權(quán)方法,采用線性組合法和乘法合成歸一法對新提出的主客觀權(quán)重進行融合,但乘法融合賦權(quán)具有較強的“倍增效應(yīng)”,極易導(dǎo)致融合權(quán)重大的越大,小的越小。文獻[16]根據(jù)評價指標(biāo)體系,利用G1賦權(quán)法和Gini賦權(quán)法構(gòu)造了基于客觀修正主觀的組合賦權(quán)方法,確定了評價指標(biāo)的組合權(quán)重。文獻[19]利用云模型、改進層次分析法與熵權(quán)法對膨脹土脹縮等級進行評價,根據(jù)脹縮性等級分類標(biāo)準(zhǔn)生成每個評價標(biāo)準(zhǔn)的云數(shù)字特征,建立各評價因子的云模型,計算指標(biāo)融合權(quán)重值。
以上這些傳統(tǒng)的指標(biāo)融合計算方法只注重評價指標(biāo)融合的科學(xué)性,而未考慮評價過程中不合理數(shù)據(jù)的處理。鑒于此,提出一種基于加權(quán)距離和的多維指標(biāo)融合計算方法,使評價指標(biāo)融合更合理的同時還利用局部加權(quán)距離和的思想對評價數(shù)據(jù)進行清洗過濾,檢測并剔除可能對最終評價結(jié)果產(chǎn)生較大影響的不合理數(shù)據(jù),將更科學(xué)的指標(biāo)融合權(quán)重和更合理的評價數(shù)據(jù)進行全面融合,使評價結(jié)果科學(xué)化。
本研究用AHP確定主觀權(quán)重系數(shù),用信息熵確定客觀權(quán)重系數(shù),采用離差最大化的思想將主客觀權(quán)重系數(shù)進行融合,得到多維指標(biāo)融合權(quán)重系數(shù)。將指標(biāo)融合權(quán)重系數(shù)與經(jīng)過局部加權(quán)距離和處理后的評價數(shù)據(jù)進行再次融合,輸出最終評價值。
1)主觀權(quán)重系數(shù)獲取方法:AHP。根據(jù)評價指標(biāo)體系的內(nèi)容,考慮本層次的各個因素對上一層次指標(biāo)因素的影響程度,利用1~9標(biāo)度法將同層次的因素進行兩兩比較,構(gòu)造n階判斷矩陣C,歸一化處理后導(dǎo)出主觀權(quán)重系數(shù)
2)客觀權(quán)重系數(shù)獲取方法:信息熵。假設(shè)有n個評價指標(biāo)及m個評價對象,評審專家對指標(biāo)進行評分,經(jīng)過規(guī)范化得到數(shù)據(jù)矩陣A=(aij)m×n,若第j項屬性指標(biāo)下的第i個評價對象指標(biāo)值權(quán)重為
第j項指標(biāo)的熵值為
則屬性指標(biāo)j的權(quán)重系數(shù)
3)主客觀權(quán)重融合方法離差最大化。假設(shè)有l(wèi)種具體的賦權(quán)方式對n個屬性指標(biāo)計算權(quán)重系數(shù)。設(shè)第k種賦權(quán)方式計算出的權(quán)重向量值為
Wk=(w1k,w2k,…,wnk)T,k=1,2,…,l,
其中,
記融合賦權(quán)
Wc=(wc1,wc2,…,wcn)T,
令Wc=ψ1W1+ψ2W2+…+ψlWl。其中,ψk≥0,且
令分塊矩陣
Wb=(W1,W2,…,Wl),Φ=(ψ1,ψ2,…,ψl)T,
(1)
若令
為n維行向量,則目標(biāo)函數(shù)J(Wc)可表示為J(Wc)=B1Wc,將J(Wc)記為F(Φ),離差最大化的指標(biāo)融合賦權(quán)即可轉(zhuǎn)化為最優(yōu)化問題,記為如下模型:
maxF(Φ)=B1WΦ,ΦTΦ=1,Φ≥0。
(2)
為了更好地描述基于局部加權(quán)距離和的數(shù)據(jù)處理方法,對方法中使用的相關(guān)定義概述如下。
(3)
(4)
(5)
其中d(xi,xj)為對象xj到xi的歐氏距離。
定義3消除因子。消除因子用近鄰距離加權(quán)和來表示。對于任意自然數(shù)k,定義對象Xi的k最近鄰距離加權(quán)和為對象xi的k最近鄰距離加權(quán)求和,用F(xi)表示,計算方法為
(6)
定義4判決準(zhǔn)則。數(shù)據(jù)對象xi的判決閾值T由其k最近鄰距離加權(quán)和F(xi)的均值和標(biāo)準(zhǔn)差來確定,計算方法為
T=δmean(F(xi))+mδstd(F(xi))。
(7)
其中:m為常數(shù);δmean()為均值函數(shù);δstd()為標(biāo)準(zhǔn)差函數(shù)。均值反映樣本實例的總體情況,而標(biāo)準(zhǔn)差能反映樣本的偏離程度。當(dāng)數(shù)據(jù)對象xi的k最近鄰距離加權(quán)和F(xi)>T時,則將其判別為不合理數(shù)據(jù)對象。
基于局部加權(quán)距離和的多維指標(biāo)融合計算模型如圖1所示。評價數(shù)據(jù)經(jīng)過DPLWD方法處理,剔除可能對綜合評價產(chǎn)生較大影響的不合理數(shù)據(jù)對象,然后利用離差最大化將AHP得到的主觀權(quán)重與信息熵得到的客觀權(quán)重進行指標(biāo)融合賦權(quán),再將處理后的數(shù)據(jù)與指標(biāo)融合權(quán)重進行評價過程的融合計算,最后導(dǎo)出最終評價值。
圖1 基于局部加權(quán)距離和的多維指標(biāo)融合計算模型
2.1.1 DPLWD方法描述
基于局部加權(quán)距離和的數(shù)據(jù)處理(data processing based on local weighted distance,簡稱DPLWD)方法主要實現(xiàn)對數(shù)據(jù)集中不合理數(shù)據(jù)對象進行檢測并剔除。其大致過程為:對于從高校評價體系中得到的數(shù)據(jù)集D,包含N個數(shù)據(jù)對象,即D={x1,x2,…,xN}。假設(shè)每個對象x包含n個屬性。根據(jù)初始設(shè)置的最近鄰個數(shù)k及距離矩陣確定各數(shù)據(jù)點k最近鄰集合,利用式(3)計算近鄰距離權(quán)值w,根據(jù)式(5)、(6)對數(shù)據(jù)集對象加權(quán)求和得到消除因子F(xi),通過式(7)計算出判決閾值來判定最終的不合理數(shù)據(jù),剔除不合理數(shù)據(jù)集,并得到最終數(shù)據(jù)集D′。
DPLWD方法具體流程如偽代碼方法1所示。
方法1基于局部加權(quán)距離和的數(shù)據(jù)處理方法。
輸入:數(shù)據(jù)集D,最近鄰個數(shù)k,閾值調(diào)整系數(shù)m。
輸出:剔除后數(shù)據(jù)集D′。
初始化參數(shù)k,m
計算得到數(shù)據(jù)集D的距離矩陣M
for eachxi∈Ddo
根據(jù)距離矩陣M,得到數(shù)據(jù)點xi的k近鄰距離集合Nk(xi)
根據(jù)式(3)計算數(shù)據(jù)點xi到鄰域內(nèi)其它點的權(quán)值向量w
根據(jù)式(5)計算數(shù)據(jù)點xi到鄰域內(nèi)某點xj的加權(quán)距離f(xij)
根據(jù)式(6)計算數(shù)據(jù)點xi的消除因子F(xi)
end for
根據(jù)式(7)計算判決閾值T。
for eachxi∈Ddo
ifF(xi)>Cthen
剔除數(shù)據(jù)點xi
end if
end for
return 剔除后數(shù)據(jù)集D′
2.1.2 DPLWD方法驗證
1)仿真數(shù)據(jù)集實驗與分析。
為了驗證該方法可行性,采用可視化的二維和三維數(shù)據(jù)集進行驗證實驗,驗證結(jié)果如圖2、圖3所示。
圖2 二維數(shù)據(jù)集驗證
圖3 三維數(shù)據(jù)集驗證
圖2為包含1000個數(shù)據(jù)點的二維數(shù)據(jù)集,且有2個密度分布不均勻的簇。圖3為包含860個數(shù)據(jù)點的三維數(shù)據(jù)集。
從圖2(b)、圖3(b)可看出,不合理數(shù)據(jù)對象點已經(jīng)被圓圈標(biāo)記出,且在數(shù)據(jù)集中圓圈的半徑代表了不合理的程度,半徑越大,不合理程度越大,越有可能是不合理數(shù)據(jù)點。在圖2(a)中數(shù)據(jù)集有2個密度差異較大的簇,且簇的分布不規(guī)則,運用DPLWD方法能將被簇包圍的不合理數(shù)據(jù)點檢測出,在圖3(b)中的三維數(shù)據(jù)集中同樣也具有較好的檢測效果。
2)真實數(shù)據(jù)集實驗與分析。
通過真實數(shù)據(jù)集實驗來對比驗證DPLWD方法的性能優(yōu)勢。表1為來自于UCI機器學(xué)習(xí)庫的13個真實數(shù)據(jù)集,他們具有不同的規(guī)模大小和維度。本實驗環(huán)境為Matlab R2016a、Intel CPU 2.5 GHz、內(nèi)存8 G。DPLWD方法只需確定k最近鄰距離個數(shù),利用人工干預(yù)的方法確定最佳的k值,并與經(jīng)典的LOF方法[22]、ABOD方法[23]和SVM檢測方法[24]在運行時間、精確度和召回率曲線下的面積(area under the precision-recall curve,簡稱AUCPR)等性能指標(biāo)進行對比,結(jié)果如表2、表3所示。
表1 實驗數(shù)據(jù)集
從表2可看出,DPLWD方法的運行時間明顯少于LOF、ABOD和SVM三種方法的運行時間。在數(shù)據(jù)集Pima、Skin、Covtype和Record中,它們是低維的數(shù)據(jù)集對象,且屬于數(shù)值型的數(shù)據(jù)集,相比于LOF、ABOD和SVM方法,DPLWD方法有更大優(yōu)勢。在大規(guī)模數(shù)據(jù)集Record上,LOF和SVM兩種方法出現(xiàn)了計算NP問題。隨著維度的增加,如Mfeat和Isolet達到數(shù)百維時,DPLWD方法同樣能表現(xiàn)出好的效果,且當(dāng)數(shù)據(jù)集規(guī)模較小時,本方法有明顯優(yōu)勢,隨著維度的增加,同樣能夠表現(xiàn)出較好的效果。
表2 數(shù)據(jù)集實驗運行時間 s
表3 精確度-召回率曲線下面積(AUCPR)
表3為各方法得到的AUCPR值,AUCPR值反映了分類的好壞,AUCPR值越大,表明分類結(jié)果越好。從表3可看出,在運用DPLWD方法時,有8個數(shù)據(jù)集的AUCPR值大于其他3種方法,同時該方法的AUCPR均值也大于另外3種方法,表明DPLWD方法具有明顯優(yōu)勢。
通過實驗驗證了DPLWD方法具有2個特點:1)對于小規(guī)模的樣本數(shù)據(jù)集,DPLWD有著更高的精確度;2)在保證精確度的情況下,DPLWD方法有更短的運行時間。
綜合以上實驗數(shù)據(jù)分析可知,DPLWD方法更加適用于大規(guī)模多維數(shù)據(jù)集以及密度分布不均勻的空間模型數(shù)據(jù)集,能有效地剔除不合理數(shù)據(jù)對象。
為了分析基于局部加權(quán)距離和的多維指標(biāo)融合計算方法的實際效果,選取某高校理論教學(xué)評價指標(biāo)體系的數(shù)據(jù)。該評價指標(biāo)體系包含了多元評價主體校領(lǐng)導(dǎo)、中層干部、督導(dǎo)和同行,每個評價主體都對應(yīng)著不同的一級評價指標(biāo)和二級評價指標(biāo),如同行對應(yīng)的一級評價指標(biāo)為教學(xué)態(tài)度、教學(xué)內(nèi)容、教學(xué)組織和聽課效果,其中每項一級評價指標(biāo)下還分別對應(yīng)詳細的二級評價指標(biāo)。
選取該評價指標(biāo)體系下某教師一學(xué)期的所有被聽課評價數(shù)據(jù)共412條,校領(lǐng)導(dǎo)、中層干部、督導(dǎo)和同行4個評價主體的評價數(shù)據(jù)分別為43、89、138、142條。將一條評價數(shù)據(jù)看作一個四維數(shù)據(jù)點,通過運行DPLWD方法,檢測出該教師本學(xué)期被聽課評價數(shù)據(jù)中存在13個不合理數(shù)據(jù)對象,其中,校領(lǐng)導(dǎo)、中層干部、督導(dǎo)和同行4個評價主體的不合理評價數(shù)據(jù)分別為1、2、4、6條。特別是第223個數(shù)據(jù)點的4個評價指標(biāo)評分分別為50、50、60、60分,該評價數(shù)據(jù)明顯偏離了其他合理數(shù)據(jù)點。為了避免不合理評價數(shù)據(jù)對象對融合計算結(jié)果產(chǎn)生較大影響,對檢測得到的13條不合理評價數(shù)據(jù)進行了剔除,以保證評價指標(biāo)與評價過程融合更加科學(xué)合理。
邀請專家擔(dān)任測評者,利用AHP構(gòu)造判斷矩陣確定專家主觀權(quán)重,利用信息熵對專家的評分向量進行處理,確定專家客觀權(quán)重。將主客觀權(quán)重利用離差最大化的思想由式(2)構(gòu)成最優(yōu)化模型進行評價指標(biāo)融合計算,解出最優(yōu)的多維指標(biāo)融合賦權(quán)向量,其中校領(lǐng)導(dǎo)、中層干部、督導(dǎo)和同行4個評價主體對應(yīng)的4個一級評價指標(biāo)的融合權(quán)重向量分別為
(0.229,0.332,0.319,0.120)T,
(0.341,0.382,0.154,0.123)T,
(0.077,0.363,0.159,0.401)T,
(0.215,0.221,0.308,0.256)T。
校領(lǐng)導(dǎo)、中層干部、督導(dǎo)和同行4個評價主體的融合權(quán)重向量為(0.1,0.2,0.3,0.4)T,將剔除了不合理數(shù)據(jù)對象的399條理論教學(xué)評價數(shù)據(jù)與多維指標(biāo)融合權(quán)重進行再次融合計算,可得該教師的最終評分為87.822 3分。未剔除不合理評價數(shù)據(jù)之前該教師的綜合評分為87.309 7分,相比剔除不合理評分數(shù)據(jù)之后進行融合計算的教師評分低了0.512 6分,一定程度上低估了該教師的教學(xué)水平。因此,本方法所獲得的教師綜合評分更加客觀合理,能反映出該教師的真實水平。
提出的基于局部加權(quán)距離和的多維指標(biāo)融合計算方法不僅實現(xiàn)了評價指標(biāo)融合,還實現(xiàn)了評價指標(biāo)與評價過程融合,使評價結(jié)果更精確科學(xué),且對DPLWD方法在仿真數(shù)據(jù)集上進行驗證實驗,都能達到預(yù)期的數(shù)據(jù)處理效果。在真實數(shù)據(jù)集上與經(jīng)典LOF、ABOD和SVM方法進行對比分析,表明了該方法有較短的運行時間和較好AUCPR值。為快速得出更加合理的融合計算結(jié)果,今后將對k值的自適應(yīng)性進行研究,并在時間復(fù)雜度上進行優(yōu)化,使多維指標(biāo)融合計算更科學(xué)、高效。